KR102339149B1 - 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체 - Google Patents

기계 번역 모델 트레이닝 방법, 장치 및 기록 매체 Download PDF

Info

Publication number
KR102339149B1
KR102339149B1 KR1020200010849A KR20200010849A KR102339149B1 KR 102339149 B1 KR102339149 B1 KR 102339149B1 KR 1020200010849 A KR1020200010849 A KR 1020200010849A KR 20200010849 A KR20200010849 A KR 20200010849A KR 102339149 B1 KR102339149 B1 KR 102339149B1
Authority
KR
South Korea
Prior art keywords
data
region
training
subset
model
Prior art date
Application number
KR1020200010849A
Other languages
English (en)
Other versions
KR20210076804A (ko
Inventor
유후이 순
시앙 리
징웨이 리
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210076804A publication Critical patent/KR20210076804A/ko
Application granted granted Critical
Publication of KR102339149B1 publication Critical patent/KR102339149B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

본 발명은 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체를 제공하며, 자연어 처리 기술 분야에 해당된다. 해당 방법은, 복수 개의 트레이닝 데이터페어를 포함한 복수의 영역이 혼합된 트레이닝 데이터세트를 획득하는 단계; 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하는 단계; 각각의 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계; 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계;를 포함한다. 본 발명에 따르면, 혼합 영역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시킬 수 있다.

Description

기계 번역 모델 트레이닝 방법, 장치 및 기록 매체{METHOD, APPARATUS FOR TRAINING MACHINE TRANSLATION MODEL AND RECORDING MEDIUM}
본 발명은 자연어 처리 기술 영역에 관한 것으로서, 특히 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체에 관한 것이다.
기계 번역 분야에 있어서, 언어 번역의 정확도를 지향하기 위해 사람들은 기계 번역 트레이닝 방식에 대해 끊임없는 개진을 진행하고 있다.
관련 기술에 있어서, 복수 개의 데이터 영역의 언어 데이터들을 함께 혼합하여 트레이닝을 진행하는 것을 통해 복수의 영역의 번역에 적용되고 각각의 영역에서 번역 효과가 모두 비교적 좋은 한 개의 통용적인 번역 모델을 얻는다.
서로 다른 영역의 언어 데이터에 대해, 언어 데이터를 포함한 데이터량의 차이로 인한 트레이닝 난이도가 불일치한 문제가 있을 수 있다. 상기 관련 기술에 있어서, 복수 개의 데이터 영역의 언어 데이터들을 함께 혼합하여 트레이닝을 진행하여 얻은 번역 모델은 서로 다른 영역의 언어 데이터의 번역 결과의 품질이 불일치한 문제를 초래할 수 있다.
본 발명에서는 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체를 제공하며, 상기 기술 방안은 아래와 같다.
본 발명의 제1 양태에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하는 단계;
상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계;
각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계;
각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;
상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계; 를 포함하는 기계 번역 모델 트레이닝 방법을 제공한다.
일 가능한 구현 방식에 있어서, 상기 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계는,
각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;
상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계;
상기 적어도 두 개의 후보 최적화 타겟에 기반하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계는,
각각의 상기 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 상기 최적화 타겟 함수는 pT(X)+(1-p)Y이며, T(X)는 상기 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0≤p≤1을 만족함 - 하는 단계;
영역 가중치p의 적어도 두 개의 값을 선택하고, 상기 최적화 타겟 함수에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계는,
상기 복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 상기 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트에는 적어도 한 개의 상기 트레이닝 데이터페어가 포함됨 - 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 상기 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계는,
각각의 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 상기 각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계는,
각각의 상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하는 단계;
상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델의 정확도를 테스트하는 단계;
테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계는,
각각의 상기 영역 데이터 서브세트를 상기 혼합 영역 모델에 입력하고, 상기 영역 데이터 서브세트에 대응하는 상기 지정된 최적화 타겟에 따라 상기 혼합 영역 모델을 트레이닝하는 단계;를 포함한다.
본 발명의 제2 양태에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하도록 구성되는 획득 모듈;
상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하도록 구성되는 분류 모듈;
각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하도록 구성되는 제1 트레이닝 모듈;
각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 테스트 모듈;
상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하도록 구성되는 제2 트레이닝 모듈;을 포함하는 기계 번역 모델 트레이닝 장치를 제공한다.
일 가능한 구현 방식에 있어서, 상기 제1 트레이닝 모듈은,
각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성되는 제1 트레이닝 모델 서브 모듈;
상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하도록 구성되는 확정 서브 모듈;
상기 적어도 두 개의 후보 최적화 타겟에 기반하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하도록 구성되는 제2 트레이닝 서브 모듈;을 포함한다.
일 가능한 구현 방식에 있어서, 상기 확정 서브 모듈은,
각각의 상기 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 상기 최적화 타겟 함수는 pT(X)+(1-p)Y이며, T(X)는 상기 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0≤p≤1을 만족함 - 하고;
영역 가중치p의 적어도 두 개의 값을 선택하고, 상기 최적화 타겟 함수에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 분류 모듈은,
상기 복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 상기 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트에는 적어도 한 개의 상기 트레이닝 데이터페어가 포함됨 - 하도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 제1 트레이닝 서브 모듈은,
각각의 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 테스트 모듈은,
각각의 상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하도록 구성되는 구축 서브 모듈;
상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델의 정확도를 테스트하도록 구성되는 테스트 서브 모듈;
테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 선택 서브 모듈;을 포함한다.
일 가능한 구현 방식에 있어서, 상기 제2 트레이닝 모듈은,
각각의 상기 영역 데이터 서브세트를 상기 혼합 영역 모델에 입력하고, 상기 영역 데이터 서브세트에 대응하는 상기 지정된 최적화 타겟에 따라 상기 혼합 영역 모델을 트레이닝하도록 구성된다.
본 발명의 제3 양태에 있어서, 프로세서;
상기 프로세서의 수행 가능한 명령을 저장하도록 구성되는 메모리;를 포함하고,
상기 프로세서는,
복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하고;
상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하며;
각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하고;
각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며;
상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하도록 구성되는 기계 번역 모델 트레이닝 장치를 제공한다.
본 발명의 제4 양태에 있어서, 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 기록 매체에는 적어도 한 개의 명령, 적어도 한 단락의 프로그램, 코드 세트 또는 명령 세트가 저장되어 있으며, 상기 적어도 한 개의 명령, 상기 적어도 한 단락의 프로그램, 상기 코드 세트 또는 상기 명령 세트는 상기 프로세서에 의해 로딩되어 상기 제1 양태 또는 제1 양태의 임의의 선택 가능한 방안에 기재된 기계 번역 모델 트레이닝 방법을 구현하는 컴퓨터 판독 가능한 기록 매체를 제공한다.
본 발명의 실시예에서 제공하는 기술 방안은 아래와 같은 유익한 효과를 포함할 수 있다.
복수의 영역이 혼합된 트레이닝 데이터세트를 획득하고, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하며, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하며; 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 것을 통해, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득하며, 기계 번역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시키는 것을 구현한다.
하기의 도면은 명세서에 병합되어 본 명세서의 일부를 구성하고 본 발명에 부합하는 실시예를 표시하며 명세서와 함께 본 발명의 원리를 해석한다.
도 1은 본 발명의 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 방법의 흐름도이다.
도 2는 본 발명의 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 방법의 흐름도이다.
도 3은 본 발명의 일 예시적 실시예에 따른 데이터 영역 분류 모델의 분류 모식도이다.
도 4는 본 발명의 일 예시적 실시예에 따른 서로 다른 최적화 타겟에 기반하여 단일 영역 모델을 트레이닝하는 모식도이다.
도 5는 본 발명의 일 예시적 실시예에 따른 혼합 영역 모델을 트레이닝하는 모식도이다.
도 6은 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 장치의 블록도이다.
도 7은 일 예시적 실시예에 따른 컴퓨터 디바이스의 구조 블록도이다.
여기서, 예시적인 실시예에 대하여 상세하게 설명하고, 그 사례를 도면에 표시한다. 하기의 서술이 도면에 관련될 때, 달리 명시하지 않는 경우, 서로 다른 도면에서의 동일한 부호는 동일한 구성 요소 또는 유사한 구성 요소를 나타낸다. 하기의 예시적인 실시예에서 서술한 실시 방식은 본 발명에 부합되는 모든 실시 방식을 대표하는 것이 아니며, 실시 방식들은 다만 첨부된 특허 청구의 범위에 기재한 본 발명의 일부 측면에 부합되는 장치 및 방법의 예이다.
응당 이해해야 할 것은, 본 발명에서 언급한 "약간 개"는 한 개 또는 복수 개를 의미하는 것으로서, "복수 개"는 두 개 또는 두 개 이상을 의미한다. "및/또는"은 연관 대상의 연관 관계를 설명하는 것으로서 세 가지 관계가 존재할 수 있음을 표시하는 바, 예를 들면, A 및/또는 B는 A가 단독으로 존재하거나, A와 B가 동시에 존재하거나, B가 단독으로 존재하는 이 세 가지 경우를 표시할 수 있다. 부호 "/"은 일반적으로 전후 연관 대상이 일종의 "또는"의 관계임을 표시한다.
설명에 대한 이해를 돕기 위해, 이하 먼저 본 발명에 관한 일부 용어들에 대해 소개한다.
1) 인공 지능 (Artificial Intelligence, AI)
인공 지능은 디지털 컴퓨터 또는 디지털 컴퓨터에 의해 제어되는 기계를 이용하여 사람의 지능을 시뮬레이션, 연신, 확장하고, 환경을 감지하고 지식을 획득하며 지식을 사용하여 최적의 결과를 얻는 이론, 방법, 기술 및 응용 시스템이다. 인공 지능은 컴퓨터 과학의 하나의 종합 기술로서, 지능의 실질에 대해 이해하고 인류 지능과 유사한 방식으로 반응할 수 있는 일종의 새로운 스마트 기계를 생산하는 것을 시도한다. 인공 지능은 각종 스마트 기계의 설계 원리 및 구현 방법을 연구하여 기계로 하여금 감지, 추리 및 결단의 기능을 구비하도록 한다.
인공 지능 기술은 한 개의 종합적인 학과로서, 이와 관련된 영역은 하드웨어적인 기술 뿐만 아니라 소프트웨어적인 기술도 포함하여 광범위하다. 인공 지능 기초 기술은 일반적으로 센서, 전문 인공 지능 칩, 클라우드 계산, 분포식 저장, 빅 데이터 처리 기술, 운영 체제, 인터랙션 시스템, 메카트로닉스 등과 같은 기술을 포함한다. 인공 지능 소프트웨어 기술은 주로 컴퓨터 시각 기술, 음성 처리 기술, 자연어 처리 기술 및 머신 러닝/딥 러닝 등 몇 개의 큰 방향을 포함한다.
2) 자연어 처리(Nature Language processing, NLP)
자연어 처리는 컴퓨터 과학 영역과 인공 지능 영역에서의 하나의 중요한 방향으로서, 사람과 컴퓨터 간에 자연어를 이용하여 효과적인 통신을 진행할 수 있는 각종 이론과 방법을 연구한다. 자연어 처리는 언어학, 컴퓨터 과학, 수학을 일체화로 융합한 한나의 과학이다. 따라서, 해당 영역의 연구는 자연어 즉 사람들이 일상적으로 사용하는 언어에 관련되게 되는 바, 언어학의 연구와는 밀접한 연관성을 가지게 된다. 자연어 처리 기술은 일반적으로 텍스트 처리, 의미 이해, 기계 번역, 로봇 문답, 지식 그래프 등 기술을 포함한다.
3) 지식 증류(Knowledge Distillation)
지식 증류는 암흑의 지식 추출(dark knowledge extract)이라고도 지칭하며, 복잡하지만 추리 성능이 우수한 교사 네트워크(teacher network)와 관련한 소프트 타겟(soft-target)을 전체 손실(total loss)의 일부분으로 하여 간소화하고 복잡도가 낮은 학생 네트워크(student network)의 트레이닝을 유도함으로써 지식 이전(knowledge transfer)을 구현한다.
여기서, 지식 이전은 한 개의 학습의 다른 한 개의 학습에 대한 영향으로서, 학습이라는 이 연속적인 과정에 있어서, 학습의 종류를 막론하고 모두 학습자들이 이미 구비한 지식 경험과 인지 구조, 이미 얻은 동작 기술 능력, 습득한 태도 등에 기초하여 진행하는 것이며, 즉, 새로운 지식과 낡은 지식 간의 연관성을 이용하여 학생들을 새로운 지식과 낡은 지식을 비교하도록 계발하며, 낡은 지식으로부터 새로운 지식을 사고하고 깨우치며 학습하는 방법을 배우도록 한다.
4) 기계 번역(Machine Translate)
기계 번역은 자동 번역이라고도 지칭하며, 컴퓨터를 이용하여 한 개의 자연어(소스 언어)를 다른 한 개의 자연어(타겟 언어)로 전환하는 과정으로서, 일반적으로 자연어 간의 구절과 전문의 번역을 의미한다. 기계 번역은 자연어 처리의 한 개의 분지로서 컴퓨터 언어학, 자연어 이해와는 갈라놓을 수 없는 관계가 존재한다. 기계 번역은 언어학 원리를 운용하여, 기계가 자동으로 어법을 인식하고 저장된 어휘 목록을 호출하여 자동으로 대응 번역을 진행하지만, 어법, 문법 등이 변화하거나 불규칙적인 원인으로 인해 기계 번역에는 여전히 번역이 정확하지 못한 문제가 존재한다.
관련 기술에 있어서, 서로 다른 영역의 언어 시퀀스에 대해 번역을 진행할 경우, 미세 조정(fine-tune)의 방식을 통해 구현하여야 하며, 해당 방법의 구현 과정은 아래와 같다.
1) 한 개의 일반 언어 데이터량이 비교적 큰 영역 데이터(in-domain)에서 한 개의 모델A를 트레이닝하며, in-domain의 데이터에서의 표현이 양호하다.
2) 다시 한 개의 일반 언어 데이터량이 비교적 작은 영역 데이터(out-domain)에서 모델A에 대해 미세 조정을 진행하여 모델B를 얻는다.
3) 모델B를 in-domain과 out-domain의 번역 모델로 획득하며, 해당 모델B는in-domian 데이터에서의 표현이 비교적 좋을 뿐만 아니라 out-domain 데이터에서의 표현 역시 비교적 좋다.
그러나, 미세 조정의 방식을 적용하여 번역 모델을 조정할 경우 아래와 같은 문제가 존재하게 된다. 즉, 최종으로 얻은 번역 모델이 out-domain 데이터와 어댑팅된 후, in-domain 데이터에서의 번역 효과가 확연히 떨어지게 된다. 또한, 일부 실체 용어들이 서로 다른 영역에서의 함의가 불일치한 바, 예를 들면, 용어 "화왕"은 구술 표달에서는 꽃 중의 왕이라는 뜻이지만 화장품 영역에서는 한 개의 화장품의 브랜드로 표달됨으로 인해, 한 개의 단어에 서로 다른 번역 결과가 대응되게 된다. 만약 원래 구술 표달 영역 데이터 트레이닝을 거쳐 얻은 모델A를 미세 조정을 통해 모델B로 트레이닝한다면, 모델B에 대해 "화왕"이라는 단어의 번역은 "the king of flowers"으로부터 "KAO"로 변경하게 된다. 따라서, 상기 문제를 해결하기 위해 복수 개의 영역 데이터들을 함께 혼합하여 트레이닝을 진행해야 한다.
영역 데이터에 대해 혼합 트레이닝을 진행하는 과정에서, 각각의 영역의 언어 데이터량이 서로 다르고 서로 다른 영역의 언어 데이터의 어순이 서로 다른 경우가 발생하게 되며, 이는 서로 다른 영역에 대한 트레이닝의 트레이닝 난이도가 서로 다른 문제를 일으키게 되어, 최종으로 얻은 트레이닝 모델은 언어 데이터량이 비교적 많고 어순이 비교적 간단한 영역에서는 표현이 양호한 반면, 언어 데이터량이 비교적 적고 어순이 비교적 어려운 영역에서는 표현이 차하게 된다.
본 발명에서는 기계 번역 모델 트레이닝 방법을 제공하며, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득할 수 있음으로써, 기계 번역 모델이 각각의 영역의 언어 데이터에 대한 번역 결과의 품질을 향상시킨다. 아래 도면과 결합하여 본 발명의 실시예에 관한 기계 번역 모델 트레이닝 방법에 대해 상세히 소개하도록 한다.
도 1을 참조하면, 본 발명의 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 방법의 흐름도가 도시되며, 해당 방법은 컴퓨터 디바이스에 의해 수행될 수 있다. 도 1에 도시된 바와 같이, 해당 기계 번역 모델 트레이닝 방법은 아래와 같은 단계들을 포함한다.
단계 110에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득한다. 해당 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 여기서, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함한다.
여기서, 복수의 영역이 혼합된 트레이닝 데이터세트는, 한 개의 트레이닝 데이터세트에 적어도 두 개의 영역의 트레이닝 데이터페어가 존재하되 복수 개의 영역별 트레이닝 데이터페어 간에는 명확한 영역 계선이 없으며, 즉, 해당 트레이닝 데이터세트에서 각각의 영역에는 적어도 한 개의 트레이닝 데이터페어가 포함되고, 서로 다른 영역의 트레이닝 데이터페어는 혼합하여 존재하되 각각의 트레이닝 데이터페어에는 모두 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스가 포함됨을 의미한다.
타겟 언어 시퀀스는 소스 언어 시퀀스에 대해 기설정한 번역 결과이며, 예를 들면, 중문 "사과"를 영문 "Apple"로 번역할 경우, "사과"는 소스 언어 시퀀스이고, 대응하는 "Apple"은 타겟 언어 시퀀스이다.
단계 120에 있어서, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득한다. 여기서, 각각의 영역 데이터 서브세트는 한 개의 데이터 영역에 대응한다.
복수의 영역이 혼합된 트레이닝 데이터세트에 대해 트레이닝 데이터세트에 혼합된 트레이닝 데이터페어를 서로 다른 영역에 따라 분류하여야 하며, 이를 통해 서로 다른 영역에 대응하는 적어도 두 개의 영역데이터세트를 획득한다.
일 가능한 경우에 있어서, 서로 다른 영역의 트레이닝 데이터페어에 각각의 영역에 대응하는 표기를 설정할 수 있다. 예를 들면, 데이터 영역A과 데이터 영역B 이 두 개의 데이터 영역을 포함하는 트레이닝 데이터페어의 트레이닝 데이터세트에 대해, 트레이닝 데이터세트에서의 데이터 영역A에 해당하는 트레이닝 데이터페어에 데이터 영역A에 대응하는 표기를 설정하고, 트레이닝 데이터세트에서의 데이터 영역B에 해당하는 트레이닝 데이터페어에 데이터 영역B에 대응하는 표기를 설정할 수 있으며, 이를 통해, 기계 번역 모델 트레이닝 과정 중 서로 다른 영역에 해당하는 트레이닝 데이터페어의 표기에 근거하여 트레이닝 데이터세트에서의 트레이닝 데이터페어에 대해 영역 구분을 진행하여 대응하는 영역 데이터 서브세트를 획득할 수 있다.
단계 130에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝한다.
트레이닝 데이터세트에 대한 트레이닝 과정에 있어서, 영역 데이터 서브세트를 단위로 각각 트레이닝을 진행하여 서로 다른 영역 데이터 서브세트에 각각 대응하는 후보 최적화 타겟을 확정하는 것이며, 여기서, 최적화 타겟은 기계 번역 과정에 있어서 기계 번역 모델에서 출력한 예측 결과에 대해 손실 함수 계산을 진행하는 기준을 의미하는 것으로서, 해당 손실 함수의 계산 결과에 근거하여 기계 모델에서의 파라미터에 대해 조정함으로써, 파라미터 조정 후의 기계 번역 모델에서 출력한 예측 결과가 최적화 타겟에 최대한 근접하도록 하며, 즉, 손실 함수의 계산 결과가 가장 작도록 한다.
여기서, 손실 함수는 모델 예측 값과 최적화 타겟의 차이 크기를 나타내는 것으로서, 손실 함수의 값이 작을수록 모델의 예측 결과가 더 정확함을 의미한다.
각각의 영역 데이터 서브세트에 대해 모두 적어도 두 개의 후보 최적화 타겟을 확정할 수 있으며, 이를 통해 해당 영역 데이터 서브세트에서의 트레이닝 데이터페어에 기반하여 모델 트레이닝을 진행함으로써 후보 최적화 타겟에 대응하는 적어도 두 개의 후보 단일 영역 모델을 획득한다.
선택적으로, 적어도 두 개의 후보 최적화 타겟에 기반하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 것은 뉴럴 기계 번역 프레임 트랜스포머(transformer)를 선택하여 트레이닝할 수 있다.
단계 140에 있어서, 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 한다.
각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 획득한 후, 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델에 대해 테스트를 진행해야 하며, 테스트에 있어서, 동일한 세트의 테스트 데이터를 통해 동일한 영역 데이터 서브세트의 적어도 두 개의 후보 단일 영역 모델에 대해 테스트를 진행하고, 각각의 후보 단일 영역 모델이 테스트 데이터에 대한 출력 결과가 테스트 데이터에서의 타겟 테스트 결과에 대한 유사성에 근거하여, 테스트 정확도가 가장 높은 한 개의 후보 단일 영역 모델에 대응하는 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 할 수 있다. 예를 들면, 일 가능한 구현 방식에 있어서, BLEU 알고리즘을 이용하여 어느 한 영역 데이터 서브세트의 각각의 후보 단일 영역 모델이 테스트 데이터에 대한 출력결과와 테스트 데이터에서의 타겟 테스트 결과의 유사 정도를 계산할 수 있다. BLEU 알고리즘의 최종 결과의 값 범위는 [0,100]이며, 최종 결과의 값이 클수록 유사 정도가 더 높으며, 즉, 후보 단일 영역 모델의 출력 결과와 테스트 데이터에서의 타겟 테스트 결과와 근접할수록 해당 후보 단일 영역 모델의 번역 품질이 더 높은 것으로 판단한다. 마지막으로, 테스트 집합에서 BLEU 값이 가장 큰 한 개의 후보 단일 영역 모델에 대응하는 최적화 타겟을 획득하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 한다.
단계 150에 있어서, 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝한다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계는,
각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;
영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계;
적어도 두 개의 후보 최적화 타겟에 기반하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계는,
각각의 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 -: 해당 최적화 타겟 함수는 pT(X)+(1-p)Y이며, 여기서, T(X)는 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0
Figure 112020009873496-pat00001
p≤1을 만족함 - 하는 단계;
영역 가중치p의 적어도 두 개의 값을 선택하고, 최적화 타겟 함수에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계는,
복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 영역 데이터 서브세트에는 적어도 한 개의 트레이닝 데이터페어가 포함됨 - 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계는,
각각의 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계는,
각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하는 단계;
영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델의 정확도를 테스트하는 단계;
테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계는,
각각의 영역 데이터 서브세트를 혼합 영역 모델에 입력하고, 영역 데이터 서브세트에 대응하는 지정된 최적화 타겟에 따라 혼합 영역 모델을 트레이닝하는 단계;를 포함한다.
정리하면, 본 발명의 실시예에 따른 기계 번역 모델 트레이닝 방법에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득하고, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하며, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하며; 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 것을 통해, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득하며, 기계 번역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시키는 것을 구현한다.
도 2를 참조하면, 본 발명의 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 방법의 흐름도가 도시되며, 해당 방법은 컴퓨터 디바이스에 의해 수행될 수 있다. 도 2에 도시된 바와 같이, 해당 기계 번역 모델 트레이닝 방법은 아래와 같은 단계들을 포함한다.
단계 210에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득한다. 해당 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 여기서, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함한다.
단계 220에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득한다. 여기서, 각각의 영역 데이터 서브세트에는 적어도 한 개의 트레이닝 데이터페어가 포함된다.
일 가능한 경우에 있어서, 단순하게 규칙에 근거하여 분류할 수 있으며, 예를 들면, 언어 시퀀스의 길이에 근거하여 분류할 수 있다. 한 세트의 복수의 영역이 혼합된 트레이닝 데이터페어를 뉴스 영역과 구술 영역 이 두 개의 영역으로 구획하는 것으로 가정하면, 뉴스 영역의 언어 시퀀스는 일반적으로 구술 영역의 언어 시퀀스의 길이보다 길므로, 한 개의 언어 시퀀스의 길이 임계 값을 설정할 수 있으며, 해당 길이 임계 값보다 큰 언어 시퀀스가 위치한 트레이닝 데이터페어를 뉴스 영역으로 구획하고, 해당 길이 임계 값보다 작은 언어 시퀀스가 위치한 트레이닝 데이터페어를 구술 영역으로 구획한다.
상기 방법은 간단한 데이터 영역 분류의 효과를 구현할 수 있으며, 데이터 영역 분류에 대한 요구가 높은 경우에 있어서 데이터 영역 분류 모델을 통해 분류를 진행하는 것을 적용할 수 있다.
여기서, 해당 데이터 영역 분류 모델은 복수 개의 트레이닝 데이터페어의 트레이닝을 통해 획득한 것으로서, 도 3을 참조하면, 본 발명의 일 예시적 실시예에 따른 데이터 영역 분류 모델의 분류 모식도가 도시된다. 도 3에 도시된 바와 같이, 해당 데이터 영역 분류 모델은 해당 모델을 입력한 복수의 영역의 혼합 데이터페어를 복수 개의 영역의 영역 데이터 서브세트로 구획한다.
일 가능한 경우에 있어서, 해당 데이터 영역 분류 모델은 도 1에 도시된 바와 같은 실시예에서 데이터 영역에 대응하는 분류 방법, 즉, 서로 다른 영역 데이터페어에서 각각의 영역에 대응하는 표기를 설정하는 형식을 적용하는 것을 통해 데이터 영역 분류의 결과를 출력한다. 예를 들면, 데이터 영역A에 해당하는 트레이닝 데이터페어(X, Y)에 대해, 그 중의 소스 언어 시퀀스는 X=[x1, x2, ??, xn]이고 타겟 언어 시퀀스는 Y=[y1, y2, ??, ym]이며, 데이터 영역A에 대응하는 표기A를 설정할 수 있고, 여기서, 표기A는 지정된 부호일 수 있으며, 예를 들면, 표기A가 소괄호일 경우, 데이터 영역A의 트레이닝 데이터페어(X, Y)에 표기A를 추가한 후 (X=[x1, x2, ??, xn], Y=[y1, y2, ??, ym])로 표현되며, 데이터 영역B의 트레이닝 데이터페어에 대해, 데이터 영역B에 대응하는 표기B를 추가할 수 있으며, 이로써 복수의 영역이 혼합된 트레이닝 데이터페어의 데이터 영역에 대한 구획을 구현할 수 있다.
설명해야 할 점은, 상기 복수의 영역이 혼합된 트레이닝 데이터페어에 대해 데이터 영역 구획을 진행하는 방법은 단지 예시적인 것일 뿐, 본 발명은 복수의 영역이 혼합된 트레이닝 데이터페어에 대한 데이터 영역 구획 방법에 대해 제한하지 않는다.
단계 230에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝한다.
교사 모델은 지식 증류에서의 한 개의 개념으로서, 지식 증류에 있어서, 한 개의 교사 모델이 학생 모델을 지도할 경우, 교사 모델이 디코딩을 진행하면서 얻은 각각의 단어들의 확률을 최적화 타겟으로 하여 학생 모델을 지도하게 되며, 즉, 소프트 타겟(soft-target)을 이용하여 학생 모델을 지도한다. 이를 통해, 교사 모델이 기타 틀린 단어에서의 확률을 충분히 이용하여 학생 모델을 지도함으로써, 더욱 많은 정보들을 학생 모델에 전달하여 최적화 타겟의 난이도를 낮출 수 있다.
본 발명의 실시예에 있어서, 교사 모델의 예측 확률 분포인 soft-target을 획득하기 위해, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하여야 한다.
선택적으로, 각각의 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝할 수 있다.
예를 들면, 소스 언어 시퀀스가 "나 사랑해 너"이고, 타겟 언어 시퀀스가 "I love you"에 대해, 단어표에는 도합 I, love, you 이 3 개 단어가 있으며, 타겟 언어 시퀀스의 실제 확률 분포는 집합Y로 표현된다. 이 때, 소스 언어 시퀀스인 "나 사랑해 너"에 대해 예측할 경우, 실제 확률에 있어서, "나"를 "I"로 번역할 확률은 1이고, "나"를 "love" 또는 "you"로 번역할 확률은 0이며, 소스 언어 시퀀스에서의 "나"에 대한 예측 결과과 단어표에서의 실제 확률 분포는 [1, 0, 0]이다. 따라서, 소스 언어 시퀀스에서의 "나"의 예측 결과가 단어표에서의 실제 확률 분포 [1, 0, 0]을 타겟 트레이닝 교사 모델로 하여 대응하는 교사 모델을 얻는다.
반면, 타겟 언어 시퀀스의 실제 확률 분포를 최적화 타겟으로 하여 트레이닝하여 얻은 교사 모델에 있어서는, 각각의 단어가 단어표에서의 확률을 출력하는 것을 통해 결과를 예측하는 것으로서 확률이 가장 큰 한 개의 선택하여 해당 단어의 번역 결과로 한다. 예를 들면, 동일한 소스 언어 시퀀스인 "나 사랑해 너"에 대해 번역할 경우, 단어표에서 동일한 소스 언어 시퀀스인 "나 사랑해 너"에 대해 번역할 경우, "나"에 대해 교사 모델을 통해 얻은 예측 결과가 단어표에서의 확률 분포는 [0.9, 0.1, 0]으로서, 즉, 교사 모델의 예측 결과는: "나"를 "I"로 번역할 확률은 0.9이고, "love"로 번역할 확률은 0.1이며, "you"로 번역할 확률은 0이다. 최종으로, 교사 모델은 확률이 가장 큰 한 개를 선택하여 "나"의 번역 결과로 하게 되며, 즉, "나"를 "I"로 번역하게 된다. 상기 사례에서의 [0.9, 0.1, 0]은 교사 모델의 예측 결과이다.
단계 240에 있어서, 영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정한다.
선택적으로, 각각의 영역 데이터 서브세트에 대해 최적화 타겟 함수를 아래와 같이 구축한다.
Z=pT(X)+(1-p)Y,
여기서, T(X)는 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0
Figure 112020009873496-pat00002
p≤1을 만족한다.
영역 가중치p의 적어도 두 개의 값을 선택하고, 최적화 타겟 함수에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득한다.
영역 가중치p는 교사 모델에서 출력한 예측 결과가 최적화 타겟 함수에서 차지하는 가중치를 의미한다. p=0일 경우, 최적화 타겟 함수는 Z=Y이고, 즉, 영역 데이터 서브세트의 후보 최적화 타겟은 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며; p=1일 경우, 최적화 타겟 함수는 Z=T(X)이고, 즉, 영역 데이터 서브세트의 후보 최적화 타겟은 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이며, 0<p<1일 경우, Z==pT(X)+(1-p)Y이고, 즉, 영역 데이터 서브세트의 후보 최적화 타겟은 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포와 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포가 각자의 가중치에 대응하여 중첩된 결과이다.
예를 들면, 소스 언어 시퀀스가 "나 사랑해 너"이고 타겟 언어 시퀀스가 "I love you"이며 단어표에 도합 I, love, you 이 3 개 단어가 있는 경우에 대해, 상기 "나"에 대한 번역으로부터 알 수 있듯이, 소스 언어 시퀀스에서의 "나"의 예측 결과가 단어표에서의 실제 확률 분포는 [1, 0, 0]이고, 교사 모델에서 출력한 단어표에서의 예측 확률 분포는 [0.9, 0.1, 0]이며, p=0일 경우, "나"에 대한 최적화 타겟이 단어표에서의 실제 확률 분포가 [1, 0, 0]임을 확정하고; p=1일 경우, "나"에 대한 최적화 타겟이 교사 모델에서 출력한 단어표에서의 예측 확률 분포가 [0.9, 0.1, 0]임을 확정하며, 0<p<1일 경우, 만약 p=0.5라면, "나"에 대한 최적화 타겟은:
Z=0.5* [1, 0, 0]+0.5*[0.9, 0.1, 0]= [0.95, 0.05, 0]
즉, "나"에 대한 최적화 타겟이 단어표에서의 확률 분포는 [0.95, 0.05, 0]이다.
단계 250에 있어서, 적어도 두 개의 후보 최적화 타겟에 기반하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 한다.
도 4를 참조하면, 본 발명의 일 예시적 실시예에 따른 서로 다른 최적화 타겟에 기반하여 단일 영역 모델을 트레이닝하는 모식도가 도시된다. 도 4에 도시된 바와 같이, 동일한 영역 데이터 서브세트는 각각 서로 다른 최적화 타겟으로 트레이닝을 진행하여 대응하는 후보 단일 영역 모델을 획득한다. 도 4에서의 영역 데이터 서브세트D1는 최적화 타겟Y으로 트레이닝하여 후보 단일 영역 모델T을 획득할 수 있고, 구축된 최적화 타겟 함수Z=pT(X)+(1-p)Y의 계산 결과를 최적화 타겟으로 하여 트레이닝하여 후보 단일 영역 모델S을 획득할 수 있으며, 여기서 0
Figure 112020009873496-pat00003
p≤1이고, p=0일 경우, 해당 최적화 타겟 함수는 Z=Y이며, 즉, 최적화 타겟Y으로 트레이닝하여 후보 단일 영역 모델S을 획득하고, 후보 단일 영역 모델T과 서로 대응하며; p=1일 경우, 해당 최적화 타겟 함수는 Z=T(X)이며, 즉, 후보 단일 영역 모델T의 예측 결과T(X)를 최적화 타겟으로 트레이닝하여 후보 단일 영역 모델S을 획득한다.
단계 260에 있어서, 각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축한다.
여기서, 각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트는 트레이닝 데이터세트에서의 전부 또는 일부 트레이닝 데이터페어에 의해 구성될 수 있고, 복수 개의 테스트 데이터페어를 다시 획득할 수도 있으며, 각각의 테스트 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함하여 각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구성한다.
단계 270에 있어서, 영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델의 정확도를 테스트한다.
테스트 과정에 있어서, 각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트에서의 소스 언어 시퀀스를 각각의 단일 영역 모델에 출력하여 각각의 단일 영역 모델의 예측 결과를 획득하고, 해당 예측 결과에 근거하여 각각의 단일 영역 모델의 번역 결과를 획득하며, 테스트 데이터세트에서의 타겟 언어 시퀀스에 근거하여 각각의 단일 영역 모델의 번역 결과 정확도를 판단할 수 있다.
단계 280에 있어서, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 한다.
단계 290에 있어서, 각각의 영역 데이터 서브세트를 혼합 영역 모델에 입력하고, 영역 데이터 서브세트에 대응하는 지정된 최적화 타겟에 따라 혼합 영역 모델을 트레이닝한다.
도 5를 참조하면, 본 발명의 일 예시적 실시예에 따른 혼합 영역 모델을 트레이닝하는 모식도가 도시된다. 도 5에 도시된 바와 같이, 각각의 영역 데이터 서브세트를 혼합 영역 모델에 입력하여 각각의 영역의 트레이닝 데이터페어에 대해 트레이닝을 진행하며, 서로 다른 영역의 트레이닝 데이터페어에 대해 대응하는 지정된 최적화 타겟에 따라 트레이닝을 진행한다. 즉, 트레이닝 과정 중에 서로 다른 지정된 최적화 타겟을 통해 혼합 영역 모델의 파라미터를 조정함으로써, 최종으로 획득한 혼합 영역 트레이닝 모델이 각각의 데이터 영역에서의 표현이 양호하도록 한다.
정리하면, 본 발명의 실시예에 따른 기계 번역 모델 트레이닝 방법에 있어서, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득하고, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하며, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하며; 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 것을 통해, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득하며, 기계 번역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시키는 것을 구현한다.
도 6은 일 예시적 실시예에 따른 기계 번역 모델 트레이닝 장치의 블록도이다. 해당 기계 번역 모델 트레이닝 장치는 컴퓨터 디바이스에 적용되어 상기 도 1 또는 도 2 중의 어느 한 실시예에 따른 방법의 전부 또는 일부 단계들을 수행한다. 도 6에 도시된 바와 같이, 해당 기계 번역 모델 트레이닝 장치는,
복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 여기서, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하도록 구성되는 획득 모듈(610);
트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 여기서, 각각의 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하도록 구성되는 분류 모듈(620);
각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하도록 구성되는 제1 트레이닝 모듈(630);
각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 테스트 모듈(640);
트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하도록 구성되는 제2 트레이닝 모듈(650);을 포함할 수 있다.
일 가능한 구현 방식에 있어서, 해당 제1 트레이닝 모듈(630)은,
각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성되는 제1 트레이닝 모델 서브 모듈;
영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하도록 구성되는 확정 서브 모듈;
적어도 두 개의 후보 최적화 타겟에 기반하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하도록 구성되는 제2 트레이닝 서브 모듈;을 포함한다.
일 가능한 구현 방식에 있어서, 해당 확정 서브 모듈은,
각각의 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 해당 최적화 타겟 함수는 pT(X)+(1-p)Y이며, 여기서, T(X)는 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0
Figure 112020009873496-pat00004
p≤1을 만족함 - 하고;
영역 가중치p의 적어도 두 개의 값을 선택하고, 최적화 타겟 함수에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하도록 구성된다.
일 가능한 구현 방식에 있어서, 해당 분류 모듈(620)은,
복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 영역 데이터 서브세트에는 적어도 한 개의 트레이닝 데이터페어가 포함됨 - 하도록 구성된다.
일 가능한 구현 방식에 있어서, 해당 제1 트레이닝 서브 모듈은,
각각의 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성된다.
일 가능한 구현 방식에 있어서, 테스트 모듈(640)은,
각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하도록 구성되는 구축 서브 모듈;
영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델의 정확도를 테스트하도록 구성되는 테스트 서브 모듈;
테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 선택 서브 모듈;을 포함한다.
일 가능한 구현 방식에 있어서, 해당 제2 트레이닝 모듈(650)은,
각각의 영역 데이터 서브세트를 혼합 영역 모델에 입력하고, 영역 데이터 서브세트에 대응하는 지정된 최적화 타겟에 따라 혼합 영역 모델을 트레이닝하도록 구성된다.
정리하면, 본 발명의 실시예에 따른 기계 번역 모델 트레이닝 장치에 있어서, 해당 장치는 컴퓨터 디바이스에 적용할 수 있으며, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득하고, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하며, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하며; 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 것을 통해, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득하며, 기계 번역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시키는 것을 구현한다.
본 발명의 일 예시적 실시예에서는 기계 번역 모델 트레이닝 장치를 제공하며, 해당 장치는 컴퓨터 디바이스에 적용되어 본 발명에서 설명한 도 1 또는 도 2 중의 어느 한 실시예에 따른 방법의 전부 또는 일부 단계들을 구현할 수 있다. 해당 기계 번역 모델 트레이닝 장치는, 프로세서; 프로세서에서 수행 가능한 명령을 저장하도록 구성되는 메모리;를 포함하고,
여기서, 프로세서는,
복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 해당 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 여기서, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하고;
트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 여기서, 각각의 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하며;
각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하고;
각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며;
트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하도록 구성된다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계는,
각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;
영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계;
적어도 두 개의 후보 최적화 타겟에 기반하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 영역 데이터 서브세트별 타겟 언어 시퀀스 및 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계는,
각각의 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 해당 최적화 타겟 함수는 pT(X)+(1-p)Y이며, 여기서, T(X)는 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0
Figure 112020009873496-pat00005
p≤1을 만족함 - 하는 단계;
영역 가중치p의 적어도 두 개의 값을 선택하고, 최적화 타겟 함수에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 여기서, 각각의 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계는,
복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 영역 데이터 서브세트에는 적어도 한 개의 트레이닝 데이터페어가 포함됨 - 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계는,
각각의 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계는,
각각의 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하는 단계;
영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델의 정확도를 테스트하는 단계;
테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;를 포함한다.
일 가능한 구현 방식에 있어서, 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계는,
각각의 영역 데이터 서브세트를 혼합 영역 모델에 입력하고, 영역 데이터 서브세트에 대응하는 지정된 최적화 타겟에 따라 혼합 영역 모델을 트레이닝하는 단계;를 포함한다.
정리하면, 본 발명의 실시예에 따른 기계 번역 모델 트레이닝 장치에 있어서, 해당 장치는 컴퓨터 디바이스에 적용할 수 있으며, 복수의 영역이 혼합된 트레이닝 데이터세트를 획득하고, 트레이닝 데이터세트에서의 복수 개의 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득하며, 각각의 영역 데이터 서브세트에 기반하여 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하며; 각각의 영역 데이터 서브세트에 대해 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 해당 영역 데이터 서브세트의 지정된 최적화 타겟으로 하며; 트레이닝 데이터세트에서의 각각의 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 것을 통해, 서로 다른 영역의 언어 데이터에 대해 서로 다른 최적화 타겟을 설정하고 트레이닝을 진행하여 기계 번역 모델을 획득하며, 기계 번역 모델이 각각의 영역의 언어의 데이터에 대한 번역 결과의 품질을 향상시키는 것을 구현한다.
도 7은 일 예시적 실시예에 따른 컴퓨터 디바이스(700)의 구조 모식도이다. 해당 컴퓨터 디바이스는 상기 단말기로 구현될 수 있다. 해당 컴퓨터 디바이스는 상기 방안에서 기계 번역 모델 트레이닝을 진행할 수 있는 컴퓨터 디바이스일 수 있다. 상기 컴퓨터 디바이스(700)는 CPU(701)와, RAM(702)과 ROM(703)을 포함하는 시스템 메모리(704)와, 시스템 메모리(704)와 CPU(701)를 연결하는 시스템 버스(705)를 포함한다. 상기 컴퓨터 디바이스(700)는 컴퓨터 내의 각각의 컴포넌트 간의 정보 전송을 돕는 기본 입출력 시스템(I/O시스템)(706)과, 운영 체제(713), 애플리케이션(714) 및 기타 프로그램 모듈(715)을 저장하기 위한 대용량 저장 디바이스(707)를 더 포함한다.
상기 기본 입출력 시스템(706)은 정보를 디스플레이하기 위한 디스플레이(708)와 사용자가 정보를 입력하기 위한 마우스, 키보드와 같은 입력 디바이스(709)를 포함한다. 여기서, 상기 디스플레이(708)와 입력 디바이스(709)는 모두 시스템 버스(705)의 입출력 제어기(710)에 연결되는 것을 통해 CPU(701)에 연결된다. 상기 기본 입출력 시스템(706)은 입출력 제어기(710)를 더 포함하여 키보드, 마우스 또는 전자 스타일러스 등 복수 개의 기타 디바이스로부터의 입력을 수신 및 처리할 수 있다. 유사하게, 입출력 제어기(710)는 디스플레이 스크린, 프린터 또는 기타 유형의 출력 디바이스에 출력을 제공한다.
상기 대용량 저장 디바이스(707)는 시스템 버스(705)에 연결된 대용량 저장 제어기(미도시)를 통해 CPU(701)에 연결된다. 상기 대용량 저장 디바이스(707) 및 그와 연관되는 컴퓨터 판독 가능한 매체는 컴퓨터 디바이스(700)를 위해 비휘발성 저장을 제공한다. 즉, 상기 대용량 저장 디바이스(707)는 하드웨어 또는 CD-ROM 드라이버와 같은 컴퓨터 판독 가능한 매체(미도시)를 포함할 수 있다.
일반성을 상실하지 않는 전제하에 상기 컴퓨터 판독 가능한 매체는 컴퓨터 기록 매체와 통신 매체를 포함할 수 있다. 컴퓨터 기록 매체는 컴퓨터 판독 가능한 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등 정보를 저장하기 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동 가능 및 이동 불가능 매체를 포함한다. 컴퓨터 기록 매체는 RAM, ROM, EPROM, EEPROM, 플래시 메모리 또는 기타 고체 상태 스토리지 및 기술, CD-ROM, DVD 또는 기타 광학 스토리지, 카세트, 테이프, 디스크 스토리지, 또는 기타 자기 스토리지 디바이스를 포함한다. 물론, 당업자들은 상기 컴퓨터 기록 매체가 상기한 바와 같은 몇 가지에 제한되는 것이 아님을 알 수 있을 것이다. 상기 시스템 메모리(704)와 대용량 저장 디바이스(707)는 메모리로 총칭할 수 있다.
본 발명의 각 종 실시예에 따르면, 상기 컴퓨터 디바이스(700)는 인터넷 등과 같은 네트워크를 통해 네트워크 상의 원격 컴퓨터에 접속하여 운행될 수 있다. 즉, 컴퓨터 디바이스(700)는 상기 시스템 버스(705)에 연결된 네트워크 인터페이스 유닛(711)을 통해 네트워크(712)에 접속되며, 또는, 네트워크 인터페이스 유닛(711)을 통해 기타 유형의 네트워크 또는 원격 컴퓨터 시스템(미도시)에 접속할 수도 있다.
상기 메모리는 한 개 또는 한 개 이상의 프로그램을 더 포함하며, 상기 한 개 또는 한 개 이상의 프로그램은 메모리에 저장되어 있고, CPU(701)는 해당 한 개 또는 한 개 이상의 프로그램을 수행하는 것을 통해 도 1 또는 도 2에 도시된 방법의 전체 또는 일부 단계들을 구현한다.
당업자들이 응당 이해할 수 있듯이, 상기 한 개 또는 복수 개의 사례에 있어서, 본 발명의 실시예에서 설명하는 기능은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 임의의 조합에 의해 구현될 수 있다. 소프트웨어를 사용하여 구현할 경우, 이러한 기능들을 컴퓨터 판독 가능한 매체에 저장하거나 또는 컴퓨터 판독 가능한 매체 상의 한 개 또는 복수 개 명령 또는 코드로 하여 전송할 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 기록 매체와 통신 매체를 포함하며, 여기서, 통신 매체는 한 개 지역으로부터 다른 한 개 지역으로 컴퓨터 프로그램을 편리하게 전송하기 위한 임의의 매체를 포함한다. 기록 매체는 일반 또는 전용 컴퓨터에 저장 또는 취출 가능한 임의의 사용 가능한 매체일 수 있다.
본 발명의 실시예에서는 컴퓨터 판독 가능한 기록 매체를 더 제공한다. 상기 기록 매체에는 적어도 한 개의 명령, 적어도 한 단락의 프로그램, 코드 세트 또는 명령 세트가 저장되어 있으며, 상기 적어도 한 개의 명령, 상기 적어도 한 단락의 프로그램, 상기 코드 세트 또는 상기 명령 세트는 상기 프로세서에 의해 로딩되어 상기 기계 번역 모델 트레이닝 방법을 구현한다. 예를 들면, 해당 컴퓨터 판독 가능한 기록 매체는 ROM, RAM, CD-ROM, 테이프, 플로피 디스크, 광 데이터 기록 디바이스 등일 수 있다.
통상의 지식을 가진 자는 명세서에 대한 이해 및 명세서에 기재된 발명에 대한 실시를 통해 본 발명의 다른 실시방안를 용이하게 얻을 수 있다. 본 출원의 취지는 본 발명에 대한 임의의 변형, 용도 또는 적응적인 변화를 포함하고, 이러한 변형, 용도 또는 적응적 변화는 본 발명의 일반적인 원리에 따르고, 본 발명이 공개하지 않은 본 기술 분야의 공지기술 또는 통상의 기술수단을 포함한다. 명세서 및 실시예는 단지 예시적인 것으로서, 본 발명의 진정한 범위와 취지는 다음의 특허청구 범위에 의해 결정된다.
본 발명은 상기에 서술되고 도면에 도시된 특정 구성에 한정되지 않고 그 범위를 이탈하지 않는 상황에서 다양한 수정 및 변경을 실시할 수 있음을 이해하여야 한다. 본 발명의 범위는 단지 첨부된 특허청구 범위에 의해서만 한정된다.

Claims (16)

  1. 복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하는 단계;
    상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계;
    상기 획득한 적어도 두 개의 영역 데이터 서브세트 중의 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계;
    각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;
    상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계; 를 포함하고,
    상기 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계는,
    각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;
    상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계;
    상기 적어도 두 개의 후보 최적화 타겟에 기반하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  2. 삭제
  3. 제 1항에 있어서,
    상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계는,
    각각의 상기 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 상기 최적화 타겟 함수는 pT(X)+(1-p)Y이며, T(X)는 상기 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0≤p≤1을 만족함 - 하는 단계;
    영역 가중치p의 적어도 두 개의 값을 선택하고, 상기 최적화 타겟 함수에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  4. 제 1항에 있어서,
    상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하는 단계는,
    상기 복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 상기 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트에는 적어도 한 개의 상기 트레이닝 데이터페어가 포함됨 - 하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  5. 제 1항에 있어서,
    상기 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계는,
    각각의 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  6. 제 1항에 있어서,
    상기 각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계는,
    각각의 상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하는 단계;
    상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델의 정확도를 테스트하는 단계;
    테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  7. 제 1항에 있어서,
    상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계는,
    각각의 상기 영역 데이터 서브세트를 상기 혼합 영역 모델에 입력하고, 상기 영역 데이터 서브세트에 대응하는 상기 지정된 최적화 타겟에 따라 상기 혼합 영역 모델을 트레이닝하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 방법.
  8. 복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함함 - 하도록 구성되는 획득 모듈;
    상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응함 - 하도록 구성되는 분류 모듈;
    상기 획득한 적어도 두 개의 영역 데이터 서브세트 중의 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하도록 구성되는 제1 트레이닝 모듈;
    각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 테스트 모듈;
    상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하도록 구성되는 제2 트레이닝 모듈;을 포함하고,
    상기 제1 트레이닝 모듈은,
    각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성되는 제1 트레이닝 서브 모듈;
    상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하도록 구성되는 확정 서브 모듈;
    상기 적어도 두 개의 후보 최적화 타겟에 기반하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하도록 구성되는 제2 트레이닝 서브 모듈;을 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  9. 삭제
  10. 제 8항에 있어서, 상기 확정 서브 모듈은,
    각각의 상기 영역 데이터 서브세트에 대해 최적화 타겟 함수를 구축 - 상기 최적화 타겟 함수는 pT(X)+(1-p)Y이며, T(X)는 상기 영역 데이터 서브세트에 대응하는 교사 모델에서 출력한 예측 확률 분포이고, Y는 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포이며, p는 영역 가중치이고 0≤p≤1을 만족함 - 하고;
    영역 가중치p의 적어도 두 개의 값을 선택하고, 상기 최적화 타겟 함수에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 획득하도록 구성되는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  11. 제 8항에 있어서, 상기 분류 모듈은,
    상기 복수의 영역이 혼합된 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어를 데이터 영역 분류 모델에 도입하고, 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 상기 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트에는 적어도 한 개의 상기 트레이닝 데이터페어가 포함됨 - 하도록 구성되는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  12. 제 8항에 있어서, 상기 제1 트레이닝 서브 모듈은,
    각각의 상기 영역 데이터 서브세트에 포함된 타겟 언어 시퀀스별 실제 확률 분포를 최적화 타겟으로 하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하도록 구성되는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  13. 제 8항에 있어서, 상기 테스트 모듈은,
    각각의 상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트를 구축하도록 구성되는 구축 서브 모듈;
    상기 영역 데이터 서브세트에 대응하는 테스트 데이터세트에 근거하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델의 정확도를 테스트하도록 구성되는 테스트 서브 모듈;
    테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하도록 구성되는 선택 서브 모듈;을 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  14. 제 8항에 있어서, 상기 제2 트레이닝 모듈은,
    각각의 상기 영역 데이터 서브세트를 상기 혼합 영역 모델에 입력하고, 상기 영역 데이터 서브세트에 대응하는 상기 지정된 최적화 타겟에 따라 상기 혼합 영역 모델을 트레이닝하도록 구성되는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  15. 프로세서;
    상기 프로세서의 수행 가능한 명령을 저장하도록 구성되는 메모리;를 포함하고,
    상기 프로세서는 기계 번역 모델 트레이닝 방법을 수행하도록 구성되며, 사기 방법은,
    복수의 영역이 혼합된 트레이닝 데이터세트를 획득 - 상기 트레이닝 데이터세트는 복수 개의 트레이닝 데이터페어를 포함하며, 각각의 트레이닝 데이터페어는 의미가 동일한 소스 언어 시퀀스와 타겟 언어 시퀀스를 포함하는 단계;
    상기 트레이닝 데이터세트에서의 복수 개의 상기 트레이닝 데이터페어에 대해 데이터 영역 분류를 진행하여 적어도 두 개의 영역 데이터 서브세트를 획득 - 각각의 상기 영역 데이터 서브세트는 한 개의 데이터 영역에 대응하는 단계;
    각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계;
    상기 획득한 적어도 두 개의 영역 데이터 서브세트 중의 각각의 상기 영역 데이터 서브세트에 대해 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 상기 후보 단일 영역 모델을 각각 테스트하고, 테스트 정확도가 가장 높은 후보 단일 영역 모델에 대응하는 후보 최적화 타겟을 선택하여 상기 영역 데이터 서브세트의 지정된 최적화 타겟으로 하는 단계; 및
    상기 트레이닝 데이터세트에서의 각각의 상기 영역 데이터 서브세트 및 그에 대응하는 지정된 최적화 타겟에 기반하여 혼합 영역 모델을 트레이닝하는 단계를 포함하고,
    상기 획득한 적어도 두 개의 영역 데이터 서브세트 중의 각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하고, 상기 적어도 두 개의 후보 최적화 타겟에 기반하여 각각의 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델을 각각 트레이닝하는 단계는,
    각각의 상기 영역 데이터 서브세트에 기반하여 상기 영역 데이터 서브세트에 대응하는 교사 모델을 트레이닝하는 단계;
    상기 영역 데이터 서브세트별 타겟 언어 시퀀스 및 상기 영역 데이터 서브세트에 대응하는 교사 모델의 예측 결과 중의 적어도 하나에 기반하여 상기 영역 데이터 서브세트의 적어도 두 개의 후보 최적화 타겟을 확정하는 단계;
    상기 적어도 두 개의 후보 최적화 타겟에 기반하여 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 학생 모델을 트레이닝하여, 상기 영역 데이터 서브세트에 대응하는 적어도 두 개의 후보 단일 영역 모델로 하는 단계;를 포함하는
    것을 특징으로 하는 기계 번역 모델 트레이닝 장치.
  16. 컴퓨터 판독 가능한 기록 매체에 있어서,
    상기 기록 매체에는 적어도 한 개의 명령, 적어도 한 단락의 프로그램, 코드 세트 또는 명령 세트가 저장되어 있으며, 상기 적어도 한 개의 명령, 상기 적어도 한 단락의 프로그램, 상기 코드 세트 또는 상기 명령 세트는 프로세서에 의해 로딩되어 제 1항, 제 3항 내지 제 7항 중 어느 한 항의 기계 번역 모델 트레이닝 방법을 구현하는
    것을 특징으로 하는 컴퓨터 판독 가능한 기록 매체.
KR1020200010849A 2019-12-13 2020-01-30 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체 KR102339149B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911281744.4 2019-12-13
CN201911281744.4A CN110991195B (zh) 2019-12-13 2019-12-13 机器翻译模型训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
KR20210076804A KR20210076804A (ko) 2021-06-24
KR102339149B1 true KR102339149B1 (ko) 2021-12-16

Family

ID=70093263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200010849A KR102339149B1 (ko) 2019-12-13 2020-01-30 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체

Country Status (5)

Country Link
US (1) US11507888B2 (ko)
EP (1) EP3836034A1 (ko)
JP (1) JP7112445B2 (ko)
KR (1) KR102339149B1 (ko)
CN (1) CN110991195B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539220B (zh) * 2020-05-12 2022-06-28 北京百度网讯科技有限公司 语义相似度模型的训练方法、装置、电子设备及存储介质
CN112989848B (zh) * 2021-03-29 2022-12-16 华南理工大学 一种领域适应医学文献神经机器翻译模型的训练方法
CN113505614A (zh) * 2021-07-29 2021-10-15 沈阳雅译网络技术有限公司 一种面向小型cpu设备的小模型训练方法
CN113689749A (zh) * 2021-08-30 2021-11-23 临沂职业学院 一种测验定制化的英语翻译教学管理系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190197012A1 (en) 2017-12-26 2019-06-27 Rovi Guides, Inc. Methods and systems for training a machine learning system using a reduced data set
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009064051A (ja) 2007-09-04 2009-03-26 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US10437933B1 (en) 2016-08-16 2019-10-08 Amazon Technologies, Inc. Multi-domain machine translation system with training data clustering and dynamic domain adaptation
US10713593B2 (en) * 2016-11-04 2020-07-14 Google Llc Implicit bridging of machine learning tasks
CN107273978B (zh) * 2017-05-25 2019-11-12 清华大学 一种三模型博弈的产生式对抗网络模型的建立方法及装置
CN108038110A (zh) * 2017-11-27 2018-05-15 北京理工大学 一种基于训练集相似度的统计机器翻译参数自动选择方法
JP6534767B1 (ja) * 2018-08-28 2019-06-26 本田技研工業株式会社 データベース作成装置及び検索システム
CN109697461A (zh) * 2018-12-11 2019-04-30 中科恒运股份有限公司 基于有限数据的分类模型训练方法和终端设备
CN110046378B (zh) * 2019-02-28 2022-09-13 昆明理工大学 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN109948803A (zh) * 2019-03-12 2019-06-28 深圳灵图慧视科技有限公司 算法模型优化方法、装置和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation
US20190197012A1 (en) 2017-12-26 2019-06-27 Rovi Guides, Inc. Methods and systems for training a machine learning system using a reduced data set

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이진수 외, '객체 인식에서의 속도 향상을 위한 모델 앙상블', 전자공학회, 2019.06.

Also Published As

Publication number Publication date
CN110991195B (zh) 2023-09-29
KR20210076804A (ko) 2021-06-24
JP2021096807A (ja) 2021-06-24
US20210182733A1 (en) 2021-06-17
CN110991195A (zh) 2020-04-10
JP7112445B2 (ja) 2022-08-03
US11507888B2 (en) 2022-11-22
EP3836034A1 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
KR102339149B1 (ko) 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Alvarez-Melis et al. A causal framework for explaining the predictions of black-box sequence-to-sequence models
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110309514B (zh) 一种语义识别方法及装置
CN106649288B (zh) 基于人工智能的翻译方法和装置
CN103782291B (zh) 定制自然语言处理引擎
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN112364660A (zh) 语料文本处理方法、装置、计算机设备及存储介质
KR20170053527A (ko) 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
CN112506945A (zh) 基于知识图谱的自适应导学方法及系统
CN113591482A (zh) 文本生成方法、装置、设备及计算机可读存储介质
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
KR20230141698A (ko) 적대적 학습을 통한 질의응답 학습모델의 생성 방법 및 장치
JP2020102193A (ja) 文章変換システム、文章変換方法、及びプログラム
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
Huo RETRACTED ARTICLE: Analysis of intelligent evaluation algorithm based on english diagnostic system
Cao et al. Generating math word problems from equations with topic consistency maintaining and commonsense enforcement
KR20190092746A (ko) 인공지능 기반 수학문제 해결장치 및 그 방법
CN113157932B (zh) 基于知识图谱表示学习的隐喻计算和装置
WO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
KR20210083731A (ko) 강화 학습을 통한 질의응답 학습모델의 생성 방법 및 장치
CN113407806B (zh) 网络结构搜索方法、装置、设备及计算机可读存储介质
KR102556797B1 (ko) 인공지능 모델 기반 외국어 말하기 능력에 대한 자동 평가 및 사용자 맞춤형 외국어 교육 콘텐츠 큐레이션 서비스 제공 방법, 장치 및 시스템
Rijhwani Improving Optical Character Recognition for Endangered Languages

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right