KR102641398B1

KR102641398B1 - 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 저장 매체

Info

Publication number: KR102641398B1
Application number: KR1020210075722A
Authority: KR
Inventors: 루이칭 장; 촨치앙 장; 지치앙 리우; 중쥔 허; 쯔 리; 화 우
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-16
Filing date: 2021-06-10
Publication date: 2024-02-27
Also published as: CN111859995A; JP2021197188A; JP7203153B2; EP3926516A1; US20210200963A1; CN111859995B; KR20210156223A

Abstract

본 출원은 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 기록매체를 개시하였으며 자연어 처리 기술 분야에 관한 것이다. 구체적인 구현 방법은 다음과 같다： 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비하는 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성하고； 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하며； 제1 훈련 샘플 세트와 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기, 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시킨다. 본 출원의 훈련 방법은 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킬 수 있다.

Description

기계 번역 모델의 훈련 방법, 장치, 전자기기 및 저장 매체{METHOD AND DEVICE FOR TRAINING MACHINE TRANSLATION MODEL, ELECTRONIC EQUIPMENT AND STORAGE MEDIUM}

본 출원은 컴퓨터 기술분야에 관한 것이고, 특히 자연어 처리 기술분야, 구체적으로 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 기록매체에 관한 것이다.

자연어 처리(Natural Language Processing; NLP)에서는 기존 기계 번역 모델을 모든 분야에서 일반적으로 사용할 수 있어 모든 분야에서 코퍼스 번역을 실현할 수 있다. 따라서 이 기계 번역 모델은 일반 분야에서 기계 번역 모델이라고 할 수 있다.

실제 응용에서는 일반 분야에서 기계 번역 모델을 훈련할 때 다양한 분야의 이중 언어 훈련 샘플을 수집하여 훈련한다. 또한 다양한 분야에서 수집된 이중 언어 훈련 샘플은 일반성을 구비하며, 일반적으로 다양한 분야에 적합하도록 다양한 분야에서 식별할 수 있는 훈련 샘플이다. 그러나 훈련된 기계 번역 모델을 사용하여 특정 목표 분야의 언어 자료를 번역하는 경우 일반 분야의 기계 번역 모델이 훈련 중에 목표 분야의 특수 언어 자료를 학습해 본 적이 없으므로 당해 목표 분야의 언어 자료를 인식하지 못하여 정확하게 번역할 수 없게 된다. 이러한 기술적 문제를 극복하기 위해 선행 기술은 지도 학습 방법을 채택하여 목표 분야에서 수동으로 라벨링 된 이중 언어 훈련 샘플을 수집한 다음 일반 분야의 기계 번역 모델에 대해 미세 조정 훈련하여 목표 분야의 기계 번역 모델을 얻는다.

그러나 목표 분야의 기존 기계 번역 모델의 훈련에서는 목표 분야의 데이터가 적기 때문에 이중 언어 훈련 샘플에 레이블을 지정하는데 많은 인력이 필요하므로 목표 분야의 기계 번역 모델 훈련이 시간과 노력이 많이 필요하고 훈련이 비효율적이다.

상기 기술문제를 해결하기 위해 본 출원은 기계 번역 모델의 훈련 방법, 장치, 전자기기 및 기록매체를 제공한다.

본 출원의 제1 양태에 있어서, 목표 분야의 기계 번역 모델의 훈련 방법을 제공하며 당해 방법은 다음 단계를 포함한다：

병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성하며；

상기 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하며；

상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기 및 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시키며； 상기 판별기는 훈련 시 입력된 샘플이 속하는 분야를 식별하는데 사용된다.

본 출원의 다른 한 양태에 있어서 목표 분야의 기계 번역 모델의 훈련 장치를 제공하며 상기 장치는 제1 선택 모듈, 제2 선택 모듈, 훈련 모듈을 포함한다：

제1 선택 모듈은 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비하는 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성하는데 사용되며；

제2 선택 모듈은 상기 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하는데 사용되며；

훈련 모듈은 상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 별도로 사용하여 훈련 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기 및 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시키는데 사용되며； 상기 판별기는 훈련 시 입력된 샘플이 속하는 분야를 식별한다.

본 출원의 다른 한 양태는 전자기기를 제공하며 상기 전자기기는：

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 상기 방법을 수행하도록 한다.

본 출원의 다른 한 양태에 있어서 컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록매체를 공개하며, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 방법을 수행하도록 한다.

본 출원의 기술에 의하면 선행기술의 목표 분야의 기계 번역 모델의 훈련 방법과 비교하면 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킬 수 있다. 본 출원의 훈련 방법을 사용하여 샘플의 목표 분야와 일반 분야에서의 분포를 참고하여 자기 적응적으로 목표 분야의 기계 번역 모델에 대해 훈련 조정하는 것을 구현하여 목표 분야의 기계 번역 모델의 정확성을 효과적으로 향상시킬 수 있다.

본 부분에서 설명한 내용은 본 개시 내용의 실시예들의 핵심 또는 중요한 특징들을 식별하기 위한 것이 아니며, 본 개시 내용의 범위를 제한하려는 의도가 아님을 이해해야 한다. 본 개시 내용의 다른 특징은 다음 설명을 통해 쉽게 이해될 것이다.

도면은 본 기술적 해결책을 더 잘 이해하기 위하여 이용되며 본 발명을 제한하지 않는다.
도 1은 본 출원 제1 실시예의 개략도이다;
도 2는 본 출원 제2 실시예의 개략도이다;
도 3은 본 실시예의 목표 분야의 기계 번역 모델의 훈련 아키텍처 다이어그램이다；
도 4는 본 실시예의 샘플 확률 분포 개략도이다；
도 5는 본 출원 제3 실시예의 개략도이다；
도 6은 본 출원 제4 실시예의 개략도이다；
도 7은 본 출원 실시예의 목표 분야의 기계 번역 모델을 구현하는 훈련 방법의 전자기기의 블럭도이다.

이하, 도면을 참조하여 본 출원의 시범적인 실시예를 기술하는 바, 본 출원 실시예에 대한 이해를 돕기 위해 여기에는 본 출원 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 출원의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 기술에서는 잘 알려진 기능 및 구조의 기술을 생략하였다.

도 1은 본 출원 제1 실시예에 따른 개략도이다； 도 1에 나타낸 바와 같이， 본 실시예는 목표 분야의 기계 번역 모델의 훈련 방법을 제공하며， 구체적으로 다음과 같은 단계를 포함한다：

S101, 병렬 코퍼스(parallel corpus)에서 번역 품질이 미리 설정된 요구사항을 충족하고 일반 분야 특징(general domain characteristics) 및/또는 목표 분야 특징(target domain characteristics)을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트(first training sample set)를 구성한다；

S102, 병렬 코퍼스에서 번역 품질이 미리 설정된 요구사항을 충족하고 일반 분야 특징 및 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트(second training sample set)를 구성한다；

S103, 제1 훈련 샘플 세트 및 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더(encoder), 인코더(decoder)의 각각의 코딩층(coding layer)에 배치된 판별기(discriminator) 및 목표 분야 기계 번역 모델의 인코더와 디코더를 훈련시킨다； 판별기는 제1 훈련 샘플 세트의 각각의 샘플이 속한 분야를 식별하는데 사용된다.

본 실시예의 목표 분야의 기계 번역 모델의 훈련 방법의 수행 주체는 목표 분야의 기계 번역 모델의 훈련 방법이며 당해 목표 분야의 기계 번역 모델의 훈련 방법은 컴퓨터와 유사한 전자적 개체일 수 있고 또는 소프트웨어 통합을 사용하는 응용 프로그램일 수도 있다. 사용중인 응용 프로그램은 컴퓨터 장치에서 실행되어 목표 분야의 기계 번역 모델을 훈련시킨다.

본 실시예의 병렬 코퍼스에는 복수개 샘플을 포함할 수 있으며， 각 샘플은 원시 문장 및 목표 문장을 포함하고, 원시 문장과 목표 문장은 서로 다른 언어 종류의 언어에 속한다. 임의의 한 샘플에 대하여 기계 번역 모델이 각각의 샘플의 원시 문장을 목표 문장으로 번역하면 당해 목표 문장의 번역 확률이 동시에 출력된다. 이 번역 확률의 크기는 번역의 품질을 특성화할 수 있으며 번역 확률이 클수록 현재 기계 번역 모델이 원시 문장 x를 번역 y로 번역할 확률이 높고 번역 품질이 우수하다는 것을 의미하며 그 반대의 경우도 마찬가지이다.

본 실시예의 일반 분야는 특정 분야에 한정되지 않고 일반적으로NLP의 모든 분야를 의미한다. 목표 분야는 구두 언어 분야와 같은 특수 분야를 나타낸다. 예를 들면, 일반 분야의 기계 번역 모델은 훈련시, 병렬 코퍼스에는 다양한 분야의 상대적으로 표준화된 설명이 포함된 샘플이 포함되므로 일반 분야의 기계 번역 모델은 상대적으로 표준화된 병렬 코퍼스를 번역하는 능력도 학습한다. 예를 들어 보다 표준화된 설명은 일반적으로 "식사 하셨어요?" 이며, 일반 분야의 기계 번역 모델은 병렬 코퍼스를 매우 잘 번역 할 수 있다. 그러나 구두 언어 분야에서는 병렬 코퍼스의 표현이 매우 간결하다. "먹었어?" 일 경우, 일반 분야의 기계 번역 모델은 유사한 병렬 코퍼스의 번역을 학습하지 않았을 수 있으므로 번역 오류가 발생할 수 있다.

이러한 배경하에 배경기술 중 기존의 목표 분야의 기계 번역 모델의 훈련 과정은 시간과 노력이 많이 필요하고 비효율적인 기술문제를 결합하여 본 실시예는 목표 분야의 기계 번역 모델의 훈련 방안을 제공한다.

본 실시예에서 병렬 코퍼스에서 번역 품질이 미리 설정된 요구 사항을 충족하는 제1 훈련 샘플 세트 및 제2 훈련 샘플 세트를 선별하고 여기서 제1 훈련 샘플 세트의 샘플 번역 품질은 미리 설정된 요구 사항을 충족하고, 일반 분야 특징 및/또는 목표 분야 특징을 구비한다. 즉, 제1 훈련 샘플 세트의 샘플은 번역 품질이 충분히 높을 뿐만 아니라 일반 분야 또는 목표 분야의 특징을 구비하며 분명히 일반 분야의 샘플, 또는 목표 분야의 샘플에 속한다.

제2 훈련 샘플 세트의 샘플은 번역 품질이 미리 설정된 요구에 만족되고, 일반 분야 특징 및 목표 분야 특징을 구비하지 않는다. 즉, 제2 훈련 샘플 세트의 샘플 번역 품질도 미리 설정된 요구에 만족되고, 충분히 높지만 일반 분야 및 목표 분야의 특징을 구비하지 않는다. 즉 샘플은 선명한 분야 분류 정보를 휴대하지 않는다.

본 실시예의 제1 훈련 샘플 세트에 포함된 샘플 세트 및 제2 훈련 샘플 세트에 포함된 샘플 세트의 수는 하나, 두 개, 또는 복수개 일 수 있으며, 구체적으로 실제 수요에 따라 N개를 설정하여 하나의 배치(batch)로 하며 대응하는 훈련 샘플 세트를 구성하며 여기서 제한하지 않는다.

본 실시예에서 먼저 제1 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더 및 인코더의 각각의 코딩층에 배치된 판별기(discriminator)를 훈련한다. 목적은 적대적 학습을 통해 목표 분야의 기계 번역 모델의 인코더가 한편으로는 얕은 층 표현에서 분야 관련 특징을 학습하고 다른 한편으로는 상층 특징에서 분야와 무관한 특징을 학습한다; 구체적으로 하층 판별기로 하여금 정확한 판별 결과를 생성하고 상층 판별기로 하여금 정확하지 않은 판별 결과를 생성하도록 하여 실현한다. 여기서 판별기 하층은 하층 코딩층에 연결된 판별기를 의미하고 하층 코딩층은 입력층에 가까운 코딩층을 의미한다. 상층 판별기는 상층 코딩층에 연결된 판별기를 의미하고 상층 코딩층은 디코딩층에 가까운 코딩층을 의미한다.

다음 제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더 및 디코더를 훈련하고 상기 제2 훈련 샘플 세트의 샘플은 구체적으로 다음과 같은 특점이 있다： A）현재 목표 분야의 기계 번역 모델의 번역 결과가 비교적 좋고 즉 목표 분야의 기계 번역 모델의 번역 확률이 미리 설정된 번역 확률 역치보다 크다. 예를 들면：

여기서, 는 상기 목표 분야의 기계 번역 모델이 샘플의 원시 문장 x를 y로 번역하는 확률을 표시하고， 여기서 는 상기 목표 분야의 기계 번역 모델의 인코더의 파라미터를 표시하며, 는 상기 목표 분야의 기계 번역 모델의 디코더의 파라미터를 표시한다.

B）판별기는 상기 샘플이 어느 분야에 속하는지 정확하게 판단할 수 없으며， 즉：

여기서, 는 판별기가 샘플을 식별하는 과정에 원시 문장 x가 속하는 분야의 확률을 의미하며, 는 상기 판별기의 파라미터를 나타낸다.

상기 훈련과정은 번역 결과가 우수하고 소속 분야를 구분하기 어려운 샘플을 선택하여 훈련 목표 분야의 번역 모델을 훈련하여 번역 모델로 하여금 목표 분야의 분포에 맞게 조정될 수 있도록 하는 것이다.

본 실시예는 훈련 과정에 미리 설정된 훈련 차수에 도달할 때까지 또는 전체 모델 구조의 손실 함수가 수렴될 때까지 상기 단계 S101-S103를 반복으로 수행할 수 있다.

상술한 내용으로부터 알 수 있는 바, 본 실시예의 목표 분야의 기계 번역 모델의 훈련과정에서 상기 목표 분야의 기계 번역 모델은 별도로 훈련되지 않고 상기 목표 분야의 기계 번역 모델의 인코더의 각 계층에 샘플의 소속 분야를 판별하는 판별기가 더 배치되어 있으므로 샘플의 분야를 참고하여 지향성적으로 상기 목표 분야의 기계 번역 모델을 훈련하여 목표 분야의 기계 번역 모델이 목표 분야의 분포에 맞게 조정될 수 있도록 하며 목표 분야의 기계 번역 모델의 정확성을 향상시킨다.

본 실시예의 목표 분야의 기계 번역 모델의 훈련 방법은 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다； 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성한다； 제1 훈련 샘플 세트 및 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더, 인코더의 각각의 코딩층에 배치된 판별기 및 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시킨다； 판별기는 제1 훈련 샘플 세트 중 각각의 샘플이 속하는 분야를 식별하는데 사용되며 선행기술의 목표 분야의 기계 번역 모델의 훈련 방법과 비교하면 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킨다. 본 실시예의 훈련 방법을 사용하여 샘플의 목표 분야와 일반 분야에서의 분포를 참고하여 자기 적응적으로 목표 분야의 기계 번역 모델에 대한 훈련 조정을 실현할 수 있으므로 목표 분야의 기계 번역 모델의 정확성을 효과적으로 향상시킬 수 있다.

도 2는 본 출원의 제2 실시예에 따른 개략도이고, 도 2에 도시된 바와 같이, 본 실시예의 목표 분야의 기계 번역 모델의 훈련 방법은 도 1에 도시된 실시예의 기술방안을 기초로 본 발명의 기술방안을 더욱 상세히 소개한다. 도 2에 도시된 바와 같이, 본 실시예의 목표 분야의 기계 번역 모델의 훈련 방법은 구체적으로 다음 단계를 포함할 수 있다：

S201, 판별기를 사용하여 병렬 코퍼스에서의 각각의 샘플이 일반 분야와 목표 분야 사이에서 일반 분야 또는 목표 분야에 속하는 확률을 식별한다；

S202, 병렬 코퍼스에서 확률이 제1 확률 역치보다 작고 및/또는 확률이 제2 확률 역치보다 크며 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다；

상술한 단계 S201와 단계 S202는 상술한 도 1에 나타낸 실시예의 단계 S101의 한가지 구체적인 구현방식이다. 본 실시예에서 판별기를 사용하여 각각의 샘플이 일반 분야 또는 목표 분야에 속하는 확률을 식별하여 상기 샘플이 일반 분야의 특징 또는 목표 분야의 특징을 구비하는 것을 표시한다. 예를 들면, 본 실시예에서 판별기를 사용하여 샘플이 목표 분야와 일반 분야 사이에서 일반 분야에 속하는 확률을 통일적으로 식별할 수 있다. 상기 샘플이 일반 분야에 속하는 확률이 높을수록 상기 샘플이 일반 분야에 속한다는 것을 나타낸다； 일반 분야에 속하는 확률이 낮을수록 상기 샘플이 목표 분야에 속한다는 것을 나타낸다.

도 3은 본 실시예의 목표 분야의 기계 번역 모델의 훈련 아키텍처 다이어그램이다. 도 3에 나타낸 바와 같이, 본 실시예의 목표 분야의 기계 번역 모델은 인코더와 디코더 2개 부분을 포함한다. 여기서 인코더에는 코딩층(1), 코딩층(2), ……, 코딩층(N)을 포함하고； 디코더에는 디코딩층(1), 디코딩층(2), ……, 디코딩층(N)을 포함한다. 여기서 N의 수는 2 이상의 임의의 자연수일 수 있고 구체적으로 실제 수요에 따라 설정한다. 본 실시예에서 목표 분야의 기계 번역 모델의 정확성을 향상시키기 위해 본 실시예는 각각의 코딩층에 모두 하나의 판별기를 배치하여，샘플이 분야에 속하는 확률 예를 들면 일반 분야에 속하는 확률을 판별한다.

여기서 설명해야 할 점은, 본 실시예에서 훈련될 목표 분야의 기계 번역 모델은 딥 러닝 기술을 기반으로 미리 훈련된 일반 분야의 기계 번역 모델일 수 있으며，즉 훈련하기 전에 딥 러닝 기술을 기반으로 미리 훈련된 일반 분야의 기계 번역 모델을 먼저 획득하여 목표 분야의 기계 번역 모델로 한다.

예를 들면， 본 실시예에서 인코더 심층의 의미 표현 능력이 얕은 층보다 강하기 때문에 본 실시예에서 우선적으로 목표 분야의 기계 번역 모델의 인코더의 최상위층인 코딩층에 배치된 판별기를 사용하여 병렬 코퍼스 중 각각의 샘플이 일반 분야 또는 목표 분야에 속하는 확률을 식별하며 마찬가지로 본 실시예에서 통일적으로 일반 분야에 속하는 확률을 사용하여 표시할 수 있다.

본 실시예의 제2 확률 역치는 제1 확률 역치보다 크다. 제1 확률 역치와 제2 확률 역치의 구체적인 값은 실제 수요에 따라 설정할 수 있다. 예를 들면, 본 실시예에서 설정된 제2 확률 역치보다 큰 값은 모두 일반 분야에 속하는 샘플이라고 보고 제1 확률 역치보다 작은 값은 모두 목표 분야의 샘플이라고 본다. 도 4는 본 실시예의 샘플 확률 분포 개략도이다. 도 4에 나타낸 바와 같이， 샘플의 번역 확률을 가로 좌표로 하고 세로 좌표는 판별기가 상기 샘플이 일반 분야에 속하는 것을 식별하는 확률이다. 번역 확률 즉 샘플의 원시 문장 x를 목표 문장 y로 번역하는 확률을 표시하며 NMT(x)를 y의 확률로 표시할 수 있다. 도 4에 나타낸 바와 같이， 도면의 “Δ” 형상은 목표 분야의 샘플을 표시하고 ，“□” 형상은 일반 분야의 샘플을 표식한다. 병렬 코퍼스에서 번역 효과가 비교적 좋은 샘플을 선택할 수 있다. 즉 번역 확률은 번역 확률 역치 T_NMT보다 크고 상기 번역 확률 역치의 크기는 실제 수요 크기에 따라 설정할 수 있다. 예를 들면 0.7, 0.8 또는 0.5보다 크고 1보다 작은 기타 수치일 수 있다. 다음 번역 확률이 번역 확률 역치 T_NMT보다 큰 샘플에서 일반 분야에 속하는 확률을 다시 3개 영역으로 나눈다. 예를 들면 도 3의 최상층의 가로 점선은 제2 확률 역치의 분계선이고 아래의 가로 점선은 제1 확률 역치 분계선이다； 도 4에서 제1 확률 역치가 0.5인 것을 예를 들면 실제 응용에서 기타 수치로 설정할 수도 있다. 제2 확률 역치가 제1 확률 역치보다 크고 예를 들면 0.7, 0.8일 수 있거나 또는 0.5보다 크고 1보다 작은 기타 수치일 수도 있다. 이렇게 도 4에 나타낸 바와 같이 번역할 수 있는 확률이 미리 설정된 확률 역치보다 큰 샘플을 3개 영역으로 나눌 수 있다. 도 4에 나타낸 제①영역은 일반 분야의 샘플 영역이고 그중에는 비교적 많은 일반 분야의 샘플을 포함한다. 제③영역은 목표 분야의 샘플 영역이다； 그중에는 비교적 많은 목표 분야의 샘플을 포함한다. 제②영역에서는 일반 분야와 목표 분야를 명확하게 구분할 수 없으며 비교적 많은 일반 분야의 샘플을 포함할 뿐만 아니라 비교적 많은 목표 분야의 샘플도 포함한다. 상술한 단계 S202에서 설명한 바와 같이 제①영역 및/또는 제③영역의 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다.

S203, 병렬 코퍼스에서 확률이 제1 확률 역치보다 크거나 같고 제2 확률 역치보다 작거나 같으며, 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성한다；

마찬가지로 상술한 도 4의 설명을 참고하여 상기 단계 S203는 제②영역의 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하는 것을 알 수 있다.

S204, 목표 분야의 기계 번역 모델의 디코더를 고정하고 제1 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기를 훈련한다 ；

본 실시예에서 먼저 제1 훈련 샘플 세트를 사용하여 훈련하되, 도 3에 나타낸 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기를 훈련시킨다. 이때 대응하게 도 3에 나타낸 목표 분야의 기계 번역 모델의 디코더를 고정하고 즉 디코더의 파라미터를 고정하고 훈련 시 조정에 참여하지 않는다.

상기 훈련의 목표는： a）하층 인코더는 예를 들면 구두 언어 중 특유한 어조사, 표현 방법 등 일부 분야의 특수 특징을 학습할 수 있다； b）고층 인코더는 단어, 문장의 일반적인 표현을 학습하고 전체 문장의 의미를 파악할 수 있고 분야 세부 사항에 주의를 기울이지 않는다. 본 실시예에서 하층 인코더는 입력층에 가까운 인코더이고 고층 인코더는 디코더에 가까운 인코더이다.

제1 훈련 샘플 세트의 샘플이 일반 분야의 기계 번역 모델에서 점수가 비교적 높고, 소속 분야에 대해 비교적 높은 신뢰도를 가진다는 점을 고려한다. 상기 훈련을 통해 고층 인코더로 하여금 일반 분야의 표시（목표 분야의 특수 표시가 아님）를 학습한다. 즉 소속 분야에 대해 높은 신뢰도가 있는 판단을 얻기를 희망하지 않는다. 즉 여기서 최적화된 샘플을 희망한다. 따라서 이 단계에서 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성하여 훈련한다.

설명해야 할 점은 본 실시예에서 각각의 인코더층은 모두 분야 유형을 판별하기 위해 판별기에 연결되고 따라서 모두 분야 식별 능력을 구비한 특징 즉 분야 특유의 특수 특징을 배운다. 이는 상술한 목적 a)의 요구 사항을 충족하지만 목적 b)를 충족할 수 없다. 즉 고층 인코더에서 일반 문장 표현을 배운다. 이 문제에 대하여 네거티브 그래디언트 백홀 방법을 사용하여 분야와 관련이 없는 일반적인 특징을 학습할 수 있다. 예를 들어, 여기서 네거티브 그래디언트 백홀 방법은 신경망의 도메인-어댑테이션 훈련(Domain-adversarial training of neural networks)의 관련 지식을 참고할 수 있으며 여기에서 설명을 생략한다.

S205, 인코더의 각각의 코딩층에 배치된 판별기를 고정하고 제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련한다.

제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련 시， 제2 훈련 샘플 세트 중 샘플은 일반 분야 특징과 목표 분야 특징을 구비하지 않은 샘플이고 이 부분 샘플의 번역 효과가 상당히 우수하지만 소속 분야가 일반 분야인지 목표 분야인지 구분하기 어렵다. 기계 번역 모델이 더욱 잘 조정되어 목표 분야의 분포에 적응하도록 기계 번역 모델을 훈련시킨다.

상술한 단계 S204와 S205 두 개 단계의 훈련을 경과하여 모델은 하층 인코더가 일부 분야의 특수 특징 예를 들면 구두 언어 중 특유한 어조사, 표현 방법 등을 학습하는 것을 점차적으로 실현할 수 있다； 고층 인코더는 일반적인 단어, 문장 표현을 배울 수 있고 분야의 세부 사항에 주의를 기울이기 보다는 전체 문장의 의미를 파악한다. 또한 목표 분야의 기계 번역 모델의 인코더 및 디코더 구조는 목표 분야의 번역 정확도를 향상시키기 위해 점차적으로 조정 및 배포된다.

도 3에 나타낸 바와 같이 단계 S204의 훈련 과정에서 전체 모델의 손실 함수는 번역 손실（1）과 판별 손실（2）의 두 부분을 포함한다. 두 손실은 네트워크의 총 손실 함수로 중첩되며 모델 훈련 과정에서 기울기 하강법을 사용하여 총 손실 함수의 수렴 방향으로 매개 변수를 조정한다. 즉 매개 단계의 훈련에서 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기의 파라미터를 조정하여 손실 함수가 수렴 방향으로 감소하도록 조정한다.

마찬가지로, 단계 S205의 경우，모델 훈련 과정에서도 기울기 하강법을 사용하여，총 손실 함수의 수렴 방향으로 파라미터를 조정한다. 즉, 각각의 단계의 훈련 과정에서， 목표 분야의 기계 번역 모델의 인코더와 디코더의 파라미터를 조정하여 손실 함수가 수렴 방향으로 감소하도록 조정한다.

본 실시예의 훈련 과정에서 총 손실 함수가 수렴되어 훈련이 완료될 때까지 상술한 단계 S201-S205는 반복될 수 있으며 이때 판별기의 파라미터와 목표 분야의 기계 번역 모델의 인코더와 디코더의 파라미터를 확정한 다음 나아가 판별기와 목표 분야의 기계 번역 모델을 확정한다. 그러나 목표 분야의 번역을 사용하는 경우 훈련된 목표 분야의 기계 번역 모델의 인코더와 디코더로 구성된 목표 분야의 기계 번역 모델만 사용하여 목표 분야의 번역을 구현한다. 상술한 실시예에서 기재된 바와 같이 본 실시예의 목표 분야는 구두 언어 분야 또는 기타 특수 분야일 수 있으며 구체적으로 본 실시예의 훈련 방식을 사용하여 대응하는 목표 분야의 기계 번역 모델을 훈련시킬 수 있다.

본 실시예의 목표 분야의 기계 번역 모델의 훈련 방법에서 상술한 기술방안을 사용하여 판별기에 의해 식별한 샘플이 분야에 속하는 확률을 사용하여 샘플의 분야 특징을 구분할 수 있으며 나아가 제1 훈련 샘플 세트와 제2 훈련 샘플 세트를 정확하게 획득할 수 있다； 목표 분야의 기계 번역 모델의 디코더를 고정하고 제1 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기를 훈련한다； 인코더의 각각의 코딩층에 배치된 판별기를 고정하고 제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시켜 자기 적응적으로 목표 분야의 기계 번역 모델에 대해 훈련 조정을 구현하여 목표 분야의 기계 번역 모델의 정확성을 효과적으로 향상시킨다. 선행기술의 목표 분야의 기계 번역 모델의 훈련 방법과 비교하면 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킬 수 있다.

도 5는 본 출원 제3 실시예에 따른 개략도이다； 도 5에 나타낸 바와 같이 본 실시예는 목표 분야의 기계 번역 모델의 훈련 장치(500)를 제공하며, 상기 훈련 장치는 제1 선택 모듈(501), 제2 선택 모듈(502), 및 훈련 모듈(503)을 포함한다：

제1 선택 모듈(501)은，병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고, 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다；

제2 선택 모듈(502)은 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고, 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성한다；

훈련 모듈(503)은 제1 훈련 샘플 세트와 제2 훈련 샘플 세트를 별도로 사용하여 훈련 목표 분야의 기계 번역 모델의 인코더, 인코더의 각각의 코딩층에 배치된 판별기 및 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시킨다； 판별기는 훈련 시 입력된 샘플이 속하는 분야를 식별하는데 사용된다.

본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)는 상술한 모듈을 사용하여 목표 분야의 기계 번역 모델의 훈련된 구현 원리 및 기술 효과를 구현하며 상술한 관련 방법 실시예와 같으며 상세한 내용은 상술한 관련 방법 실시예의 기재를 참고할 수 있으므로 여기서 생략한다.

도 6은 본 출원 제4 실시예에 따른 개략도이다； 도 6에 나타낸 바와 같이 본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)는 상술한 도 5에 나타낸 실시예의 기술 방안을 기반으로 나아가 더욱 상세하게 본 출원의 기술 방안을 소개한다.

도 6에 나타낸 바와 같이 본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)에서 제1 선택 모듈(501)은 확률 식별 유닛(5011)과 선택 유닛(5012)을 포함한다：

확률 식별 유닛(5011)은 판별기를 사용하여 병렬 코퍼스 중 각각의 샘플이 일반 분야와 목표 분야 사이에서 일반 분야 또는 목표 분야에 속하는 확률을 식별하는데 사용된다；

선택 유닛(5012)은 병렬 코퍼스에서 확률이 제1 확률 역치보다 작거나 및/또는 확률이 제2 확률 역치보다 크고 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다； 여기서 제2 확률 역치는 제2 확률 역치보다 크다.

나아가 선택적으로 제2 선택 모듈(502)은 다음에 사용된다：

병렬 코퍼스에서 확률이 제1 확률 역치보다 크거나 같으며, 제2 확률 역치보다 작거나 같고 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성한다.

나아가 선택적으로 확률 식별 유닛(5011)은 다음에 사용된다：

목표 분야의 기계 번역 모델의 인코더의 최상위층인 코딩층에 배치된 판별기를 사용하여 병렬 코퍼스 중 각각의 샘플이 일반 분야 또는 목표 분야에 속하는 확률을 식별한다.

나아가 선택적으로 도 6에 나타낸 바와 같이 본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)에서 훈련 모듈(503)은 제1 훈련 유닛(5031)과 제2 훈련 유닛(5032)을 포함한다：

제1 훈련 유닛(5031)은 목표 분야의 기계 번역 모델의 디코더를 고정하고 제1 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 인코더의 각각의 코딩층에 배치된 판별기를 훈련시키는데 사용된다；

제2 훈련 유닛(5032)은 인코더의 각각의 코딩층에 배치된 판별기를 고정하고 제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시킨다.

나아가 선택적으로 도 6에 나타낸 바와 같이 본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)는 또한 획득 모듈(504)을 포함한다：

획득 모듈(504)은 딥 러닝 기술에 기반하여 미리 훈련된 일반 분야의 기계 번역 모델을 획득하여 목표 분야의 기계 번역 모델로 한다.

본 실시예의 목표 분야의 기계 번역 모델의 훈련 장치(500)는 상술한 모듈을 사용함으로써 목표 분야의 기계 번역 모델의 훈련의 구현 원리 및 기술 효과를 구현하며 상술한 관련 방법 실시예와 같으므로 상세한 내용은 상술한 관련 방법 실시예의 기재를 참고할 수 있으므로 여기서 생략한다.

본 출원의 실시예에 따르면 본 출원은 전자기기 및 판독 가능 기록 매체를 더 제공한다.

도 7에 나타낸 바와 같이 본 출원 실시예의 목표 분야의 기계 번역 모델의 훈련 방법을 구현하는 전자기기의 블럭도이다. 전자기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자기기 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 기술하거나 및/또는 요구하는 본 출원의 구현을 한정하려는 것이 아니다.

도 7에 나타낸 바와 같이, 당해 전자기기는 하나 또는 복수의 프로세서(701), 메모리(702) 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 당해 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자기기 내에서 수행되는 명령에 대해 처리를 수행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 （예를 들면 인터페이스에 연결된 디스플레이 기기） 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 （예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템）을 제공한다. 도 7에서는 하나의 프로세서(701)의 예를 들었다.

메모리(702)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기록 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 목표 분야의 기계 번역 모델을 수행하도록 한다. 본 출원의 비 일시적 컴퓨터 판독 가능 기록 매체는 컴퓨터 명령을 기억하며, 당해 컴퓨터 명령은 컴퓨터로 하여금 본 출원에 의해 제공되는 목표 분야의 기계 번역 모델의 훈련 방법을 수행하도록 한다.

메모리(702)는 일종의 비 일시적 컴퓨터 판독 가능 기록 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈을 기억하는데 사용될 수 있는 바, 예를 들면 본 출원 실시예의 목표 분야의 기계 번역 모델의 훈련 방법에 대응하는 프로그램 명령/모듈(예를 들면 도 5 및 도 6에 나타낸 관련 모듈)을 기억하는데 사용될 수 있다. 프로세서(701)는 메모리(702) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 상술한 방법 실시예의 목표 분야의 기계 번역 모델의 훈련 방법을 구현한다.

메모리(702)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 앱을 기억할 수 있고, 데이터 기억 영역은 목표 분야의 기계 번역 모델의 훈련 방법을 구현하는데 따른 전자기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(702)는 선택적으로 프로세서(701)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 목표 분야의 기계 번역 모델의 훈련 방법을 구현하는 전자기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

목표 분야의 기계 번역 모델의 훈련 방법을 구현하는 전자기기는 입력 장치(703)와 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 7에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(703)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 목표 분야의 기계 번역 모델의 훈련 방법을 구현하는 전자기기의 유저 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치 (704)는 디스플레이 기기, 보조 조명 장치（예를 들면 LED） 및 촉각 피드백 장치（예를 들면 진동 모터） 등을 포함할 수 있다. 당해 디스플레이 기기는 액정 디스플레이（LCD）, 발광 다이오드（LED） 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC（전용 집적 회로）, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 당해 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 당해 기억 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 （프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림）은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 “기계 판독 가능 매체” 및 “컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 （예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치（PLD））에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. “기계 판독 가능 신호”와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 당해 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 （예를 들면 CRT （음극선관） 또는 LCD （액정 디스플레이） 모니터） 및 키보드와 포인팅 장치(예를 들면, 마우스 또는 트랙볼)를 구비할 수 있으며, 유저는 당해 키보드 및 당해 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 （예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백）일 수 있으며, 또한 임의의 형태（음향 입력, 음성 입력 또는 촉각 입력을 포함함）를 통해 유저로부터의 입력을 수신할 수 있다.

여기서 설명하는 시스템 및 기술을 백엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 데이터 서버）, 또는 미들웨어 구성 요소를 포함하는 계산 시스템 （예를 들면 응용 서버）, 또는 프런트엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 당해 그래픽 유저 인터페이스 또는 당해 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함）, 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 （예를 들면, 통신 네트워크）을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망（LAN）, 광역 통신망（WAN） 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 수행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트-서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.

본 출원 실시예에 따른 기술방안은 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고, 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성한다； 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성한다； 제1 훈련 샘플 세트 및 제2 훈련 샘플 세트를 별도로 사용하여 훈련 목표 분야의 기계 번역 모델의 인코더 및 인코더의 각각의 코딩층에 배치된 판별기, 및 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시킨다； 판별기는 제1 훈련 샘플 세트 중 각각의 샘플이 속하는 분야를 식별하며 선행기술의 목표 분야의 기계 번역 모델의 훈련 방법과 비교하면 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킨다. 또한 본 출원 실시예의 훈련 방법을 사용하여 샘플이 목표 분야와 일반 분야에서의 분포를 참고하여 자기 적응적으로 목표 분야의 기계 번역 모델에 대해 훈련 조정하여 목표 분야의 기계 번역 모델의 정확성을 효과적으로 향상시킨다.

본 출원 실시예에 따른 기술방안은 상술한 기술 방안을 사용하여 판별기를 사용하여 샘플이 분야에 속하는 확률을 식별하여 샘플의 분야 특징을 구분하여 제1 훈련 샘플 세트와 제2 훈련 샘플 세트를 정확하게 획득할 수 있다； 목표 분야의 기계 번역 모델의 디코더를 고정하고 제1 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더 및 인코더의 각각의 코딩층에 배치된 판별기를 훈련시킨다； 인코더의 각각의 코딩층에 배치된 판별기를 고정하고 제2 훈련 샘플 세트를 사용하여 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시킴으로써 자기 적응적으로 목표 분야의 기계 번역 모델에 대해 훈련 조정하는 것을 구현하며 목표 분야의 기계 번역 모델의 정확성을 효과적으로 향상시킬 수 있다. 선행기술의 목표 분야의 기계 번역 모델의 훈련 방법과 비교하면 시간이 절약되고 힘이 적게 들며 목표 분야의 기계 번역 모델의 훈련 효율을 효과적으로 향상시킬 수 있다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정열, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 출원에 기재된 각각의 단계는 병열로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 출원이 개시하는 기술 방안이 원하는 결과를 구현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 출원의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 수행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

컴퓨터로 실행되는 목표 분야(target domain)의 기계 번역 모델(machine translation model)의 훈련 방법으로서,
병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플들의 한 세트를 선택하여 제1 훈련 샘플 세트를 구성하는 단계- 상기 일반 분야 특징 및/또는 상기 목표 분야 특징을 구비한 샘플들은 분류 정보를 포함하며, 상기 일반 분야는 NLP(Natural Language Processing)에서 모든 분야임-；
상기 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하는 단계； 및
상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 차례로 별도로 사용하여, 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기(discriminator) 및 상기 목표 분야의 기계 번역 모델의 인코더(encoder)와 디코더(decoder)를 훈련시키는 단계 - 상기 판별기는 훈련 시 입력된 샘플이 속하는 분야를 식별하는데 사용됨 -；
를 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
제1항에 있어서,
병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비한 샘플 세트를 선택하여 제1 훈련 샘플 세트를 구성하는 단계는:
상기 판별기를 사용하여 상기 병렬 코퍼스 중 각각의 상기 샘플이 일반 분야와 목표 분야 사이에서 상기 일반 분야 또는 목표 분야에 속하는 확률을 식별하는 단계； 및
상기 병렬 코퍼스에서 상기 확률이 제1 확률 역치보다 작고 및/또는 제2 확률 역치보다 크며 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 상기 제1 훈련 샘플 세트를 구성하는 단계 - 상기 제1 확률 역치는 상기 제2 확률 역치보다 큰 수임 -;
를 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
제2항에 있어서,
상기 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하는 단계는：
상기 병렬 코퍼스에서 확률이 상기 제1 확률 역치보다 크거나 같고 상기 제2 확률 역치보다 작거나 같으며 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 상기 제2 훈련 샘플 세트를 구성하는 단계;
를 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
제2항에 있어서,
상기 판별기를 사용하여 상기 병렬 코퍼스 중 각각의 상기 샘플이 일반 분야와 목표 분야 사이에서 상기 일반 분야 또는 목표 분야에 속하는 확률을 식별하는 단계는：
상기 목표 분야의 기계 번역 모델의 인코더의 최상위층인 코딩층에 배치된 상기 판별기를 사용하여 상기 병렬 코퍼스 중 각각의 상기 샘플이 상기 일반 분야 또는 목표 분야에 속하는 확률을 식별하는 단계;
를 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
제1항에 있어서,
상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기 및 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시키는 단계는：
상기 목표 분야의 기계 번역 모델의 디코더를 고정시키고, 상기 제1 훈련 샘플 세트를 사용하여 상기 목표 분야의 기계 번역 모델의 인코더 및 상기 인코더의 각각의 코딩층에 배치된 상기 판별기를 훈련시키는 단계； 및
상기 인코더의 각각의 코딩층에 배치된 상기 판별기를 고정시키고, 상기 제2 훈련 샘플 세트를 사용하여 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시키는 단계;
를 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 별도로 사용하여 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기 및 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 차례로 훈련시키는 단계의 전에, 상기 방법은：
딥 러닝 기술에 기반하여 미리 훈련된 일반 분야의 기계 번역 모델을 획득하여 상기 목표 분야의 기계 번역 모델로 하는 단계를
더 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 방법.
목표 분야의 기계 번역 모델의 훈련 장치로서,
병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징 및/또는 목표 분야 특징을 구비하는 샘플들의 한 세트를 선택하여 제1 훈련 샘플 세트를 구성하는 제1 선택 모듈- 상기 일반 분야 특징 및/또는 상기 목표 분야 특징을 구비한 샘플들은 분류 정보를 포함하며, 상기 일반 분야는 NLP(Natural Language Processing)에서 모든 분야임-；
상기 병렬 코퍼스에서 번역 품질이 미리 설정된 요구에 만족되고 일반 분야 특징과 목표 분야 특징을 구비하지 않는 샘플 세트를 선택하여 제2 훈련 샘플 세트를 구성하는 제2 선택 모듈；및
상기 제1 훈련 샘플 세트와 상기 제2 훈련 샘플 세트를 차례로 별도로 사용하여 훈련 목표 분야의 기계 번역 모델의 인코더, 상기 인코더의 각각의 코딩층에 배치된 판별기 및 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시키는 훈련 모듈 - 상기 판별기는 훈련 시 입력된 샘플이 속하는 분야를 식별하는데 사용됨 -;
을 포함하는 것을 특징으로 하는
목표 분야의 기계 번역 모델의 훈련 장치.
제7항에 있어서,
상기 제1 선택 모듈은：
상기 판별기를 사용하여 상기 병렬 코퍼스 중 각각의 상기 샘플이 일반 분야와 목표 분야 사이에서 상기 일반 분야 또는 목표 분야에 속하는 확률을 식별하는 확률 식별 유닛； 및
상기 병렬 코퍼스에서 상기 확률이 제1 확률 역치보다 작고 및/또는 제2 확률 역치보다 크며 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 상기 제1 훈련 샘플 세트를 구성하는 선택 유닛 - 여기서 상기 제1 확률 역치는 상기 제2 확률 역치보다 큰 수임 -;
을 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 장치.
제8항에 있어서,
상기 제2 선택 모듈은：
상기 병렬 코퍼스에서 확률이 상기 제1 확률 역치보다 크거나 같고 상기 제2 확률 역치보다 작거나 같으며 또한 번역 확률이 미리 설정된 확률 역치보다 큰 샘플 세트를 선택하여 상기 제2 훈련 샘플 세트를 구성하는 것
에 사용하는,
목표 분야의 기계 번역 모델의 훈련 장치.
제8항에 있어서,
상기 확률 식별 유닛은：
상기 목표 분야의 기계 번역 모델의 인코더의 최상위층인 코딩층에 배치된 상기 판별기를 사용하여 상기 병렬 코퍼스 중 각각의 상기 샘플이 상기 일반 분야 또는 목표 분야에 속하는 확률을 식별하는 것
에 사용되는,
목표 분야의 기계 번역 모델의 훈련 장치.
제7항에 있어서,
상기 훈련 모듈은：
상기 목표 분야의 기계 번역 모델의 디코더를 고정하고, 상기 제1 훈련 샘플 세트를 사용하여 상기 목표 분야의 기계 번역 모델의 인코더와 상기 인코더의 각각의 코딩층에 배치된 상기 판별기를 훈련하는 제1 훈련 유닛； 및
상기 인코더의 각각의 코딩층에 배치된 상기 판별기를 고정하고, 상기 제2 훈련 샘플 세트를 사용하여 상기 목표 분야의 기계 번역 모델의 인코더와 디코더를 훈련시키는 제2 훈련 유닛;
을 더 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 장치.
제7항 내지 제11항 중 어느 한 항에 있어서,
딥 러닝 기술에 기반하여 미리 훈련된 일반 분야의 기계 번역 모델을 획득하여 상기 목표 분야의 기계 번역 모델로 하는 획득 모듈
을 더 포함하는 것을 특징으로 하는,
목표 분야의 기계 번역 모델의 훈련 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결된 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 수행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
전자기기.
컴퓨터 명령이 기억되어 있는 비 일시적 컴퓨터 판독 가능 기록매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
기록매체.
비 일시적 컴퓨터 판독 가능 기록매체에 기억되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 수행하도록 하는 것을 특징으로 하는,
컴퓨터 프로그램.