KR102338918B1

KR102338918B1 - 기계 번역 모델의 훈련 방법, 장치 및 시스템

Info

Publication number: KR102338918B1
Application number: KR1020200046002A
Authority: KR
Inventors: 지아리앙 지앙; 시앙 리; 지안웨이 쿠이
Original assignee: 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드
Priority date: 2019-12-10
Filing date: 2020-04-16
Publication date: 2021-12-10
Also published as: CN110941966A; JP2021093113A; EP3835998A1; KR20210073431A; US11734521B2; US20210174019A1; JP6918181B2

Abstract

본 발명은 기계 번역 모델의 훈련 방법, 장치 및 매체에 관한 것이다. 상기 방법은, 훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계; 각 라운드의 훈련 프로세스가 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 양방향 번역 모델에 대해 수행하는 단계; 타겟 말뭉치와 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 소스 말뭉치와 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴될 경우, 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 포함한다. 본 방법은 말뭉치의 다양함을 향상시킴으로써, 자원이 부족한 경우의 모델 훈련 효과를 향상시킨다.

Description

기계 번역 모델의 훈련 방법, 장치 및 시스템{METHOD, DEVICE AND STORAGE MEDIUM　 FOR TRAINING MACHINE TRANSLATION MODEL}

관련 출원의 상호 참조

본 출원은 출원 번호가 CN201911259415.X이고, 출원일이 2019년 12월 10일인 중국 특허 출원에 기반하여 제출된 것이며, 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 원용된다.

본 발명은 기계 번역에 관한 것으로서, 특히 기계 번역 모델의 훈련 방법, 장치 및 시스템에 관한 것이다.

기계 번역 응용에 있어서, 기계 번역 모델을 훈련시켜야 한다. 기계 번역 모델이 훈련될 경우 대량의 이중 언어 병렬 말뭉치를 훈련 데이터로 사용해야 한다. 그러나, 수많은 응용 시나리오에 있어서, 예를 들어, 소수 언어에 관련된 기계 번역 시나리오에 있어서, 대량의 이중 언어 병렬 말뭉치 자원이 없을 경우, 훈련 말뭉치의 부족으로 인해 기계 번역 모델이 이상적인 번역 효과를 달성하기 어려워진다. 이것은 주로 이중 언어 병렬 말뭉치의 획득 난이도가 높고, 비용이 높은 이유로, 수많은 소수 언어에는 다만 수 십만 내지 수 만 개의 병렬 말뭉치만 존재한다. 또한 소수 언어의 개수가 대다수 언어보다 훨씬 많으므로, 각각의 소수 언어-대다수 언어 또는 소수 언어-소수 언어에 대해 모두 대량의 이중 언어 병렬 말뭉치를 형성하는 비용은 쉽게 받아들여지지 않는다.

따라서, 자원이 부족한 경우 기계 번역 모델을 훈련시키는 방법이 필요하다.

관련 기술에서 존재하는 문제를 해결하기 위해, 본 발명은 기계 번역 모델의 훈련 방법, 장치 및 시스템을 제공한다.

본 발명의 실시예의 제1 측면에 따르면, 기계 번역 모델의 훈련 방법을 제공하고, 상기 방법은,

훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계;

각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인 N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계;

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및

상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 포함한다.

여기서, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계는,

상기 양방향 번역 모델에 재구성 머신을 설치하고, 상기 재구성 머신을 통해 상기 역방향 번역 프로세스를 구현하는 단계를 포함한다.

상기 정방향 번역 프로세스 중에서, 미분(derivation) 가능한 샘플링 함수를 통해 상기 허위 타겟 말뭉치를 획득하는 단계를 포함한다.

i 번째 라운드의 훈련 프로세스 중에서, 상기 미분 가능한 샘플링 함수를 통해 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치 사이의 오차를 획득하는 단계(i는 1보다 크거나 같고 N보다 작은 양의 정수); 및

i+1 번째 라운드의 훈련 프로세스 중에서, 상기 i 번째 라운드의 훈련 프로세스 중에서 획득된 상기 오차에 기반하여, 상기 양방향 번역 모델의 훈련 파라미터를 조정하는 단계를 더 포함한다.

여기서, 상기 미분 가능한 샘플링 함수는 Gumbel-Softmax 함수를 포함한다.

여기서, 정방향 번역 유사도와 역방향 번역 유사도를 획득하는 단계는,

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 로그 우도 함수값 및 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 로그 우도 함수값을 획득하는 단계를 포함한다.

여기서, 상기 훈련 데이터에는 제1 언어 태그 또는 제2 언어 태그가 구비되어 있고, 여기서, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제2 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치이며; 또는 상기 제2 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치이다.

본 발명의 실시예의 제2 측면에 따르면, 기계 번역 모델의 훈련 장치를 제공하고, 상기 장치는,

훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하도록 구성된 모델 및 데이터 획득 모듈;

각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하도록 구성된 훈련 모델;

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하도록 구성된 유사도 획득 모듈; 및

상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하도록 구성된 결정 모듈을 포함한다.

여기서, 상기 훈련 모듈은 재구성 머신을 더 포함하고, 상기 재구성 머신을 통해 상기 역방향 번역 프로세스를 구현한다.

여기서, 상기 훈련 모듈은 또한,

상기 정방향 번역 프로세스 중에서, 미분 가능한 샘플링 함수를 통해 상기 허위 타겟 말뭉치를 획득하도록 구성된다.

여기서, 상기 훈련 모듈은 또한,

i 번째 라운드의 훈련 프로세스 중에서, 상기 미분 가능한 샘플링 함수를 통해 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치 사이의 오차를 획득하고(i는 1보다 크거나 같고 N보다 작은 양의 정수),

i+1 번째 라운드의 훈련 프로세스 중에서, 상기 i 번째 라운드의 훈련 프로세스 중에서 획득된 상기 오차에 기반하여, 상기 양방향 번역 모델의 훈련 파라미터를 조정하도록 구성된다.

여기서, 상기 유사도 획득 모듈은 또한,

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 로그 우도 함수값 및 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 로그 우도 함수값을 획득하도록 구성된다.

여기서, 상기 모델 및 데이터 획득 모듈은 또한,

상기 훈련 데이터에 제1 언어 태그 또는 제2 언어 태그를 구비하도록 구성되고, 여기서, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터를 소스 말뭉치로 사용하면, 상기 제2 언어 태그가 구비되어 있는 훈련 데이터를 타겟 말뭉치로 사용하며; 또는 상기 제2 언어 태그가 구비되어 있는 훈련 데이터를 소스 말뭉치로 사용하면, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터를 타겟 말뭉치로 사용한다.

본 발명의 실시예의 제3 측면에 따르면, 기계 번역 모델의 훈련 장치를 제공하고, 상기 장치는,

프로세서; 및

프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,

여기서, 상기 프로세서는,

훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하고,

각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인 N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하고,

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하며,

상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하도록 구성된다.

본 발명의 실시예의 제4 측면에 따르면, 비-일시적 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 저장 매체에서의 명령어는 단말의 프로세서에 의해 실행될 경우, 단말로 하여금 기계 번역 모델의 훈련 방법을 실행할 수 있도록 하며, 상기 방법은,

본 발명은 소수 언어에 대한 기계 번역 모델의 훈련 방법을 제공한다. 여기서, 양방향 번역 모델은 본 발명의 기계 번역 모델로 사용된다. 각 라운드의 훈련 프로세스 중에서, 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 수행하고, 정방향 번역 프로세스의 정방향 번역 유사도 및 역방향 번역 프로세스의 역방향 번역 유사도의 합이 수렴되는지 여부를 판단하는 것을 통해, 기계 번역 모델의 훈련이 완료되었는지 여부를 결정한다. 여기서, 재구성 머신을 통해 상기 역방향 번역 프로세스가 구현된다.

상기 방법을 사용하여, 훈련 중 역방향 번역 말뭉치를 도입하여, 말뭉치의 다양성을 향상시킴으로써, 자원이 부족한 경우의 모델 훈련 효과를 향상시킨다. 또한, 양방향 번역의 방법을 도입하는 동시에, 역방향 번역 모델을 훈련시켜, 고유의 역방향 번역 방법으로 높은 품질을 갖는 역방향 번역 모델을 획득하기 어려운 문제를 해결한다.

이상의 일반적인 설명 및 하기의 상세한 설명은 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다는 사실을 이해해야 한다.

아래의 도면들은 본 명세서의 일부분으로서 명세서 전체를 구성하고, 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 원리를 해석하기 위한 것이다.
도 1은 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 방법의 흐름도이다.
도 3은 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 방법의 블록도이다.
도 4는 일 예시적 실시예에 따라 도시된 장치의 블록도이다.
도 5는 일 예시적 실시예에 따라 도시된 장치의 블록도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 예시적 실시예들을 상세히 설명한다. 아래의 설명에서 도면을 참조할 경우, 다른 표시가 없는 한, 상이한 도면에서 동일한 참조부호는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구 범위에 상세히 설명된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.

소수 언어 기계 번역 시나리오에서, 기계 번역 모델을 훈련시킬 경우, 소수 언어 이중 언어 병렬 말뭉치의 획득 난이도가 높고, 비용이 높은 이유로, 수많은 소수 언어에는 다만 수 십만 내지 수 만 개의 병렬 말뭉치만 구비되어 있다.

현재 역방향 번역에 기반하여 대량의 단일 언어 말뭉치로 허위 병렬 말뭉치를 형성하는 방법이 존재한다. 즉, 단일 언어 말뭉치의 획득 난이도가 이중 언어 병렬 말뭉치의 획득 난이도보다 훨씬 낮으므로, 대량의 타겟 말단 단일 말뭉치의 획득 및 하나의 역방향 번역의 모델을 통해 단일 말뭉치를 대응되는 소스 말단 번역문으로 번역하고, 최종적으로 형성된 허위 말뭉치를 사용하여 모델을 훈련시킬 수 있다. 그러나, 이러한 방법에 있어서, 역방향 번역의 방법은 추가로 도입된 역방향 번역 모델에 의존하는 것으로서, 역방향 번역 모델의 품질에 대한 요구가 높다. 그러나, 자원이 부족한 경우, 역방향 번역 모델의 고품질을 충족시키기 어렵다.

이하, 본 발명에 따른 기계 번역 모델의 훈련 방법을 자세하게 설명한다.

도 1은 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 방법의 흐름도이고, 도 1에 도시된 바와 같이, 상기 방법은 아래와 같은 단계들을 포함한다.

단계 101에 있어서, 훈련될 양방향 번역 모델 및 훈련 데이터를 획득하고, 훈련 데이터는 소스 말뭉치 및 대응되는 타겟 말뭉치를 포함한다.

단계 102에 있어서, 양방향 번역 모델에 대해 N 라운드의 훈련 프로세스를 수행하고, 각 라운드의 훈련 프로세스는 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하며, 여기서, N은 1보다 큰 양의 정수이다.

단계 103에 있어서, 정방향 번역 유사도와 역방향 번역 유사도를 획득하고, 여기서, 정방향 번역 유사도는 타겟 말뭉치와 허위 타겟 말뭉치의 유사도이고, 역방향 번역 유사도는 소스 말뭉치와 허위 소스 말뭉치의 유사도이다.

단계 104에 있어서, 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴될 경우, 양방향 번역 모델의 훈련이 완료된 것으로 결정한다.

단계 101에 있어서, 훈련될 양방향 번역 모델 및 훈련 데이터를 획득한다. 본 방법에 있어서, 정방향 번역 프로세스 및 역방향 번역 프로세스를 실행해야 하므로, 훈련될 기계 번역 모델은 양방향 번역 모델을 사용한다. 즉, 상기 번역 모델은, 정방향 번역 모델일 수도, 역방향 번역 모델일 수도 있다. 여기서, 양방향 번역 모델은 본 기술분야에서 현재 흔히 사용되는 양방향 번역 모델을 사용할 수 있다.

단계 102에 있어서, 양방향 번역 모델에 대한 각 라운드의 훈련 프로세스는 정방향 번역 프로세스 및 역방향 번역 프로세스를 모두 포함한다. 정방향 번역 프로세스는 소스 말뭉치를 입력으로 사용하고, 허위 타겟 말뭉치를 출력한다. 역방향 번역 프로세스는 정방향 번역 프로세스 중에서 출력된 허위 타겟 말뭉치를 입력으로 사용하고, 허위 소스 말뭉치를 출력한다.

단계 103에 있어서, 정방향 번역 유사도와 역방향 번역 유사도를 획득한다. 여기서, 정방향 번역 유사도와 역방향 번역 유사도를 획득하는 것을 설명하기 위해, 고유의 훈련 방법에서의 유사도의 응용을 먼저 해석한다.

단일 방향 번역 모델을 사용하는 고유의 훈련 방법에 있어서, 입력 말단은 소스 말뭉치이고, 출력 말단은 모델 번역의 번역이다. 이때 예를 들어, 그들의 유사도를 비교하는 것과 같이, 모델 번역의 번역과 상기 소스 말뭉치에 대응되는 타겟 말뭉치를 비교한다. 그 유사도가 엄청 클(예를 들어, 수렴될) 경우, 단일 방향 번역 모델이 훈련 완료된 것으로 결정하여, 단일 방향 번역 모델의 최적화를 구현한다.

본 발명의 방법에 있어서, 역방향 번역 프로세스를 사용하는 말뭉치에 의해 훈련 말뭉치의 개수가 증가되므로, 훈련시킬 경우 역방향 번역 모델을 동시에 훈련시켜야 하고, 즉 정방향 번역 모델 및 역방향 번역 모델을 동시에 최적화해야 한다. 따라서, 정방향 번역 유사도와 역방향 번역 유사도, 즉, 타겟 말뭉치와 허위 타겟 말뭉치의 유사도, 소스 말뭉치와 허위 소스 말뭉치의 유사도를 획득해야 한다.

단계 104에 있어서, 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴되는 것으로 결정된 경우, 양방향 번역 모델이 훈련 완료된 것으로 결정한다. 여기서, 수렴은 여러 라운드의 훈련 후, 두 개의 유사도의 합이 하나의 값에 접근하는 것을 나타내고 즉, 두 개의 유사도의 합이 거의 최대값에 도달했음을 나타낸다.

상기 방법에 있어서, 양방향 번역 모델로 훈련시켜, 역방향 번역 프로세스의 말뭉치를 통해 훈련 말뭉치의 개수를 증가시키려는 목적을 달성한다. 또한, 훈련 프로세스가 정방향 번역 프로세스의 훈련을 포함할 뿐만 아니라 역방향 번역 프로세스의 훈련도 포함하므로, 모델을 최적화할 경우, 정방향 번역 능력 및 역방향 번역 능력은 모두 최적화된다.

선택 가능한 실시형태에 있어서, 상기 양방향 번역 모델에 대해 N 라운드의 훈련 프로세스를 수행하는 단계는,

여기서, 재구성 머신은 본 분야의 기술자가 공지의 재구성 머신을 사용할 수 있으므로, 재구성 머신의 구체적인 구조에 관련하여 더 이상 반복하여 설명하지 않는다.

본 방법에 있어서, 재구성 머신을 사용하여, 동일한 기계 번역 모델로 정방향 번역 프로세스 및 역방향 번역 프로세스를 동시에 구현한다. 즉, 재구성 머신의 작용 하에서, 먼저 소스 말뭉치를 허위 타겟 말뭉치로 번역한 다음, 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역한다. 따라서, 정방향 번역 프로세스에 대한 훈련이나 역방향 번역 프로세스에 대한 훈련이든, 모두 상기 기계 번역 모델에 대한 훈련 즉, 최적화를 구현한다.

고유의 기계 번역 모델 훈련 방법에 있어서, 소스 말뭉치의 번역 결과를 출력 즉, 디코딩할 경우, 통상적으로 argmax 함수를 사용하여 출력 결과 확률이 가장 높은 단어(번역 프로세스는 소스 말뭉치가 번역될 수 있는 각 단어의 확률을 생성함)를 선택하여, 허위 타겟 말뭉치를 획득한다. 그러나, 이 고유 방법에 있어서, 코딩 프로세스 중에서 argmax 함수가 미분될 수 없으므로, 역방향 번역을 할 경우 소스 말뭉치가 허위 타겟 말뭉치로 번역되는 오차는 허위 타겟 말뭉치가 허위 소스 말뭉치로 번역되는 프로세스로 전송될 수 없다. 그러나, 본 방법에서 번역 모델에 대해 정방향 번역 훈련 및 역방향 번역 훈련을 동시에 수행해야 하므로, 역방향 번역 프로세스 중에서, 정방향 번역의 오차를 고려해야 한다.

따라서, 본 방법에서, 미분 가능한 샘플링 함수로 argmax 함수를 대체한다. 상기 샘플링 함수는 하나의 미분 가능한 공식으로 argmax 함수를 대체하여 확률이 가장 높은 방법을 직접 선택하고, 최종적인 출력 결과는 argmax 함수를 사용하는 것과 유사하지만, 정방향 번역 오차가 역방향 번역 프로세스로의 전송을 구현한다.

훈련 모델의 프로세스 중에서, 모델의 훈련 파라미터를 조정하여 모델을 부단히 최적화해야 한다. 본 방법에 있어서, 타겟 말뭉치와 허위 타겟 말뭉치 사이의 오차에 기반하여 모델의 훈련 파라미터를 조정할 수 있다.

선택 가능한 실시형태에 있어서, 상기 미분 가능한 샘플링 함수는 Gumbel-Softmax 함수를 포함한다.

본 방법에 있어서, Gumbel-Softmax 함수로 argmax 함수를 대체한다. Gumbel-softmax는 이산 변수의 분포를 시뮬레이션하는 것을 통해, 하나의 미분 가능한 공식으로 argmax 함수를 대체하여 확률이 가장 높은 방법을 직접 선택함으로써, 미분 가능한 방법을 사용하여 argmax 방법과 대체적으로 일치하는 디코딩 결과를 얻도록 보장한다.

선택 가능한 실시형태에 있어서, 상기 정방향 번역 유사도와 역방향 번역 유사도를 획득하는 단계는,

정방향 번역 유사도는 타겟 말뭉치와 허위 타겟 말뭉치의 로그 우도 함수값일 수 있고, 역방향 번역 유사도는 소스 말뭉치와 허위 소스 말뭉치의 로그 우도 함수값일 수 있다. 따라서, 양방향 번역 모델의 훈련 목적은 두 가지의 로그 우도 함수값의 합이 거의 최대값이 되도록 즉, 수렴되도록 하는 것이다.

로그 우도 함수는 log-likelihood로 표시할 수 있다. s로 소스 말뭉치를 표시하고, t로 타겟 말뭉치를 표시하면, s'는 허위 타겟 말뭉치를 표시하고, t'는 허위 타겟 말뭉치를 표시하고, 타겟 말뭉치와 허위 타겟 말뭉치의 로그 우도 함수값은 log-likelihood (t,t')로 표시되고, 소스 말뭉치와 허위 소스 말뭉치의 로그 우도 함수값은 log-likelihood (s,s')로 표시된다.

설명해야 할 것은, 양방향 번역에 대한 디폴트 훈련 프로세스는 복수 개의 훈련 데이터를 사용하는 것을 포함하고, 상기 설명은 다만 하나의 훈련 데이터를 예로 들어 설명한 것이다. 이러한 훈련 데이터를 사용하는 훈련 원리는 모두 동일하다.

선택 가능한 실시형태에 있어서, 상기 훈련 데이터에는 제1 언어 태그 또는 제2 언어 태그가 구비되어 있고, 여기서, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제2 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치이고; 또는 상기 제2 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치이다.

양방향 번역 모델 자체는 소스 말뭉치 및 타겟 말뭉치의 언어 종류를 정의하므로, 훈련 데이터에 언어 태그를 설치한 후, 상기 언어 태그에 기반하여 상기 훈련 데이터가 양방향 번역 모델의 어느 입력 말단에 입력해야하는지를 결정할 수 있다.

예를 들어, 중국어 및 영어 간의 번역은, 양방향 번역 모델에 의해 중국어에서 영어로의 번역이 수행될 수 있으므로, 영어에서 중국어로의 번역을 수행할 수도 있다. 따라서, 훈련 데이터에 소스 말뭉치 및 타겟 말뭉치를 설치할 경우, 단일 방향 번역 모델과 같이 한정되지 않는다. 여기서, 양방향 번역 모델을 훈련시킬 경우, 중국어 데이터를 소스 말뭉치로 사용하고, 영어 데이터를 타겟 말뭉치로 사용할 수 있고, 영어 데이터를 소스 말뭉치로 사용하고, 중국어 데이터를 타겟 말뭉치로 사용할 수도 있다.

본 방법에 있어서, 데이터에 언어 태그를 추가하는 방식을 통해 소스 말뭉치 및 타겟 말뭉치를 설치한다. 즉, 훈련시킬 경우, 이중 언어 병렬 말뭉치에 언어 태그를 추가하여, 번역 방향을 태깅한다. 예를 들어, 중국어가 "니 하우"이고, 영어가 "hello"이면, 태그를 추가한 후 <zh> 니 하우 - <en> hello이며, 여기서 태그 <zh>는 중국어 태그를 표시하고, 태그 <en>는 영어 태그를 표시한다. 디폴트로 앞에 있는 것을 소스 말뭉치로 설치하고, 뒤에 있는 것을 타겟 말뭉치로 설치할 수 있다.

따라서, 단계 102에서의 정방향 번역 프로세스는 소스 말뭉치에서 타겟 말뭉치로의 정방향 훈련 데이터에 기반하여 구현될 수 있고, 역방향 번역 프로세스는 타겟 말뭉치에서 소스 말뭉치로의 역방향 훈련 데이터에 기반하여 구현될 수 있다. 이상의 예를 참조하여, 태그를 추가한 데이터가 <zh> 니 하우 - <en> hello이면, 정방향 훈련 데이터는 니 하우 --- hello일 수 있고, 역방향 훈련 데이터는 hello --- 니 하우일 수 있다.

데이터에 언어 태그를 추가하는 방식을 통해, 동일한 데이터는 정방향 및 역방향의 두 개의 데이터로 되고, 이 두 개의 데이터는 훈련 세트에 동시에 가입되어 훈련될 수 있으므로, 말뭉치의 다양함을 향상시키는 효과를 달성한다. 이해할 수 있는 것은, 훈련시킬 경우 언어 태그를 추가하는 작용과 유사하게, 양방향 번역 모델이 디코딩할 경우에도 언어 태그를 추가하는 방식을 통해 번역 모델이 번역해야 하는 언어를 지시한다.

도 2에 도시된 바와 같이, 본 발명에 따른 하나의 구체적인 실시예를 도시한다. 상기 실시예에서의 양방향 번역 모델은 신경 기계 번역 모델이다. 상기 실시예의 방법은 아래와 같은 단계들을 포함한다.

단계 201에 있어서, 훈련될 양방향 번역 모델 및 훈련 데이터를 획득하고, 훈련 데이터는 소스 말뭉치 및 대응되는 타겟 말뭉치를 포함한다.

단계 202에 있어서, 양방향 번역 모델에 재구성 머신을 설치한다.

단계 203에 있어서, 양방향 번역 모델에 대해 정방향 번역 훈련 프로세스를 수행하고, 여기서, 정방향 번역 프로세스 중에서, Gumbel-Softmax 함수를 통해 허위 타겟 말뭉치를 획득한다.

단계 204에 있어서, 양방향 번역 모델에 대해 역방향 번역 훈련 프로세스를 수행하고, 상기 프로세스는 재구성 머신을 통해 구현된다.

단계 205에 있어서, 정방향 번역 유사도와 역방향 번역 유사도를 획득하고, 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴되는지 여부를 판단한다.

단계 206에 있어서, 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴되지 않을 경우, Gumbel-Softmax 함수를 통해 타겟 말뭉치와 허위 타겟 말뭉치 사이의 오차를 획득하고, 상기 오차를 통해 다음 라운드의 훈련 파라미터를 조정하며, 단계 203로 진입하여 다음 라운드의 훈련을 계속 수행한다.

단계 207에 있어서, 정방향 번역 유사도와 역방향 번역 유사도의 합이 수렴될 경우, 양방향 번역 모델의 훈련이 완료된 것으로 결정한다.

도 3은 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 장치의 블록도이다. 도 3에 도시된 바와 같이, 상기 장치는,

훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하도록 구성된 모델 및 데이터 획득 모듈(301);

각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인 N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하도록 구성된 훈련 모듈(302);

상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인, 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인, 역방향 번역 유사도를 획득하도록 구성된 유사도 획득 모듈(303); 및

상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하도록 구성된 결정 모듈(304)을 포함한다.

선택 가능한 실시형태에 있어서, 상기 훈련 모듈(302)은 재구성 머신을 더 포함하고, 상기 재구성 머신을 통해 상기 역방향 번역 프로세스를 구현한다.

선택 가능한 실시형태에 있어서, 상기 훈련 모듈(302)은 또한,

선택 가능한 실시형태에 있어서, 상기 유사도 획득 모듈(303)은 또한,

선택 가능한 실시형태에 있어서, 상기 모델 및 데이터 획득 모듈은 또한,

상기 실시예에서의 장치에 관련하여, 각 모듈이 동작을 실행하는 구체적인 형태는 상기 방법에 관련된 실시예에서 이미 자세하게 설명하였으므로, 여기서 더이상 반복하지 않는다.

본 발명은 양방향 번역 모델을 본 발명의 기계 번역 모델로 사용한다. 각 라운드의 훈련 프로세스 중에서, 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 수행하고, 정방향 번역 프로세스의 정방향 번역 유사도 및 역방향 번역 프로세스의 역방향 번역 유사도의 합이 수렴되는지 여부를 판단하는 것을 통해, 기계 번역 모델의 훈련이 완료되었는지 여부를 결정한다. 여기서, 재구성 머신을 통해 상기 역방향 번역 프로세스가 구현된다.

상기 방법을 사용하여, 훈련 중 역방향 번역 말뭉치를 도입하여, 말뭉치의 다양성을 향상시킴으로써, 자원이 부족한 경우의 모델 훈련 효과를 향상시킨다. 또한 양방향 번역의 방법을 도입하는 동시에, 역방향 번역 모델을 훈련시켜, 고유의 역방향 번역 방법으로 높은 품질을 갖는 역방향 번역 모델을 획득하기 어려운 문제를 해결한다.

도 4는 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 장치(400)의 블록도이다. 예를 들어, 장치(400)는 휴대폰, 컴퓨터, 디지털 방송 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등일 수 있다.

도 4를 참조하면, 장치(400)는 처리 컴포넌트(402), 메모리(404), 전원 컴포넌트(406), 멀티미디어 컴포넌트(408), 오디오 컴포넌트(410), 입력/출력(I/O) 인터페이스(412), 센서 컴포넌트(414) 및 통신 컴포넌트(416) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.

처리 컴포넌트(402)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(400)의 전체적인 동작을 제어한다. 처리 컴포넌트(402)는, 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 실행하는 하나 또는 복수 개의 프로세서(420)를 포함할 수 있다. 또한, 처리 컴포넌트(402)는 처리 컴포넌트(402) 및 다른 컴포넌트 사이의 상호 작용을 용이하게 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(402)는 멀티미디어 컴포넌트(408) 및 처리 컴포넌트(402) 사이의 상호 작용을 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.

메모리(404)는 장치(400)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 장치(400)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(404)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그램가능 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그램가능 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그램가능 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비-휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.

전원 컴포넌트(406)는 장치(400)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(406)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 장치(400)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.

멀티미디어 컴포넌트(408)는 상기 장치(400) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(408)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 장치(400)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.

오디오 컴포넌트(410)는 오디오 신호를 출력 및 입력 중 적어도 하나를 하도록 구성된다. 예를 들어, 오디오 컴포넌트(410)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 장치(400)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(404)에 추가로 저장되거나 통신 컴포넌트(416)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(410)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.

I/O 인터페이스(412)는 처리 컴포넌트(402)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.

센서 컴포넌트(414)는 장치(400)를 위한 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(414)는 기기(400)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(400)의 모니터와 키패드이며, 센서 컴포넌트(414)는 장치(400) 또는 장치(400)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(400) 접촉의 존재 유무, 장치(400) 방향 또는 가속/감속 및 장치(400)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(414)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(414)는 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(414)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.

통신 컴포넌트(416)는 장치(400)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(400)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 엑세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(416)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(416)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역(Ultra Wideband, UWB) 기술, 블루투스 기술 및 다른 기술에 기반하여 구현될 수 있다.

예시적 실시예에 있어서, 장치(400)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processor Device, DSPD), 프로그램가능 논리 장치(Programmable Logic Device, PLD), 필드 프로그램가능 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 제어기, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(800)는 상기 방법을 실행하기 위한 것이다.

예시적 실시예에 있어서, 명령어를 포함하는 메모리(404)와 같은 명령어를 포함하는 비-일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(400)의 프로세서(420)에 의해 실행된다. 예를 들어, 상기 비-일시적 컴퓨터 판독 가능 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.

비-일시적 컴퓨터 판독 가능한 저장 매체로서, 상기 저장 매체에서의 명령어는 단말의 프로세서에 의해 실행될 경우, 단말로 하여금 기계 번역 모델의 훈련 방법을 실행할 수 있도록 하며, 상기 방법은, 훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계; 각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계; 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및 상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 포함한다.

도 5는 일 예시적 실시예에 따라 도시된 기계 번역 모델의 훈련 장치(500)의 블록도이다. 예를 들어, 장치(500)는 하나의 서버로 제공될 수 있다. 도 5를 참조하면, 장치(500)는 프로세스 컴포넌트(522)를 포함하고, 또한 하나 또는 복수 개의 프로세서 및 메모리(532)로 대표되는 메모리 자원을 포함하며, 프로세스 컴포넌트(522) 예를 들어, 애플리케이션 프로그램에 의해 실행될 수 있는 명령어를 저장하기 위한 것이다. 메모리(532)에 저장된 애플리케이션 프로그램은 하나 또는 하나 이상의 각 명령어 세트에 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(522)는 훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계; 각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계; 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및 상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 실행하기 위해, 명령어를 실행하도록 구성된다.

장치(500)는, 장치(500)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(526), 장치(500)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(550) 및 하나의 입력 출력(I/O) 인터페이스(558)를 더 포함할 수 있다. 장치(500)는 예를 들어, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등과 같은 메모리(532)에 저장된 것에 기반한 운영 시스템을 조작할 수 있다.

본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실행한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 출원은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.

이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 자세한 구조에 한정되지 않으며, 이 범위를 벗어나지 않는 한 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims

기계 번역 모델의 훈련 방법으로서,
훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계;
각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계;
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및
상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제1항에 있어서,
상기 양방향 번역 모델에 대해 N 라운드의 훈련 프로세스를 수행하는 단계는,
상기 양방향 번역 모델에 재구성 머신을 설치하고, 상기 재구성 머신을 통해 상기 역방향 번역 프로세스를 구현하는 단계를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제2항에 있어서,
N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계는,
상기 정방향 번역 프로세스 중에서, 미분 가능한 샘플링 함수를 통해 상기 허위 타겟 말뭉치를 획득하는 단계를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제3항에 있어서,
N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계는,
i 번째 라운드의 훈련 프로세스 중에서, 상기 미분 가능한 샘플링 함수를 통해 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치 사이의 오차를 획득하는 단계(i는 1보다 크거나 같고 N보다 작은 양의 정수); 및
i+1 번째 라운드의 훈련 프로세스 중에서, 상기 i 번째 라운드의 훈련 프로세스 중에서 획득된 상기 오차에 기반하여, 상기 양방향 번역 모델의 훈련 파라미터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제3항 또는 제4항에 있어서,
상기 미분 가능한 샘플링 함수는 Gumbel-Softmax 함수를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제1항에 있어서,
상기 정방향 번역 유사도와 역방향 번역 유사도를 획득하는 단계는,
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 로그 우도 함수값 및 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 로그 우도 함수값을 획득하는 단계를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
제1항에 있어서,
상기 훈련 데이터에는 제1 언어 태그 또는 제2 언어 태그가 구비되어 있고,
상기 제1 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제2 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치이며; 또는
상기 제2 언어 태그가 구비되어 있는 훈련 데이터가 소스 말뭉치이면, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터는 타겟 말뭉치인 것을 특징으로 하는 기계 번역 모델의 훈련 방법.
기계 번역 모델의 훈련 장치로서,
훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하도록 구성된 모델 및 데이터 획득 모듈;
각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하도록 구성된 훈련 모듈;
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하도록 구성된 유사도 획득 모듈; 및
상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하도록 구성된 결정 모듈을 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 장치.
제8항에 있어서,
상기 훈련 모듈은 재구성 머신을 더 포함하고, 상기 재구성 머신을 통해 상기 역방향 번역 프로세스를 구현하는 것을 특징으로 하는 기계 번역 모델의 훈련 장치.
제9항에 있어서,
상기 훈련 모듈은 또한,
상기 정방향 번역 프로세스 중에서, 미분 가능한 샘플링 함수를 통해 상기 허위 타겟 말뭉치를 획득하도록 구성된 것임을 특징으로 하는 기계 번역 모델의 훈련 장치.
제10항에 있어서,
상기 훈련 모듈은 또한,
i 번째 라운드의 훈련 프로세스 중에서, 상기 미분 가능한 샘플링 함수를 통해 상기 타겟 말뭉치와 상기 허위 타겟 말뭉치 사이의 오차를 획득하고(i는 1보다 크거나 같고 N보다 작은 양의 정수),
i+1 번째 라운드의 훈련 프로세스 중에서, 상기 i 번째 라운드의 훈련 프로세스 중에서 획득된 상기 오차에 기반하여, 상기 양방향 번역 모델의 훈련 파라미터를 조정하도록 구성된 것임을 특징으로 하는 기계 번역 모델의 훈련 장치.
제10항 또는 제11항에 있어서,
상기 미분 가능한 샘플링 함수는 Gumbel-Softmax 함수를 포함하는 것을 특징으로 하는 기계 번역 모델의 훈련 장치.
제8항에 있어서,
상기 유사도 획득 모듈은 또한,
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 로그 우도 함수값 및 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 로그 우도 함수값을 획득하도록 구성된 것임을 특징으로 하는 기계 번역 모델의 훈련 장치.
제8항에 있어서,
상기 모델 및 데이터 획득 모듈은 또한,
상기 훈련 데이터에 제1 언어 태그 또는 제2 언어 태그를 구비하도록 구성되고,
상기 제1 언어 태그가 구비되어 있는 훈련 데이터를 소스 말뭉치로 사용하면, 상기 제2 언어 태그가 구비되어 있는 훈련 데이터를 타겟 말뭉치로 사용하고; 또는
상기 제2 언어 태그가 구비되어 있는 훈련 데이터를 소스 말뭉치로 사용하면, 상기 제1 언어 태그가 구비되어 있는 훈련 데이터를 타겟 말뭉치로 사용하는, 것을 특징으로 하는 기계 번역 모델의 훈련 장치.
기계 번역 모델의 훈련 장치로서,
프로세서; 및
프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
상기 프로세서는,
훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하고,
각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하고,
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하고,
상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하도록 구성된 것임을 특징으로 하는 기계 번역 모델의 훈련 장치.
비-일시적 컴퓨터 판독 가능한 저장 매체로서,
상기 저장 매체의 명령어는 단말의 프로세서에 의해 실행될 경우, 단말로 하여금 기계 번역 모델의 훈련 방법을 실행할 수 있도록 하고, 상기 기계 번역 모델의 훈련 방법은,
훈련될 양방향 번역 모델, 및 소스 말뭉치와 대응되는 타겟 말뭉치를 포함하는 훈련 데이터를 획득하는 단계;
각 라운드의 훈련 프로세스가 상기 소스 말뭉치를 허위 타겟 말뭉치로 번역하는 정방향 번역 프로세스 및 상기 허위 타겟 말뭉치를 허위 소스 말뭉치로 번역하는 역방향 번역 프로세스를 포함하고, N은 1보다 큰 양의 정수인, N 라운드의 훈련 프로세스를 상기 양방향 번역 모델에 대해 수행하는 단계;
상기 타겟 말뭉치와 상기 허위 타겟 말뭉치의 유사도인 정방향 번역 유사도와 상기 소스 말뭉치와 상기 허위 소스 말뭉치의 유사도인 역방향 번역 유사도를 획득하는 단계; 및
상기 정방향 번역 유사도와 상기 역방향 번역 유사도의 합이 수렴될 경우, 상기 양방향 번역 모델의 훈련이 완료된 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능한 저장 매체.