KR20210156202A

KR20210156202A - 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체

Info

Publication number: KR20210156202A
Application number: KR1020210035528A
Authority: KR
Inventors: 루이칭 장; 촨치앙 장; 중쥔 허; 쯔 리; 화 우
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-16
Filing date: 2021-03-18
Publication date: 2021-12-24
Also published as: US20210390266A1; EP3926513A1; CN111859997B; JP2021197131A; KR102554758B1; JP7222162B2; CN111859997A; US11704498B2

Abstract

본 출원은 기계 번역 중의 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체를 개시하는 바, 자연 언어 처리의 기술 분야 및 심층 학습의 기술 분야에 관한 것이다. 구체적인 실현 방안은 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하는 단계; 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 하는 단계; 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하는 단계; 및 제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 하는 단계를 포함한다. 본 출원은 상기의 기술 방안을 이용하여 2개의 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델을 트레이닝 하는 동시에 기계 번역 모델을 최적화할 수 있고, 또한 시맨틱 유사도 모델에 피드백 할 수 있기에 시맨틱 유사도 모델의 정확성을 더 한층 향상시킬 수 있다.

Description

기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체 {METHOD AND APPARATUS FOR TRAINING MODELS IN MACHINE TRANSLATION, ELECTRONIC DEVICE AND STORAGE MEDIUM}

본 출원은 컴퓨터 기술의 분야에 관한 것이며, 특히 자연 언어 처리의 기술 분야 및 심층 학습의 기술 분야에 관한 것인 바, 구체적으로 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체에 관한 것이다.

자연 언어 처리(Natural Language Processing, NLP)에 있어서, 기계 번역이 자주 언급되며, 현재 주로 심층 학습 기술에 기반하여 사전에 트레이닝 된 기계 번역 모델을 이용하여 문장을 번역한다. 그러나, 경우에 따라 하나의 소스 문장에 대해 동일한 표의 의미를 가지는 서로 다른 번역 결과가 존재할 수 있으며, 이들을 모두 소스 문장의 번역 결과로 간주할 수 있다. 예를 들면 이러한 경우에 시맨틱 유사도 모델을 이용하여 번역 결과가 유사한지 여부를 판단할 수 있다.

종래의 기계 번역 분야의 시맨틱 유사도 모델은 패러렐 코퍼스(parallel corpus)를 사용하여 트레이닝 할 수 있다. 상기 패러렐 코퍼스는 복수의 샘플을 포함하며, 각각의 샘플은 하나의 문장 페어 (x, y)를 구비한다. X는 소스 문장이고, y는 번역 후의 타깃 문장이며, 소스 문장과 타깃 문장은 서로 다른 언어를 사용한다. 상기 시맨틱 유사도 모델은 소스 언어 및 타깃 언어를 동일한 표시 공간(emb)에 매핑할 수 있다. 구체적으로 패러렐 코퍼스 베이스 중의 각각의 문장 페어 (x, y)의 경우, 트레이닝 목표는 (x, y)간의 유사도 sim(x, y)를 x와 트레이닝 샘플 그룹(batch) 중의 임의의 서로 다른 샘플에 대응하는 타깃 문장 y'과의 유사도 sim(x, y')보다 크도록 하는 것이다. 목적 함수에 기반하여 (x, y)을 양성 샘플이라고 칭하고, (x, y')을 음성 샘플이라고 칭한다. 상기 목적 함수는 min(sim(x, y')-sim(x, y))로 나타낼 수 있고, 트레이닝 할 때 목적 함수가 최소로 수렴되도록 한다.

그러나, 샘플 그룹의 기타 샘플의 타깃 문장을 트레이닝 할 경우, y'의 표의 의미와 아주 유사한 것이 있는 바, 예를 들면 "一擊必殺(일격필살)”이나 "彈無虛發(탄무허발)”은 실제로 x: "One shot, one kill"의 번역으로 될 수 있다, 하지만, 시맨틱 유사도 모델은 x와 y의 유사도가 x와 y'의 유사도보다 높을 것을 강제적으로 요구하는 바, 이는 불합리한 것이다. 이에 따라 종래의 시맨틱 유사도 모델이 기계 번역 모델에 의해 번역된 표의 의미가 같은 타깃 문장을 인식하는 정확성은 매우 낮다는 것을 알 수 있다.

상기의 기술 문제를 해결하기 위하여, 본 출원은 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체를 제공한다.

본 출원의 일 양태에 따르면, 기계 번역에서 모델 트레이닝 방법을 제공하는 바, 상기 방법은,

패러렐 코퍼스（병렬 말뭉치，parallel corpus）에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하는 단계;

상기 제1 트레이닝 샘플 세트를 사용하여 상기 기계 번역 모델을 트레이닝 하는 단계;

상기 패러렐 코퍼스에 기반하여, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하는 단계; 및

상기 제2 트레이닝 샘플 세트를 사용하여 상기 시맨틱 유사도 모델을 트레이닝 하는 단계를 포함한다.

본 출원의 다른 일 양태에 따르면, 기계 번역 중의 모델 트레이닝 장치를 제공하는 바, 상기 장치는,

패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하기 위한 제1 생성 모듈;

상기 제1 트레이닝 샘플 세트를 사용하여 상기 기계 번역 모델을 트레이닝 하기 위한 제1 트레이닝 모듈;

상기 패러렐 코퍼스에 기반하여, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하기 위한 제2 생성 모듈; 및

상기 제2 트레이닝 샘플 세트를 사용하여 상기 시맨틱 유사도 모델을 트레이닝 하기 위한 제2 트레이닝 모듈을 구비한다.

본 출원이 또 다른 일 양태에 따르면, 전자 기기를 제공하는 바, 상기 전자 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 구비하며,

상기 메모리에는 상기 적어도 하나의 프로세서가 실행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 상기에 기재된 방법을 실행하도록 한다.

본 출원의 기타 일 양태에 따르면, 상기에 기재된 방법을 컴퓨터에 실행시키기 위한 컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체를 제공한다.

본 출원의 기술에 따르면, 2개의 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델을 트레이닝 하는 동시에 기계 번역 모델을 최적화할 수 있고, 또한 시맨틱 유사도 모델에 피드백할 수 있기에 시맨틱 유사도 모델의 정확성을 더 한층 향상시킬 수 있다.

이 부분에 기재된 내용은 본 개시의 실시예의 관건적인 특징 또는 중요한 특징을 식별하는 것을 의도하는 것이 아니고, 본 개시의 범위를 한정하려는 것을 의도하는 것이 아님을 이해해야 한다. 본 개시의 기타 특징은 이하의 명세서에 의해 용이하게 이해될 것이다.

도면은 본 방안을 더욱 잘 이해하게 하기 위한 것일 뿐, 본 출원의 제한을 구성하는 것이 아니다.
도 1은 본 출원의 제1 실시예에 따른 모식도이다.
도 2는 본 출원의 제2 실시예에 따른 모식도이다.
도 3은 본 출원의 루프 반복의 트레이닝 방식의 모식도이다.
도 4는 본 출원의 제3 실시예에 따른 모식도이다.
도 5는 본 출원의 제4 실시예에 따른 모식도이다.
도 6은 본 출원의 실시예에 따른 기계 번역 중의 모델 트레이닝 방법을 실현하기 위한 전자 기기의 블럭도이다.

이하, 도면을 참조하여 본 발명의 시범적인 실시예를 설명하는 바, 본 발명에 대한 이해를 돕기 위해 여기에는 본 발명 실시예의 다양한 세부 사항이 포함되며, 이러한 세부 사항을 단지 시범적인 것으로 간주해야 할 것이다. 따라서, 당업자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에서, 여기서 설명되는 실시예에 대해 다양한 변경 및 수정을 수행할 수 있음을 인식해야 한다. 마찬가지로, 명확성 및 간결성을 위하여 이하의 설명에서는 잘 알려진 기능 및 구조에 대한 설명을 생략한다.

도 1은 본 출원의 제1 실시예에 따른 모식도인 바, 도 1에 나타낸 바와 같이, 본 출원은 기계 번역에서 모델 트레이닝 방법을 제공하며, 상기 방법은 구체적으로 이하의 단계를 포함할 수 있다.

S101에 있어서, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성한다.

본 실시예에 따른 기계 번역에서 모델 트레이닝 방법의 실행 주체는 기계 번역에서 모델 트레이닝 장치일 수 있으며, 상기 기계 번역에서 모델 트레이닝 장치는 독립적인 전자 실체일 수 있는 바, 예를 들면 컴퓨터와 같은 하드웨어 장치일 수 있다. 또는 소프트웨어 집적을 이용한 애플리케이션일 수 있는 바, 사용 시 컴퓨터 장치 상에서 실행되어 기계 번역 분야에서 모델을 트레이닝 한다.

S102에 있어서, 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 한다.

S103에 있어서, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성한다.

S104에 있어서, 제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 한다.

본 실시예에 있어서, 모델 트레이닝은 기계 번역 모델과 시맨틱 유사도 모델과 같은 2개의 모델에 관한 것이다. 본 실시예에서도 상기 2개의 모델에 대한 재 트레이닝을 실행하여 미세 조정을 구현함으로써, 시맨틱 유사도 모델의 성능을 높일 수 있고, 동일한 표의 의미를 가지는 타깃 문장을 정확하게 인식할 수 있다. 즉 동일한 표의 의미를 가지는 2개의 타깃 문장에 대해 모두 높은 스코어를 매길 수 있다.

여기서, 본 실시예에 따른 트레이닝을 실행하기 전에, 본 실시예에 따른 기계 번역 모델 및 시맨틱 유사도 모델은 각각 심층 학습 기술에 기반하여 각각 독립적으로 트레이닝을 거친 것이다. 예를 들면, 상기 기계 번역 모델은 패러렐 코퍼스를 사용하여 트레이닝 되어, 패러렐 코퍼스 베이스 중의 각각의 샘플의 번역 지식을 학습할 수 있다. 상기 시맨틱 유사도 모델도 배경 기술의 관련 지식을 따라 트레이닝을 거친다. 그러나, 종래 기술에 따른 기계 번역 모델 및 시맨틱 유사도 모델은 모두 각각 독립적으로 트레이닝 된다. 따라서, 상기 시맨틱 유사도 모델은 번역 후 동일한 표의 의미를 가지는 타깃 문장을 정확하게 인식할 수 없으며, 동일한 표의 의미를 가지는 타깃 문장을 모두 번역의 타깃 문장으로 간주할 수 없다. 이에 기반하여 본 실시예에 사용되는 트레이닝 방법은 상기의 기술을 기초로 본 실시예의 기술 방안을 통해 각각 사전 트레이닝을 거친 기계 번역 모델 및 시맨틱 유사도 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델은 동일한 표의 의미를 가지는 타깃 문장을 정확하게 인식할 수 있으며, 따라서 시맨틱 유사도 모델의 판단을 참조하여 기계 번역 모델의 번역 결과를 풍부하게 할 수 있으며, 동일한 표의 의미를 가지는 타깃 문장을 증가시킬 수 있다.

구체적으로, 본 실시예에 따른 모델의 트레이닝은 구체적으로 기계 번역 모델을 트레이닝 하는 단계 및 시맨틱 유사도 모델을 트레이닝 하는 단계와 같은 2개의 주요한 단계로 나눌 수 있다. 본 실시예에 있어서, 공동 트레이닝을 실행하므로, 기계 번역 모델을 트레이닝 할 경우에는, 시맨틱 유사도 모델의 매개 변수를 고정하여, 트레이닝 프로세스의 조정에 참여하지 않는다고 여길 수 있다. 마찬가지로, 시맨틱 유사성 모델을 트레이닝 할 경우에는, 기계 번역 모델의 매개 변수를 고정하여, 트레이닝 프로세스의 조정에 참여하지 않는다고 여길 수 있다.

겨냥성 있게 트레이닝 하기 위하여, 매번 트레이닝 하기 전에, 해당하는 트레이닝 데이터 세트를 생성하는 바, 예를 들면 제1 트레이닝 샘플 세트를 생성하여 기계 번역 모델을 트레이닝 한다. 본 실시예에 있어서, 그 목적은 기계 번역 모델로 하여금 샘플의 표의 의미가 동일한 서로 다른 번역 결과를 학습하도록 하는 것이다. 따라서, 본 실시예에 있어서, 제1 트레이닝 샘플 세트를 생성할 때, 패러렐 코퍼스에 기반하여 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성할 수 있다. 즉 상기 제1 트레이닝 샘플 세트는 일 그룹의 샘플 및 상기 그룹의 샘플 중의 각각의 샘플의 소스 문장에 대응하는 유사 타깃 문장을 포함한다. 상기 제1 트레이닝 샘플 세트를 사용하여 상기 기계 번역 모델을 트레이닝 함으로써, 기계 번역 모델로 하여금 샘플 중의 소스 문장을 타깃 문장으로 번역하는 것을 학습할 뿐만 아니라, 동시에 샘플 중의 소스 문장을 유사 타깃 문장으로 번역하는 능력을 학습하도록 할 수 있다.

기계 번역 모델을 트레이닝 한 후, 이어서 시맨틱 유사도 모델을 트레이닝 한다. 시맨틱 유사도 모델을 트레이닝 하기 전에 제2 트레이닝 샘플 세트를 생성할 필요가 있다. 상기 제2 트레이닝 샘플 세트는 패러렐 코퍼스로부터 선택한 일 그룹의 샘플을 포함하며, 상기 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 한다. 즉 패러렐 코퍼스로부터 선택한 샘플은 모두 양성 샘플이며, 마이닝 하는 것이 음성 샘플이다. 상기 제2 트레이닝 샘플 세트를 사용하여 상기 시맨틱 유사도 모델을 트레이닝 함으로써, 상기 시맨틱 유사도 모델의 양성 샘플에 대한 스코어를 음성 샘플보다 높게 할 수 있으며, 시맨틱 유사도 모델의 인식 정확성을 더 한층 향상시킬 수 있다.

본 실시예에 있어서, 트레이닝 과정에서, 2개의 모델이 수렴될 때까지, 상기의 단계 S101∼S104을 반복적으로 실행하여, 기계 번역 모델 및 시맨틱 유사도 모델에 대해 순환 반복 트레이닝을 실행할 수 있음을 설명할 필요가 있다.

본 실시예에 따른 기계 번역 중의 모델 트레이닝 방법에 따르면, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하고, 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 하며, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하고, 제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 하여, 2개의 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델을 트레이닝 하는 동시에 기계 번역 모델을 최적화할 수 있고, 또한 시맨틱 유사도 모델에 피드백할 수 있기에 시맨틱 유사도 모델의 정확성을 더 한층 향상시킬 수 있다.

그리고, 본 실시예에 따른 시맨틱 유사도 모델을 트레이닝 할 때 입력되는 데이터가 기계 번역 모델의 예측 결과이기에, 종래 기술과 같이 대다수 트레이닝에서 모두 수동으로 라벨링 된 번역 결과를 사용함으로 하여, 트레이닝 할 때와 예측할 때의 샘플의 분포가 일치하지 않고, 또한 모델이 예측할 때 기계 번역 결과에 맞닥뜨려 인식할 수 없게 되는 문제가 발생하지 않는다. 본 실시예의 기술 방안을 이용하면, 시맨틱 유사도 모델이 트레이닝 할 때와 그 후의 예측할 때에 맞닥뜨리는 샘플이 모두 기계 번역 모델의 번역 결과임을 보증하여, 시맨틱 유사도 모델의 정확성 및 안정성을 더 한층 향상시킬 수 있다.

도 2는 본 출원의 제2 실시예에 따른 모식도인 바, 도 2에 나타낸 바와 같이, 본 실시예에 따른 기계 번역 중의 모델 트레이닝 방법은, 상기의 도 1에 나타낸 실시예의 기술 방안을 기초로, 본 출원의 기술 방안을 더 상세하게 설명한다. 도 2에 나타낸 바와 같이, 본 실시예에 따른 기계 번역 중의 모델 트레이닝 방법은 구체적으로 이하의 단계를 포함할 수 있다.

S201에 있어서, 패러렐 코퍼스로부터 일 그룹의 샘플을 추출한다.

S202에 있어서, 상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 각각의 샘플의 유사 타깃 문장을 마이닝 한다.

본 실시예에 있어서, 패러렐 코퍼스 중의 임의의 샘플 중의 소스 문장이 모두 동일한 표의 의미를 가지는 2개의 타깃 문장을 가진다고 가정할 수 있다. 이 경우, 패러렐 코퍼스로부터 일 그룹의 샘플을 랜덤으로 추출할 수 있다. 일 그룹의 샘플 수는 하나, 둘 또는 복수개일 수 있다. 구체적인 수는 트레이닝의 각각의 단계에서 필요로 하는 샘플의 수에 기반하여 설정할 수 있다.

추출된 상기 그룹의 샘플 중의 각각의 샘플에 대해, 상기 샘플 중의 소스 문장을 번역 한 후의 대응하는 타깃 문장 이외의 다른 하나의 유사 타깃 문장을 마이닝 한다. 예를 들면, 구체적으로 아래와 같이 각각의 샘플의 유사 타깃 문장을 마이닝 한다.

(1) 상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델을 통해, 기계 번역 모델에 의해 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장 및 복수의 후보 타깃 문장을 취득한다.

여기서, 각각의 샘플 중의 소스 문장을 기계 번역 모델에 입력할 수 있고, 상기 기계 번역 모델에 의해 상기 소스 문장에 대한, 샘플 중의 타깃 문장 및 복수의 후보 타깃 문장을 포함하는 모든 번역 문장이 출력될 수 있으며, 동시에 각각의 타깃 문장의 번역 확률이 더 출력될 수 있다. 상기 기계 번역 모델은 패러렐 코퍼스를 사용하여 사전 트레이닝 된 것이므로, 타깃 문장의 번역 확률은 가장 높고, 기타의 후보 타깃 문장의 번역 확률은 상대적으로 낮다는 것을 설명할 필요가 있다.

(2) 시맨틱 유사도 모델을 이용하여 소스 문장과 각각의 후보 타깃 문장의 시맨틱 유사도를 각각 계산한다.

본 실시예에 따른 시맨틱 유사도 모델도 사전에 트레이닝 된 것이며, 상기 샘플 중의 소스 문장 및 각각의 후보 타깃 문장을 하나의 확장 샘플로 설정하여 시맨틱 유사도 모델에 입력할 수 있으며, 상기 시맨틱 유사도 모델은 상기 확장 샘플의 시맨틱 유사도를 출력할 수 있다.

(3) 복수의 후보 타깃 문장으로부터 시맨틱 유사도가 가장 큰 후보 타깃 문장을 샘플의 유사 타깃 문장으로서 취득한다.

본 실시예에 있어서, 복수의 후보 타깃 문장으로부터 시맨틱 유사도가 가장 큰 후보 타깃 문장을 상기 샘플의 유사 타깃 문장으로 이용하는 바, 즉 타깃 문장을 제외한 상기 샘플 중의 소스 문장에 대응하는 별도의 유사 타깃 문장으로 이용할 수 있다.

S203에 있어서, 상기 그룹의 샘플 중의 각각의 샘플에 대해, 샘플의 소스 문장 및 유사 타깃 문장을 확장 샘플로 이용하여 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 제1 트레이닝 샘플 세트에 추가한다.

패러렐 코퍼스 베이스 중의 샘플 (x, y)에 대해 본 실시예의 형태를 사용하면, 확장하여 확장 샘플 (x, y')을 얻을 수 있고, y'와 y는 표의 의미가 유사한 바, 모두 x의 번역으로 간주할 수 있다. 그 후 (x, y) 및 (x, y')을 샘플 페어로 이용하여, 함께 제1 트레이닝 샘플 세트에 추가한다. 마찬가지로, 제1 트레이닝 샘플 세트에 일 그룹의 샘플 페어를 추가할 수 있다.

단계 S201∼S203은 상기의 도 1에 나타낸 실시예의 단계 S101의 실현 형태다.

또한, 선택적으로 본 실시예에 있어서, 제1 트레이닝 샘플 세트를 마이닝 할 때, 패러렐 코퍼스의 각각의 샘플에 대해, 모두 상기의 실시예의 형태와 같이 유사 타깃 문장 및 유사 타깃 문장의 시맨틱 유사도를 취득할 수 있다. 그리고, 각각의 샘플의 유사 타깃 문장의 시맨틱 유사도에 기반하여 시맨틱 유사도가 가장 큰 일 그룹의 샘플 및 각각의 샘플에 대응하는 유사 타깃 문장을 취득하여, 함께 샘플 페어를 구성하며, 상기 샘플 페어를 제1 트레이닝 데이터 세트에 추가한다.

S204에 있어서, 시맨틱 유사도 모델의 매개 변수를 고정하고, 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 한다.

상기 단계의 트레이닝에 있어서, 시맨틱 유사도 모델의 매개 변수가 고정되며, 제1 트레이닝 샘플 세트만을 이용하여 기계 번역 모델의 매개 변수를 조정한다. 제1 트레이닝 샘플 세트에 있어서 선택되는 샘플 페어가 시맨틱 유사도에 기반하여 선택된 유사도가 가장 높은 샘플이므로, 상기 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 하는 목적은, 기계 번역 모델의 번역 결과의 다양성을 향상시키고, 또한 대응하는 유사 타깃 문장의 번역 신뢰도를 향상시키는 것이다.

본 실시예의 시맨틱 유사도 모델 및 기계 번역 모델은 각각 독립적으로 트레이닝 되었으므로, 본 실시예에 따른 트레이닝은 종래가 트레이닝 된 모델을 기초로, 기계 번역 모델의 매개 변수를 미세 조정함으로써, 그 번역 결과의 다양성을 향상시키고, 또한 유사 타깃 문장의 번역 신뢰도를 향상시킨다.

S205에 있어서, 패러렐 코퍼스로부터 일 그룹의 샘플을 추출한다.

선택적으로, 추출 방식은 상기 단계 S201과 같이 랜덤으로 선택할 수 있다.

S206에 있어서, 상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 각각의 샘플에 대응하는 번역 확률이 소정의 번역 확률 임계 값보다 작고, 또한 시맨틱 유사도가 소정의 유사도 임계 값 이상인 음성 샘플을 마이닝 한다.

상기 단계의 마이닝은 번역 확률이 소정의 확률 임계 값보다 낮지만, 시맨틱 유사도가 여전히 양호하여, 소정의 유사도 임계 값 이상인 음성 샘플을 취득하는 것이다. 이렇게 하여, 높은 시맨틱 유사도의 음성 샘플을 선택하는 것을 피할 수 있고, 또한 트레이닝 샘플과 예측 샘플의 분포가 일치하지 않는 문제를 피할 수도 있다.

예를 들면, 아래와 같이 각각의 샘플에 대응하는 음성 샘플을 마이닝 할 수 있다.

(A) 상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델을 통해, 기계 번역 모델에 의해 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장, 복수의 후보 타깃 문장 및 각각의 후보 타깃 문장의 번역 확률을 취득한다.

(B) 각각의 후보 타깃 문장의 번역 확률에 기반하여 복수의 후보 타깃 문장으로부터, 번역 확률이 소정의 번역 확률 임계 값보다 작은 복수의 백업 타깃 문장을 선택한다.

즉, 본 실시예에 있어서, 바람직하게는 번역 확률이 낮은 후보 타깃 문장으로 음성 샘플을 생성하고, 높은 시맨틱 유사도의 음성 샘플을 선택하는 것을 피한다.

(C) 시맨틱 유사도 모델을 이용하여 소스 문장과 각각의 백업 타깃 문장의 시맨틱 유사도를 각각 계산한다.

(D) 복수의 백업 타깃 문장으로부터, 시맨틱 유사도가 소정의 유사도 임계 값 이상인 백업 타깃 문장을 음성 샘플의 타깃 문장으로서 취득하고, 상기 타깃 문장을 이용하여 샘플의 소스 문장과 함께 음성 샘플을 구성한다.

예를 들면, 바람직하게는 시맨틱 유사도가 시맨틱 유사도 임계 값보다 크고, 동시에 시맨틱 유사도 임계 값에 가장 가까운 백업 타깃 문장을 음성 샘플의 타깃 문장으로서 선택하여, 높은 시맨틱 유사도의 음성 샘플을 선택하는 것을 피면한다.

S207에 있어서, 상기 그룹의 샘플 중의 각각의 샘플에 대해, 상기 샘플을 음성 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 제2 트레이닝 샘플 세트에 추가한다.

단계 S205∼S207은 상기의 도 1에 나타낸 실시예의 단계 S103의 실현 형태다.

또한, 선택적으로, 제2 트레이닝 샘플 세트의 선택 과정에서, 패러렐 코퍼스 베이스 중의 각각의 샘플에 대해 상기의 처리를 실행하여, 각각의 샘플에 대응하는 음성 샘플 및 음성 샘플에 대응하는 시맨틱 유사도를 취득할 수도 있다. 그 후, 그 중에서 음성 샘플의 시맨틱 유사도가 소정의 유사도 임계 값에 가장 가까운 일 그룹의 샘플을 선택하여, 함께 제2 트레이닝 샘플 세트를 구성한다. 상기 방식으로 생성되는 제2 트레이닝 샘플 세트는 높은 시맨틱 유사도의 음성 샘플을 선택하는 것을 효과적으로 피할 수도 있다.

S208에 있어서, 기계 번역 모델의 매개 변수를 고정하며, 제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 한다.

상기 단계의 트레이닝을 거침으로서, 시맨틱 유사도 모델로 하여금 제2 트레이닝 세트 중의 각각의 샘플 페어 중의 양성 샘플에 대한 스코어가 음성 샘플에 대한 스코어보다 높게 하는 것을 학습하도록 할 수 있다. 제2 트레이닝 샘플 세트에서는 이미 음성 샘플이 양성 샘플보다 높은 시맨틱 유사도의 샘플로 되는 것을 피하도록 보증하였으므로, 시맨틱 유사도 모델의 트레이닝에 영향을 주기 않도록, 높은 시맨틱 유사도의 음성 샘플이 선택되지 않는다. 이렇게 트레이닝 된 시맨틱 유사도 모델은 동일한 표의 의미를 가지는 양성 샘플과 음성 샘플의 페어를 선택하여 상기 시맨틱 유사도 모델을 트레이닝 하지 않기 때문에, 시맨틱 유사도 모델이 동일한 표의 의미를 가지는 샘플을 인식하는 성능을 높일 수 있다. 그리고, 상기 단계의 트레이닝에 있어서, 제2 트레이닝 샘플 세트 중의 음성 샘플은 모두 기계 번역 모델의 실제 번역 결과인 바, 수동으로 라벨 붙임을 수행하지 않기에, 시맨틱 유사도 모델의 트레이닝 데이터의 유효성과 진실성을 효과적으로 보증할 수 있고, 또한 사용 과정에서 시맨틱 유사도 모델의 정확성과 안정성을 확보할 수 있다. 따라서, 예측 샘플과 트레이닝 샘플의 분포가 일치하지 않음으로 하여 인식할 수 없다는 문제가 존재하지 않는다.

또한, 본 실시예에 있어서, 2개의 모델이 수렴될 때까지, 단계 S201-S208을 반복적으로 실행하여, 도 3에 나타낸 실시예의 순환 반복 트레이닝 방식에 따라, 기계 번역 모델과 시맨틱 유사도 모델에 대해 함께 순환 반복 트레이닝을 실행하여 서로 최적화할 수 있음을 설명할 필요가 있다. 그러나, 본 실시예에 따른 트레이닝 과정에서 기계 번역 모델을 이용하여 기계 번역 모델도 트레이닝 했지만, 기계 번역 모델을 최적화하는 것은 부속적인 산출 효과에 지나지 않는다. 이는 기계 번역 모델의 번역 다양성을 풍부하게 하는 동시에, 기계 번역 모델의 정확성을 보증할 수 없기 때문이다. 기계 번역 모델의 정확성은 시맨틱 유사도 모델을 통해 검증될 필요가 있기 때문에, 최종적인 효과는 시맨틱 유사도 모델의 성능을 높이는 것이며, 기계 번역 모델은 시맨틱 유사도 모델의 트레이닝을 지원하기 위하여서만 사용된다. 따라서, 본 실시예에 따른 공동 트레이닝 된 후의 시맨틱 유사도 모델은 유사 타깃 문장을 인식할 수 있고, 유사 타깃 문장이 해당하는 높은 스코어를 가지는 것을 보증하였으며, 그 성능을 높일 수 있다.

본 실시예에 따른 기계 번역 중의 모델 트레이닝 방법에 따르면, 상기의 기술 방안을 이용하여 2개의 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델을 트레이닝 하는 동시에 기계 번역 모델을 최적화할 수 있고, 또한 시맨틱 유사도 모델에 피드백 할 수 있기에 시맨틱 유사도 모델의 정확성을 더 한층 향상시킬 수 있다. 그리고, 본 실시예에 따른 기술 방안을 이용하면, 시맨틱 유사도 모델이 트레이닝 할 때와 그 후의 예측할 때에 맞닥뜨리는 샘플이 모두 기계 번역 모델의 번역 결과임을 보증하여, 시맨틱 유사도 모델의 정확성 및 안정성을 더 한층 향상시킬 수 있다.

도 4는 본 출원의 제3 실시예에 따른 모식도인 바, 도 4에 나타낸 바와 같이, 본 실시예는 기계 번역 중의 모델 트레이닝 장치(400)를 제공한다. 상기 장치 (400)는,

패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하기 위한 제1 생성 모듈(401);

제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 하기 위한 제1 트레이닝 모듈(402);

패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하기 위한 제2 생성 모듈(403); 및

제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 하기 위한 제2 트레이닝 모듈(404)을 구비한다.

본 실시예에 따른 기계 번역 중의 모델 트레이닝 장치(400)가 상기 모듈을 이용하여 기계 번역 중의 모델 트레이닝을 구현하는 구현 원리 및 기술 효과는 상기의 관련되는 방법 실시예의 구현과 동일하므로, 상세한 구현은 상기의 관련되는 방법 실시예의 설명을 참조할 수 있기에, 여기서 다시 설명하지 않는다.

도 5는 본 출원의 제4 실시예에 따른 모식도인 바, 도 5에 나타낸 바와 같이, 본 실시예는 기계 번역 중의 모델 트레이닝 장치(400)를 제공하는 바, 상기의 도 4에 나타낸 실시예의 기술 방안을 기초로 본 출원의 기술 방안을 더 상세하게 설명한다.

도 5에 나타낸 바와 같이, 본 실시예에 따른 기계 번역 중의 모델 트레이닝 장치(400)에 있어서, 제1 생성 모듈(401)은,

패러렐 코퍼스로부터 일 그룹의 샘플을 추출하기 위한 제1 추출 유닛(4011);

상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 각각의 샘플의 유사 타깃 문장을 마이닝 하기 위한 제1 마이닝 유닛(4012); 및

상기 그룹의 샘플 중의 각각의 샘플에 대해, 샘플의 소스 문장 및 유사 타깃 문장을 확장 샘플로 이용하여 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 제1 트레이닝 샘플 세트에 추가하기 위한 제1 처리 유닛(4013)을 구비한다.

또한 선택적으로, 제1 마이닝 유닛(4012)은,

상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델을 통해, 기계 번역 모델에 의해 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장 및 복수의 후보 타깃 문장을 취득하고,

시맨틱 유사도 모델을 이용하여, 소스 문장과 각각의 후보 타깃 문장의 시맨틱 유사도를 각각 계산하며,

복수의 후보 타깃 문장으로부터, 시맨틱 유사도가 가장 큰 후보 타깃 문장을 샘플의 유사 타깃 문장으로서 취득한다.

또한 선택적으로, 도 5에 나타낸 바와 같이, 본 실시예에 따른 기계 번역 중의 모델 트레이닝 장치(400)에 있어서, 제2 생성 모듈(403)은,

패러렐 코퍼스로부터 일 그룹의 샘플을 추출하기 위한 제2 추출 유닛(4031);

상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 각각의 샘플에 대응하는 번역 확률이 소정의 번역 확률 임계 값보다 작고, 또한 시맨틱 유사도가 소정의 유사도 임계 값 이상인 음성 샘플을 마이닝 하기 위한 제2 마이닝 유닛(4032); 및

상기 그룹의 샘플 중의 각각의 샘플에 대해, 상기 샘플을 음성 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 제2 트레이닝 샘플 세트에 추가하기 위한 제2 처리 유닛(4033)을 구비한다.

또한 제2 마이닝 유닛(4032)은,

상기 그룹의 샘플 중의 각각의 샘플에 대해, 기계 번역 모델을 통해, 기계 번역 모델에 의해 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장, 복수의 후보 타깃 문장 및 각각의 후보 타깃 문장의 번역 확률을 취득하고,

각각의 후보 타깃 문장의 번역 확률에 기반하여 복수의 후보 타깃 문장으로부터, 번역 확률이 소정의 번역 확률 임계 값보다 작은 복수의 백업 타깃 문장을 선택하며,

시맨틱 유사도 모델을 이용하여, 소스 문장과 각각의 백업 타깃 문장의 시맨틱 유사도를 각각 계산하고,

복수의 백업 타깃 문장으로부터, 시맨틱 유사도가 소정의 유사도 임계 값 이상인 백업 타깃 문장을 음성 샘플의 타깃 문장으로서 취득하고, 상기 타깃 문장을 이용하여 샘플의 소스 문장과 함께 음성 샘플을 구성한다.

본 실시예에 따른 기계 번역 중의 모델 트레이닝 장치(400)는 상기의 모듈을 이용하여 기계 번역 중의 모델 트레이닝을 구현하는 구현 원리 및 기술 효과는 상기의 관련되는 방법 실시예의 구현과 동일하므로, 상세한 구현은 상기의 관련되는 방법 실시예의 설명을 참조할 수 있기에, 여기서 다시 설명하지 않는다.

본 출원의 실시예에 따르면, 본 출원은 또한 전자 기기 및 판독 가능 기록 매체를 제공한다.

도 6은 본 출원의 실시예에 따른 기계 번역 중의 모델 트레이닝 방법을 실현하는 전자 기기의 블럭도이다. 전자 기기는 예를 들면 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 보조기, 서버, 블레이드 서버, 대형 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타낸다. 전자 기기는 또한 예를 들면 개인 디지털 처리기, 셀폰, 스마트 전화, 웨어러블 기기 및 기타 유사한 계산 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 나타낸 구성 요소, 이들의 연결과 관계 및 이들의 기능은 단지 예일 뿐이며, 본 명세서에서 설명하거나 및/또는 요구하는 본 발명의 실현을 한정하려는 것이 아니다.

도 6에 나타낸 바와 같이, 상기 전자 기기는 하나 또는 복수의 프로세서(601), 메모리(602) 및 각각의 구성 요소를 연결하기 위한 인터페이스를 구비하며, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각각의 구성 요소는 서로 다른 버스를 통해 상호 연결되며, 공통 마더 보드에 설치되거나 또는 수요에 따라 기타 방식으로 설치된다. 프로세서 전자 기기 내에서 수행되는 명령에 대해 처리를 실행할 수 있으며, 메모리 내에 기억되어 외부 입력/출력 장치 （예를 들면 인터페이스에 연결된 디스플레이 기기） 상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 기타 실시 방식에 있어서, 필요할 경우, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각각의 기기는 부분적인 필요한 조작 （예를 들면, 서버 어레이, 일 그룹의 블레이드 서버, 또는 다중 프로세서 시스템）을 제공한다. 도 6에서는 하나의 프로세서(601)의 예를 들었다.

메모리(602)는 본 발명에 의해 제공되는 비 일시적 컴퓨터 판독 가능 기억 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 수행 가능한 명령이 기억되어 있으며, 상기 적어도 하나의 프로세서로 하여금 본 발명에 의해 제공되는 기계 번역 중의 모델 트레이닝 방법을 수행하도록 한다. 본 발명의 비 일시적 컴퓨터 판독 가능 기억 매체는 컴퓨터 명령을 기억하며, 상기 컴퓨터 명령은 컴퓨터로 하여금 본 발명에 의해 제공되는 기계 번역 중의 모델 트레이닝 방법을 수행하도록 한다.

메모리(602)는 일종의 비 일시적 컴퓨터 판독 가능 기억 매체로서, 비 일시적 소프트웨어 프로그램을 기억하는데 사용될 수 있는 바, 예를 들면 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈, 본 발명 실시예 중의 기계 번역 중의 모델 트레이닝 방법 대응하는 프로그램 명령/모듈 （예를 들면, 도 5에 나타낸 관련 모듈）을 기억하는데 사용될 수 있다. 프로세서(601)는 메모리(602) 내에 기억된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행함으로써, 서버의 다양한 기능 응용 및 데이터 처리를 수행하는 바, 즉 상술한 방법 실시예 중의 기계 번역 중의 모델 트레이닝 방법을 실현한다.

메모리(602)는 프로그램 기억 영역 및 데이터 기억 영역을 포함할 수 있으며, 여기서, 프로그램 기억 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램을 기억할 수 있고, 데이터 기억 영역은 기계 번역 중의 모델 트레이닝 방법을 실현하는 전자 기기의 사용을 통해 생성된 데이터 등을 기억할 수 있다. 또한, 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비 일시적 메모리를 더 포함할 수 있는 바, 예를 들면 적어도 하나의 자기 디스크 저장 장치, 플래시 장치, 또는 기타 비 일시적 고체 저장 장치를 포함할 수 있다. 일부 실시예에 있어서, 메모리(602)는 선택적으로 프로세서(601)에 대해 원격 설치한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 기계 번역 중의 모델 트레이닝 방법을 실현하는 전자 기기에 연결될 수 있다. 상술한 네트워크의 실시예는 인터넷, 기업 인트라 넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하나 이에 한정되지 않는다.

기계 번역 중의 모델 트레이닝 방법을 실현하는 전자 기기는 입력 장치(603) 및 출력 장치(604)를 더 포함할 수 있다. 프로세서(601), 메모리(602), 입력 장치(603) 및 출력 장치(604)는 버스 또는 기타 방식을 통해 연결될 수 있으며, 도 6에서는 버스를 통해 연결하는 예를 들었다.

입력 장치(603)는 입력된 디지털 또는 문자 정보를 수신하고, 또한 기계 번역 중의 모델 트레이닝 방법을 실현하는 전자 기기의 사용자 설정 및 기능 제어에 관한 키 신호 입력을 생성할 수 있다. 예를 들면 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 포함할 수 있다. 출력 장치(604)는 디스플레이 기기, 보조 조명 장치 （예를 들면 LED） 및 촉각 피드백 장치 （예를 들면 진동 모터） 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 （LCD）, 발광 다이오드 （LED） 디스플레이 및 등 플라즈마 디스플레이를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시 방식에 있어서, 디스플레이 기기는 터치 스크린일 수 있다.

본 명세서에서 설명하는 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC（전용 집적 회로）, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 실시 은 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 수행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 일반 프로그램 가능 프로세서일 수 있고, 기억 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 또한 데이터 및 명령을 상기 기억 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 계산 프로그램 （프로그램, 소프트웨어, 소프트웨어 응용 또는 코드로도 불림）은 프로그램 가능 프로세서의 기계 명령을 포함하며, 또한 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”와 같은 용어는, 기계 명령 및/또는 데이터를 프로그램 가능 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치 （예를 들면, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치（PLD））에 제공하기 위한 것을 의미하며, 기계 판독 가능 신호로서의 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. "기계 판독 가능 신호"와 같은 용어는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

유저와의 대화를 제공하기 위하여, 컴퓨터 상에서 여기서 설명하는 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 유저에게 정보를 표시하기 위한 디스플레이 장치 （예를 들면 CRT（음극선관） 또는 LCD（액정 디스플레이） 모니터） 및 키보드와 포인팅 장치（예를 들면, 마우스 또는 트랙볼）를 구비할 수 있으며, 유저는 상기 키보드 및 상기 포인팅 장치를 통해 입력을 컴퓨터에 제공할 수 있다. 기타 유형의 장치는 또한 유저와의 대화를 제공하는데 사용될 수 있다. 예를 들면, 유저에 제공하는 피드백은 임의의 형태의 감각 피드백 （예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각 피드백）일 수 있으며, 또한 임의의 형태（음향 입력, 음성 입력 또는 촉각 입력을 포함함）를 통해 유저로부터의 입력을 수신할 수 있다.

본 명세서에서 설명하는 시스템 및 기술을 백 엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 데이터 서버）, 또는 미들웨어 구성 요소를 포함하는 계산 시스템 （예를 들면 응용 서버）, 또는 프런트 엔드 구성 요소를 포함하는 계산 시스템 （예를 들면 그래픽 유저 인터페이스 또는 웹 브라우저를 구비하는 유저 컴퓨터인 바, 유저는 상기 그래픽 유저 인터페이스 또는 상기 웹 브라우저를 통해 여기서 설명하는 시스템 및 기술의 실시 방식과 대화함）, 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소, 또는 프런트 엔드 구성 요소의 임의의 조합을 포함하는 계산 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신 （예를 들면, 통신 네트워크）을 통해 시스템의 구성 요소를 상호 연결할 수 있다. 통신 네트워크의 예는 근거리 통신망（LAN）, 광역 통신망（WAN） 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고, 또한 일반적으로 통신 네트워크를 통해 대화를 실행한다. 해당되는 컴퓨터 상에서 운행되고, 또한 클라이언트 - 서버 관계를 갖는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 발생시킬 수 있다.

본 발명에 따른 실시예의 기술 방안에 따르면, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하고, 제1 트레이닝 샘플 세트를 사용하여 기계 번역 모델을 트레이닝 하며, 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하고, 제2 트레이닝 샘플 세트를 사용하여 시맨틱 유사도 모델을 트레이닝 하여, 2개의 모델을 공동으로 트레이닝 함으로써, 시맨틱 유사도 모델을 트레이닝 하는 동시에 기계 번역 모델을 최적화할 수 있고, 또한 시맨틱 유사도 모델에 피드백 할 수 있기에 시맨틱 유사도 모델의 정확성을 더 한층 향상시킬 수 있다.

본 발명에 따른 실시예의 기술 방안에 따르면, 본 실시예에 따른 시맨틱 유사도 모델을 트레이닝 할 때 입력되는 데이터가 기계 번역 모델의 예측 결과이기에, 종래 기술과 같이 대다수 트레이닝에서 모두 수동으로 라벨링 된 번역 결과를 사용함으로 하여, 트레이닝 할 때와 예측할 때의 샘플의 분포가 일치하지 않고, 또한 모델이 예측할 때 기계 번역 결과에 맞닥뜨려 인식할 수 없게 되는 문제가 발생하지 않는다. 본 실시예의 기술 방안을 이용하면, 시맨틱 유사도 모델이 트레이닝 할 때와 그 후의 예측할 때에 맞닥뜨리는 샘플이 모두 기계 번역 모델의 번역 결과임을 보증하여, 시맨틱 유사도 모델의 정확성 및 안정성을 더 한층 향상시킬 수 있다.

상기에 나타낸 다양한 형태의 흐름을 이용하여 단계를 재정열, 증가 또는 삭제할 수 있음을 이해해야 한다. 예를 들면, 본 발명에 기재된 각각의 단계는 병열로 수행되거나 또는 차례로 수행되거나 또는 다른 순서로 수행될 수 있으며, 본 발명이 개시하는 기술 방안이 원하는 결과를 실현할 수 있는 한, 본 명세서는 이에 대해 한정하지 않는다.

상술한 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 서브 조합 및 대체를 실행할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 이루어진 임의의 수정 동등한 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 포함되어야 한다.

Claims

기계 번역에서 모델 트레이닝 방법에 있어서,
패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹(one group)의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하는 단계;
상기 제1 트레이닝 샘플 세트를 사용하여 상기 기계 번역 모델을 트레이닝 하는 단계;
상기 패러렐 코퍼스에 기반하여, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하는 단계; 및
상기 제2 트레이닝 샘플 세트를 사용하여 상기 시맨틱 유사도 모델을 트레이닝 하는 단계를 포함하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 방법.
제1항에 있어서,
상기 패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하는 단계는：
상기 패러렐 코퍼스로부터 일 그룹의 샘플을 추출하는 단계;
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플의 유사 타깃 문장을 마이닝 하는 단계; 및
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 샘플의 소스 문장 및 상기 유사 타깃 문장을 확장 샘플로 이용하여 상기 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 상기 제1 트레이닝 샘플 세트에 추가하는 단계를 포함하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 방법.
제2항에 있어서,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플의 유사 타깃 문장을 마이닝 하는 단계는,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델을 통해, 상기 기계 번역 모델에 의해 상기 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장 및 복수의 후보 타깃 문장을 취득하는 단계;
상기 시맨틱 유사도 모델을 이용하여 상기 소스 문장과 각각의 상기 후보 타깃 문장의 시맨틱 유사도를 각각 계산하는 단계; 및
상기 복수의 후보 타깃 문장으로부터, 시맨틱 유사도가 가장 큰 후보 타깃 문장을 상기 샘플의 유사 타깃 문장으로서 취득하는 단계를 포함하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 방법.
제1항에 있어서,
상기 패러렐 코퍼스에 기반하여, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하는 단계는:
상기 패러렐 코퍼스로부터 일 그룹의 샘플을 추출하는 단계;
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플에 대응하는 번역 확률이 미리 결정된 번역 확률 임계 값보다 작고, 또한 시맨틱 유사도가 미리 결정된 유사도 임계 값 이상인 음성 샘플을 마이닝 하는 단계; 및
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 샘플을 상기 음성 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 상기 제2 트레이닝 샘플 세트에 추가하는 단계를 포함하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 방법.
제4항에 있어서,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플에 대응하는 번역 확률이 미리 결정된 번역 확률 임계 값보다 작고, 또한 시맨틱 유사도가 미리 결정된 유사도 임계 값 이상인 음성 샘플을 마이닝 하는 단계는,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델을 통해, 상기 기계 번역 모델에 의해 상기 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장, 복수의 후보 타깃 문장 및 각각의 상기 후보 타깃 문장의 번역 확률을 취득하는 단계;
각각의 상기 후보 타깃 문장의 번역 확률에 기반하여 상기 복수의 후보 타깃 문장으로부터, 번역 확률이 상기 미리 결정된 번역 확률 임계 값보다 작은 복수의 백업 타깃 문장을 선택하는 단계;
상기 시맨틱 유사도 모델을 이용하여, 상기 소스 문장과 각각의 상기 백업 타깃 문장의 시맨틱 유사도를 각각 계산하는 단계; 및
상기 복수의 백업 타깃 문장으로부터, 상기 시맨틱 유사도가 상기 미리 결정된 유사도 임계 값 이상인 백업 타깃 문장을 상기 음성 샘플의 타깃 문장으로서 취득하고, 상기 타깃 문장을 이용하여 상기 샘플의 소스 문장과 함께 상기 음성 샘플을 구성하는 단계를 포함하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 방법.
기계 번역 중의 모델 트레이닝 장치에 있어서,
패러렐 코퍼스에 기반하여, 기계 번역 모델 및 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플의 유사 타깃 문장을 마이닝 하고, 제1 트레이닝 샘플 세트를 생성하기 위한 제1 생성 모듈;
상기 제1 트레이닝 샘플 세트를 사용하여 상기 기계 번역 모델을 트레이닝 하기 위한 제1 트레이닝 모듈;
상기 패러렐 코퍼스에 기반하여, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 일 그룹의 샘플 중의 각각의 샘플의 음성 샘플을 마이닝 하고, 제2 트레이닝 샘플 세트를 생성하기 위한 제2 생성 모듈; 및
상기 제2 트레이닝 샘플 세트를 사용하여 상기 시맨틱 유사도 모델을 트레이닝 하기 위한 제2 트레이닝 모듈;
을 구비하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 장치.
제6항에 있어서,
상기 제1 생성 모듈은,
상기 패러렐 코퍼스로부터, 일 그룹의 샘플을 추출하기 위한 제1 추출 유닛;
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플의 유사 타깃 문장을 마이닝 하기 위한 제1 마이닝 유닛; 및
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 샘플의 소스 문장 및 상기 유사 타깃 문장을 확장 샘플로 이용하여 상기 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 상기 제1 트레이닝 샘플 세트에 추가하기 위한 제1 처리 유닛을 구비하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 장치.
제7항에 있어서,
상기 제1 마이닝 유닛은,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델을 통해, 상기 기계 번역 모델에 의해 상기 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장 및 복수의 후보 타깃 문장을 취득하고,
상기 시맨틱 유사도 모델을 이용하여 상기 소스 문장과 각각의 상기 후보 타깃 문장의 시맨틱 유사도를 각각 계산하며,
상기 복수의 후보 타깃 문장으로부터, 시맨틱 유사도가 가장 큰 후보 타깃 문장을 상기 샘플의 유사 타깃 문장으로서 취득하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 장치.
제6항에 있어서,
상기 제2 생성 모듈은,
상기 패러렐 코퍼스로부터, 일 그룹의 샘플을 추출하기 위한 제2 추출 유닛;
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델 및 상기 시맨틱 유사도 모델을 이용하여 각각의 상기 샘플에 대응하는 번역 확률이 미리 결정된 번역 확률 임계 값보다 작고, 또한 시맨틱 유사도가 미리 결정된 유사도 임계 값 이상인 음성 샘플을 마이닝 하기 위한 제2 마이닝 유닛; 및
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 샘플을 상기 음성 샘플과 함께 샘플 페어를 구성하며, 상기 샘플 페어를 상기 제2 트레이닝 샘플 세트에 추가하기 위한 제2 처리 유닛을 구비하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 장치.
제9항에 있어서,
상기 제2 마이닝 유닛은,
상기 그룹의 샘플 중의 각각의 상기 샘플에 대해, 상기 기계 번역 모델을 통해, 상기 기계 번역 모델에 의해 상기 샘플 중의 소스 문장을 번역하여 얻어진 샘플 중의 타깃 문장, 복수의 후보 타깃 문장 및 각각의 상기 후보 타깃 문장의 번역 확률을 취득하고,
각각의 상기 후보 타깃 문장의 번역 확률에 기반하여 상기 복수의 후보 타깃 문장으로부터, 번역 확률이 상기 미리 결정된 번역 확률 임계 값보다 작은 복수의 백업 타깃 문장을 선택하며,
상기 시맨틱 유사도 모델을 이용하여, 상기 소스 문장과 각각의 상기 백업 타깃 문장의 시맨틱 유사도를 각각 계산하고
상기 복수의 백업 타깃 문장으로부터, 상기 시맨틱 유사도가 상기 미리 결정된 유사도 임계 값 이상인 백업 타깃 문장을 상기 음성 샘플의 타깃 문장으로서 취득하고, 상기 타깃 문장을 이용하여 상기 샘플의 소스 문장과 함께 상기 음성 샘플을 구성하는 것을 특징으로 하는,
기계 번역에서 모델 트레이닝 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 구비하며,
상기 메모리에는 상기 적어도 하나의 프로세서가 실행 가능한 명령이 기록되어 있으며, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 실행하도록 하는 것을 특징으로 하는,
전자 기기.
컴퓨터 명령이 기록되어 있는 비 일시적 컴퓨터 판독 가능 기록 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 실행하도록 하는 것을 특징으로 하는,
비 일시적 컴퓨터 판독 가능 기록 매체.
비 일시적 컴퓨터 판독 가능 기록 매체에 기록되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 기재된 방법을 실행하도록 하는 것을 특징으로 하는,
컴퓨터 프로그램.