KR102550340B1

KR102550340B1 - 챕터-레벨 텍스트 번역 방법 및 디바이스

Info

Publication number: KR102550340B1
Application number: KR1020207035704A
Authority: KR
Inventors: 지치앙 마; 준후아 리우; 시 웨이; 구오핑 후
Original assignee: 아이플라이텍 캄파니 리미티드
Priority date: 2018-05-15
Filing date: 2019-04-10
Publication date: 2023-06-30
Also published as: EP3796191A4; US20210150154A1; JP2021524095A; CN110489761B; KR20210003284A; JP7278309B2; CN110489761A; AU2019270109A1; WO2019218809A1; NZ770794A; AU2019270109B2; EP3796191A1; US11694041B2

Abstract

챕터-레벨 텍스트 번역 방법 및 장치에 있어서, 본 방법은 번역될 텍스트를 획득하는 단계로서, 번역될 텍스트는 번역될 챕터-레벨 텍스트의 단위 텍스트인, 번역될 텍스트를 획득하는 단계(S101); 번역될 텍스트의 관련 텍스트를 획득하는 단계로서, 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 및 선행 타겟 텍스트 중 적어도 하나를 포함하는, 번역될 텍스트의 관련 텍스트를 획득하는 단계(S102); 및 관련 텍스트에 따라 번역될 텍스트를 번역하는 단계(S103)를 포함한다.

Description

챕터-레벨 텍스트 번역 방법 및 디바이스

본 출원은 2018년 5월 15일자로 중국 특허청에 출원된 "챕터-레벨 텍스트 번역 방법 및 장치(CHAPTER-LEVEL TEXT TRANSLATION METHOD AND APPARATUS)"라는 제목의 중국 특허 출원 제201810463138.3호에 대해 우선권을 주장하며, 이는 본원에 그 전체가 참조로 통합된다.

본 개시는 텍스트 번역의 기술 분야에 관한 것으로, 특히 담화-레벨 텍스트를 번역하기 위한 방법 및 장치에 관한 것이다.

담화-레벨 텍스트는 일련의 문장으로 구성된다. 예를 들어, 담화-레벨 텍스트는 음성 텍스트, 잡지 기사, 문학 작품 등이 될 수 있다. 담화-레벨 텍스트의 가장 중요한 특징은 문장 간의 일관성과 연속성이므로, 레벨 텍스트는 문장의 시퀀스의 모음일뿐만 아니라, 완전한 구조와 명확한 기능을 갖는 시맨틱(semantic) 통일성이다.

레벨 텍스트의 경우, 담화-레벨 텍스트를 번역하기 위한 방법이 이를 번역하기 위해 적용되어야 한다. 기존의 담화-레벨 텍스트 번역 방법 중, 일반적으로 번역될 담화-레벨 텍스트 전체가 번역 대상으로 취급되어 직접 번역된다. 그러나, 결과적인 번역은 번역 결과의 정확성이 높지 않아 사용자 경험에 부정적인 영향을 미친다는 점에서 이상적이지 않다.

본 개시의 실시예의 목적은 담화-레벨 텍스트를 번역할 때 번역 결과의 정확성을 향상시키는, 담화-레벨 텍스트를 번역하기 위한 방법 및 장치를 제공하는 것이다.

본 개시의 실시예에 따라 담화-레벨 텍스트를 번역하기 위한 방법이 제공된다. 본 방법은:

번역될 텍스트를 획득하는 단계로서, 번역될 텍스트는 번역될 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트를 획득하는 단계;

번역될 텍스트의 관련 텍스트를 획득하는 단계로서, 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고, 선행 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이전의 적어도 하나의 텍스트 단위를 나타내고, 후속 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이후의 적어도 하나의 텍스트 단위를 나타내고, 선행 타겟 텍스트는 선행 소스 텍스트의 번역된 텍스트를 나타내는, 관련 텍스트를 획득하는 단계; 및

관련 텍스트에 따라 번역될 텍스트를 번역하는 단계를 포함한다.

선택적으로, 관련 텍스트에 따라 번역될 텍스트를 번역하는 단계는:

사전-구성된 인코딩-및-디코딩 모델을 사용하여 관련 텍스트에 따라 번역될 텍스트를 번역하는 단계를 포함한다.

번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하는 단계로서, 초기 인코딩된 결과는 번역될 텍스트의 시맨틱(semantic) 정보를 나타내는, 초기 인코딩된 결과를 획득하는 단계;

관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하는 단계로서, 관련 인코딩된 결과는 관련 텍스트의 시맨틱 정보를 나타내는, 관련 인코딩된 결과를 획득하는 단계;

관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과를 획득하는 단계로서, 타겟 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내며, 관련 텍스트의 시맨틱 정보의 전부 또는 일부를 전달하는, 타겟 인코딩된 결과를 획득하는 단계; 및

타겟 인코딩된 결과를 디코딩함으로써 번역될 텍스트를 번역하는 단계를 포함한다.

선택적으로, 번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하는 단계는:

번역될 텍스트의 단어들을 인코딩함으로써 초기 인코딩된 결과를 획득하는 단계를 포함한다.

따라서, 관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하는 단계는:

각각의 텍스트 단위들에 대응하는 인코딩된 결과들을 획득하기 위해 관련 텍스트의 각각의 텍스트 단위의 단어들을 인코딩하고, 인코딩된 결과들을 관련 인코딩된 결과로서 결정하는 단계를 포함한다.

선택적으로, 번역될 텍스트의 단어들을 인코딩한 후, 본 방법은:

번역될 텍스트의 단어들의 인코딩된 결과를 함께 추가함으로써 번역될 텍스트에 대응하는 누적 결과를 획득하는 단계를 더 포함한다.

따라서, 관련 텍스트의 각각의 텍스트 단위의 단어들을 인코딩한 후, 본 방법은:

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 선행 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 단계;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 후속 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 단계; 및

관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 선행 타겟 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과들을 함께 추가하는 단계를 더 포함한다.

선택적으로, 관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱하는 단계는:

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 선행 소스 텍스트의 인코딩된 결과를 결정하는 단계;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 후속 소스 텍스트의 인코딩된 결과를 결정하는 단계; 및

결정된 인코딩된 결과에 따라 초기 인코딩된 결과를 프로세싱하는 단계를 포함한다.

선택적으로, 결정된 인코딩된 결과에 따라 초기 인코딩된 결과를 프로세싱하는 단계는:

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과 및 선행 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하는 단계;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과 및 후속 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하는 단계; 및

결정된 인코딩된 결과 및 결정된 상관도에 따라 초기 인코딩된 결과를 프로세싱하는 단계를 포함한다.

선택적으로, 타겟 인코딩된 결과를 디코딩함으로써 번역될 텍스트를 번역하는 단계는:

관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 관련 인코딩된 결과의 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하는 단계를 포함한다.

선택적으로, 관련 인코딩된 결과의 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하는 단계는:

번역될 텍스트와 선행 타겟 텍스트 사이의 상관도를 결정하는 단계; 및

결정된 상관도 및 선행 타겟 텍스트의 인코딩된 결과에 따라 타겟 인코딩된 결과를 디코딩하는 단계를 포함한다.

선택적으로, 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도를 결정하는 단계는:

번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도로서 결정하는 단계를 포함한다.

본 개시의 실시예에 따라 담화-레벨 텍스트를 번역하기 위한 장치가 제공된다. 본 장치는:

번역될 텍스트를 획득하도록 구성된 번역될 텍스트 획득 유닛으로서, 번역될 텍스트는 번역될 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트 획득 유닛;

번역될 텍스트의 관련 텍스트를 획득하도록 구성된 관련 텍스트 획득 유닛으로서, 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고, 선행 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이전의 적어도 하나의 텍스트 단위를 나타내고, 후속 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이후의 적어도 하나의 텍스트 단위를 나타내고, 선행 타겟 텍스트는 선행 소스 텍스트의 번역된 텍스트를 나타내는, 관련 텍스트 획득 유닛; 및

관련 텍스트에 따라 번역될 텍스트를 번역하도록 구성된 번역될 텍스트 번역 유닛을 포함한다.

선택적으로, 번역될 텍스트 번역 유닛은 사전-구성된 인코딩-및-디코딩 모델을 사용하여 관련 텍스트에 따라 번역될 텍스트를 번역하도록 구성된다.

선택적으로, 번역될 텍스트 번역 유닛은:

번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하도록 구성된 제1 인코딩 서브유닛으로서, 초기 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내는, 제1 인코딩 서브유닛;

관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하도록 구성된 제2 인코딩 서브유닛으로서, 관련 인코딩된 결과는 관련 텍스트의 시맨틱 정보를 나타내는, 제2 인코딩 서브유닛;

관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과를 획득하도록 구성된 결과 프로세싱 서브유닛으로서, 타겟 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내며, 관련 텍스트의 시맨틱 정보의 전부 또는 일부를 전달하는, 결과 프로세싱 서브유닛; 및

타겟 인코딩된 결과를 디코딩함으로써 번역될 텍스트를 번역하도록 구성된 디코딩 구현 서브유닛을 포함한다.

선택적으로, 디코딩 구현 서브유닛은, 관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 관련 인코딩된 결과의 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하도록 구성된다.

본 개시의 실시예에 따라 담화-레벨 텍스트를 번역하기 위한 장치가 제공된다. 본 장치는 프로세서, 메모리 및 시스템 버스를 포함하고,

프로세서 및 메모리는 시스템 버스에 의해 서로 접속되고,

메모리는 하나 이상의 컴퓨터 프로그램을 저장하도록 구성되고, 하나 이상의 컴퓨터 프로그램은 프로세서에 의해 실행될 때 프로세서로 하여금 담화-레벨 텍스트를 번역하기 위한 상술한 임의의 방법을 실행하게 하는 명령들을 포함한다.

본 개시의 실시예에 따라 컴퓨터-판독 가능 저장 매체가 제공된다. 컴퓨터-판독 가능 저장 매체는 컴퓨터에서 실행될 때 컴퓨터로 하여금 담화-레벨 텍스트를 번역하기 위한 상술한 임의의 방법을 실행하게 하는 명령들을 포함한다.

본 개시의 실시예에 따라 컴퓨터 프로그램 제품이 제공되며, 컴퓨터 프로그램 제품은 단말 디바이스에서 실행될 때, 단말 디바이스로 하여금 담화-레벨 텍스트를 번역하기 위한 상술한 임의의 방법을 실행하게 한다.

실시예에 따라 담화-레벨 텍스트를 번역하기 위한 방법 및 장치에 의해, 번역될 담화-레벨 텍스트의 각각의 텍스트 단위가 번역될 텍스트로서 취해지며, 그 후 번역될 텍스트의 관련 텍스트가 담화-레벨 텍스트로부터 획득되며 번역될 텍스트는 관련 텍스트에 기초하여 번역된다. 번역될 텍스트를 번역할 때, 번역될 텍스트의 현재 문맥뿐만 아니라 번역될 텍스트의 관련 텍스트의 내용도 고려됨을 알 수 있으며, 이는 번역될 텍스트의 번역 결과의 정확성을 향상시키고, 이에 의해 사용자 경험을 향상시킨다.

실시예 또는 종래 기술의 설명에 사용되는 도면이 아래와 같이 간략하게 설명될 것이며, 본 개시의 실시예 또는 종래 기술에 따른 기술적 해결책이 명확해질 것이다. 후술하는 설명에서 도면은 본 개시의 일부 실시예만을 예시한다는 것이 명확하다. 본 기술 분야의 통상의 기술자에게 있어서, 이러한 도면에 따라 어떠한 창의적인 작업 없이도 다른 도면을 얻을 수 있다.
도 1은 본 개시의 실시예에 따른 담화-레벨 텍스트를 번역하기 위한 방법의 흐름도를 나타낸다.
도 2는 본 개시의 실시예에 따른 담화-레벨 텍스트의 개략도를 나타낸다.
도 3은 본 개시의 실시예에 따른 인코딩-및-디코딩 모델의 토폴로지 구조 개략도를 나타낸다.
도 4는 본 개시의 실시예에 따른 사전-구성된 인코딩-및-디코딩 모델을 사용하는 번역의 흐름도를 나타낸다.
도 5는 본 개시의 실시예에 따라 초기 인코딩된 결과를 프로세싱하는 흐름도를 나타낸다.
도 6은 본 개시의 실시예에 따른 게이트 네트워크(Gate Network)의 네트워크 구조 개략도를 나타낸다.
도 7은 본 개시의 실시예에 따른 담화-레벨 텍스트를 번역하기 위한 장치의 구성 개략도를 나타낸다.
도 8은 본 개시의 실시예에 따른 담화-레벨 텍스트를 번역하기 위한 장치의 하드웨어 구조 개략도를 나타낸다.

일부 담화-레벨 텍스트 번역 방법에서, 번역될 전체 담화-레벨 텍스트는 번역 모델에 의해 직접 번역될 수 있는 번역의 객체로서 간주될 수 있다. 그러나, 이러한 방법을 사용하여 담화-레벨 텍스트의 각각의 문장이 번역되면, 번역된 문장의 문맥 정보가 고려되지 않을 것이며, 이는 번역 결과의 정확성을 감소시키고 추가적으로 사용자 경험에 부정적인 영향을 미친다. 또한, 문장이 번역될 때, 번역 모델에 의해 수신된 정보에 리던던트(redundant) 정보가 있을 수 있다. 구체적으로, 번역될 문장 이전의 문장이나 번역될 문장 이후의 문장이 번역될 문장과 무관하다면, 전체 담화-레벨 텍스트가 번역의 객체로서 취해질 때, 그 전 또는 후의 무관한 문장은 리던던트 정보이다.

상술한 결점을 해결하기 위해, 본 개시의 실시예에 따라 담화-레벨 텍스트 번역 방법이 제공된다. 담화-레벨 텍스트에서 번역될 각각의 텍스트 섹션에 대해 텍스트는 문장이며, 예를 들어, 번역될 텍스트를 번역할 때, 번역될 텍스트의 현재 문맥뿐만 아니라 번역될 텍스트의 문맥 정보도 고려되며, 이는 번역될 텍스트의 번역 결과의 정확성을 향상시키고, 이에 의해 사용자 경험을 향상시킨다. 또한, 번역될 텍스트를 번역할 때, 본 개시의 실시예에서 문맥 정보에 대한 번역될 텍스트의 관련성에 따라 문맥 정보가 동적으로 선택되며, 이는 번역 모델의 수신된 정보의 리던던트 정보를 감소시킬 뿐만 아니라, 번역될 텍스트의 번역 결과의 정확성을 더욱 향상시킨다. 또한, 번역될 텍스트를 번역할 때, 번역될 텍스트에 선행하는 텍스트의 번역 결과가 또한 본 개시의 실시예에서 고려되며, 이는 번역될 텍스트의 번역 결과가 선행 텍스트의 번역 결과와 연결될 수 있게 한다. 이러한 방식으로, 번역될 텍스트의 번역 결과가 더욱 정확할 뿐만 아니라, 전체 번역된 텍스트의 유창성도 향상될 수 있다. 즉, 번역된 담화-레벨 텍스트의 문장 간의 일관성과 연속성이 보장된다.

본 개시의 실시예의 목적, 기술적 해결책 및 이점을 더욱 명확하게 하도록 본 개시의 실시예의 기술적 해결책이 본 개시의 실시예에서 첨부 도면과 함께 명확하고 완전하게 설명될 것이다. 명확하게, 설명된 실시예는 본 개시의 모든 실시예가 아니라 일부이다. 본 개시의 실시예에 기초하여 본 기술 분야의 통상의 기술자에 의해 어떠한 창의적인 작업 없이도 얻어지는 모든 다른 실시예는 본 개시의 보호 범위 내에 속할 것이다.

제1 실시예

본 개시의 실시예에 따른 담화-레벨 텍스트를 번역하기 위한 방법의 흐름도를 나타내는 도 1을 참조한다. 본 방법은 이하의 단계 S101 내지 S103을 포함한다.

단계 S101에서, 번역될 텍스트가 획득되고, 여기서 번역될 텍스트는 번역될 담화-레벨 텍스트의 단위 텍스트이다.

번역될 담화-레벨 텍스트, 즉, 번역 전의 담화-레벨 텍스트는 이하에서 간략화를 위해 담화-레벨 텍스트라고 칭할 것이다. 실시예는 담화-레벨 텍스트의 텍스트 유형을 제한하지 않는다. 예를 들어, 담화-레벨 텍스트는 음성 스크립트, 잡지 기사 또는 문학 작품 등이 될 수 있다.

담화-레벨 텍스트는 일련의 문장의 모음이다. 담화-레벨 텍스트를 번역할 때, 번역은 실시예에서 순서대로 문장 단위 또는 임의의 다른 텍스트 길이로 수행될 수 있다. 번역이 문장 단위로 수행된다고 가정하면, 담화-레벨 텍스트에서 문장의 순서에 따라 각각의 문장이 획득될 수 있다. 현재 획득된 문장이 번역될 텍스트로서 결정되고, 후속 단계에 따라 번역된다.

번역 전후의 담화-레벨 텍스트의 언어는 본 실시예에서 제한되지 않는다는 점에 유의해야 한다. 예를 들어, 번역 전 언어는 중국어이고 번역 후 언어는 영어일 수 있다.

단계 S102에서, 번역될 텍스트의 관련 텍스트가 획득되고, 여기서 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함한다.

본 실시예에서, 선행 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이전의 적어도 하나의 텍스트 단위를 나타내고, 후속 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이후의 적어도 하나의 텍스트 단위를 나타내고, 선행 타겟 텍스트는 선행 소스 텍스트의 번역된 텍스트를 나타낸다.

구체적으로, 문장 단위로 번역이 수행되는 것으로 가정하면, 번역될 텍스트에 선행하는 하나 이상의 문장이 선행 소스 텍스트로서 담화-레벨 텍스트로부터 획득될 수 있다. 번역될 텍스트에 후속하는 하나 이상의 문장은 후속 소스 텍스트로서 담화-레벨 텍스트로부터 획득될 수 있다. 또한, 담화-레벨 텍스트의 각각의 문장이 순서대로 번역되므로, 번역될 텍스트를 번역할 때 선행 소스 텍스트는 번역되어 있다. 따라서, 선행 소스 텍스트의 번역된 텍스트, 즉, 선행 타겟 텍스트가 직접 획득될 수 있다.

선행 소스 텍스트와 후속 소스 텍스트의 문장 수는 같거나 다를 수 있다는 점에 유의해야 한다. 번역될 텍스트에 선행하는 k개의 문장이 선행 소스 텍스트로서 결정될 때, 번역될 텍스트에 후속하는 k개의 문장 또는 l개의 문장이 후속 소스 텍스트로서 결정될 수 있으며, 여기서, k, 1은 정수이고, k ≠ 1, k ≥ 1, l ≥ 1이다.

예를 들어, 도 2에 나타낸 담화-레벨 텍스트에서, 번역될 텍스트가 X로 칭해지고, X에 선행하는 문장 X_-1가 선행 소스 텍스트로서 결정될 수 있거나, X에 선행하는 복수의 문장이 문장 X_-1 및 문장 X_-2와 같은 선행 소스 텍스트로서 결정될 수 있다. 유사하게, X에 선행하는 문장 X₁가 선행 소스 텍스트로서 결정될 수 있거나, X에 선행하는 복수의 문장이 문장 X₁, 문장 X₂ 및 문장 X₃와 같은 후속 소스 텍스트로서 결정될 수 있다.

단계 103에서, 번역될 텍스트는 관련 텍스트에 따라 번역된다.

번역될 텍스트의 관련 텍스트가 번역될 텍스트를 번역할 때 본 실시예에서 고려될 수 있다. 즉, 번역될 텍스트의 번역 결과를 획득하도록 번역될 텍스트를 번역하기 위하여 번역될 텍스트의 선행 소스 텍스트, 후속 소스 텍스트 및 선행 타겟 텍스트 중 적어도 하나의 시맨틱 정보가 고려된다. 또한, 번역될 텍스트와 선행 소스 텍스트 사이의 상관도, 번역될 텍스트와 후속 소스 텍스트 사이의 상관도, 및 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도가 또한 고려될 수 있다. 번역될 텍스트와 관련 텍스트 시맨틱 내용과 번역될 텍스트와 관련 텍스트 사이의 상관도를 고려하면, 번역될 텍스트의 번역 결과가 더 정확해질 수 있음을 알 수 있다.

관련 텍스트가 선행 타겟 텍스트(선행 소스 텍스트의 번역 결과)를 포함하는 경우, 즉, 선행 타겟 텍스트가 번역될 텍스트의 번역을 지원하는 데 사용되는 경우, 번역될 텍스트의 번역 결과의 정확도가 향상될 뿐만 아니라, 번역될 텍스트의 번역 결과가 선행 소스 텍스트의 번역 결과와 연결될 수 있다. 즉, 번역될 텍스트의 번역 결과는 시맨틱에서 선행 텍스트의 번역 결과와 더욱 잘 연결될 수 있으며, 이에 의해, 번역된 담화-레벨 텍스트의 문장 간의 일관성과 연속성을 보장할 수 있다.

또한, 단계 S103의 특정 구현을 위해 제2 실시예를 참조할 수 있다는 점에 유의해야 한다.

요약하면, 본 실시예에 따라 담화-레벨 텍스트를 번역하기 위한 방법이 제공되며, 여기서 번역될 담화-레벨 텍스트의 각각의 텍스트 단위가 번역될 텍스트로서 취해져서, 번역될 텍스트의 관련 텍스트가 담화-레벨 텍스트로부터 획득되며, 번역될 텍스트가 관련 텍스트에 기초하여 번역된다. 번역될 텍스트를 번역할 때, 번역될 텍스트의 현재 문맥뿐만 아니라 번역될 텍스트의 관련 텍스트의 내용도 고려되며, 이는 번역될 텍스트의 번역 결과의 정확성을 향상시킬 수 있으며, 이에 의해 사용자 경험을 향상시킨다.

제2 실시예

제1 실시예의 단계 S103의 특정 구현이 본 실시예에서 도입된다.

본 실시예에서, 인코딩-및-디코딩 모델은 담화-레벨 텍스트에 대한 번역 모델로서 사전에 구성될 수 있으며, 즉, 인코딩-및-디코딩 모델은 인코딩 및 후속 디코딩에 의해 담화-레벨 텍스트의 번역을 구현한다. 이에 기초하여, 상술한 단계 S103은 구체적으로 사전-구성된 인코딩-및-디코딩 모델을 사용하여 관련 텍스트에 따라 번역될 텍스트를 번역하는 단계를 포함할 수 있다.

이하에서, 인코딩-및-디코딩 모델의 토폴로지 구조 개략도를 나타내는 도 3과 함께 번역될 텍스트를 번역하기 위해 어떻게 인코딩-및-디코딩 모델을 사용하는지가 소개된다는 점에 유의해야 한다.

도 3과 함께 소개를 용이하게 하기 위해, 번역은 여기서 문장 단위로 수행되며, 번역될 텍스트에 선행하는 k개의 문장이 선행 소스 텍스트이고, 번역될 텍스트에 후속하는 k개의 문장이 후속 소스 텍스트이다. 우선, 이하와 같이 규정된다.

1. 번역 전 담화-레벨 텍스트가

에 의해 나타내어지며, 여기서,

는 번역될 텍스트를 나타내고,

는

이전의 첫번째 문장,...,

이전의 k번째 문장을 순차적으로 나타내고;

는

이후의 첫번째 문장,...,

이후의 k번째 문장을 순차적으로 나타낸다. 여기서,

는 선행 소스 텍스트로서 집합적으로 결정되고,

는 후속 소스 텍스트로서 집합적으로 결정된다.

설명의 단순화를 위해, 각각의 문장은 n개의 단어를 포함하는 것으로 가정한다(실제로는, 실제 단어 수가 우선될 것이다). 도 3에 나타낸 바와 같이, 번역될 텍스트

의 모든 단어는

로 나타내어지며, 여기서

는 번역될 텍스트

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타낸다. 유사하게, 선행 소스 텍스트에서 문장

의 모든 단어는

로 나타내어지며, 여기서

는 문장

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타내고; 선행 소스 텍스트의 다른 문장은 유사한 방식으로 나타내어진다. 후속 소스 텍스트의 문장

의 모든 단어는

로 나타내어지며, 여기서,

는 문장

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타내며; 후속 소스 텍스트의 다른 문장은 유사한 방식으로 나타내어진다.

2. 번역 후 담화-레벨 텍스트는

로 나타내어지며, 여기서

는 번역될 텍스트

의 번역된 텍스트를 나타내며,

는 선행 소스 텍스트에서

의 번역된 텍스트를 순차적으로 나타내고,

는 후속 소스 텍스트에서

의 번역된 텍스트를 순차적으로 나타낸다. 여기서,

는 선행 타겟 텍스트로서 집합적으로 결정된다.

번역될 텍스트

의 번역된 텍스트

의 모든 단어는

로 나타내어지며, 여기서

은

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타낸다. 도 3에 나타낸 바와 같이, 선행 타겟 텍스트의 문장

의 모든 단어는

로 나타내어지며, 여기서

는 문장

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타낸다. 선행 타겟 텍스트의 문장

의 모든 단어는

로 나타내어지며, 여기서

은 문장

의 첫번째 단어, 두번째 단어...n번째 단어를 순차적으로 나타낸다. 후속 타겟 텍스트의 다른 문장은 유사한 방식으로 나타내어진다.

도 3과 함께, 번역될 텍스트를 번역하기 위해 인코딩-및-디코딩 모델을 어떻게 사용하는지가 이하에 설명된다.

도 4는 본 실시예의 구현에서 이하의 단계 S401 내지 S404를 구체적으로 포함할 수 있는 사전-구성된 인코딩-및-디코딩 모델을 사용하는 번역의 흐름도이다.

단계 S401에서, 초기 인코딩 결과는 번역될 텍스트를 인코딩함으로써 획득되고, 여기서 초기 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타낸다.

구현에서, 단계 S401은 구체적으로 양방향 순환 신경망(Recurrent Neural Network, 약칭 RNN)으로 번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하는 단계를 포함할 수 있다.

단계 S401 또는 단계 S401의 특정 구현에서, 번역될 텍스트를 인코딩할 때, 초기 인코딩된 결과는 구체적으로 번역될 텍스트의 모든 단어를 인코딩함으로써 획득될 수 있다.

구체적으로, 도 3에 나타낸 바와 같이, 번역될 텍스트

의 단어, 즉,

가 단어 벡터의 형태로 양방향 RNN으로 입력된다. 본 실시예에서 단어의 벡터화를 위해 기존의 또는 장래의 방법이 사용될 수 있다.

양방향 RNN의 각각의 은닉 상태에 대한 계산 식은 이하와 같다:

(1)

여기서,

이고,

는 비선형 함수, 예를 들어, 시그모이드(sigmoid) 함수 또는 장단기 메모리(Long Short-Term Memory, 약칭 LSTM) 네트워크이며,

및

는 양방향 RNN의 훈련 파라미터이고,

는

의 단어 벡터를 나타내고,

는 (i-1)번째 은닉 상태를 나타내고, 이는 단어

의 시맨틱 정보를 나타내는 데 사용되고,

는 i번째 은닉 상태를 나타내고, 이는 단어

의 시맨틱 정보를 나타내는 데 사용된다.

양방향 RNN은 순방향 RNN과 역방향 RNN을 포함한다. 순방향 RNN은 번역될 텍스트

에서 단어의 단어 벡터를 순서대로 판독한 후 순방향 은닉 시퀀스

를 생성하며, 여기서

이고 번역될 텍스트

의 순방향 정보를 나타내고; 역방향 RNN은 번역될 텍스트

에서 단어의 단어 벡터를 역순으로 판독한 후 역방향 은닉 시퀀스

를 생성하며, 여기서

이고 번역될 텍스트

의 역방향 정보를 나타낸다.

순방향 은닉 시퀀스

와 역방향 은닉 시퀀스

에서의 위치가 서로 대응하는 은닉 상태 단위는 서로 스플라이싱(splicing)되어 해당 위치에서의 단어에 대응하는 상태 시퀀스를 형성한다. 즉,

에서 단어에 대응하는 상태 시퀀스는 이하와 같다:

에 대응하는 상태 시퀀스는

이고,

에 대응하는 상태 시퀀스는

이고,...

에 대응하는 상태 시퀀스는

이다. 이에 기초하여, 번역될 텍스트

의 시맨틱 정보가

로 나타내어질 수 있으며,

는 번역될 텍스트를 인코딩함으로써 획득된 초기 인코딩 결과이다.

또한, 구현에 있어서, 번역될 텍스트의 단어를 인코딩한 후, 본 방법은 번역될 텍스트의 단어의 인코딩된 결과를 함께 추가함으로써 번역될 텍스트에 대응하는 누적 결과를 획득하는 단계를 더 포함할 수 있다. 본 구현에서, 인코딩된 결과

가 획득된 후, 상태 시퀀스를

에 함께 추가함으로써 획득된 누적 결과

가 새로운 초기 인코딩 결과로 결정될 수 있어, 번역될 텍스트

의 시맨틱 정보를 나타내며,

여기서,

단계 S402에서, 관련 텍스트를 인코딩함으로써 관련 인코딩된 결과가 획득되며, 여기서 관련 인코딩된 결과는 관련 텍스트의 시맨틱 정보를 나타낸다.

구현에서, 단계 S402는 구체적으로 관련 텍스트를 양방향 RNN으로 인코딩함으로써 관련 인코딩된 결과를 획득하는 단계를 포함할 수 있다.

단계 S402 또는 단계 S402의 특정 구현에서, 관련 텍스트를 인코딩할 때, 구체적으로, 관련 텍스트의 각각의 텍스트 단위의 단어가 인코딩되어 각각의 텍스트 단위에 대응하는 인코딩된 결과를 획득할 수 있으며, 이러한 인코딩된 결과는 관련 인코딩된 결과로서 결정된다.

구체적으로, 도 3에 나타낸 바와 같이, 관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 즉, 관련 텍스트가 번역될 텍스트

이전에 K개의 문장

를 포함하는 경우,

는 단계 S401에서 번역될 텍스트

의 인코딩과 유사한 방식으로 인코딩될 수 있으며, 여기서 번역될 텍스트

를 개별적으로

로 대체하기만 하면 되며, 문장

의 시맨틱 정보는

로 나타내어지고,..., 문장

의 시맨틱 정보는

로 나타내어지고,

는 선행 소스 텍스트를 인코딩함으로써 획득된 인코딩된 결과이며, 여기서

그리고

이다.

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 즉, 관련 텍스트가 번역될 텍스트

이후 K개의 문장

를 포함하는 경우,

는 단계 S401에서 번역될 텍스트

를 개별적으로

로 대체하기만 하면 되며, 문장

의 시맨틱 정보는

로 나타내어지고,..., 문장

의 시맨틱 정보는

로 나타내어지고,

는 후속 소스 텍스트를 인코딩함으로써 획득된 인코딩된 결과이고, 여기서

, 그리고

이다.

관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 즉, 관련 텍스트가 번역될 텍스트

이전에 K개의 문장

의 번역된 텍스트

를 포함하는 경우,

는 단계 S401에서 번역될 텍스트

를 개별적으로

으로 대체하기만 하면 되며, 문장

의 시맨틱 정보는

로 나타내어지고,..., 문장

의 시맨틱 정보는

로 나타내어지고, 여기서

이고,

이다.

또한, 구현에 있어서, 관련 텍스트에서 각각의 텍스트 단위의 단어를 인코딩한 후, 본 방법은 단계 A1 내지 C1을 더 포함할 수 있다.

단계 A1에서, 관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위하여, 선행 소스 텍스트의 각각의 텍스트 단위의 단어의 인코딩될 결과가 함께 추가된다.

선행 소스 텍스트의 인코딩된 결과

를 획득한 후,

의 모든 상태 시퀀스의 누적 결과

가 시퀀스

의 시맨틱 정보를 나타내는 데 사용될 수 있으며,

의 모든 상태 시퀀스의 누적 결과

가 시퀀스

의 시맨틱 정보를 나타내는 데 사용될 수 있으며,

가 선행 소스 텍스트의 인코딩된 결과로서 집합적으로 결정되며,

여기서,

단계 B1에서, 관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위하여, 후속 소스 텍스트의 각각의 텍스트 단위의 단어의 인코딩된 결과가 함께 추가된다.

후속 소스 텍스트의 인코딩된 결과

를 획득한 후,

에서 모든 상태 시퀀스의 누적 결과

는 문장

의 시맨틱 정보를 나타내는 데 사용될 수 있으며,

에서 모든 상태 시퀀스의 누적 결과

는 문장

의 시맨틱 정보를 나타내는 데 사용될 수 있고,

는 후속 소스 텍스트의 인코딩된 결과로서 집합적으로 결정되고,

여기서,

단계 C1에서, 관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위하여, 선행 타겟 텍스트의 각각의 텍스트 단위의 단어의 인코딩된 결과가 함께 추가된다.

선행 소스 텍스트의 인코딩된 결과

를 획득한 후,

에서 모든 상태 시퀀스의 누적 결과

는 문장

의 시맨틱 정보를 나타내는 데 사용될 수 있고,

에서 모든 상태 시퀀스의 누적 결과

는 문장

의 시맨틱 정보를 나타내는 데 사용될 수 있고,

는 선행 타겟 텍스트의 인코딩된 결과로서 집합적으로 결정되고,

여기서,

단계 S401 및 S402의 실행 순서는 본 실시예에서 제한되지 않는다는 점에 유의해야 한다. S401 및 S402는 동시에 실행될 수 있고, 단계 S401은 단계 S402의 실행 전에 실행될 수 있거나, 단계 S402는 단계 S401의 실행 전에 실행될 수 있다.

단계 S403에서, 관련 인코딩된 결과의 인코딩된 결과의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과가 획득되며, 여기서 타겟 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내며, 관련 텍스트의 시맨틱 정보의 전체 또는 일부를 전달한다.

본 실시예에서, 선행 소스 텍스트의 인코딩된 결과

의 하나 이상의 인코딩된 결과, 선행 소스 텍스트의 인코딩된 결과

및 선행 타겟 텍스트의 인코딩된 결과

는 번역될 텍스트의 초기 인코딩된 결과

를 프로세싱하는 데 사용될 수 있으며, 프로세싱된 인코딩된 결과가 타겟 인코딩된 결과로서 결정된다.

대안적으로, 선행 소스 텍스트의 인코딩된 결과

의 하나 이상의 인코딩된 결과, 후속 소스 텍스트의 인코딩된 결과

및 선행 타겟 텍스트의 인코딩된 결과

는 번역될 텍스트의 초기 인코딩된 결과

를 프로세싱하는 데 사용될 수 있으며, 프로세싱된 인코딩된 결과가 타겟 인코딩된 결과

로서 결정된다.

초기 인코딩된 결과를 프로세싱할 때, 번역될 텍스트와 관련 텍스트의 상관도에 따라 관련 텍스트의 텍스트 단위의 시맨틱 정보가 다른 정도의 값에 의해 선택될 수 있으므로, 타겟 인코딩된 결과는 다른 정도의 시맨틱 정보를 전달할 수 있으며, 번역될 텍스트의 시맨틱 정보

를 나타낼 수 있다.

또한, 단계 S403의 특정 구현을 위해 제3 실시예를 참조할 수 있다는 점에 유의해야 한다.

단계 S404에서, 번역될 텍스트는 타겟 인코딩된 결과를 디코딩함으로써 번역된다.

타겟 인코딩된 결과

를 디코딩할 때, (도 3에 나타낸 바와 같은) 주의 모델을 갖는 것과 같은 기존 디코딩 방법 또는 장래의 디코딩 방법이 번역될 텍스트의 번역 결과를 획득하기 위해 타겟 인코딩된 결과

를 디코딩하는 데 사용될 수 있다.

또한, 단계 S404의 특정 구현을 위해 제4 실시예를 참조할 수 있다는 점에 유의해야 한다.

요약하면, 본 실시예는 번역될 텍스트 및 관련 텍스트를 인코딩 및 디코딩하기 위해 인코딩-및-디코딩 모델을 사용한다. 번역될 텍스트가 인코딩-및-디코딩 방법을 통해 번역되는 경우, 번역될 텍스트의 현재 문맥이 고려될 뿐만 아니라, 번역될 텍스트의 관련 텍스트도 또한 고려된다. 따라서, 번역될 텍스트의 번역 결과의 정확성이 향상되고, 이에 의해 사용자 경험을 향상시킨다.

제3 실시예

제2 실시예의 단계 S403의 특정 구현이 본 실시예에서 소개된다.

초기 인코딩된 결과를 프로세싱하는 흐름도를 나타내는 도 5를 참조한다. 단계 S403에서 "관련 인코딩된 결과의 인코딩된 결과의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱"하는 것은 이하의 단계 S501 내지 S503을 더 포함한다.

단계 S501에서, 관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 선행 소스 텍스트의 인코딩된 결과는 관련 인코딩된 결과로부터 결정된다.

본 실시예에서, 선행 소스 텍스트의 인코딩된 결과는 제2 실시예에서

또는

이다.

단계 S502에서, 관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 후속 소스 텍스트의 인코딩 결과는 관련 인코딩 결과로부터 결정된다.

본 실시예에서, 선행 소스 텍스트의 인코딩된 결과가

이면, 후속 소스 텍스트의 인코딩된 결과는 제2 실시예에서

일 수 있으며; 유사하게, 선행 소스 텍스트의 인코딩된 결과가

이면, 제2 실시예에서 후속 소스 텍스트의 인코딩된 결과는

일 수 있다.

단계 S503에서, 초기 인코딩된 결과는 결정된 인코딩된 결과에 따라 프로세싱된다.

구현에서, 단계 S503은 구체적으로 이하의 단계 A2 내지 C2를 포함한다.

단계 A2에서, 관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과와 선행 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 선행 소스 텍스트 사이의 상관도가 결정된다.

번역될 텍스트와 선행 소스 텍스트(이하 선행 문장이라 칭함)의 각각의 문장 사이의 관련성이 불확실하며, 번역될 텍스트가 선행 문장과 완전히 무관한 경우 선행 문장은 번역될 텍스트에 대해 리던던트이다. 번역될 텍스트가 선행 문장을 참조하여 번역되는 경우, 번역될 텍스트의 번역 결과의 정확성이 부정적으로 영향을 받을 것이며, 이는 번역 결과의 정확성이 감소될 것이라는 것을 의미한다. 따라서, 선행 소스 텍스트의 인코딩된 결과를 합리적으로 이용하기 위해서, 번역될 텍스트와 각각의 선행 문장 사이의 상관도가 본 실시예에서 개별적으로 결정될 수 있어, 선행 문장에 대응하는 시맨틱 정보가 선행 문장에 의해 야기되는 정보 리던던시를 피하기 위해 상관도의 결정된 결과를 참조하여 동적으로 이용될 수 있다.

이 단계에서, 번역될 텍스트의 초기 인코딩된 결과는

일 수 있고, 선행 소스 텍스트에서 선행 문장의 인코딩된 결과는 각각

일 수 있다. 신경망 구조 게이트 네트워크는 각각의 선행 문장에 대응하는 상관 계수를 생성하는 데 사용될 수 있으며, 상관 계수는 번역될 텍스트와 대응 선행 문장 사이의 상관도를 나타낸다.

게이트 네트워크의 네트워크 구조 개략도인 도 6을 참조한다. 특정 구현에서, 번역될 텍스트의 초기 인코딩된 결과

및 각각의 선행 문장에 대응하는 인코딩된 결과

가 게이트 네트워크의 입력으로서 사용된다. 그 후, 게이트 네트워크는 이하의 계산 식에 따라 각각의 선행 문장에 대응하는 상관 계수를 계산한다.

(2)

여기서,

는 번역될 텍스트의 초기 인코딩된 결과이고;

는 번역될 텍스트에 선행하는 i번째 문장의 인코딩된 결과이고;

은 번역될 텍스트에 선행하는 i번째 문장의 상관 계수이고, 이는 번역될 텍스트와 번역될 텍스트에 선행하는 i번째 문장 사이의 상관도를 나타내고;

및

는 사전에 수집된 다량의 데이터를 훈련시킴으로써 획득되고 모두

의 차원을 갖는 게이트 네트워크의 훈련 파라미터이다.

및

는

의 차원을 갖는 행렬이며, 여기서

는 양방향 RNN에 의한 인코딩 프로세스에서 은닉 노드의 수이며 사전에 구성되어 있음에 유의해야 한다. 따라서, 식(2)에 표시된 행렬 곱셈을 통해 차원이 1인 스칼라가 획득될 수 있으며, 그 후 비선형 함수, 즉, 시그모이드(sigmoid) 함수에 의해 변환되어 0 내지 1 범위에 속하는 스칼라

를 획득한다.

이 클수록, 번역될 텍스트와 번역될 텍스트에 선행하는 i번째 문장 사이의 상관도가 높으며 그 반대의 경우도 마찬가지이다.

선행 소스 텍스트에서 각각의 선행 문장에 대응하는 상관 계수

가 식 (2)에 의해 계산될 수 있음을 알 수 있다.

단계 B2에서, 관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 번역될 텍스트와 후속 소스 텍스트 사이의 상관도가 번역될 텍스트의 초기 인코딩된 결과와 후속 소스 텍스트의 인코딩된 결과에 따라 결정된다.

번역될 텍스트와 후속 소스 텍스트(이하 후속 문장이라 칭함)의 각각의 문장 사이의 관련성이 불확실하며, 번역될 텍스트가 후속 문장과 완전히 무관한 경우 후속 문장은 번역될 텍스트에 대해 리던던트이다. 번역될 텍스트가 후속 문장을 참조하여 번역되는 경우, 번역될 텍스트의 번역 결과의 정확성이 부정적으로 영향을 받을 것이며, 이는 번역 결과의 정확성이 감소될 것이라는 것을 의미한다. 따라서, 후속 소스 텍스트의 인코딩된 결과를 합리적으로 이용하기 위해서, 번역될 텍스트와 각각의 후속 문장 사이의 상관도가 본 실시예에서 개별적으로 결정될 수 있어, 후속 문장에 대응하는 시맨틱 정보가 후속 문장에 의해 야기되는 정보 리던던시를 피하기 위해 상관도의 결정 결과를 참조하여 동적으로 이용될 수 있다.

이 단계에서, 번역될 텍스트의 초기 인코딩된 결과는

및 각각의 선행 문장에 대응하는 인코딩된 결과

(3)

여기서,

는 번역될 텍스트의 초기 인코딩된 결과이고;

는 번역될 텍스트에 후속하는 i번째 문장의 인코딩된 결과이고;

는 번역될 텍스트에 후속하는 i번째 문장의 상관 계수이고, 이는 번역될 텍스트와 번역될 텍스트에 후속하는 i번째 문장 사이의 상관도를 나타내고;

및

의 차원을 갖는 게이트 네트워크의 훈련 파라미터이다.

및

는

의 차원을 갖는 행렬이며, 여기서

는 양방향 RNN에 의한 인코딩 프로세스에서 은닉 노드의 수이며 사전에 구성되어 있음에 유의해야 한다. 따라서, 식(3)에 표시된 행렬 곱셈을 통해 차원이 1인 스칼라가 획득될 수 있으며, 그 후 비선형 함수, 즉, 시그모이드(sigmoid) 함수에 의해 변환되어 0 내지 1 범위에 속하는 스칼라

를 획득한다.

이 클수록, 번역될 텍스트와 번역될 텍스트에 후속하는 i번째 문장 사이의 상관도가 높으며 그 반대의 경우도 마찬가지이다.

후속 소스 텍스트에서 각각의 후속 문장의 상관 계수

가 식 (3)에 의해 계산될 수 있음을 알 수 있다.

단계 C2에서, 초기 인코딩된 결과가 결정된 인코딩된 결과와 결정된 상관도에 따라 프로세싱된다.

가 계산된 후, 선행 문장은 이러한 상관 계수에 따라 동적으로 선택될 수 있으며; 유사하게, 후속 소스 텍스트에서 각각의 후속 문장에 대응하는 상관 계수

가 계산된 후, 이러한 상관 계수에 기초하여 후속 문장이 동적으로 선택될 수 있다. 구체적인 프로세스는 이하와 같다.

제2 실시예의 단계 S401에서 획득된 번역될 텍스트의 초기 인코딩 결과

에 기초하여, 이하의 계산 식에 따라 번역될 텍스트의 각각의 단어의 대응하는

에 대해 문맥 정보가 도입될 수 있다:

(3)

여기서,

는 게이트 네트워크를 통해 획득된 각각의 선행 문장에 대응하는 상관 계수이고,

는 게이트 네트워크를 통해 획득된 각각의 후속 문장에 대응하는 상관 계수이고,

는 각각의 선행 문장의 인코딩된 결과이고,

는 각각의 후속 문장의 인코딩된 결과이다.

식 (3)을 통해 번역될 텍스트의 각각의 단어에 대해 문맥 정보가 별도로 도입될 수 있음을 알 수 있다. 상술한 인코딩 프로세스를 통해, 번역될 텍스트의 시맨틱 정보가

, 즉, 도 3에 나타낸 인코딩 부분의 출력

로 변환된다.

번역될 텍스트의 시맨틱 정보를 포함할 뿐만 아니라, 사용할 문맥 정보를 동적으로 선택하기 위해 또한

를 이용함에 유의해야 하며, 이는 정보 중첩에 의해 야기된 정보 리던던시를 피할 뿐만 아니라, 번역 결과의 정확도도 향상시킨다.

요약하면, 본 실시예에 따른 인코딩 방법은 인코딩 단에서 관련 텍스트의 시맨틱 정보의 전부 또는 일부를 도입하고, 번역될 텍스트와 도입된 관련 텍스트 간의 상관도에 대한 정보를 추가로 도입한다. 이러한 방식으로, 번역될 텍스트의 문맥 정보가 동적으로 선택될 수 있으며, 이는 인코딩-및-디코딩 모델의 수신된 정보에서 리던던트 정보를 감소시킬 뿐만 아니라, 번역될 텍스트의 번역 결과의 정확성도 더욱 향상시킨다.

제4 실시예

제2 실시예의 단계 S404의 특정 구현이 본 실시예에서 소개된다.

본 실시예에서, 상술한 단계 S404에서 "번역될 텍스트는 타겟 인코딩된 결과를 디코딩함으로써 번역된다"는 구체적으로 관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 관련 인코딩된 결과에서 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하는 단계를 포함한다. 선행 타겟 텍스트의 인코딩된 결과는 제2 실시예에서 단계 S402의

또는

일 수 있다. 이러한 인코딩된 결과는 번역될 텍스트의 번역을 획득하기 위해 타겟 인코딩된 결과

를 디코딩하는 데 지원하도록 이용될 수 있다.

본 실시예의 구현에서, 관련 인코딩된 결과에서 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하는 것은 이하의 단계 A3 및 B3을 포함할 수 있다.

단계 A3에서, 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도가 결정된다.

선행 타겟 텍스트는 선행 소스 텍스트(이하 번역된 문장이라 칭함)에서 각각의 선행 문장의 번역 결과를 포함한다. 각각의 번역된 문장과 번역될 텍스트 사이의 상관도가 별도로 결정될 수 있다.

구현에서, 단계 A3은 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도로서 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하는 단계를 구체적으로 포함할 수 있다. 이 구현에서, 번역될 텍스트와 선행 타겟 텍스트의 각각의 번역된 문장 간의 상관도는 제3 실시예의 단계 A2에서 계산된 선행 소스 텍스트의 선행 문장에 각각 대응하는 상관 계수

에 의해 각각 나타내어질 수 있다. 예를 들어,

는 번역될 텍스트와 번역될 텍스트에 선행하는 k번째 문장 간의 상관을 나타낸다.

단계 B3에서, 결정된 상관도 및 선행 타겟 텍스트의 인코딩된 결과에 따라 타겟 인코딩된 결과가 디코딩된다.

본 단계에서, 이하의 식에 따라 선행 타겟 텍스트의 상관 계수

및 인코딩된 결과

(제2 실시예의 단계 C1 참조)에 대해 계산이 수행될 수 있다.

(4)

도 3에 나타낸 바와 같이,

는 디코딩에 사용될 선행 타겟 텍스트의 인코딩된 결과를 나타낸다. 순차적 디코딩이 타겟 인코딩된 결과

가 디코딩될 때 RNN에 의해 수행된다. 본 개시에서, 이하의 계산 식에 따라 디코딩 프로세스에서 각각의 순간에

가 추가된다:

(5)

여기서, g는 시그모이드 함수 또는 LSTM 네트워크와 같은 비선형 함수이고;

,

는 디코딩 네트워크의 기존 훈련 파라미터일 수 있으며,

는 실시예에서 디코딩 네트워크의 새로 추가된 훈련 파라미터이고;

는 현재 순간

에서의 은닉 상태를 나타내고;

는 과거 순간

에서의 은닉 상태를 나타내고;

은 과거 순간에 인코딩된 결과의 단어 벡터이고,

는 주의 모델의 출력 정보이고, 여기서 주의 모델은 일반적인 인코딩-및-디코딩 구조의 네트워크 구조일 수 있으며, 종래의 기술과 동일한 디코딩 및 계산 방법을 사용할 수 있다.

디코딩에 의해 현재 순간

의 은닉 상태

가 획득된 후, 일반적인 인코딩-및-디코딩 구조의 소프트맥스(softmax) 함수를 통해 현재 순간

에서 번역 중인 단어의 번역 결과의 확률 분포가 추정된다. 번역된 단어의 번역 결과는 확률 분포에 따라 획득된다.

요약하면, 본 실시예에 따른 디코딩 방법은 디코딩 단에서 선행 소스 텍스트의 번역 결과, 즉, 선행 타겟 텍스트를 소개하고, 번역될 텍스트와 선행 타겟 텍스트 간의 상관도에 대한 정보를 추가로 소개한다. 따라서, 번역될 텍스트의 번역 결과는 선행 텍스트의 번역 결과와 연결될 수 있으며, 이는 번역될 텍스트의 번역 결과를 보다 정확하게 만들 수 있을 뿐만 아니라, 전체 번역된 텍스트의 유창성도 향상시킬 수 있으며, 즉, 번역된 담화-레벨 텍스트의 문장 사이의 일관성과 연속성이 보장된다.

제5 실시예

본 실시예에서는 담화-레벨 텍스트를 번역하기 위한 장치가 소개되고, 관련 내용에 대해 상술한 방법 실시예를 참조할 수 있다.

본 실시예에 따른 담화-레벨 텍스트를 번역하기 위한 장치의 구성적인 개략도를 나타내는 도 7을 참조한다. 본 장치(700)는 이하를 포함한다:

번역될 텍스트를 획득하도록 구성된 번역될 텍스트 획득 유닛(701)으로서, 번역될 텍스트는 번역될 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트 획득 유닛(701);

번역될 텍스트의 관련 텍스트를 획득하도록 구성된 관련 텍스트 획득 유닛(702)으로서, 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고, 선행 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이전의 적어도 하나의 텍스트 단위를 나타내고, 후속 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이후의 적어도 하나의 텍스트 단위를 나타내고, 선행 타겟 텍스트는 선행 소스 텍스트의 번역된 텍스트를 나타내는, 관련 텍스트 획득 유닛(702); 및

관련 텍스트에 따라 번역될 텍스트를 번역하도록 구성된 번역될 텍스트 번역 유닛(703).

실시예의 구현에서, 번역될 텍스트 번역 유닛(703)은 사전-구성된 인코딩-및-디코딩 모델을 사용하여 관련 텍스트에 따라 번역될 텍스트를 번역하도록 구체적으로 구성될 수 있다.

실시예의 구현에서, 번역될 텍스트 번역 유닛(703)은:

타겟 인코딩된 결과를 디코딩함으로써 번역될 텍스트를 번역하도록 구성된 디코딩 구현 서브유닛을 포함할 수 있다.

실시예의 구현에서, 제1 인코딩 서브유닛은 번역될 텍스트의 각각의 단어를 인코딩함으로써 초기 인코딩된 결과를 획득하도록 구체적으로 구성된다.

따라서, 제2 인코딩 서브유닛은 각각의 텍스트 단위에 대응하는 인코딩된 결과를 획득하기 위하여 관련 텍스트의 각각의 텍스트 단위의 단어를 인코딩하고 관련 인코딩된 결과로서 인코딩된 결과를 결정하도록 구체적으로 구성된다.

실시예의 구현에서, 번역될 텍스트 번역 유닛(703)은:

번역될 텍스트에 대응하는 누적 결과를 획득하기 위하여, 번역될 텍스트의 단어가 인코딩된 후, 번역될 텍스트의 단어의 인코딩된 결과를 함께 추가하도록 구성된 제1 추가 서브유닛; 및

관련 텍스트의 각각의 텍스트 단위의 단어가 인코딩된 후에, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 선행 소스 텍스트의 각각의 텍스트 단위의 단어의 인코딩된 결과를 함께 추가하고; 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 관련 텍스트가 후속 소스 텍스트를 포함하는 경우 후속 소스 텍스트의 각각의 텍스트 단위의 단어의 인코딩된 결과를 함께 추가하고; 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 선행 타겟 텍스트의 각각의 텍스트 단위의 단어의 인코딩된 결과를 함께 추가하도록 구성된 제2 추가 서브유닛을 더 포함할 수 있다.

실시예의 구현에서, 결과 프로세싱 서브유닛은:

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 선행 소스 텍스트의 인코딩된 결과를 결정하도록 구성된 제1 결정 서브유닛;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 후속 소스 텍스트의 인코딩된 결과를 결정하도록 구성된 제2 결정 서브유닛; 및

타겟 인코딩된 결과를 획득하기 위해 결정된 인코딩된 결과에 따라 초기 인코딩된 결과를 프로세싱하도록 구성된 결과 획득 서브유닛을 포함한다.

실시예의 구현에서, 결과 획득 서브유닛은:

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인인코딩된 결과 및 선행 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하도록 구성된 제1 상관도 결정 서브유닛;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과 및 후속 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 후속 소스 텍스트 사이의 상관도를 결정하도록 구성된 제2 상관도 결정 서브유닛; 및

타겟 인코딩된 결과를 획득하기 위하여 결정된 인코딩된 결과 및 결정된 상관도에 따라 초기 인코딩된 결과를 프로세싱하도록 구성된 타겟 결과 획득 서브유닛을 포함한다.

실시예의 구현에서, 디코딩 구현 서브유닛은 관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 관련 인코딩된 텍스트의 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하도록 구체적으로 구성된다.

실시예의 구현에서, 디코딩 구현 서브유닛은:

번역될 텍스트와 선행 타겟 텍스트 사이의 상관도를 결정하도록 구성된 제3 상관도 결정 서브유닛; 및

결정된 상관도 및 선행 타겟 텍스트의 인코딩된 결과에 따라 타겟 인코딩된 결과를 디코딩하도록 구성된 인코딩된 결과 프로세싱 서브유닛을 포함한다.

실시예의 구현에서, 제3 상관도 결정 서브유닛은 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도로서 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하도록 구체적으로 구성된다.

제6 실시예

담화-레벨 텍스트를 번역하기 위한 다른 장치가 본 실시예에서 소개되고, 관련 내용에 대한 상술한 방법 실시예를 참조할 수 있다.

실시예에 따라 담화-레벨 텍스트를 번역하기 위한 장치의 하드웨어 구조 개략도를 나타내는 도 8을 참조한다. 음성 상호 작용 장치(800)는 메모리(801), 수신기(802) 및 메모리(801) 및 수신기(802)에 접속된 프로세서(803)를 포함하며, 여기서 메모리(801)는 프로그램 명령의 세트를 저장하도록 구성되고, 프로세서(803)는 이하의 동작을 수행하기 위하여 메모리(801)에 저장된 프로그램 명령을 호출하도록 구성된다.

번역될 텍스트를 획득하는 동작으로서, 번역될 텍스트는 번역될 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트를 획득하는 동작;

번역될 텍스트의 관련 텍스트를 획득하는 동작으로서, 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고,

선행 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이전의 적어도 하나의 텍스트 단위를 나타내고, 후속 소스 텍스트는 담화-레벨 텍스트에서 번역될 텍스트 이후의 적어도 하나의 텍스트 단위를 나타내고, 선행 타겟 텍스트는 선행 소스 텍스트의 번역된 텍스트를 나타내는, 관련 텍스트를 획득하는 동작; 및

관련 텍스트에 따라 번역될 텍스트를 번역하는 동작.

실시예의 구현에서, 프로세서(803)는 이하의 동작을 수행하기 위해 메모리(801)에 저장된 프로그램 명령을 호출하도록 구성된다:

사전-구성된 인코딩-및-디코딩 모델을 사용하여 관련 텍스트에 따라 번역될 텍스트를 번역하는 동작.

번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하는 동작으로서, 초기 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내는, 초기 인코딩된 결과를 획득하는 동작;

관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하는 동작으로서, 관련 인코딩된 결과는 관련 텍스트의 시맨틱 정보를 나타내는, 관련 인코딩된 결과를 획득하는 동작;

관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과를 획득하는 동작으로서, 타겟 인코딩된 결과는 번역될 텍스트의 시맨틱 정보를 나타내며, 관련 텍스트의 시맨틱 정보의 전부 또는 일부를 전달하는, 타겟 인코딩된 결과를 획득하는 동작; 및

타겟 인코딩된 결과를 디코딩함으로써 번역될 텍스트를 번역하는 동작.

상기 번역될 텍스트의 단어들을 인코딩함으로써 상기 초기 인코딩된 결과를 획득하는 동작; 및

각각의 텍스트 단위들에 대응하는 인코딩된 결과들을 획득하기 위해 상기 관련 텍스트의 각각의 텍스트 단위의 단어들을 인코딩하고, 상기 인코딩된 결과들을 상기 관련 인코딩된 결과로서 결정하는 동작.

번역될 텍스트의 단어들의 인코딩된 결과를 함께 추가함으로써 번역될 텍스트에 대응하는 누적 결과를 획득하는 동작;

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 선행 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 동작;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 후속 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 동작; 및

관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 선행 타겟 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과들을 함께 추가하는 동작.

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 선행 소스 텍스트의 인코딩된 결과를 결정하는 동작;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 관련 인코딩된 결과로부터 후속 소스 텍스트의 인코딩된 결과를 결정하는 동작; 및

결정된 인코딩된 결과에 따라 초기 인코딩된 결과를 프로세싱하는 동작.

관련 텍스트가 선행 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과 및 선행 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 결정하는 동작;

관련 텍스트가 후속 소스 텍스트를 포함하는 경우, 번역될 텍스트의 초기 인코딩된 결과 및 후속 소스 텍스트의 인코딩된 결과에 따라 번역될 텍스트와 후속 소스 텍스트 사이의 상관도를 결정하는 동작; 및

결정된 인코딩된 결과 및 결정된 상관도에 따라 초기 인코딩된 결과를 프로세싱하는 동작.

관련 텍스트가 선행 타겟 텍스트를 포함하는 경우, 관련 인코딩된 결과의 선행 타겟 텍스트의 인코딩된 결과를 사용하여 타겟 인코딩된 결과를 디코딩하는 동작.

번역될 텍스트와 선행 타겟 텍스트 사이의 상관도를 결정하는 동작; 및

결정된 상관도 및 선행 타겟 텍스트의 인코딩된 결과에 따라 타겟 인코딩된 결과를 디코딩하는 동작.

번역될 텍스트와 선행 소스 텍스트 사이의 상관도를 번역될 텍스트와 선행 타겟 텍스트 사이의 상관도로서 결정하는 동작.

일부 실시예에서, 프로세서(803)는 중앙 처리 장치(Central Processing Unit, CPU)일 수 있고, 메모리(801)는 랜덤 액세스 메모리(Random Access Memory, RAM) 유형의 내부 저장소일 수 있으며, 수신기(802)는 일반적인 물리적 인터페이스를 포함할 수 있으며, 여기서 물리적 인터페이스는 이더넷(Ethernet) 인터페이스 또는 비동기식 전송 모드(Asynchronous Transfer Mode, ATM) 인터페이스일 수 있다. 프로세서(803), 수신기(802) 및 메모리(801)는 하나 이상의 독립적인 회로 또는 어플리케이션 특정 집적 회로(Application Specific Integrated Circuit, ASIC)와 같은 하드웨어의 단편으로 통합될 수 있다.

본 실시예에 따라 컴퓨터-판독 가능 저장 매체가 추가로 제공된다. 컴퓨터-판독 가능 저장 매체는 컴퓨터에서 실행될 때, 컴퓨터로 하여금 담화-레벨 텍스트를 번역하기 위한 상술한 임의의 방법을 실행하게 하는 명령을 포함한다.

본 실시예에 따라 컴퓨터 프로그램 제품이 추가로 제공되며, 여기서 컴퓨터 프로그램 제품은 단말 디바이스에서 실행될 때, 단말 디바이스로 하여금 담화-레벨 텍스트를 번역하기 위한 상술한 임의의 방법을 실행하게 한다.

상술한 구현의 설명으로부터, 본 기술 분야의 통상의 기술자는 실시예에서 상술한 방법의 단계의 전부 또는 일부가 필요한 일반적인 하드웨어 플랫폼과 함께 소프트웨어에 의해 구현될 수 있음을 명확하게 이해할 수 있음을 알 수 있다. 이러한 이해에 기초하여, 본 출원의 기술적 해결책의 기존 기술에 기여하는 필수 부분 또는 부분은 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 컴퓨터 디바이스(개인용 컴퓨터, 서버 또는 미디어 게이트웨이와 같은 네트워크 통신 디바이스 등일 수 있음)로 하여금 본 개시의 다양한 실시예에서 또는 다양한 실시예의 일부에서 본 방법을 실행하게 하는 몇몇 명령을 포함하여, ROM/RAM, 자기 디스크, 광 디스크 등과 같은 저장 매체에 저장될 수 있다.

본 명세서의 다양한 실시예는 이와 다른 실시예와의 차이점에 대한 각 실시예의 강조와 함께 점진적인 방식으로 본원에서 설명된다는 점에 유의해야 하며; 따라서, 다양한 실시예 사이의 동일하거나 유사한 부분에 대해 다른 실시예를 참조할 수 있다. 실시예에 따른 장치는 실시예에 따른 방법에 대응하므로 간략히 설명되며, 관련 부분에 대한 방법의 설명을 참조할 수 있다.

본원에서 "제1" 및 "제2"와 같은 관계 용어는 하나의 엔티티 또는 동작을 다른 엔티티 또는 동작과 구별하기 위해서만 사용되며, 반드시 이러한 엔티티 또는 동작 간에 실제 관계 또는 시퀀스가 존재할 것을 요구하거나 암시하는 것은 아니라는 것에 추가로 유의해야 한다. 또한, 용어 "포함하다(include)", "포괄하다(comprise)" 또는 이들의 임의의 다른 변형은 비배타적 포함을 포함하도록 의도되어, 일련의 요소를 포함하는 프로세스, 방법, 객체 또는 디바이스는 이러한 요소뿐만 아니라 명시적으로 나열되지 않은 다른 요소 또는 프로세스, 방법, 객체 또는 디바이스에 고유한 요소를 포함한다. 추가의 제한 없이, 요소 앞의 "포함하다(include a...)"라는 문구는 해당 요소를 포함하는 프로세스, 방법, 객체 또는 디바이스에서 다른 동일한 요소의 존재를 배제하지 않는다.

상술한 실시예의 설명은 본 기술 분야의 통상의 기술자가 본 개시를 구현하거나 사용할 수 있게 한다. 이러한 실시예에 대한 다양한 수정은 본 기술 분야의 통상의 기술자에게 명백하며, 본원에 규정된 일반적인 원리는 본 개시의 사상 또는 범위를 벗어나지 않고 다른 실시예에서 구현될 수 있다. 따라서, 본 개시는 본원에 설명된 이러한 실시예에 제한되지 않고, 본원에 개시된 원리 및 신규한 특징과 일치하는 가장 넓은 범위에 따를 것이다.

Claims

담화-레벨 텍스트를 번역하기 위한 방법으로서:
번역될 텍스트를 획득하는 단계로서, 상기 번역될 텍스트는 번역될 상기 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트를 획득하는 단계;
상기 번역될 텍스트의 관련 텍스트를 획득하는 단계 - 상기 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고, 상기 선행 소스 텍스트는 상기 담화-레벨 텍스트에서 상기 번역될 텍스트 이전의 적어도 하나의 텍스트 단위이고, 상기 후속 소스 텍스트는 상기 담화-레벨 텍스트에서 상기 번역될 텍스트 이후의 적어도 하나의 텍스트 단위이고, 상기 선행 타겟 텍스트는 상기 선행 소스 텍스트의 번역된 텍스트임 -; 및
상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하는 단계를 포함하고,
상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하는 단계는:
상기 번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하는 단계로서, 상기 초기 인코딩된 결과는 상기 번역될 텍스트의 시맨틱(semantic) 정보를 나타내는, 초기 인코딩된 결과를 획득하는 단계;
상기 관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하는 단계로서, 상기 관련 인코딩된 결과는 상기 관련 텍스트의 시맨틱 정보를 나타내는, 관련 인코딩된 결과를 획득하는 단계;
상기 관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 상기 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과를 획득하는 단계; 및
상기 타겟 인코딩된 결과를 디코딩함으로써 상기 번역될 텍스트를 번역하는 단계
를 포함하는, 방법.
제1항에 있어서,
상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하는 단계는:
사전-구성된 인코딩-및-디코딩 모델을 사용하여 상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하는 단계를 포함하는, 방법.
제2항에 있어서,
상기 타겟 인코딩된 결과는 상기 번역될 텍스트의 상기 시맨틱 정보를 나타내며, 상기 관련 텍스트의 상기 시맨틱 정보의 전부 또는 일부를 전달하는, 방법.
제3항에 있어서,
상기 번역될 텍스트를 인코딩함으로써 상기 초기 인코딩된 결과를 획득하는 단계는:
상기 번역될 텍스트의 단어들을 인코딩함으로써 상기 초기 인코딩된 결과를 획득하는 단계를 포함하고, 이에 대응하여 상기 관련 텍스트를 인코딩함으로써 상기 관련 인코딩된 결과를 획득하는 단계는:
각각의 텍스트 단위들에 대응하는 인코딩된 결과들을 획득하기 위해 상기 관련 텍스트의 각각의 텍스트 단위의 단어들을 인코딩하고, 상기 인코딩된 결과들을 상기 관련 인코딩된 결과로서 결정하는 단계를 포함하는, 방법.
제4항에 있어서,
상기 번역될 텍스트의 단어들을 인코딩한 후, 상기 방법은:
상기 번역될 텍스트의 상기 단어들의 인코딩된 결과를 함께 추가함으로써 상기 번역될 텍스트에 대응하는 누적 결과를 획득하는 단계를 더 포함하고, 이에 대응하여 상기 관련 텍스트의 각각의 텍스트 단위의 상기 단어들을 인코딩한 후, 상기 방법은:
상기 관련 텍스트가 상기 선행 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 상기 선행 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 단계;
상기 관련 텍스트가 상기 후속 소스 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 상기 후속 소스 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과를 함께 추가하는 단계; 및
상기 관련 텍스트가 상기 선행 타겟 텍스트를 포함하는 경우, 각각의 텍스트 단위에 대응하는 누적 결과를 획득하기 위해 상기 선행 타겟 텍스트의 각각의 텍스트 단위의 단어들의 인코딩된 결과들을 함께 추가하는 단계를 더 포함하는, 방법.
제3항에 있어서,
상기 관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 상기 초기 인코딩된 결과를 프로세싱하는 단계는:
상기 관련 텍스트가 상기 선행 소스 텍스트를 포함하는 경우, 상기 관련 인코딩된 결과로부터 상기 선행 소스 텍스트의 인코딩된 결과를 결정하는 단계;
상기 관련 텍스트가 상기 후속 소스 텍스트를 포함하는 경우, 상기 관련 인코딩된 결과로부터 상기 후속 소스 텍스트의 인코딩된 결과를 결정하는 단계; 및
상기 결정된 인코딩된 결과에 따라 상기 초기 인코딩된 결과를 프로세싱하는 단계를 포함하는, 방법.
제6항에 있어서,
상기 결정된 인코딩된 결과에 따라 상기 초기 인코딩된 결과를 프로세싱하는 단계는:
상기 관련 텍스트가 상기 선행 소스 텍스트를 포함하는 경우, 상기 번역될 텍스트의 상기 초기 인코딩된 결과 및 상기 선행 소스 텍스트의 상기 인코딩된 결과에 따라 상기 번역될 텍스트와 상기 선행 소스 텍스트 사이의 상관도를 결정하는 단계;
상기 관련 텍스트가 상기 후속 소스 텍스트를 포함하는 경우, 상기 번역될 텍스트의 상기 초기 인코딩된 결과 및 상기 후속 소스 텍스트의 상기 인코딩된 결과에 따라 상기 번역될 텍스트와 상기 후속 소스 텍스트 사이의 상관도를 결정하는 단계; 및
상기 결정된 인코딩된 결과 및 상기 결정된 상관도에 따라 상기 초기 인코딩된 결과를 프로세싱하는 단계를 포함하는, 방법.
제3항에 있어서,
상기 타겟 인코딩된 결과를 디코딩함으로써 상기 번역될 텍스트를 번역하는 단계는:
상기 관련 텍스트가 상기 선행 타겟 텍스트를 포함하는 경우, 상기 관련 인코딩된 결과의 상기 선행 타겟 텍스트의 인코딩된 결과를 사용하여 상기 타겟 인코딩된 결과를 디코딩하는 단계를 포함하는, 방법.
제8항에 있어서,
상기 관련 인코딩된 결과의 상기 선행 타겟 텍스트의 상기 인코딩된 결과를 사용하여 상기 타겟 인코딩된 결과를 디코딩하는 단계는:
상기 번역될 텍스트와 상기 선행 타겟 텍스트 사이의 상관도를 결정하는 단계; 및
상기 결정된 상관도 및 상기 선행 타겟 텍스트의 상기 인코딩된 결과에 따라 상기 타겟 인코딩된 결과를 디코딩하는 단계를 포함하는, 방법.
제9항에 있어서,
상기 번역될 텍스트와 상기 선행 타겟 텍스트 사이의 상기 상관도를 결정하는 단계는:
상기 번역될 텍스트와 상기 선행 소스 텍스트 사이의 상기 상관도를 상기 번역될 텍스트와 상기 선행 타겟 텍스트 사이의 상기 상관도로서 결정하는 단계를 포함하는, 방법.
담화-레벨 텍스트를 번역하기 위한 장치로서:
번역될 텍스트를 획득하도록 구성된 번역될 텍스트 획득 유닛으로서, 상기 번역될 텍스트는 번역될 상기 담화-레벨 텍스트의 단위 텍스트인, 번역될 텍스트 획득 유닛;
상기 번역될 텍스트의 관련 텍스트를 획득하도록 구성된 관련 텍스트 획득 유닛 - 상기 관련 텍스트는 선행 소스 텍스트, 후속 소스 텍스트 또는 선행 타겟 텍스트 중 적어도 하나를 포함하고, 상기 선행 소스 텍스트는 상기 담화-레벨 텍스트에서 상기 번역될 텍스트 이전의 적어도 하나의 텍스트 단위이고, 상기 후속 소스 텍스트는 상기 담화-레벨 텍스트에서 상기 번역될 텍스트 이후의 적어도 하나의 텍스트 단위이고, 상기 선행 타겟 텍스트는 상기 선행 소스 텍스트의 번역된 텍스트임 -; 및
상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하도록 구성된 번역될 텍스트 번역 유닛을 포함하고,
상기 번역될 텍스트 번역 유닛은:
상기 번역될 텍스트를 인코딩함으로써 초기 인코딩된 결과를 획득하도록 구성된 제1 인코딩 서브유닛으로서, 상기 초기 인코딩된 결과는 상기 번역될 텍스트의 시맨틱 정보를 나타내는, 제1 인코딩 서브유닛;
상기 관련 텍스트를 인코딩함으로써 관련 인코딩된 결과를 획득하도록 구성된 제2 인코딩 서브유닛으로서, 상기 관련 인코딩된 결과는 상기 관련 텍스트의 시맨틱 정보를 나타내는, 제2 인코딩 서브유닛;
상기 관련 인코딩된 결과의 인코딩된 결과들의 전부 또는 일부와 함께 상기 초기 인코딩된 결과를 프로세싱함으로써 타겟 인코딩된 결과를 획득하도록 구성된 결과 프로세싱 서브유닛; 및
상기 타겟 인코딩된 결과를 디코딩함으로써 상기 번역될 텍스트를 번역하도록 구성된 디코딩 구현 서브유닛
을 포함하는, 장치.
제11항에 있어서,
상기 번역될 텍스트 번역 유닛은 사전-구성된 인코딩-및-디코딩 모델을 사용하여 상기 관련 텍스트에 따라 상기 번역될 텍스트를 번역하도록 구성되는, 장치.
제12항에 있어서,
상기 타겟 인코딩된 결과는 상기 번역될 텍스트의 상기 시맨틱 정보를 나타내며, 상기 관련 텍스트의 상기 시맨틱 정보의 전부 또는 일부를 전달하는, 장치.
제13항에 있어서,
상기 디코딩 구현 서브유닛은, 상기 관련 텍스트가 상기 선행 타겟 텍스트를 포함하는 경우, 상기 관련 인코딩된 결과의 상기 선행 타겟 텍스트의 인코딩된 결과를 사용하여 상기 타겟 인코딩된 결과를 디코딩하도록 구성되는, 장치.
담화-레벨 텍스트를 번역하기 위한 장치로서:
프로세서, 메모리 및 시스템 버스를 포함하고,
상기 프로세서 및 상기 메모리는 상기 시스템 버스에 의해 서로 접속되고, 상기 메모리는 하나 이상의 컴퓨터 프로그램을 저장하도록 구성되고, 상기 하나 이상의 컴퓨터 프로그램은 상기 프로세서에 의해 실행될 때 상기 프로세서로 하여금 제1항 내지 제10항 중 어느 한 항에 따른 방법을 실행하게 하는 명령들을 포함하는, 장치.
컴퓨터에서 실행될 때 상기 컴퓨터로 하여금 제1항 내지 제10항 중 어느 한 항에 따른 방법을 실행하게 하는 명령들을 포함하는, 컴퓨터-판독 가능 저장 매체.
삭제