KR102637338B1

KR102637338B1 - 번역 보정 방법 및 장치와 번역 시스템

Info

Publication number: KR102637338B1
Application number: KR1020170012361A
Authority: KR
Inventors: 이지현; 나휘동; 이호식
Original assignee: 삼성전자주식회사
Priority date: 2017-01-26
Filing date: 2017-01-26
Publication date: 2024-02-16
Also published as: US11954452B2; CN108363702B; US11409967B2; EP3355203A1; KR20180087945A; JP7111464B2; US20220374613A1; US20180210878A1; CN108363702A; US20200356731A1; JP2018120584A; US10762302B2

Abstract

번역 보정 방법이 개시된다. 일 실시예는 소스 문장에서 소스 워드를 선택하고, 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하며, 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 타겟 워드를 보정한다.

Description

번역 보정 방법 및 장치와 번역 시스템{APPARATUS AND METHOD FOR CORRECTING TRANSLATION, AND TRANSLATION SYSTEM}

아래 실시예들은 번역 보정 방법 및 장치와 번역 시스템에 관한 것이다.

사용자는 모국어가 아닌 다른 언어의 문장, 절, 구, 또는 워드를 기계 번역을 이용하여 번역할 수 있다. 기계 번역 결과에 오류가 있으면, 사용자는 기계 번역 결과를 이해하는 것이 어렵다. 이에 따라, 다른 언어의 문장을 정확하게 번역하는 것이 중요할 수 있다.

일 측에 따른 번역 보정 방법은 소스 문장에서 소스 워드를 선택하는 단계; 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하는 단계; 및 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 타겟 워드를 보정하는 단계를 포함한다.

상기 타겟 워드를 보정하는 단계는, 상기 특징값들 중 적어도 하나의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하는 단계; 및 상기 특징값들 중 적어도 하나의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 특징값들 중 적어도 하나의 위치 정보와 맵핑된 소스 워드로 대체하는 단계를 포함할 수 있다.

상기 타겟 워드를 보정하는 단계는, 서브 타겟 워드들을 기초로 상기 타겟 워드가 결정된 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값을 결정하는 단계; 각 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 각 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계를 포함할 수 있다.

상기 타겟 워드를 보정하는 단계는, 상기 소스 문장에 대응되는 타겟 문장에서 미리 정해진 유형에 해당하는 타겟 워드를 선택하는 단계; 상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하는 단계; 및 상기 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계를 포함할 수 있다.

상기 타겟 워드를 보정하는 단계는, 상기 소스 문장에 대응되는 타겟 문장의 서브 타겟 워드들을 기초로 타겟 워드를 결정하는 단계; 상기 결정된 타겟 워드가 미리 정해진 유형에 해당하는 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값에서 대표값을 결정하는 단계; 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하는 단계; 및 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 결정된 타겟 워드를 상기 대표값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계를 포함할 수 있다.

상기 선택된 소스 워드는, 고유 명사, 숫자, 숫자와 문자를 포함하는 워드, 타겟 언어로 표기된 워드, 사전(dictionary)에 등록되지 않은 워드, 및 이들 중 하나 이상을 포함하는 구(phrase) 중 어느 하나에 해당할 수 있다.

번역 보정 방법은 상기 선택된 소스 워드를 전처리하는 단계를 더 포함할 수 있다.

상기 선택된 소스 워드를 전처리하는 단계는, 상기 선택된 소스 워드의 표기를 변경하는 단계를 포함할 수 있다.

번역 보정 방법은 상기 소스 문장이 서브 워드 레벨 또는 문자 레벨의 문장인 경우, 상기 소스 문장 내의 서브 소스 워드들 또는 서브 소스 문자들을 단일 소스 워드로 변환하는 단계를 더 포함할 수 있다.

상기 맵핑 정보를 생성하는 단계는, 상기 단일 소스 워드가 미리 정해진 유형에 해당하는 경우, 상기 소스 문장에서의 상기 서브 소스 워드들 또는 상기 소스 문자들 각각의 위치 정보를 상기 단일 소스 워드와 맵핑하는 단계를 포함할 수 있다.

일 측에 따른 번역 보정 장치는 컨트롤러; 및 상기 컨트롤러에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리를 포함하고, 상기 적어도 하나의 명령어가 상기 컨트롤러에서 실행되면, 상기 컨트롤러는 소스 문장에서 소스 워드를 선택하고, 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하며, 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 타겟 워드를 보정한다.

상기 컨트롤러는, 상기 특징값들 중 적어도 하나의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하고, 상기 특징값들 중 적어도 하나의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 특징값들 중 적어도 하나의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

상기 컨트롤러는, 서브 타겟 워드들을 기초로 상기 타겟 워드가 결정된 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값을 결정하고, 각 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 각 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

상기 컨트롤러는, 상기 소스 문장에 대응되는 타겟 문장에서 미리 정해진 유형에 해당하는 타겟 워드가 선택되는 경우, 상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하고, 상기 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

상기 컨트롤러는, 상기 소스 문장에 대응되는 타겟 문장의 서브 타겟 워드들을 기초로 타겟 워드를 결정하고, 상기 결정된 타겟 워드가 미리 정해진 유형에 해당하는 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값에서 대표값을 결정하며, 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하고, 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 결정된 타겟 워드를 상기 대표값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

상기 컨트롤러는, 상기 선택된 소스 워드를 전처리할 수 있다.

상기 컨트롤러는, 상기 선택된 소스 워드의 표기를 변경할 수 있다.

상기 컨트롤러는, 상기 소스 문장이 서브 워드 레벨 또는 문자 레벨의 문장인 경우, 상기 소스 문장 내의 서브 소스 워드들 또는 서브 소스 문자들을 단일 소스 워드로 변환할 수 있다.

상기 컨트롤러는, 상기 단일 소스 워드가 미리 정해진 유형에 해당하는 경우, 상기 소스 문장에서의 상기 서브 소스 워드들 또는 상기 소스 문자들 각각의 위치 정보를 상기 단일 소스 워드와 맵핑할 수 있다.

일 측에 따른 번역 시스템은 소스 문장에서 소스 워드를 선택하고, 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하는 문장 분석기; 상기 소스 문장을 기초로 타겟 워드들을 결정하고, 상기 타겟 워드들을 포함하는 타겟 문장을 완성하는 번역기; 및 상기 타겟 워드들 각각이 결정될 때 마다, 결정된 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 결정된 타겟 워드를 보정할 지 여부를 결정하는 동작 또는 상기 타겟 문장이 완성된 경우, 상기 타겟 문장에서 선택된 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 선택된 타겟 워드를 보정할 지 여부를 결정하는 동작을 수행하는 보정기를 포함한다.

상기 보정기는, 상기 결정된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 결정된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

상기 보정기는, 상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다.

도 1은 일 실시예에 따른 번역 시스템의 동작의 일례를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 문장 분석기의 동작을 설명하기 위한 도면이다.
도 3 내지 도 5는 일 실시예에 따른 번역기의 동작을 설명하기 위한 도면이다.
도 6 내지 도 7은 일 실시예에 따른 보정기의 동작의 일례를 설명하기 위한 도면이다.
도 8 내지 도 9는 일 실시예에 따른 보정기의 동작의 다른 일례를 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 번역 시스템의 동작의 다른 일례를 설명하기 위한 도면이다.
도 11은 일 실시예에 따른 번역 보정 장치를 설명하기 위한 블록도이다.
도 12는 일 실시예에 따른 번역 보정 방법의 일례를 설명하기 위한 순서도이다.
도 13은 일 실시예에 따른 번역 보정 방법의 다른 일례를 설명하기 위한 순서도이다.
도 14는 일 실시예에 따른 번역 보정 방법의 또 다른 일례를 설명하기 위한 순서도이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 번역 시스템을 설명하기 위한 도면이다.

도 1을 참조하면, 일 실시예에 따른 번역 시스템(100)은 문장 분석기(110), 번역기(120), 및 보정기(130)를 포함한다.

문장 분석기(110)는 소스 문장을 분석한다. 예를 들어, 문장 분석기(110)는 소스 문장에 형태소 분석, 구문 분석 등을 수행할 수 있다. 문장 분석기(1110)는 소스 문장의 분석을 통해 카피 리스트(copy list)를 생성할 수 있다. 카피 리스트는 타겟 문장으로 복사할 하나 이상의 소스 워드 및 해당 소스 워드의 위치 정보를 포함할 수 있다. 문장 분석기(110)의 동작에 대해선 도 2를 통해 후술한다.

번역기(120)는 소스 문장에 기계 번역(Machine Translation)을 수행하여 타겟 문장을 완성한다. 예를 들어, 번역기(120)는 소스 문장을 인코딩하고, 디코딩을 통해 타겟 워드들 각각을 순차적으로 결정하며, 타겟 워드들을 포함하는 타겟 문장을 완성할 수 있다. 번역기(120)의 동작에 대해선 도 3 내지 도 5를 통해 후술한다.

보정기(130)는 디코딩 시점마다(달리 표현하면, 타겟 워드들 각각이 결정될 때 마다) 동작하거나 타겟 문장이 완성되었을 때(달리 표현하면, 전체 디코딩이 완료되었을 때) 동작할 수 있다. 일례로, 보정기(130)는 현재 디코딩 시점 t의 타겟 워드가 결정되면, 현재 디코딩 시점 t의 타겟 워드에 대한 특징값들 중 적어도 하나(예를 들어, 최대 특징값)와 관련된 소스 워드 위치 및 카피 리스트를 기초로 현재 시점 t의 타겟 워드를 보정할 지 결정할 수 있다. 이러한 보정기(130)의 동작에 대한 일례를 도 6 내지 도 7을 통해 후술한다. 다른 일례로, 보정기(130)는 타겟 문장이 완성되면, 타겟 문장의 일부 타겟 워드에 대한 특징값들 중 적어도 하나(예를 들어, 최대 특징값)와 관련된 소스 워드 위치 및 카피 리스트를 기초로 일부 타겟 워드를 보정할 지 결정할 수 있다. 이러한 보정기(130)의 동작에 대해선 도 8 내지 도 9를 통해 후술한다.

보정기(130)의 동작을 통해 번역 시스템(100)은 보정된 타겟 문장을 생성할 수 있다. 이에 따라, 번역 오류가 최소화될 수 있고, 번역 정확도가 증가할 수 있다.

도 2는 일 실시예에 따른 문장 분석기의 동작을 설명하기 위한 도면이다.

문장 분석기(200)는, 예를 들어, 아래의 제1 소스 문장 및 제2 소스 문장을 분석한다고 하자.

제1 소스 문장: 이후에 그 수치는 계속 감소했다. 1990년에 4,868,520명, 2000년에 4,019,991명, 그리고 작년에 3,829,998명 이었다.

제2 소스 문장: Hutton, 석미연, 및 Lee Jihyun은 상속 받은 집을 팔았는데 양도 소득세 1000만원을 부과 받았다

아래 표 1은 제1 소스 문장의 소스 워드들의 위치 정보의 일례를 보여주고, 아래 표 2는 제2 소스 문장의 소스 워드들의 위치 정보의 일례를 보여준다.

위치 정보	소스 워드
1	이후에
2	그
3	수치는
4	계속
5	감소했다
6	.
7	1990년에
8	4,868,520
9	명
10	,
11	2000년에
12	4,019,991
13	명
14	,
15	그리고
16	작년에
17	3,829,998
18	명
19	이었다

위치 정보	소스 워드
1	Hutton
2	,
3	석미연
4	,
5	및
6	Lee
7	Jihyun은
8	상속
9	받은
10	집을
11	팔았는데
12	양도
13	소득세
14	1000만
15	원을
16	부과
17	받았다

문장 분석기(200)는 소스 문장의 하나 이상의 소스 워드를 선택한다(210). 문장 분석기(200)는 번역 오류가 발생할 수 있는 소스 워드를 미리 선택할 수 있다. 일 실시예에 있어서, 문장 분석기(200)는 소스 문장의 소스 워드들 중 미리 정해진 유형에 해당하는 소스 워드를 선택할 수 있다. 예를 들어, 문장 분석기(200)는 고유 명사, 숫자, 숫자와 문자(일례로, 알파벳, 특수 문자 등)를 포함하는 워드(일례로, 계좌번호, 전화번호, 모델명), 타겟 언어로 표기된 워드, 사전(dictionary)에 등록되지 않은 워드, 및 이들 중 하나 이상을 포함하는 복합 명사/구(phrase) 중 적어도 하나에 해당하는 소스 워드를 선택할 수 있다.

예를 들어, 문장 분석기(200)는 위의 제1 소스 문장에서 숫자에 해당하는 "1990", "4,868,520", "2000", "4,019,991", 및 "3,829,998"을 선택할 수 있다. 문장 분석기(200)는 제2 소스 문장에서 고유 명사에 해당하는 "Hutton", "석미연", "Lee", 및 "Jihyun"을 선택할 수 있다. 또한, 문장 분석기(200)는 제2 소스 문장에서 숫자에 해당하는 "1000만"을 선택할 수 있다.

문장 분석기(200)는 선택된 소스 워드를 전처리할 수 있다(220). 문장 분석기(200)는 선택된 소스 워드의 표기를 변경할 수 있다. 예를 들어, 문장 분석기(200)는 고유 명사 "석미연"을 로마자화(Romanization)하여 "Seok MiYeon"으로 변경할 수 있고, "1000만"을 "10 million" 또는 "10,000,000"으로 변경할 수 있다. 또한, 문장 분석기(200)는 선택된 소스 워드들을 하나의 소스 워드로 처리할 수 있다. 예를 들어, 문장 분석기(200)는 "Lee" 및 "Jihyun"이 콤마(comma)없이 서로 인접한 소스 워드이므로, "Lee" 및 "Jihyun"을 하나의 소스 워드로 처리할 수 있다. 다시 말해, 문장 분석기(200)는 "Lee" 및 "Jihyun"을 하나의 소스 워드 "Lee Jihyun"으로 처리할 수 있다.

문장 분석기(200)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보를 포함하는 카피 리스트를 생성할 수 있다(230). 달리 표현하면, 문장 분석기(200)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성할 수 있다. 선택된 소스 워드가 전처리된 경우, 문장 분석기(200)는 선택된 소스 워드의 위치 정보와 전처리 결과를 서로 맵핑할 수 있다. 예를 들어, 문장 분석기(200)는 "석미연"의 전처리 결과인 "Seok MiYeon"과 "석미연"의 위치 정보 3을 서로 맵핑할 수 있고, "1000만"의 전처리 결과인 "10 million"을 "1000만"의 위치 정보 14와 맵핑할 수 있다. 또한, 문장 분석기(200)는 "Lee" 및 "Jihyun"의 전처리 결과인 "Lee Jihyun"을 "Lee"의 위치 정보 6과 "Jihyun"의 위치 정보 7을 맵핑할 수 있다.

아래 표 3은 제1 소스 문장에 대한 카피 리스트의 일례를 보여주고, 아래 표 4는 제2 소스 문장에 대한 카피 리스트의 일례를 보여준다.

위치 정보	소스 워드
7	1990
8	4,868,520
11	2000
12	4,019,991
17	3,829,998

위치 정보	소스 워드
1	Hutton
3	Seok MiYeon(전처리 결과)
6	Lee Jihyun(전처리 결과)
7	Lee Jihyun(전처리 결과)
14	10 million

후술하겠지만, 보정기(미도시)는 문장 분석기(200)가 생성한 카피 리스트를 이용할 수 있다.

도 3 내지 도 5는 일 실시예에 따른 번역기의 동작을 설명하기 위한 도면이다.

번역기는 소스 문장을 인코딩하는 인코더(310)와 인코딩 결과를 타겟 언어로 디코딩하는 디코더(330)를 포함하는 NMT(Neural Machine Translation) 모델일 수 있다. 여기서, 인코더(310) 및 디코더(330)는 뉴럴 네트워크(예를 들어, 재귀적 뉴럴 네트워크(Recurrent Neural Network, RNN))에 기반할 수 있다.

또한, NMT 모델의 번역기에는 소스 워드와 소스 워드에 대응되는 타겟 워드를 정렬(align)할 수 있는 기여도 메커니즘(attention mechanism)이 적용될 수 있다. 도 3에 도시된 예와 같이, 기여도 메커니즘이 적용된 번역기는 인코더(310) 및 디코더(330)와 타겟 워드를 결정하는데 사용되는 특징값들을 계산하는 중간 네트워크(320)를 포함할 수 있다. 이하, 도 4 및 5를 참조하면서, 기여도 메커니즘이 적용된 번역기의 동작에 대해서 설명한다.

도 4를 참조하면, 번역기는 소스 문장의 소스 워드들 x₁, x₂, ... , x_n 각각을 인코딩할 수 있다. x₁, x₂, ... , x_n에서 아래 첨자 1, 2, ... , n은 소스 워드의 위치 정보를 나타낸다. 소스 워드들의 인코딩 결과, 벡터들 h₁, h₂, ... , h_n이 생성될 수 있다. 벡터들 h₁, h₂, ... , h_n 각각은 실수 벡터일 수 있다.

소스 워드들이 인코딩되면, 번역기는 디코딩을 통해 타겟 워드들을 순차적으로 결정할 수 있다. 도 4에 도시된 예의 경우, 타겟 워드 y_t가 결정될 순서라 하자. 다시 말해, 현재 디코딩 시점이 t라 하자.

번역기는 특징값들 a_t,1, a_t,2, ... , a_t,n을 계산할 수 있다. 일 실시예에 있어서, 번역기는 이전 디코딩 시점의 타겟 워드 y_t _-1에 대한 RNN 히든 상태 정보 s_t- ₁와 벡터들 h₁, h₂, ... , h_n을 기초로 특징값들 a_t,1, a_t,2, ... , a_t,n을 계산할 수 있다. 예를 들어, 번역기는 s_t- ₁와 h₁을 기초로 a_t,1을 계산할 수 있고, a_t,1의 계산 방법과 유사하게 나머지 특징값들 a_t,2, ... , a_t,n을 계산할 수 있다.

특징값은 벡터(또는, 소스 워드)가 타겟 워드 y_t를 결정하는데 기여하는 정도를 나타낼 수 있다. 예를 들어, a_t,1는 h₁(또는, 위치 정보 1에 해당하는 소스 워드)이 타겟 워드 y_t를 결정하는데 기여하는 정도를 나타낼 수 있고, a_t,n는 h_n(또는, 위치 정보 n에 해당하는 소스 워드)이 타겟 워드 y_t를 결정하는데 기여하는 정도를 나타낼 수 있다.

특징값은 기여도(attention) 값으로 달리 표현될 수 있다.

번역기는 특징값들과 벡터들을 이용하여 컨텍스트(context) 벡터 c_t를 계산할 수 있다. 예를 들어, 번역기는 c_t=a_t,1×h₁+a_t,2×h₂+ ... +a_t,n×h_n로 계산할 수 있다.

번역기는 컨텍스트 벡터 c_t, 이전 디코딩 시점의 타겟 워드 y_t _-1에 대한 RNN 히든 상태 정보 s_t-1, 및 이전 디코딩 시점의 타겟 워드 y_t _- ₁를 기초로 현재 디코딩 시점의 RNN 히든 상태 정보 s_t를 결정할 수 있다. 번역기는 현재 디코딩 시점의 RNN 히든 상태 정보 s_t를 기초로 디코딩을 수행하여 타겟 워드 y_t를 결정할 수 있다.

도 5에 도시된 예에서, 제1 소스 문장(510)이 번역기에 입력된다고 하자. 번역기는 제1 소스 문장(510)의 소스 워드들 각각을 인코딩하여 벡터들 h₁, h₂, ... , h₁₉을 생성할 수 있다.

4개의 타겟 워드들 "After", "that", "콤마(,)", 및 "the"가 결정되었다고 할 때, 번역기는 5번째 타겟 워드를 결정할 순서이다. 다시 말해, 현재 디코딩 시점 t=5이다. 번역기는 특징값들 a_5,1, a_5, ₂, ... , a₅ _, ₁₉을 계산할 수 있다. 번역기는 벡터들 h₁, h₂, ... , h₁₉와 특징값들 a_5,1, a_5, ₂, ... , a₅ _, ₁₉을 이용하여 컨텍스트 벡터 c₅을 계산할 수 있다. 번역기는 컨텍스트 벡터 c₅, 이전 타겟 워드 "the"에 대한 RNN 히든 상태 정보, 및 이전 타겟 워드 "the"를 기초로 현재 디코딩 시점의 RNN 히든 상태 정보를 결정할 수 있다. 번역기는 현재 디코딩 시점의 RNN 히든 상태 정보를 기초로 디코딩을 수행하여 타겟 워드 "figure"를 결정할 수 있다. 여기서, 타겟 워드 "figure"를 결정하는데 벡터 h₃(달리 표현하면, 소스 워드 "수치는")의 기여도가 최대이다. 다시 말해, a_5,1, a_5, ₂, ... , a₅ _, ₁₉ 중에서 a_5,3이 최대 특징값에 해당한다.

번역기는 이후 디코딩 시점마다 타겟 워드를 결정할 수 있고, 타겟 워드들을 포함하는 타겟 문장을 완성할 수 있다.

도 6 내지 도 7은 일 실시예에 따른 보정기의 동작의 일례를 설명하기 위한 도면이다.

도 6을 참조하면, 현재 디코딩 시점 t에서 타겟 워드 y_t가 결정되었을 때의 보정기(600)의 동작이 도시된다. 보정기(600)는 타겟 워드 y_t에 대한 최대 특징값을 결정할 수 있다(610). 최대 특징값은 타겟 워드 y_t에 대한 특징값들 a_t,1, a_t,2, ... , a_t,n 중 최대값을 나타낸다. 보정기(600)는 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있는지 여부를 결정할 수 있다(620). 최대 특징값의 위치 정보는 최대 특징값의 계산에 이용된 벡터와 대응되는 소스 워드의 위치 정보를 나타낼 수 있다. 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있으면, 보정기(600)는 타겟 워드 y_t를 최대 특징값과 관련된 위치 정보와 맵핑된 소스 워드로 대체할 수 있다(630). 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있지 않으면, 보정기(600)는 타겟 워드 y_t를 유지할 수 있다(640). 달리 표현하면, 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있지 않으면, 보정기는 타겟 워드 y_t를 보정하지 않을 수 있다.

도 7에 도시된 예에서, 번역기가 디코딩 시점 5에서 타겟 워드 "figure"를 결정하였다고 하자(730). 보정기는 타겟 워드 "figure"에 대한 특징값들 a_5,1, a_5,2, ... , a_5, ₁₉ 중 최대값을 결정할 수 있다. 여기서, a_5,1, a_5, ₂, ... , a₅ _, ₁₉ 중 a_5,3이 최대값에 해당한다. 최대값에 대해선 도 5를 통해 설명하였으므로, 자세한 설명을 생략한다. 최대값이 결정되면, 보정기는 a_5,3의 위치 정보를 확인할 수 있다. 예를 들어, a_5,3 계산 시 벡터 h₃이 이용되었으므로, 보정기는 벡터 h₃에 대응되는 소스 워드의 위치 정보 3을 a_5,3의 위치 정보로 확인할 수 있다. 보정기는 위치 정보 3이 카피 리스트(720)에 포함되어 있는지 결정할 수 있다. 위치 정보 3은 카피 리스트(720)에 포함되어 있지 않으므로, 보정기는 타겟 워드 "figure"를 유지한다.

번역기가 디코딩 시점 6~9에서 순차적으로 타겟 워드를 결정하고, 디코딩 시점 10에서 타겟 워드 "486,820"를 결정하였고 하자(740). 보정기는 타겟 워드 "486,820"에 대한 특징값들 a_10,1, a_10, ₂, ... , a₁₀ _, ₁₉ 중 최대값을 결정할 수 있다. 번역기는 타겟 워드 "486,820"를 결정하는데 위치 정보 8에 해당하는 소스 워드 "4,868,520"에 가장 집중(focus)하였다. 다시 말해, a_10,1, a_10, ₂, ... , a₁₀ _, ₁₈ 중 a_10,8이 최대값에 해당한다. 최대값이 결정되면, 보정기는 a_10,8의 위치 정보 8이 카피 리스트(720)에 포함되어 있는지 여부를 결정할 수 있다. 위치 정보 8은 카피 리스트(720)에 포함되어 있으므로, 보정기는 타겟 워드 "486,820"를 카피 리스트 내의 위치 정보 8과 맵핑된 "4,868,520"로 대체할 수 있다.

번역기는 이후 디코딩 시점에서 타겟 워드를 결정할 수 있고, 보정기는 이후 디코딩 시점마다 타겟 워드를 보정하거나 보정하지 않을 수 있다.

타겟 워드들을 포함하는 타겟 문장(750)이 도시된다. 보정기에 의해 "486,820"이 "4,868,520"으로 대체되어, 타겟 문장(750)의 번역 오류가 감소할 수 있고 번역 정확도가 증가할 수 있다.

도 8 내지 도 9는 일 실시예에 따른 보정기의 동작의 다른 일례를 설명하기 위한 도면이다.

도 8을 참조하면, 타겟 문장이 완성되었을 때의 보정기(800)의 동작이 도시된다. 보정기(800)는 번역기로부터 타겟 문장 및 타겟 워드들 각각에 대한 최대 특징값을 수신할 수 있다. 보정기는 타겟 워드들이 미리 정해진 유형에 해당하는지 여부를 결정할 수 있다. 보정기는 미리 정해진 유형에 해당하는 하나 이상의 타겟 워드를 선택할 수 있다(810). 달리 표현하면, 보정기는 보정이 필요할 수 있는 하나 이상의 타겟 워드(또는, 구문)를 선택할 수 있다. 보정기는 선택된 하나 이상의 타겟 워드에 대한 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있는지 여부를 결정할 수 있다(820). 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있으면, 보정기는 선택된 타겟 워드를 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체할 수 있다(830). 최대 특징값의 위치 정보가 카피 리스트에 포함되어 있지 않으면, 보정기는 선택된 타겟 워드를 유지할 수 있다(840).

도 9에 도시된 예에서, 번역기(920)가 소스 문장(910)에 대응되는 타겟 문장(930)을 완성하면, 보정기는 타겟 문장(930)과 "Sukmyun"에 대한 최대 특징값 a_1,1 등타겟 워드들 각각에 대한 최대 특징값을 번역기로부터 수신할 수 있다. 최대 특징값에 대해 상술한 것과 같이, 위치 정보 1에 해당하는 소스 워드 "석미연은"이 "Sukmyun"을 결정하는데 가장 큰 기여를 하였으므로, "Sukmyun"에 대한 최대 특징값은 a_1,1에 해당한다.

보정기는 타겟 문장(930)에서 미리 정해진 유형(예를 들어, 고유 명사, 숫자 및 문자를 포함하는 워드, 사전에 등록되지 않은 워드, 또는 숫자 등)에 해당하는 타겟 워드를 선택할 수 있다. 보정기는 타겟 문장(930)에서 사전에 등록되지 않은 워드 또는 고유 명사에 해당하는 "Sukmyun"과 숫자에 해당하는 "100" 및 "million"을 선택할 수 있다.

보정기는 "Sukmyun"에 대한 최대 특징값 a_1,1, "100"에 대한 최대 특징값 a_8,8, 및 "million"에 대한 최대 특징값 a_9,8 각각의 위치 정보를 확인할 수 있다. 여기서, 보정기는 a_1,1의 위치 정보를 1로 확인하고, a_8,8 및 a_9,8 각각의 위치 정보를 8로 확인할 수 있다.

보정기는 위치 정보 1이 카피 리스트(940)에 포함되어 있는지 결정할 수 있다. 위치 정보 1은 카피 리스트(940)에 포함되어 있어, 보정기는 "Sukmyun"을 위치 정보 1과 맵핑된 "Seok MiYeon"으로 대체할 수 있다.

선택된 타겟 워드들 "100" 및 "million" 각각에 대한 최대 특징값의 위치 정보는 서로 동일할 수 있다. 도 9에 도시된 예와 같이, a_8,8 및 a_9,8 각각의 위치 정보는 8로 동일하다. 이 경우, 보정기는 해당 위치 정보가 카피 리스트(940)에 포함되어 있으면, 선택된 타겟 워드들을 해당 위치 정보와 맵핑된 소스 워드로 대체할 수 있다. 도 9에 도시된 예의 경우, 위치 정보 8은 카피 리스트(940)에 포함되어 있어, 보정기는 선택된 타겟 워드들을 순서대로 결합한 "100 million"을 위치 정보 8과 맵핑된 "10 million"으로 대체할 수 있다.

보정된 타겟 문장(950)이 도시된다. 소스 문장(910) 내의 고유 명사가 언노운(unknown) 워드로 처리된 경우 또는 소스 문장(910) 내의 고유 명사가 언노운(unknown) 워드로 처리되지 않았으나 정확하게 번역되지 못한 경우(예를 들어, 고유 명사 "석미연"이 언노운(unknown) 워드가 아닌 "Sukmyun"으로 번역된 경우), 보정된 타겟 문장(950)은 소스 문장(910) 내의 고유 명사(또는, 전처리된 고유 명사)를 그대로 포함할 수 있다. 이에 따라, 번역 정확도가 증가할 수 있고, 번역 오류가 감소할 수 있다.

도 10은 일 실시예에 따른 번역 시스템의 동작의 다른 일례를 설명하기 위한 도면이다.

일 실시예에 따른 번역 시스템은 워드 단위로 구성된 원(original) 소스 문장을 서브 워드 단위의 소스 문장으로 변환할 수 있다. 예를 들어, 번역 시스템은 원 소스 워드 "Hutton"을 서브 소스 워드들 "H@@" "u@@" "tt@@", 및 "on"로 분할할 수 있다. 이에 따라, 원 소스 문장 "친애하는 Hutton에게, 귀하의 주문 ..."는 소스 문장(1010) "친애하는 H@@ u@@ tt@@ on에게, 귀하의 주문 ..."로 변환될 수 있다.

서브 소스 워드들 "H@@", "u@@", 및 "tt@@"는 서브 워드임을 나타내는 태그(tag) "@"를 포함할 수 있고, 서브 소스 워드 "on"은 태그를 포함하지 않을 수 있다. 서브 소스 워드 "on"은 원 소스 워드 "Hutton"의 마지막 서브 소스 워드이므로, 태그를 포함하지 않을 수 있다.

문장 분석기(1020)는 전처리를 통해 서브 워드 단위의 소스 문장(1010)을 워드 단위의 문장으로 변환할 수 있다. 달리 표현하면, 문장 분석기(1020)는 전처리를 통해 서브 소스 워드들을 결합하여 단일 소스 워드를 생성할 수 있다. 예를 들어, 문장 분석기(1020)는 서브 소스 워드들 "H@@", "u@@", "tt@@", 및 "on"을 결합하여 단일 소스 워드 "Hutton"을 생성할 수 있다.

문장 분석기(1020)는 단일 소스 워드가 미리 정해진 유형에 해당하는지 결정할 수 있다. 문장 분석기(1020)는 단일 소스 워드가 미리 정해진 유형에 해당하면, 서브 소스 워드들 각각의 위치 정보를 단일 소스 워드와 맵핑할 수 있다. 예를 들어, 문장 분석기(200)는 "H@@"의 위치 정보 2, "u@@"의 위치 정보 3, "tt@@"의 위치 정보 4, 및 "on"의 위치 정보 5를 "Hutton"와 맵핑할 수 있다. 문장 분석기(1020)는 서브 소스 워드들 각각의 위치 정보와 단일 소스 워드가 서로 맵핑된 카피 리스트를 생성할 수 있다. 아래 표 5는 소스 문장(1010)에 대한 카피 리스트의 일례를 보여준다.

위치 정보	소스 워드
2	Hutton
3	Hutton
4	Hutton
5	Hutton

번역기는 서브 소스 워드들을 포함하는 소스 문장(1010)을 인코딩할 수 있다. 예를 들어, 번역기는 서브 워드 레벨의 NMT 모델일 수 있다.

번역기는 첫 번째 타겟 워드 "Dear"가 결정된 후 두 번째 타겟 워드를 결정하기 위해 특징값들 a_2,1,a_2, ₂, ... , a_2,n를 계산할 수 있다. 서브 소스 워드 "H@@"는 태그를 포함하므로, 두 번째 타겟 워드는 태그를 포함할 수 있다. 다시 말해, 두 번째 타겟 워드는 서브 워드 단위인 서브 타겟 워드에 해당할 수 있다. 두 번째 타겟 워드, 즉, 첫 번째로 결정된 서브 타겟 워드 sub1이 "H@@"라 하자. 이와 같은 방식으로, 번역기는 서브 타겟 워드들 sub2 내지 sub4를 순차적으로 결정할 수 있다. sub2를 "u@@"라 하고, sub3를 "tch@@"라 하며, sub4를 "et"라 하자.

여기서, "H@@"에 대한 특징값들 a_2,1,a_2, ₂, ... , a_2,n 중 a_2,2가 최대 특징값에 해당하고, 서브 타겟 워드 "u@@"에 대한 특징값들 a_3,1,a_3, ₂, ..., a_3,n 중 a_3,3이 최대 특징값에 해당한다. 또한, 서브 타겟 워드 "tch@@"에 대한 특징값들 a_4,1,a_4,2, ... , a_4,n 중 a_4, ₄이 최대 특징값에 해당하고, 서브 타겟 워드 "et"에 대한 특징값들 a_5,1,a_5, ₂, ... , a_5,n 중 a_5, ₅이 최대 특징값에 해당한다. 특징값들 중 어떤 것이 최대 특징값에 해당하는지에 대해선 위에서 설명하였으므로, 자세한 설명을 생략한다.

번역기는 결정된 서브 타겟 워드들을 통해 타겟 워드를 결정할 수 있다. 도 10에 도시된 예의 경우, 디코딩이 정확하지 못하여 서브 타겟 워드들 "H@@", "u@@", "tch@@", 및 "et"가 결정된다. 이로 인해, 원 소스 워드와 일치하지 않은 타겟 워드 "Hutchet"가 결정될 수 있다. 다시 말해, 번역 오류가 발생할 수 있다.

보정기는 서브 타겟 워드들을 통해 타겟 워드가 결정되었을 때 동작하거나 타겟 문장이 완성되었을 때 동작할 수 있다. 먼저, 서브 타겟 워드들을 통해 타겟 워드가 결정되었을 때의 보정기의 동작에 대해 설명한다.

일 실시예에 있어서, 보정기는 타겟 워드 "Hutchet"이 결정되면, 서브 타겟 워드들 각각에 대한 최대 특징값과 관련된 위치 정보가 카피 리스트에 있는지 여부를 기초로 타겟 워드 "Hutchet"를 보정할 수 있다. 도 10에 도시된 카피 리스트를 참조하면, a_2,2의 위치 정보 2, a_3,3의 위치 정보 3, a_4,4의 위치 정보 4, 및 a_5,5의 위치 정보 5는 카피 리스트에 포함되어 있다. 이 경우, 보정기는 타겟 워드 "Hutchet"를 "Hutton"으로 대체할 수 있다.

구현에 따라, 보정기는 서브 타겟 워드들 각각에 대한 최대 특징값에서 대표값을 결정할 수 있다. 달리 표현하면, 보정기는 서브 타겟 워드들 각각에 대한 최대 특징값에서 어느 하나를 선택할 수 있다. 보정기는 대표값의 위치 정보가 카피 리스트에 포함되어 있는지 결정할 수 있다. 보정기는 대표값의 위치 정보가 카피 리스트에 포함되어 있으면, 타겟 워드를 대표값의 위치 정보에 맵핑된 소스 워드로 대체할 수 있다. 도 10에 도시된 예에서, 보정기는 a_2,2, a_3,3, a_4,4, 및 a_5, ₅ 중에서 대표값을 결정할 수 있다. 일례로, 보정기는 a_2,2, a_3,3, a_4,4, 및 a_5, ₅ 중 가장 큰 값 또는 평균에 가장 가까운 값을 대표값으로 결정할 수 있다. 보정기는 a_2,2를 대표값으로 결정한다고 하자. 보정기는 a_2,2의 위치 정보 2가 카피 리스트에 포함되어 있는지 결정할 수 있다. 위치 정보 2가 카피 리스트에 포함되어 있으므로, 보정기는 타겟 워드 "Hutchet"를 위치 정보 2와 맵핑된 소스 워드 "Hutton"으로 대체할 수 있다.

원 소스 워드 "Hutton"이 타겟 문장에 포함될 수 있어, 번역 오류가 감소할 수 있다.

여기까지가 서브 타겟 워드들을 통해 타겟 워드가 결정되었을 때의 보정기의 동작에 대해 설명이다. 이하, 타겟 문장이 완성되었을 때의 보정기의 동작에 대해 설명한다.

다른 실시예에 있어서, 보정기는 타겟 문장이 완성되었을 때 동작할 수 있다. 타겟 문장이 "Dear H@@ u@@ tch@@ et, your order ..."라 하자.

보정기는 서브 워드 기반의 타겟 문장을 워드 기반의 문장으로 변환할 수 있다. 예를 들어, 보정기는 "H@@", "u@@", "tc@@", 및 "et"를 통해 "Hutchet"를 결정하여, "Dear H@@ u@@ tch@@ et, your order ..."를 "Dear Hutchet, your order ..."로 변환할 수 있다.

보정기는 변환된 타겟 문장에서 미리 정해진 유형에 해당하는 타겟 워드를 선택할 수 있다. 예를 들어, 보정기는 변환된 타겟 문장에서 사전에 등록되지 않은 워드(또는 고유 명사)에 해당하는 "Hutchet"를 선택할 수 있다. 보정기의 이후 동작에 대한 설명은 서브 타겟 워드들을 통해 타겟 워드가 결정되었을 때의 보정기의 동작에 대한 설명이 적용될 수 있어, 상세한 설명을 생략한다.

구현에 따라, 번역 시스템은 문자 단위의 소스 문장을 입력받을 수 있다. 문자 단위의 소스 문장의 경우, 소스 워드들 각각의 마지막 문자에 태그가 위치하거나 띄어쓰기(word spacing)에 태그가 위치할 수 있다. 소스 워드들 각각의 마지막 문자에 태그가 위치하는 경우는, 예를 들어, "친애하는@ Hutton@에게@, 귀하@의@ 주문@ ..."일 수 있고, 띄어쓰기에 태그가 위치하는 경우는, 예를 들어, "친애하는@Hutton에게,@귀하의@주문@..."일 수 있다. 문자 단위의 소스 문장이 번역 시스템에 입력된 경우, 도 10을 통해 설명한 번역 시스템의 동작이 적용될 수 있어, 자세한 설명을 생략한다.

도 11은 일 실시예에 따른 번역 보정 장치를 설명하기 위한 블록도이다.

도 11을 참조하면, 일 실시예에 따른 번역 보정 장치(1100)는 컨트롤러(1110) 및 메모리(1120)를 포함한다.

메모리(1120)는 컨트롤러(1100)에 의해 실행 가능한 적어도 하나의 명령어를 포함한다.

적어도 하나의 명령어가 컨트롤러(1110)에서 실행되면, 컨트롤러(1110)는 소스 문장에서 소스 워드를 선택한다. 또한, 컨트롤러(1110)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성한다. 또한, 컨트롤러(1110)는 타겟 워드에 대한 특징값들 중 적어도 하나와 관련된 위치 정보 및 맵핑 정보를 기초로 타겟 워드를 보정한다.

도 1 내지 도 10을 통해 기술된 사항들은 도 11을 통해 기술된 사항들에 적용될 수 있으므로, 상세한 설명을 생략한다.

도 12는 일 실시예에 따른 번역 보정 방법의 일례를 설명하기 위한 순서도이다.

도 12를 통해 설명되는 번역 보정 방법은 번역 보정 장치 또는 번역 시스템에 의해 수행될 수 있다.

도 12를 참조하면, 번역 보정 장치(또는 번역 시스템)는 소스 문장에서 소스 워드를 선택한다(1210).

번역 보정 장치(또는 번역 시스템)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성한다(1220).

번역 보정 장치(또는 번역 시스템)는 타겟 워드에 대한 특징값들 중 적어도 하나와 관련된 위치 정보 및 맵핑 정보를 기초로 타겟 워드를 보정한다(1230).

도 1 내지 도 11을 통해 기술된 사항들은 도 12를 통해 기술된 사항들에 적용될 수 있으므로, 상세한 설명을 생략한다.

도 13은 일 실시예에 따른 번역 보정 방법의 다른 일례를 설명하기 위한 순서도이다.

도 13을 통해 설명되는 번역 보정 방법은 번역 보정 장치 또는 번역 시스템에 의해 수행될 수 있다.

번역 보정 장치(또는 번역 시스템)는 소스 문장에서 소스 워드를 선택한다(1310).

번역 보정 장치(또는 번역 시스템)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성한다(1320).

번역 보정 장치(또는 번역 시스템)는 번역기를 통해 타겟 워드를 결정한다(1330).

번역 보정 장치(또는 번역 시스템)는 타겟 워드에 대한 특징값들 중 적어도 하나와 관련된 위치 정보가 맵핑 정보에 포함되어 있는지 여부를 기초로 타겟 워드를 보정한다(1340).

도 1 내지 도 12를 통해 기술된 사항들은 도 13을 통해 기술된 사항들에 적용될 수 있으므로, 상세한 설명을 생략한다.

도 14는 일 실시예에 따른 번역 보정 방법의 또 다른 일례를 설명하기 위한 순서도이다.

도 14를 통해 설명되는 번역 보정 방법은 번역 보정 장치 또는 번역 시스템에 의해 수행될 수 있다.

번역 보정 장치(또는 번역 시스템)는 소스 문장에서 소스 워드를 선택한다(1410).

번역 보정 장치(또는 번역 시스템)는 선택된 소스 워드와 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성한다(1420).

번역 보정 장치(또는 번역 시스템)는 번역기를 통해 타겟 문장을 완성한다(1430).

번역 보정 장치(또는 번역 시스템)는 타겟 문장에서 선택된 타겟 워드에 대한 특징값들 중 적어도 하나와 관련된 위치 정보가 맵핑 정보에 포함되어 있는지 여부를 기초로, 선택된 타겟 워드를 보정한다(1440).

도 1 내지 도 11 통해 기술된 사항들은 도 14를 통해 기술된 사항들에 적용될 수 있으므로, 상세한 설명을 생략한다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

번역 보정 장치에 의해 수행되는 번역 보정 방법에 있어서,
소스 문장에서 소스 워드를 선택하는 단계;
상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하는 단계; 및
타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 타겟 워드를 보정하는 단계
를 포함하고,
상기 보정하는 단계는,
상기 특징값들 중 최대값의 위치 정보가 상기 맵핑 정보 상의 상기 선택된 소스 워드의 위치 정보와 동일한지 확인하고, 상기 최대값의 위치 정보가 상기 선택된 소스 워드의 위치 정보와 동일한 것으로 확인한 경우 상기 타겟 워드를 상기 선택된 소스 워드로 대체하는 단계
를 포함하는,
번역 보정 방법.
삭제
제1항에 있어서,
상기 타겟 워드를 보정하는 단계는,
서브 타겟 워드들을 기초로 상기 타겟 워드가 결정된 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값을 결정하는 단계;
각 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 각 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계
를 포함하는,
번역 보정 방법.
제1항에 있어서,
상기 타겟 워드를 보정하는 단계는,
상기 소스 문장에 대응되는 타겟 문장에서 미리 정해진 유형에 해당하는 타겟 워드를 선택하는 단계;
상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하는 단계; 및
상기 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계
를 포함하는,
번역 보정 방법.
제1항에 있어서,
상기 타겟 워드를 보정하는 단계는,
상기 소스 문장에 대응되는 타겟 문장의 서브 타겟 워드들을 기초로 타겟 워드를 결정하는 단계:
상기 결정된 타겟 워드가 미리 정해진 유형에 해당하는 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값에서 대표값을 결정하는 단계;
상기 대표값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하는 단계; 및
상기 대표값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 결정된 타겟 워드를 상기 대표값의 위치 정보와 맵핑된 소스 워드로 대체하는 단계
를 포함하는,
번역 보정 방법.
제1항에 있어서,
상기 선택된 소스 워드는,
고유 명사, 숫자, 숫자와 문자를 포함하는 워드, 타겟 언어로 표기된 워드, 사전(dictionary)에 등록되지 않은 워드, 및 이들 중 하나 이상을 포함하는 구(phrase) 중 어느 하나에 해당하는,
번역 보정 방법.
제1항에 있어서,
상기 선택된 소스 워드를 전처리하는 단계
를 더 포함하는,
번역 보정 방법.
제7항에 있어서,
상기 선택된 소스 워드를 전처리하는 단계는,
상기 선택된 소스 워드의 표기를 변경하는 단계
를 포함하는,
번역 보정 방법.
제1항에 있어서,
상기 소스 문장이 서브 워드 레벨 또는 문자 레벨의 문장인 경우, 상기 소스 문장 내의 서브 소스 워드들 또는 서브 소스 문자들을 단일 소스 워드로 변환하는 단계
를 더 포함하는,
번역 보정 방법.
제9항에 있어서,
상기 맵핑 정보를 생성하는 단계는,
상기 단일 소스 워드가 미리 정해진 유형에 해당하는 경우, 상기 소스 문장에서의 상기 서브 소스 워드들 또는 상기 서브 소스 문자들 각각의 위치 정보를 상기 단일 소스 워드와 맵핑하는 단계
를 포함하는,
번역 보정 방법.
하드웨어와 결합되어 제1항 및 제3항 내지 제10항 중에서 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
컨트롤러; 및
상기 컨트롤러에 의해 실행 가능한 적어도 하나의 명령어를 포함하는 메모리
를 포함하고,
상기 적어도 하나의 명령어가 상기 컨트롤러에서 실행되면, 상기 컨트롤러는 소스 문장에서 소스 워드를 선택하고, 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하며, 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 타겟 워드를 보정하고,
상기 컨트롤러는,
상기 특징값들 중 최대값의 위치 정보가 상기 맵핑 정보 상의 상기 선택된 소스 워드의 위치 정보와 동일한지 확인하고, 상기 최대값의 위치 정보가 상기 선택된 소스 워드의 위치 정보와 동일한 것으로 확인한 경우 상기 타겟 워드를 상기 선택된 소스 워드로 대체하는,
번역 보정 장치.
삭제
제12항에 있어서,
상기 컨트롤러는,
서브 타겟 워드들을 기초로 상기 타겟 워드가 결정된 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값을 결정하고, 각 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 타겟 워드를 상기 각 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는,
번역 보정 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 소스 문장에 대응되는 타겟 문장에서 미리 정해진 유형에 해당하는 타겟 워드가 선택되는 경우, 상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하고, 상기 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는,
번역 보정 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 소스 문장에 대응되는 타겟 문장의 서브 타겟 워드들을 기초로 타겟 워드를 결정하고, 상기 결정된 타겟 워드가 미리 정해진 유형에 해당하는 경우, 상기 서브 타겟 워드들 각각에 대한 최대 특징값에서 대표값을 결정하며, 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함되어 있는지 여부를 결정하고, 상기 대표값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 결정된 타겟 워드를 상기 대표값의 위치 정보와 맵핑된 소스 워드로 대체하는,
번역 보정 장치.
제12항에 있어서,
상기 선택된 소스 워드는,
고유 명사, 숫자, 숫자와 문자를 포함하는 워드, 타겟 언어로 표기된 워드, 사전(dictionary)에 등록되지 않은 워드, 및 이들 중 하나 이상을 포함하는 구(phrase) 중 어느 하나에 해당하는,
번역 보정 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 선택된 소스 워드를 전처리하는,
번역 보정 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 선택된 소스 워드의 표기를 변경하는,
번역 보정 장치.
제12항에 있어서,
상기 컨트롤러는,
상기 소스 문장이 서브 워드 레벨 또는 문자 레벨의 문장인 경우, 상기 소스 문장 내의 서브 소스 워드들 또는 서브 소스 문자들을 단일 소스 워드로 변환하는,
번역 보정 장치.
제20항에 있어서,
상기 컨트롤러는,
상기 단일 소스 워드가 미리 정해진 유형에 해당하는 경우, 상기 소스 문장에서의 상기 서브 소스 워드들 또는 상기 서브 소스 문자들 각각의 위치 정보를 상기 단일 소스 워드와 맵핑하는,
번역 보정 장치.
소스 문장에서 소스 워드를 선택하고, 상기 선택된 소스 워드와 상기 소스 문장에서의 상기 선택된 소스 워드의 위치 정보가 서로 맵핑된 맵핑 정보를 생성하는 문장 분석기;
상기 소스 문장을 기초로 타겟 워드들을 결정하고, 상기 타겟 워드들을 포함하는 타겟 문장을 완성하는 번역기; 및
상기 타겟 워드들 각각이 결정될 때 마다, 결정된 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 결정된 타겟 워드를 보정할 지 여부를 결정하는 제1 동작 또는 상기 타겟 문장이 완성된 경우, 상기 타겟 문장에서 선택된 타겟 워드에 대한 특징값들 중 적어도 하나의 위치 정보 및 상기 맵핑 정보를 기초로 상기 선택된 타겟 워드를 보정할 지 여부를 결정하는 제2 동작을 수행하는 보정기
를 포함하고,
상기 제1 동작을 수행한 경우, 상기 보정기는,
상기 결정된 타겟 워드에 대한 특징값들 중 최대값의 위치 정보가 상기 맵핑 정보 상의 상기 선택된 소스 워드의 위치 정보와 동일한지 확인하고, 상기 최대값의 위치 정보가 상기 선택된 소스 워드의 위치 정보와 동일한 것으로 확인한 경우 상기 타겟 워드를 상기 선택된 소스 워드로 대체하는,
번역 시스템.
삭제
제22항에 있어서,
상기 제2 동작을 수행한 경우, 상기 보정기는,
상기 선택된 타겟 워드에 대한 최대 특징값의 위치 정보가 상기 맵핑 정보에 포함된 경우, 상기 선택된 타겟 워드를 상기 최대 특징값의 위치 정보와 맵핑된 소스 워드로 대체하는,
번역 시스템.