KR20130022473A

KR20130022473A - 대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법

Info

Publication number: KR20130022473A
Application number: KR1020110084729A
Authority: KR
Inventors: 이기영; 최승권; 노윤형; 권오욱; 김영길
Original assignee: 한국전자통신연구원
Priority date: 2011-08-24
Filing date: 2011-08-24
Publication date: 2013-03-07

Abstract

대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법이 개시된다. 대화체 자동 번역 장치는 원시언어에서 중의성을 가진 어휘의 모호성을 해소하기 위해 동적 문맥 윈도우를 설정하여 대화 상의 윈도우를 정하고 윈도우 내에서 사용할 대역어 선택 단서를 정의하고 정의된 대역어 선택 단서를 미리 구축된 공기어휘 확률정보 데이터베이스로부터 추출하여 동적 문맥 윈도우 내의 정보를 저장하고, 이를 기반으로 하여 원시 언어의 모호성 어휘에 대한 목적 언어의 대역어를 결정하는 방법을 사용하여 대화체 문장에서 중의적 의미를 가진 어휘의 모호성 해소를 향상시킨다.
또한, 공기어휘 확률정보 데이터베이스는 모호성 어휘와 특정 공기 어휘, 목적 언어의 특정 대역어로 번역될 확률을 구하고 그 확률 정보를 구축하여 자동 번역 장치가 어휘의 모호성 해소를 향상시킬 수 있게 한다.

Description

대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법{METHOD FOR SELECTING TARGET WORD IN DIALOGUE AUTOMATIC TRANSLATION}

본 발명은 자동 번역에 관한 것으로, 더욱 상세하게는 대화체 자동 번역에서 번역의 모호성을 지니는 원시언어 어휘의 대역어 선택 정확도를 향상시킬 수 있는 어휘 대역어를 선택하는 방법에 관한 것이다.

어휘 대역어 선택은, 원시언어 문장을 목적언어 문장으로 번역할 때 원시언어 어휘가 목적언어에서 중의성을 가진 어휘인 경우, 주변 문맥을 고려하여 원문이 가지는 의미를 손실하지 않고 부합되는 목적언어 어휘를 선택하는 기술이다. 어휘 대역어 선택은 원문이 가진 의미가 잘 전달될 수 있도록 원문에서 중의성을 가진 어휘가 번역될 수 있는 어휘 대역어 후보들 가운데 문맥에 부합되는 어휘 대역어를 선택하는 것을 목표로 한다.

일반적으로, 기존의 문서 자동 번역 장치에서 어휘 대역어 선택은 원시언어 문장 내의 있는 단서를 사용하여 목적언어 어휘의 중의성을 해소한다. 사용되는 단서로는 의미를 포함한 격틀(case frame)이나 공기어휘(co-occuring word), 연어(collocation), 상황정보(situation), 품사(part of speech) 및 번역 도메인 등이 있는데, 기존의 자동 번역 장치는 이 가운데 일부만을 사용하고 있다.

대화체 자동 번역 장치는 네트워크 상의 온라인 대화, 스마트폰에서 구현될 수 있는 소셜 네트워킹 장치 상에서의 대화 및 자동 번역 장치에서의 대화 등을 번역 대상으로 한다. 온라인 대화는 기존의 문서 자동 번역 장치가 대상으로 한 문어체와는 달리 대화체적인 특성을 지닌다. 이러한 대화체적인 문장의 특성은 비문법적이고, 문장요소의 생략현상이 빈번하고, 문장이 짧다는 것 등이다. 따라서, 기존의 문서 자동 번역 장치에서 접근했던 어휘 대역어 선택 방법은 상대적으로 문장의 길이가 짧은 대화체의 경우 적용할 수 있는 단서가 제한되거나 적기 때문에, 문맥에 맞는 어휘 대역어를 선택하지 못하는 경우가 발생되므로, 대화체 자동 번역 장치에서 중의성을 지니는 원시언어 어휘에 부합되는 않는 목적언어 어휘 대역어를 선택하는 단점이 있다.

상기의 단점을 극복하기 위한 본 발명의 목적은 대화체 자동 번역시 중의성을 지닌 원시어휘에 대한 어휘 대역어 선택의 정확도를 향상시킬 수 있는 대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 본 발명의 목적을 달성하기 위한 대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법은, 제공된 복수의 대화체 문장에서 특정 어휘의 대역어를 선택하기 위해 참조 문맥의 범위를 설정하는 단계와, 상기 설정된 참조 문맥의 범위 내에서 대역어 선택을 위한 단서를 정의하는 단계, 미리 구축된 공기어휘 확률정보 데이터베이스로부터 상기 단서에 대응되는 적어도 하나의 대역어 각각에 대한 대역어 선택 확률을 획득하는 단계와, 상기 획득한 대역어 선택 확률에 기초하여 상기 특정 어휘의 대역어를 선택하는 단계를 포함하는 대화체의 대역어 선택방법을 포함한다.

상술한 본 발명의 목적을 달성하기 위한 본 발명의 일측면에 따른 대화체 자동 번역 장치에서 어휘 대역어를 선택하는 방법은, 대화체 문장에서 중의적 의미를 지닌 어휘의 모호성을 해소하기 위해 참조 문맥의 범위를 설정하고 그 범위 내에서 대역어 선택을 위한 단서를 정의하고, 대역어 선택의 정확도를 높이기 위해 미리 공기어휘 확률정보 데이터베이스를 구축한 후, 공기어휘 확률정보 데이터베이스에서 단서에 대한 대역어 선택 확률값을 획득하여, 모호성을 해소하는 대역어를 선택하는 방법을 사용한다.

따라서, 중의성을 해소하는 대역어 선택의 단서가 부족한 대화체 자동 번역에서, 대역어 선택의 정확도를 향상시키는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 대화체 자동 번역 장치의 대역어 선택 방법을 나타내는 개념도이다.
도 2는 도 1에 표시된 어휘 대역어 선택 과정을 나타내는 흐름도이다.
도 3은 도 1에 도시한 동적 문맥 윈도우에 저장될 수 있는 정보를 나타내는 개념도이다.
도 4는 본 발명의 실시예에 따른 공기어휘 확률정보 데이터베이스가 모호성 어휘의 대역어 선택에 필요한 공기어휘 및 그 확률값을 학습하는 개념도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 대화체 자동 번역 장치의 대역어 선택 방법을 나타낸 개념도이다. 도 1에서는 온라인 대화 진행 중 중의성을 지닌 어휘가 포함된 원시언어 문장의 번역을 수행하는 자동 번역 장치(101)를 예를 들어 도시하였으며, 두 명의 화자(즉, A1 및 B1)가 대화하기 시작한 시점부터 한 문장씩 번역을 수행하는 것을 예를 들어 도시하였다.

도 1을 참조하면, 본 발명의 실시예에 따른 자동 번역 장치(101)는 원시어휘 분석모듈(102), 구조 및 어휘 변환모듈(103)과 목적언어 생성모듈(104)을 포함할 수 있다.

원시어휘 분석모듈(102)은 제공된 원시언어 문장으로부터 문장을 구성하는 각 어휘의 품사를 추정하고 각 어휘간 구조적 관계를 결정한 후, 그 결과를 구조 및 어휘 변환모듈(103)에 제공할 수 있다.

구조 및 어휘 변환모듈(103)은 원시어휘 분석모듈(102)에서 제공받은 구조적 관계를 목적언어의 구조에 맞게 변환하고, 사전(105)을 참조하여 어휘 변환을 수행한 후, 처리 결과를 목적언어 생성모듈(104)에 제공할 수 있다.

구체적으로, 상기 구조 및 어휘 변환모듈(103)은 모호성 어휘의 변환을 수행하기 위하여 대화가 시작한 시점에 동적 문맥 윈도우(110)를 설정하고, 설정된 동적 문맥 윈도우(110)에 포함된 복수의 문장들 중 특정 대역어로 번역될 때 필요한 단서(clue)와 확률값을 저장할 수 있는데, 여기서, 상기 단서와 확률값은 앞으로 설명될, 공기어휘 확률정보 데이터베이스(111)로부터 획득할 수 있다. 즉, 모호성 어휘와 해당 모호성 어휘가 다양한 공기어휘와 함께 나타날 때 특정 대역어로 번역될 확률값은 공기어휘 확률정보 데이터베이스(111)에서 획득될 수 있다는 것이다.

동적 문맥 윈도우(110)에는 번역 대상 문장을 중심으로 참조 문맥을 지정하고 참조 문맥 내에 등장하는 선택 단서(clue)들이 정보로 저장되는데, 구조 및 어휘 변환모듈(103)은 상기 저장된 정보를 기반으로 하여 모호성 어휘의 대역어를 선택한다. 대화가 진행되면 동적 문맥 윈도우(110)는 참조문맥의 범위에 따라 동적으로 변화되고, 참조문맥을 벗어난 정보는 삭제하는 등 동적 문맥 윈도우 내 정보를 수정할 수 있다.

목적언어 생성모듈(104)은 구조 및 어휘 변환모듈(103)에서 제공받은 변환결과를 사용하여 목적언어의 문법에 맞게 최종 번역문을 생성한다.

도 1에 도시된 자동 번역 장치의 대화체 문장의 대역어 선택 과정을 구체적인 예를 들어 설명하면, 입력된 문장(107)을 번역 중인 자동 번역 장치(101)가 A6(Do you have a form? )를 번역할 때 사전(105)을 검색하면, form은 형태와 양식(106)의 2가지 의미로 검색된다. 따라서, 자동 번역 장치(101)는 form을 모호성 어휘로 판단하고 문장 A6 내의 단서(clue)를 조사한다. 그렇지만 A6에는 form의 모호성을 해소할 단서가 없으므로, 자동 번역 장치(101)는 form의 대역어를 결정하기 위해 대화 상의 윈도우, 즉 참조 문맥 내 등장하는 단서(clue)인 공기어휘(savings account, money, deposit)와 그 부가정보 등을 동적 문맥 윈도우(110) 내에 저장한다. 자동 번역 장치(101)는 동적 문맥 윈도우(110) 내에 단서와 정보를 사용하여 A6에 등장하는 모호성 어휘 form의 대역어 양식을 결정할 수 있다.

도 2는 도 1에 표시된 어휘 대역어 선택 과정을 나타내는 흐름도이다.

도 2를 참조하면, 자동 번역 장치는 입력된 복수의 문장에 대해 미리 설정된 기준에 따라 동적 문맥 윈도우를 설정한다(단계 201).

이후, 자동 번역 장치는 입력된 복수의 문장 각각에 대해 문장의 구조를 변환한 후(단계 203), 변환된 결과에 대해 사전을 참조하여 원시언어 어휘의 모호성을 판단한다(단계 205). 여기서, 자동 번역 장치는 사전을 참조한 결과 변환된 문장에 포함된 각 단어의 대역어가 하나 이상 존재하는 경우 해당 단어를 모호성 어휘로 판단할 수 있다.

자동 번역 장치가 해당 어휘를 모호성 어휘가 아니라고 판단하면 해당 어휘를 사전에서 참조한 어휘로 변환하고 수행을 종료하고(단계 207), 해당 어휘를 모호성 어휘라고 판단하면 모호성 어휘의 대역어 설정을 위해 참조 문맥의 범위를 설정한다(단계 209).

자동 번역 장치가 참조 문맥 범위에서 단서(clue)를 선택하고(단계 211), 선택된 단서(clue)에 대응되는 대역어와 확률정보를 미리 구축되어 있는 공기어휘 확률정보 데이터베이스에서 획득한다(단계 213). 이후, 자동 번역 장치는 참조 문맥 범위의 단서(clue)와 공기어휘 확률정보 데이터베이스 내의 확률정보를 동적 문맥 윈도우에 저장하여(단계 215), 동적 문맥 윈도우에 저장된 단서와 확률정보를 사용하여 어휘 대역어를 선택한다(단계 217).

도 3은 도 1과 도 2에 도시한 동적 문맥 윈도우에 저장될 수 있는 정보를 나타내는 개념도이다. 동적 문맥 윈도우(110)에는 도 3과 같은 다양한 정보가 나타난다.

도 3을 참조하면, 대화가 진행되면서 대화 윈도우의 크기(109), 즉 참조 문맥이 변함에 따라 동적 문맥 윈도우에 저장되어 있는 정보도 수정된다. 즉, 윈도우 크기(109)를 벗어난 정보들은 삭제되고, 윈도우 내에 새롭게 등장하는 정보들은 공기어휘 확률정보 데이터베이스(111)를 참조하여 저장될 수 있다.

도 3에서 동적 문맥 윈도우 데이터베이스에는 윈도우 내 평균거리, 윈도우 내 평균빈도, 모호성 어휘가 특정 공기어휘와 함께 나타날 때 특정 대역어로 번역될 확률 정보가 포함되며, 이러한 정보는 모호성 어휘의 대역어를 결정하는데 있어서 중요한 인자로 사용된다. 예를 들어, 모호성 어휘 H와 공기어휘 J가 함께 나타날 때, 대역어 K로 번역될 가능성은 공기어휘가 J일 때 대역어 K로 번역될 확률과, 모호성 어휘 H가 포함된 문장으로부터의 거리 가중치와 빈도 가중치의 곱에 의해 결정될 수 있다. 거리 가중치 및 빈도 가중치는 도 3에서 각각 윈도우 내 평균거리(여기서 윈도우 내 평균 거리는 모호성 어휘가 포함된 문장과 해당 단서가 등장하는 문장간의 거리를 의미한다) 및 윈도우 내 발생빈도에 기반한 가중치 값으로서 실험 및 휴리스틱에 의해 최적으로 산출할 수 있다.

도 4는 본 발명의 실시예에 따른 공기어휘 확률정보 데이터베이스가 모호성 어휘의 대역어 선택에 필요한 공기어휘 및 그 확률값을 학습하는 개념도이다.

도 4를 참조하면, 원시언어 말뭉치(301)에서 모호성 어휘 V의 공기어휘목록(302)을 추출한다. 모호성 어휘 V의 공기어휘목록(302)에서 변별력이 떨어지는 공기어휘를 제거하여 의미있는 공기어휘의 집합인 모호성 어휘 V의 유효한 공기어휘목록(303)를 추출하는데, 이때, 공기어휘를 제거하는 방법은 상호정보(Mutual Information)를 비롯하여 다양한 방법이 사용될 수 있고, 극단적인 예로는 the, a와 같은 어휘를 제거하는 것이다.

상기의 원시 공기어휘 추출 방법과 유사하게, 모호성 어휘 V의 대역어 W에 대해서도 목적언어 말뭉치(304)를 대상으로 유효한 공기어휘(306, 305)를 추출할 수 있다. 모호성 어휘 V의 유효한 공기어휘와 모호성 어휘 V의 대역어 W의 유효한 공기어휘의 추출이 완료된 후, 사전적 방법이나 통계적 방법 등을 사용한 어휘정렬을 수행하여, V의 유효 공기어휘들과 대역관계에 있는 W의 유효 공기어휘 및 그 개수를 구할 수 있고, 이를 통해 V가 W로 번역될 확률을 구할 수 있다. 이렇게 얻어진 독립적인 2개의 말뭉치는 공기어휘 확률정보 데이터베이스(111)로 구축될 수 있는 메커니즘으로 사용된다.

예를 들어, bank는 은행과 둑이라는 2가지 의미를 가진 모호성 어휘이다. 도 4에 도시된 개념도를 참조하여 설명하면,“I go to bank to open an account and to save money의 원시언어 말뭉치(301)에서 bank(모호성 어휘 V)의 공기어휘 목록 {I, go, to, open, an, account, and, save, money} (302, {a₁,a₂,a₃,..} )을 작성한 후, 의미가 없는 공기어휘를 제거하여 유효한 공기어휘목록 {account, money}(303, {a₁,a₂} )가 작성된다. 마찬가지로 목적언어 말뭉치(306)에서도 나는 계좌를 개설하고 돈을 저축하기 위해 은행에 간다.”에서 유효한 공기어휘목록 {계좌, 돈}(306, {b₁,b₂} )이 작성되고, 공기어휘 확률정보 데이터베이스를 만들기 위하여 {(account,계좌), (money,돈)} ( {(a₁, b₁),(a₂, b₂)} )로 어휘정렬을 수행한 후, bank (모호성 어휘 V)가 은행 (모호성 어휘 V의 대역어 W)이라고 번역될 확률값을 구하여 저장한다.

모호성 어휘 해소를 위한 대역어 선택에는 병렬 말뭉치를 사용하는 것이 가장 정확하지만, 일반적으로 대화체의 경우 다양한 문헌들에 존재하는 문어체 문장들과는 달리 원시문장과 그 번역문장으로 구성된 병렬 말뭉치의 확보가 어렵고, 이것은 원문과 번역문을 통해서 특정 모호성 어휘가 특정 공기어휘와 함께 사용될 때 특정 대역어로 번역될 확률를 직접적으로 구할 수 없다는 것을 의미하므로, 모호성 어휘에 대한 공기어휘를 추출하고 모호성 어휘가 특정 대역어로 번역될 확률을 구하는 방안은, 본 발명에서 제안하는 모호성 어휘에 대한 어휘 대역어를 선택하는 방법을 사용한 대화체 자동 번역 장치의 대역어 선택 성능을 높이는데 효과적으로 이용된다.

이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

101 : 자동 번역 장치
102 : 원시언어 분석모듈
103 : 구조 및 어휘 변환모듈
104 : 목적언어 생성모듈
105 : 사전
110 : 동적 문맥 윈도우
111 : 공기어휘 확률정보 데이터베이스
112 : 상기 108에 해당하는 입력문장에 대한 번역 결과
301 : 원시 언어 말뭉치
302 : 모호성 어휘 V의 공기 어휘 목록
303 : 모호성 어휘 V의 유효한 공기 어휘 목록
304 : 목적 언어 말뭉치
305 : 모호성 어휘 V에 대한 대역어 W의 유효한 공기 어휘 목록
306 : 모호성 어휘 V에 대한 대역어 W의 공기 어휘 목록

Claims

자동 번역 장치에서 수행되는 대화체의 대역어 선택 방법에 있어서,
제공된 복수의 대화체 문장에서 특정 어휘의 대역어를 선택하기 위해 참조 문맥의 범위를 설정하는 단계;
상기 설정된 참조 문맥의 범위 내에서 대역어 선택을 위한 단서를 정의하는 단계;
미리 구축된 공기어휘 확률정보 데이터베이스로부터 상기 단서에 대응되는 적어도 하나의 대역어 각각에 대한 대역어 선택 확률을 획득하는 단계; 및
상기 획득한 대역어 선택 확률에 기초하여 상기 특정 어휘의 대역어를 선택하는 단계를 포함하는 대화체의 대역어 선택 방법.