KR20100037813A

KR20100037813A - 통계적 자동 번역 장치 및 방법

Info

Publication number: KR20100037813A
Application number: KR1020080097103A
Authority: KR
Inventors: 전재훈; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2008-10-02
Filing date: 2008-10-02
Publication date: 2010-04-12
Also published as: US20100088085A1

Abstract

언어적 정보를 반영한 통계적 기계 번역 장치 및 방법이 제공된다. 일 양상에 따르면, 소스 언어 문장 및 타겟 언어 문장들에 대한 통계 정보를 기반으로 한 번역 모델을 생성하는 과정 중 단어 정렬 과정에서 대역 사전에 기반으로 보정된 단어 정렬 결과를 이용하여 번역 모델을 생성한다. 또한, 번역 모델을 생성하기 위한 자료로서 소스 언어 문장 및 타겟 언어 문장 즉, 이종언어 코퍼스를 그대로 이용하는 대신 소스 언어 문장 및 타겟 언어 문장에 의미있는 콘텐츠 워드인지를 결정하고, 결정에 기초하여 소스 언어 문장 및 타겟 언어 문장에 대한 전처리를 수행한다.

코퍼스, SMT, 대역 사전, 번역 모델, 정렬

Description

통계적 자동 번역 장치 및 방법{Statistical machine translation apparatus and method}

본 발명의 하나 이상의 양상은 기계 번역에 관한 것으로, 더욱 상세하게는 통계적 기계 번역 장치 및 방법에 관한 것이다.

컴퓨터를 이용하여 원시언어를 목적언어로 변환해주는 것을 기계번역이라 한다. 이러한 기계번역의 방법론에는 규칙기반, 패턴기반, 통계기반 방법 등이 있다.

이중 통계기반 기계번역(SMT: Statistical Machine Translation) 방법은 이중언어 코퍼스(Bilingual corpus)에 대한 분석을 통하여 통계정보를 획득한 다음 이 정보를 기반으로 번역을 수행하는 방법이다. 통계기반 기계번역 기술이 활발히 연구되는 배경에는 다음가 같은 요인이 작용하고 있다. 모델 파라미터를 학습할 수 있는 대용량의 가용 코퍼스가 구축되고 있으며, 특정 언어쌍에 제한받지 않고 모델을 자동으로 학습해낼 수 있다. 또한, 규칙기반/패터기반 기계번역은 번역지식을 구축하는데 상당한 비용을 요구하고 다른 언어들에 일반화시켜 적용하기 어렵다.

통계기반 기계번역의 기본 요소는 통계적 번역 모델(translaion model), 언어 모델(language model), 이중언어 코퍼스(bilingual parallel corpus)로부터 은닉된 번역지식 파라미터를 찾아내는 학습 알고리즘, 그리고 학습된 번역 모델에 기반하여 최적의 번역결과를 탐색하는 디코딩 알고리즘을 구성된다.

이종언어 코퍼스로부터 추출되는 통계 정보에 기반한 통계적 기계 번역에 언어적인 정보를 반영하는 기계 번역 장치 및 방법이 제안된다.

일 양상에 따른 통계적 기반 기계 번역 장치는, 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장으로 생성하는 소스 문장 전처리부; 입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장으로 생성하는 타겟 문장 전처리부; 동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 저장한 대역 사전; 및 소스 언어 문장 및 타겟 언어 문장에 대한 번역 모델을 대역 사전을 이용하여 생성하는 번역 모델 생성부; 를 포함한다.

번역 모델 생성부는 번역 모델을 생성하기 위한 단어 정렬을 수행할 때, 각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보 및 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보에서 공통적으로 추출되는 공통 정렬 정보를 생성하고, 생성된 공 통 정렬 정보를 대역 사전에 기초하여 보정할 수 있다. 또한, 번역 모델 생성부는 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 대역 사전에 존재하는 소스 언어 단어 및 타겟 언어 단어 쌍과 일치하도록 공통 정렬 정보를 보정할 수 있다.

번역 모델 생성부는 상기 공통 정렬 정보에 포함된 소스 언어 단어에 대하여 대응하는 타겟 언어 단어가 매칭되지 않은 경우, 대역 사전으로부터 소스 언어 단어에 대한 대역 단어를 검색하고 검색된 대역 단어를 타겟 언어 단어로 결정하여 공통 정렬 정보를 보정할 수 있다.

소스 문장 전처리부는 각각의 소스 언어 결과 문장의 형태소별로 부착된 태그를 이용하여 각각의 소스 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 소스 언어 형태소 또는 태그를 모델 생성부에 전달하고, 타겟 문장 전처리부는 각각의 타겟 언어 문장의 형태소별로 부착된 태그를 이용하여 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 타겟 언어 형태소 또는 태그를 모델 생성부에 전달할 수 있다.

상세하게는, 소스 문장 전처리부 및 타겟 문장 전처리부는 각각의 소스 언어 형태소 또는 각각의 타겟 형태소 중 콘텐츠 워드로 결정된 소스 언어 형태소 또는 타겟 언어 형태소는 소스 언어 형태소 또는 타겟 언어 형태소를 번역 모델 생성부에 전달하고, 각각의 소스 언어 형태소 또는 타겟 언어 형태소 중 콘텐츠 워드로 결정되지 않은 언어 형태소 또는 타겟 언어 형태소인 경우에는, 콘텐츠 워드로 결정되지 않은 소스 언어 형태소의 태그 또는 콘텐츠 워드로 결정되지 않은 타겟 언 어 형태소의 태그만 번역 모델 생성부에 전달할 수 있다. 그러면, 번역 모델 생성부는 각각의 소스 언어 형태소, 타겟 언어 형태소, 콘텐츠 워드로 결정되지 않은 소스 언어 형태소의 태그 또는 타겟 언어 형태소의 태그를 이용하여 번역 모델을 생성할 수 있다.

일 양상에 따른 기계 번역 장치는 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 단어들로 생성하는 디코딩 전처리부; 및 태그가 부착된 소스 언어 단어 각각을 번역 모델을 이용하여 타겟 문장 언어로 번역하는 디코더를 더 포함하고, 디코더는 소스 언어 문장에 대역 단어가 없다고 결정되는 소스 언어 단어가 있는 경우, 단어에 대한 범주별 고유어에 대한 정보를 포함하는 고유어 사전을 이용하여 대역 단어를 검색하고, 검색 결과를 이용하여 타겟 문장 언어로 번역할 수 있다.

디코더는 대역 단어가 없다고 결정되는 소스 언어 단어를 포함하는 소스 언어 문장에 대하여 문맥 분석을 수행하여 대역 단어가 없다고 결정되는 소스 언어 단어에 대한 범주를 결정할 수 있다. 디코더는 고유어 사전에서 대역 단어가 없다고 결정되는 소스 언어 단어에 대해서는 소스 언어의 발음에 대응하는 타겟 언어를 대역 단어로서 이용할 수 있다.

다른 양상에 따른 기계 번역 방법은 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장으로 생성하여 소스 언어 문장을 전처리하는 단계; 입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장으로 생성하여 타겟 언어 문장을 전처리하는 단계; 동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 저장한 대역 사전을 이용하여 소스 언어 문장 및 타겟 언어 문장에 대한 번역 모델을 생성하는 단계를 포함할 수 있다.

일 양상에 따르면, 이중언어 코퍼스에 대한 분석에 기반한 통계적 기계 번역에 언어적인 정보를 반영하는 번역 장치 및 번역 방법을 제공할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 기계 번역을 위한 훈련 모델 생성 장치를 나타내는 블록도이다. 도 1을 참조하면, 훈련 모델 생성 장치는 소스 언어 전처리부(110), 타겟 언어 전처리부(120), 번역 모델 생성부(130), 대역 사전 저장부(140) 및 언어 모델 생성부(150)를 포함한다.

소스 문장 전처리부(110) 및 타겟 언어 전처리부(120)는 각각 입력되는 소스 언어 코퍼스(source language corpus) 및 타겟 언어 코퍼스(target language corpus)에 대하여 각각 형태소 분석을 수행한다.

소스 문장 전처리부(110)는 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장들로 생성한다. 타겟 문장 전처리부(120)는 입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장들로 생성한다.

번역 모델 생성부(130)는 소스 언어 문장 및 타겟 언어 문장에 대한 번역 모델을 생성한다. 번역 모델은 가능한 소스 언어에 대응하는 타겟 언어 쌍들의 개연성(probability)을 제공하는 모델이다. 번역 모델은 단어/구문 정렬 모델, 어순 재배열(reordering) 모델 등 다수의 서브 모델들의 결합으로 재구성되고, 모델 파라미터를 학습한다. 여기에서 정렬이라 함은 타겟 언어 문장에서의 일부(fragment)가 번역되는 소스 언어 문장에서의 어떤 일부에 대응하는 지를 결정하는 수단 또는 방법을 의미한다.

대역 사전 저장부(140)는 동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 포함하는 대역 사전을 저장한다. 대역 사전 저장부(140)는 훈련 모델 생성 장치 내부의 저장 공간에 위치할 수도 있고, 외부에 위치하며 필요한 경우 대역 사전을 훈련 모델 생성 장치에 의해 판독될 수 있도록 구성될 수 있다.

언어 모델 생성부(150)는 소스 언어 문장 및 타겟 언어 문장에 대한 언어 모델을 생성한다. 언어 모델은 임의 워드 시퀀스의 개연성(probability)를 제공하는 모델이다.

번역 모델 생성부(130)는 대역 코퍼스의 통계적인 상관관계를 통해서만 단어 정렬 결과를 만드는 IBM의 GIZA++ 알고리즘을 이용하여 단어 정렬을 수행할 수 있 다. 통상적으로, GIZA++ 알고리즘과 같은 단어 정렬을 수행할 때, 이중언어 코퍼스 자체가 오류 문장을 포함하고 있을 수 있으므로 정렬 정보가 정확하지 않은 결과가 발생될 수 있다.

일 실시예에 따르면, 번역 모델 생성부(130)는 번역 모델을 생성하는 과정 중 단어 정렬(word alignment) 과정에서 대역 사전을 이용하여 생성할 수 있다.

번역 모델 생성부(130)는 번역 모델을 생성하기 위한 단어 정렬을 수행할 때, 각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보 및 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보에서 공통적으로 추출되는 공통 정렬 정보를 생성한다. 그런 다음, 번역 모델 생성부(130)는 생성된 공통 정렬 정보를 대역 사전에 기초하여 보정한다. 공통 정렬 정보는 GIZA++ 알고리즘에서 인터섹션(intersection) 단계에서 생성된다. 보정 후 매칭되지 않은 소스 단어가 있는 경우, GIZA++ 알고리즘에서 이용되는 그로우-다이얼-파이널(grow-dial-final) 알고리즘을 통해 정렬 미지정된 단어를 매칭할 수 있다.

번역 모델 생성부(130)는 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 대역 사전에 존재하는 소스 언어 단어 및 타겟 언어 단어 쌍과 일치하도록 공통 정렬 정보를 보정할 수 있다. 또한, 번역 모델 생성부(130)는 공통 정렬 정보에 포함된 소스 언어 단어에 대응하는 타겟 언어 단어가 매칭되지 않은 경우, 대역 사전으로부터 소스 언어 단어에 대한 대역 단어를 검색하고, 검색된 대역 단어를 타겟 언어 단어로 결정하여 공통 정렬 정보를 보정할 수 있다.

이와 같은 본 발명의 일 실시예에 따르면, 단어 정렬 과정에서 대역 사전을 이용하여 보정할 수 있으므로 소스 언어 코퍼스 및 타겟 언어 코퍼스에 문장 오류나, 오기, 부적절한 어휘 등의 잘못된 어휘가 있는 경우에 이를 기반으로 생성되는 번역 모델의 오류를 감소시킬 수 있다. 또한, 단어 정렬을 수행할 때 대역 사전에 있는 정보를 통하여 단어 정렬 수행 결과를 보정할 수 있으므로 단어 정렬 정확도가 개선되고, 단어 정렬 정확도가 개선됨에 따라 이후 생성되는 리오더링 모델(reordering model)의 정확도가 개선될 수 있다.

한편, 본 발명의 일 실시예에 따르면, 번역 모델을 생성하기 위한 자료로서 소스 언어 문장 및 타겟 언어 문장 즉, 이종언어 코퍼스를 그대로 이용하는 대신 소스 언어 문장 및 타겟 언어 문장에 의미있는 콘텐츠 워드인지를 결정하고, 결정에 기초하여 소스 언어 문장 및 타겟 언어 문장에 대한 전처리를 수행한다.

소스 문장 전처리부(110)는 각각의 소스 언어 결과 문장의 형태소별로 부착된 태그를 이용하여 각각의 소스 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 소스 언어 형태소 또는 태그를 번역 모델 생성부(130)에 전달할 수 있다. 유사하게, 타겟 문장 전처리부(120)는 각각의 타겟 언어 문장의 형태소별로 부착된 태그를 이용하여 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 타겟 언어 형태소 또는 태그를 번역 모델 생성부(130)에 전달할 수 있다. 형태소 분석 과정을 거쳐 추출된 소스 언어 형태소 또는 타겟 언어 형태소가 콘텐츠 워드인지 여부는 각 태그가 콘텐츠 워드를 나타내는 형태소에 대한 태그인지를 나타내는 테이블을 구성하고, 테이블을 참조하여 결 정될 수 있다.

본 발명의 일 실시예에 따르면, 소스 문장 전처리부(110)는 각각의 소스 언어 형태소 중 콘텐츠 워드로 결정된 소스 언어 형태소를 번역 모델 생성부(130)에 전달할 수 있다. 또한, 소스 문장 전처리부(110)는 각각의 소스 언어 형태소 또는 타겟 언어 형태소 중 콘텐츠 워드로 결정되지 않은 소스 언어 형태소인 경우에는 태그만 번역 모델 생성부(130)에 전달할 수 있다.

타겟 문장 전처리부(120)도 소스 문장 전처리부(110)와 동일한 동작을 수행할 수 있다. 즉, 타겟 문장 전처리부(120)는 각각의 타겟 형태소 중 콘텐츠 워드로 결정된 타겟 언어 형태소를 번역 모델 생성부(130)에 전달할 수 있다. 또한, 타겟 문장 전처리부(120)는 타겟 언어 형태소 중 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소의 경우에는 태그만 번역 모델 생성부(130)에 전달할 수 있다.

번역 모델 생성부(130)는 각각의 소스 언어 형태소 또는 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 전달된 소스 언어 형태소, 타겟 언어 형태소 또는 태그를 이용하여 번역 모델을 생성할 수 있다. 번역 모델 생성부(130)는 전달된 소스 언어 형태소 및 타겟 언어 형태소를 이용하여 형성되는 번역 모델 및 소스 언어 태그 및 타겟 언어 태그를 이용하여 형성되는 번역 모델을 생성할 수 있다. 생성된 번역 모델은 기계 번역 장치의 소정의 저장 공간에 저장되어, 이후 번역 대상이 되는 소스 언어 문장이 입력되는 경우 소스 언어 문장을 타겟 언어 문장으로 디코딩할 때 이용될 수 있다.

이와 같이, 입력되는 소스 언어 코퍼스 및 타겟 언어 코퍼스를 전처리 과정 을 통해 정형화시킨 다음 번역 모델 생성부(130)에 전달하면, 입력되는 소스 언어 코퍼스 및 타겟 언어 코퍼스에서 번역 모델에 포함되지 않는 OOV(out of vocabulary)을 줄여서 대역 매칭률을 높일 수 있다. 또한, 번역 모델 생성에 이용되는 데이터 양을 줄여서 기존의 번역 모델보다 크기를 줄일 수 있다. 이와 같이 번역 모델 사이즈가 줄어들게 되면 번역 과정에서 번역 속도도 개선될 수 있으므로 낮은 CPU 사양을 제공하는 단말 장치에서도 양호한 번역 성능을 제공할 수 있다.

도 2는 본 발명의 일 실시예에 따른 단어 정렬 방법을 나타내기 위한 예시적인 도면이다.

도 2에서 소스 언어는 한국어이고, 타겟 언어는 영어이다. 도면부호 11의 테이블 및 도면 부호 13의 테이블은 번역 모델을 생성하기 위한 단어 정렬을 수행할 때, 각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보(11) 및 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보(13)를 각각 나타낸다. 도면 부호 15의 테이블은 정방향 정렬 정보(11) 및 역방향 정렬 정보(13)에서 공통적으로 추출되어 생성되는 공통 정렬 정보(15)를 나타낸다.

공통 정렬 정보(15)는 일 실시예에 따른 대역 사전에 기초한 보정을 수행하여 도면 부호 17의 보정이 수행된 공통 정렬 정보(17)로 생성될 수 있다. 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 대역 사전에 존재하는 소스 언어 및 타겟 언어 쌍과 일치하도록 공통 정렬 정보를 보정이 수행될 수 있다. 또한, 공통 정렬 정보에 포함된 소스 언어 단어에 대응하는 타겟 언어 단어 가 생성되지 않은 경우, 대역 사전으로부터 소스 언어 단어에 대한 대역 단어를 타겟 언어 단어로 결정하여 공통 정렬 정보를 보정할 수 있다. 보정 후 매칭되지 않은 소스 단어가 있는 경우, GIZA++ 알고리즘에서 이용되는 그로우-다이얼-파이널 알고리즘을 통해 정렬 미지정된 단어를 매칭하여, 공통 정렬 정보(17)는 공통 정렬 정보(19)로 생성될 수 있다.

도 3은 본 발명의 일 실시예에 따른 소스 언어에 대한 전처리 방법을 예시적으로 나타내는 도면이다.

도 3에서, 소스 문장 전처리부(110)는 블록(21)에 도시된 예문과 같은 소스 언어 코퍼스를 수신한다고 가정한다. 소스 언어 코퍼스(21)는 블록(23)에 도시된 바와 같이, 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장들로 생성된다. 블록(23)에서, "/nn/0", "/nbu/0", "/nb/2" 등은 형태소의 특징 또는 품사를 나타내는 태그이고, "1", "년", "동안", "3만" 등은 소스 언어로부터 추출되는 형태소를 나타낸다.

전술한 바와 같이, 일 실시예에 따르면, 소스 문장 전처리부(110)는 각각의 소스 언어 형태소 중 콘텐츠 워드로 결정된 소스 언어 형태소인 경우에는 형태소를 남기고, 콘텐츠 워드로 결정되지 않은 소스 언어 형태소인 경우에는 태그를 남겨서 블록(25)에 도시된 바와 같은 전처리 결과를 생성할 수 있다. 일 실시예에 따르면, 의미있는 기능적 품사인 용언, 체언, 수식언, 독립언은 콘텐츠 워드로 결정하여, 형태소를 남기고 태그를 제거하며, 관계언, 활용언, 접사 및 기타는 콘텐츠 워드가 아닌 것으로 결정하여 태그를 남긴다. 어떤 품사 또는 형태를 나타내는 태그 에 대응하는 형태소가 콘텐츠 워드인지 여부에 대한 기준은 변경될 수 있다.

그러면, 번역 모델 생성부(130)는 각각의 소스 언어 형태소 또는 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 전달된 소스 언어 형태소, 타겟 언어 형태소 또는 태그를 이용하여 번역 모델을 생성할 수 있다. 이와 같은 전처리 방법에 따르면, 원 문장에서 의미있게 정형화하는 방법으로 OOV를 제거하여 대역(소스 문장 및 타겟 언어)간 매칭율은 높이고 모델 크기는 줄여서 단말 포팅에 적합하게 될 수 있다.

도 4는 본 발명의 다른 실시예에 따른 기계 번역 장치를 나타내는 도면이다.

도 4의 기계 번역 장치는 도 1의 훈련 모델 생성 장치와 대응되는 구성인 훈련 모델 생성부(100) 및 실제 번역이 요청되는 소스 언어 코퍼스에 대한 번역을 수행하는 번역 수행부(200)를 포함한다. 훈련 모델 생성부(100)에 포함되는 소스 언어 전처리부(110), 타겟 언어 전처리부(120), 번역 모델 생성부(130), 대역 사전 저장부(140) 및 언어 모델 생성부(150)는 도 1에 도시된 대응되는 구성요소와 동일한 기능을 수행하므로 번역 수행부(200)의 구성을 중심으로 상세하게 설명한다.

번역 수행부(200)는 디코딩 전처리부(210), 고유어 사전 저장부(220), 디코더(230) 및 후처리부(240)를 포함한다.

디코딩 전처리부(210)는 소스 언어 전처리부(110)와 마찬가지로 입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 단어들로 생성한다. 디코딩 전처리부(210)는 소스 언어 전처리부(110)와 같이 태그가 부착된 소스 언어 결과 문장에 대하여 정규화 처리를 수행될 수 있 다.

디코더(230)는 태그가 부착된 소스 언어 단어 각각을 언어 모델 및 번역 모델을 이용하여 타겟 언어 문장으로 번역한다. 디코더(230)는 통계적 기반 기계번역 방법에 따른 번역을 수행할 수 있다. 기본적으로 소스 언어 문장 f를 타겟 언어 문장 e로 번역하는 확률 모델은 p(e│f)이다. 디코더(230)는 자연스러운 번역 결과를 얻기 위해 베이스 이론(Bayes Theorem)을 적용하여 번역 모델 p(f│e)과 언어 모델 p(e)로 유도된 생성 모델을 만드는 과정을 수행한다.

고유어(name entity)의 경우 이중언어 코퍼스에 명시되지 않는 경우 통계적인 모델에 포함되지 않아 디코더(230)에서 UNK(처리불가)로 표시된다. 일 실시예에 따르면, 디코더(230)는 UNK에 대해 문맥을 통한 알고리즘으로 범주를 분석하여 범주에 해당하는 고유어 대역 단어를 검색하여 번역할 수 있다. 또한, 디코더(230)는 입력문장의 문법적인 불완전성으로 범주분석이 불가능할 때에는 타겟 언어의 발음 표기대로 결과를 생성할 수 있다.

이를 위해, 디코더(230)는 처리 중인 소스 언어 문장에 대역 단어가 없다고 결정되는 소스 언어 단어가 있는 경우, 상기의 소스 언어 단어에 대한 범주를 결정하고, 범주별 고유어에 대한 정보를 포함하는 고유어 사전 저장부(220)에 저장되어 있는 고유어 사전을 이용하여 대역 단어를 검색하고, 검색 결과를 이용하여 타겟 문장 언어로 번역할 수 있다. 또한, 디코더(230)는 소스 언어 단어에 대한 범주를 결정하기 위하여, 대역 단어가 없다고 결정되는 소스 언어를 포함하는 소스 언어 문장에 대하여 문맥 분석을 수행할 수 있다. 디코더(230)는 대역 사전에서 대역 단어가 없다고 결정되는 소스 언어 단어에 대해서는 소스 언어 단어의 발음에 대응하는 타겟 언어를 대역 단어로서 이용할 수 있다.

고유어 사전을 저장하는 고유어 사전 저장부(220)는 디코더(230)와 별도의 블록으로 번역 수행부(200)에 포함되어 있는 것으로 도시되어 있으나, 디코더(230)에 통합될 수도 있으며, 기계 번역 장치 외부에 위치될 수도 있다.

후처리부(240)는 번역 결과에 시제, 문장 부호, 인칭 등을 추가 생성 또는 수정하여 타겟 언어에 가까운 형태의 번역 문장을 생성할 수 있다.

도 5는 본 발명의 일 실시예에 따른 범주별 고유어 정보를 포함하는 고유어 사전을 이용한 전처리 방법을 예시적으로 나타내는 도면이다.

블록(31)에 도시된 바와 같은 소스 언어 문장이 디코딩 전처리부(210)로 입력된다고 가정한다. 소스 언어 문장(31)은 번역 모델 및 언어 모델을 이용하여 블록(33)과 같이 한국어인 소스 언어를 영어인 타겟 언어로 번역할 수 있다.

번역 결과(33) UNK(처리불가) 단어에 대한 처리 알고리즘이 블록(35)에 도시되어 있다. 처리불가 단어인 경우 문맥을 분석하여 범주를 알아내고, 그런 다음, 범주가 결정될 수 있는 경우에는 고유어 사전을 이용하여 대역 단어를 검색한다. 검색된 대역 단어를 해당 UNK 단어 위치에 둠으로써 UNK 단어의 개수를 줄일 수 있다. 예를 들어, "이명박"의 경우에는 문맥 분석 결과, President에 근접하게 위치하는 단어이므로 고유어 사전에서 사람 범주에 있는 대역 단어를 검색한다. 그 결과, "이명박"은 "LEE MYUNG PARK"으로 번역될 수 있다. "독도"의 경우에는 문맥 분석 결과, island에 근접하게 위치하는 단어이므로 고유어 사전에서 위치 범주에 있는 대역 단어를 검색한다. 그 결과, "독도"는 "Dokdo"로 번역될 수 있다. 한편, "광화문"의 경우 문맥 분석을 수행하더라도, 어떤 범주의 단어인지 결정될 수 없다. 이 경우 "광화문"을 영어 발음대로 표기하여 "Gwangwhamoon"으로 번역될 수 있다.

이와 같은 방식으로 처리불가 단어에 대한 번역을 수행한 결과가 블록(37)에 도시되어 있다. 이와 같은, 일 실시예에 따르면, 문맥 분석을 통해 해당 UNK가 어떤 범주인지 결정하여, 범주별 대역 단어가 기록된 고유어 사전을 이용함으로써, 디코딩 시간을 단축하고, UNK를 바르게 정정한 후 번역하므로 번역 성능을 높일 수 있다.

도 6은 본 발명의 일 실시예에 따른 고유어 사전에 이용되는 단어의 범주를 구분하기 위한 정보를 나타낸다.

일 실시예에 따른 처리불가 단어를 처리하는데 이용되는 고유어 사전에서 범주는 시간(TIME), 숫자(NUMBER), 인물(PERSON), 위치(LOCATION), 단체(ORGANIZATION), 기타(ETC)로 구분될 수 있다. 예를 들어, 처리 불가 단어가 요일, 월, 시, 분, 초 등에 해당하는 단어와 연관된 단어로 분석되면, 고유어 사전의 시간 범주에 기록된 단어들을 검색하여 번역을 수행할 수 있다. 고유어를 분류하기 위한 범주는 도 6에 도시된 바와 같이 대분류 및 소분류로 나뉠 수 있으며, 대분류 및 소분류 등 범주의 형태 및 종류는 다양하게 변형될 수 있으며 제한되지 않는다.

도 7은 본 발명의 일 실시예에 따른 기계 번역 방법을 나타내는 도면이다. 도 7은 기계 번역 방법 중 번열 모델을 생성하는 방법에 대하여 도시되어 있다.

입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장으로 생성하여 소스 언어 문장을 전처리한다(S 710). 소스 언어 문장을 전처리하는 단계는, 각각의 소스 언어 결과 문장의 형태소별로 부착된 태그를 이용하여 각각의 소스 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부를 결정하고, 각각의 소스 언어 형태소 중에서, 콘텐츠 워드로 결정된 소스 언어 형태소에 대해서는 소스 언어 형태소를 남기고, 콘텐츠 워드로 결정되지 않은 소스 언어 형태소인 경우에는 콘텐츠 워드로 결정되지 않은 소스 언어 형태소의 태그를 남긴다.

입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장으로 생성하여 타겟 언어 문장을 전처리한다(S 720). 타겟 언어 문장의 전처리 과정도 소스 언어 문장 전처리 과정과 대응되는 방식으로 수행될 수 있다.

동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 저장한 대역 사전을 이용하여 소스 언어 문장 및 타겟 언어 문장에 대한 번역 모델을 생성한다(S 730). 번역 모델을 생성하는 단계에서, 번역 모델을 생성하기 위한 단어 정렬을 수행할 때, 각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보를 생성하고, 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보를 생성하고, 정방향 정렬 정보 및 역방향 정렬 정보에서 공통적으로 추출되는 공통 정렬 정보를 생성할 수 있다. 그런 다음 생성된 공통 정렬 정보를 대역 사전에 기초하여 보정할 수 있다.

공통 정렬 정보를 보정하는 단계에서, 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 대역 사전에 존재하는 소스 언어 단어 및 타겟 언어 단어 쌍과 일치하도록 공통 정렬 정보를 보정할 수 있다. 또한, 공통 정렬 정보를 보정하는 단계에서, 공통 정렬 정보에 포함된 소스 언어 단어에 대응하는 타겟 언어 단어가 생성되지 않은 경우, 대역 사전으로부터 소스 언어 단어에 대한 대역 단어를 타겟 언어 단어로 결정하여 공통 정렬 정보를 보정할 수 있다.

본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 기계 번역을 위한 훈련 모델 생성 장치를 나타내는 블록도.

도 2는 본 발명의 일 실시예에 따른 단어 정렬 방법을 나타내기 위한 예시적인 도면.

도 3은 본 발명의 일 실시예에 따른 소스 언어에 대한 전처리 방법을 예시적으로 나타내는 도면.

도 4는 본 발명의 다른 실시예에 따른 기계 번역 장치를 나타내는 도면.

도 5는 본 발명의 일 실시예에 따른 범주별 고유어 정보를 포함하는 고유어 사전을 이용한 전처리 방법을 예시적으로 나타내는 도면.

도 6은 본 발명의 일 실시예에 따른 고유어 사전에 이용되는 단어의 범주를 구분하기 위한 정보를 나타내는 도면.

도 7은 본 발명의 일 실시예에 따른 기계 번역 방법을 나타내는 도면.

Claims

통계적 기반 기계 번역 장치에 있어서,

입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장으로 생성하는 소스 문장 전처리부;

입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장으로 생성하는 타겟 문장 전처리부;

동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 저장한 대역 사전; 및

상기 소스 언어 문장 및 상기 타겟 언어 문장에 대한 번역 모델을 상기 대역 사전을 이용하여 생성하는 번역 모델 생성부; 를 포함하는 기계 번역 장치.
제1항에 있어서,

상기 번역 모델 생성부는 상기 번역 모델을 생성하기 위한 단어 정렬을 수행할 때, 각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보 및 상기 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보에서 공통적으로 추출되는 공통 정렬 정보를 생성하고, 생성된 공통 정렬 정보를 상기 대역 사전에 기초하여 보정하는 기계 번역 장치.
제2항에 있어서,

상기 번역 모델 생성부는 상기 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 상기 대역 사전에 존재하는 소스 언어 단어 및 타겟 언어 단어 쌍과 일치하도록 상기 공통 정렬 정보를 보정하는 기계 번역 장치.
제2항에 있어서,

상기 번역 모델 생성부는 상기 공통 정렬 정보에 포함된 소스 언어 단어에 대하여 대응하는 타겟 언어 단어가 매칭되지 않은 경우, 상기 대역 사전으로부터 상기 소스 언어 단어에 대한 대역 단어를 검색하고 검색된 대역 단어를 상기 타겟 언어 단어로 결정하여 상기 공통 정렬 정보를 보정하는 기계 번역 장치.
제1항에 있어서,

상기 소스 문장 전처리부는 상기 각각의 소스 언어 결과 문장의 형태소별로 부착된 태그를 이용하여 상기 각각의 소스 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 상기 소스 언어 형태소 또는 상기 태그를 상기 번역 모델 생성부에 전달하고,

상기 타겟 문장 전처리부는 상기 각각의 타겟 언어 문장의 형태소별로 부착된 태그를 이용하여 상기 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부에 기초하여 상기 타겟 언어 형태소 또는 상기 태그를 상기 번역 모델 생성부에 전달하는 기계 번역 장치.
제5항에 있어서,

상기 소스 문장 전처리부는 상기 각각의 소스 언어 형태소 중 콘텐츠 워드로 결정된 소스 언어 형태소에 대해서는 상기 소스 언어 형태소를 상기 번역 모델 생성부에 전달하고, 상기 콘텐츠 워드로 결정되지 않은 소스 언어 형태소에 대해서는 상기 소스 언어 형태소의 태그를 상기 번역 모델 생성부에 전달하고,

상기 타겟 문장 처리부는 상기 각각의 타겟 형태소 중 콘텐츠 워드로 결정된 타겟 언어 형태소는 상기 타겟 언어 형태소를 번역 모델 생성부에 전달하고, 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소에 대해서는 상기 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소의 태그를 상기 번역 모델 생성부에 전달하는 기계 번역 장치.
제6항에 있어서,

상기 번역 모델 생성부는 상기 콘텐츠 워드로 결정된 상기 소스 언어 형태소, 상기 콘텐츠 워드로 결정된 상기 타겟 언어 형태소, 상기 콘텐츠 워드로 결정되지 않은 소스 언어 형태소의 태그 또는 상기 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소의 태그를 이용하여 번역 모델을 생성하는 기계 번역 장치.
제1항에 있어서,

입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내 는 태그가 부착된 소스 언어 단어들로 생성하는 디코딩 전처리부; 및

상기 태그가 부착된 소스 언어 단어 각각을 상기 번역 모델을 이용하여 타겟 언어 문장으로 번역하는 디코더를 더 포함하고,

상기 디코더는 상기 소스 언어 문장에 대역 단어가 없다고 결정되는 소스 언어 단어가 있는 경우, 상기 단어에 대한 범주별 고유어에 대한 정보를 포함하는 고유어 사전을 이용하여 대역 단어를 검색하고, 검색 결과를 이용하여 타겟 문장 언어로 번역하는 기계 번역 장치.
제8항에 있어서,

상기 디코더는 상기 대역 단어가 없다고 결정되는 소스 언어 단어를 포함하는 소스 문장 언어에 대하여 문맥 분석을 수행하여 상기 대역 단어가 없다고 결정되는 상기 소스 언어 단어에 대한 범주를 결정하는 기계 번역 장치.
제8항에 있어서,

상기 디코더는 상기 고유어 사전에서 상기 대역 단어가 없다고 결정되는 소스 언어 단어에 대해서는 상기 소스 언어의 발음에 대응하는 타겟 언어를 대역 단어로서 이용하는 기계 번역 장치.
입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 결과 문장으로 생성하여 소스 언어 문장을 전처리하는 단계;

입력되는 타겟 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 타겟 언어 결과 문장으로 생성하여 타겟 언어 문장을 전처리하는 단계; 및

동일한 의미의 소스 언어 단어 및 타겟 언어 단어 쌍들을 저장한 대역 사전을 이용하여 상기 소스 언어 문장 및 상기 타겟 언어 문장에 대한 번역 모델을 생성하는 단계를 포함하는 기계 번역 방법.
제11항에 있어서,

상기 번역 모델을 생성하는 단계에서, 상기 번역 모델을 생성하기 위한 단어 정렬을 수행할 때,

각각의 소스 언어 단어에 대하여 대응하는 각각의 타겟 언어 단어를 정렬한 정방향 정렬 정보를 생성하는 단계;

상기 각각의 타겟 언어 단어에 대응하는 각각의 소스 언어 단어를 정렬한 역방향 정렬 정보를 생성하는 단계;

상기 정방향 정렬 정보 및 상기 역방향 정렬 정보에서 공통적으로 추출되는 공통 정렬 정보를 생성하는 단계; 및

상기 생성된 공통 정렬 정보를 상기 대역 사전에 기초하여 보정하는 단계를 포함하는 기계 번역 방법.
제12항에 있어서,

상기 공통 정렬 정보를 보정하는 단계에서,

상기 공통 정렬 정보에 포함된 소스 언어 단어 및 타겟 언어 단어 쌍이 상기 대역 사전에 존재하는 소스 언어 단어 및 타겟 언어 단어 쌍과 일치하도록 상기 공통 정렬 정보를 보정하는 기계 번역 방법.
제12항에 있어서,

상기 공통 정렬 정보를 보정하는 단계에서,

상기 공통 정렬 정보에 포함된 소스 언어 단어에 대응하는 타겟 언어 단어가 매칭되지 않은 경우, 상기 대역 사전으로부터 상기 소스 언어 단어에 대한 대역 단어를 상기 타겟 언어 단어로 결정하여 상기 공통 정렬 정보를 보정하는 기계 번역 방법.
제11항에 있어서,

상기 소스 언어 문장을 전처리하는 단계는,

상기 각각의 소스 언어 결과 문장의 형태소별로 부착된 태그를 이용하여 상기 각각의 소스 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부를 결정하고, 상기 콘텐츠 워드인지 여부에 기초하여 상기 소스 언어 형태소 또는 상기 태그를 남기는 단계를 포함하고,

상기 타겟 언어 문장에 대한 전처리를 수행하는 단계는,

상기 각각의 타겟 언어 문장의 형태소별로 부착된 태그를 이용하여 상기 각각의 타겟 언어 형태소가 의미가 있는 형태소인 콘텐츠 워드인지 여부를 결정하고, 상기 콘텐츠 워드인지 여부에 기초하여 상기 타겟 언어 형태소 또는 상기 태그를 남기는 단계를 포함하는 기계 번역 방법.
제15항에 있어서,

상기 각각의 소스 언어 형태소 또는 상기 각각의 타겟 형태소 중에서,

콘텐츠 워드로 결정된 소스 언어 형태소 또는 콘텐츠 워드로 결정된 타겟 언어 형태소에 대해서는 상기 소스 언어 형태소 또는 상기 타겟 언어 형태소를 남기고,

콘텐츠 워드로 결정되지 않은 소스 언어 형태소 또는 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소인 경우에는 상기 콘텐츠 워드로 결정되지 않은 소스 언어 형태소의 태그 또는 상기 콘텐츠 워드로 결정되지 않은 타겟 언어 형태소의 태그를 남기는 기계 번역 방법.
제16항에 있어서,

상기 번역 모델을 생성하는 단계에서,

상기 남겨진 상기 소스 언어 형태소, 상기 남겨진 타겟 언어 형태소, 상기 남겨진 소스 언어 형태소의 태그 또는 상기 남겨진 타겟 언어 형태소의 태그를 이용하여 번역 모델을 생성하는 기계 번역 방법.
제11항에 있어서,

입력되는 소스 언어 문장에 대한 형태소를 분석하여 형태소별 특징을 나타내는 태그가 부착된 소스 언어 단어들로 생성하는 디코딩 전처리를 수행하는 단계; 및

상기 태그가 부착된 소스 언어 단어 각각을 상기 번역 모델을 이용하여 타겟 언어 문장으로 번역하는 디코딩을 수행하는 단계를 더 포함하고,

상기 디코딩을 수행하는 단계는,

상기 입력되는 소스 언어 문장에 대역 단어가 없다고 결정되는 상기 소스 언어 단어가 있는 경우, 상기 소스 언어 단어에 대한 범주별 고유어에 대한 정보를 포함하는 고유어 사전을 이용하여 대역 단어를 검색하는 단계; 및

검색 결과를 이용하여 타겟 문장 언어로 번역하는 단계를 포함하는 기계 번역 방법.
제18항에 있어서,

상기 디코딩을 수행하는 단계는,

상기 대역 단어가 없다고 결정되는 소스 언어 단어를 포함하는 소스 언어 문장에 대하여 문맥 분석을 수행하여 상기 대역 단어가 없다고 결정되는 상기 소스 언어 단어에 대한 범주를 결정하는 기계 번역 방법.
제18항에 있어서,

상기 디코딩을 수행하는 단계는,

상기 고유어 사전에서 상기 대역 단어가 없다고 결정되는 소스 언어 단어에 대해서는 상기 소스 언어의 발음에 대응하는 타겟 언어를 대역 단어로서 이용하는 기계 번역 방법.