WO2012026667A2

WO2012026667A2 - 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법

Info

Publication number: WO2012026667A2
Application number: PCT/KR2011/003830
Authority: WO
Inventors: 황영숙; 김상범; 윤창호; 시아오시얀; 리우양; 리우췬; 린쇼우슌
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2010-08-23
Filing date: 2011-05-25
Publication date: 2012-03-01
Also published as: KR101682207B1; WO2012026667A3; KR20120018687A; US8543376B2; US20130132064A1

Abstract

본 발명은 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법에 관한 것으로서, 상세하게는 입력 문자 시퀀스에 대해서 디코딩 동안에 토큰 분리 및 번역을 함께 수행하여 통합적으로 디코딩함으로써, 모든 가능한 후보 토큰들을 생성하고 번역 오류들을 감소시킬 수 있으며 최적의 번역 결과를 획득할 수 있다.

Description

토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법

본 발명은 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법에 관한 것으로서, 상세하게는 입력 문자 시퀀스에 대해서 디코딩 동안에 토큰 분리 및 번역을 함께 수행하여 통합적으로 디코딩함으로써, 모든 가능한 후보 토큰들을 생성하고 번역 오류들을 감소시킬 수 있으며 최적의 번역 결과를 획득할 수 있는, 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법에 관한 것이다.

통계적 기계 번역(SMT: Statistical Machine Translation)의 분야는 진화해오고 있다. 초기 진화 단계에서 많은 번역 시스템은 단어 기반의 접근법을 사용하는 것으로 개발되었다. 즉, 번역 시스템은 기본 번역 요소로 단어를 처리함으로써, 각 소스 언어 단어를 타겟 언어로 대체하여 번역된 문장을 형성한다. 최적의 번역결과 문장의 확률은 각 타겟 언어 단어가 해당 소스 언어 단어의 적절한 번역인지 여부에 대한 확률들의 곱을 이용하고, 타겟 언어에서 문장에 대한 언어 모델 확률을 이용하여 근사한다. 예를 들어, 마르코프 체인(예컨대, N-그램) 언어 모델은 언어 모델 확률을 결정하는데 사용된다.

최근, 구문 기반 접근 방식의 통계적 기계 번역(Phrase-based SMT) 시스템 도입으로 상당한 발전이 이루어지고 있다. 단어들에서 구문들로 번역의 기본 단위를 확장함으로써, 구문적 접근 기반의 통계적 기계 번역에서 검색 공간을 효과적으로 감소시킬 수 있다. 여기서, 구문이란 몇 개의 연속적인 단어들의 부분 문자열을 의미한다.

일반적인 구문 기반의 통계적 기계 번역 시스템은 여전히 몇 가지 단점이 있다. 예를 들어, 일반적인 시스템은 학습을 통해 인식된 몇 개의 연속 단어들을 재배열하는 번역 과정을 확실하게 수행할 수 있지만, 대부분의 일반 번역 시스템들은 긴 거리의 단어 의존 관계를 설명하지 못한다. 또한, 기계 번역에 대한 어떤 접근법에서 번역 과정은 계층 구문 구조를 이용한다. 예를 들어, 소스 언어 및 타겟 언어 모두에서 동기적 문맥자유 문법들을 이용한다. 기본적으로 번역을 위한 세그먼테이션(Segmentation)의 오류와 번역 규칙들을 학습하기 위한 구문 및 단어 정렬들에서의 오류 때문에, 이러한 접근 방식은 정확한 번역 규칙이 적용될 수 없는 경우에 번역 정확도가 떨어진다는 문제가 있다.

토큰 분리 과정은 통계적 기계 번역에서 중요한 기능을 수행한다. 왜냐하면, 소스 문장을 토큰 분리하는 것은 통계적 기계 번역 시스템에서 번역의 기본단위를 결정하기 때문이다.

도 1 은 종래의 통계적 기계 번역 시스템에서 토큰 분리 과정과 번역 과정에 대한 개념도이다.

도 1에 도시된 바와 같이, 종래의 통계적 기계 번역 시스템은 토큰 분리 장치(Tokenizer)(110) 및 디코더(Decoder)(120)를 포함한다. 토큰 분리장치(110)는 전처리 과정에서 토큰 분리 과정을 수행한다. 토큰 분리장치(110)는 문자열을 입력 받아 토큰 분리된 문자열을 생성한다. 그리고 디코더(120)는 토큰 분리장치(110)에서 토큰 분리된 문자열을 전달받고, 그 전달된 문자열에 대해 최적의 번역(Translation)를 찾는다.

다양한 언어 토큰 분리 과정은 보통 중의적이기 때문에, 토큰 분리 과정과 번역 과정이 구분되는 통계적 기계 번역 시스템은 토큰 분리 과정의 오류들로 인해 번역 오류를 종종 야기할 수 있다. 특히 중국어와 같이 띄어쓰기를 하지 않는 언어들에 있어서 문장들을 적절한 단어로 세그먼테이션하는 방법은 번역 성능에 대해 직접적인 영향을 끼친다. 또한, 한국어와 같은 교착어들은 하나의 어절(단어)이 다수의 형태소를 포함할 수 있어서 어절 자체를 학습 데이터로 사용시 심각한 자료부족 문제를 야기할 수 있다.

단어들을 형태소 단위로 세그먼테이션하는 것은 다양한 언어들에서 번역의 기본 단위를 최소 의미단위인 형태소로 함으로써 번역 성능을 효과적으로 개선하기 위한 것이다. 성능이 우수한 토큰 분리기를 사용한다 할지라도 그 성능이 100%가 되지 못하기 때문에 번역 품질을 향상시키는 데에는 한계가 있다. 그러므로 통계적 기계 번역 시스템들에서 토큰 분리에서의 오류 문제를 감소시키는 더욱 적절한 토큰 분리 방법이 필요한 실정이다.

번역 성능을 향상시키는 격자 구조 기반의 번역 방법은 1-베스트(1-best) 토큰분리(1-best tokenizaiton)를 n-베스트(n-best) 토큰 분리로 대체하는 방식이다. 그러나 단어 격자 기반의 변환 방법은 여전히 제한된 검색 공간에서 대역어구를 검색하고 있다. 즉, 디코딩 및 구축된 토큰 격자로부터 토큰 분리 과정이 분리된 방식은 디코딩 과정 이전에 필터링되고 전처리된 토큰들에 의존하기 때문에, 검색 공간은 여전히 전처리 과정에 의해 제한된다.

일반적인 통계적 기계 번역 시스템들은 항상 전처리 과정으로서 토큰 분리 과정을 분리하고, 디코딩 과정은 별개의 과정으로 처리한다. 이러한 과정은 통계적 기계 번역에 최적화되어 있지 않다. 첫째, 주어진 번역 언어 쌍의 최적의 번역에 대한 단위가 불명확하다. 일반적인 통계적 기계 번역 시스템은 큰 단위를 사용하면 심각한 자료부족 문제에 직면하는 반면, 작은 단위를 사용하면 다수의 유용한 정보를 손실할 수 있다.

예를 들어, 중국어인 "duo fen"과 영어인 "gain a point"를 살펴보면, 중국어인 "duo fen"은 영어 측과 일 대 일로 정렬되기 때문에, "duo fen"을 "duo"와 "fen"과 같은 두 단어로 분할하는 것은 바람직하다. 이와 반대로, 중국어인 "you"와 "wang"은 영어인 "will have the chance to"와 일대일 정렬이지만, 그들을 두 단어들로 분리하는 것은 바람직하지 않다. 그것은 디코더(120)는 "you"라는 문맥정보 없이 중국어 "Wang"을 영어 동사 "look"으로 번역하는 경향이 있기 때문이다.

둘째로, 토큰 분리 과정에서 오류가 있을 수 있다. 중국어 "tao fei ke"는 패밀리 네임(Family name)이 "tao"이고 퍼스트 네임(First name)이 "fei-ke"인 중국인 이름으로 인식된다. 그러나 주어진 문맥에서, 전체 문자열 "tao fei ke"은 인도네시안 배드민턴 선수의 이름으로 번역되어야 한다.

한편, 1-베스트 토큰 분리 결과를 하나 이상의 토큰 분리기(segmenter)들의 토큰 분리 결과인 다수의 토큰들을 이용하여 구축된 격자로 교체하는 것은 번역 성능 개선에 도움이 된다. 그러나 검색 공간은 디코딩 이전에 분리된 토큰들로 구축된 격자에 의해 여전히 제한되고 있다는 문제점이 있다.

본 발명은 상기의 문제점을 해결하기 위해 창안된 것으로서, 입력 문자 시퀀스에 대해서 디코딩 동안에 토큰 분리 및 번역을 함께 수행하여 통합적으로 디코딩함으로써, 모든 가능한 후보 토큰들을 생성하고 번역 오류들을 감소시킬 수 있으며 최적의 번역 결과를 획득할 수 있는, 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법을 제공하는 것을 목적으로 한다.

이를 위하여, 본 발명의 제1 측면에 따른 장치는, 입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성하는 후보 토큰 생성부; 상기 생성된 각각의 후보 토큰들의 토큰 분리 확률을 언어 모델을 이용하여 계산하는 확률 계산부; 상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리하는 미등록어 처리부; 및 상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 이용하여 상기 입력 문자 시퀀스에 대응하는 대역어구를 번역 모델에 따라 생성하는 번역부를 포함하는 것을 특징으로 한다.

바람직하게는, 병렬 말뭉치의 토큰 분리된 데이터로부터 학습된 번역 모델을 저장하는 번역 모델 데이터베이스; 및 단일어 말뭉치로부터 학습된 언어 모델을 저장하는 언어 모델 데이터베이스를 더 포함하는 것을 특징으로 한다.

바람직하게는, 상기 번역 모델 데이터베이스는, 문자열 기반의 번역 모델을 저장하는 것을 특징으로 한다.

바람직하게는, 상기 후보 토큰 생성부는, 상기 입력 문자 시퀀스에서 단어의 시작에 해당하는 문자, 단어의 중간에 출현하는 문자, 단어의 끝에 나타나는 문자, 하나의 문자로 구성된 단어 중 적어도 하나의 문자를 단어 생성 관점에서 태깅하는 것을 특징으로 한다.

바람직하게는, 상기 확률 계산부는, 상기 생성된 각각의 후보 토큰들의 토큰 분리 확률과 N-그램 언어 모델을 결합하여 계산하는 것을 특징으로 한다.

바람직하게는, 상기 미등록어 처리부는, 상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 수를 조절하는 것을 특징으로 한다.

바람직하게는, 상기 번역부는, 상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 로그-리니어(log-linear) 모델에 적용하여 상기 입력 문자 시퀀스에 대응하는 번역문을 생성하는 것을 특징으로 한다.

한편, 본 발명의 제2 측면에 따른 방법은, 입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성하는 후보 토큰 생성 단계; 상기 생성된 각각의 후보 토큰들의 토큰 분리 확률을 언어 모델과 결합하여 계산하는 확률 계산 단계; 상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리하는 미등록어 처리 단계; 및 상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 이용하여 상기 입력 문자 시퀀스에 대응하는 대역어구를 생성하는 번역 단계를 포함하는 것을 특징으로 한다.

바람직하게는, 상기 번역 모델은, 문자열 기반의 번역 모델인 것을 특징으로 하는 것을 특징으로 한다.

바람직하게는, 상기 후보 토큰 생성 단계는, 상기 입력 문자 시퀀스에서 단어의 시작에 해당하는 문자 태그, 단어의 중간에 출현하는 문자 태그, 단어의 끝에 나타나는 문자 태그, 하나의 문자로 구성된 단어 태그, 중 각각의 문자를 단어 생성 관점에서 태깅하는 것을 특징으로 한다.

바람직하게는, 상기 확률 계산 단계는, 상기 생성된 각각의 후보 토큰들의 토큰 분리 확률과 N-그램 언어 모델을 결합하여 계산하는 것을 특징으로 한다.

바람직하게는, 상기 미등록어 처리 단계는, 상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 수를 조절하는 것을 특징으로 한다.

바람직하게는, 상기 번역 단계는, 상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 로그 리니어(log-linear) 모델에 적용하여 상기 입력 문자 시퀀스에 대응하는 번역문을 생성하는 것을 특징으로 한다.

본 발명은, 입력 문자 시퀀스에 대해서 디코딩 동안에 토큰 분리 및 번역을 함께 수행하여 통합적으로 디코딩함으로써, 모든 가능한 후보 토큰들을 생성하고 번역 오류들을 감소시킬 수 있으며 최적의 번역 결과를 획득할 수 있는 효과가 있다. 즉, 본 발명은 통계적 기계 번역의 디코딩 과정에서 소스 언어 문자열에 대해서 토큰 분리 및 대역어구를 검색하여 토큰 및 번역 과정을 함께 수행함으로써, 번역 성능을 향상시키고 세그먼테이션의 오류를 감소시킬 수 있다.

또한, 본 발명은 통합 토큰 분리 및 번역을 효과적으로 처리할 뿐만 아니라 미등록어 문제를 효과적으로 처리하기 위한 특별 자질들을 적용한 로그-리니어(log-linear) 모델을 취하고 토큰 분리 및 번역을 통합함으로써, 중국어-영어 및 한국어-중국어 번역 모두에서 1-베스트 토큰 분리 및 격자들을 이용하는 번역 방식보다 번역 성능을 향상시킬 수 있는 효과가 있다.

예를 들면, 본 발명은, 소스 측에서의 토큰 분리 과정과 타겟 측에서의 번역 과정을 동시에 수행함으로써, 대용량의 중국어-영어 번역에서 +1.46 BLEU 이상으로 성능을 현저하게 향상시킬 수 있다. 또한, 본 발명은, 중국어 단어 세그먼테이션 오류를 8.7% 정도로 감소시킬 수 있는 효과가 있다. 또한, 본 발명은 한국어-중국어 번역에 대해서도 성능을 개선시킬 수 있는 효과가 있다.

도 1 은 종래의 통계적 기계 번역 시스템에서 토큰 분리 과정과 번역 과정에 대한 개념도,

도 2 는 본 발명에 따른 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치에 대한 일실시예 개념도,

도 3 은 본 발명에 따른 통계적 기계 번역 시스템에서의 통합 디코딩 장치의 일실시예 구성도,

도 4 는 본 발명에 적용되는 입력 문자열의 토큰 분리 과정에 대한 일실시예 예시도,

도 5 는 본 발명에 따른 통합 디코딩 장치에서의 통합 디코딩 과정에 대한 일실시예 예시도,

도 6 은 본 발명에 따른 토큰 분리 및 번역 과정을 통합한 통합 디코딩 방법에 대한 일실시예 흐름도이다.

* 도면의 주요 부분에 대한 부호의 설명

200: 통합 디코딩 장치 210: 후보 토큰 생성부

220: 확률 계산부 230: 미등록어 처리부

240: 번역부 300: 학습 장치

310: 토큰 분리부 320: 번역 모델 학습부

330: 언어 모델 학습부

이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.

도 2 는 본 발명에 따른 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치에 대한 일실시예 개념도이다.

본 발명에 따른 통합 디코딩 장치(200)는 통계적 기계 번역에 관한 것으로, 토큰 분리 과정(Tokenization)과 번역 과정을 함께 수행함으로써 서로 다른 언어 사이에서 번역을 위한 단어 단위가 틀려 번역 성능이 저하되는 문제를 해결하기 위한 것이다. 통합 디코딩 장치(200)는 입력 문자열을 디코딩하는 동안 번역을 위한 토큰 분리 과정과 번역 과정을 함께 처리함으로써 번역 성능을 개선하기 위한 것이다. 통합 디코딩 장치(200)는 입력 언어 문자열을 위한 최상의 번역과 최적화된 토큰을 찾기 위해 디코딩 시간 동안에 토큰 분리 과정과 번역 과정을 함께 수행한다.

도 2에 도시된 바와 같이, 통합 디코딩 장치(200)는 소스 측에서 입력 문자열을 입력받는다. 그리고 통합 디코딩 장치(200)는 토큰 분리 과정과 번역 과정을 동시에 수행한다. 통합 디코딩 장치(200)는 이러한 통합 과정을 통해 소스 측에서 토큰 분리된 문자열과 타겟 측의 대역어구를 출력할 수 있다.

이하, 도 3을 참조하여 본 발명에 따른 토큰 분리 및 번역 과정의 통합 디코딩 장치(200)의 구성 요소 각각에 대하여 살펴보기로 한다.

도 3 은 본 발명에 따른 통계적 기계 번역 시스템에서의 통합 디코딩 장치의 일실시예 구성도이다.

도 3에 도시된 바와 같이, 통계적 기계 번역 시스템은 학습 장치(300) 및 통합 디코딩 장치(200)를 포함한다. 여기서, 학습 장치(300)는 토큰 분리부(310), 번역 모델 학습부(320) 및 언어 모델 학습부(330)를 포함한다. 또한, 통합 디코딩 장치(200)는 후보 토큰 생성부(210), 확률 계산부(220), 미등록어 처리부(230) 및 번역부(240)를 포함한다.

본 발명에 따른 통합 디코딩 장치(200)는 디코딩 과정에서 토큰 분리 과정과 번역 과정을 하나의 과정으로 통합하여 수행한다. 학습 장치(300)는 동기적 문맥자유 문법(Synchronous Context Free Grammar)을 이용하여 계층적 구문 기반의 통계적 기계 번역 모델을 실행한다. 여기서, 본 발명에 적용되는 통계적 기계 번역 모델은 계층적 구문 기반의 통계적 기계 번역 모델로 제한되지 않는다.

우선, 학습 장치(300)의 구성요소 각각에 대하여 살펴보면 다음과 같다.

학습 장치(300)는 병렬 말뭉치와 단일어 말뭉치를 입력받는다.

그리고 토큰 분리부(310)는 입력된 병렬 말뭉치를 토큰 분리하여 토큰 분리된 데이터를 생성한다.

이어서, 번역 모델 학습부(320)는 토큰 분리부(310)에서 생성된 토큰 분리된 데이터를 이용하여 번역 모델을 학습한다. 여기서, 학습된 번역 모델은 데이터베이스 형태로 번역 모델 DB에 저장될 수 있다.

한편, 언어 모델 학습부(330)는 학습 장치(300)로 입력된 단일어 말뭉치를 이용하여 언어 모델을 학습하여 언어 모델을 생성한다. 여기서, 생성된 언어 모델은 데이터베이스 형태로 언어 모델 DB에 저장될 수 있다.

도 2에 도시된 바와 같이, 통합 디코딩 장치(200)는 입력으로서 토큰 분리되지 않은 입력 문자열을 입력받는다. 그리고 통합 디코딩 장치(200)는 타겟 측에 대해 해당 대역구문을 검색하는 동안에 소스 측의 입력 문자열을 토큰 분리시킨다. 계층적 구문 기반의 통계적 기계 번역에 대한 규칙들(Rules) 즉, 번역 모델들은 토큰 분리 정보를 포함하기 때문에, 통합 디코딩 장치(200)는 번역 모델들의 타겟 측에서의 번역 과정과 번역 모델들의 소스 측에서의 토큰 분리 과정을 동시에 수행할 수 있다.

이하, 통합 디코딩 장치(200)의 구성요소 각각에 대하여 살펴보면 다음과 같다. 여기서, 통합 디코딩 장치(200)는 병렬 말뭉치의 토큰 분리된 데이터로부터 학습된 번역 모델을 저장하는 번역 모델 데이터베이스 또는 단일어 말뭉치로부터 학습된 언어 모델을 저장하는 언어 모델 데이터베이스를 포함하여 이루어질 수 있다. 통합 디코딩 장치(200)는 문자열 기반의 번역 모델이 저장된 문자열 기반의 번역 모델 데이터베이스를 더 포함하여 이루어질 수 있다.

후보 토큰 생성부(210)는 입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성한다. 후보 토큰 생성부(210)는 입력 문자 시퀀스에서 단어의 시작 문자, 단어의 중간 문자, 단어의 끝 문자, 하나의 문자 단어 중 적어도 하나를 이용하여 문자를 라벨링한다.

확률 계산부(220)는 후보 토큰 생성부(210)에서 생성된 각각의 후보 토큰들의 토큰화 확률과 언어모델을 결합하여 종합적 토큰화 확률을 계산한다. 확률 계산부(220)는 언어 모델 학습부(330)에서 학습된 언어 모델을 이용하여 토큰 분리된 확률을 계산한다. 확률 계산부(220)는 언어 모델 DB에 저장된 언어 모델을 이용할 수 있다. 여기서, 확률 계산부(220)는 생성된 각각의 후보 토큰들의 토큰 분리 확률을 N-그램 모델을 이용하여 계산한다.

미등록어 처리부(230)는 확률 계산부(220)에서 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리한다. 미등록 처리부(230)는 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 수를 조절할 수 있다.

번역부(240)는 확률 계산부(220)에서 계산된 후보 토큰들의 확률 값들과 미등록어 처리부(230)에서 처리된 미등록어 처리 결과를 이용하여 번역 모델에 따라 입력 문자 시퀀스에 대응하는 대역어구를 생성한다. 번역부(240)는 번역 모델 학습부(320)에서 학습된 번역 모델에 따라 입력 문자 시퀀스에 대응하는 대역어구를 생성한다. 번역부(240)는 번역 모델 DB에 저장된 번역 모델을 이용할 수 있다. 번역부(240)는 확률 계산부(220)에서 계산된 후보 토큰들의 확률 값들과 미등록어 처리부(230)에서의 미등록어 처리 결과를 로그-선형적으로 더하여 입력 문자 시퀀스에 대응하는 대역어구를 번역 모델에 따라 생성한다.

도 4 는 본 발명에 적용되는 입력 문자열의 토큰 분리 과정에 대한 일실시예 예시도이다.

도 4에 도시된 바와 같이, "401"에서는 중국어로 이루어진 중국어 문자열과 대응되는 영어 문자열을 나타내고 있다. 중국어 문자열이 "陶菲克有望奪分"(tao fei ke you wang duo fen)이고, 영어 문자열이 "Taufik will have the chance to gain a point"인 경우에서의 중국어 문자열 및 영어 문자열(401)을 살펴보면 다음과 같다. "401" 문자열 예시에서는 중국어로 이루어진 문자열들과 영어로 이루어진 문자열들 간의 정렬 관계가 나타나 있다.

이러한 중국어 문장에 대해서 서로 다른 토큰 분리 과정에 의해 토큰 분리된 예시(402 및 403)가 나타나 있다. 또한, 서로 다른 예시(402 및 403)에 의해 생성된 격자 형태의 토큰 분리 과정의 예시(404)가 나타나 있다.

도 5 는 본 발명에 따른 통합 디코딩 장치에서의 통합 디코딩 과정에 대한 일실시예 예시도이다.

도 5에 도시된 바와 같이, 통합 디코딩 장치(200)는 도 4의 입력 중국어 문자열(401)을 입력받으면, 하기의 [표 1]에 나타난 번역 모델을 이용하여 토큰 분리 과정과 번역 과정을 함께 수행한다.

표 1

본 발명에 따른 통합 디코딩 장치(200)는 디코딩 동안에 토큰 분리 과정을 수행함으로써, 프레임워크 내에서 번역 자질들(Features)과 함께 토큰 분리 모델들을 통합할 수 있다. 통합 디코딩 장치(200)는 토큰 분리 과정 및 번역 과정을 상호보완적으로 수행한다. 통합 디코딩 장치(200)는 토큰 분리 과정에서 최적의 토큰 분리된 결과들을 번역 과정으로 제공하고, 번역 과정에서 모호성을 제거하는 토큰 분리 과정을 도와준다. 형식적으로, 유도(D: Derivation)의 확률은 하기의 [수학식 1]에 의해 나타내진다.

수학식 1

여기서,

는 번역 과정 및 토큰 분리 과정을 포함하는 D에 의해 정의된 자질들을 나타내고,

는 자질들의 가중치들을 나타낸다. 통합 디코딩 장치(200)는 16개의 자질들을 이용한다.

16개의 자질들을 살펴보면, 8개의 일반적인 번역 자질들은 4개의 번역 모델 스코어들(예컨대, 직접 및 역 구문 번역 스코어들 및 직접 및 역 어휘 번역 스코어들)과, 타겟 측의 언어 모델과, 구문을 이루는 단어들의 빈도에 대한 3개의 페널티들(Penalties)를 포함한다. 8개의 일반적인 번역 자질들은 학습된 번역 모델과 적용된 특수 번역규칙(glue rule)의 빈도수를 나타낸다.

3개의 토큰 분리 자질들은 최대 엔트로피 모델, 언어 모델 및 소스 측의 단어 빈도수를 포함한다.

5개의 미등록어(OOV: Out Of Vocabulary) 자질들은 미등록어 문제를 처리하기 위한 것이다. 통합 디코딩 장치(200)는 미등록어 문자 빈도수(OCC: OOV Character Count)와 4개의 미등록어 디스카운트(OD: OOV Discount) 자질들을 이용한다.

한편, 후보 토큰 생성부(210)는 최대 엔트로피 모델(ME: Maximum Entropy model)을 입력 문자 시퀀스에 적용하여 복수의 후보 토큰들을 생성한다. 토큰 분리 과정에 대한 최대 엔트로피 모델은 토큰 분리 과정을 태깅 문제로 제시함으로써 생성된다. 후보 토큰 생성부(210)는 하기의 4개의 타입을 이용하여 문자에 대한 범위 태그를 할당한다.

4개의 타입을 살펴보면, "b"는 단어의 시작 문자를 나타내고, "m"은 단어의 중간 문자를 나타내고, "e"는 단어의 끝 문자를 나타내고, "s"는 하나의 문자 단어를 나타낸다. 예를 들어, 라벨링 규격에 따르면, 후보 토큰 생성부(210)는 문자열 "you wang"의 토큰인 "you-wang"에 대해서 라벨 시퀀스 "b e"를 처음으로 생성한다. 그리고 후보 토큰 생성부(210)는 하기의 [수학식 2]와 같이 이러한 토큰 분리 과정에 대한 확률을 계산한다.

수학식 2

형식적으로, 태그

를 가진 문자 시퀀스

의 확률은 하기의 [수학식 3]에 의해서 계산된다.

수학식 3

최대 엔트로피 모델 내에서, 문자 "C"를 태그 "l"로 할당하는 확률은 하기의 [수학식 4]와 같이 나타난다.

수학식 4

여기서,

는 자질인 반면,

는 해당 가중치를 나타낸다.

한편, 언어 모델(LM)을 살펴보면, 확률 계산부(230)는 L 단어들을 가진 토큰

의 확률을 간단하지만 효과적인 n-그램 언어 모델을 이용한다. 확률 계산부(230)는 하기의 [수학식 5]에 의해 n-그램 언어 모델의 확률을 계산한다.

수학식 5

여기서,

는 L 단어들을 가진 토큰을 의미한다. 확률 계산부(230)는 하기의 [수학식 6]에 의해 3-그램 모델 내에서 도 4의 "402" 예시에서 도시된 토큰의 확률을 계산한다.

수학식 6

한편, 미등록어 처리부(230)는 단어 빈도수(WC: Word Counts)를 이용하여 토큰에서의 단어들의 개수를 카운트한다. 언어 모델은 편향된 방식으로 짧은 문장들에 더욱 높은 확률들을 할당하는 경향이 있다. 이러한 자질은 긴 문장들을 높은 확률을 줌으로써 언어 모델 점수를 보상할 수 있다. 미등록어 처리부(230)는 이러한 자질을 이용하여 대역어구에 대한 토큰 단위를 최적화할 수 있다. 더욱 큰 단위가 번역 과정에서 선호된다면, 미등록어 처리부(230)는 더 많은 단어들을 포함하는 토큰을 제한하기 위해 이러한 자질을 이용할 수 있다.

미등록어 처리부(230)는 미등록 문제를 처리한다. 명백히, 미등록어 처리부(230)는 학습된 번역 모델만을 이용함으로써, 가능성 있는 토큰 및 대역어구를 처리할 수 있다. 여기서, 학습된 번역 모델들은 번역 과정의 디코딩과 동일하다. 그러나 학습된 번역 모델을 이용하는 것은 가능한 토큰의 검색 공간을 제한할 수 있다. "tao fei ke"라는 문장을 살펴보면, "taofeike"는 미등록어 문제가 있다. 토큰 "taofeike"는 제한된 방식 내에서 유도될 수 없다. 그러나 미등록어 처리부(230)는 모든 가능성 있는 토큰을 유도할 수 있다는 보장이 필요하다. 왜냐하면, 이러한 편향된 방식은 통합 디코딩 장치(200)의 성능을 떨어뜨린다.

통합 디코딩 장치(200)의 성능을 개선하기 위해, 미등록어 처리부(230)는 미등록어 문자 빈도수(OCC: OOV Character Count)를 추정한다. 미등록어 처리부(230)는 이러한 OCC 자질을 이용하여 미등록어에 포함되는 문자들의 개수를 카운트한다. 미등록어 처리부(230)는 이러한 자질에 의해 미등록어 문자들의 개수를 제어한다. 예를 들면, "Taofeike"는 도 5의 유도에서 미등록이다. 그리고 그 유도에 대한 OCC 자질은 "3"이 된다.

또한, 미등록어 처리부(230)는 미등록어 디스카운트(OD: OOV Discount)를 수행한다. 미등록어 처리부(230)는 미등록어가 되는 문자들의 다른 빈도를 이용하여 단어가 될 수 있는 기회를 구별하도록 미등록어 디스카운트 자질(OD_i)을 이용한다. 여기서, 미등록어 디스카운트 자질(OD_i)은 i번째 문자를 가진 미등록어의 개수를 나타낸다. 미등록어 처리부(230)는 4개의 미등록어 디스카운트 자질들을 이용한다. 예를 들면, 미등록어 처리부(230)는 4개의 미등록어 디스카운트 자질들을 "1", "2", "3" 및 "4+"로 나타낸다. 미등록어 디스카운트 자질은 다른 토큰들을 구별하기는 어렵다. "tao fei ke" 토큰의 단어들이 모두 미등록어라고 가정하면, 그것에 대한 미등록어 카운트 자질은 전체 미등록어와 같은 "taofeike"를 고려한 것과 동일하다. 단어 "taofeike"가 미등록어라면, OD₃는 "1"을 카운트한다.

통합 디코딩 장치(200)에서의 통합 디코딩 이전에 미리 학습 장치(300)에 의해 번역 모델과 언어 모델이 생성된다. 여기서, 번역 모델은 병렬 말뭉치로부터 학습되며, 문자열 기반의 번역 모델일 수 있다. 또한, 언어 모델은 단일 단일어 말뭉치로부터 학습된다. 여기서, 학습된 번역 모델은 데이터베이스 형태로 번역 모델 DB에 저장될 수 있다. 또한, 학습된 언어 모델은 데이터베이스 형태로 언어 모델 DB에 저장될 수 있다.

후보 토큰 생성부(210)는 입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성한다(S602). 후보 토큰의 생성 과정에서 후보 토큰 생성부(210)는 입력 문자 시퀀스에서 단어의 시작 문자, 단어의 중간 문자, 단어의 끝 문자, 하나의 문자 단어 중 적어도 하나를 이용하여 문자를 태깅한다.

그리고 확률 계산부(220)는 후보 토큰 생성부(210)에서 생성된 각각의 후보 토큰들의 토큰 분리 확률과 언어 모델을 결합하여 종합적 토큰 분리 확률 계산을 계산한다(S604). 확률 계산부(220)는 미리 학습된 언어 모델을 이용하여 토큰 분리의 확률을 계산할 수 있다. 확률 계산부(220)는 언어 모델 DB에 미리 저장된 언어 모델을 이용할 수 있다.

미등록어 처리부(230)는 확률 계산부(220)에서 생성된 후보 토큰 중에서 미등록어의 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리한다(S606). 미등록 처리부(230)는 생성된 후보 토큰 중에서 미등록어에 대한 빈도수 또는 단어 디스카운트 정보에 따른 빈도수를 조절할 수 있다. 단어 빈도 수는 하나의 단어가 이루어질 수 있는 평균 단어 빈도수를 의미하며, 미등록 처리부(230)는 이를 조절하여 미등록어를 적용할지 여부를 결정할 수 있다. 또한, 미등록 처리부(230)는 단어 디스카운트 정보에 따른 빈도수를 "1, 2, 3 및 4+"와 같이 조절하여 미등록어를 적용할지 여부를 결정할 수 있다.

번역부(240)는 확률 계산부(220)에서 계산된 후보 토큰들의 확률 값들과 미등록어 처리부(230)에서 처리된 미등록어 처리 결과를 이용하여 번역 모델에 따라 입력 문자 시퀀스에 대응하는 대역어구를 번역 모델에 따라 생성한다(S608). 번역부(240)는 번역 모델 DB에 저장된 번역 모델을 이용할 수 있다. 번역부(240)는 확률 계산부(220)에서 계산된 후보 토큰들의 확률 값들과 미등록어 처리부(230)에서의 미등록어 처리 결과를 lon-linear 모델에 따라 입력 문자 시퀀스에 대응하는 대역어구를 생성한다.

한편, 본 발명은 상기 통합 디코딩 방법을 소프트웨어적인 프로그램으로 구현하여 컴퓨터로 읽을 수 있는 소정 기록매체에 기록해 둠으로써 다양한 재생장치에 적용할 수 있다.

다양한 재생장치는 PC, 노트북, 휴대용 단말 등일 수 있다.

예컨대, 기록매체는 각 재생장치의 내장형으로 하드디스크, 플래시 메모리, RAM, ROM 등이거나, 외장형으로 CD-R, CD-RW와 같은 광디스크, 콤팩트 플래시 카드, 스마트 미디어, 메모리 스틱, 멀티미디어 카드일 수 있다.

이 경우, 컴퓨터로 읽을 수 있는 기록매체에 기록한 프로그램은, 앞서 설명한 바와 같이, 입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성하는 후보 토큰 생성 기능; 상기 생성된 각각의 후보 토큰들의 토큰 분리 확률을 언어 모델을 이용하여 계산하는 확률 계산 기능; 상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 카운트 및 디스카운트 정보를 이용하여 미등록어를 처리하는 미등록어 처리 기능; 및 상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 이용하여 상기 입력 문자 시퀀스에 대응하는 대역어구를 생성하는 번역 기능을 포함하여 실행될 수 있다.

여기서, 각 과정에서의 구체적인 기술은 상기의 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치 및 그 방법의 구성과 동일하므로 중복되는 기술 설명은 생략한다.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

본 발명은 통계적 기계 번역의 디코딩 과정에서 소스 언어 문자열에 대해서 토큰 분리 및 대역어구를 검색하여 토큰 및 번역 과정을 함께 수행함으로써, 번역 성능을 향상시키고 세그먼테이션의 오류를 감소시킬 수 있다.

Claims

입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성하는 후보 토큰 생성부;

상기 생성된 각각의 후보 토큰들의 토큰 분리 확률을 언어 모델을 이용하여 계산하는 확률 계산부;

상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리하는 미등록어 처리부; 및

상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 이용하여 상기 입력 문자 시퀀스에 대응하는 대역어구를 번역 모델에 따라 생성하는 번역부

를 포함하는 토큰 분리 및 번역 과정을 통합한 통합 디코딩 장치.
제 1 항에 있어서,

병렬 말뭉치의 토큰 분리된 데이터로부터 학습된 번역 모델을 저장하는 번역 모델 데이터베이스; 및

단일어 말뭉치로부터 학습된 언어 모델을 저장하는 언어 모델 데이터베이스

를 더 포함하는 통합 디코딩 장치.
제 2 항에 있어서,

상기 번역 모델 데이터베이스는,

문자열 기반의 번역 모델을 저장하는 통합 디코딩 장치.
제 1 항에 있어서,

상기 후보 토큰 생성부는,

상기 입력 문자 시퀀스에서 단어의 시작에 해당하는 문자, 단어의 중간에 출현하는 문자, 단어의 끝에 나타나는 문자, 하나의 문자로 구성된 단어 중 적어도 하나의 문자를 단어 생성 관점에서 태깅하는 통합 디코딩 장치.
제 1 항에 있어서,

상기 확률 계산부는,

상기 생성된 각각의 후보 토큰들의 토큰 분리 확률과 N-그램 언어 모델을 결합하여 계산하는 통합 디코딩 장치.
제 1 항에 있어서,

상기 미등록어 처리부는,

상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 수를 조절하는 통합 디코딩 장치.
제 1 항에 있어서,

상기 번역부는,

상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 로그-리니어(log-linear) 모델에 적용하여 상기 입력 문자 시퀀스에 대응하는 번역문을 생성하는 통합 디코딩 장치.
입력 문자 시퀀스에 최대 엔트로피 모델을 적용하여 복수의 후보 토큰들을 생성하는 후보 토큰 생성 단계;

상기 생성된 각각의 후보 토큰들의 토큰 분리 확률을 언어 모델과 결합하여 계산하는 확률 계산 단계;

상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 및 디스카운트 정보를 이용하여 미등록어를 처리하는 미등록어 처리 단계; 및

상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 이용하여 상기 입력 문자 시퀀스에 대응하는 대역어구를 생성하는 번역 단계

를 포함하는 토큰 분리 및 번역 과정을 통합한 통합 디코딩 방법.
제 8 항에 있어서,

상기 번역 모델은,

문자열 기반의 번역 모델인 것을 특징으로 하는 통합 디코딩 방법.
제 8 항에 있어서,

상기 후보 토큰 생성 단계는,

상기 입력 문자 시퀀스에서 단어의 시작에 해당하는 문자, 단어의 중간에 출현하는 문자, 단어의 끝에 나타나는 문자, 하나의 문자로 구성된 단어 중 적어도 하나의 문자를 단어 생성 관점에서 태깅하는 통합 디코딩 방법.
제 8 항에 있어서,

상기 확률 계산 단계는,

상기 생성된 각각의 후보 토큰들의 토큰 분리 확률과 N-그램 언어 모델을 결합하여 계산하는 통합 디코딩 방법.
제 8 항에 있어서,

상기 미등록어 처리 단계는,

상기 생성된 후보 토큰 중에서 미등록어에 대한 단어 빈도 수를 조절하는 통합 디코딩 방법.
제 8 항에 있어서,

상기 번역 단계는,

상기 계산된 후보 토큰들의 확률 값들과 상기 미등록어 처리 결과를 로그 리니어(log-linear) 모델에 적용하여 상기 입력 문자 시퀀스에 대응하는 번역문을 생성하는 통합 디코딩 방법.
제 8 항 내지 제 13 항 어느 한 항에 의한 과정을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.