KR100853173B1

KR100853173B1 - 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법

Info

Publication number: KR100853173B1
Application number: KR1020070006707A
Authority: KR
Inventors: 이종훈; 이동현; 이근배
Original assignee: 포항공과대학교 산학협력단
Priority date: 2007-01-22
Filing date: 2007-01-22
Publication date: 2008-08-20
Also published as: KR20080069077A

Abstract

본 발명은 통계적 자동 번역 기술에 기반하여 번역 성능을 높이기 위한 음성 자동 통역 시스템, 및 그에 적용되는 통계적 자동 번역기의 번역 처리 방법 및 훈련 방법에 관한 것이다. 음성 자동 통역 시스템은 크게 음성 인식기, 통계적 자동 번역기, 음성 합성기의 세 부분으로 나눌 수 있으며 본 발명에서 제시하는 기술은 음성 인식기 결과를 통계적 자동 번역기에 전달할 때의 중간 결과 가공 방법 및 그에 따른 통계적 자동 번역기 훈련 방법과 음성 인식기로부터 다수의 후보를 생성하여 번역결과를 토대로 순위를 재정립하는 방법 및 음성 인식기의 언어 모델을 상황별로 나누어 적용하는 방법을 포함한다. 이 기술을 통해 보다 높은 성능을 가진 시스템을 구축할 수 있다.

통계적 자동 번역, 자동 통역, 전처리, 후처리, 기계 번역, 음성 인식, 음성 합성

Description

통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및 그에 적용되는 번역 처리 방법 및 그 훈련방법{Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof}

도 1은 자동 통역기의 일부인 통계적 자동 번역기의 훈련 모듈을 나타내는 블록도이다.

도 2는 본 발명에서 개선하고자 하는 통계적 자동 번역기를 이용한 자동 통역 시스템의 전형적인 구성을 나타내는 블록도이다.

도 3은 전체적인 시스템에서 엔-베스트(n-best) 리랭킹 과정을 나타내는 블록도이다.

<도면의 주요 부분에 대한 부호의 설명>

20...음성 인식기 40...통계적 자동 번역기

60...음성 합성기 01...A언어 전처리 모듈

02...B언어 전처리 모듈 03...A언어 후처리 모듈

본 발명은 통계적 자동 번역 기술에 기반하여 번역 성능을 높이기 위한 음성 자동 통역 시스템, 및 그에 적용되는 통계적 자동 번역기의 번역 처리 방법 및 훈련 방법에 관한 것으로, 특히 음성 신호를 입력으로 받아 텍스트 형태의 출력으로 변환해주는 음성 인식기와 통계적 분석을 통하여 각각의 언어 말뭉치들로부터 번역 모델과 언어 모델을 생성하여 문장을 번역하는 통계적 자동 번역기를 효과적으로 통합하고 성능을 향상시키기 위한, 통계적 자동 번역 기술에 기반하여 번역 성능을 높이기 위한 음성 자동 통역 시스템, 및 그에 적용되는 통계적 자동 번역기의 번역 전·후처리 및 훈련 방법에 관한 것이다.

자동 통역 시스템은 한 언어로 된 음성을 입력하여 다른 언어로 된 음성으로 번역하여 출력한다. 일반적으로 자동 통역 시스템은 음성 인식기, 자동 번역기, 음성 합성기로 나누어진다.

자동 번역 분야는 컴퓨터가 발달한 시점부터 많은 연구가 이루어졌다. 일반적으로 규칙 기반 방식이 많고, 최근에는 통계적 방식이 많이 사용되고 있다. 일반적으로 규칙 기반 방식은 언어에 영향을 많이 받고, 시스템 구축에 많은 소요비용이 들며, 대화체에 대해서는 취약한 모습을 보인다. 통계적 방식은 규칙 기반 방식의 문제점을 어느 정도 해소하지만, 언어들 사이의 특징을 잘 반영하지 못해 문법적으로 간단한 오류를 범하는 경우가 있다.

최근 음성 인식 기술이 발달하면서 자동 통역 시스템 개발로 이어졌다. 자동 통역 시스템의 종래 기술로는 2000년 12월 5일 공개된 공개번호 특2000-0072073의 "음성 인식 및 음성 합성 기술을 이용한 자동동시통역서비스 방법 및 그 시스 템"과 2003년 9월 19일 공개된 공개번호 특2002-0076044의 "대화 모델을 이용한 자동 통역 장치 및 방법" 이외에도 많이 존재한다.

종래 기술의 대부분도 역시 음성 인식기, 자동 번역기, 음성 합성기가 순차적으로 연결되어 있다. 이러한 기존의 순차적인 연결 방식의 가장 큰 약점은 음성 인식기에서 오류가 발생했을 때 그 영향이 시스템 전체에 퍼져 결과가 정상적으로 나올 수 없다는데 있다. 또한 최근에 음성 인식 기술이 많이 발전했지만, 오류가 존재하지 않는 음성 인식기는 불가능에 가깝다.

상기 한국공개특허 특2002-0076044의 "대화 모델을 이용한 자동 통역 장치 및 방법"은 이전 언어 분석을 통해 얻은 적어도 하나의 예측 후보자 문장을 참조한 음성 인식 과정을 거쳐 음성 인식의 정확도를 높이는 방법을 사용했지만, 이 과정에서도 오류가 발생할 수 있고, 예문 데이터베이스를 참조하여 번역하는 방식으로 표현 범위에 큰 제약이 있다.

즉, 종래의 기술로는 번역기의 성능이 다소 부족하고, 음성 인식 오류가 발생할 때 정확한 결과가 보장되지 않는다.

본 발명이 이루고자 하는 기술적 과제는, 통계적 자동 번역 장치에 기반한 음성 통역 시스템의 성능을 향상시키기 위한, 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및 그에 적용되는 번역 처리 방법 및 그 훈련방법을 제공하는데 그 목적이 있다.

상술한 기술적 과제를 달성하기 위하여, 본 발명은 음성 인식기로부터 다수의 후보를 생성하여 각각에 대해 형태소 태그를 추가하고 번역에 불필요한 단어 제거하는 등의 전처리 기법을 적용한다.

또한 음성 인식기의 언어 모델을 상황별로 나누어 적용하고 번역기의 언어 모델도 문형에 따라 분리하여 적용한다. 한 발화에 대해서 음성인식기가 생성한 여러 개의 후보를 통계적 자동 번역기에 적용하여 실행한 뒤, 번역 점수와 음성 인식 점수의 합을 통해 순위 재정립을 하여 결과를 나타냄으로써, 음성 인식과 번역 결과를 향상시킬 수 있다.

본 발명의 일 측면에 의하면, 본 발명은 음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템에서의 번역 처리 방법에 있어서, 상기 통계적 자동번역기는 번역 대상 언어모델 및 번역모델을 받아서 번역 대상 언어를 번역하며, 상기 통계적 자동번역기의 입력에 번역할 대상 언어의 번역전처리 단계를 포함하고, 상기 번역전처리 단계는 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법을 제공한다.

바람직하기로는 상기 통계적 자동번역기의 출력에 번역된 언어의 번역후처리 단계를 더 포함하며, 상기 번역후처리 단계는 최종적으로 인식 결과와 인식 점수에 따라 상기 통계적 자동 번역기로부터 생성된 번역 결과와 번역 점수를 이용하여 인식 점수와 번역 점수의 합이 높은 순서대로 정렬하여 최종 번역 결과를 출력하도록 하는 것을 특징으로 한다.

바람직하기로는 상기 번역전처리 단계는 상황별로 음성 인식기의 언어 모델을 만들고, 사용자의 상황 선택에 따라 언어 모델을 적용하여 음성 인식을 수행하는 것을 특징으로 한다.

바람직하기로는 상기 번역전처리 단계는 상기 통계적 자동 번역기의 입력, 즉 음성인식 결과 또는 사람에 의한 문장 입력을 형태소 분석을 통해 변환함을 특징으로 한다.

바람직하기로는 상기 번역전처리 단계는 양쪽 언어의 특징상 번역할 수 없거나, 특별한 의미를 가지지 않는 단어를 통계적 자동 번역기의 입력에서 선별하고 미리 제거함으로써 번역 성능을 향상시킴을 특징으로 한다.

바람직하기로는 상기 통계적 자동번역기는 문장 또는 발화의 유형별로 엔-그램 언어 모델을 여러 개의 엔-그램 언어 모델로 나누어 만들고 자동 번역기의 입력에 따라 선택적으로 적용함을 특징으로 한다.

본 발명의 다른 측면에 의하면, 본 발명은 음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템에 있어서, 상기 통계적 자동번역기는 번역 대상 언어모델 및 번역모델을 받아서 번역 대상 언어를 번역하며, 상기 통계적 자동번역기의 입력에 번역할 대상 언어의 번역전처리 모듈을 포함하고, 상기 번역전처리 모듈은 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 음성 자동 통역 시스템을 제공한다.

바람직하기로는 상기 음성 자동 통역 시스템은 상기 통계적 자동번역기의 출력에 번역된 언어의 번역후처리 모듈을 더 포함하며, 상기 번역후처리 모듈은 최종적으로 인식 결과와 인식 점수에 따라 상기 통계적 자동 번역기로부터 생성된 번역 결과와 번역 점수를 이용하여 인식 점수와 번역 점수의 합이 높은 순서대로 정렬하여 최종 번역 결과를 출력하도록 하는 것을 특징으로 한다.

바람직하기로는 상기 음성 자동 통역 시스템의 상기 번역전처리 모듈은 상황별로 음성 인식기의 언어 모델을 만들고, 사용자의 상황 선택에 따라 언어 모델을 적용하여 음성 인식을 수행하거나, 상기 통계적 자동 번역기의 입력, 즉 음성인식 결과 또는 사람에 의한 문장 입력을 형태소 분석을 통해 변환하거나, 및/또는 양쪽 언어의 특징상 번역할 수 없거나, 특별한 의미를 가지지 않는 단어를 통계적 자동 번역기의 입력에서 선별하고 미리 제거함으로써 번역 성능을 향상시킴을 특징으로 한다.

본 발명의 또다른 측면에 의하면, 본 발명은 음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템에서 통계적 번역기 훈련 모듈의 번역 훈련 방법에 있어서, 언어모델 생성 단계와 번역 모델을 생성하는 단계를 포함하며, 언어모델 생성 단계에서는 번역될 언어의 번역전처리 단계를 통해 언어모델을 생성하고, 번역모델을 생성하는 단계는 번역될 언어의 번역전처리단계를 수행한 결과와 번역할 언어의 번역전처리단계를 수행한 결과를 받아서, 단어를 정치하는 단계와 정치된 단어로부터 번역 후보가 되는 구문 쌍을 추출하는 단계를 포함하며, 상기 번역전처리단계는 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 통계적 번역기 훈련 모듈의 번역 훈련 방법을 제공한다.

이하, 첨부된 도면을 참조하여 본 발명의 구성 및 동작을 보다 상세히 설명하기로 한다.

본 발명에 적용되는 번역전·후 처리 기술은 독립적으로도 적용될 수 있고 복합적으로도 적용될 수 있다.

도 1은 자동 통역기의 일부인 통계적 자동 번역기의 훈련 모듈을 나타내는 블록도이다. 도 2는 본 발명에서 개선하고자 하는 통계적 자동 번역기를 이용한 자동 통역 시스템의 전형적인 구성을 나타내는 블록도이다. 도 3은 전체적인 시스템에서 엔-베스트(n-best) 리랭킹 과정을 나타내는 블록도이다.

먼저 기본적인 통계적 자동 통역기의 작동구조를 기술한다.

이하의 모든 설명은 언어 B를 언어 A로 번역한다는 가정 하에 있다. 통계적 번역기는 일반적으로 번역기의 훈련을 위한 과정과 실제 번역을 위한 과정이 각각 독립적으로 구성된다. 도 1은 통계적 번역을 위한 훈련 과정을 나타낸 것이다. 번역기의 훈련을 위해서는 언어 A와 언어 B의 병렬 말뭉치(S1, S2)가 필요하다. 병렬 말뭉치는 같은 의미를 가지는 문장 쌍의 집합이다. 따라서 언어 A의 말뭉치(S1)와 언어 B의 말뭉치(S2)는 같은 수의 문장을 포함하며 같은 위치의 문장끼리는 같은 의미를 가진다. 예를 들어 S1의 10번째 문장과 S2의 10번째 문장은 반드시 같은 의미를 가진다. 이러한 병렬 말뭉치(S1,S2)를 입력으로 하여 통계적 번역기 훈련 모듈(10)은 결과물로 언어 A의 언어모델(S3)과 언어 B를 언어 A로 번역하기 위한 번역 모델(S4)을 생성한다. 이 때 각각의 언어는 통계적 번역기 훈련 모듈(10)에 주어지기 전에 각각 A언어 및 B언어 전처리 모듈(01, 02)을 거쳐 훈련에 유리한 형태로 가공될 필요가 있으며 이를 위해 여러 가지 다양한 방법들이 사용될 수 있다.

통계적 번역기 훈련 모듈(10) 내부에서는 크게 두 가지의 독립적인 과정이 존재하는데 하나는 언어모델 생성 모듈(11)이고, 다른 하나는 번역 모델(S4)을 생성하는 부분(12, 13)이다. 언어모델 생성 모듈(11)은 언어 A의 말뭉치(S1)로부터 엔-그램(n-gram) 언어 모델(S3)을 생성한다. 번역 모델(S4)은 크게 단어를 정치하는 단계와 정치된 단어로부터 번역 후보가 되는 구문 쌍을 추출하는 단계의 두 단계를 거쳐 생성된다. 단어 정치 모듈(12)은 문장 단위로 같은 뜻을 가지도록 정치된 병렬 말뭉치(S1, S2)의 각 문장을 단어 수준에서 정치된 각 단어가 서로 같은 의미를 가지도록 연결하는 단어 정치 단계를 수행한다. 이러한 과정은 다대일로 이루어진다. 예를 들면 S1의 10번째 문장의 3번째 단어와 S2의 10번째 문장의 5, 6, 7번째 단어의 의미가 같다는 것을 표시한다. 이러한 다대일 정치 과정을 한번은 S1에서 S2 방향으로, 다시 한 번은 S2에서 S1 방향으로 실행하여 그 교집합을 이용하면 일대일로 정치된 단어 정보를 얻을 수 있다. 구문 추출 모듈(S13)은 이렇게 얻은 일대일 단어 정치 결과를 가지고 그것을 위배하지 않는 범위 내에서 번역 후보인 구문 쌍을 추출 해내는 번역 후보 구문 쌍 추출단계를 수행한다. 이 때 추출된 구문들에 대해서는 각각 확률 값이 부여되는데 확률 값은 일반적으로 상대적 빈도수를 바탕으로 부여되며, 경우에 따라 여러 가지 방법을 이용할 수 있다.

통계적 자동 통역기의 구조는 도 2에 도시되어 있다. 통계적 자동 통역기는 크게 음성 인식기(20), 통계적 자동 번역기(40), 음성 합성기(60)의 세 부분으로 나눌 수 있다. 전체적인 과정은 언어 B의 음성 데이터가 음성인식기(20)에 의해서 언어 B의 텍스트(30)로 변환되고 이것이 다시 통계적 자동 번역기(40)의 입력으로 주어진다. 이때 번역 성능을 높이기 위해서 음성인식결과가 번역에 적합하게 재조정될 수 있으며 이러한 작업은 앞서 훈련모듈에서 언급했던 B언어의 전처리 모듈(02)에서 처리한다. 통계적 자동 번역기(40)는 텍스트로 주어진 언어 B의 문장을 언어 A로 변환하며 이것은 또 다시 음성합성기(60)의 입력으로 주어지게 된다. 이때 통계적 자동번역기(40)의 결과(50)를 가공하는 과정이 포함될 수 있으며 이 부분은 언어 A 후처리 모듈(03)이 담당한다. 여기서 음성합성기는 프로그램 등록 번호 99-01-22-4014의 "자소열-발음 변환 프로그램(G2P)"과 대한민국 특허 등록번호 0306205의 "발음접속 그래프를 이용한 TTS처리방법 및 연속 음성인식 방법"에서 제안한 방법을 사용한다.

음성 인식기(20)는 언어 B에 대한 것이며 음성 입력을 텍스트로 변환하기 위해 해당 언어의 언어 모델(S6) 및 음향 모델(S5)을 필요로 한다. 통계적 자동 번역기(40)는 언어 B를 언어 A로 변환하며 이러한 변환을 위해 앞서 언급한 훈련모델에서 생성했던 언어 A의 번역모델(S4)과 언어 A의 언어모델(S3)이 필요하다. 만약 음성 번역이 아닌 텍스트 번역에 활용한다면 음성인식기(20)와 음성합성기(60)를 제외한 나머지 단계, 즉 통계적 자동 통역기(40)만이 독립적으로 번역에 사용될 수도 있다.

상술한 설명은 지금까지 연구되어 잘 알려진 통계적 자동 통역기의 일반적인 구조이며, 본 발명은 위의 구조를 바탕으로 한 통계적 자동 통역기의 성능을 높이기 위해 전처리 및/또는 후처리 모듈(01, 02, 03)에 도입할 수 있는 기술들에 관한 것이다.

도 2를 참조하면, 음성 인식기(20)에서는 B언어 음향 모델(S5)과 B언어 모델(S6)을 이용하여 생성한 방대한 탐색 공간에서 음성 신호를 문장으로 디코딩한다. 일반적으로, 음성 인식기(20)에서 사용하는 계산량이 자동 번역기(40)에서 사용하는 계산량보다 훨씬 많다. 즉, 음성 인식기(20)의 처리 범위가 자동 번역기(40)의 처리 범위에 비해 작다. 이를 개선하기 위해, 음성 인식기(20)의 B언어 모델(S6)을 여러 가지 상황 별로 나누어 적용한다. 사용자가 상황을 선택하게 되면, 그 상황에서 사용될 언어 모델(S6)로 탐색 공간을 만들어 음성 인식을 수행한다. 언어 모델(S6)을 분리함에 따라 사용자가 상황을 선택해 주어야 하는 번거로움 이 생기지만, 음성 인식기(20)의 처리 범위를 넓힐 수 있어 실용적일 뿐만 아니라, 속도와 정확도까지 향상될 수 있다.

도 2의 통계적 자동 번역기(40)의 성능을 향상시키기 위해서 전처리 및 후처리 모듈(01, 02, 03)에 적용되는 방법의 하나로 형태소 태그를 추가 시키는 것은 많은 도움이 된다. 음성 번역의 경우 문자열 형태로 전달되는 음성인식결과(30) 또는 텍스트 번역에서의 텍스트 입력에 형태소 분석기를 적용하여 각 형태소 별로 품사 정보를 추가한다. 이때 사용하는 형태소 분석기의 작동원리는 프로그램 등록번호 99-01-22-4013의 "한국어 품사태깅 프로그램(POSTAG)"와 대한민국 특허 등록번호 0303171의 "형태소 접속 그래프를 사용한 형태소 및 구문 분석 방법"에 기술된 바와 같다.

이러한 형태소 분석기를 통해서 문장을 이루고 있는 각 단어는 형태소 단위로 분할됨과 동시에 분할된 각 형태소는 자기 자신의 철자와 그에 대응하는 품사의 태그(tag)가 연결된 형태로 변형되며, 태그정보와 결합된 형태소들을 각각 하나의 단어로 취급하여 통계적 자동 번역기(40)의 입력으로 사용한다.

도 2에 의하면, 통계적 자동 번역기(40)는 사전에 훈련된 병렬 말뭉치(S1, S2)로부터 번역을 학습하여 그것을 통계적 기법에 의해 재조합함으로써 번역을 달성하므로 형태소와 품사가 연결된 형태의 단어를 입력으로 사용하기 위해서는 통계적 자동 번역기(40)의 훈련 당시에 사용하는 말뭉치에도 동일한 조작이 가해져야 한다. 예를 들어 원래의 병렬 말뭉치(S1, S2)에 '안녕하세요', 'Hello' 와 같은 한 쌍의 문장이 포함되어 있었다고 하면, 이 문장은 형태소 분석기의 적용에 의해 '안 녕/NNG 하/XSV 시/EP 어요/EF', 'Hello/UH' 로 변환되며 이러한 문장들의 집합을 새로운 병렬 말뭉치(S1, S2)로 하여 번역기 훈련 모듈(10)의 입력으로 한다. 이때 음성인식결과(30)는 '안녕 하세요'와 같은 형태로 나타나게 되며 여기에 형태소 분석기를 적용하여 '안녕/NNG 하/XSV 시/EP 어요/EF'와 같은 형태로 바꾸어 즉, '안녕/NNG'와 같은 형태를 하나의 단어로 취급하여 번역을 수행하도록 한다. 이때 사용되는 형태소 분석기는 기존에 알려진 어떠한 것을 사용해도 관계없으나 훈련 시와 실제 번역 시에 동일한 것이 적용되어야 한다. 또한 양쪽 언어의 특성에 따라 양쪽 모두 형태소 분석 결과를 사용할 수도 있고 어느 한쪽만 형태소 분석을 적용할 수도 있다. 만일 언어 A에도 형태소 태그를 추가했을 경우 통계적 번역기의 결과로 나오는 텍스트에도 형태소 태그가 달려 있을 것이므로 이를 제거하기 위한 후처리 과정이 후처리모듈(03)에 포함되어야 한다.

서로 다른 두 언어 사이에는 두 언어의 문법적 차이 또는 어휘의 차이로 인해서 대응되는 번역이 특별히 존재하지 않는 단어가 존재할 수 있으며, 이 중에는 문법적 차이로 인해 번역시 무시될 수밖에 없는 단어가 있는데 이들은 일반적으로 기능어 위주의 특정 품사에 해당하는 경우가 많다. 따라서 이러한 단어들은 품사태그 및 철자 정보만을 이용하여 상당수 식별해 내는 것이 가능하며, 따라서 이를 미리 삭제할 수 있다. 이러한 조작은 번역의 성능을 높이는데 기여할 수 있다. 이러한 단어의 대표적인 예로 영한 번역에서 나타나는 The, a, an 등의 관사를 들 수 있다. 관사는 간혹 명시적으로 번역되는 예도 있으나 일반적으로 한국어 문장에서 대응되는 단어를 넣지 않는다. 따라서 이러한 단어들을 음성인식결과(30) 즉, 통계 적 자동 번역기(40)의 입력 텍스트에서 사전에 삭제함으로써 번역 성능을 향상시킬 수 있다. 즉, 원래 'where can I get on a sightseeing boat', '어디에서 유람선을 탈 수 있습니까'와 같은 문장으로 영한 번역의 훈련에 포함시키고자 한다면 영어 문장 쪽이 'Where can I get on sightseeing boat'와 같이 수정되고 실제 번역 시에도 같은 방식의 조작을 가하는 것이 더 높은 성능을 기대할 수 있게 해 준다. 이를 위해서 통계적 자동 번역기(40)의 훈련 과정에서도 같은 조작을 가한 말뭉치(S1, S2)를 사용해야 하는데, 통계적 자동 번역기의 훈련 모듈(10)은 양쪽 언어의 단어들의 동시발생 빈도를 바탕으로 특정 단어가 어떤 단어의 번역인가를 추정하는 작업을 주로 진행하므로 번역되지 않을 단어를 사전에 삭제함으로써 이러한 과정을 도울 수 있다. 이러한 단어를 자동적으로 미리 삭제하기 위해서는 단순히 형태소 분석 결과에 의존하여 특정 품사를 삭제할 수도 있고 특정 철자를 가지는 단어를 삭제하는 규칙을 만들 수도 있다.

또한, 성능 향상의 목적을 달성하기 위해서 양쪽 언어의 특성에 맞는 어떠한 방법을 사용하여도 좋으나 이 역시 훈련 시에 적용하는 내용과 실제 번역 시에 적용하는 내용의 동일함이 보장되어야 한다.

목적 언어 생성에서 유창성을 보장하기 위해서 통계적 자동 번역기(40)는 엔-그램(n-gram) 언어 모델(S3)을 사용한다. 즉, 주어진 말뭉치(S1) 상에서 특정 n개 단어 이하의 길이를 갖는 단어 열이 관측되는 빈도수를 기준으로 새롭게 주어진 임의의 단어 열이 얼마나 해당 언어에서 적합한 단어 순서인지를 판별하는 기준으로 삼는다. 이때 같은 어휘를 가지고도 여러 가지 배열이 문법적으로 정당할 수 있는 데, 영어의 평서문과 의문문에서 주어와 동사가 도치되는 현상이 대표적인 예이다. 예를 들어 'Is there' 와 'There is' 는 양쪽 다 정당한 단어 열이므로 그에 합당한 발생빈도를 가지고 있을 것이다. 즉, 양쪽 모두 충분히 좋은 단어 열이다. 따라서 엔-그램(n-gram) 언어 모델(S3)에서는 애매성이 발생한다. 즉, '저기에 소년이 있다'라는 문장을 번역하는 과정에서 'There is a boy'라는 문장과 'Is there a boy'라는 문장의 우열을 가리고자 할 때 엔-그램(n-gram) 언어 모델(S3)은 큰 역할을 할 수 없다. 이러한 문제는 서로 다른 언어 간의 동시 발생빈도를 고려한 번역 모델(S4)에 의해서 해소되지만 완벽하지는 않다. 따라서 이러한 애매성 해소를 돕기 위한 방법으로 문형에 따라 언어 모델(S3)을 분리하는 방법을 택할 수 있다. 여기서 문형이란 의문문, 평서문, 감탄문 등의 범주를 의미한다.

일반적으로 한 언어의 문장이 다른 언어로 번역될 때 의문문은 의문문으로, 평서문은 평서문으로 번역된다. 즉, 번역에 의해서 원래의 문형이 변하지 않는 경향이 있다. 또한 어떤 문장을 가지고 그것이 어떤 문형에 해당하는지 구별하는 것은 각 언어의 문법적 특성을 이용하면 가능하다. 영어의 경우 어순을 이용할 수 있고 한국어의 경우 어미를 이용하여 구별이 가능하다. 이를 이용해서 말뭉치(S1, S2)에 존재하는 문장들을 문형 별로 분류하여 각각에 대해서 언어 모델(S3)을 만든다. 즉 복수개의 언어 모델을 준비한다. 그러고 나서 실제 번역 시에는 자동 번역기(40)의 입력으로 들어오는 텍스트의 문형을 분석하여 그와 일치하는 언어 모델만을 사용하도록 한다. 이렇게 되면 의문문이 들어왔을 때 의문문의 언어 모델을 사용하게 되고 이 언어 모델에는 평서문이 없으므로 위와 같은 애매성이 해소된다. 따라서 통계적 자동 번역기의 입력으로 들어오는 문장의 문형을 분석하여 그에 따라 적합한 언어 모델을 선택하여 사용함으로써 애매성을 감소시킬 수 있다.

종래의 시스템은 음성 인식기(20)가 수행된 이후에 음성 인식 결과(30)의 문장이 결정되고, 결정된 음성 인식 문장이 통계적 자동 번역기(40)에 들어가 번역 결과의 문장(50)이 결정된다.

하지만 본 발명에서는 도 3에 도시한 바와 같이 음성 인식기(20)가 수행된 이후에 바로 음성 인식 결과의 문장(30)을 결정하지 않고 다수의 음성 인식 문장 후보를 통계적 자동 번역기(40)에 넘겨준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 결과의 문장(50)이 결정된다.

다시 말하면, 음성 인식기(20)는 사용자의 발화에 대해서 n개의 음성 인식 결과(30)와 함께 해당하는 인식 결과의 인식 점수를 생성해낸다. 이 n개의 음성 인식 결과(30)는 인식 점수를 가지고 각각 통계적 자동 번역기(40)의 입력으로 들어간다. 통계적 자동 번역기(40)는 각각에 대해 최적의 번역 결과(50)와 함께 해당하는 번역 결과의 번역 점수를 생성해낸다. 최종적으로 n개의 인식 결과와 인식 점수(30) 및 번역 결과와 번역 점수(50)를 가지게 된다. 엔-베스트(n-best) 리랭킹 모듈(70)은 n개 중에서 인식 점수와 번역 점수의 합이 높은 순서대로 정렬(80)한 뒤 가장 첫 번째 것을 최종 번역 결과(90)로 생성해낸다.

따라서 음성 인식기(20)에서 약간의 오류가 발생하더라도 이후 처리 과정을 통해 그 오류를 보정할 수 있어, 음성 인식 결과(30)와 번역 결과(50) 모두 향상을 가져올 수 있다.

위의 설명된 모든 기술들이 일련의 과정으로 엮어져서 하나의 문장을 번역하는 예를 들 수 있다. "이 근처에 지하철 역이 있습니까"라는 한국어 발화가 입력되었다고 가정한다. 만약 음성인식기(20)가 정확한 결과를 도출한다고 하면 위의 문장 그대로가 출력되어 전처리모듈(30)에 넘겨진다. 전처리 모듈에서는 가장 먼저 주어진 문장에 대한 형태소 분석을 하여 "이/NP 근처/NNG 에/JKB 지하철/NNG 역/NNG 이/JKS 있/VV　습니까/EF" 와 같은 결과를 얻는다. 이어서 "습니까" 라는 종결어미에 의해서 의문문으로 판단이 내려진다. 다음으로 영어에서는 나타나지 않는 특징인 조사, 어미를 삭제한다. "에/JKB" , "이/JKS", "습니까/EF" 가 삭제 대상에 해당한다. 여기서 "습니까/EF" 는 중요한 의미를 포함하고 있지만 이미 의문문으로 분류되었으므로 삭제하는 것이 가능하다. 삭제 후 문장은 "이/NP 근처/NNG 지하철/NNG 역/JKS 있/VV"로 변하게 되며 선택되는 언어모델은 의문문의 언어모델이다. 만약 훈련과정에서 영어 말뭉치도 형태소 태그를 달아 놓았다면 번역결과는 "Is/VBZ there/RB a/DT subway/NN station/NN around/IN here/RB" 과 같은 형식으로 나타날 것이므로 음성합성기의 입력으로 사용하기 위해서는 후처리를 통해 태그 정보를 지워 주어야 한다. 후처리를 통해 태그정보를 지운 후 "Is there a subway station around here" 로 변환된 문장을 음성 합성기에 입력함으로써 모든 과정이 끝난다.

도 3의 엔-베스트(n-best) 리랭킹 모듈(70)의 동작을 중심으로 예를 들면 다음과 같다. 사용자의 발화가 "가까운 환전소가 어디에 있나요?"였다고 가정한다. 이에 대해 음성 인식기는 "가까운 다른 어디에 있나요?", "가까운 환전소가 어디에 있나요?", "이 가까운 환전소가 어디에 있나요?" 등의 인식 결과와 인식 점수를 생성할 수 있다. 이는 각각 통계적 자동 번역기의 입력으로 들어가 "Where is the nearest another?", "Where's the nearest currency exchange?", "Where's the nearest currency exchange this?" 등의 번역 결과와 번역 점수를 생성할 수 있다. 엔-베스트(n-best) 리랭킹 모듈(70)은 인식 점수와 번역 점수를 모두 고려했을 때 가장 높은 점수를 가진 "Where's the nearest currency exchange?"를 최종 번역 결과로 생성한다. 만약 엔-베스트(n-best) 리랭킹을 하지 않는다면 최종 번역 결과는 "Where is the nearest another?" 였을 것이다. 인식 점수 뿐만 아니라 번역 점수까지 고려하면서 인식에서의 오류를 보정할 수 있다는 것을 확인할 수 있다.

상술한 바와 같이, 본 발명은 자동 통역 장치에 통계적 자동 번역기를 적용함에 있어서 자동 번역기의 전·후 처리 및 재조정을 통해서 성능을 향상시킬 수 있다.

Claims

삭제
음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템에서의 번역 처리 방법으로서, 상기 통계적 자동번역기는 번역 대상 언어모델 및 번역모델을 받아서 번역 대상 언어를 번역하며, 상기 통계적 자동번역기의 입력에 번역할 대상 언어의 번역전처리 단계를 포함하고, 상기 번역전처리 단계는 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법에 있어서,

상기 통계적 자동번역기의 출력에 번역된 언어의 번역후처리 단계를 더 포함하며, 상기 번역후처리 단계는 최종적으로 인식 결과와 인식 점수에 따라 상기 통계적 자동 번역기로부터 생성된 번역 결과와 번역 점수를 이용하여 인식 점수와 번역 점수의 합이 높은 순서대로 정렬하여 최종 번역 결과를 출력하도록 하는 것을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법.
제2항에 있어서, 상기 번역전처리 단계는 상황별로 음성 인식기의 언어 모델을 만들고, 사용자의 상황 선택에 따라 언어 모델을 적용하여 음성 인식을 수행하는 음성 자동 통역 시스템에서의 번역 처리 방법.
제2항에 있어서, 상기 번역전처리 단계는 상기 통계적 자동 번역기의 입력, 즉 음성인식 결과 또는 사람에 의한 문장 입력을 형태소 분석을 통해 변환함을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법.
제2항에 있어서, 상기 번역전처리 단계는 양쪽 언어의 특징상 번역할 수 없거나, 특별한 의미를 가지지 않는 단어를 통계적 자동 번역기의 입력에서 선별하고 미리 제거함으로써 번역 성능을 향상시킴을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법.
제2항에 있어서, 상기 통계적 자동번역기는 문장 또는 발화의 유형별로 엔-그램 언어 모델을 여러 개의 엔-그램 언어 모델로 나누어 만들고 자동 번역기의 입력에 따라 선택적으로 적용함을 특징으로 하는 음성 자동 통역 시스템에서의 번역 처리 방법.
삭제
음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템으로서, 상기 통계적 자동번역기는 번역 대상 언어모델 및 번역모델을 받아서 번역 대상 언어를 번역하며, 상기 통계적 자동번역기의 입력에 번역할 대상 언어의 번역전처리 모듈을 포함하고, 상기 번역전처리 모듈은 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 음성 자동 통역 시스템에 있어서,

상기 통계적 자동번역기의 출력에 번역된 언어의 번역후처리 모듈을 더 포함하며, 상기 번역후처리 모듈은 최종적으로 인식 결과와 인식 점수에 따라 상기 통계적 자동 번역기로부터 생성된 번역 결과와 번역 점수를 이용하여 인식 점수와 번역 점수의 합이 높은 순서대로 정렬하여 최종 번역 결과를 출력하도록 하는 것을 특징으로 하는 음성 자동 통역 시스템.
제8항에 있어서, 상기 번역전처리 모듈은 상황별로 음성 인식기의 언어 모델을 만들고, 사용자의 상황 선택에 따라 언어 모델을 적용하여 음성 인식을 수행하거나, 상기 통계적 자동 번역기의 입력, 즉 음성인식 결과 또는 사람에 의한 문장 입력을 형태소 분석을 통해 변환하거나, 및/또는 양쪽 언어의 특징상 번역할 수 없거나, 특별한 의미를 가지지 않는 단어를 통계적 자동 번역기의 입력에서 선별하고 미리 제거함으로써 번역 성능을 향상시킴을 특징으로 하는 음성 자동 통역 시스템.
음성 인식기, 통계적 자동 번역기, 음성합성기를 포함하는 자동 통역 장치 또는 음성 인식기와 통계적 자동 번역기를 포함하는 음성 번역 장치의 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템에서 통계적 번역기 훈련 모듈의 번역 훈련 방법에 있어서,

언어모델 생성 단계와 번역 모델을 생성하는 단계를 포함하며,

언어모델 생성 단계에서는 번역될 언어의 번역전처리 단계를 통해 언어모델을 생성하고,

번역모델을 생성하는 단계는 번역될 언어의 번역전처리단계를 수행한 결과와 번역할 언어의 번역전처리단계를 수행한 결과를 받아서, 단어를 정치하는 단계와 정치된 단어로부터 번역 후보가 되는 구문 쌍을 추출하는 단계를 포함하며,

상기 번역전처리단계는 상기 음성 인식기가 수행된 이후에 바로 음성 인식 문장을 결정하지 않고 다수의 음성 인식 문장 후보를 상기 통계적 자동 번역기에 넘겨 준 뒤 음성 인식 점수와 번역 점수를 모두 고려하여 최종적인 음성 인식 문장과 번역 문장이 결정되도록 함을 특징으로 하는 통계적 번역기 훈련 모듈의 번역 훈련 방법.