KR20130047471A

KR20130047471A - 자동번역 시스템의 패러프레이징 데이터 구축방법

Info

Publication number: KR20130047471A
Application number: KR1020110112524A
Authority: KR
Inventors: 김창현; 서영애; 황금하; 신종훈; 김영길; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2011-10-31
Filing date: 2011-10-31
Publication date: 2013-05-08
Also published as: US9037449B2; US20130110493A1

Abstract

본 발명은 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것으로 패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계, 패러프레이징부가 원시어 코퍼스 DB에서 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계, 패러프레이징부가 패러프레이징 후보들에 대해 자동번역을 수행하는 단계; 패러프레이징부가 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계 및 패러프레이징부가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함하여 구성되며, 본 발명에 따르면 원시문의 자동번역 결과와 목적어 언어모델 및 기초로 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.

Description

자동번역 시스템의 패러프레이징 데이터 구축방법{METHOD FOR ESTABLISHING PARAPHRASING DATA OF MACHINE TRANSLATION SYSTEM}

본 발명은 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것으로서, 더욱 상세하게는 원시언어의 패러프레이징 데이터를 자동으로 구축하여 자동번역의 성능을 향상시킬 수 있도록 하는 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것이다.

일반적으로 자동번역(machnie translation) 기술은 언어장벽에 의한 의사소통 문제를 해결하기 위해서 자연어 처리기법을 이용하여 한 언어로부터 다른 언어로 자동으로 변환해주는 기술을 의미한다.

이와 같은 자동번역을 위한 여러 방법 중에서 이중언어 말뭉치로부터 통계적 분석을 통해 모델의 파라미터를 학습하고 그 모델에 근거하여 입력된 문장을 번역하는 통계기반 번역기술(Statistical Machine Translation, SMT)에 대한 연구가 활발하게 이루어지고 있다.

또한, 통계기반 번역기술에 이용되는 통계 모델은 점점 고등화되어 가는 추세를 보이고 있으며, 관용적 숙어 표현의 효과적인 번역을 위해 패러프레이징 방법 등에 대한 연구가 이루어지고 있다.

이와 같은 패러프레이징 방법을 이용하기 위해서는 원시언어의 패러프레이징 데이터를 구축하는 것이 중요한데, 종래의 패러프레이징 데이터를 구축하는 방법은 이중언어 말뭉치를 이용하는 방법과 원시언어 문장으로부터 수동으로 패러프레이징 데이터를 구축하는 방법으로 나눌 수 있다.

우선, 이중언어 말뭉치를 이용하는 방법은 이중언어 말뭉치상의 모든 원시문, 목적문 쌍을 비교하여, 목적문이 동일한 모든 원시문을 하나의 패러프레이징 문장으로 가정하고, 이들 원문 패러프레이징 문장 집합들 간의 문장 단위의 패러프레이징 데이터를 추출하는 것이다.

하지만, 이러한 방법은 이중언어 말뭉치가 없는 경우 적용할 수 없으며, 문장 단위의 패러프레이징은 적용 범위가 좁아서 단어나 구문 단위의 패러프레이징이 필요한 경우 제대로 적용할 수 없는 문제점이 있다.

한편, 원시언어 문장으로부터 수동으로 패러프레이징 데이터를 구축하는 방법은 아래와 같이 세 가지 측면에서 문제점을 가지고 있다.

첫째로, 패러프레이징을 어느 수준까지 수행할 것인지에 대한 정확한 정의를 내리기가 쉽지 않기 때문에 패러프레이징 데이터 구축에 어려움이 있다.

둘째로, 수동으로 패러프레이징 데이터를 구축하기 때문에 일관성이 부족한 문제점이 있다.

즉, 사람마다 패러프레이징의 수준을 결정하는 데에 차이가 발생하기 때문에 동일한 문장에 대해서 패러프레이징 데이터 구축 여부 및 패러프레이징 구축 결과가 서로 상이하여 데이터의 일관성이 부족할 수 있다.

마지막으로, 자동번역 성능 향상과 무관한 패러프레이징 데이터가 발생할 수 있는 문제점이 있다.

즉, 언어교육을 위한 패러프레이징과 자동번역을 위한 패러프레이징은 그 결과가 달라질 수 있기 때문에, 언어교육을 위한 패러프레이징 데이터가 자동번역 성능 향상에 도움이 되지 않을 수 있다.

본 발명의 배경기술은 대한민국 특허공개공보 제10-2005-0045822호 '기계번역기법을 이용한 유사문장 식별 시스템' (2004.10.27)에 개시되어 있다.

본 발명은 전술한 문제점을 개선하기 위해 창안된 것으로서, 원시언어의 패러프레이징 데이터를 자동으로 구축하여 자동번역 성능을 향상시킬 수 있도록 하는 자동번역 시스템의 패러프레이징 데이터 구축방법을 제공하는데 그 목적이 있다.

본 발명의 일 측면에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법은 패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계; 패러프레이징부가 원시어 코퍼스 DB에서 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계; 패러프레이징부가 패러프레이징 후보들에 대해 자동번역을 수행하는 단계; 패러프레이징부가 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계; 및 패러프레이징부가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함한다.

본 발명은 패러프레이징부가 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출하여 패러프레이징 DB에 저장하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에서 패러프레이징 대상문장을 선별하는 단계에서 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 한다.

본 발명에서 패러프레이징 대상문장을 선별하는 단계는 번역문이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 번역문 스트링을 포함하면, 번역문에 대응되는 원시문을 패러프레이징 대상문장으로 선별하는 것을 특징으로 한다.

본 발명에서 패러프레이징 후보들을 추출하는 단계는 패러프레이징부가 패러프레이징 대상문장에서 패러프레이징을 진행할 부분을 선택하는 단계; 및

패러프레이징부가 원시어 코퍼스 DB에서 선택한 부분과 유사한 패러프레이징 후보들을 추출하는 단계를 포함하는 것을 특징으로 한다.

본 발명에서 패러프레이징을 진행할 부분을 선택하는 단계는 패러프레이징 대상문장에 포함되는 번역문 스트링 중에서 목적어에서 기준빈도수 이하로 발생하는 번역문 스트링에 대한 링크정보를 이용하여 패러프레이징을 진행할 부분을 선택하는 것을 특징으로 한다.

본 발명에서 패러프레이징 후보들을 추출하는 단계는 패러프레이징 후보들을 n-best 형태로 추출하는 것을 특징으로 한다.

본 발명에서 패러프레이징 최종후보를 선정하는 단계에서 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 한다.

본 발명에서 패러프레이징 최종후보를 선정하는 단계는 패러프레이징 후보들에 대한 자동번역 결과 중에 가장 높은 빈도수를 가지는 번역문에 대응되는 원시문을 패러프레이징 최종후보로 선정하는 것을 특징으로 한다.

본 발명에서 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계는 패러프레이징부가 이중언어 말뭉치에서 패러프레이징 대상문장을 포함하는 원시문장들을 추출하는 제1 추출단계; 패러프레이징부가 이중언어 말뭉치에서 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출하는 제2 추출단계; 및 원시문장들 및 패러프레이징 문장들의 목적어 부분을 기초로 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 확정단계를 포함하는 것을 특징으로 한다.

본 발명에서 확정단계는 원시문장들의 목적어 부분과 패러프레이징 문장들의 목적어 부분이 일치하면, 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 한다.

본 발명에서 확정단계는 패러프레이징 최종후보의 자동번역 결과가 원시문장들의 목적어 부분과 패러프레이징 문장들의 목적어 부분에 공통으로 포함되면, 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 한다.

본 발명에 따르면, 원시문의 자동번역 결과와 목적어 언어모델 및 이중언어 말뭉치를 이용하여 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.

또한, 본 발명에 따르면 원시문장에서 패러프레이징을 진행할 부분을 선택하여 선택한 부분에 대한 패러프레이징 데이터를 구축할 수 있으므로, 단어나 구문 단위의 패러프레이징에 적용될 수 있는 데이터를 구축할 수 있다.

마지막으로, 본 발명을 통해 자동으로 구축되는 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 자동번역 시스템의 자동번역 성능 향상에 직접적으로 기여할 수 있다.

도 1은 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치의 블록구성도이다.
도 2는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법의 동작 흐름을 도시한 순서도이다.

이하에서는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로써, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야할 것이다.

도 1은 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치의 블록구성도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치는 패러프레이징부(10), 원시어 코퍼스 DB(20), 목적어 언어모델 DB(30), 이중언어 말뭉치 DB(40) 및 패러프레이징 데이터 DB(50)를 포함한다.

원시어 코퍼스 DB(20)는 자동번역의 입력으로 사용되는 원시어에 대한 데이터를 보관하고 있다.

목적어 언어모델 DB(30)는 번역문의 스트링이 실제 목적어에서 얼마나 사용되는지에 대한 목적어 언어모델 데이터를 보관하고 있다.

이중언어 말뭉치 DB(40)는 원시문, 목적문의 번역된 정보를 모아놓은 이중언어 말뭉치 데이터를 보관하고 있다.

한편, 패러프레이징부(10)는 원시문에 대한 자동번역 결과와 원시어 코퍼스 DB(20), 목적어 언어모델 DB(30) 및 이중언어 말뭉치 DB(40)에 저장된 데이터를 이용하여 자동으로 패러프레이징 데이터를 추출하고, 이를 패러프레이징 데이터 DB(50)에 저장한다.

이러한 패러프레이징부(10)는 자동 번역부(11), 대상문장 선별부(12), 후보 추출부(13), 최종후보 선정부(14), 어휘패턴 확정부(15) 및 일반화패턴 추출부(16)를 포함할 수 있다.

자동 번역부(11)는 원시어 코퍼스 DB(20)의 원시문을 자동으로 번역하여 자동번역 결과를 원시문, 번역문 쌍으로 출력한다.

대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 자동번역 결과의 번역문을 목적어 언어모델 DB(30)에 저장된 목적어 언어모델과 비교하여 패러프레이징 대상 문장을 선별한다.

이때, 대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 번역문에 n-gram 기반의 목적어 언어모델을 적용하여, 해당 번역문이 목적어에 발생하기 어려운 형태의 번역문 스트링을 포함하면, 해당 원시문을 패러프레이징 대상 문장으로 선별할 수 있다.

후보 추출부(13)는 대상문장 선별부(12)에서 선별된 패러프레이징 대상 문장에 대해 패러프레이징을 진행할 부분을 선택하고, 선택한 부분을 중심으로 패러프레이징이 가능한 문장들을 원시어 코퍼스 DB(20)에서 찾아 유사도가 높은 패러프레이징 후보들을 추출한다.

이때, 후보 추출부(13)는 n-best 형태로 패러프레이징 후보들을 추출할 수 있다.

최종후보 선정부(14)는 후보 추출부(13)에서 추출된 후보들에 대한 자동번역 결과에 목적어 언어모델 DB(30)에 저장된 n-gram 기반의 목적어 언어모델을 적용하여 가장 높은 빈도수를 가지는 문장을 패러프레이징 최종후보로 선정한다.

어휘패턴 확정부(15)는 이중언어 말뭉치 DB(40)에 저장된 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 확인하고, 패러프레이징 관계이면 패러프레이징 어휘패턴으로 확정할 수 다.

일반화패턴 추출부(16)는 어휘패턴 확정부(15)에서 확정된 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출한다.

이후, 어휘패턴 확정부(15)에서 확정된 패러프레이징 어휘패턴과 일반화패턴 추출부(16)에서 추출된 패러프레이징 일반화패턴은 패러프레이징 데이터 DB(50)에 저장된다.

도 2는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법의 동작 흐름을 도시한 순서도로서, 이를 참조하여 본 발명의 구체적인 동작을 설명한다.

우선, 패러프레이징부(10)의 자동 번역부(11)는 원시문을 자동으로 번역하여 자동번역 결과를 원시문, 번역문 쌍으로 출력한다(S110).

이때, 자동 번역부(11)는 원시문을 구성하는 각 단어에 대한 링크정보와 단어 단위의 정렬정보를 이용하여 자동번역을 수행한다.

예를 들어, 아래의 표 1과 같이 "옷이 예쁜 것들이 많아요." 라는 원시문에 대하여 "There are lots that clothes are beautiful." 이라는 번역문이 출력된다.

원시문	옷이 예쁜 것들이 많아요.
링크정보	Clothes are beautiful that there are lots.
번역문	There are lots that clothes are beautiful.

이후, 패러프레이징부(10)의 대상문장 선별부(12)는 목적어 언어모델 DB(20)에 저장된 n-gram 기반의 목적어 언어모델을 자동 번역부(11)로부터 출력된 번역문에 적용하여 패러프레이징을 수행해야 하는 패러프레이징 대상문장을 선별한다(S120).

이때, 대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 번역문에 n-gram 기반의 목적어 언어모델을 적용한 결과, 목적어에 발생하기 어려운 형태의 번역문 스트링이 추출되면, 해당 원시문을 패러프레이징 대상 문장으로 선별할 수 있다.

구체적으로, 대상문장 선별부(12)는 각각의 번역문 스트링이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 경우에 해당 번역문 스트링을 목적어에 발생하기 어려운 형태로 판단할 수 있다.

여기서, 기준빈도수는 특정 번역문 스트링이 목적어에서 발생하기 어려운 형태여서 패러프레이징을 수행해야 되는지를 판단하기 위한 빈도수를 의미하며, 설계자의 의도에 따라 다양하게 선택될 수 있다.

아래의 표 2에 대상문장 선별부(12)가 자동 번역부(11)로부터 출력된 "There are lots that clothes are beautiful." 이라는 번역문에 n-gram 기반의 목적어 언어모델을 적용한 결과가 나타나 있다.

이와 같은 적용결과, 상기의 번역문이 목적어에서 사용되는 빈도수가 매우 낮은 "Lots that clothes", "Are lots that clothes" 및 "Lots that clothes are" 등의 번역문 스트링을 포함하고 있으므로, 대상문장 선별부(12)는 대응되는 원시문인 "옷이 예쁜 것들이 많아요"를 패러프레이징 대상 문장으로 선별할 수 있다.

이와 같이, 대상문장 선별부(12)에 의해, 번역이 제대로 이루어지지 않은 문장을 패러프레이징 대상 문장으로 선별할 수 있게 된다.

n-gram	번역문 스트링	빈도수
3-gram	There are lots Are lots that Lots that clothes That clothes are Clothes are beautiful	466,960 779 0 1,719 1,604
4-gram	There are lots that Are lots that clothes Lots that clothes are That clothes are beautiful	562 0 0 0

이후, 패러프레이징부(10)의 후보 추출부(13)는 목적어에 발생하기 어려운 번역문 스트링에 해당하는 링크정보를 이용하여 패러프레이징을 진행할 부분을 선택한다(S130).

즉, 후보 추출부(13)는 번역이 잘 이루어지지 않은 부분을 패러프레이징을 진행할 부분으로 선택한다.

예를 들어, 후보 추출부(13)는 앞에서 설명한 표 2에서 "Lots that clothes" 및 "Are lots that clothes"에 해당하는 링크정보를 이용하여 아래의 표 3과 같이 "옷이 예쁜 것들이 많아요"를 패러프레이징을 진행할 부분으로 선택할 수 있다.

진행부분	옷이	예쁜	것들이	많아요
링크정보	Clothes	Are beautiful	That	There are lots

이와 같은 방식으로 후보 추출부(13)가 패러프레이징을 진행할 부분을 선택함으로써, 번역이 제대로 이루어지지 않은 부분에 대해서만 패러프레이징 데이터를 추출할 수 있다.

예를 들어, 최초의 원시문이 "옷이 예쁜 것들이 많아요" 라는 부분을 포함하는 문장이고, 나머지 부분에 대해서는 번역이 잘 이루어진 경우, 번역이 제대로 이루어지지 않은 "옷이 예쁜 것들이 많아요"에 대해서만 패러프레이징 데이터가 추출된다.

따라서, 본 발명은 문장 단위의 패러프레이징 데이터가 아닌 단어 또는 구문 단위의 패러프레이징 데이터를 추출할 수 있다.

이후, 후보 추출부(13)는 패러프레이징을 진행할 부분으로 선택된 부분을 원시문 코퍼스 DB(20)에 저장된 데이터와 비교하여, 가장 유사도가 높은 패러프레이징 후보들을 추출한다(S140).

즉, 후보 추출부(13)는 "옷이 예쁜 것들이 많아요"와 유사도가 높은 n-best 패러프레이징 후보 집합을 아래의 표 4와 같이 추출할 수 있다.

옷이 예쁜 것이 많아요.
예쁜 옷들이 많아요.
예쁜 옷이 많아요.
...

만약, 추출된 패러프레이징 후보가 없거나 너무 적은 경우, 후보 추출부(13)는 원시문을 수정하는 방법을 적용하여 패러프레이징 후보를 추출할 수 있다.

예를 들어, 후보 추출부(13)는 "많아요" 라는 단어를 "많습니다", "많다" 와 같이 수정하여 패러프레이징 후보를 추출할 수 있다.

그러면, 패러프레이징부(10)의 자동 번역부(11)는 후보 추출부(13)에 의해 추출된 패러프레이징 후보들에 대해 자동번역 결과를 생성한다(S150).

예를 들어, 자동 번역부(11)는 추출된 패러프레이징 후보들에 대해 아래의 표 5와 같이 자동번역 결과를 생성할 수 있다.

옷이 예쁜 것이 많아요.
It is abundant that clothes is beautiful.

예쁜 옷들이 많아요.
There are lots of pretty clothes.

예쁜 옷이 많아요.
There is lots of pretty clothes.

이후, 패러프레이징부(10)의 최종후보 선정부(14)는 자동 번역부(11)에 의해 생성된 자동번역 결과에 대해 n-gram 기반의 목적어 언어모델을 적용하여 가장 높은 빈도수로 사용되는 패러프레이징 후보를 패러프레이징 최종후보로 선정할 수 있다(S160).

예를 들어, 상기 표 5의 자동번역 결과에 대해 n-gram 기반의 목적어 언어모델을 적용한 결과는 아래의 표 6과 같고, 이때 최종후보 선정부(14)는 가장 높은 빈도수를 가지는 "There are lots of pretty clothes."를 패러프레이징 최종후보로 선정할 수 있다.

이와 같은 동작에 의해 패러프레이징 후보들 중에서 번역이 가장 잘 이루어진 후보가 패러프레이징 최종후보로 선정될 수 있다.

3-gram	There are lots There is lots Are lots of Is lots of Lots of pretty Of pretty clothes	499,960 77,083 1,049,046 150,967 15,100 161
4-gram	There are lots of There is lots of Are lots of pretty Is lots of pretty Lots of pretty clothes	460,546 61,006 918 0 81

패러프레이징부(10)의 대상문장 선별부(12)를 통해 선별된 패러프레이징 대상문장과 후보 추출부(13) 및 최종후보 선정부(14)를 통해 선정된 패러프레이징 최종후보는 아래의 표 7과 같이 정리될 수 있다.

패러프레이징 대상문장 (Pharaphrasing source)	옷이 예쁜 것들이 많아요. There are lots that clothes are beautiful.
패러프레이징 최종후보 (Paraphrasing result)	예쁜 옷들이 많아요. There are lots of pretty clothes.

이와 같이 선정된 패러프레이징 최종후보는 패러프레이징 대상문장의 유사문장 중에서 번역이 가장 잘 이루어진 문장이지만, 해당 문장들이 패러프레이징 관계에 있는지는 확실하지 않을 수 있다.

따라서, 패러프레이징부(10)의 어휘패턴 확정부(15)는 이중언어 말뭉치 DB(40)에 저장된 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 판단하고, 패러프레이징 관계에 있다고 판단되면 해당 문장들을 패러프레이징 어휘패턴으로 확정한다(S170).

구체적으로, 어휘패턴 확정부(15)는 아래의 표 8과 같이 이중언어 말뭉치에서 패러프레이징 대상문장을 포함하는 원시문장들을 추출한다.

이 가게에는 옷이 예쁜 것들이 많아요.
There are lots of pretty clothes in this store.

...

옷이 예쁜 것들이 많아요.
We have many pretty clothes.

마찬가지로, 어휘패턴 확정부(15)는 아래의 표 9와 같이 이중언어 말뭉치에서 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출한다.

여기에는 예쁜 옷들이 많아요.
There are lots of pretty clothes in here.

...

예쁜 옷들이 많아요.
We have many pretty clothes.

어휘패턴 확정부(15)는 추출된 원시문장들의 목적언어 부분과 패러프레이징 문장들의 목적언어 부분이 일치하는 후보가 존재하면, 패러프레이징 대상문장과 패러프레이징 최종후보를 최종 패러프레이징 어휘패턴으로 확정할 수 있다.

즉, 상기의 표 8과 표 9에서 목적언어 부분이 "We have many pretty clothes."로 일치하는 "옷이 예쁜 것들이 많아요."와 "예쁜 옷들이 많아요."가 아래의 표 10과 같이 최종 패러프레이징 어휘패턴으로 확정될 수 있다.

옷이 예쁜 것들이 많아요.	We have many pretty clothes.
예쁜 옷들이 많아요.

또한, 어휘패턴 확정부(15)는 패러프레이징 최종후보의 자동번역 결과가 상기의 추출된 원시문장들의 목적언어 부분과 패러프레이징 문장들의 목적언어 부분에 공통으로 포함되는 경우, 패러프레이징 대상문장과 패러프레이징 최종후보를 최종 패러프레이징 어휘패턴으로 확정할 수 있다.

즉, 아래의 표 11을 참조하면, 패러프레이징 최종후보 "예쁜 옷들이 많아요."에 대한 자동번역 결과인 "There are lots of pretty clothes." 부분이 "이 가게에는 옷이 예쁜 것들이 많아요."와 "여기에는 예쁜 옷들이 많아요."의 목적언어 부분에 공통으로 포함된다.

따라서, "옷이 예쁜 것들이 많아요."와 "예쁜 옷들이 많아요."가 상기의 표 10과 같이 최종 패러프레이징 어휘패턴으로 확정될 수 있다.

	원시문	번역문
패러프레이징 대상문장	옷이 예쁜 것들이 많아요.
대상문장 포함하는 원시문장	이 가게에는 옷이 예쁜 것들이 많아요.	There are lots of pretty clothes in this store.
패러프레이징 최종후보	예쁜 옷들이 많아요.	There are lots of pretty clothes .
최종후보 포함하는 패러프레이징 문장	여기에는 예쁜 옷들이 많아요.	There are lots of pretty clothes in here.

마지막으로, 일반화패턴 추출부(16)는 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출한다(S180).

예를 들어, 아래의 표 12와 같이 "옷이 예쁜 것들이 많아요 : 예쁜 옷들이 많아요" 와 문장 구조가 같은 패러프레이징 어휘패턴들을 기초로 "(N)이 (V)ㄴ 것들이 많아요 : (V)ㄴ (N)들이 많아요" 와 같은 패러프레이징 일반화패턴을 추출할 수 있다. 여기서, (V), (N)은 각각 동사와 명사를 나타낸다.

옷이 예쁜 것들이 많아요 : 예쁜 옷들이 많아요
...
색이 파란 것들이 많아요 : 파란 색들이 많아요

--> (N)이 (V)ㄴ 것들이 많아요 : (V)ㄴ (N)들이 많아요

이와 같은 일련의 동작을 통해 추출된 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 패러프레이징 데이터 DB(50)에 저장된다.

이와 같이, 원시문의 자동번역 결과와 목적어 언어모델 및 이중언어 말뭉치를 이용하여 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.

또한, 본 발명을 통해 자동으로 구축되는 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 자동번역 시스템의 자동번역 성능 향상에 직접적으로 기여할 수 있다.

한편, 본 발명에서는 어휘패턴 확정부(15)가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 판단하여 패러프레이징 어휘패턴으로 결정하는 것에 대해 설명하였으나, 패러프레이징 관계에 있는지 판단하는 것은 수동으로 이루어질 수도 있다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야할 것이다.

10 : 패러프레이징부
11 : 자동 번역부
12 : 대상문장 선별부
13 : 후보 추출부
14 : 최종후보 선정부
15 : 어휘패턴 확정부
16 : 일반화패턴 추출부
20 : 원시어 코퍼스 DB
30 : 목적어 언어모델 DB
40 : 이중언어 말뭉치 DB
50 : 패러프레이징 데이터 DB

Claims

패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계;
상기 패러프레이징부가 원시어 코퍼스 DB에서 상기 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계;
상기 패러프레이징부가 상기 패러프레이징 후보들에 대해 자동번역을 수행하는 단계;
상기 패러프레이징부가 상기 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계; 및
상기 패러프레이징부가 이중언어 말뭉치를 이용하여 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서,
상기 패러프레이징부가 상기 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출하여 상기 패러프레이징 DB에 저장하는 단계를 더 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서, 상기 패러프레이징 대상문장을 선별하는 단계에서
상기 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 3항에 있어서, 상기 패러프레이징 대상문장을 선별하는 단계는
상기 번역문이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 번역문 스트링을 포함하면, 상기 번역문에 대응되는 상기 원시문을 상기 패러프레이징 대상문장으로 선별하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서, 상기 패러프레이징 후보들을 추출하는 단계는
상기 패러프레이징부가 상기 패러프레이징 대상문장에서 패러프레이징을 진행할 부분을 선택하는 단계; 및
상기 패러프레이징부가 상기 원시어 코퍼스 DB에서 상기 선택한 부분과 유사한 상기 패러프레이징 후보들을 추출하는 단계를 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 5항에 있어서, 상기 패러프레이징을 진행할 부분을 선택하는 단계는
상기 패러프레이징 대상문장에 포함되는 번역문 스트링 중에서 목적어에서 기준빈도수 이하로 발생하는 번역문 스트링에 대한 링크정보를 이용하여 상기 패러프레이징을 진행할 부분을 선택하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서, 상기 패러프레이징 후보들을 추출하는 단계는
상기 패러프레이징 후보들을 n-best 형태로 추출하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서, 상기 패러프레이징 최종후보를 선정하는 단계에서
상기 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 3항에 있어서, 상기 패러프레이징 최종후보를 선정하는 단계는
상기 패러프레이징 후보들에 대한 자동번역 결과 중에 가장 높은 빈도수를 가지는 번역문에 대응되는 원시문을 상기 패러프레이징 최종후보로 선정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 1항에 있어서, 상기 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계는
상기 패러프레이징부가 상기 이중언어 말뭉치에서 상기 패러프레이징 대상문장을 포함하는 원시문장들을 추출하는 제1 추출단계;
상기 패러프레이징부가 상기 이중언어 말뭉치에서 상기 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출하는 제2 추출단계; 및
상기 원시문장들 및 상기 패러프레이징 문장들의 목적어 부분을 기초로 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 확정단계를 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 10항에 있어서, 상기 확정단계는
상기 원시문장들의 목적어 부분과 상기 패러프레이징 문장들의 목적어 부분이 일치하면, 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
제 10항에 있어서, 상기 확정단계는
상기 패러프레이징 최종후보의 자동번역 결과가 상기 원시문장들의 목적어 부분과 상기 패러프레이징 문장들의 목적어 부분에 공통으로 포함되면, 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.