KR20130047471A - 자동번역 시스템의 패러프레이징 데이터 구축방법 - Google Patents

자동번역 시스템의 패러프레이징 데이터 구축방법 Download PDF

Info

Publication number
KR20130047471A
KR20130047471A KR1020110112524A KR20110112524A KR20130047471A KR 20130047471 A KR20130047471 A KR 20130047471A KR 1020110112524 A KR1020110112524 A KR 1020110112524A KR 20110112524 A KR20110112524 A KR 20110112524A KR 20130047471 A KR20130047471 A KR 20130047471A
Authority
KR
South Korea
Prior art keywords
paraphrase
paraphrasing
sentence
translation
unit
Prior art date
Application number
KR1020110112524A
Other languages
English (en)
Inventor
김창현
서영애
황금하
신종훈
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110112524A priority Critical patent/KR20130047471A/ko
Priority to US13/664,881 priority patent/US9037449B2/en
Publication of KR20130047471A publication Critical patent/KR20130047471A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것으로 패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계, 패러프레이징부가 원시어 코퍼스 DB에서 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계, 패러프레이징부가 패러프레이징 후보들에 대해 자동번역을 수행하는 단계; 패러프레이징부가 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계 및 패러프레이징부가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함하여 구성되며, 본 발명에 따르면 원시문의 자동번역 결과와 목적어 언어모델 및 기초로 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.

Description

자동번역 시스템의 패러프레이징 데이터 구축방법{METHOD FOR ESTABLISHING PARAPHRASING DATA OF MACHINE TRANSLATION SYSTEM}
본 발명은 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것으로서, 더욱 상세하게는 원시언어의 패러프레이징 데이터를 자동으로 구축하여 자동번역의 성능을 향상시킬 수 있도록 하는 자동번역 시스템의 패러프레이징 데이터 구축방법에 관한 것이다.
일반적으로 자동번역(machnie translation) 기술은 언어장벽에 의한 의사소통 문제를 해결하기 위해서 자연어 처리기법을 이용하여 한 언어로부터 다른 언어로 자동으로 변환해주는 기술을 의미한다.
이와 같은 자동번역을 위한 여러 방법 중에서 이중언어 말뭉치로부터 통계적 분석을 통해 모델의 파라미터를 학습하고 그 모델에 근거하여 입력된 문장을 번역하는 통계기반 번역기술(Statistical Machine Translation, SMT)에 대한 연구가 활발하게 이루어지고 있다.
또한, 통계기반 번역기술에 이용되는 통계 모델은 점점 고등화되어 가는 추세를 보이고 있으며, 관용적 숙어 표현의 효과적인 번역을 위해 패러프레이징 방법 등에 대한 연구가 이루어지고 있다.
이와 같은 패러프레이징 방법을 이용하기 위해서는 원시언어의 패러프레이징 데이터를 구축하는 것이 중요한데, 종래의 패러프레이징 데이터를 구축하는 방법은 이중언어 말뭉치를 이용하는 방법과 원시언어 문장으로부터 수동으로 패러프레이징 데이터를 구축하는 방법으로 나눌 수 있다.
우선, 이중언어 말뭉치를 이용하는 방법은 이중언어 말뭉치상의 모든 원시문, 목적문 쌍을 비교하여, 목적문이 동일한 모든 원시문을 하나의 패러프레이징 문장으로 가정하고, 이들 원문 패러프레이징 문장 집합들 간의 문장 단위의 패러프레이징 데이터를 추출하는 것이다.
하지만, 이러한 방법은 이중언어 말뭉치가 없는 경우 적용할 수 없으며, 문장 단위의 패러프레이징은 적용 범위가 좁아서 단어나 구문 단위의 패러프레이징이 필요한 경우 제대로 적용할 수 없는 문제점이 있다.
한편, 원시언어 문장으로부터 수동으로 패러프레이징 데이터를 구축하는 방법은 아래와 같이 세 가지 측면에서 문제점을 가지고 있다.
첫째로, 패러프레이징을 어느 수준까지 수행할 것인지에 대한 정확한 정의를 내리기가 쉽지 않기 때문에 패러프레이징 데이터 구축에 어려움이 있다.
둘째로, 수동으로 패러프레이징 데이터를 구축하기 때문에 일관성이 부족한 문제점이 있다.
즉, 사람마다 패러프레이징의 수준을 결정하는 데에 차이가 발생하기 때문에 동일한 문장에 대해서 패러프레이징 데이터 구축 여부 및 패러프레이징 구축 결과가 서로 상이하여 데이터의 일관성이 부족할 수 있다.
마지막으로, 자동번역 성능 향상과 무관한 패러프레이징 데이터가 발생할 수 있는 문제점이 있다.
즉, 언어교육을 위한 패러프레이징과 자동번역을 위한 패러프레이징은 그 결과가 달라질 수 있기 때문에, 언어교육을 위한 패러프레이징 데이터가 자동번역 성능 향상에 도움이 되지 않을 수 있다.
본 발명의 배경기술은 대한민국 특허공개공보 제10-2005-0045822호 '기계번역기법을 이용한 유사문장 식별 시스템' (2004.10.27)에 개시되어 있다.
본 발명은 전술한 문제점을 개선하기 위해 창안된 것으로서, 원시언어의 패러프레이징 데이터를 자동으로 구축하여 자동번역 성능을 향상시킬 수 있도록 하는 자동번역 시스템의 패러프레이징 데이터 구축방법을 제공하는데 그 목적이 있다.
본 발명의 일 측면에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법은 패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계; 패러프레이징부가 원시어 코퍼스 DB에서 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계; 패러프레이징부가 패러프레이징 후보들에 대해 자동번역을 수행하는 단계; 패러프레이징부가 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계; 및 패러프레이징부가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함한다.
본 발명은 패러프레이징부가 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출하여 패러프레이징 DB에 저장하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에서 패러프레이징 대상문장을 선별하는 단계에서 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 한다.
본 발명에서 패러프레이징 대상문장을 선별하는 단계는 번역문이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 번역문 스트링을 포함하면, 번역문에 대응되는 원시문을 패러프레이징 대상문장으로 선별하는 것을 특징으로 한다.
본 발명에서 패러프레이징 후보들을 추출하는 단계는 패러프레이징부가 패러프레이징 대상문장에서 패러프레이징을 진행할 부분을 선택하는 단계; 및
패러프레이징부가 원시어 코퍼스 DB에서 선택한 부분과 유사한 패러프레이징 후보들을 추출하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서 패러프레이징을 진행할 부분을 선택하는 단계는 패러프레이징 대상문장에 포함되는 번역문 스트링 중에서 목적어에서 기준빈도수 이하로 발생하는 번역문 스트링에 대한 링크정보를 이용하여 패러프레이징을 진행할 부분을 선택하는 것을 특징으로 한다.
본 발명에서 패러프레이징 후보들을 추출하는 단계는 패러프레이징 후보들을 n-best 형태로 추출하는 것을 특징으로 한다.
본 발명에서 패러프레이징 최종후보를 선정하는 단계에서 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 한다.
본 발명에서 패러프레이징 최종후보를 선정하는 단계는 패러프레이징 후보들에 대한 자동번역 결과 중에 가장 높은 빈도수를 가지는 번역문에 대응되는 원시문을 패러프레이징 최종후보로 선정하는 것을 특징으로 한다.
본 발명에서 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계는 패러프레이징부가 이중언어 말뭉치에서 패러프레이징 대상문장을 포함하는 원시문장들을 추출하는 제1 추출단계; 패러프레이징부가 이중언어 말뭉치에서 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출하는 제2 추출단계; 및 원시문장들 및 패러프레이징 문장들의 목적어 부분을 기초로 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 확정단계를 포함하는 것을 특징으로 한다.
본 발명에서 확정단계는 원시문장들의 목적어 부분과 패러프레이징 문장들의 목적어 부분이 일치하면, 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 한다.
본 발명에서 확정단계는 패러프레이징 최종후보의 자동번역 결과가 원시문장들의 목적어 부분과 패러프레이징 문장들의 목적어 부분에 공통으로 포함되면, 패러프레이징 대상문장과 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 한다.
본 발명에 따르면, 원시문의 자동번역 결과와 목적어 언어모델 및 이중언어 말뭉치를 이용하여 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.
또한, 본 발명에 따르면 원시문장에서 패러프레이징을 진행할 부분을 선택하여 선택한 부분에 대한 패러프레이징 데이터를 구축할 수 있으므로, 단어나 구문 단위의 패러프레이징에 적용될 수 있는 데이터를 구축할 수 있다.
마지막으로, 본 발명을 통해 자동으로 구축되는 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 자동번역 시스템의 자동번역 성능 향상에 직접적으로 기여할 수 있다.
도 1은 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치의 블록구성도이다.
도 2는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법의 동작 흐름을 도시한 순서도이다.
이하에서는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 첨부된 도면들을 참조하여 상세하게 설명한다. 이러한 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로써, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야할 것이다.
도 1은 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치의 블록구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법을 수행하기 위한 장치는 패러프레이징부(10), 원시어 코퍼스 DB(20), 목적어 언어모델 DB(30), 이중언어 말뭉치 DB(40) 및 패러프레이징 데이터 DB(50)를 포함한다.
원시어 코퍼스 DB(20)는 자동번역의 입력으로 사용되는 원시어에 대한 데이터를 보관하고 있다.
목적어 언어모델 DB(30)는 번역문의 스트링이 실제 목적어에서 얼마나 사용되는지에 대한 목적어 언어모델 데이터를 보관하고 있다.
이중언어 말뭉치 DB(40)는 원시문, 목적문의 번역된 정보를 모아놓은 이중언어 말뭉치 데이터를 보관하고 있다.
한편, 패러프레이징부(10)는 원시문에 대한 자동번역 결과와 원시어 코퍼스 DB(20), 목적어 언어모델 DB(30) 및 이중언어 말뭉치 DB(40)에 저장된 데이터를 이용하여 자동으로 패러프레이징 데이터를 추출하고, 이를 패러프레이징 데이터 DB(50)에 저장한다.
이러한 패러프레이징부(10)는 자동 번역부(11), 대상문장 선별부(12), 후보 추출부(13), 최종후보 선정부(14), 어휘패턴 확정부(15) 및 일반화패턴 추출부(16)를 포함할 수 있다.
자동 번역부(11)는 원시어 코퍼스 DB(20)의 원시문을 자동으로 번역하여 자동번역 결과를 원시문, 번역문 쌍으로 출력한다.
대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 자동번역 결과의 번역문을 목적어 언어모델 DB(30)에 저장된 목적어 언어모델과 비교하여 패러프레이징 대상 문장을 선별한다.
이때, 대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 번역문에 n-gram 기반의 목적어 언어모델을 적용하여, 해당 번역문이 목적어에 발생하기 어려운 형태의 번역문 스트링을 포함하면, 해당 원시문을 패러프레이징 대상 문장으로 선별할 수 있다.
후보 추출부(13)는 대상문장 선별부(12)에서 선별된 패러프레이징 대상 문장에 대해 패러프레이징을 진행할 부분을 선택하고, 선택한 부분을 중심으로 패러프레이징이 가능한 문장들을 원시어 코퍼스 DB(20)에서 찾아 유사도가 높은 패러프레이징 후보들을 추출한다.
이때, 후보 추출부(13)는 n-best 형태로 패러프레이징 후보들을 추출할 수 있다.
최종후보 선정부(14)는 후보 추출부(13)에서 추출된 후보들에 대한 자동번역 결과에 목적어 언어모델 DB(30)에 저장된 n-gram 기반의 목적어 언어모델을 적용하여 가장 높은 빈도수를 가지는 문장을 패러프레이징 최종후보로 선정한다.
어휘패턴 확정부(15)는 이중언어 말뭉치 DB(40)에 저장된 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 확인하고, 패러프레이징 관계이면 패러프레이징 어휘패턴으로 확정할 수 다.
일반화패턴 추출부(16)는 어휘패턴 확정부(15)에서 확정된 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출한다.
이후, 어휘패턴 확정부(15)에서 확정된 패러프레이징 어휘패턴과 일반화패턴 추출부(16)에서 추출된 패러프레이징 일반화패턴은 패러프레이징 데이터 DB(50)에 저장된다.
도 2는 본 발명의 일 실시예에 따른 자동번역 시스템의 패러프레이징 데이터 구축방법의 동작 흐름을 도시한 순서도로서, 이를 참조하여 본 발명의 구체적인 동작을 설명한다.
우선, 패러프레이징부(10)의 자동 번역부(11)는 원시문을 자동으로 번역하여 자동번역 결과를 원시문, 번역문 쌍으로 출력한다(S110).
이때, 자동 번역부(11)는 원시문을 구성하는 각 단어에 대한 링크정보와 단어 단위의 정렬정보를 이용하여 자동번역을 수행한다.
예를 들어, 아래의 표 1과 같이 "옷이 예쁜 것들이 많아요." 라는 원시문에 대하여 "There are lots that clothes are beautiful." 이라는 번역문이 출력된다.
원시문 옷이 예쁜 것들이 많아요.
링크정보 Clothes are beautiful that there are lots.
번역문 There are lots that clothes are beautiful.
이후, 패러프레이징부(10)의 대상문장 선별부(12)는 목적어 언어모델 DB(20)에 저장된 n-gram 기반의 목적어 언어모델을 자동 번역부(11)로부터 출력된 번역문에 적용하여 패러프레이징을 수행해야 하는 패러프레이징 대상문장을 선별한다(S120).
이때, 대상문장 선별부(12)는 자동 번역부(11)로부터 출력된 번역문에 n-gram 기반의 목적어 언어모델을 적용한 결과, 목적어에 발생하기 어려운 형태의 번역문 스트링이 추출되면, 해당 원시문을 패러프레이징 대상 문장으로 선별할 수 있다.
구체적으로, 대상문장 선별부(12)는 각각의 번역문 스트링이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 경우에 해당 번역문 스트링을 목적어에 발생하기 어려운 형태로 판단할 수 있다.
여기서, 기준빈도수는 특정 번역문 스트링이 목적어에서 발생하기 어려운 형태여서 패러프레이징을 수행해야 되는지를 판단하기 위한 빈도수를 의미하며, 설계자의 의도에 따라 다양하게 선택될 수 있다.
아래의 표 2에 대상문장 선별부(12)가 자동 번역부(11)로부터 출력된 "There are lots that clothes are beautiful." 이라는 번역문에 n-gram 기반의 목적어 언어모델을 적용한 결과가 나타나 있다.
이와 같은 적용결과, 상기의 번역문이 목적어에서 사용되는 빈도수가 매우 낮은 "Lots that clothes", "Are lots that clothes" 및 "Lots that clothes are" 등의 번역문 스트링을 포함하고 있으므로, 대상문장 선별부(12)는 대응되는 원시문인 "옷이 예쁜 것들이 많아요"를 패러프레이징 대상 문장으로 선별할 수 있다.
이와 같이, 대상문장 선별부(12)에 의해, 번역이 제대로 이루어지지 않은 문장을 패러프레이징 대상 문장으로 선별할 수 있게 된다.
n-gram 번역문 스트링 빈도수



3-gram


There are lots
Are lots that
Lots that clothes
That clothes are
Clothes are beautiful

466,960
779
0
1,719
1,604


4-gram


There are lots that
Are lots that clothes
Lots that clothes are
That clothes are beautiful

562
0
0
0
이후, 패러프레이징부(10)의 후보 추출부(13)는 목적어에 발생하기 어려운 번역문 스트링에 해당하는 링크정보를 이용하여 패러프레이징을 진행할 부분을 선택한다(S130).
즉, 후보 추출부(13)는 번역이 잘 이루어지지 않은 부분을 패러프레이징을 진행할 부분으로 선택한다.
예를 들어, 후보 추출부(13)는 앞에서 설명한 표 2에서 "Lots that clothes" 및 "Are lots that clothes"에 해당하는 링크정보를 이용하여 아래의 표 3과 같이 "옷이 예쁜 것들이 많아요"를 패러프레이징을 진행할 부분으로 선택할 수 있다.
진행부분 옷이 예쁜 것들이 많아요
링크정보 Clothes Are beautiful That There are lots
이와 같은 방식으로 후보 추출부(13)가 패러프레이징을 진행할 부분을 선택함으로써, 번역이 제대로 이루어지지 않은 부분에 대해서만 패러프레이징 데이터를 추출할 수 있다.
예를 들어, 최초의 원시문이 "옷이 예쁜 것들이 많아요" 라는 부분을 포함하는 문장이고, 나머지 부분에 대해서는 번역이 잘 이루어진 경우, 번역이 제대로 이루어지지 않은 "옷이 예쁜 것들이 많아요"에 대해서만 패러프레이징 데이터가 추출된다.
따라서, 본 발명은 문장 단위의 패러프레이징 데이터가 아닌 단어 또는 구문 단위의 패러프레이징 데이터를 추출할 수 있다.
이후, 후보 추출부(13)는 패러프레이징을 진행할 부분으로 선택된 부분을 원시문 코퍼스 DB(20)에 저장된 데이터와 비교하여, 가장 유사도가 높은 패러프레이징 후보들을 추출한다(S140).
즉, 후보 추출부(13)는 "옷이 예쁜 것들이 많아요"와 유사도가 높은 n-best 패러프레이징 후보 집합을 아래의 표 4와 같이 추출할 수 있다.

옷이 예쁜 것이 많아요.
예쁜 옷들이 많아요.
예쁜 옷이 많아요.
...
만약, 추출된 패러프레이징 후보가 없거나 너무 적은 경우, 후보 추출부(13)는 원시문을 수정하는 방법을 적용하여 패러프레이징 후보를 추출할 수 있다.
예를 들어, 후보 추출부(13)는 "많아요" 라는 단어를 "많습니다", "많다" 와 같이 수정하여 패러프레이징 후보를 추출할 수 있다.
그러면, 패러프레이징부(10)의 자동 번역부(11)는 후보 추출부(13)에 의해 추출된 패러프레이징 후보들에 대해 자동번역 결과를 생성한다(S150).
예를 들어, 자동 번역부(11)는 추출된 패러프레이징 후보들에 대해 아래의 표 5와 같이 자동번역 결과를 생성할 수 있다.

옷이 예쁜 것이 많아요.
It is abundant that clothes is beautiful.

예쁜 옷들이 많아요.
There are lots of pretty clothes.

예쁜 옷이 많아요.
There is lots of pretty clothes.
이후, 패러프레이징부(10)의 최종후보 선정부(14)는 자동 번역부(11)에 의해 생성된 자동번역 결과에 대해 n-gram 기반의 목적어 언어모델을 적용하여 가장 높은 빈도수로 사용되는 패러프레이징 후보를 패러프레이징 최종후보로 선정할 수 있다(S160).
예를 들어, 상기 표 5의 자동번역 결과에 대해 n-gram 기반의 목적어 언어모델을 적용한 결과는 아래의 표 6과 같고, 이때 최종후보 선정부(14)는 가장 높은 빈도수를 가지는 "There are lots of pretty clothes."를 패러프레이징 최종후보로 선정할 수 있다.
이와 같은 동작에 의해 패러프레이징 후보들 중에서 번역이 가장 잘 이루어진 후보가 패러프레이징 최종후보로 선정될 수 있다.




3-gram

There are lots
There is lots

Are lots of
Is lots of

Lots of pretty

Of pretty clothes

499,960
77,083

1,049,046
150,967

15,100

161




4-gram

There are lots of
There is lots of

Are lots of pretty
Is lots of pretty

Lots of pretty clothes

460,546
61,006

918
0

81
패러프레이징부(10)의 대상문장 선별부(12)를 통해 선별된 패러프레이징 대상문장과 후보 추출부(13) 및 최종후보 선정부(14)를 통해 선정된 패러프레이징 최종후보는 아래의 표 7과 같이 정리될 수 있다.

패러프레이징 대상문장
(Pharaphrasing source)

옷이 예쁜 것들이 많아요.
There are lots that clothes are beautiful.

패러프레이징 최종후보
(Paraphrasing result)

예쁜 옷들이 많아요.
There are lots of pretty clothes.
이와 같이 선정된 패러프레이징 최종후보는 패러프레이징 대상문장의 유사문장 중에서 번역이 가장 잘 이루어진 문장이지만, 해당 문장들이 패러프레이징 관계에 있는지는 확실하지 않을 수 있다.
따라서, 패러프레이징부(10)의 어휘패턴 확정부(15)는 이중언어 말뭉치 DB(40)에 저장된 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 판단하고, 패러프레이징 관계에 있다고 판단되면 해당 문장들을 패러프레이징 어휘패턴으로 확정한다(S170).
구체적으로, 어휘패턴 확정부(15)는 아래의 표 8과 같이 이중언어 말뭉치에서 패러프레이징 대상문장을 포함하는 원시문장들을 추출한다.

이 가게에는 옷이 예쁜 것들이 많아요.
There are lots of pretty clothes in this store.

...

옷이 예쁜 것들이 많아요.
We have many pretty clothes.
마찬가지로, 어휘패턴 확정부(15)는 아래의 표 9와 같이 이중언어 말뭉치에서 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출한다.

여기에는 예쁜 옷들이 많아요.
There are lots of pretty clothes in here.

...

예쁜 옷들이 많아요.
We have many pretty clothes.
어휘패턴 확정부(15)는 추출된 원시문장들의 목적언어 부분과 패러프레이징 문장들의 목적언어 부분이 일치하는 후보가 존재하면, 패러프레이징 대상문장과 패러프레이징 최종후보를 최종 패러프레이징 어휘패턴으로 확정할 수 있다.
즉, 상기의 표 8과 표 9에서 목적언어 부분이 "We have many pretty clothes."로 일치하는 "옷이 예쁜 것들이 많아요."와 "예쁜 옷들이 많아요."가 아래의 표 10과 같이 최종 패러프레이징 어휘패턴으로 확정될 수 있다.

옷이 예쁜 것들이 많아요.


We have many pretty clothes.

예쁜 옷들이 많아요.
또한, 어휘패턴 확정부(15)는 패러프레이징 최종후보의 자동번역 결과가 상기의 추출된 원시문장들의 목적언어 부분과 패러프레이징 문장들의 목적언어 부분에 공통으로 포함되는 경우, 패러프레이징 대상문장과 패러프레이징 최종후보를 최종 패러프레이징 어휘패턴으로 확정할 수 있다.
즉, 아래의 표 11을 참조하면, 패러프레이징 최종후보 "예쁜 옷들이 많아요."에 대한 자동번역 결과인 "There are lots of pretty clothes." 부분이 "이 가게에는 옷이 예쁜 것들이 많아요."와 "여기에는 예쁜 옷들이 많아요."의 목적언어 부분에 공통으로 포함된다.
따라서, "옷이 예쁜 것들이 많아요."와 "예쁜 옷들이 많아요."가 상기의 표 10과 같이 최종 패러프레이징 어휘패턴으로 확정될 수 있다.
원시문 번역문
패러프레이징
대상문장
옷이 예쁜 것들이 많아요.
대상문장 포함하는 원시문장 이 가게에는 옷이 예쁜 것들이 많아요. There are lots of pretty clothes in this store.
패러프레이징
최종후보
예쁜 옷들이 많아요. There are lots of pretty clothes .
최종후보 포함하는
패러프레이징 문장
여기에는 예쁜 옷들이 많아요. There are lots of pretty clothes in here.
마지막으로, 일반화패턴 추출부(16)는 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출한다(S180).
예를 들어, 아래의 표 12와 같이 "옷이 예쁜 것들이 많아요 : 예쁜 옷들이 많아요" 와 문장 구조가 같은 패러프레이징 어휘패턴들을 기초로 "(N)이 (V)ㄴ 것들이 많아요 : (V)ㄴ (N)들이 많아요" 와 같은 패러프레이징 일반화패턴을 추출할 수 있다. 여기서, (V), (N)은 각각 동사와 명사를 나타낸다.

옷이 예쁜 것들이 많아요 : 예쁜 옷들이 많아요
...
색이 파란 것들이 많아요 : 파란 색들이 많아요

--> (N)이 (V)ㄴ 것들이 많아요 : (V)ㄴ (N)들이 많아요
이와 같은 일련의 동작을 통해 추출된 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 패러프레이징 데이터 DB(50)에 저장된다.
이와 같이, 원시문의 자동번역 결과와 목적어 언어모델 및 이중언어 말뭉치를 이용하여 패러프레이징 데이터를 자동으로 구축함으로써, 일관성 있는 패러프레이징 데이터를 구축할 수 있다.
또한, 본 발명을 통해 자동으로 구축되는 패러프레이징 어휘패턴과 패러프레이징 일반화패턴은 자동번역 시스템의 자동번역 성능 향상에 직접적으로 기여할 수 있다.
한편, 본 발명에서는 어휘패턴 확정부(15)가 이중언어 말뭉치를 이용하여 패러프레이징 대상문장과 패러프레이징 최종후보가 패러프레이징 관계에 있는지 판단하여 패러프레이징 어휘패턴으로 결정하는 것에 대해 설명하였으나, 패러프레이징 관계에 있는지 판단하는 것은 수동으로 이루어질 수도 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야할 것이다.
10 : 패러프레이징부
11 : 자동 번역부
12 : 대상문장 선별부
13 : 후보 추출부
14 : 최종후보 선정부
15 : 어휘패턴 확정부
16 : 일반화패턴 추출부
20 : 원시어 코퍼스 DB
30 : 목적어 언어모델 DB
40 : 이중언어 말뭉치 DB
50 : 패러프레이징 데이터 DB

Claims (12)

  1. 패러프레이징부가 원시문을 자동번역한 번역문에 목적어 언어모델을 적용하여 패러프레이징 대상문장을 선별하는 단계;
    상기 패러프레이징부가 원시어 코퍼스 DB에서 상기 패러프레이징 대상문장과 패러프레이징이 가능한 패러프레이징 후보들을 추출하는 단계;
    상기 패러프레이징부가 상기 패러프레이징 후보들에 대해 자동번역을 수행하는 단계;
    상기 패러프레이징부가 상기 패러프레이징 후보들에 대한 자동번역 결과에 목적어 언어모델을 적용하여 패러프레이징 최종후보를 선정하는 단계; 및
    상기 패러프레이징부가 이중언어 말뭉치를 이용하여 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계를 포함하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  2. 제 1항에 있어서,
    상기 패러프레이징부가 상기 패러프레이징 어휘패턴을 기초로 패러프레이징 일반화패턴을 추출하여 상기 패러프레이징 DB에 저장하는 단계를 더 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  3. 제 1항에 있어서, 상기 패러프레이징 대상문장을 선별하는 단계에서
    상기 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  4. 제 3항에 있어서, 상기 패러프레이징 대상문장을 선별하는 단계는
    상기 번역문이 목적어에서 사용되는 빈도수가 기준빈도수 이하인 번역문 스트링을 포함하면, 상기 번역문에 대응되는 상기 원시문을 상기 패러프레이징 대상문장으로 선별하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  5. 제 1항에 있어서, 상기 패러프레이징 후보들을 추출하는 단계는
    상기 패러프레이징부가 상기 패러프레이징 대상문장에서 패러프레이징을 진행할 부분을 선택하는 단계; 및
    상기 패러프레이징부가 상기 원시어 코퍼스 DB에서 상기 선택한 부분과 유사한 상기 패러프레이징 후보들을 추출하는 단계를 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  6. 제 5항에 있어서, 상기 패러프레이징을 진행할 부분을 선택하는 단계는
    상기 패러프레이징 대상문장에 포함되는 번역문 스트링 중에서 목적어에서 기준빈도수 이하로 발생하는 번역문 스트링에 대한 링크정보를 이용하여 상기 패러프레이징을 진행할 부분을 선택하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  7. 제 1항에 있어서, 상기 패러프레이징 후보들을 추출하는 단계는
    상기 패러프레이징 후보들을 n-best 형태로 추출하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  8. 제 1항에 있어서, 상기 패러프레이징 최종후보를 선정하는 단계에서
    상기 목적어 언어모델은 n-gram 기반의 목적어 언어모델인 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  9. 제 3항에 있어서, 상기 패러프레이징 최종후보를 선정하는 단계는
    상기 패러프레이징 후보들에 대한 자동번역 결과 중에 가장 높은 빈도수를 가지는 번역문에 대응되는 원시문을 상기 패러프레이징 최종후보로 선정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  10. 제 1항에 있어서, 상기 패러프레이징 어휘패턴으로 확정하여 패러프레이징 DB에 저장하는 단계는
    상기 패러프레이징부가 상기 이중언어 말뭉치에서 상기 패러프레이징 대상문장을 포함하는 원시문장들을 추출하는 제1 추출단계;
    상기 패러프레이징부가 상기 이중언어 말뭉치에서 상기 패러프레이징 최종후보를 포함하는 패러프레이징 문장들을 추출하는 제2 추출단계; 및
    상기 원시문장들 및 상기 패러프레이징 문장들의 목적어 부분을 기초로 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 확정단계를 포함하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  11. 제 10항에 있어서, 상기 확정단계는
    상기 원시문장들의 목적어 부분과 상기 패러프레이징 문장들의 목적어 부분이 일치하면, 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
  12. 제 10항에 있어서, 상기 확정단계는
    상기 패러프레이징 최종후보의 자동번역 결과가 상기 원시문장들의 목적어 부분과 상기 패러프레이징 문장들의 목적어 부분에 공통으로 포함되면, 상기 패러프레이징 대상문장과 상기 패러프레이징 최종후보를 상기 패러프레이징 어휘패턴으로 확정하는 것을 특징으로 하는 자동번역 시스템의 패러프레이징 데이터 구축방법.
KR1020110112524A 2011-10-31 2011-10-31 자동번역 시스템의 패러프레이징 데이터 구축방법 KR20130047471A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110112524A KR20130047471A (ko) 2011-10-31 2011-10-31 자동번역 시스템의 패러프레이징 데이터 구축방법
US13/664,881 US9037449B2 (en) 2011-10-31 2012-10-31 Method for establishing paraphrasing data for machine translation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110112524A KR20130047471A (ko) 2011-10-31 2011-10-31 자동번역 시스템의 패러프레이징 데이터 구축방법

Publications (1)

Publication Number Publication Date
KR20130047471A true KR20130047471A (ko) 2013-05-08

Family

ID=48173284

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110112524A KR20130047471A (ko) 2011-10-31 2011-10-31 자동번역 시스템의 패러프레이징 데이터 구축방법

Country Status (2)

Country Link
US (1) US9037449B2 (ko)
KR (1) KR20130047471A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180054308A (ko) * 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체
US10380264B2 (en) 2016-08-16 2019-08-13 Samsung Electronics Co., Ltd. Machine translation method and apparatus

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664258B1 (ko) * 2015-06-22 2016-10-11 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
US10380258B2 (en) 2016-03-31 2019-08-13 International Business Machines Corporation System, method, and recording medium for corpus pattern paraphrasing
KR102589637B1 (ko) 2016-08-16 2023-10-16 삼성전자주식회사 기계 번역 방법 및 장치
KR102589638B1 (ko) 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
KR102630668B1 (ko) 2016-12-06 2024-01-30 한국전자통신연구원 입력 텍스트를 자동으로 확장하는 시스템 및 방법
CN107168958A (zh) * 2017-05-15 2017-09-15 北京搜狗科技发展有限公司 一种翻译方法及装置
JP7030434B2 (ja) * 2017-07-14 2022-03-07 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 翻訳方法、翻訳装置及び翻訳プログラム
CN112843724B (zh) * 2021-01-18 2022-03-22 浙江大学 游戏剧情展示控制方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
KR20090010522A (ko) 2007-07-23 2009-01-30 에스케이 텔레콤주식회사 패러프레이징 서비스를 제공하는 방법과 그를 위한 시스템,서버 및 컴퓨터로 읽을 수 있는 기록매체
US9672204B2 (en) * 2010-05-28 2017-06-06 Palo Alto Research Center Incorporated System and method to acquire paraphrases
US20120109623A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Stimulus Description Collections

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10380264B2 (en) 2016-08-16 2019-08-13 Samsung Electronics Co., Ltd. Machine translation method and apparatus
KR20180054308A (ko) * 2016-11-15 2018-05-24 한국과학기술원 함의 문장 생성 기술을 활용한 문장 표절 판단 장치, 이를 구현하기 위한 프로그램 및 기록 매체

Also Published As

Publication number Publication date
US9037449B2 (en) 2015-05-19
US20130110493A1 (en) 2013-05-02

Similar Documents

Publication Publication Date Title
KR20130047471A (ko) 자동번역 시스템의 패러프레이징 데이터 구축방법
US8275605B2 (en) Machine language translation with transfer mappings having varying context
US7031911B2 (en) System and method for automatic detection of collocation mistakes in documents
US7206735B2 (en) Scaleable machine translation
KR20150036041A (ko) 구문 기반 사전 추출 및 번역 품질 평가 기법
JP2010061645A (ja) フレーズベースの統計的機械翻訳方法及びシステム
Wołk et al. A sentence meaning based alignment method for parallel text corpora preparation
Buzek et al. Error driven paraphrase annotation using mechanical turk
Nakov Improved statistical machine translation using monolingual paraphrases
Hálek et al. Named entities from Wikipedia for machine translation.
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
Al-Mannai et al. Unsupervised word segmentation improves dialectal Arabic to English machine translation
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN111178060A (zh) 一种基于语言模型的韩语分词还原方法
Sajjad et al. Comparing two techniques for learning transliteration models using a parallel corpus
Huang et al. Factored soft source syntactic constraints for hierarchical machine translation
Siahbani et al. Efficient left-to-right hierarchical phrase-based translation with improved reordering
Hewavitharana et al. Augmenting a statistical translation system with a translation memory
Ney et al. Improving word alignment quality using morpho-syntactic information
Zhao et al. A generalized alignment-free phrase extraction
Kumar et al. Improving the performance of English-Tamil statistical machine translation system using source-side pre-processing
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Tsukada et al. The NTT statistical machine translation system for IWSLT2005
JP6558696B2 (ja) 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム
Kaeshammer Hierarchical machine translation with discontinuous phrases

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application