KR100911372B1 - 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 - Google Patents

통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 Download PDF

Info

Publication number
KR100911372B1
KR100911372B1 KR1020070076140A KR20070076140A KR100911372B1 KR 100911372 B1 KR100911372 B1 KR 100911372B1 KR 1020070076140 A KR1020070076140 A KR 1020070076140A KR 20070076140 A KR20070076140 A KR 20070076140A KR 100911372 B1 KR100911372 B1 KR 100911372B1
Authority
KR
South Korea
Prior art keywords
word
words
language sentence
phrase
tokenized
Prior art date
Application number
KR1020070076140A
Other languages
English (en)
Other versions
KR20080052282A (ko
Inventor
황영숙
박상규
김영길
김창현
양성일
서영애
홍문표
윤창호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20080052282A publication Critical patent/KR20080052282A/ko
Application granted granted Critical
Publication of KR100911372B1 publication Critical patent/KR100911372B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 따른, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치는 형태소-구문 분석된 소스 언어 문장을 수신하고, 상기 형태-구문 분석된 소스 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 소스 언어 문장으로 변화시키는 소스 언어 문장 전처리기와, 형태소-구문 분석된 타겟 언어 문장을 수신하고, 상기 형태-구문 분석된 타겟 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 타겟 언어 문장으로 변화시키는 타겟 언어 문장 전처리기와, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장을 수신하여, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 자율 학습기와, 상기 자율 학습기의 상기 단어 정렬 및 구문 정렬 수행을 반복시키기 위한 학습 종료 조건 검사기를 포함한다.
형태-구문 특징 정보, 단어 정렬, 구문 정렬, 반복 자율 학습, 단어 대역 사전, 구문 대역 사전

Description

통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치 및 그 방법 {Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system}
도 1은 본 발명에 따른 학습 장치가 적용되는 예시적인 기계번역 시스템의 개괄적인 블럭도이다.
도 2는 도 1에 도시된 자율 학습기에 대한 보다 구체적인 블럭도이다.
*도면의 주요부분에 대한 부호의 설명
101: 소스 언어 문장 전처리기
102: 타겟 언어 문장 전처리기
200: 자율 학습기
201: 단어 정렬기
202: 단어 재정렬기
203: 구문 정렬기
204: 대역 사전 생성기
210: 학습 종료 조건 검사기
300: 통계적 기계번역 모델 파라미터 추출기
400: 언어 모델
500: 디코더
본 발명은 일반적으로 기계번역 시스템에 관한 것으로, 좀더 구체적으로는 기계번역 시스템에 적용될 수 있는, 통계적 방법에 기초하여 자율적으로 단어 및 구문들 사이의 번역 관계를 학습하는 장치에 관한 것이다.
기계번역 시스템은 소스 언어의 문장들로 이루어진 텍스트를 입력받아 타겟 언어로 번역하여 그 결과를 출력하는 시스템으로 일반적으로 문장 단위로 정렬된 병렬 문장 집합을 학습 데이터로 사용하여 단어 대역 사전(lexicon) 및 구문 대역 사전을 학습하고 그외의 번역에 필요한 번역지식을 획득한다. 이렇게 문장 단위로 병렬 정렬된 학습 데이터 집합으로부터 대역 사전을 도출하는 접근법은 정렬된 문장에서 소스 언어의 단어와 타겟 언어의 단어 사이의 연관성 정도를 측정하고 연관성 정도가 임계값을 넘는 모든 단어쌍들로부터 대역사전을 형성한다. 예를 들면, 기존의 접근법에서는 단어 사이의 연관성 정도의 측정은 병렬 문장들(또는 대응영역)에서 단어들이 얼마나 자주 동시에 나타나는지에 기초한다. 서로 다른 단어쌍들에 대한 연관성 스코어가 계산되고, 연관성 스코어의 내림차순으로 정렬되고, 선택된 임계값에 따라 대역어 쌍이 선택되어 대역사전에 추가된다. 그러나, 이 방법은 독립적으로 단어들 사이의 연관성 스코어를 계산하기 때문에, 복합어의 구성 단어 들 사이의 대역관계를 잘못 설정하는 오류를 발생시킬 수 있다. 예를 들어, 한국어의 "파일 시스템"의 영어 대역어는 "file system"이고, "시스템 파일"의 대역어는 "system files"이다. 이러한 복합어쌍들이 많은 문장에서 나타난다면 복합어의 구성단어들의 대역어 쌍이 "파일/system" "시스템/files"로 형성될 가능성도 커진다.
이러한 문제점을 해결하고자 하는 시도 중 하나는 멜라메드(Melamed)의 "Automatic Construction of Clean Broad-Coverage Translation Lexicon(Second Conference of the Association for Machine Translation in the America's(AMTA, 1996))이다. 멜라메드는 연관성이 높은 단어 쌍들이 동일한 단어 중 하나 또는 모두를 포함하는 보다 연관성이 높은 단어쌍들이 배열된 문장으로부터 도출되면 번역시 가장 연관성 스코어가 높은 쪽을 선택한다. 이 방법은 대역 사전의 정확도를 높여주는 장점이 있으나, 학습 데이터의 집합이 적은 경우에는 자료부족 문제로 인해 재현율이 떨어진다는 문제가 있다.
단어 사이의 대역 관계를 학습하는데 있어서 또 다른 문제는 복합어 및 합성어를 포함하는 것이다. 종래 기술에서는 어휘의 번역 관계가 오직 하나의 단어만을 포함한다고 가정했지만, 합성어의 경우 이는 명백한 거짓이 된다. 예를 들면 "a pool of water"는 "물웅덩이"의 대역어이며 이는 4 단어가 한 단어에 대응관계를 갖는다. 이 문제를 해결하기 위한 한가지 시도는 멜라메드에 의한 것으로 "Automatic Discovery of Non-Compositional compounds in Parallel Data, (Conference on Empirical Methods in Natural Language Processing(EMNLP-97)"이 있다. 멜라메드는 2개의 번역 모델 즉, 후보 합성어를 포함하는 시험 번역 모델 및 포함하지 않는 기준 번역 모델을 유도했고, 목적함수의 값이 기준 모델에서보다 시험 모델에서 더 높으면 합성어는 유효한 것으로 간주하고 그렇지 않으면 무효인 것으로 간주했다. 그러나 이 방법은 시험 번역 모델의 구성을 통해 이루어지게 되므로 매우 복잡하고 계산량이 많이 요구된다는 문제점이 있다.
이에 반해 구문정보를 이용한 연구들은 구문 분석용 지식을 획득하는 비용 및 구문 분석기의 낮은 정확성 들을 이유로 주목을 덜 받아왔지만, 소스 언어 구문의 번역이 타겟 언어 문장에서 상호 인접하는 단어들의 시퀀스라고 가정하고 특정 구문(예를 들면 명사 구문)을 번역하는 고정 구문 번역 기법에 대한 연구는 상대적으로 많이 연구되어 왔다. Dagan과 Church에 의한 "Termight: Coordinating Humans and Machine in Bilingual Teminology Acquisition(Machine Translation, 12:89-107, 1997)"은 사전 편찬가용 보조 도구로서 소스 언어 문장으로부터 기술 용어들을 예측, 사용자들에게 제안하며, 사용자들에 의해 승인된 것에 대해서 병렬 말뭉치로부터 가능한 대역어 쌍을 추출하여 대역어를 제안하는 방법을 사용한다.
또한, 로버트 무어(Robert Moore)는 "구문들 사이의 번역관계를 학습하기 위한 통계적 방법 및 장치(Statistical Method and Apparatus for Learning Translation Relationships among Phrase), 특허 공개번호:2004-0044176"에서 소스 언어에서 식별된 대역어 추출 대상 구문을 포함한 정렬된 문장쌍을 입력으로 받아 타겟 언어에서 구문번역 후보를 생성하고 타겟 언어의 구문과 소스 언어 구문의 내부 단어들 사이의 연관성에 기초한 내부 컴포넌트 및 소스 언어 구문과 타겟 후보 구문의 외부 단어들 사이의 연관성에 기초한 외부 컴포넌트를 포함하는 각 후보 구 문에 대한 스코어를 계산하는 방법을 사용하여 구문사이의 번역관계를 학습하고 대역사전을 도출한다. 그러나, 이 방법은 대역어를 추출하고자 하는 소스 구문이 이미 정해진 상태(대문자로 구성된 단어열:Captoids)에서 타겟 구문의 후보를 설정하는 방법을 사용하고 있기 때문에 대소문자 구분을 하지 않는 한국어와 같은 경우에는 적용하기 어렵고, 또한 일반 구문 타입의 경우에도 입력문에서 하나의 구문을 대상으로 대역어 후보를 생성하고 소스와 타겟 구문의 내외부 단어들 사이의 연관성 스코어를 계산하기 때문에 외부 구문의 단어들에 의한 연관성 스코어에 의한 영향력이 높아져 대역어 선택의 정확성이 낮다는 문제점이 있다.
전술한 종래 기술과 같이, 하나 이상의 형태소가 교착, 굴절되어 단어(어절)을 형성하는 한국어에서 어절을 번역의 기본 단위로 사용함에 따라 학습집합을 사용하는 통계 기반의 접근방법에서 심각한 문제로 대두될 수 있는 학습집합의 자료부족(data sparseness) 문제를 해결하기 위해, 본 발명은 형태소 단위로 분할된 정보를 사용함으로써 이러한 자료 부족 문제를 완화하는 것을 목적으로 한다.
또한, 본 발명은 소스 언어와 타겟 언어 모두에서 품사나 원형 정보를 형태소와 함께 사용함으로써 표층형 형태소 정보만을 사용할 때 발생 가능한 동형이의어 문제나 통사적 쓰임의 차이를 변별할 수 있도록 하고, 품사간 대역어 관계를 통계적으로 파악하고 활용한다.
더 나아가, 본 발명은 통계 기반의 기계번역 시스템을 구축하는데 필수 불가결한 문장 혹은 구문 단위로 병렬 정렬된 학습 집합을 학습과정을 통해 도출한 구 문 대역 사전을 활용함으로써 자동으로 확장하고, 자율 학습(unsupervised learning)의 학습 효율 및 정확성을 증가시키는데 효과적으로 사용될 수 있는 고품질의 단어 대역 사전 또한 학습 과정을 통해 자동으로 학습하여 재사용할 수 있는 메카니즘을 제공한다.
본 발명의 일측면에 따른, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치는, 형태-구문 분석된 소스 언어 문장을 수신하고, 상기 형태-구문 분석된 소스 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 소스 언어 문장으로 변화시키는 소스 언어 문장 전처리기와, 형태-구문 분석된 타겟 언어 문장을 수신하고, 상기 형태-구문 분석된 타겟 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 타겟 언어 문장으로 변화시키는 타겟 언어 문장 전처리기와, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장을 수신하여, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장의 쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 자율 학습기와, 상기 자율 학습기의 상기 단어 정렬 및 구문 정렬 수행을 반복시키기 위한 학습 종료 조건 검사기를 포함한다.
본 발명의 일측면에 따른, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법은, 형태-구문 분석된 소스 언어 문장 및 형태-구문 분석된 타겟 언어 문장을 수신하는 단계와, 상기 형태-구문 분석된 소스 언어 문장 및 상기 형태-구문 분석된 타겟 언어 문장 각각을 형태소 또는 단 어 단위로 나누고 각 형태소 또는 단어에 형태-구문적 특징 정보를 부착하는 단계와, 상기 형태-구문적 특징 정보가 부착된 형태소 또는 단어를 번역의 기본단위로 토큰화하는 단계와, 토큰화된 소스 언어 문장의 단어를 토큰화된 타겟 언어 문장의 단어로 정렬하고 토큰화된 타겟 언어 문장의 단어를 토큰화된 소스 언어 문장의 단어로 정렬하여, 소스 언어에 적용된 형태-구문 특징 정보와 타겟 언어에 적용된 형태-구문 특징 정보에 따라 문장단위로 다수의 단어 정렬 집합을 획득하는 단계와,다수의 단어 정렬 집합이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 대역 스코어를 계산하고 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬하는 단계와, 구문 정보를 활용하여 하나 이상의 소스 구문과 하나 이상의 타겟 구문을 대역 구문으로 정렬하는 단계와, 단어 재정렬 결과 및 구문 정렬 결과로부터 단어 및 구문 대역 사전을 생성하는 단계와, 단어 및 구문 대역 사전에 더 이상 변화가 없게 될 때까지 단어 정렬 단계, 단어 재정렬 단계, 구문 정렬 단계 그리고 단어 및 구문 대역 사전 생성 단계를 반복하는 단계를 포함한다.
본 발명은 바람직하게는 한국어를 소스 언어로 하고 영어 또는 중국어를 타겟 언어로 한다. 이하에서는 첨부된 도면을 참조하여 한국어가 소스 언어이고 영어가 타겟인 실시예를 중심으로 설명한다.
도 1은 본 발명에 따른 학습 장치가 적용될 수 있는 예시적인 기계번역 시스템의 개괄적인 블럭도이다. 소스 언어 문장 전처리기(101)는 형태소-구문 분석된 소스 언어 문장을 수신하며, 타겟 언어 문장 전처리기(102)는 형태소-구문 분석된 타겟 언어 문장을 수신한다. 소스 언어 문장 전처리기(101)는 입력된 한국어를 형태소 단위로 나누어 각 형태소에 원형, 품사, 기본구 내에서의 상대적 위치정보, 구문정보(의존관계에 있는 단어)를 부착한다. 이와 유사하게 타겟 언어 문장 전처리기(102)는 입력된 영어를 단어로 나누어 각 단어마다 단어의 원형, 품사, 기본구 내에서의 단어의 상대적 위치 정보를 부착한다. 이러한 형태-구문적 특징 정보를 부착한 한국어와 영어 문장쌍은 형태소와 원형, 형태소와 품사, 원형과 품사, 원형, 형태소를 번역의 기본 단위로 토큰화되고 한국어와 영어 문장이 각각 재구성되어, 각 단위를 토큰으로 사용하는 학습집합을 별도로 구성한다. 이와 같이, 원형-품사-구문정보가 부착된 한국어 형태소 및 영어 단어는 번역의 기본 단위인 토큰으로 인식되며, 형태-구문적 특징 정보를 부착한 한국어 및 영어는 자율 학습기(200)의 입력으로 주어진다. 이렇게 함으로써 하나 이상의 형태소가 교착, 굴절되어 단어(어절)을 형성하는 한국어에서는 형태소 단위로 분할된 정보를 사용함으로써 어절 단위를 사용했을 때 심각해질 수 있는 자료 문제를 완화한다. 또한 한국어와 영어 모두에서 품사나 원형 정보를 형태소와 함께 사용함으로써 표층형 형태소 정보만을 사용할 때 발생가능한 동형이의어 문제나 통사적 쓰임의 차이를 변별할 수 있도록 하고, 품사간 대역어 관계를 통계적으로 파악하고 활용할 수 있다.
도 2를 참조하면, 자율 학습기(200)의 구성요소가 보다 자세히 도시되어 있다. 자율 학습기(200)는 소스 언어 문장 전처리기(101) 및 타겟 언어 문장 전처리기(102)에서 각각 학습집합을 수신한다. 단어 정렬기(201)는 수신된 각 학습집합을 대상으로 IBM 모델 1, 2, 3, 4를 순차적으로 적용, 학습하여 소스 언어 문장의 단어를 타겟 언어 문장의 단어로 정렬한 결과를 획득하고, 또한 타겟 언어 문장의 단어를 소스 언어 문장의 단어로 정렬한 결과를 획득한다. 이러한 결과로써 소스 언어에 적용된 형태소 특징 정보와 타겟 언어에 적용된 형태소 특징 정보에 따라 문장단위로 다수의 단어 정렬 학습 결과를 1차적으로 얻는다.
단어 재정렬기(202)는 1차적으로 학습된, 형태소 특징 정보별 문장 단위 단어 정렬 집합을 수신한다. 단어 재정렬기(202)는 소스 언어 형태소의 특징 정보별 단어 정렬 결과들이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 단어 재정렬을 위해 대역 스코어를 계산한다. 이때 대역 스코어는 소스 언어의 단어가 타겟 언어의 단어로 번역될 조건 확률, 타겟 언어의 단어가 소스 언어의 단어로 번역될 조건 확률, 소스 언어의 단어와 타겟 언어의 단어의 상호정보 정보량(KL-divergence)을 계산하여 가중적으로 결합하는데, 토큰의 유형(사용된 형태소 특징 정보들의 결합 유형)별로 조건 확률 및 상호정보량을 각각 계산하고 가중적으로 결합하여, 소스 언어에 대한 타겟 단어의 대역 스코어를 산출하며, 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬한다. 이와 같이, 각 문장쌍에 대한 단어 재정렬 결과는 구문 정렬기(203)의 입력으로 주어진다.
구문 정렬기(203)는 각 입력 문장에 부착된 구문정보를 활용하며, 하나 이상의 소스 구문과 하나 이상의 타겟 구문이 대역 구문으로 정렬될 수 있으며, 불연속 적인 구문과 연속적인 구문 또는 불연속적인 구문의 대역관계 또한 가능하다.
대역 사전 생성기(204)는 단어 재정렬기(202) 및 구문 정렬기(203)로부터의 단어 재정렬 결과 및 구문 정렬 결과로부터 빈도 정보를 포함한 단어 대역 사전 및 구문 대역 사전을 생성한다. 이때 단어 대역 사전에 포함된 빈도 정보는 소스 언어의 단어 빈도, 타겟 언어의 단어 빈도, 두 단어의 공기 빈도를 포함하며 구문 대역 사전의 빈도 정보 또한 동일한 방식으로 구축된다. 생성된 단어 대역 사전 및 구문 대역 사전은 그대로 대역 사전으로 활용되지 않으며, 신뢰도 측정을 통한 필터링 과정을 거쳐 임계 신뢰도 이상의 대역쌍들만이 대역 사전에 존재하고 임계 신뢰도 미만의 대역쌍은 대역 사전에서 제거된다. 구축된 단어 대역 사전은 단어 정렬 학습의 속도 개선 및 정확도 향상을 위해 재사용되고, 구축된 구문 대역 사전은 단어 정렬 및 구문 정렬을 통한 통계 기반의 번역 모델을 학습하기 위한 학습집합을 확장시키고 단어 정렬 범위를 제한하여 정렬 속도 개선 및 정확도를 향상시키기 위해 재사용된다.
학습 종료 조건 검사기(210)는 학습 집합으로부터의 단어 및 구문 대역 사전에 더 이상 변화가 없게 되는 학습 종료 조건을 만족시킬때까지 학습 집합에 대한 단어 정렬, 단어 재정렬, 구문 정렬 그리고 단어 및 구문 대역 사전의 획득 과정을 반복 수행시킴으로써 단어 및 구문 대역 사전의 양과 질이 향상되게 된다. 더이상 단어 및 구문 대역 사전에 변화가 없게 되면, 통계적 기계번역 모델 파라미터 추출기(300)에 의해, 단어 및 구문 정렬에 대한 학습 결과 획득된 단어 및 구문 정렬 결과로부터 통계 기반의 번역 모델을 위한 파라미터들이 추출된다. 그리고 통계적 기계번역 모델은 별도로 학습된 언어모델(400)과 함께 입력된 소스 언어 문장으로부터 타겟 언어의 문장을 생성하기 위해 디코더(500)내에서 사용된다.
본 발명에 의해 제공되는 반복적 자율학습을 통한 단어 및 구문 재정렬 및 단어 및 구문 대역 사전 생성은 다양한 형태-구문 특징 정보를 종합하여 단어 및 구문 재정렬을 위한 결정을 내리며, 통계에 기반한 신뢰도를 측정하여 단어 및 구문 대역 사전을 생성하므로 종래 기술에 비해 단어 및 구문 정렬의 정확성을 향상시키는 효과가 있다. 또한 기존 방식과 달리 구문의 경계 정보를 사용하여 구문 정렬을 수행하되, 다중 단어 정렬 결과를 종합하여 공통적으로 일치하는 단어 정렬 결과를 기반으로 구문 정렬을 수행하므로 구문 정렬의 정확성을 향상시킨다.
본 발명에 의하면, 학습의 실마리가 되는 단어 및 구문 대역 사전을 수동으로 형성하는 것이 아니라, 단어 및 구문 대역 사전의 학습과정을 통해 자동으로 획득하여 사용하며, 신뢰도 미만의 대역 정보는 필터링을 통해 제거함으로써 자율 학습과정에서 발생하는 오류를 최소화하고 이로 인해 학습의 효율 증대 및 자동번역에 필요한 번역 지식을 효과적으로 획득할 수 있다. 또한 획득된 단어 및 구문 대역 사전은 유용한 번역 지식으로 통계 기반의 번역 시스템에서 뿐만 아니라 규칙 기반, 패턴 기반의 기계번역 시스템에서도 사용될 수 있다는 장점이 있다. 또한, 통계 기반의 기계번역 시스템에서는 대량의 문장 및 구문 정렬된 말뭉치를 요구하고, 문장 및 구문 정렬된 말뭉치를 구축하는 것 또한 시간과 비용이 소모된다. 본 발명은 반복적 자율 학습 과정에서 획득되는 양질의 구문 대역 정보를 학습 집합에 활용함으로써 점차적으로 학습집합을 증가시키고, 자율 학습 과정에서 발생하는 자료부족 문제를 완화시키는 효과를 갖는다.

Claims (14)

  1. 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치에 있어서,
    형태-구문 분석된 소스 언어 문장을 수신하고, 상기 형태-구문 분석된 소스 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 소스 언어 문장으로 변화시키는 소스 언어 문장 전처리기와,
    형태-구문 분석된 타겟 언어 문장을 수신하고, 상기 형태-구문 분석된 타겟 언어 문장을 형태-구문적 특징 정보를 부착한 토큰화된 타겟 언어 문장으로 변화시키는 타겟 언어 문장 전처리기와,
    상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장을 수신하여, 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장의 쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 자율 학습기와,
    상기 자율 학습기의 상기 단어 정렬 및 구문 정렬 수행을 반복시키기 위한 학습 종료 조건 검사기
    를 포함하며,
    상기 형태-구문적 특징 정보는 형태소 또는 단어의 원형, 품사, 기본구 내에서의 상대적 위치정보, 구문 정보를 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  2. 제1항에 있어서,
    소스 언어는 한국어이고 타겟 언어는 영어 또는 중국어인, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  3. 제1항에 있어서,
    상기 자율 학습기는, 상기 토큰화된 소스 언어 문장의 단어를 상기 토큰화된 타겟 언어 문장의 단어로 정렬하고 상기 토큰화된 타겟 언어 문장의 단어를 상기 토큰화된 소스 언어 문장의 단어로 정렬하여, 소스 언어에 적용된 형태-구문 특징 정보와 타겟 언어에 적용된 형태-구문 특징 정보에 따라 문장단위로 다수의 단어 정렬 집합을 획득하는 단어 정렬기를 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  4. 제3항에 있어서,
    상기 자율 학습기는, 상기 다수의 단어 정렬 집합이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 대역 스코어를 계산하고 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬하는 단어 재정렬기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  5. 제4항에 있어서,
    상기 자율 학습기는, 상기 구문 정보를 활용하여 하나 이상의 소스 구문과 하나 이상의 타겟 구문을 대역 구문으로 정렬하는 구문 정렬기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  6. 제5항에 있어서,
    상기 자율 학습기는 상기 단어 재정렬 결과 및 상기 구문 정렬 결과로부터 단어 및 구문 대역 사전을 생성하는 대역 사전 생성기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  7. 제6항에 있어서,
    상기 대역 사전 생성기는 신뢰도 측정을 통한 필터링 과정을 거쳐 임계 신뢰도 이상의 대역쌍들만을 상기 단어 및 구문 대역 사전에 존재시키고 임계 신뢰도 미만의 대역쌍은 상기 단어 및 구문 대역 사전에서 제거하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  8. 제7항에 있어서,
    상기 학습 종료 조건 검사기는 상기 단어 및 구문 대역 사전에 더 이상 변화가 없게 될 때까지 상기 자율 학습기의 단어 정렬, 단어 재정렬, 구문 정렬, 단어 및 구문 대역 사전 생성 과정을 반복시키는, 단어 및 구문들간의 번역 관계를 자율 적으로 학습하기 위한 장치.
  9. 제1항에 있어서,
    상기 자율 학습기에 의한 상기 단어 정렬 결과 및 상기 구문 정렬 결과로부터 통계 기반의 번역 모델을 위한 파라미터를 추출하는, 통계적 기계번역 모델 파라미터 추출기를 더 포함하는, 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 장치.
  10. 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법에 있어서,
    (a) 형태-구문 분석된 소스 언어 문장 및 형태-구문 분석된 타겟 언어 문장을 수신하는 단계와,
    (b) 상기 형태-구문 분석된 소스 언어 문장 및 상기 형태-구문 분석된 타겟 언어 문장 각각을 형태소 또는 단어 단위로 나누고 각 형태소 또는 단어에 형태-구문적 특징 정보를 부착하고, 상기 형태-구문적 특징 정보가 부착된 형태소 또는 단어를 번역의 기본단위로 하는 토큰화된 소스 언어 문장 및 토큰화된 타겟 언어 문장을 구성하는 단계와,
    (c) 상기 토큰화된 소스 언어 문장 및 상기 토큰화된 타겟 언어 문장의 쌍에 대한 단어 정렬 및 구문 정렬을 수행하는 단계와,
    (d) 상기 단어 정렬 결과 및 상기 구문 정렬 결과로부터 단어 및 구문 대역 사전을 생성하는 단계
    를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법.
  11. 삭제
  12. 제10항에 있어서,
    상기 (c)단계는, 상기 토큰화된 소스 언어 문장의 단어를 토큰화된 상기 타겟 언어 문장의 단어로 정렬하고 상기 토큰화된 타겟 언어 문장의 단어를 상기 토큰화된 소스 언어 문장의 단어로 정렬하여, 소스 언어에 적용된 형태-구문 특징 정보와 타겟 언어에 적용된 형태-구문 특징 정보에 따라 문장단위로 다수의 단어 정렬 집합을 획득하는 단계와,
    상기 다수의 단어 정렬 집합이 공통적으로 갖는 단어 정렬 결과를 초기 정렬값으로 취하여 구문 정렬(phrase alignment)을 수행하고 정렬되지 않은 소스와 타겟 언어의 구문의 내용어(content word)들을 대상으로 대역 스코어를 계산하고 가장 높은 대역 스코어를 갖는 단어를 선택하여 단어를 재정렬하는 단계와,
    구문 정보를 활용하여 하나 이상의 소스 구문과 하나 이상의 타겟 구문을 대역 구문으로 정렬하는 단계
    를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법.
  13. 제12항에 있어서,
    상기 (d)단계는, 임계 신뢰도 이상의 대역쌍들만을 상기 단어 및 구문 대역 사전에 존재시키고 임계 신뢰도 미만의 대역쌍은 상기 단어 및 구문 대역 사전에서 제거하는 단계를 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법.
  14. 제13항에 있어서,
    상기 단어 및 구문 대역 사전에 더 이상 변화가 없게 될 때까지 상기 (c) 및 (d) 단계를 반복하는 단계를 더 포함하는, 통계적 기계번역 시스템에서 단어 및 구문들간의 번역 관계를 자율적으로 학습하기 위한 방법.
KR1020070076140A 2006-12-05 2007-07-30 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 KR100911372B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020060122292 2006-12-05
KR20060122292 2006-12-05

Publications (2)

Publication Number Publication Date
KR20080052282A KR20080052282A (ko) 2008-06-11
KR100911372B1 true KR100911372B1 (ko) 2009-08-10

Family

ID=39807123

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070076140A KR100911372B1 (ko) 2006-12-05 2007-07-30 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100911372B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101365944B1 (ko) * 2009-12-18 2014-02-24 한국전자통신연구원 구단위 패턴 구축 장치
KR101664258B1 (ko) * 2015-06-22 2016-10-11 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
CN106844357A (zh) * 2017-01-19 2017-06-13 深圳大学 大句库翻译方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101721536B1 (ko) * 2010-08-23 2017-04-10 에스케이플래닛 주식회사 품사간 정렬 경향을 반영한 통계적 단어 정렬 방법 및 이를 이용한 기계 번역 장치
KR101762866B1 (ko) 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR101870729B1 (ko) 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
KR102069692B1 (ko) 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치
KR102188564B1 (ko) * 2019-01-04 2020-12-09 네이버 주식회사 어체 변환이 가능한 기계 번역 방법 및 시스템
CN114139560B (zh) * 2021-12-03 2022-12-09 山东诗语信息科技有限公司 基于人工智能翻译系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040051351A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
KR20040102329A (ko) * 2003-05-27 2004-12-04 마이크로소프트 코포레이션 기계 번역기를 훈련하기 위한 방법 및 시스템
KR20050039379A (ko) * 2003-10-24 2005-04-29 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR20050045822A (ko) * 2003-11-12 2005-05-17 마이크로소프트 코포레이션 기계번역기법을 이용한 유사문장 식별 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040051351A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
KR20040102329A (ko) * 2003-05-27 2004-12-04 마이크로소프트 코포레이션 기계 번역기를 훈련하기 위한 방법 및 시스템
KR20050039379A (ko) * 2003-10-24 2005-04-29 한국전자통신연구원 대표 형태소 어휘 문맥에 기반한 통계적 태깅 오류 정정장치 및 그 방법
KR20050045822A (ko) * 2003-11-12 2005-05-17 마이크로소프트 코포레이션 기계번역기법을 이용한 유사문장 식별 시스템

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101365944B1 (ko) * 2009-12-18 2014-02-24 한국전자통신연구원 구단위 패턴 구축 장치
KR101664258B1 (ko) * 2015-06-22 2016-10-11 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2016208941A1 (ko) * 2015-06-22 2016-12-29 전자부품연구원 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
CN106844357A (zh) * 2017-01-19 2017-06-13 深圳大学 大句库翻译方法
CN106844357B (zh) * 2017-01-19 2019-12-17 深圳大学 大句库翻译方法

Also Published As

Publication number Publication date
KR20080052282A (ko) 2008-06-11

Similar Documents

Publication Publication Date Title
KR100911372B1 (ko) 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
Seddah et al. Overview of the SPMRL 2013 shared task: A cross-framework evaluation of parsing morphologically rich languages
Nießen et al. Statistical machine translation with scarce resources using morpho-syntactic information
KR101818598B1 (ko) 자동 번역 엔진 서버 및 자동 번역 방법
US8121829B2 (en) Method and apparatus for constructing translation knowledge
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
Callison-Burch et al. A program for automatically selecting the best output from multiple machine translation engines
CN100454294C (zh) 用于将日文翻译成中文的设备
Volk et al. Parallel corpora, terminology extraction and machine translation
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Khemakhem et al. Integrating morpho-syntactic features in English-Arabic statistical machine translation
Venkatapathy et al. Discriminative machine translation using global lexical selection
Chao et al. Automatic spelling correction for asr corpus in traditional chinese language using seq2seq models
JP5194920B2 (ja) 例文集合ベース翻訳装置、方法およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Nakazawa et al. EBMT System of KYOTO Team in PatentMT Task at NTCIR-9.
Lin et al. A Mandarin to Taiwanese Min Nan Machine Translation System with Speech Synthesis of Taiwanese Min Nan
Khenglawt Machine translation and its approaches
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
Rudnick et al. Lexical selection for hybrid mt with sequence labeling
Bengoetxea et al. Testing the effect of morphological disambiguation in dependency parsing of basque
Tsai et al. Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
Debbarma et al. Morphological Analyzer for Kokborok

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee