KR101670995B1 - 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법 - Google Patents

어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법 Download PDF

Info

Publication number
KR101670995B1
KR101670995B1 KR1020140077998A KR20140077998A KR101670995B1 KR 101670995 B1 KR101670995 B1 KR 101670995B1 KR 1020140077998 A KR1020140077998 A KR 1020140077998A KR 20140077998 A KR20140077998 A KR 20140077998A KR 101670995 B1 KR101670995 B1 KR 101670995B1
Authority
KR
South Korea
Prior art keywords
original text
word order
translation
word
machine translation
Prior art date
Application number
KR1020140077998A
Other languages
English (en)
Other versions
KR20160000632A (ko
Inventor
지창진
이종혁
나휘동
Original Assignee
주식회사 시스트란인터내셔널
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스트란인터내셔널, 포항공과대학교 산학협력단 filed Critical 주식회사 시스트란인터내셔널
Priority to KR1020140077998A priority Critical patent/KR101670995B1/ko
Publication of KR20160000632A publication Critical patent/KR20160000632A/ko
Application granted granted Critical
Publication of KR101670995B1 publication Critical patent/KR101670995B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법이 개시된다.
이 시스템에서 어순 조정부는 기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정을 명시한 계층 구조를 사용하여 어순 조정된 제2 원문을 생성하여 출력한다. 통계 기반 기계 번역부는 상기 어순 조정부에서 출력되는 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력한다.

Description

어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법{Statistical Machine Translation System based on Word Reordering and Morpheme Difference and Method thereof}
본 발명은 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법에 관한 것이다.
통계 기반 기계 번역(Statistical Machine Translation, 이하 "SMT"라고도 함)은 개념적으로 번역 모델과 언어 모델로 구성되는데, 번역 모델이 선택한 대역어를 언어 모델이 올바르게 배열하는 방식이다.
통계 기반으로 기계 번역시 영어와 한국어와 같은 언어학적 차이가 큰 두 언어를 번역하기 위해서는 어순 조정이 필요하다.
하지만 통계 기반 기계 번역에서 사용되는 언어 모델은 어순 차이가 큰 영어와 한국어 사이 같은 언어 사이에서는 효과적이지 못하다. 기존에는 이러한 한계점을 극복하기 위해 전통적인 구문 분석 결과를 활용하는 방법이 제안되었다.
이는 주어진 문장에 대한 문법적인 계층 구조(syntactic tree)를 변환하여 어순 차이가 큰 언어 사이에도 효과적으로 어순을 조정할 수 있었다.
하지만 기존의 방법은 구문 분석 결과를 변환하기 때문에 구문 분석의 오류에 민감할 뿐 아니라 계층 구조가 어순 조정을 제약하는 경우가 존재한다. 대표적으로 잘 알려진 경우인 Inside-Out은 도 1에 도시된 바와 같다.
여기서 한국어 문장을 영어로 번역하기 위해서는 술어인 "생각하니(think)"를 "그녀가 누구를 초대했다고(who … she invited)" 사이에 위치시켜야 한다. 하지만 화살표로 표기된 한국어 의존 구문 구조를 변환하는 방법으로는 이러한 어순 조정이 불가능하다는 문제점이 있다.
본 발명이 이루고자 하는 기술적 과제는 어순 조정을 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정에 활용함으로써 종래의 번역 시스템에 비해 번역 성능을 향상시킬 수 있는 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법을 제공하는 것이다.
본 발명의 다른 기술적 과제는 어순 조정 및 형태소 차이를 반영하기 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정 및 형태소 차이 반영에 활용함으로써 종래의 번역 시스템에 비해 번역 성능을 더욱 향상시킬 수 있는 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법을 제공하는 것이다.
본 발명의 한 특징에 따른 통계 기반 기계 번역 시스템은,
기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정을 명시한 계층 구조(Reordering Tree)를 사용하여 어순 조정된 제2 원문을 생성하여 출력하는 어순 조정부; 및 상기 어순 조정부에서 출력되는 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 통계 기반 기계 번역부를 포함한다.
여기서, 상기 어순 조정부는, 어순 조정을 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함하는 판별 모델(Discriminative Model); 및 상기 제1 원문을 입력받아서 상기 판별 모델을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시한 계층 구조를 생성하고, 생성되는 상기 어순 조정을 명시한 계층 구조를 통해 상기 제1 원문을 상기 제2 원문으로 어순 조정하여 상기 통계 기반 기계 번역부로 출력하는 어순 조정 분석기를 포함한다.
또한, 상기 통계 기반 기계 번역부는, 가능한 원문의 언어에 대응하는 번역문 언어 쌍들의 개연성(probability)을 제공하는 모델인 번역 모델; 단어 시퀀스의 개연성(probability)을 제공하는 모델인 언어 모델; 및 상기 번역 모델과 상기 언어 모델을 사용하여 상기 어순 조정부로부터 출력되는 상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 번역문을 생성하여 출력하는 기계 번역부를 포함한다.
또한, 상기 어순 조정을 명시한 계층 구조는, 상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및 상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며, 상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 것을 특징으로 한다.
또한, 상기 두 자식의 어순이 유지되는 것을 나타내기 위해 상기 간선을 점선으로 표시하거나 또는 상기 두 자식의 부모 노드에 어순이 유지됨(straight)을 나타내는 기호(ST)를 표시하는 것을 특징으로 한다.
또한, 상기 두 자식의 어순이 반전되는 것을 나타내기 위해 상기 간선을 실선으로 표시하거나 또는 상기 두 자식의 부모 노드에 어순이 반전됨(inverted)을 나타내는 기호(IV)를 표시하는 것을 특징으로 한다.
또한, 상기 판별 모델은, 복수의 단어 또는 문장에 대해 어순 조정을 위한 분석에 필요한 자질 및 가중치를 포함하고, 상기 자질은 어순이 유지됨 또는 어순이 반전됨을 나타내는 표시를 포함하고 있는 것을 특징으로 한다.
또한, 상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 판별 모델 생성 장치가 생성하는 것을 특징으로 한다.
또한, 상기 판별 모델 생성 장치가, 원문과 원문이 번역된 번역문을 다수 포함하고 있는 병렬 말뭉치에서 상기 원문과 상기 번역문에 대해 번역 전후 문장의 어순 조정을 나타내는 순열을 파악하기 위한 단어 정렬을 수행하는 단어 정렬부; 상기 단어 정렬부를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질을 추출하는 자질 추출부; 상기 자질 추출부에 의해 추출된 자질에 대한 가중치를 설정하는 가중치 설정부; 및 상기 단어 정렬부, 상기 자질 추출부 및 상기 가중치 설정부를 제어하여 상기 병렬 말뭉치에 기반하여 어순 조정을 명시한 계층 구조에 적용될 판별 모델을 학습하여 생성하는 학습 제어부를 포함한다.
또한, 상기 번역 모델은 상기 병렬 말뭉치의 원문이 어순 조정된 원문과 상기 병렬 말뭉치의 번역문에 기반한 학습을 통해 생성되며, 상기 번역 모델을 생성하는 장치는, 상기 병렬 말뭉치의 원문을 입력받아서 상기 판별 모델을 사용하여 상기 병렬 말뭉치의 원문에 대한 어순 조정을 행하여 어순 조정된 원문을 생성하여 출력하는 분석기; 및 상기 분석기에서 출력되는 어순 조정된 원문과 상기 병렬 말뭉치의 번역문을 사용하여 상기 번역 모델을 생성하는 번역 모델 생성부를 포함한다.
본 발명의 다른 특징에 따른 통계 기반 기계 번역 방법은,
통계 기반의 기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정을 명시한 계층 구조를 사용하여 어순 조정된 제2 원문을 생성하는 단계; 및 상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 단계를 포함한다.
여기서, 상기 제2 원문을 생성하는 단계는, 상기 제1 원문을 입력받아서 판별 모델―여기서 판별 모델은 어순 조정을 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함함―을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시한 계층 구조를 생성하는 단계; 및 상기 어순 조정을 명시한 계층 구조를 사용하여 상기 제1 원문을 어순 조정하여 상기 제2 원문을 생성하는 단계를 포함한다.
또한, 상기 번역문을 생성하여 출력하는 단계는, 상기 제2 원문에 대해 번역 모델―여기서 번역 모델은 가능한 원문의 언어에 대응하는 번역문 언어 쌍들의 개연성을 제공하는 모델임―과 언어 모델―여기서 언어 모델은 단어 시퀀스의 개연성을 제공하는 모델임―을 사용하여 통계 기반의 기계 번역을 수행하여 대응되는 번역문을 생성하여 출력하는 것을 특징으로 한다.
또한, 상기 어순 조정을 명시한 계층 구조는, 상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및 상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며, 상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 것을 특징으로 한다.
또한, 상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 생성되는 것을 특징으로 한다.
또한, 상기 번역 모델은 상기 병렬 말뭉치의 원문이 어순 조정된 원문과 상기 병렬 말뭉치의 번역문에 기반한 학습을 통해 생성되는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따른 통계 기반 기계 번역 시스템은,
기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정과 형태소 차이를 명시한 계층 구조(Intermediate Tree)를 사용하여 어순 조정되고 형태소 생성 정보를 포함하는 제2 원문을 생성하여 출력하는 어순 조정 및 형태소 차이 반영부; 및 상기 어순 조정 및 형태소 차이 반영부에서 출력되는 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 통계 기반 기계 번역부를 포함한다.
여기서, 상기 어순 조정 및 형태소 차이 반영부는, 어순 조정 및 형태소 차이를 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함하는 판별 모델; 및 상기 제1 원문을 입력받아서 상기 판별 모델을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시함과 동시에 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 계층 구조를 생성하고, 생성되는 상기 어순 조정 및 형태소 차이를 명시한 계층 구조를 통해 상기 제1 원문을 상기 제2 원문으로 생성하여 상기 통계 기반 기계 번역부로 출력하는 어순 조정 및 형태소 차이 분석기를 포함한다.
또한, 상기 어순 조정과 형태소 차이를 명시한 계층 구조는, 상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및 상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며, 상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 동시에, 상기 두 자식 중 하나의 형태소가 삭제되어야 하거나 또는 형태소가 삽입되어야 하는 정보가 명시되어 있는 것을 특징으로 한다.
또한, 상기 형태소의 삭제 또는 삽입 정보는 상기 두 자식 중 왼쪽의 자식을 삭제하는 것을 나타내는 기호(Delete Left:DL), 상기 두 자식 중 오른쪽의 자식을 삭제하는 것을 나타내는 기호(Dlelte Right:DL), 상기 두 자식 중 왼쪽의 자식의 앞에 형태소가 삽입되어야 함을 나타내는 기호(Insert Left:IL) 및 상기 두 자식 중 왼쪽의 자식의 뒤에 형태소가 삽입되어야 함을 나타내는 기호(Insert Right:IR)를 통해 표시되는 것을 특징으로 한다.
또한, 상기 판별 모델은, 복수의 단어 또는 문장에 대해 어순 조정 및 형태소 삭제 또는 생성을 위한 분석에 필요한 자질 및 가중치를 포함하고, 상기 자질은 어순이 유지됨 또는 어순이 반전됨을 나타내는 표시와, 형태소가 삭제 또는 생성됨을 나타내는 표시를 포함하고 있는 것을 특징으로 한다.
또한, 상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 판별 모델 생성 장치가 생성되며, 상기 판별 모델 생성 장치는, 원문과 원문이 번역된 번역문을 다수 포함하고 있는 병렬 말뭉치에서 상기 원문과 상기 번역문에 대해 번역 전후 문장의 어순 조정을 나타내는 순열을 파악하기 위한 단어 정렬을 수행하는 단어 정렬부; 상기 단어 정렬부를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질과 형태소 차이를 반영하여 형태소 삭제 또는 생성을 명시한 계층 구조에 적용될 자질을 추출하는 어순 조정 및 형태소 자질 추출부; 상기 어순 조정 및 형태소 자질 추출부에 의해 추출된 자질에 대한 가중치를 설정하는 가중치 설정부; 및 상기 단어 정렬부, 상기 어순 조정 및 형태소 자질 추출부 및 상기 가중치 설정부를 제어하여 상기 병렬 말뭉치에 기반하여 어순 조정 및 형태소 삭제 및 생성 정보를 명시한 계층 구조에 적용될 판별 모델을 학습하여 생성하는 학습 제어부를 포함한다.
본 발명의 또 다른 특징에 따른 통계 기반 기계 번역 방법은,
통계 기반의 기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정과 형태소 차이를 명시한 계층 구조를 사용하여 어순 조정되고 형태소 생성 정보를 포함하는 제2 원문을 생성하는 단계; 및 상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 단계를 포함한다.
여기서, 상기 제2 원문을 생성하는 단계는, 상기 제1 원문을 입력받아서 판별 모델―여기서 판별 모델은 어순 조정 및 형태소 차이를 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함함―을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시하고 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 명시한 계층 구조를 생성하는 단계; 및 상기 어순 조정 및 형태소 차이를 명시한 계층 구조를 사용하여 상기 제1 원문에 대해 어순 조정을 수행함과 동시에 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 상기 제2 원문을 생성하는 단계를 포함한다.
또한, 상기 어순 조정과 형태서 차이를 명시한 계층 구조는, 상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및 상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며, 상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 동시에, 상기 두 자식 중 하나의 형태소가 삭제되어야 하거나 또는 형태소가 삽입되어야 하는 정보가 명시되어 있는 것을 특징으로 한다.
본 발명에 따르면, 병렬 말뭉치에서 어순 조정을 위한 분석기를 학습하기 때문에 독립적인 구문분석기가 필요하지 않으면서도 번역 알고리즘의 복잡도가 낮아 효율적인 번역이 가능해진다.
따라서, 어순 조정을 반영하기 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정에 활용함으로써 종래의 번역 시스템에 비해 번역 성능을 향상시킬 수 있다.
또한, 어순 조정과 함께 형태소 차이를 반영하기 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정 및 형태소 차이 반영에 활용함으로써 번역 성능을 더욱 향상시킬 수 있다.
도 1은 종래 통계 기반 기계 번역 시스템에서 문법적인 계층구조가 어순 조정을 제약하는 경우의 예를 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 어순 조정을 점선과 실선을 통해 명시한 계층 구조의 예를 도시한 도면이다.
도 3은 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템의 개략적인 블록도이다.
도 4는 본 발명의 실시예에 따른 어순 조정을 기호를 통해 명시한 계층 구조의 예를 도시한 도면이다.
도 5는 도 3에 도시된 어순 조정부의 구체적인 구성을 도시한 도면이다.
도 6은 도 5에 도시된 DM의 예를 도시한 도면이다.
도 7은 도 5에 도시된 DM을 생성하는 장치의 구성 블록도이다.
도 8은 본 발명의 실시예에 따른 번역 모델을 생성하는 장치의 구성 블록도이다.
도 9는 본 발명의 제2 실시예에 따른 어순 조정 및 형태소 차이가 명시된 계층 구조의 예를 도시한 도면이다.
도 10은 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템의 개략적인 블록도이다.
도 11은 도 10에 도시된 어순 조정 및 형태소 차이 반영부의 구체적인 구성을 도시한 도면이다.
도 12는 도 11에 도시된 DM의 예를 도시한 도면이다.
도 13은 도 11에 도시된 DM을 생성하는 장치의 구성 블록도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템에서 정의하는 어순 조정을 명시한 계층 구조(reordering tree)에 대해 설명한다.
단일어를 대상으로 수행하는 구문 분석은 주어진 문장에 대한 구문 구조를 트리 형태로 나타낸다. 우선 트리에 속한 각 노드가 주어진 문장의 단어열(word sequence)과 대응될 때 해당 트리가 연속성을 갖는다고 정의하자.
만일 도 1에 도시된 바와 같이 번역 후 문장에 대한 구문 구조가 불연속성을 갖는 경우, 번역 전 문장에 대한 구문 구조를 변환하여 올바른 어순 조정을 하기란 불가능하다. 이는 기존에 제안된 어순 조정을 위해 단순화된 계층 구조를 생성하는 방법을 통해서도 불가능하다. 왜냐하면 기존의 방법은 단순화된 계층 구조가 불연속성을 허용하지 않는 Inversion Transduction Grammar를 따른다고 가정하기 때문이다.
본 발명의 실시예에서는 이러한 한계를 극복하고자 어순 조정을 명시한 계층구조(reordering tree)를 정의하여 사용한다. 편의상 번역 전 문장이 번역 후 문장의 어순처럼 재배열 될 수 있다고 가정한다면, 어순 조정은 주어진 문장의 순열(permutation)로 정의할 수 있다. 어순 조정을 명시한 계층 구조는 이러한 순열을 나타내는 이진 트리로 도 2에 도시된 바와 같다.
도 2에 도시된 어순 조정을 명시한 계층 구조는 노드(node)와 간선(edge)으로 구성되는데, 노드는 대응되는 단어 집합(set of words)의 순열을 나타내고, 간선은 부모-자식간의 관계를 표현한다. 부모-자식간의 관계는 두 자식의 어순이 유지(straight, 또는 "ST"라고 표시함) 혹은 반전(inverted, 또는 "IV"라고 표시함)됨을 명시한다. 따라서 루트 노드는 문장 전체에 해당하는 순열이다. 도 2에 도시된 계층 구조에서 점선은 어순이 유지됨을 나타내고 실선은 반전을 나타낸다.
도 2에 도시된 어순 조정을 명시한 계층 구조는 전통적인 구문 구조와 다른 특성을 갖는다. 우선 트리에 계층 구조뿐 아니라 어순 조정을 명시한다. 또한, 노드와 대응되는 단어 집합이 반드시 문장성분(constituent)일 필요가 없다. 예를 들어, "누구를 너는"은 의존 구문에서의 문장성분이 아니다. 마지막으로, 구조의 불연속성을 허용하기 때문에 Inside-Out과 같은 경우도 올바르게 어순을 조정할 수 있다.
본 발명의 실시예에 따른 통계 기반 기계 번역 시스템에서의 어순 조정 분석기가 주어진 문장에 대하여 구문분석을 통해 상기한 바와 같은 어순 조정을 명시한 계층 구조를 얻는 방법에 대해 설명한다.
본 발명의 실시예에 따른 어순 조정을 명시한 계층 구조를 얻는 방법은 비투사 의존(non-projextive dependency) 구문분석 기법을 통해 이루어지며, 이는 두 가지 자료구조(스택(stack) σ와 버퍼(buffer) β)에 대하여 매번 다음과 같은 네가지 작용을 통해 분석 결과를 얻어낸다.
· Shift: (σ, [i|β]) ⇒ ([σ|i],β])
· Straight(ST): ([σ|i],[j|β]) ⇒ ([σ|i·j],β)
· Inverted(IV): ([σ|i],[j|β]) ⇒ ([σ|j·i],β)
· Swap: ([σ|i],[j|β]) ⇒ ([σ,[j|i|β])
상기한 방법은 아래 [표 1]에 나타낸 바와 같이, 의존 구문분석과 마찬가지로 swap 작용을 통해 분석 결과가 불연속성을 가질 수 있음을 알 수 있다. 이러한 방법을 통해 번역 전 문장을 올바르게 어순 조정하여 번역 후 문장의 어순처럼 재배열하는 순열을 얻어내며, 알고리즘의 복잡도는 의존 구문분석과 마찬가지로 선형 시간을 기대할 수 있다.
[표 1]
Figure 112014059473344-pat00001
한편, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템에서의 어순 조정 분석기는 인력으로 만든 구문분석 말뭉치를 이용해 구문분석에 필요한 정보를 학습한다.
하지만 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템에서의 어순 조정은 번역하고자 하는 언어에 따라 달라지기 때문에 구문분석 말뭉치를 직접 구축하는 방법은 비용 효율적이지 못하다. 따라서 본 발명의 실시예에서는 병렬말뭉치를 이용해 가상의 분석말뭉치를 생성하고 이를 이용해 어순 조정 분석기를 학습시킨다.
본 발명의 실시예에 따른 어순 조정 분석기는 먼저 병렬 말뭉치의 단어 정렬을 통해 번역 전/후 문장의 올바른 어순 조정을 나타내는 순열을 파악한다. 한국어 예제 문장을 영어 어순으로 바꾸기 위한 순열은 "누구를·너는·생각하니·그녀가·초대했다고"이다. 이러한 순열을 얻어내기 위한 일련의 작용을 단어 정렬을 통해 다음과 같이 파악할 수 있다. 분석에 사용되는 두 자료 구조의 상태가 [σ|i]와 [j|β]일 때:
· Straight(ST): i와 j가 순열 상에서 i·j인 경우
· Inverted(IV): i와 j가 순열 상에서 j·i인 경우
· Swap: stack σ에 j와 순열 상에서 인접한 원소가 존재하는 경우
· Shift: 그 밖의 경우
그 후, 어순 조정 분석기는 각각의 작용을 분류할 대상으로 간주하고, 분류에 필요한 자질(feature)을 추출하여 분류기를 학습하여, 주어진 입력문에 대하여 작용을 예측한다.
분석에 사용되는 두 자료 구조의 상태가 [σ|i]와 [j|β]일 때 어떤 작용이 일어날 지 예측하는 분류 작업에 사용된 자질은 다음과 같다.
(1) 단어 기반: i와 j에 포함된 모든 단어, i와 j의 시작과 끝 부분에 나타나는 단어, 기호 등장 여부
(2) 품사 기반: 단어 기반 자질에서 단어 대신 품사 정보를 사용(기호 등장 여부는 제외)
(3) 조정된 어순의 n-gram: i와 j가 straight 혹은 inverted로 결합될 때의 n-gram 확률
(4) 번역 규칙의 경계
이하, 상기한 어순 조정을 명시한 계층 구조를 사용하는 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템에 대해 설명한다.
도 3은 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템의 개략적인 블록도이다.
도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템(10)은 어순 조정부(100) 및 통계 기반 기계 번역부(200)를 포함한다.
어순 조정부(100)는 통계 기반 기계 번역부(200)의 전처리 과정에 해당되며, 상기에서 설명된 어순 조정 분석기가 어순 조정을 명시한 계층 구조를 사용하여 번역될 대상인 원문의 어순을 조정하여 출력한다. 예를 들어, 원문이 "the cat watched the dog in the living room"인 경우 어순 조정을 명시한 계층 구조는 도 4에 도시된 바와 같고, 이러한 계층 구조를 통해서 어순이 조정된 원문'은 "the cat the living room in the dog watched"가 된다.
도 4를 참조하면, "the cat"에서 "the"와 "cat", "the dog"에서 "the"와 "dog", "living room"에서 "living"과 "room" 등은 어순이 잘 정렬되어 있어서 유지되어야 하므로 "Straight"를 나타내는 "ST"로 계층 구조 상에 표기되지만, "in"과 "the living room"은 어순이 변경되어야 하므로 반전인 "Inverted"를 나타내는 "IV"로 표기된다.
이와 같이 표기된 어순 조정을 명시한 계층 구조를 원문에 적용하면 어순이 조정된 원문' "the cat the living room in the dog watched"가 생성된다.
통계 기반 기계 번역부(200)는 종래의 통계 기반 기계 번역 시스템과 유사하며, 어순 조정부(100)에서 어순이 조정되어 출력되는 원문'을 통계 기반의 기계 번역을 통해 번역하여 번역문을 출력한다.
이러한 통계 기반 기계 번역부(200)는 원문'을 번역문으로 번역하기 위해 번역 모델(210) 및 언어 모델(220)을 사용하며, 이러한 번역 모델(210)과 언어 모델(220)을 참조하여 원문'을 번역문으로 기계 번역하는 기계 번역부(230)를 포함한다.
여기서, 번역 모델(210)은 가능한 원문의 언어에 대응하는 번역문 언어 쌍들의 개연성(probability)을 제공하는 모델이다.
언어 모델(220)은 임의 워드 시퀀스의 개연성(probability)를 제공하는 모델이다.
기계 번역부(230)는 번역 모델(210)과 언어 모델(220)을 사용하여 통계 기반의 기계 번역을 수행하여 원문'에 대응되어 번역된 번역문을 출력한다.
이러한 번역 모델(210), 언어 모델(220) 및 기계 번역부(230)에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.
이하, 어순 조정부(100)에 대해 구체적으로 설명한다.
도 5는 도 3에 도시된 어순 조정부(100)의 구체적인 구성을 도시한 도면이다.
도 5에 도시된 바와 같이, 어순 조정부(100)는 판별 모델(Discriminative Model, 이하 "DM"이라고도 함)(110)과 어순 조정 분석기(Reordering Parser, 이하 "R-Parser"라고도 함)(120)를 포함한다.
DM(110)은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용하여 학습되어 생성되며, 어순 조정을 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함한다. 즉, DM(110)은 어순 조정을 위한 분석에 필요한 자질(feature) 및 가중치를 포함한다. 이러한 DM(110)의 예가 도 6에 도시되어 있다. 도 6을 참조하면, "dog ... in ..."은 "IV"의 자질을 가지며 그 가중치는 3.12이고, "the ... room"은 "ST"의 자질을 가지며 그 가중치는 1.04임을 알 수 있다. 어순 조정 분석기(120)가 DM(110)을 학습하여 생성하는 내용에 대해서는 추후 설명된다.
어순 조정 분석기(120)는 번역 대상의 원문을 입력받아서 통계 기반의 기계 번역을 위한 전처리 과정으로 DM(110)을 사용하여 원문에 대한 어순 조정을 행하여 어순 조정된 원문'을 통계 기반 기계 번역부(200)로 출력한다.
이러한 어순 조정 분석기(120)가 원문에 대한 어순 조정을 위해 원문을 분석하면서 DM(110)을 사용하여 어순 조정을 명시한 계층 구조를 생성하여 어순 조정된 원문'을 생성하며, 이러한 내용에 대해서는 상기에서 이미 설명되어 본 예에서는 그 내용을 생략한다. 즉, 어순 조정 분석기(120)가 원문 "the cat watched the dog in the living room"를 입력받아서 도 6에 도시된 DM(110)을 사용하여 도 4에 도시된 바와 같은 어순 조정이 명시된 계층 구조를 생성하여 이를 원문에 적용한 후 어순 조정된 원문' "the cat the living room in the dog watched"를 출력하는 것은 이미 설명된 바와 같다.
따라서, 통계 기반 기계 번역부(200)는 어순 조정부(100)에서 출력되는 어순 조정된 원문' "the cat the living room in the dog watched"을 소스로 삼아서 번역 모델(210)과 언어 모델(220)을 사용하여 통계 기반의 기계 번역을 수행하여 최종 번역문, 즉 "고양이가 거실에서 강아지를 보았다"를 출력한다.
다음, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템(10)에서 학습을 통해 DM(110)을 생성하는 장치에 대해 설명한다.
도 7은 도 5에 도시된 DM(110)을 생성하는 장치의 구성 블록도이다.
도 7에 도시된 바와 같이, DM(110)을 생성하는 장치(300)는 단어 정렬부(310), 자질 추출부(320), 가중치 설정부(330) 및 학습 제어부(340)를 포함한다.
단어 정렬부(310)는 원문과 원문이 번역된 번역문을 다수 포함하고 있는 병렬 말뭉치(301)의 원문과 번역문에 대해 번역 전/후 문장의 올바른 어순 조정을 나타내는 순열을 파악하기 위한 단어 정렬을 수행한다.
자질 추출부(320)는 단어 정렬부(310)를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질을 추출한다. 이러한 자질 추출에 대해서는 상기에서 이미 설명되어 여기에서는 구체적인 설명을 생략한다.
가중치 설정부(330)는 자질 추출부(320)에 의해 추출된 자질에 대한 가중치를 설정한다.
학습 제어부(340)는 단어 정렬부(310), 자질 추출부(320) 및 가중치 설정부(330)를 제어하여 병렬 말뭉치(301)에 기반하여 어순 조정을 명시한 계층 구조에 적용될 DM(110)을 학습하여 생성한다. 이렇게 생성되는 DM(110)의 예는 상기한 도 6에 도시된 바와 같다.
한편, 상기에서 통계 기반 기계 번역부(200)가 종래의 통계 기반 기계 번역 시스템과 유사하다고 설명하였으나, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템(10)에서는 번역 대상의 원문이 전처리 과정인 어순 조정부(100)에 의해 어순 조정을 거치기 때문에 통계 기반 기계 번역부(200)의 번역 모델(210)이 종래의 통계 기반 기계 번역 시스템에서의 번역 모델과 상이하다.
즉, 종래의 통계 기반 기계 번역 시스템에서는 번역 모델이 번역 대상의 원문과 번역문에 의해 학습된 번역 모델이어야 하지만, 본 발명의 실시예에 따른 번역 모델(210)은 어순 조정된 원문'과 번역문에 의해 학습된 번역 모델이어야 하므로 이러한 점에서 상이하다.
이하, 본 발명의 실시예에 따른 번역 모델(210)을 학습하여 생성하는 장치에 대해 설명한다.
도 8은 본 발명의 실시예에 따른 번역 모델(210)을 생성하는 장치의 구성 블록도이다.
도 8에 도시된 바와 같이, 번역 모델(210)을 생성하는 장치(400)는 DM(410), 어순 조정 분석기(420) 및 번역 모델 생성부(430)를 포함한다. 여기서, DM(410)은 도 5에서 설명한 DM(110)과 그 구성 및 기능이 동일하므로 여기에서는 그에 대한 설명을 생략한다.
어순 조정 분석기(420)는 병렬 말뭉치(301)의 원문을 입력받아서 DM(110)을 사용하여 원문에 대한 어순 조정을 행하여 어순 조정된 원문'을 생성하여 출력한다. 이러한 어순 조정 분석기(420)는 도 5에 도시된 어순 조정 분석기(120)와 그 기능이 유사하므로 여기에서는 구체적인 설명을 생략한다.
번역 모델 생성부(430)는 어순 조정 분석기(420)에서 출력되는 어순 조정된 원문'과 병렬 말뭉치(301)의 번역문을 사용하여 본 발명의 실시예에 따른 원문'과 번역문에 대한 번역 모델(210)을 생성한다.
따라서, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템(10)의 기계 번역부(230)는 번역 모델 생성부(430)에 의해 생성된 원문'과 번역문에 기반한 번역 모델(210)을 사용하여 통계 기반의 기계 번역을 수행할 수 있다.
이와 같이, 본 발명의 실시예에 따른 통계 기반 기계 번역 시스템(10)은 어순 조정을 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정에 활용함으로써 종래의 번역 시스템에 비해 번역 성능을 향상시킬 수 있다.
한편, 상기에서는 어순 조정을 명시한 계층 구조를 사용하여 통계 기반의 기계 번역의 전처리 과정에서 원문의 어순을 조정한 후 번역을 수행하는 내용에 대해서 설명하였으나, 본 발명의 기술적 범위는 여기에 한정되지 않고 어순 조정시 형태소 차이까지 반영하여 어순 조정된 원문'이 번역문과 좀 더 비슷하게 변형될 수 있도록 할 수 있다.
이하, 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템에 대해 설명한다.
상기한 제1 실시예에서는 예를 들어, 원문 "the cat watched the dog in the living room"이 어순 조정을 통해 원문' "the cat the living room in the dog watched"으로 생성되는 예에 대해, 본 발명의 제2 실시예에서는 예를 들어 "the cat"의 경우 번역문을 참조하는 경우 "고양이"로 번역되어 실질적으로 "cat"만이 원문'에 존재하는 것이 바람직하므로 "the"는 삭제 처리하는 것이다.
상기 원문' "the cat watched the dog in the living room"에 대해 상기한 제1 실시예에 따른 어순 조정이 명시된 계층 구조에 어순 조정을 나타냄과 동시에 제2 실시예에 따른 형태소 차이까지 반영된 계층 구조(Intermediate Tree)의 예가 도 9에 도시되어 있다.
도 9를 참조하면, "living"과 "room" 등은 어순이 잘 정렬되어 있어서 유지되어야 하므로 "Straight"를 나타내는 "ST"로 계층 구조 상에 표기되지만, "in"과 "the living room"은 어순이 변경되어야 하므로 반전인 "Inverted"를 나타내는 "IV"로 표기되는 등의 어순 조정이 계층 구조 내에 표시되어 있다. 이와 함께, "the cat", "the dog"의 경우 왼쪽에 있는 "the"가 형태소 차이에 의해 삭제되어야 함을 나타내는 "DL"(Delete Left)이 표시되어 있고, "the cat watched"의 경우에는 "the cat"과 "watched" 사이에 형태소가 추가되어야 함을 나타내는 "IR"(Insert Right)가 또한 표시되어 있다.
따라서, 본 발명의 제2 실시예에 따르는 경우 번역되어야 할 대상인 원문 "the cat the living room in the dog watched"가 어순 조정과 함께 형태소 차이를 반영한 원문" "cat ◇(가) living room in dog ◇(를) watched"로 생성된다. 상기 예에서 형태소 차이에 의한 결과가 반영된 계층 구조에서 표시될 수 있는 자질은 단어나 구문의 왼쪽에 있는 단어 또는 구문을 삭제하는 것을 나타내는 "DL", 단어나 구문의 오른쪽에 있는 단어 또는 구문을 삭제하는 것을 나타내는 "DR", 단어나 구문의 왼쪽에 형태소가 추가되어야 하는 것을 나타내는 "IL"과 단어나 구문의 오른쪽에 형태소가 추가되어야 하는 것을 나타내는 "IR"이다.
도 10은 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템의 개략적인 블록도이다.
도 10에 도시된 바와 같이, 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템(20)은 어순 조정 및 형태소 차이 반영부(500) 및 통계 기반 기계 번역부(600)를 포함한다.
어순 조정 및 형태소 차이 반영부(500)는 통계 기반 기계 번역부(600)의 전처리 과정에 해당되며, 본 발명의 제1 실시예에 설명한 어순 조정을 명시한 계층 구조를 사용하여 번역될 대상인 원문의 어순을 조정하여 출력함과 동시에, 형태소 분석에 의한 차이를 반영한 후의 원문"을 생성하여 출력한다. 상기한 예에서와 같이, 원문이 "the cat watched the dog in the living room"인 경우 어순 조정 및 형태소 반영부(500)를 통해 출력되는 원문"은 "cat ◇(가) living room in dog ◇(를) watched"가 된다. 이 때 사용되는 계층 구조는 이미 도 9를 참조하여 설명한 바와 같다.
통계 기반 기계 번역부(600)는 어순 조정 및 형태소 차이 반영부(500)에서 출력되는 어순 조정되고 형태소 차이가 반영된 원문"을 입력받아서 통계 기반의 기계 번역을 통해 번역하여 번역문을 출력한다.
본 발명의 제1 실시예에 따른 통계 기반 기계 번역부(200)와 마찬가지로, 통계 기반 기계 번역부(600)는 원문"을 번역문으로 번역하기 위해 번역 모델(610) 및 언어 모델(620)을 사용하며, 이러한 번역 모델(610)과 언어 모델(620)을 참조하여 원문"을 번역문으로 기계 번역하는 기계 번역부(630)를 포함한다.
여기서, 번역 모델(610)과 언어 모델(620)은 본 발명의 제1 실시예에서 설명된 번역 모델(210)과 언어 모델(220)과 동일한 구성을 가지므로 여기에서는 구체적인 설명을 생략한다.
기계 번역부(630)는 번역 모델(610)과 언어 모델(620)을 사용하여 통계 기반의 기계 번역을 수행하여 원문"에 대응되어 번역된 번역문을 출력한다.
한편, 기계 번역부(630)는 본 발명의 제1 실시예에서의 기계 번역부(230)와는 형태소 차이를 반영하는 부분을 제외하고는 동일하다. 즉, 기계 번역부(630)는 어순 조정되고 형태소 차이가 반영된 원문"을 입력받아서 번역을 수행하되, 이미 어순 조정 및 형태소 차이 반영부(500)에 의해 형태소가 추가되어야 하는 부분이 나타나 있으므로 이 부분에 대해서 형태소 분석을 통해 적합한 형태소를 찾아서 번역을 수행할 수 있다.
이하, 어순 조정 및 형태소 차이 반영부(500)에 대해 구체적으로 설명한다.
도 11은 도 10에 도시된 어순 조정 및 형태소 차이 반영부(500)의 구체적인 구성을 도시한 도면이다.
도 11에 도시된 바와 같이, 어순 조정 및 형태소 차이 반영부(500)는 DM(510) 및 어순 조정 및 형태소 차이 분석기(520)를 포함한다. 여기서, 어순 조정 및 형태소 차이 분석기(520)는 하나의 분석기(Intermediate Parser: I-Parser)로 구성될 수도 있다.
DM(510)은 본 발명의 제1 실시예에서의 DM(110)에 형태소 차이를 반영한 정보(DL, DR, IL, IR)를 추가로 표시하는 것을 특징으로 한다. 이러한 DM(510)은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용하여 학습되어 생성되며, 계층 구조 내에 어순 조정을 명시함과 동시에 형태소 생성에 대한 추가적인 정보를 제공한다.
DM(510)은 어순 조정을 위한 분석에 필요한 자질, 형태소 생성에 필요한 자질 및 가중치를 포함한다. 이러한 DM(510)의 예가 도 12에 도시되어 있다. 도 12를 참조하면, "dog ... in ..."은 어순 조정을 위한 "IV"의 자질을 가지며 그 가중치는 3.12이고, "the dog"은 형태소 생성을 위한 "IR"의 자질을 가지며 그 가중치는 1.04임을 알 수 있다.
어순 조정 및 형태소 차이 분석기(520)는 번역 대상의 원문을 입력받아서 통계 기반의 기계 번역을 위한 전처리 과정으로 DM(510)을 사용하여 원문에 대한 어순 조정을 행함과 동시에 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 원문"을 생성한다. 이러한 어순 조정 및 형태소 차이 분석기(520)가 수행하는 어순 조정은 상기한 제1 실시예에 따른 어순 조정 분석기(120)가 수행하는 어순 조정과 동일하므로 구체적인 설명을 생략한다. 이러한 어순 조정 및 형태소 차이 분석기(520)는 예를 들어 원문 "the cat watched the dog in the living room"를 입력받는 경우 DM(510)을 사용하여 "the cat the living room in the dog watched"와 같이 어순 조증을 수행한다.
이와 동시에 어순 조정 및 형태소 차이 분석기(520)는 DM(510)을 사용하여 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 원문"을 생성한다. 상기 예를 들면, 어순 조정 및 형태소 차이 분석기(520)는 어순 조정을 통해 원문을 "the cat the living room in the dog watched"로 어순 조정하면서 형태소 생성 정보를 함께 포함시켜서 원문" "cat ◇(가) living room in dog ◇(를) watched"을 최종적으로 생성하여 통계 기반 기계 번역부(600)로 출력한다.
상기에서 어순 조정 및 형태소 차이 분석기(520)가 하나의 과정을 통해 어순 조정과 형태소 분류를 동시에 수행하는 것으로 설명하였으나, 본 발명의 기술적 범위는 여기에 한정되지 않고 어순 조정과 형태소 차이를 분석하는 분석기를 별개로 두어서 어순 조정과 형태소 차이 분석이 별개의 과정을 통해 수행하도록 할 수도 있다. 즉, 원문에 대해 어순 조정을 먼저 수행하고 그 결과에 형태소 차이를 분석하여 반영하여 원문을 생성하거나 또는 원문에 대해 형태소 차이를 먼저 분석하여 반영한 후 그 결과에 어순 조정을 수행하여 원문을 생성할 수도 있다. 이러한 구성에 대해서는 상기한 하나의 과정을 통한 어순 조정과 형태소 차이 분석을 수행하는 내용을 참조하는 경우 본 기술분야의 당업자가 쉽게 이해할 수 있을 것이므로 여기에서는 구체적인 설명을 생략한다.
통계 기반 기계 번역부(600)는 어순 조정 및 형태소 차이 반영부(500)에서 출력되는 어순 조정되고 형태소 차이가 반영된 원문" "cat ◇(가) living room in dog ◇(를) watched"을 소스로 삼아서 번역 모델(610)과 언어 모델(620)을 사용하여 통계 기반의 기계 번역을 수행하여 최종 번역문, 즉 "고양이가 거실에서 강아지를 보았다"를 출력한다.
다음, 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템(20)에서 학습을 통해 DM(510)을 생성하는 장치에 대해 설명한다.
도 13은 도 11에 도시된 DM(510)을 생성하는 장치의 구성 블록도이다.
도 13에 도시된 바와 같이, DM(110)을 생성하는 장치(700)는 단어 정렬부(710), 어순 조정 및 형태소 자질 추출부(720), 가중치 설정부(730) 및 학습 제어부(740)를 포함한다. 여기서, 단어 정렬부(710)는 본 발명의 제1 실시예에서 설명된 단어 정렬부(310) 와 그 구성이 동일하므로 그에 대한 설명을 생략하고 차이가 있는 다른 구성에 대해서만 설명한다.
어순 조정 및 형태소 자질 추출부(720)는 단어 정렬부(710)를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질과 함께 형태소 차이를 반영하여 형태소 삭제 및 생성을 명시한 계층 구조에 적용될 자질을 추출한다. 이러한 어순 조정 자질 추출 및 형태소 자질 추출에 대해서는 상기에서 이미 설명되어 여기에서는 구체적인 설명을 생략한다.
가중치 설정부(730)는 어순 조정 및 형태소 자질 추출부(720) 에 의해 추출된 자질들에 대한 가중치를 설정한다.
학습 제어부(740)는 단어 정렬부(710), 어순 조정 및 형태소 자질 추출부(720) 및 가중치 설정부(730)를 제어하여 병렬 말뭉치(301)에 기반하여 어순 조정 및 형태소 차이, 즉 형태소 삭제 및 생성을 명시한 계층 구조에 적용될 DM(510)을 학습하여 생성한다. 이렇게 생성되는 DM(510)의 예는 상기한 도 12에 도시된 바와 같다.
이와 같이, 본 발명의 제2 실시예에 따른 통계 기반 기계 번역 시스템(20)은 어순 조정 및 형태소 차이를 반영하기 위해 정의한 계층 구조를 바탕으로 문장을 분석하고 이를 통계 기반 기계 번역의 전처리 단계에서 어순 조정 및 형태소 차이 반영에 활용함으로써 종래의 번역 시스템에 비해 번역 성능을 더욱 향상시킬 수 있다.
이상에서 설명한 본 발명의 실시예들은 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (25)

  1. 통계 기반의 기계 번역을 수행하는 통계 기반 기계 번역(Statistical Machine Translation) 시스템에 있어서,
    기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정을 명시한 계층 구조(Reordering Tree)를 사용하여 어순 조정된 제2 원문을 생성하여 출력하는 어순 조정부; 및
    상기 어순 조정부에서 출력되는 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 통계 기반 기계 번역부를 포함하고,
    상기 어순 조정을 명시한 계층 구조는,
    상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및
    상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며,
    상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  2. 제1항에 있어서,
    상기 어순 조정부는,
    어순 조정을 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함하는 판별 모델(Discriminative Model); 및
    상기 제1 원문을 입력받아서 상기 판별 모델을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시한 계층 구조를 생성하고, 생성되는 상기 어순 조정을 명시한 계층 구조를 통해 상기 제1 원문을 상기 제2 원문으로 어순 조정하여 상기 통계 기반 기계 번역부로 출력하는 어순 조정 분석기
    를 포함하는 통계 기반 기계 번역 시스템.
  3. 제2항에 있어서,
    상기 통계 기반 기계 번역부는,
    가능한 원문의 언어에 대응하는 번역문 언어 쌍들의 개연성(probability)을 제공하는 모델인 번역 모델;
    단어 시퀀스의 개연성(probability)을 제공하는 모델인 언어 모델; 및
    상기 번역 모델과 상기 언어 모델을 사용하여 상기 어순 조정부로부터 출력되는 상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 번역문을 생성하여 출력하는 기계 번역부
    를 포함하는 통계 기반 기계 번역 시스템.
  4. 삭제
  5. 제3항에 있어서,
    상기 두 자식의 어순이 유지되는 것을 나타내기 위해 상기 간선을 점선으로 표시하거나 또는 상기 두 자식의 부모 노드에 어순이 유지됨(straight)을 나타내는 기호(ST)를 표시하는 것을 특징으로 하는 통계 기반 기계 번역 시스템.
  6. 제5항에 있어서,
    상기 두 자식의 어순이 반전되는 것을 나타내기 위해 상기 간선을 실선으로 표시하거나 또는 상기 두 자식의 부모 노드에 어순이 반전됨(inverted)을 나타내는 기호(IV)를 표시하는 것을 특징으로 하는 통계 기반 기계 번역 시스템.
  7. 제6항에 있어서,
    상기 판별 모델은,
    복수의 단어 또는 문장에 대해 어순 조정을 위한 분석에 필요한 자질 및 가중치를 포함하고,
    상기 자질은 어순이 유지됨 또는 어순이 반전됨을 나타내는 표시를 포함하고 있는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  8. 제7항에 있어서,
    상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 판별 모델 생성 장치가 생성하는 것을 특징으로 하는 통계 기반 기계 번역 시스템.
  9. 제8항에 있어서,
    상기 판별 모델 생성 장치가,
    원문과 원문이 번역된 번역문을 다수 포함하고 있는 병렬 말뭉치에서 상기 원문과 상기 번역문에 대해 번역 전후 문장의 어순 조정을 나타내는 순열을 파악하기 위한 단어 정렬을 수행하는 단어 정렬부;
    상기 단어 정렬부를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질을 추출하는 자질 추출부;
    상기 자질 추출부에 의해 추출된 자질에 대한 가중치를 설정하는 가중치 설정부; 및
    상기 단어 정렬부, 상기 자질 추출부 및 상기 가중치 설정부를 제어하여 상기 병렬 말뭉치에 기반하여 어순 조정을 명시한 계층 구조에 적용될 판별 모델을 학습하여 생성하는 학습 제어부를 포함하는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  10. 제9항에 있어서,
    상기 번역 모델은 상기 병렬 말뭉치의 원문이 어순 조정된 원문과 상기 병렬 말뭉치의 번역문에 기반한 학습을 통해 생성되며,
    상기 번역 모델을 생성하는 장치는,
    상기 병렬 말뭉치의 원문을 입력받아서 상기 판별 모델을 사용하여 상기 병렬 말뭉치의 원문에 대한 어순 조정을 행하여 어순 조정된 원문을 생성하여 출력하는 분석기; 및
    상기 분석기에서 출력되는 어순 조정된 원문과 상기 병렬 말뭉치의 번역문을 사용하여 상기 번역 모델을 생성하는 번역 모델 생성부를 포함하는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  11. 통계 기반의 기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정을 명시한 계층 구조를 사용하여 어순 조정된 제2 원문을 생성하는 단계; 및
    상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 단계를 포함하고,
    상기 어순 조정을 명시한 계층 구조는,
    상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및
    상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며,
    상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는
    것을 특징으로 하는 통계 기반 기계 번역 방법.
  12. 제11항에 있어서,
    상기 제2 원문을 생성하는 단계는,
    상기 제1 원문을 입력받아서 판별 모델―여기서 판별 모델은 어순 조정을 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함함―을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시한 계층 구조를 생성하는 단계; 및
    상기 어순 조정을 명시한 계층 구조를 사용하여 상기 제1 원문을 어순 조정하여 상기 제2 원문을 생성하는 단계
    를 포함하는 통계 기반 기계 번역 방법.
  13. 제11항에 있어서,
    상기 번역문을 생성하여 출력하는 단계는,
    상기 제2 원문에 대해 번역 모델―여기서 번역 모델은 가능한 원문의 언어에 대응하는 번역문 언어 쌍들의 개연성을 제공하는 모델임―과 언어 모델―여기서 언어 모델은 단어 시퀀스의 개연성을 제공하는 모델임―을 사용하여 통계 기반의 기계 번역을 수행하여 대응되는 번역문을 생성하여 출력하는 것을 특징으로 하는 통계 기반 기계 번역 방법.
  14. 삭제
  15. 제12항에 있어서,
    상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 생성되는 것을 특징으로 하는 통계 기반 기계 번역 방법.
  16. 제13항에 있어서,
    상기 번역 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치의 원문이 어순 조정된 원문과 상기 병렬 말뭉치의 번역문에 기반한 학습을 통해 생성되는 것을 특징으로 하는 통계 기반 기계 번역 방법.
  17. 통계 기반의 기계 번역을 수행하는 통계 기반 기계 번역 시스템에 있어서,
    기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정과 형태소 차이를 명시한 계층 구조(Intermediate Tree)를 사용하여 어순 조정되고 형태소 생성 정보를 포함하는 제2 원문을 생성하여 출력하는 어순 조정 및 형태소 차이 반영부; 및
    상기 어순 조정 및 형태소 차이 반영부에서 출력되는 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 통계 기반 기계 번역부
    를 포함하는 통계 기반 기계 번역 시스템.
  18. 제17항에 있어서,
    상기 어순 조정 및 형태소 차이 반영부는,
    어순 조정 및 형태소 차이를 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함하는 판별 모델; 및
    상기 제1 원문을 입력받아서 상기 판별 모델을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시함과 동시에 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 계층 구조를 생성하고, 생성되는 상기 어순 조정 및 형태소 차이를 명시한 계층 구조를 통해 상기 제1 원문을 상기 제2 원문으로 생성하여 상기 통계 기반 기계 번역부로 출력하는 어순 조정 및 형태소 차이 분석기
    를 포함하는 통계 기반 기계 번역 시스템.
  19. 제17항 또는 제18항에 있어서,
    상기 어순 조정과 형태소 차이를 명시한 계층 구조는,
    상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및
    상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며,
    상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 동시에, 상기 두 자식 중 하나의 형태소가 삭제되어야 하거나 또는 형태소가 삽입되어야 하는 정보가 명시되어 있는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  20. 제19항에 있어서,
    상기 형태소의 삭제 또는 삽입 정보는 상기 두 자식 중 왼쪽의 자식을 삭제하는 것을 나타내는 기호(Delete Left:DL), 상기 두 자식 중 오른쪽의 자식을 삭제하는 것을 나타내는 기호(Dlelte Right:DL), 상기 두 자식 중 왼쪽의 자식의 앞에 형태소가 삽입되어야 함을 나타내는 기호(Insert Left:IL) 및 상기 두 자식 중 왼쪽의 자식의 뒤에 형태소가 삽입되어야 함을 나타내는 기호(Insert Right:IR)를 통해 표시되는 것을 특징으로 하는 통계 기반 기계 번역 시스템.
  21. 제18항에 있어서,
    상기 판별 모델은,
    복수의 단어 또는 문장에 대해 어순 조정 및 형태소 삭제 또는 생성을 위한 분석에 필요한 자질 및 가중치를 포함하고,
    상기 자질은 어순이 유지됨 또는 어순이 반전됨을 나타내는 표시와, 형태소가 삭제 또는 생성됨을 나타내는 표시를 포함하고 있는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  22. 제21항에 있어서,
    상기 판별 모델은 다수의 원문과 이에 대응되어 번역된 다수의 번역문을 포함하는 병렬 말뭉치를 이용한 학습을 통해 판별 모델 생성 장치가 생성되며,
    상기 판별 모델 생성 장치는,
    원문과 원문이 번역된 번역문을 다수 포함하고 있는 병렬 말뭉치에서 상기 원문과 상기 번역문에 대해 번역 전후 문장의 어순 조정을 나타내는 순열을 파악하기 위한 단어 정렬을 수행하는 단어 정렬부;
    상기 단어 정렬부를 통해 단어 정렬된 자료에 대해 어순 조정을 명시한 계층 구조에 적용될 자질과 형태소 차이를 반영하여 형태소 삭제 또는 생성을 명시한 계층 구조에 적용될 자질을 추출하는 어순 조정 및 형태소 자질 추출부;
    상기 어순 조정 및 형태소 자질 추출부에 의해 추출된 자질에 대한 가중치를 설정하는 가중치 설정부; 및
    상기 단어 정렬부, 상기 어순 조정 및 형태소 자질 추출부 및 상기 가중치 설정부를 제어하여 상기 병렬 말뭉치에 기반하여 어순 조정 및 형태소 삭제 및 생성 정보를 명시한 계층 구조에 적용될 판별 모델을 학습하여 생성하는 학습 제어부를 포함하는
    것을 특징으로 하는 통계 기반 기계 번역 시스템.
  23. 통계 기반의 기계 번역의 전처리 과정으로, 번역 대상의 제1 원문을 입력받아서 어순 조정과 형태소 차이를 명시한 계층 구조를 사용하여 어순 조정되고 형태소 생성 정보를 포함하는 제2 원문을 생성하는 단계; 및
    상기 제2 원문에 대한 통계 기반의 기계 번역을 수행하여 상기 제1 원문에 대응되는 번역문을 생성하여 출력하는 단계
    를 포함하는 통계 기반 기계 번역 방법.
  24. 제23항에 있어서,
    상기 제2 원문을 생성하는 단계는,
    상기 제1 원문을 입력받아서 판별 모델―여기서 판별 모델은 어순 조정 및 형태소 차이를 명시한 계층 구조내 자질을 추출하기 위한 메타 정보를 포함함―을 사용하여 상기 제1 원문에 대한 어순을 분석하여 어순 조정을 명시하고 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 명시한 계층 구조를 생성하는 단계; 및
    상기 어순 조정 및 형태소 차이를 명시한 계층 구조를 사용하여 상기 제1 원문에 대해 어순 조정을 수행함과 동시에 형태소 차이를 반영하여 형태소를 삭제하거나 또는 생성을 나타내는 정보를 포함하는 상기 제2 원문을 생성하는 단계
    를 포함하는 통계 기반 기계 번역 방법.
  25. 제23항 또는 제24항에 있어서,
    상기 어순 조정과 형태서 차이를 명시한 계층 구조는,
    상기 제1 원문의 단어 집합의 순열을 나타내는 복수의 노드; 및
    상기 복수의 노드간 부모 및 자식간의 관계를 나타내는 간선으로 이루어지며,
    상기 계층 구조에는 두 자식의 어순이 유지(straight)되거나 반전(inverted)되는 것이 명시되어 있는 동시에, 상기 두 자식 중 하나의 형태소가 삭제되어야 하거나 또는 형태소가 삽입되어야 하는 정보가 명시되어 있는
    것을 특징으로 하는 통계 기반 기계 번역 방법.
KR1020140077998A 2014-06-25 2014-06-25 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법 KR101670995B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140077998A KR101670995B1 (ko) 2014-06-25 2014-06-25 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140077998A KR101670995B1 (ko) 2014-06-25 2014-06-25 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20160000632A KR20160000632A (ko) 2016-01-05
KR101670995B1 true KR101670995B1 (ko) 2016-10-31

Family

ID=55164584

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140077998A KR101670995B1 (ko) 2014-06-25 2014-06-25 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR101670995B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11604931B2 (en) 2019-09-27 2023-03-14 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023423A1 (en) 2001-07-03 2003-01-30 Kenji Yamada Syntax-based statistical translation model
JP2011175500A (ja) 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023423A1 (en) 2001-07-03 2003-01-30 Kenji Yamada Syntax-based statistical translation model
JP2011175500A (ja) 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11604931B2 (en) 2019-09-27 2023-03-14 Samsung Electronics Co., Ltd. Electronic device and controlling method of electronic device

Also Published As

Publication number Publication date
KR20160000632A (ko) 2016-01-05

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
US8959011B2 (en) Indicating and correcting errors in machine translation systems
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
EP1306775A1 (en) Machine translation
US20130185049A1 (en) Predicting Pronouns for Pro-Drop Style Languages for Natural Language Translation
JP2003196274A (ja) 構文解析方法及び装置
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
Williams et al. Edinburgh's statistical machine translation systems for WMT16
JP6952967B2 (ja) 自動翻訳装置
KR101670995B1 (ko) 어순 조정 및 형태소 차이에 기반한 통계 기반 기계 번역 시스템 및 그 방법
JP6607482B2 (ja) 構文解析装置、学習装置、機械翻訳装置、およびプログラム
JP2019053262A (ja) 学習システム
Devi et al. Steps of pre-processing for english to mizo smt system
JP5453779B2 (ja) 言語解析システム、言語解析方法、プログラム及び機械翻訳システム、言語解析方法、プログラム
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JPH0474259A (ja) 文書要約装置
JP2715419B2 (ja) 翻訳装置
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム
Bender et al. From IGT to precision grammar: French verbal morphology
Narayan et al. Pre-Neural Approaches
JP3447955B2 (ja) 機械翻訳システム及び機械翻訳方法
Transliteration For the Graduate Group in Computer and Information Science
JP2004199519A (ja) 機械翻訳方法、機械翻訳装置、および機械翻訳プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant