KR20010103151A - 기계번역 장치 및 시스템, 방법 - Google Patents

기계번역 장치 및 시스템, 방법 Download PDF

Info

Publication number
KR20010103151A
KR20010103151A KR1020000010247A KR20000010247A KR20010103151A KR 20010103151 A KR20010103151 A KR 20010103151A KR 1020000010247 A KR1020000010247 A KR 1020000010247A KR 20000010247 A KR20000010247 A KR 20000010247A KR 20010103151 A KR20010103151 A KR 20010103151A
Authority
KR
South Korea
Prior art keywords
sentence
input
probability
machine translation
analysis
Prior art date
Application number
KR1020000010247A
Other languages
English (en)
Other versions
KR100512541B1 (ko
Inventor
김영택
장정호
김성동
Original Assignee
김영택
김성동
장정호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김영택, 김성동, 장정호 filed Critical 김영택
Priority to KR10-2000-0010247A priority Critical patent/KR100512541B1/ko
Publication of KR20010103151A publication Critical patent/KR20010103151A/ko
Application granted granted Critical
Publication of KR100512541B1 publication Critical patent/KR100512541B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

본 발명은 원시언어로 작성된 입력문장을 입력하는 입력단계와; 상기 입력문장을 형태소 분석하는 어휘 분석 단계와; 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 단계와, 상기 입력문장의 의미를 분석하는 의미 분석 단계와; 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 단계와; 상기 출력문장을 출력하는 출력단계를 갖는 기계번역방법에 있어서, 상기 어휘 분석 단계 이후에, 상기 어휘 분석 단계에서 형태소 분석된 상기 입력문장을 문장분할 규칙을 적용하는 규칙적용단계와, 상기 규칙 적용에 의해 문장분할 가능 위치를 선정하는 위치선정단계와, 상기 위치선정을 확률분포를 통해 확률값은 구하는 해석단계와, 상기 확률값에 의해 문장분할을 결정하는 결정단계를 더 갖는 기계번역방법 및 이를 이용하는 기계번역장치과 시스템을 제공한다.

Description

기계번역 장치 및 시스템, 방법{Machine translation machine and system, method}
본 발명은 원시언어(제1언어)로 기술된 입력문장을 번역처리하여 목표언어(제2언어)로 기술된 출력문장을 출력하는 기계번역 장치 및 시스템, 방법에 대한 것으로, 특히 입력문장의 문장분할에 의한 구문분석 및 의미분석의 시간적, 공간적 복잡도를 감소시키는 기계번역 장치 및 시스템, 방법에 대한 것이다.
도1을 참조하면, 종래의 기계번역방법은 원시언어로 작성된 입력문장을 입력하는 입력단계(10)와, 입력문장을 형태소 분석하는 어휘 분석 단계(20)와, 입력문장의 통사적인 구조를 밝히는 구문 분석 단계(40)와, 상기 입력문장의 의미를 분석하는 의미 분석 단계(50)와, 구문 분석과 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 단계(60)와, 상기 출력문장을 출력하는 출력단계(90)를 갖는다.
이러한 종래의 기계 번역(영한기계번역)은 서로 다른 문화권에 속한 두 언어 (한국어, 영어) 간의 번역을 대상으로 한다. 이들 언어는 그 구조나 어순에서 상당한 차이를 보이므로 정확한 분석과 자연스러운 번역을 얻기 위하여 숙어 기반의 분석 방법을 종래에는 주로 이용하였다. 그러나, 숙어 기반의 분석 방법은 분석 이전에 숙어를 인식하고 그것을 하나의 분석 단위로 취급하는 것인데, 숙어의 모호성에 의해 많은 숙어의 단위가 생성될 수 있고 이로 인해 문장 분석의 복잡도가 상당히 증가하는 문제점이 있다.
이러한 문장 분석의 복잡도를 줄이기 위해 여러가지의 문장분할 방법들이 제시되었다. 그 중 하나가 부분 분석 (partial parsing)에 의한 방법이다. 이 방법은 문장을 chunk로 분할하고 chunk별로 분석을 수행하였다. chunk는 Gee와 Grosjean [3]에서 제시한 언어 응용 구조 (performance structure)에 대응하는 구조이다. Chunk는 NP(noun phrase), VP(verb phrase), PP(prepositional phrase) 등과 같은 구절 구조에 대응하는데, 하나의 중심어와 여러 기능어의 결합으로 이루어진다. 이러한 chunk는 자연언어 분석에 일반적으로 이용되는 문맥 자유 문법(context-free grammar)에 의해 분석이 가능하다. 그러나 언어 응용 구조는 사람이 말을 할 때 한번에 말하게 되는 문장의 일부, 즉 운율 패턴 (prosodic pattern)에 대응하므로 이것에 기반을 둔 chunk 간의 관계를 문맥 자유 문법으로 분석하기는 어렵다.
또다른 방법으로 긴 영어 문장을 분할하기 위해 패턴 규칙을 이용한 방법이 제안되었다. 분할 패턴 규칙을 사람이 구성하고 그 규칙에 해당하는 문장을 분할하여 각 분할(세그먼트)들을 독립적으로 분석하고 그 분석 결과를 합성하여 전체 문장 구조를 생성하였다. 이 방법은 패턴 규칙을 적용할 수 있는 문장에 대해서 구문 분석의 복잡도를 줄일 수 있으나, 긴 문장의 패턴을 사람이 모두 규칙화하는 것은 불가능하므로 실용적이지 못한 문제점이 있었다.
또다른 방법으로 긴 일본어 문장을 분할하기 위해 다층 패턴 매칭(multi-layered pattern matching) 방법이 제안되었다. 그러나 마찬가지로 긴 문장 패턴을 구축해야 하고 그 패턴에 맞는 문장만 분할할 수 있는 문제점이 있었다. 또한 분할된 짧은 문장이 주어를 가지지 않을 경우, 그 주어를 찾아주는 추가적인 알고리즘이 필요한 문제점이 있었다.
또다른 방법으로 영어의 분석에 있어서 영어의 평서문(declarative sentence)이 거의 항상 3개의 연속된 부분(주어 앞 부분+주어+서술부)의 결합으로이루어진다는 사실을 이용하여 문장을 분할하는 방법에 대한 연구되었다. 이 방법은 신경망(neural network)의 패턴 매칭(pattern matching) 능력을 이용하여 문장을 3개의 부분으로 분할하여 구문 분석의 복잡도를 줄이려는 시도를 하였다. 이 방법은 주로 단문(simple sentence)에만 적용할 수 있는 문제점이 있었다. 또한 이 방법은 복수개의 주어부와 서술부를 갖는 중문(coordinate sentence) 또는 복문(complex sentence)에 적용하기 곤란한 문제점이 있었다.
또다른 방법으로 문장 패턴 (sentence pattern)을 이용하여 문장을 분할하는 방법이 제시되었다. 이 방법은 분할된 세그먼트를 각각 분석하고 패턴에 지시된 바에 따라 각 분석 결과를 결합하여 하나의 문장 구조를 생성한다. 그러나 이 방법도 마찬가지로 사람이 긴 문장의 패턴, 즉 중문이나 복문의 패턴을 구축하고 이것을 이용하여 문장을 분할해야 하는 문제점이 있었다.
이러한 종래의 문제점을 해결하기 위하여, 본 발명의 목적은 학습에 의한 분할 가능 위치 분류 규칙의 생성을 통해 사람의 노력을 줄이는 기계번역 장치 및 시스템, 방법을 제공하는 것이다.
또한 본 발명의 목적은 최대 엔트로피 확률 모델에 의한 분할 위치 결정을 통해 실용적으로 적용할 수 있는 정확도의 안전한 분할 을 할 수 있는 기계번역 장치 및 시스템, 방법을 제공하는 것이다.
또한 본 발명의 목적은 학습데이터와 다른 영역의 문장분할에도 일정한 수준 이상의 적용률과 정확도를 유지하는 기계번역 장치 및 시스템, 방법을 제공하는 것이다.
또한 본 발명의 목적은 문장분할에 의한 구분 분석의 효율 향상으로 실용적 기계번역을 실시간으로 하는 기계번역 장치 및 시스템, 방법을 제공하는 것이다.
도1은 종래의 기계번역방법의 흐름도.
도2는 본 발명에 따른 기계번역장치의 개념도.
도3은 본 발명에 따른 기계번역방법의 흐름도.
도4는 도3의 기계번역방법의 문장분할의 세부흐름도.
도5는 도4의 문장분할 규칙 적용에 사용되는 분류 규칙 생성방법의 흐름도.
도6은 도4의 위치선정의 확률해석에 사용되는 확률 분포 생성방법의 흐름도.
도7은 확률 분포 생성방법에서 어휘 문맥적 특성 추출을 위한 알고리즘.
도8은 확률 분포 생성방법에서 GIS 알고리즘.
도9는 확률 분포 생성방법에서 점진적인 특성 선택 알고리즘.
도10은 확률 분포 생성방법에서 분할 위치 결정 알고리즘
도11은 확률 분포 생성방법에서 문장 분할 알고리즘.
상기 목적을 달성하기 위하여, 본 발명은 원시언어로 작성된 입력문장을 입력하는 입력부와; 상기 입력문장을 형태소 분석하는 어휘 분석 모듈과, 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 모듈과, 상기 입력문장의 의미를 분석하는 의미 분석 모듈과, 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 생성모듈을 탑재한 중앙처리수단과; 상기 출력문장을 출력하는 출력부;를 갖는 기계번역장치로서, 문장분할 가능 위치의 분류 규칙이 저장된 분류규칙DB와; 문장분할 가능 위치의 확률분표가 저정된 확률분포DB를 더 가지며, 상기 중앙처리수단은, 상기 입력문장에 대하여 상기 분류규칙DB에 저장된 분류규칙을 적용하여 분할 가능 위치를 선정하고, 상기 선정된 분할 가능 위치를 상기 확률분포DB에 저장된 확률분포를 이용하여 확률값을 구하여 상기 입력문장의 문장분할을 결정하는 문장분할모듈을 더 탑재하는 것을 특징으로 하는 기계번역장치를 제공한다.
또한 본 발명은, 단말기와, 서버와, 상기 단말기와 상기 서버를 연결하는 개방형 네트워크를 갖고 원시언어로 작성된 입력문장을 목표언어로 번역하여 출력문장으로 출력하는 기계번역시스템에 있어서, 상기 단말기는 원시언어로 작성된 입력문장을 입력하는 입력부와, 목표언어로 번역한 출력문장을 출력하는 출력부를 가지며; 상기 서버는 문장분할 가능 위치의 분류 규칙이 저장된 분류규칙DB와, 문장분할 가능 위치의 확률분표가 저장된 확률분포DB와, 상기 입력문장을 형태소 분석하는 어휘 분석 모듈과, 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 모듈과, 상기 입력문장의 의미를 분석하는 의미 분석 모듈과, 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 모듈과, 상기 입력문장에 대하여 상기 분류규칙DB에 저장된 분류규칙을 적용하여 분할 가능 위치를 선정하고, 상기 선정된 분할 가능 위치를 상기 확률분포DB에 저장된 확률분포를 이용하여 확률값을 구하여 상기 입력문장의 문장분할을 결정하는 문장분할모듈을 탑재한 중앙처리수단을 갖는 기계번역시스템을 제공한다.
또한 본 발명은, 상기 분류규칙DB가 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 분할 가능 위치의 분류규칙을 생성하여 저장된 것을 특징으로 하는 기계번역장치 및 시스템을 제공한다.
또한 본 발명은, 상기 확률분포DB가 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 상기 확률모델을 이용하여 확률분포를 생성하여 저장된 것을 특징으로 하는 기계번역장치 및 시스템을 제공한다.
또한 본 발명은, 상기 문장분할모듈이 상기 출력문장을 분할 가능 위치로써 상기 분류규칙DB에 추가저장하고, 확률모델을 수정하여 확률분포DB에 저장하는 것을 특징으로 하는 기계번역장치 및 시스템을 제공한다.
또한 본 발명은, 원시언어로 작성된 입력문장을 입력하는 입력단계와; 상기 입력문장을 형태소 분석하는 어휘 분석 단계와; 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 단계와, 상기 입력문장의 의미를 분석하는 의미 분석 단계와; 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 단계와; 상기 출력문장을 출력하는 출력단계를 갖는 기계번역방법에 있어서, 상기 어휘 분석 단계 이후에, 상기 어휘 분석 단계에서 형태소 분석된 상기 입력문장을 문장분할 규칙을 적용하는 규칙적용단계와, 상기 규칙 적용에 의해 문장분할 가능 위치를 선정하는 위치선정단계와, 상기 위치선정을 확률분포를 통해 확률값은 구하는 해석단계와, 상기 확률값에 의해 문장분할을 결정하는 결정단계를 더 갖는 기계번역방법을 제공한다.
또한 본 발명은, 상기 구문 분석 단계가 상기 결정단계에 의한 문장분할에 의해 입력문장을 세그먼트들로 나누어 분석하고, 세그먼트를 합성하여 상기 입력문장의 통사적 구조를 밝히는 것을 특징으로 하는 기계번역방법을 제공한다.
또한 본 발명은, 상기 규칙적용단계에서 적용하는 상기 문장분할 규칙이 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 생성되는 것을 특징으로 하는 기계번역방법을 제공한다.
또한 본 발명은, 상기 해석단계에서 적용하는 상기 확률분포가 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 상기 확률모델을 이용하여 생성되는 것을 특징으로 하는 기계번역방법을 제공한다.
또한 본 발명은, 상기 해석단계 이후에, 상기 해석단계에서 구한 확률값은 저장하는 저장단계를 더 가지며, 상기 결정단계는 상기 저장단계에 저장된 확률값 중 최대 확률값을 갖는 위치로 문장분할을 결정하는 것을 특징으로 하는 기계번역방법을 제공한다.
이하, 본 발명에 대한 실시예들을 첨부된 도면을 참조하여 상세히 설명한다.
도2를 참조하면, 본 발명에 따른 기계번역장치는 입력부(1)와, 출력부(2)와, 중앙처리장치(3)와, 분류규칙DB(4)와, 확률분포DB(5)를 갖는다.
입력부(1)는 원시언어로 작성된 입력문장을 입력하는 키보드나 마우스, 스캐너와 같은 입력장치이다. 출력부(2)는 목표언어로 출력된 출력문장을 출력하는 모니터나 프린터와 같은 출력장치이다.
중앙처리장치(3)는 입력부(1)의 입력문장을 형태소 분석하는 어휘 분석 모듈(6A)과, 입력문장을 세그먼트들로 분할하는 문장 분할 모듈(6B)과, 입력문장의 통사적인 구조를 밝히는 구문 분석 모듈(6C)과, 입력문장의 의미를 분석하는 의미 분석 모듈(6D)과, 구문 분석과 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 모듈(6E)을 갖는다.
분류규칙DB(4)는 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 분할 가능 위치의 분류규칙을 생성하여 저장된다.
확률분포DB(5)는 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를생성하고, 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 확률모델을 이용하여 확률분포를 생성하여 저장된다.
중앙처리장치(3)의 문장 분할 모듈(6B)은 입력부(1)에 의해 입력된 입력문장에 대하여 분류규칙DB(4)에 저장된 분류규칙을 적용하여 분할 가능 위치를 선정한다. 문장 분할 모듈(6B)은 선정된 분할 가능 위치를 확률분포DB(5)에 저장된 확률분포를 이용하여 확률값을 구하여 입력문장의 문장분할을 결정한다.
또한 문장 분할 모듈(6B)은 출력문장을 분할 가능 위치로써 분류규칙DB(4)에 추가저장하고, 확률모델을 수정하여 확률분포DB(5)에 저장한다. 이러한 분할 가능 위치의 추가저장과, 확률모델의 수정을 통하여 보다 정확하고 풍부한 분류규칙DB(4)와 확률분포DB(5)가 마련된다.
이상 본 발명에 따른 기계번역장치를 설명하였으나, 본 발명은 이에 제한되는 것은 아니다.
본 발명은 입력부(1)와 출력부(2)를 갖는 클라이언트PC와, 분류규칙DB(4)와 확률분포DB(5)과 상기의 모듈들을 탑재한 중앙처리수단(3)을 갖는 서버와, 클라이언트PC와 서버를 연결하는 인터넷망을 갖는 기계번역시스템일 수 있다. 이러한 기계번역시스템은 인터넷 상에서 검색된 결과들을 원하는 언어로 실시간으로 번역하는데 사용할 수 있다.
도3을 참조하면, 본 발명에 따른 기계번역방법은 원시언어로 작성된 입력문장을 입력하는 입력단계(10)와, 입력문장을 형태소 분석하는 어휘 분석 단계(20)와, 입력문장의 통사적인 구조를 밝히는 구문 분석 단계(40)와, 입력문장의 의미를분석하는 의미 분석 단계(50)와, 구문 분석과 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표문장 생성단계(60)와, 출력문장을 출력하는 출력단계(90)를 갖는 것은 종래의 기계번역방법과 동일하다.
본 발명에 따른 기계번역방법은 어휘 분석 단계(20) 이후에 문장 분할 단계(30)를 더 갖는다.
도3과 도4를 참조하면, 문장 분할 단계(30)는 먼저 형태소가 분석된 입력문장에 대하여 문장 분할 규칙을 적용한다(31).
도5를 참조하면, 문장 분할 규칙을 생성하는 과정을 설명하면, 먼저 분할 위치가 표시된 다수의 말뭉치를 수동적으로 구축한다(102). 말뭉치는 분할 위치가 표시된 다수의 문장의 집합으로, 각각의 문장에는 사람이 그것을 읽으면서 적절한 분할 위치가 표시되어 구축된다. 말뭉치를 구축하는 사람은 어느 정도의 원시언어(영어) 문법에 대한 지식을 가진 사람인 것이 바람직하다. 이러한 말뭉치에 있는 표시된 분할 위치는 사람이 문장 분할 할 때 고려하는 특성들을 가지고 있다.
다음으로, 이 말뭉치로부터 학습데이터(어휘문맥)를 생성하여 저장한다(104). 학습데이터(어휘문맥)는 문장 내에서 wi의 분할 가능 위치 여부와, 단어(wi)와, wi의 왼쪽 2개 단어와 오른쪽 2개 단어(4개)와, wi의 왼쪽 2개 단어의 품사와 오른쪽 2개 단어의 품사(4개)와, wi의 왼쪽 2개 단어의 하위 범주화(subcategorization) 정보(wi가 절을 목적어로 취할 수 있는 동사인가를 표시하는 이진값) 등 모두 12개의 속성(attribute)으로 구성된다(표1 참조).
s_pos wordi wi-2,wi-1,wi+1,wi+2 pi-2,pi-1,pi+1,pi+2 s_cati_2 s_cati_1
다음으로, 학습데이터의 학습을 통해 분할 가능 위치를 규정하는 개념을 얻는다(106).
다음으로, 학습데이터를 이용하여 분할 가능 위치 개념 학습을 통해 버전 그래프로 표현되는 활성 어휘 문맥의 집약된 표현을 생성하여 버전 그래프 상에서 일반화 경계와 특수화 경계 간의 경로로 표현되는 규칙을 획득한다(108). 이렇게 획득된 분류규칙을 도2의 분류규칙DB(4)에 저장한다.
다시 도3과 도4를 참조하면, 문장 분할 단계는 분류규칙DB(4)에 저장된 분류규칙들을 적용하여 입력문장의 분할 가능 위치를 선정한다(32). 분할 가능 위치는 확률분포DB(5)에 저장된 확률분포를 이용하여 선정된 분할 가능 위치의 확률값은 계산한다(33). 이 분할 확률값(segmentation probability value)은 분할 가능 위치가 될 것이라고 믿는 신념의 정도를 표현한다.
도6을 참조하면, 확률분포는 최대 엔트로피 원리에 기반하여 생성된다. 확률분포는 도5의 분류규칙을 저장하는 과정과 동일하게 분할위치가 표시된 말뭉치를 구축하고(112), 학습데이터(어휘문맥)를 생성하고(114), 규칙을 생성한다(116).
다음으로, 분할 위치 결정시 많은 효율 향상을 도모함과 동시에 안전한 세그먼트를 생성하기 위해 여러가지 요인, 후보특성들(candidate feature)을 고려한다(118). 후보특성은 (1)단어의 어휘 문맥적 특성과, (2)단어의 지역적 특성(위치정보), (3)최초 분할 위치의 특성(다른 분할 위치가 앞에 존재하는 지의 여부)이다. (1)어휘 문맥적 특성은 분할 가능 위치 분류를 위한 규칙(110)으로부터 추출한다. 분류규칙은 분할 가능 취치가 가지는 어휘 문맥의 속성들을 표현하며 자주 나타나는 속성들은 분할 위치 결정에 유력한 증거가 된다. 분류규칙은 버전 그래프 상에서 일반화 경계와 특수화 경계 간의 경로로 정의되는데, 특성들은 이 경로를 추적하면서 추출된다. 도7은 어휘 문맥적 특성 추출을 위한 알고리즘을 나타낸다. (2)단어의 지역적 특성은 같은 단어라도 문장에서의 위치에 따라 분할 위치로서 선택될 수 있는 선호도가 다르므로 이를 고려하기 위해 사용된다. n개의 단어로 이루어진 문장에서 i번째 단어의 영역값(위치값)는
여기서 R은 문장의 영역 개수를 의미한다.
(3)최초 분할 위치의 특성, 즉 다른 분할 위치가 앞에 존재하는 지의 여부는 안전한 분할을 위해 고려된다. 예를 들면, 문장에서 처음 나오는 분할 위치는 사람이 처음으로 문장을 분할하는 위치이므로 다른 분할 위치에 비해 상대적으로 안전하다.
확률분포는 주어진 특성들을 고려하여 최대 엔트로피 원리에 기반하여 생성한다(120). 확률분포 p*는 최대 엔트로피 원리에 의해 다음의 수학식2로 표현된다.
확률분포 생성을 위해 확률변수X, Y는 지수함수적으로 분포된다는 가정 하에 다음의 수학식3과 같은 조건부 지수 함수 계열의 확률 모델로 확룰분포를 표현한다.
이 확률모델의 가중치 계산을 위해 GIS(Generalized Iterative Scaling) 알고리즘을 사용한다(도8 참조).
분할 위치 선정의 확률 해석(33)의 마지막 단계로, 확률분포는 최대 유사도 원리에 기반하여 생성된다(122). 최대 유사도 원리는 최대 유사도를 갖는 확률 모델을 구하는 것이 최대 엔트로피를 가지는 확률모델을 구하는 것과 같은 것임을 알려준다. 최대 유사도 원리(Maximum Likelihood Principle)는 다음의 수학식4에 의해 표현된다.
상기 후보특성들(118) 중 분할 위치 결정에 유용한 것들만 확률모델에서 고려하는 것이 모델 생성을 위한 계산시간을 줄이면서 생성된 모델을 이용한 분할 위치 결정의 정확도를 유지한다. 후보특성들 중 유용한 특성들만을 고려하기 위한 방법으로 도9의 점진적인 특성 선택(IFS, Incremental Feature Selection)의 알고리즘을 이용하지만, 통상의 빈도수를 이용한 특성 선택(FFS, Frequency-based Feature Selection)를 이용할 수도 있다. 상기 과정에 의해 생성된 확률분포는 다음의 수학식5로 표현된다.
여기서 x는 분할 위치 결정에 고려되는 문맥 상황(정보)을 나타내고, y는 0 또는 1의 값으로서 분할 위치의 여부를 표현한다.
다시 도4를 참조하면, 분할 가능 위치의 문맥 상황이 가지는 특성에 의해 분할 확률값이 결정되면, 분할 가능 위치의 분할 확률을 계산하여 분할위치를 결정한다(34). 분할 위치 결정을 위한 알고리즘은 도10에 도시한다. 이 때 집합 A는 분할 확률이 각 단어의 임계값보다 큰 분할 가능 위치의 집합이고, B는 그 이외의 분할 가능 위치의 집합을 의미한다. 이 임계값은 다음의 수학식6에 의해 표현된다.
이 임계값은 특정한 단어가 분할 위치가 될 기대값을 의미하며, 이 값보다 큰 확률을 가지면, 그 단어가 분할 위치로서 적절하다고 간주한다. 임계값 이상의 분할 확률은 분할 위치로서 적절하다는 것을 의미하며, 그 중에서 가장 큰 확률을 가지는 문할 가능 위치가 분할 위치로서 결정된다. 모든 분할 가능 위치의 분할 확률이 임계값보다 작다는 것은 분할 위치로서의 신뢰도가 낮다는 것을 의미한다. 이 경우에는 분할의 결과로 생기는 세그먼트의 크기를 함께 고려한다. 이 때 분할 확률은 0에서 1까지의 값을 가지고, 세그먼트의 크기는 1보다 큰 정수값을 가진다. 분할 위치 결정에 미치는 두가지 요인의 영향을 동등하게 하기 위해 세그먼트 크기의 값을 0에서 1까지의 값으로 정규화한다. 이 두가지 값의 합으로 분할 위치의 점수가 결정되고, 가장 큰 점수를 가지는 위치를 분할위치로 결정한다. 이러한 분할위치의 결정은 구문 분석이 용이한 길이의 세그먼트로 분할되어야 하므로 일정한 길이 이상의 세그먼트가 존재하지 않을 때까지 분할이 계속된다. 여기서 분할 위치 결정에 고려되는 요인 중에서 위치정보와 다른 분할 위치가 앞에 존재하는가의 여부는 문장분할을 할 때마다 달라지므로 분할 확률값이 달라지게 된다. 도11은일정한 길이 이하의 세그먼트로 분할하는 알고리즘을 도시한다.
문장 분할 후 구문분석단계(40)에서 세그먼트를 분석하고, 세그먼트를 합성하여 구문을 분석한다. 구문분석단계(40) 후 의미분석(50)을 통해 목표 문장을 생성한다(60). 목표문장에 대하여 만족여부를 확인하여, 만족되지 못한 경우 수정된 문장 분할을 수동입력(70)하여 다시 구문분석단계(40)를 반복한다. 만족한 경우 문장분할된 분류규칙을 분류규칙DB(4)에 추가하고, 확률분포DB에 저장된 확률분포를 수정한다(80). 이 마지막 단계는 생략할 수도 있다.
실시예
분할 가능 위치 분류를 위한 규칙의 생성을 위해 쉼표를 포함하지 않은 길이 15 이상의 문장을 월 스트리트 저널의 10,300개의 문장에서 3,000개를 추출하여 사람이 분할 위치를 표시하녀 학습데이터를 구축하였다. 쉼표가 없는 문장으로, 고등학교 영어 교과서 2,640 문장과, 컴퓨터 분야의 바이트 매거진(Byte magazine) 1,000 문장, 워싱턴 포스트(Washington Post) 정치분야의 1,200개 문장에서 각각 300개 문장씩을 추출하여 문장번역을 실시하였다.
학습데이터의 3,000개 문장으로부터 5,375개의 활성 어휘문맥과, 40,236개의 비활성 어휘 문맥을 생성하였다. 분할 가능 위치 개념 학습 결과 모두 9,002개의 노드를 가지는 360개의 버전 그래프가 생성되었고, 이로부터 5,851개의 분할 가능 위치 분류 규칙을 생성하였다. 생성된 규칙으로부터 6,596개의 후보특성을 생성하여 확률모델을 생성하여 이용하였다. 특성 선택방법 중 FFS는 생성시간 12분에, 특성개수 2,866개를 보여주었으며, IFS는 생성시간 1,115분에, 특성개수 1,853개를보여주었다. IFS는 FFS에 비해 상당히 많은 시간을 필요로 하지만, 보다 적은 수의 유용한 특성만을 고려하여 분할 확률을 제공하므로 확률 계산시 유리하였다.
본 발명에 따른 기계번역방법에 의한 기계번역결과의 적용률, 정확도, 분할 오류 문장(분할 오류가 발생하지 않은 문장수와 전체 분할 대상의 문장 수를 이용한 분할 기여도 값)을 사람이 만든 분할 규칙에 의하여 분할하는 규칙 기반 방법과 비교하였다. 이 규칙 기반 방법은 긴 문장의 분석에 이용되는 문맥 자유 문법의 관찰을 통해 분할 가능 위치를 규정하는 규칙을 사람이 구축했다. 분할 위치 결정을 위해 분할 가능 위치는 유형별로 분류되고 유형마다 분할 우선 순위가 할당되었다. 분할 위치는 분할 가능 위치의 분할 우선 순위와 분할로 생성되는 세그먼트의 크기를 고려하여 결정되었다.
표2는 본 발명에 따른 문장분할의 분할성능을 비교하여 나타낸다.
적용률 정확도 분할 오류 문장
기준방법 100 77.6 0.776
규칙 기반 방법 85.2 86.5 0.703
FFS 98.3 88.2 0.865
IFS 98.3 91.2 0.895
IFS에 의한 적용률, 정확도, 분할성능을 문장길이별로 살펴보면, 분할 오류 문장은 학습 데이터와 같은 영역에서 추출된 데스트 문장에 대해서는 0.913, 고등학교 교과서의 문장에 대해서는 0.906이었다. 그리고 컴퓨터 영역의 바이트 매거진의 문장에 대해서는 0.883, 워싱턴 포스트지의 정치 분야 문장에 대해서는 0.87이었다. 전체적인 평균값은 0.895이며, 약 90%의 문장이 본 발명에 따른 기계번역방법의 문장분할을 통해 낮은 분석 복잡도를 가지고 올바른 구문구조를 생성함을나타내었다.
또한 구문분석 효율은 문장 분할을 하지 않을 경우 20 단어 이상의 문장은 많은 경우 분석이 종료하지 않았다. 표3은 분할을 이용한 분석과, 분할을 이용하지 않은 분석의 시간 및 공간, 효율향상을 나타냈다.
분할을 이용한 분석 분할을 이용하지 않은 분석 효을 향상(%)
월스트리트저널 시간(초) 4.8 22.1 77.4
공간(MB) 1.1 3.9 71.8
고등학교 영어교과서 시간(초) 4.6 19.6 76.5
공간(MB) 0.9 3.4 73.5
바이트 메거진 시간(초) 5.4 25.1 78.5
공간(MB) 1.1 3.7 70.3
워싱턴 포스트 시간(초) 5.1 29 82.4
공간(MB) 1.1 4.3 74.4
분 발명에 따른 문장 분할에 의한 경우 문장분할을 이용하지 않은 분석에 비해 시간면에서 30.9%, 공간면에서 57.8%의 효율향상을 얻을 수 있었다. 또한 문장의 종류나 길이에 무관하게 적용할 수 있었으며, 약98%의 적용률과 약 90%의 분할 정확도를 나타내었다.
본 발명에 따른 기계번역 장치 및 시스템, 방법은 학습에 의한 분할 가능 위치 분류 규칙의 생성을 통해 사람의 노력을 줄일 수 있고, 최대 엔트로피 확률 모델에 의한 분할 위치 결정을 통해 실용적으로 적용할 수 있는 정확도의 안전한 분할을 할 수 있는 효과가 있다.
또한 본 발명에 따른 기계번역 장치 및 시스템, 방법은 학습데이터와 다른영역의 문장분할에도 일정한 수준 이상의 적용률과 정확도를 유지할 수 있고, 문장분할에 의한 구분 분석의 효율 향상으로 실용적 기계번역을 실시간으로 할 수 있는 효과가 있다.

Claims (13)

  1. 원시언어로 작성된 입력문장을 입력하는 입력부와; 상기 입력문장을 형태소 분석하는 어휘 분석 모듈과, 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 모듈과, 상기 입력문장의 의미를 분석하는 의미 분석 모듈과, 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 생성모듈을 탑재한 중앙처리수단과; 상기 출력문장을 출력하는 출력부;를 갖는 기계번역장치로서,
    문장분할 가능 위치의 분류 규칙이 저장된 분류규칙DB와;
    문장분할 가능 위치의 확률분표가 저정된 확률분포DB를 더 가지며,
    상기 중앙처리수단은, 상기 입력문장에 대하여 상기 분류규칙DB에 저장된 분류규칙을 적용하여 분할 가능 위치를 선정하고, 상기 선정된 분할 가능 위치를 상기 확률분포DB에 저장된 확률분포를 이용하여 확률값을 구하여 상기 입력문장의 문장분할을 결정하는 문장분할모듈을 더 탑재하는 것을 특징으로 하는 기계번역장치.
  2. 제1항에 있어서,
    상기 분류규칙DB는, 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 분할 가능 위치의 분류규칙을 생성하여 저장된 것을 특징으로 하는 기계번역장치.
  3. 제1항 또는 제2항에 있어서,
    상기 확률분포DB는, 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 상기 확률모델을 이용하여 확률분포를 생성하여 저장된 것을 특징으로 하는 기계번역장치.
  4. 제3항에 있어서,
    상기 문장분할모듈은, 상기 출력문장을 분할 가능 위치로써 상기 분류규칙DB에 추가저장하고, 확률모델을 수정하여 확률분포DB에 저장하는 것을 특징으로 하는 기계번역장치.
  5. 단말기와, 서버와, 상기 단말기와 상기 서버를 연결하는 개방형 네트워크를 갖고 원시언어로 작성된 입력문장을 목표언어로 번역하여 출력문장으로 출력하는 기계번역시스템에 있어서,
    상기 단말기는 원시언어로 작성된 입력문장을 입력하는 입력부와, 목표언어로 번역한 출력문장을 출력하는 출력부를 가지며;
    상기 서버는 문장분할 가능 위치의 분류 규칙이 저장된 분류규칙DB와,
    문장분할 가능 위치의 확률분표가 저장된 확률분포DB와,
    상기 입력문장을 형태소 분석하는 어휘 분석 모듈과, 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 모듈과, 상기 입력문장의 의미를 분석하는 의미 분석 모듈과, 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 모듈과, 상기 입력문장에 대하여 상기 분류규칙DB에 저장된 분류규칙을 적용하여 분할 가능 위치를 선정하고, 상기 선정된 분할 가능 위치를 상기 확률분포DB에 저장된 확률분포를 이용하여 확률값을 구하여 상기 입력문장의 문장분할을 결정하는 문장분할모듈를 탑재한 중앙처리수단;을 갖는 기계번역시스템.
  6. 제5항에 있어서,
    상기 분류규칙DB는, 상기 분할위치가 표시된 다수의 말뭉치를 생성하여 학습데이터를 저장하고, 상기 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 분할 가능 위치의 분류규칙을 생성하여 저장된 것을 특징으로 하는 기계번역시스템.
  7. 제5항 또는 제6항에 있어서,
    상기 확률분포DB는, 상기 분할위치가 표시된 다수의 말뭉치를 생성하여 학습데이터를 저장하고, 상기 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 상기 확률모델을 이용하여 확률분포를 생성하여 저장된 것을 특징으로 하는 기계번역시스템.
  8. 제7항에 있어서,
    상기 문장분할모듈은, 상기 출력문장을 분할 가능 위치로써 상기 분류규칙DB에 추가저장하고, 확률모델을 수정하여 확률분포DB에 저장하는 것을 특징으로 하는 기계번역시스템.
  9. 원시언어로 작성된 입력문장을 입력하는 입력단계와; 상기 입력문장을 형태소 분석하는 어휘 분석 단계와; 상기 입력문장의 통사적인 구조를 밝히는 구문 분석 단계와, 상기 입력문장의 의미를 분석하는 의미 분석 단계와; 상기 구문 분석과 상기 의미분석에 기초하여 목표언어로 번역된 출력문장을 생성하는 목표 문장 단계와; 상기 출력문장을 출력하는 출력단계를 갖는 기계번역방법에 있어서,
    상기 어휘 분석 단계 이후에, 상기 어휘 분석 단계에서 형태소 분석된 상기 입력문장을 문장분할 규칙을 적용하는 규칙적용단계와, 상기 규칙 적용에 의해 문장분할 가능 위치를 선정하는 위치선정단계와, 상기 위치선정을 확률분포를 통해 확률값은 구하는 해석단계와, 상기 확률값에 의해 문장분할을 결정하는 결정단계를 더 갖는 기계번역방법.
  10. 제9항에 있어서,
    상기 구문 분석 단계는, 상기 결정단계에 의한 문장분할에 의해 입력문장을 세그먼트들로 나누어 분석하고, 세그먼트를 합성하여 상기 입력문장의 통사적 구조를 밝히는 것을 특징으로 하는 기계번역방법.
  11. 제10항에 있어서,
    상기 규칙적용단계에서 적용하는 상기 문장분할 규칙은, 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 분할 가능 위치의 개념을 학습하여 생성되는 것을 특징으로 하는 기계번역방법.
  12. 제10항에 있어서,
    상기 해석단계에서 적용하는 상기 확률분포는, 상기 분할위치가 표시된 다수의 말뭉치를 구축하여 학습데이터를 생성하고, 상기 학습데이터를 이용하여 규칙 및/또는 특성을 생성하여 확률모델을 만들고, 상기 확률모델을 이용하여 생성되는 것을 특징으로 하는 기계번역방법.
  13. 제9항 내지 제12항 중 어느 한 항에 있어서,
    상기 해석단계 이후에, 상기 해석단계에서 구한 확률값은 저장하는 저장단계를 더 가지며,
    상기 결정단계는 상기 저장단계에 저장된 확률값 중 최대 확률값을 갖는 위치로 문장분할을 결정하는 것을 특징으로 하는 기계번역방법.
KR10-2000-0010247A 2000-02-29 2000-02-29 기계번역 장치 및 시스템, 방법 KR100512541B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0010247A KR100512541B1 (ko) 2000-02-29 2000-02-29 기계번역 장치 및 시스템, 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0010247A KR100512541B1 (ko) 2000-02-29 2000-02-29 기계번역 장치 및 시스템, 방법

Publications (2)

Publication Number Publication Date
KR20010103151A true KR20010103151A (ko) 2001-11-23
KR100512541B1 KR100512541B1 (ko) 2005-09-06

Family

ID=43673417

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0010247A KR100512541B1 (ko) 2000-02-29 2000-02-29 기계번역 장치 및 시스템, 방법

Country Status (1)

Country Link
KR (1) KR100512541B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100422809B1 (ko) * 2000-12-27 2004-03-12 한국전자통신연구원 기계 번역을 위한 장문 분할 방법
KR100921563B1 (ko) * 2008-04-25 2009-10-12 한국과학기술원 의존 문법 구문 트리를 이용한 문장 요약 방법
KR100975044B1 (ko) * 2007-11-09 2010-08-11 한국전자통신연구원 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법
KR101589948B1 (ko) * 2015-03-13 2016-01-29 황준호 자동 번역 방법 및 장치
KR101896973B1 (ko) * 2018-01-26 2018-09-10 가천대학교 산학협력단 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
KR20190119839A (ko) * 2018-04-13 2019-10-23 강원대학교산학협력단 신경망을 이용해 다양한 문체를 포함한 문장 생성 방법
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100422809B1 (ko) * 2000-12-27 2004-03-12 한국전자통신연구원 기계 번역을 위한 장문 분할 방법
KR100975044B1 (ko) * 2007-11-09 2010-08-11 한국전자통신연구원 복합 명사의 동일 의미 문장 생성을 위한 문장 성분 복원 장치 및 방법
KR100921563B1 (ko) * 2008-04-25 2009-10-12 한국과학기술원 의존 문법 구문 트리를 이용한 문장 요약 방법
KR101589948B1 (ko) * 2015-03-13 2016-01-29 황준호 자동 번역 방법 및 장치
KR101896973B1 (ko) * 2018-01-26 2018-09-10 가천대학교 산학협력단 기계학습 모델을 이용한 자연어 생성 시스템, 방법, 및 컴퓨터 판독가능매체
KR20190119839A (ko) * 2018-04-13 2019-10-23 강원대학교산학협력단 신경망을 이용해 다양한 문체를 포함한 문장 생성 방법
CN112528001A (zh) * 2020-12-23 2021-03-19 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112528001B (zh) * 2020-12-23 2023-07-25 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备

Also Published As

Publication number Publication date
KR100512541B1 (ko) 2005-09-06

Similar Documents

Publication Publication Date Title
US6721697B1 (en) Method and system for reducing lexical ambiguity
US9824083B2 (en) System for natural language understanding
US5610812A (en) Contextual tagger utilizing deterministic finite state transducer
US20030046078A1 (en) Supervised automatic text generation based on word classes for language modeling
Dien et al. Vietnamese Word Segmentation.
Yatbaz et al. Learning syntactic categories using paradigmatic representations of word context
US11544457B2 (en) Machine learning based abbreviation expansion
Patel et al. ES2ISL: an advancement in speech to sign language translation using 3D avatar animator
US10503769B2 (en) System for natural language understanding
KR101962113B1 (ko) 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
Jung et al. End-to-end Korean part-of-speech tagging using copying mechanism
EP1503295A1 (en) Text generation method and text generation device
US11797777B2 (en) Support for grammar inflections within a software development framework
US11049498B2 (en) Method for generating chatbot utterance based on semantic graph database
KR100512541B1 (ko) 기계번역 장치 및 시스템, 방법
Mudge The design of a proofreading software service
Ramesh et al. Interpretable natural language segmentation based on link grammar
Nivre On statistical methods in natural language processing
Wegari et al. Parts of speech tagging for Afaan Oromo
Kharlamov et al. Text understanding as interpretation of predicative structure strings of main text’s sentences as result of pragmatic analysis (combination of linguistic and statistic approaches)
Eineborg et al. ILP in part-of-speech tagging—an overview
JP3027553B2 (ja) 構文解析装置
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Wagner Target Factors for Neural Machine Translation
Gelbukh Unsupervised learning for syntactic disambiguation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee