KR100327114B1 - 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 - Google Patents

문장골격을 기반으로 한 자동번역 시스템 및 그 방법 Download PDF

Info

Publication number
KR100327114B1
KR100327114B1 KR1019990061182A KR19990061182A KR100327114B1 KR 100327114 B1 KR100327114 B1 KR 100327114B1 KR 1019990061182 A KR1019990061182 A KR 1019990061182A KR 19990061182 A KR19990061182 A KR 19990061182A KR 100327114 B1 KR100327114 B1 KR 100327114B1
Authority
KR
South Korea
Prior art keywords
sentence
slot
band
frame
constraint
Prior art date
Application number
KR1019990061182A
Other languages
English (en)
Other versions
KR20010057775A (ko
Inventor
심철민
여상화
정한민
최승권
김영길
서광준
서영애
김태완
박상규
박세영
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061182A priority Critical patent/KR100327114B1/ko
Publication of KR20010057775A publication Critical patent/KR20010057775A/ko
Application granted granted Critical
Publication of KR100327114B1 publication Critical patent/KR100327114B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명은 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 문장의 골격을 표현하고 있는 문틀에 기반하여, 구조적인 모호성을 해소한 자연스러운 번역문장을 생성할 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계를 포함하며, 자동번역 시스템 등에 이용됨.

Description

문장골격을 기반으로 한 자동번역 시스템 및 그 방법{SYSTEM FOR AUTOMATIC TRANSLATION BASED ON SENTENCE FRAME AND METHOD USING THE SAME}
본 발명은 자동번역 시스템 및 그 방법에 관한 것으로, 특히 입력된 원시언어 문장으로부터 문장의 골격이라 할 수 있는 문틀(sentence frame)을 파악하고, 이를 바탕을 대역문의 문틀로 변환한 후, 대역어를 생성해 낼 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
도 1 에 도시된 바와 같은 종래의 자동번역 시스템은, 원시언어 형태소 분석기(10)에서 번역사전(14)을 이용하여 어휘의 품사를 파악한 후, 구문분석기(11)가 구문분석 규칙(15)을 이용하여 문장의 통사적인 수식구조를 파악한다.
입력문장의 구조분석이 완료되면, 문장의 통사구조를 트리구조로 표현하여 목적언어의 구조로 변환해 주는 변환기(12)로 전달한다. 상기 변환기(12)는 변환규칙(16) 및 번역사전(14)을 참조하여 이용하여 원시언어 트리를 목적언어 트리로 변환하고, 목적언어 형태소 생성기(13)는 목적언어로 변환된 트리를 탐색하여, 해당 노드의 형태소를 생성하며, 최종적인 번역문장을 생성한다. 여기서, 문장의 통사구조를 파악하는 구문분석은, 품사단위의 어휘정보와 상기 원시언어 형태소 분석기(10)에서 제공하는 자질정보등의 국부적인 정보만을 고려하여 해당 단어들을 구 단위로 결합하고자 하므로, 여러 가지 모호성(ambiguity)이 발생할 수 있다.
일반적으로, 상기한 바와 같은 구조적인 모호성은 구문분석 단계에서 적용되는 규칙의 선호도 값들을 이용하여 전체 구문트리의 신뢰도를 측정하여 해소하나, 영어의 경우 20 단어를 넘어가는 문장의 경우, 구문분석시 발생하는 모호성이 증가함으로써, 구문분석의 정확도가 현저하게 떨어진다.
상기 구문분석의 모호성을 해소하기 위해 단순히 품사단위의 결합규칙만으로 구조를 분석하는 것이 아니라, 어휘와 품사의 혼합으로써 구문분석 규칙을 기술하는 방법이 있다.
그러나, 상기한 바와 같이 어휘와 품사의 혼합으로써 구문분석 규칙을 서술하는 방법은, 구문분석시 임의의 어휘에 대해 품사규칙 뿐만 아니라, 어휘규칙까지 모두 적용해야 하므로, 구문분석의 속도가 느리고, 메모리를 많이 필요로 하며, 국부적인 정보만을 이용하므로 모호성의 문제를 근본적으로 해결할 수 없는 문제가 있다.
상기 구문분석의 모호성을 해소하기 위한 다른 방법으로, 대용량의 번역 예문으로부터 단편적인 번역 예제를 추출하고, 각 예제마다 해당하는 대역구조를 명시한 후, 실제 번역시에는 입력 문장에 대해 부분적인 예제들을 탐색하여 해당하는 대역구조를 변환하는 방법이 있다.
그러나, 상기한 바와 같은 구문분석의 모호성을 해소하기 위한 방법은, 어휘단위의 대용량의 예제를 전제로 함으로써, 일정한 수준의 번역 품질을 내기 위해 구축해야 하는 번역지식의 양이 방대하며, 예제의 구축에 일정한 기준이 없어, 번역지식의 튜닝이 어렵고, 예제 역시 부분적인 변환정보만을 표현하고 있으므로, 모호성의 문제를 해결하지 못하는 문제가 있다.좀 더 상세히 종래의 번역 기술에 대해 살펴보면, 최근들어 인터넷의 보급으로 인해 상이한 언어권 간의 정보 교환 요구가 증가하고 있으며, 이에 따라 상이한 언어권 간의 번역 방법론에 관한 많은 연구가 진행되고 있는데, 가장 대표적인 방법론으로 규칙 기반(Rule-Based) 번역 방법을 들 수 있다.이 방법은 언어의 조합성(Compositionality)에 기반한 방식으로서 주로 구문 분석을 통한 구조 변환 기법을 사용하는데 단기간에 일정 수준의 번역 시스템을 개발할 수 있고, 무한한 생성력이 있으며, 알고리즘과 번역 지식이 명확히 구분이 된다는 장점이 있다. 반면에 번역 규칙의 기술이 복잡하고, 번역 규칙 기술자의 능력에 번역 시스템의 품질이 전적으로 의존하며, 번역 규칙 간의 충돌 해소가 어려우며, 이러한 번역 규칙 관리의 어려움으로 인해 일정한 수준 이상의 번역 품질을 제공하기가 어렵다는 단점을 가진다. 이에 따라 번역 규칙 기술의 한계로 인해 번역 시스템의 성능 개선에는 한계를 가지게 되는 문제점이 있다.이와 유사한 언어적인 배경에 기반한 번역 방법론(linguistic-based MT)으로는 지식 기반(knowledge-Based), 어휘 기반(Lexical-Based), 제약 기반(Constraint-Based) 등의 다양한 기법들이 있으나 모두 상기와 유사한 문제점을 안고 있다.한편, 이러한 언어적인 배경을 가진 방법론의 단점을 극복하기 위해 최근에 제시된 번역 방법론으로는 비언어적인 배경에 기반한 번역 방법론(Non-Linguistic-Based MT)이 있는데, 이러한 기법으로는 통계 기반(Statistical-Based), 예제 기반(Example-Based), 예제 기반에서 파생된 변환 기반(Transfer Driven) 방식 등이 있다.상기의 번역 기법들은 언어 현상을 규칙화하지 않으므로 개발이 쉽고, 번역 지식의 구축이 용이하다는 장점이 있다. 그러나, 통계 기반의 경우는 대용량의 대역 코퍼스에 기반한 통계 자료를 필요로 하며, 번역의 품질이 떨어지는 단점이 있고, 예제 기반의 경우도 대용량의 예제를 필요로 함으로써 단기간에 높은 성능의 시스템을 개발하기에 어려움이 있다. 게다가 다수의 후보 예제 간의 거리 계산을 위해 시소러스를 사용하는데 이러한 시소러스 관리가 어렵고 시소러스 상의 거리 계산의 정확도가 낮아 실용화된 수준의 시스템을 개발하기가 어렵다는 단점이 있다.
결론적으로, 언어적인 배경과 비언어적인 배경에 기반한 번역 방법론을 상호 보완하여, 규칙 기반 자동 번역에서 사용했던 여러가지 자질 특징을 사용하면서, 예제 기반에서 사용했던 대용량 예제 및 예외 상황 대처 능력의 장점을 결합하여, 종래 기술에 따른 구조적인 모호성을 해소할 수 있는 새로운 번역 방법에 대한 연구가 요구되고 있다.
따라서, 본 발명은 상기와 같은 요구에 부응하기 위해 제안된 것으로, 문장의 골격을 표현하고 있는 문틀에 기반하여, 구조적인 모호성을 해소한 자연스러운 번역문장을 생성할 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 종래의 자동번역 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 자동번역 시스템의 일실시예 구성도.
도 3 은 본 발명에 따른 원문틀 탐색기 및 구문 변환기의 일실시예 구성도.
도 4 는 본 발명에 따른 문장골격을 기반으로 한 자동번역 방법에 대한 일실시예 처리 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
20 : 원시언어 형태소 분석기 21 : 번역사전
22 : 구 단위 구문분석기 23 : 원문틀 탐색기
24 : 원문틀 데이터베이스 25 : 문틀 변환기
26 : 대역문틀 데이터베이스 27 : 슬롯대역 데이터베이스
28 : 목적언어 형태소 생성기
상기 목적을 달성하기 위한 본 발명의 시스템은, 자동번역 시스템에 있어서, 원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 자질정보 저장수단; 원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석수단; 상기 원시언어 형태소 분석수단에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로 표현하는 구 단위 구문분석수단; 해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 정보 저장수단; 상기 구 단위 구문분석수단으로부터 수신한 원시언어 문장의 슬롯 열을 바탕으로 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하는 원문틀 탐색수단; 원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 정보 저장수단; 원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 정보 저장수단; 상기 원문틀 탐색수단으로부터 수신한, 해당하는 원문틀의 기본적인 제약조건이 매칭된 원문을 상기 대역문틀 정보 저장수단 및 슬롯대역 정보 저장수단에 저장된 정보를 이용하여 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환수단; 및 상기 문틀 변환수단으로부터 목적언어의 형태소열을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성수단을 포함한다.
한편, 본 발명의 방법은, 자동번역 시스템에 적용되는 문장골격을 기반으로 한 자동번역 방법에 있어서, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계를 포함한다.
또한, 본 발명은, 마이크로 프로세서를 구비한 자동번역 시스템에, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 기능; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 기능; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 기능; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.우선, 본 발명에서의 문틀(Sentence Frame)이란 용어를 먼저 살펴보면, 문틀이란 문장의 대략적인 구문 형태를 표현한 것으로써 슬롯(Syntactic Slot)들의 열로써 표현되는 것을 말한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 2 는 본 발명에 따른 자동번역 시스템의 일실시예 구성도이다.
도면에 도시된 바와 같이, 본 발명에 따른 자동번역 시스템은, 원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석기(20)와, 원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 번역사전(21)과, 상기 원시언어 형태소 분석기(20)에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로서 표현하는 구 단위 구문분석기(22)와, 원시언어 문장의 슬롯 열을 바탕으로 제약조건을 탐색하는 원문틀 탐색기(23)와, 해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 데이터베이스(24)와, 상기 원문틀 탐색기(23)로부터 제약조건이 매칭된 원문을 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환기(25)와, 원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 데이터베이스(26)와, 원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 데이터베이스(27)와, 상기 문틀 변환기(25)로부터 정규화된 자질값을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성기(28)를 포함한다.
그리고, 상기 구 단위 구문분석기(22)가 표현하는 슬롯은, 문장의 골격을 좌우하는 특수한 품사(예를 들면, 동사, 기호, 접속사 및 관계사)는 슬롯으로 연결하지 않고 별도의 노드로 구성한다. 상기 품사들은 하나의 형태소가 하나의 슬롯을 구성하며, 이외의 형용사, 부사, 관사, 명사 및 전치사 등의 품사들은 서로 연결되어 슬롯을 구성할 수 있다.
상기 구 단위 구문분석기(22)가 원시문장을 슬롯으로 표현하는 예를 설명하기로 한다.
예를 들어 'The government unveils financial market stabilization measures which include the injection of public funds into ailing financial institutions.'와 같은 문장의 경우, 형태소 분석결과는 다음과 같다.
(어휘/품사/기본형/세부품사)
the/DET/the/DT
government/NOUN/government/NN
unveils/VERB/unveil/VBZ
financial_market/NOUN/financial_market/JJ
stabilization_measures/NOUN/stabilization_measure/NN
which/CONJ/which/CONJ
include/VERB/include/VB
the/DET/the/DT
injection/NOUN/injection/NN
of/PREP/of/IN
public_funds/NOUN/public_fund/JJ
into/PREP/into/IN
ailing_financial_institutions/NOUN/ailing_financial_institution/JJ
PERIOD/PUNCT/PERIOD
상기한 바와 같은 결과를 상기 구 단위 구문분석기(22)를 이용하여 슬롯 열로 연결한 결과는 다음과 같다.
(슬롯명/어휘)
NP1/the_government
VERB1/unveils
NP2/financial_market_stabilization_measures
CONJ1/which
VERB2/include
NP3/the_injection_of_public_funds_into_ailing_financial_institutions
상기한 바와 같은 슬롯 열을 원문틀로써 표현한 예는 다음과 같다. 원문들은 원시문장의 구 단위 구문분석 결과인 슬롯 열을 기호화한 것이다.
(원문틀 탐색키)
NP VERB NP CONJ VERB NP
상기한 바와 같은 원문틀 탐색키를 이용하여 상기 원문틀 탐색기(23)는 상기 원문틀 데이터베이스(24)를 탐색한다. 원문틀 접근과정은 상기 원문틀 데이터베이스(24)에 저장된 대역문틀의 기본 제약조건을 만족하는 경우, 해당 대역문틀의 실제 내용을 접근하는 단계로 구성된다. 이와 같이, 원문틀과 대역문틀 사이에 제약조건을 설정한 이유는 첫째, 문장의 전체적인 골격을 나타내는 원문틀에서 직접 대역문틀로 접근할 경우, 동일한 원문틀에 대해 다양한 대역문틀이 가능하므로 처리흐름상 하나의 키에 저장된 데이터베이스 내용의 크기가 커지고, 처리시간이 증가하며, 둘째, 대용량의 번역지식 구축시, 원문틀과 대역문틀을 직접 연결할 경우, 동일한 원문틀에 대해 대역문틀을 구별하여 구축하기 위하여 고려해야할 후보지식의 수가 많고, 그들간의 차이점을 쉽게 파악할 수 없기 때문이다.
첨부된 도 3 은 본 발명에 따른 원문틀 탐색기 및 문틀 변환기의 일실시예 상세구성도이다.
상기 원문틀 탐색기(23)는, 상기 구 단위 구문분석기(22)로부터 원시문장의 슬롯 열을 입력받아 상기 원문틀 데이터베이스(24)에서 해당하는 원문틀의 제약조건을 탐색하여 수신된 원시문장 슬롯열의 통사적인 특징을 파악하는 원문틀 제약 조건 검사기(30)를 포함한다.
상기 원문틀 탐색기(23)에서 원문틀 탐색에 성공하면, 해당 원문틀의 통사적인 특징을 파악하기 위하여 상기 원문틀 제약조건 검사기(30)가 상기 원문틀 데이터베이스(24)의 제약조건 부분을 탐색하여, 제약조건을 매칭한다. 그리고, 각 제약조건마다 부가되어 있는 상기 대역문틀 데이터베이스(26)의 탐색키를 이용하여 해당 대역문틀에 접근한다.
다음의 상기 원문틀 데이터베이스(24)에 저장된 제약조건의 예이다.
{NP VERB:[vb,11] NP CONJ:[rel] VERB:[vb,t1] NP} 대역문틀 내용으로의 포인터1, 대역문틀 내용으로의 포인터2, ...
상기 제약조건의 예에서, VERB:[vb,t1]의 경우, 슬롯의 명칭은 VERB이며, 제약조건으로써 동사의 활용형태는 현재형(vb)이고, 동사의 형식은 타동사(t1)라는 의미이다. 상기와 같은 제약조건은, 명확한 구축지침을 제시함으로써, 대용량의 예문을 일관성 있게 구축할 수 있다.
그리고, 상기 문틀 변환기(25)는, 입력된 대역문에 대해 원문의 각 슬롯별로 해당하는 자질 제약조건 스크립트를 실행하여 만족하는가를 검사하고 슬롯순서를 정렬하며 변환된 각각의 대역문 슬롯에 대해 자질값 지정 스크립트를 수행하여 자질값을 부여한 후 목적언어 형태로 구조변환을 수행하는 대역문틀 분석기(31)와, 상기 대역문틀 분석기(31)로부터 구조 변환된 결과를 수신하고 상기 슬롯대역 데이터베이스(27)를 참조하여 각 슬롯별로 내부의 형태소들에 대한 어순변환 및 해당하는 자질값을 지정하는 2단계 구조변환을 수행하는 슬롯대역 구조분석기(32)와, 상기 번역사전(21)을 참조하여 각 어휘별로 대역어를 추출하는 어휘 변환기(33)와, 상기 대역문틀 분석기(31)에서 계산된 가중치 값을 이용하여 가장 적절한 대역문틀을 선택하는 문틀 선택기(34)와, 구조변환 과정에서 지정된 다수의 자질값들을 정규화하여 상기 목적언어 형태소 생성기(28)에 전송하는 자질 정련기(35)를 포함한다.
상기 원문틀 제약조건 검사기(30)에서 원문틀 제약조건 매칭에 성공한 후, 해당하는 제약조건에 부가된 상기 대역문틀 데이터베이스(26)로의 포인터 정보를 이용하여, 상기 대역문틀 분석기(31)에서 상기 대역문틀 데이터베이스(26)에 접근한다. 상기 대역문틀 데이터베이스(26)에는 다음과 같이 원문 제약정보 및 대역문지정정보가 저장되어 있다.
{원문슬롯1:[자질 제약조건 스크립트] 원문슬롯2:[자질 제약조건 스크립트]...}->
{대역문슬롯1:[자질값 지정 스크립트] 대역문슬롯1:[자질값 지정 스크립트]...}
상기 원문 제약정보는, 원문틀에 기술된 각 원문 슬롯별로 특별한 제약조건들을 스크립트 언어(script language)형태로 기술할 수 있다. 예를 들어, VERB1:[errot==[have]_AND etype==[t1]]과 같은 경우는, 원문 슬롯명이 VERB이고, 어휘의 기본형이 'have'이고, 동사의 형식이 타동사(t1)인 경우를 의미한다.
상기 대역문틀 분석기(31)는 먼저 하나의 대역문틀에 대해 원문의 각 슬롯별로 해당하는 자질 제약조건 스크립트를 실행하여 만족하는 지를 검사한 후, 대역문의 각 슬롯별로 슬롯 순서를 정렬한다. 상기 예에서 원문 슬롯 순서와 대역문의 슬롯 순서를 다르게 배열한다. 예를 들어, 'I love you'라는 입력문자의 경우, 원문은 'NP1 VERB1 NP2'와 같고, 이에 대응하는 대역문은 'NP1 NP2 VERB1'와 같이 표현되어 어순변환을 수행한다.
이와 같이, 어순변환을 수행한 후, 변환된 대역문 슬롯들 각각에 대해 자질값 지정 스크립트를 실행하여 특정 자질값을 지정한다. 예를 들어, 'I love you'의 경우, 'NP1 NP2 VERB1'과 같이 대역 슬롯의 어순을 변환한 후, NP1의 격 정보로는 '주격'을, NP2의 격 정보로는 '목적격'을 지정한다.
상기 입력예문 'The government unveils financial market stabilizationmeasures which include the injection of public funds into ailing financial institutions.'에 대한 대역문틀은 다음과 같다.
(슬롯명/어휘/자질정보)
NP1/the_government/주제격
NP3/the_injection_of_public_funds_into_ailing_financial_institutions/목적격
VERB2/include/평서형
CONJ1/which/연결형
NP2/financial_market_stabilization_measures/주격
VERB1/unveils/평서형
입력문장의 형태소 분석에서 발생하는 모호성과 구 단위 구문분석에서 발생하는 모호성 및 상기 번역사전(21)에 다수의 정보가 기술되어 있음으로 발생하는 모호성으로 인해 하나의 입력문장에 대해 다수의 원문틀이 매칭될 수 있으므로, 다수의 대역문틀이 후보로서 선택될 수 있다. 상기 대역문틀 후보 중에서 원문의 자질 제약조건 스크립트를 만족하는 정도에 따라 가중치를 부여한다.
상기 슬롯대역 데이터베이스(27)의 내용구성은 다음과 같다.
{원문품사1:[자질 제약조건 스크립트] 원문품사2:[자질 제약조건 스크립트]...}->
{대역문품사1:[자질값 지정 스크립트] 대역문품사2:[자질값 지정스크립트]...}
상기한 바와 같이, 상기 슬롯대역 데이터베이스(27)의 내용구성은 상기 대역문틀 데이터베이스(26)의 내용구성과 유사하나, 상기 대역문틀 데이터베이스(26)의 적용대상은 슬롯단위이고, 상기 슬롯대역 데이터베이스(27)의 적용대상은 슬롯 내부의 품사단위라는 점에 차이가 있다.
입력 예문 'The government unveils financial market stabilization measures which include the injection of public funds into ailing financial institutions.'에 대한 대역문틀 중 두 번째 슬롯인 NP3(the_injection_of_public_funds_into_ailing_financial_institutions)에 대한 상기 슬롯대역 데이터베이스(27)의 예는 다음과 같다.
(NP3에 해당하는 슬롯대역의 예)
{DET1 NOUN1 PREP1 NOUN2 PREP2 NOUN3} -> {NOUN3 PREP1 NOUN2 PREP2 NOUN1}
이제 첨부된 도 4 를 참조하여 본 발명에 따른 문장골격을 기반으로한 자동번역 방법에 대해 상세히 설명하면 다음과 같다.
도 4 는 본 발명에 따른 문장골격을 기반으로한 자동번역 방법에 대한 일실시예 처리 흐름도이다.
먼저, 입력문장에 대해 원시언어 형태소 분석기(20)와 구 단위 구문분석기(22)를 거쳐 생성된 구 단위 구문분석 결과를 메모리 장치로부터 적재하고(400), 상기 구 단위 구문분석 결과가 올바른 결과인가를 판단한다(402).
상기 판단결과(402), 올바른 결과가 아니면, 자동번역 작업을 종료하고, 올바른 결과이면, 상기 적재된 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하고(404), 상기 원문틀 탐색키를 이용하여 원문틀 데이터베이스(24)를 탐색한 후(406), 상기 원문틀 데이터베이스(24) 탐색결과가 올바른가를 판단한다(408).
상기 판단결과(408), 올바른 탐색결과가 아니면, 자동번역 작업을 종료하고, 올바른 탐색결과이면, 상기 원문틀 데이터베이스(24)에서 탐색한 제약조건을 입력문장에 매칭하고(410), 제약조건 매칭에 성공한 후보가 존재하는지를 판단한다(412).
상기 판단결과(412), 제약조건 매칭에 성공한 후보가 존재하지 않으면, 자동번역 작업을 종료하고, 제약조건 매칭에 성공한 후보가 존재하면, 상기 제약조건에 부가되어 있는 대역문틀 접근 포인터를 이용하여 대역문틀 데이터베이스(26)를 탐색하고(414), 상기 대역문틀 데이터베이스(26)에서 탐색된 대역문틀 정보를 적용한다(416). 여기서, 상기 대역문틀 정보 적용과정은, 원문 슬롯의 제약조건 스크립트를 실행하여 가중치를 계산하고, 상기 원문 슬롯과 대역문 슬롯의 위치를 고려하여 문장을 구성하는 슬롯단위의 어순변환을 수행한 후, 각각의 대역문 슬롯에 대해 자질 지정 스크립트를 수행하여 해당하는 자질값을 지정한다.
그리고, 상기 과정을 통해 어순이 변환된 각 슬롯들에 대해 슬롯대역 데이터베이스(27)를 탐색하여(418), 슬롯대역 정보를 적재하고, 상기 대역문틀 적용에 성공한 모든 후보 대역문틀에 대해 각각의 문틀을 구성하는 슬롯별로 상기 슬롯대역 데이터베이스(27)의 슬롯대역 정보를 적용한다(420). 여기서, 상기 슬롯대역 정보적용과정은, 원문 품사에 대한 제약조건 스크립트를 수행하고, 상기 제약조건 스크립트를 만족하는 원문 품사 및 대역문 품사열의 위치를 고려하여 슬롯 내부의 품사단위의 어순변환을 수행하고, 대역문부의 해당 품사에 기술된 자질 지정 스크립트를 실행하여 해당하는 자질을 지정한다.
상기 슬롯대역 정보의 적용이 완료되면, 번역사전(21)을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하고(422), 상기 가중치 값을 이용하여 최종번역 결과로서 하나의 대역문틀을 선택한 후(424), 정규화된 자질값을 갖는 목적언어 형태소로 구성한다(426).
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은, 문장단위의 구문분석을 수행하지 않고, 입력문장을 구 단위 슬롯으로 표현하고, 이에 대한 구조변환 규칙을 데이터베이스화하여 적용함으로써, 번역을 위한 번역지식 구축의 일관성을 유지할 수 있고, 대용량의 번역지식을 구축할 수 있으며, 구문분석 단계의 모호성으로 인한 번역품질의 저하를 극복할 수 있는 효과가 있다. 즉, 본 발명은, 구문 분석에 기반하는 변환 방식 자동 번역(Transfer-based Machine Translation) 시스템과 용례 기반의 자동 번역(Example-based Machine Translation) 시스템의 장점을 결합한 복합 번역 시스템으로, 기존의 용례 기반 자동 번역 방식에서 문제시되고 있는 대상 범위의 확장성의 한계를 극복하며, 통계에 의존하는 용례 지식의 모호성 해소 방식을 규칙에 의존하도록 함으로써 보다 안정적이며, 고품질의 번역 결과를 제시할 수 있는 효과가 있다.

Claims (10)

  1. 자동번역 시스템에 있어서,
    원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 자질정보 저장수단;
    원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석수단;
    상기 원시언어 형태소 분석수단에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로 표현하는 구 단위 구문분석수단;
    해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 정보 저장수단;
    상기 구 단위 구문분석수단으로부터 수신한 원시언어 문장의 슬롯 열을 바탕으로 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하는 원문틀 탐색수단;
    원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 정보 저장수단;
    원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 정보 저장수단;
    상기 원문틀 탐색수단으로부터 수신한, 해당하는 원문틀의 기본적인 제약조건이 매칭된 원문을 상기 대역문틀 정보 저장수단 및 슬롯대역 정보 저장수단에 저장된 정보를 이용하여 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환수단; 및
    상기 문틀 변환수단으로부터 목적언어의 형태소열을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성수단
    을 포함하는 문장골격을 기반으로 한 자동번역 시스템.
  2. 제 1 항에 있어서,
    상기 원문틀 탐색수단은,
    상기 구 단위 구문분석수단으로부터 원시문장의 슬롯 열을 입력받아 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하여 상기 원시문장 슬롯열의 통사적인 특징을 파악하는 원문틀 제약조건 검사기인 것을 특징으로 하는 문장골격을 기반으로 한 자동번역 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 문틀 변환수단은,
    상기 원문틀 탐색 수단으로부터 입력된 대역문에 대해 자질 제약조건 스크립트, 슬롯순서를 정렬, 자질값 부여 및 목적언어 형태로 구조변환을 수행하는 대역문틀 분석수단;
    상기 대역문틀 분석수단으로부터 구조 변환된 결과를 수신하고, 상기 슬롯대역 정보 저장수단을 이용하여 각 슬롯별로 내부의 형태소들에 대한 어순변환 및 해당하는 자질값을 지정하는 슬롯대역 구조분석수단;
    상기 자질정보 저장수단을 이용하여 각 어휘별로 대역어를 추출하는 어휘 변환수단;
    상기 대역문틀 분석수단에서 계산된 가중치 값을 이용하여 가장 적절한 대역문틀을 선택하는 문틀 선택수단; 및
    상기 대역문틀 분석수단에서 구조변환 결과를 수신하고, 지정된 다수의 자질값들을 정규화하여 상기 목적언어 형태소 생성수단으로 전송하는 자질 정련수단
    을 포함하는 문장골격을 기반으로 한 자동번역 시스템.
  4. 삭제
  5. 자동번역 시스템에 적용되는 문장골격을 기반으로 한 자동번역 방법에 있어서,
    입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계;
    상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계;
    상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및
    상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계
    를 포함하는 문장골격을 기반으로 한 자동번역 방법.
  6. 제 5 항에 있어서,
    상기 제 3 단계는,
    상기 제약조건 매칭에 성공한 후보가 존재하는지를 확인하여, 상기 제약조건에 부가되어 있는 대역문틀 접근 포인터를 이용하여 대역문틀 데이터베이스를 탐색하는 제 5 단계;
    상기 대역문틀 데이터베이스에서 탐색된 대역문틀 정보를 상기 입력문장에 적용하는 제 6 단계;
    슬롯대역 데이터베이스를 탐색하여, 슬롯대역 정보를 적재하는 제 7 단계;
    상기 대역문틀 적용에 성공한 모든 후보 대역문틀에 대해 각각의 문틀을 구성하는 슬롯별로 상기 슬롯대역 데이터베이스의 슬롯대역 정보를 적용하는 제 8 단계; 및
    상기 슬롯대역 정보의 적용이 완료되면, 번역사전을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하는 제 9 단계
    를 포함하는 문장골격을 기반으로 한 자동번역 방법.
  7. 제 6 항에 있어서,
    상기 제 6 단계는,
    상기 대역문틀 데이터베이스의 원문 슬롯의 제약조건 스크립트를 실행하여 가중치를 계산하는 제 10 단계;
    상기 원문 슬롯과 대역문 슬롯의 위치를 고려하여 문장을 구성하는 슬롯단위의 어순변환을 수행하는 제 11 단계; 및
    각각의 대역문 슬롯에 대해 자질 지정 스크립트를 수행하여 해당하는 자질값을 지정하는 제 12 단계
    를 포함하는 문장골격을 기반으로 한 자동번역 방법.
  8. 제 6 항에 있어서,
    상기 제 8 단계는,
    상기 슬롯대역 데이터베이스의 원문 품사에 대한 제약조건 스크립트를 수행하는 제 10 단계;
    상기 제약조건 스크립트를 만족하는 원문 품사 및 대역문 품사열의 위치를 고려하여 슬롯 내부의 품사단위의 어순변환을 수행하는 제 11 단계; 및
    대역문의 해당 품사에 기술된 자질 지정 스크립트를 실행하여 해당하는 자질을 지정하는 제 12 단계
    를 포함하는 문장골격을 기반으로 한 자동번역 방법.
  9. 제 7 항에 있어서,
    상기 제 4 단계는,
    상기 번역사전을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하는 제 13 단계;
    상기 가중치 값을 이용하여 최종번역 결과로서 하나의 대역문틀을 선택하는 제 14 단계; 및
    상기 선택된 대역문틀을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 15 단계
    를 포함하는 문장골격을 기반으로한 자동번역 방법.
  10. 마이크로 프로세서를 구비한 자동번역 시스템에,
    입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 기능;
    상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 기능;
    상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 기능; 및
    상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990061182A 1999-12-23 1999-12-23 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 KR100327114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990061182A KR100327114B1 (ko) 1999-12-23 1999-12-23 문장골격을 기반으로 한 자동번역 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061182A KR100327114B1 (ko) 1999-12-23 1999-12-23 문장골격을 기반으로 한 자동번역 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20010057775A KR20010057775A (ko) 2001-07-05
KR100327114B1 true KR100327114B1 (ko) 2002-03-13

Family

ID=19628833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061182A KR100327114B1 (ko) 1999-12-23 1999-12-23 문장골격을 기반으로 한 자동번역 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR100327114B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072045A (ko) * 2000-07-13 2000-12-05 김진경 번역 프로그램에 있어서 소스 파일을 작성하는 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100463376B1 (ko) * 2002-12-10 2004-12-29 한국전자통신연구원 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
CN1910574A (zh) * 2004-01-06 2007-02-07 李仁燮 自动翻译器及其方法和用于编写该方法的记录媒体
KR100859532B1 (ko) 2006-11-06 2008-09-24 한국전자통신연구원 대응 문형 패턴 기반 자동통역 방법 및 장치
KR101136409B1 (ko) * 2010-07-30 2012-04-18 박찬준 제 1 언어의 문장이 제 2 언어의 문장의 어순을 동시에 표현하도록 하는 방법 및 컴퓨터로 읽을 수 있는 기록 매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000072045A (ko) * 2000-07-13 2000-12-05 김진경 번역 프로그램에 있어서 소스 파일을 작성하는 방법

Also Published As

Publication number Publication date
KR20010057775A (ko) 2001-07-05

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
US7447623B2 (en) Machine translation
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
EP0813156B1 (en) Method and apparatus for language translation
US5418717A (en) Multiple score language processing system
US7565281B2 (en) Machine translation
Baptist et al. Genesis-II: A versatile system for language generation in conversational system applications
US7970600B2 (en) Using a first natural language parser to train a second parser
Carroll Practical unification-based parsing of natural language
US20050137853A1 (en) Machine translation
JPH07200591A (ja) 構文解析装置
US7483828B2 (en) Multilingual database creation system and method
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH05314166A (ja) 電子化辞書および辞書検索装置
US8041556B2 (en) Chinese to english translation tool
JPH0261763A (ja) 機械翻訳装置
KR100327114B1 (ko) 문장골격을 기반으로 한 자동번역 시스템 및 그 방법
Koehn et al. Open source toolkit for statistical machine translation: Factored translation models and confusion network decoding
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
JP3176750B2 (ja) 自然言語の翻訳装置
Henrich et al. LISGrammarChecker: Language Independent Statistical Grammar Checking
Papakitsos et al. Modelling a Morpheme‐based Lexicon for Modern Greek
Balcha et al. Design and Development of Sentence Parser for Afan Oromo Language

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080214

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee