KR100327114B1 - 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 - Google Patents
문장골격을 기반으로 한 자동번역 시스템 및 그 방법 Download PDFInfo
- Publication number
- KR100327114B1 KR100327114B1 KR1019990061182A KR19990061182A KR100327114B1 KR 100327114 B1 KR100327114 B1 KR 100327114B1 KR 1019990061182 A KR1019990061182 A KR 1019990061182A KR 19990061182 A KR19990061182 A KR 19990061182A KR 100327114 B1 KR100327114 B1 KR 100327114B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- slot
- band
- frame
- constraint
- Prior art date
Links
- 238000013519 translation Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims abstract description 6
- 238000004458 analytical method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 8
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000007670 refining Methods 0.000 claims 1
- 238000000844 transformation Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000002347 injection Methods 0.000 description 5
- 239000007924 injection Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000006641 stabilisation Effects 0.000 description 3
- 238000011105 stabilization Methods 0.000 description 3
- 101100353163 Arabidopsis thaliana PREP2 gene Proteins 0.000 description 2
- 102100029394 Homeobox protein PKNOX1 Human genes 0.000 description 2
- 102100029330 Homeobox protein PKNOX2 Human genes 0.000 description 2
- 101001125957 Homo sapiens Homeobox protein PKNOX1 Proteins 0.000 description 2
- 101150100982 PKNOX2 gene Proteins 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 102000012677 DET1 Human genes 0.000 description 1
- 101150113651 DET1 gene Proteins 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 문장의 골격을 표현하고 있는 문틀에 기반하여, 구조적인 모호성을 해소한 자연스러운 번역문장을 생성할 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하기 위하여, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계를 포함하며, 자동번역 시스템 등에 이용됨.
Description
본 발명은 자동번역 시스템 및 그 방법에 관한 것으로, 특히 입력된 원시언어 문장으로부터 문장의 골격이라 할 수 있는 문틀(sentence frame)을 파악하고, 이를 바탕을 대역문의 문틀로 변환한 후, 대역어를 생성해 낼 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
도 1 에 도시된 바와 같은 종래의 자동번역 시스템은, 원시언어 형태소 분석기(10)에서 번역사전(14)을 이용하여 어휘의 품사를 파악한 후, 구문분석기(11)가 구문분석 규칙(15)을 이용하여 문장의 통사적인 수식구조를 파악한다.
입력문장의 구조분석이 완료되면, 문장의 통사구조를 트리구조로 표현하여 목적언어의 구조로 변환해 주는 변환기(12)로 전달한다. 상기 변환기(12)는 변환규칙(16) 및 번역사전(14)을 참조하여 이용하여 원시언어 트리를 목적언어 트리로 변환하고, 목적언어 형태소 생성기(13)는 목적언어로 변환된 트리를 탐색하여, 해당 노드의 형태소를 생성하며, 최종적인 번역문장을 생성한다. 여기서, 문장의 통사구조를 파악하는 구문분석은, 품사단위의 어휘정보와 상기 원시언어 형태소 분석기(10)에서 제공하는 자질정보등의 국부적인 정보만을 고려하여 해당 단어들을 구 단위로 결합하고자 하므로, 여러 가지 모호성(ambiguity)이 발생할 수 있다.
일반적으로, 상기한 바와 같은 구조적인 모호성은 구문분석 단계에서 적용되는 규칙의 선호도 값들을 이용하여 전체 구문트리의 신뢰도를 측정하여 해소하나, 영어의 경우 20 단어를 넘어가는 문장의 경우, 구문분석시 발생하는 모호성이 증가함으로써, 구문분석의 정확도가 현저하게 떨어진다.
상기 구문분석의 모호성을 해소하기 위해 단순히 품사단위의 결합규칙만으로 구조를 분석하는 것이 아니라, 어휘와 품사의 혼합으로써 구문분석 규칙을 기술하는 방법이 있다.
그러나, 상기한 바와 같이 어휘와 품사의 혼합으로써 구문분석 규칙을 서술하는 방법은, 구문분석시 임의의 어휘에 대해 품사규칙 뿐만 아니라, 어휘규칙까지 모두 적용해야 하므로, 구문분석의 속도가 느리고, 메모리를 많이 필요로 하며, 국부적인 정보만을 이용하므로 모호성의 문제를 근본적으로 해결할 수 없는 문제가 있다.
상기 구문분석의 모호성을 해소하기 위한 다른 방법으로, 대용량의 번역 예문으로부터 단편적인 번역 예제를 추출하고, 각 예제마다 해당하는 대역구조를 명시한 후, 실제 번역시에는 입력 문장에 대해 부분적인 예제들을 탐색하여 해당하는 대역구조를 변환하는 방법이 있다.
그러나, 상기한 바와 같은 구문분석의 모호성을 해소하기 위한 방법은, 어휘단위의 대용량의 예제를 전제로 함으로써, 일정한 수준의 번역 품질을 내기 위해 구축해야 하는 번역지식의 양이 방대하며, 예제의 구축에 일정한 기준이 없어, 번역지식의 튜닝이 어렵고, 예제 역시 부분적인 변환정보만을 표현하고 있으므로, 모호성의 문제를 해결하지 못하는 문제가 있다.좀 더 상세히 종래의 번역 기술에 대해 살펴보면, 최근들어 인터넷의 보급으로 인해 상이한 언어권 간의 정보 교환 요구가 증가하고 있으며, 이에 따라 상이한 언어권 간의 번역 방법론에 관한 많은 연구가 진행되고 있는데, 가장 대표적인 방법론으로 규칙 기반(Rule-Based) 번역 방법을 들 수 있다.이 방법은 언어의 조합성(Compositionality)에 기반한 방식으로서 주로 구문 분석을 통한 구조 변환 기법을 사용하는데 단기간에 일정 수준의 번역 시스템을 개발할 수 있고, 무한한 생성력이 있으며, 알고리즘과 번역 지식이 명확히 구분이 된다는 장점이 있다. 반면에 번역 규칙의 기술이 복잡하고, 번역 규칙 기술자의 능력에 번역 시스템의 품질이 전적으로 의존하며, 번역 규칙 간의 충돌 해소가 어려우며, 이러한 번역 규칙 관리의 어려움으로 인해 일정한 수준 이상의 번역 품질을 제공하기가 어렵다는 단점을 가진다. 이에 따라 번역 규칙 기술의 한계로 인해 번역 시스템의 성능 개선에는 한계를 가지게 되는 문제점이 있다.이와 유사한 언어적인 배경에 기반한 번역 방법론(linguistic-based MT)으로는 지식 기반(knowledge-Based), 어휘 기반(Lexical-Based), 제약 기반(Constraint-Based) 등의 다양한 기법들이 있으나 모두 상기와 유사한 문제점을 안고 있다.한편, 이러한 언어적인 배경을 가진 방법론의 단점을 극복하기 위해 최근에 제시된 번역 방법론으로는 비언어적인 배경에 기반한 번역 방법론(Non-Linguistic-Based MT)이 있는데, 이러한 기법으로는 통계 기반(Statistical-Based), 예제 기반(Example-Based), 예제 기반에서 파생된 변환 기반(Transfer Driven) 방식 등이 있다.상기의 번역 기법들은 언어 현상을 규칙화하지 않으므로 개발이 쉽고, 번역 지식의 구축이 용이하다는 장점이 있다. 그러나, 통계 기반의 경우는 대용량의 대역 코퍼스에 기반한 통계 자료를 필요로 하며, 번역의 품질이 떨어지는 단점이 있고, 예제 기반의 경우도 대용량의 예제를 필요로 함으로써 단기간에 높은 성능의 시스템을 개발하기에 어려움이 있다. 게다가 다수의 후보 예제 간의 거리 계산을 위해 시소러스를 사용하는데 이러한 시소러스 관리가 어렵고 시소러스 상의 거리 계산의 정확도가 낮아 실용화된 수준의 시스템을 개발하기가 어렵다는 단점이 있다.
결론적으로, 언어적인 배경과 비언어적인 배경에 기반한 번역 방법론을 상호 보완하여, 규칙 기반 자동 번역에서 사용했던 여러가지 자질 특징을 사용하면서, 예제 기반에서 사용했던 대용량 예제 및 예외 상황 대처 능력의 장점을 결합하여, 종래 기술에 따른 구조적인 모호성을 해소할 수 있는 새로운 번역 방법에 대한 연구가 요구되고 있다.
따라서, 본 발명은 상기와 같은 요구에 부응하기 위해 제안된 것으로, 문장의 골격을 표현하고 있는 문틀에 기반하여, 구조적인 모호성을 해소한 자연스러운 번역문장을 생성할 수 있는 문장골격을 기반으로 한 자동번역 시스템 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 종래의 자동번역 시스템의 일실시예 구성도.
도 2 는 본 발명에 따른 자동번역 시스템의 일실시예 구성도.
도 3 은 본 발명에 따른 원문틀 탐색기 및 구문 변환기의 일실시예 구성도.
도 4 는 본 발명에 따른 문장골격을 기반으로 한 자동번역 방법에 대한 일실시예 처리 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
20 : 원시언어 형태소 분석기 21 : 번역사전
22 : 구 단위 구문분석기 23 : 원문틀 탐색기
24 : 원문틀 데이터베이스 25 : 문틀 변환기
26 : 대역문틀 데이터베이스 27 : 슬롯대역 데이터베이스
28 : 목적언어 형태소 생성기
상기 목적을 달성하기 위한 본 발명의 시스템은, 자동번역 시스템에 있어서, 원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 자질정보 저장수단; 원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석수단; 상기 원시언어 형태소 분석수단에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로 표현하는 구 단위 구문분석수단; 해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 정보 저장수단; 상기 구 단위 구문분석수단으로부터 수신한 원시언어 문장의 슬롯 열을 바탕으로 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하는 원문틀 탐색수단; 원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 정보 저장수단; 원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 정보 저장수단; 상기 원문틀 탐색수단으로부터 수신한, 해당하는 원문틀의 기본적인 제약조건이 매칭된 원문을 상기 대역문틀 정보 저장수단 및 슬롯대역 정보 저장수단에 저장된 정보를 이용하여 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환수단; 및 상기 문틀 변환수단으로부터 목적언어의 형태소열을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성수단을 포함한다.
한편, 본 발명의 방법은, 자동번역 시스템에 적용되는 문장골격을 기반으로 한 자동번역 방법에 있어서, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계를 포함한다.
또한, 본 발명은, 마이크로 프로세서를 구비한 자동번역 시스템에, 입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 기능; 상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 기능; 상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 기능; 및 상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.우선, 본 발명에서의 문틀(Sentence Frame)이란 용어를 먼저 살펴보면, 문틀이란 문장의 대략적인 구문 형태를 표현한 것으로써 슬롯(Syntactic Slot)들의 열로써 표현되는 것을 말한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 2 는 본 발명에 따른 자동번역 시스템의 일실시예 구성도이다.
도면에 도시된 바와 같이, 본 발명에 따른 자동번역 시스템은, 원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석기(20)와, 원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 번역사전(21)과, 상기 원시언어 형태소 분석기(20)에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로서 표현하는 구 단위 구문분석기(22)와, 원시언어 문장의 슬롯 열을 바탕으로 제약조건을 탐색하는 원문틀 탐색기(23)와, 해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 데이터베이스(24)와, 상기 원문틀 탐색기(23)로부터 제약조건이 매칭된 원문을 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환기(25)와, 원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 데이터베이스(26)와, 원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 데이터베이스(27)와, 상기 문틀 변환기(25)로부터 정규화된 자질값을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성기(28)를 포함한다.
그리고, 상기 구 단위 구문분석기(22)가 표현하는 슬롯은, 문장의 골격을 좌우하는 특수한 품사(예를 들면, 동사, 기호, 접속사 및 관계사)는 슬롯으로 연결하지 않고 별도의 노드로 구성한다. 상기 품사들은 하나의 형태소가 하나의 슬롯을 구성하며, 이외의 형용사, 부사, 관사, 명사 및 전치사 등의 품사들은 서로 연결되어 슬롯을 구성할 수 있다.
상기 구 단위 구문분석기(22)가 원시문장을 슬롯으로 표현하는 예를 설명하기로 한다.
예를 들어 'The government unveils financial market stabilization measures which include the injection of public funds into ailing financial institutions.'와 같은 문장의 경우, 형태소 분석결과는 다음과 같다.
(어휘/품사/기본형/세부품사)
the/DET/the/DT
government/NOUN/government/NN
unveils/VERB/unveil/VBZ
financial_market/NOUN/financial_market/JJ
stabilization_measures/NOUN/stabilization_measure/NN
which/CONJ/which/CONJ
include/VERB/include/VB
the/DET/the/DT
injection/NOUN/injection/NN
of/PREP/of/IN
public_funds/NOUN/public_fund/JJ
into/PREP/into/IN
ailing_financial_institutions/NOUN/ailing_financial_institution/JJ
PERIOD/PUNCT/PERIOD
상기한 바와 같은 결과를 상기 구 단위 구문분석기(22)를 이용하여 슬롯 열로 연결한 결과는 다음과 같다.
(슬롯명/어휘)
NP1/the_government
VERB1/unveils
NP2/financial_market_stabilization_measures
CONJ1/which
VERB2/include
NP3/the_injection_of_public_funds_into_ailing_financial_institutions
상기한 바와 같은 슬롯 열을 원문틀로써 표현한 예는 다음과 같다. 원문들은 원시문장의 구 단위 구문분석 결과인 슬롯 열을 기호화한 것이다.
(원문틀 탐색키)
NP VERB NP CONJ VERB NP
상기한 바와 같은 원문틀 탐색키를 이용하여 상기 원문틀 탐색기(23)는 상기 원문틀 데이터베이스(24)를 탐색한다. 원문틀 접근과정은 상기 원문틀 데이터베이스(24)에 저장된 대역문틀의 기본 제약조건을 만족하는 경우, 해당 대역문틀의 실제 내용을 접근하는 단계로 구성된다. 이와 같이, 원문틀과 대역문틀 사이에 제약조건을 설정한 이유는 첫째, 문장의 전체적인 골격을 나타내는 원문틀에서 직접 대역문틀로 접근할 경우, 동일한 원문틀에 대해 다양한 대역문틀이 가능하므로 처리흐름상 하나의 키에 저장된 데이터베이스 내용의 크기가 커지고, 처리시간이 증가하며, 둘째, 대용량의 번역지식 구축시, 원문틀과 대역문틀을 직접 연결할 경우, 동일한 원문틀에 대해 대역문틀을 구별하여 구축하기 위하여 고려해야할 후보지식의 수가 많고, 그들간의 차이점을 쉽게 파악할 수 없기 때문이다.
첨부된 도 3 은 본 발명에 따른 원문틀 탐색기 및 문틀 변환기의 일실시예 상세구성도이다.
상기 원문틀 탐색기(23)는, 상기 구 단위 구문분석기(22)로부터 원시문장의 슬롯 열을 입력받아 상기 원문틀 데이터베이스(24)에서 해당하는 원문틀의 제약조건을 탐색하여 수신된 원시문장 슬롯열의 통사적인 특징을 파악하는 원문틀 제약 조건 검사기(30)를 포함한다.
상기 원문틀 탐색기(23)에서 원문틀 탐색에 성공하면, 해당 원문틀의 통사적인 특징을 파악하기 위하여 상기 원문틀 제약조건 검사기(30)가 상기 원문틀 데이터베이스(24)의 제약조건 부분을 탐색하여, 제약조건을 매칭한다. 그리고, 각 제약조건마다 부가되어 있는 상기 대역문틀 데이터베이스(26)의 탐색키를 이용하여 해당 대역문틀에 접근한다.
다음의 상기 원문틀 데이터베이스(24)에 저장된 제약조건의 예이다.
{NP VERB:[vb,11] NP CONJ:[rel] VERB:[vb,t1] NP} 대역문틀 내용으로의 포인터1, 대역문틀 내용으로의 포인터2, ...
상기 제약조건의 예에서, VERB:[vb,t1]의 경우, 슬롯의 명칭은 VERB이며, 제약조건으로써 동사의 활용형태는 현재형(vb)이고, 동사의 형식은 타동사(t1)라는 의미이다. 상기와 같은 제약조건은, 명확한 구축지침을 제시함으로써, 대용량의 예문을 일관성 있게 구축할 수 있다.
그리고, 상기 문틀 변환기(25)는, 입력된 대역문에 대해 원문의 각 슬롯별로 해당하는 자질 제약조건 스크립트를 실행하여 만족하는가를 검사하고 슬롯순서를 정렬하며 변환된 각각의 대역문 슬롯에 대해 자질값 지정 스크립트를 수행하여 자질값을 부여한 후 목적언어 형태로 구조변환을 수행하는 대역문틀 분석기(31)와, 상기 대역문틀 분석기(31)로부터 구조 변환된 결과를 수신하고 상기 슬롯대역 데이터베이스(27)를 참조하여 각 슬롯별로 내부의 형태소들에 대한 어순변환 및 해당하는 자질값을 지정하는 2단계 구조변환을 수행하는 슬롯대역 구조분석기(32)와, 상기 번역사전(21)을 참조하여 각 어휘별로 대역어를 추출하는 어휘 변환기(33)와, 상기 대역문틀 분석기(31)에서 계산된 가중치 값을 이용하여 가장 적절한 대역문틀을 선택하는 문틀 선택기(34)와, 구조변환 과정에서 지정된 다수의 자질값들을 정규화하여 상기 목적언어 형태소 생성기(28)에 전송하는 자질 정련기(35)를 포함한다.
상기 원문틀 제약조건 검사기(30)에서 원문틀 제약조건 매칭에 성공한 후, 해당하는 제약조건에 부가된 상기 대역문틀 데이터베이스(26)로의 포인터 정보를 이용하여, 상기 대역문틀 분석기(31)에서 상기 대역문틀 데이터베이스(26)에 접근한다. 상기 대역문틀 데이터베이스(26)에는 다음과 같이 원문 제약정보 및 대역문지정정보가 저장되어 있다.
{원문슬롯1:[자질 제약조건 스크립트] 원문슬롯2:[자질 제약조건 스크립트]...}->
{대역문슬롯1:[자질값 지정 스크립트] 대역문슬롯1:[자질값 지정 스크립트]...}
상기 원문 제약정보는, 원문틀에 기술된 각 원문 슬롯별로 특별한 제약조건들을 스크립트 언어(script language)형태로 기술할 수 있다. 예를 들어, VERB1:[errot==[have]_AND etype==[t1]]과 같은 경우는, 원문 슬롯명이 VERB이고, 어휘의 기본형이 'have'이고, 동사의 형식이 타동사(t1)인 경우를 의미한다.
상기 대역문틀 분석기(31)는 먼저 하나의 대역문틀에 대해 원문의 각 슬롯별로 해당하는 자질 제약조건 스크립트를 실행하여 만족하는 지를 검사한 후, 대역문의 각 슬롯별로 슬롯 순서를 정렬한다. 상기 예에서 원문 슬롯 순서와 대역문의 슬롯 순서를 다르게 배열한다. 예를 들어, 'I love you'라는 입력문자의 경우, 원문은 'NP1 VERB1 NP2'와 같고, 이에 대응하는 대역문은 'NP1 NP2 VERB1'와 같이 표현되어 어순변환을 수행한다.
이와 같이, 어순변환을 수행한 후, 변환된 대역문 슬롯들 각각에 대해 자질값 지정 스크립트를 실행하여 특정 자질값을 지정한다. 예를 들어, 'I love you'의 경우, 'NP1 NP2 VERB1'과 같이 대역 슬롯의 어순을 변환한 후, NP1의 격 정보로는 '주격'을, NP2의 격 정보로는 '목적격'을 지정한다.
상기 입력예문 'The government unveils financial market stabilizationmeasures which include the injection of public funds into ailing financial institutions.'에 대한 대역문틀은 다음과 같다.
(슬롯명/어휘/자질정보)
NP1/the_government/주제격
NP3/the_injection_of_public_funds_into_ailing_financial_institutions/목적격
VERB2/include/평서형
CONJ1/which/연결형
NP2/financial_market_stabilization_measures/주격
VERB1/unveils/평서형
입력문장의 형태소 분석에서 발생하는 모호성과 구 단위 구문분석에서 발생하는 모호성 및 상기 번역사전(21)에 다수의 정보가 기술되어 있음으로 발생하는 모호성으로 인해 하나의 입력문장에 대해 다수의 원문틀이 매칭될 수 있으므로, 다수의 대역문틀이 후보로서 선택될 수 있다. 상기 대역문틀 후보 중에서 원문의 자질 제약조건 스크립트를 만족하는 정도에 따라 가중치를 부여한다.
상기 슬롯대역 데이터베이스(27)의 내용구성은 다음과 같다.
{원문품사1:[자질 제약조건 스크립트] 원문품사2:[자질 제약조건 스크립트]...}->
{대역문품사1:[자질값 지정 스크립트] 대역문품사2:[자질값 지정스크립트]...}
상기한 바와 같이, 상기 슬롯대역 데이터베이스(27)의 내용구성은 상기 대역문틀 데이터베이스(26)의 내용구성과 유사하나, 상기 대역문틀 데이터베이스(26)의 적용대상은 슬롯단위이고, 상기 슬롯대역 데이터베이스(27)의 적용대상은 슬롯 내부의 품사단위라는 점에 차이가 있다.
입력 예문 'The government unveils financial market stabilization measures which include the injection of public funds into ailing financial institutions.'에 대한 대역문틀 중 두 번째 슬롯인 NP3(the_injection_of_public_funds_into_ailing_financial_institutions)에 대한 상기 슬롯대역 데이터베이스(27)의 예는 다음과 같다.
(NP3에 해당하는 슬롯대역의 예)
{DET1 NOUN1 PREP1 NOUN2 PREP2 NOUN3} -> {NOUN3 PREP1 NOUN2 PREP2 NOUN1}
이제 첨부된 도 4 를 참조하여 본 발명에 따른 문장골격을 기반으로한 자동번역 방법에 대해 상세히 설명하면 다음과 같다.
도 4 는 본 발명에 따른 문장골격을 기반으로한 자동번역 방법에 대한 일실시예 처리 흐름도이다.
먼저, 입력문장에 대해 원시언어 형태소 분석기(20)와 구 단위 구문분석기(22)를 거쳐 생성된 구 단위 구문분석 결과를 메모리 장치로부터 적재하고(400), 상기 구 단위 구문분석 결과가 올바른 결과인가를 판단한다(402).
상기 판단결과(402), 올바른 결과가 아니면, 자동번역 작업을 종료하고, 올바른 결과이면, 상기 적재된 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하고(404), 상기 원문틀 탐색키를 이용하여 원문틀 데이터베이스(24)를 탐색한 후(406), 상기 원문틀 데이터베이스(24) 탐색결과가 올바른가를 판단한다(408).
상기 판단결과(408), 올바른 탐색결과가 아니면, 자동번역 작업을 종료하고, 올바른 탐색결과이면, 상기 원문틀 데이터베이스(24)에서 탐색한 제약조건을 입력문장에 매칭하고(410), 제약조건 매칭에 성공한 후보가 존재하는지를 판단한다(412).
상기 판단결과(412), 제약조건 매칭에 성공한 후보가 존재하지 않으면, 자동번역 작업을 종료하고, 제약조건 매칭에 성공한 후보가 존재하면, 상기 제약조건에 부가되어 있는 대역문틀 접근 포인터를 이용하여 대역문틀 데이터베이스(26)를 탐색하고(414), 상기 대역문틀 데이터베이스(26)에서 탐색된 대역문틀 정보를 적용한다(416). 여기서, 상기 대역문틀 정보 적용과정은, 원문 슬롯의 제약조건 스크립트를 실행하여 가중치를 계산하고, 상기 원문 슬롯과 대역문 슬롯의 위치를 고려하여 문장을 구성하는 슬롯단위의 어순변환을 수행한 후, 각각의 대역문 슬롯에 대해 자질 지정 스크립트를 수행하여 해당하는 자질값을 지정한다.
그리고, 상기 과정을 통해 어순이 변환된 각 슬롯들에 대해 슬롯대역 데이터베이스(27)를 탐색하여(418), 슬롯대역 정보를 적재하고, 상기 대역문틀 적용에 성공한 모든 후보 대역문틀에 대해 각각의 문틀을 구성하는 슬롯별로 상기 슬롯대역 데이터베이스(27)의 슬롯대역 정보를 적용한다(420). 여기서, 상기 슬롯대역 정보적용과정은, 원문 품사에 대한 제약조건 스크립트를 수행하고, 상기 제약조건 스크립트를 만족하는 원문 품사 및 대역문 품사열의 위치를 고려하여 슬롯 내부의 품사단위의 어순변환을 수행하고, 대역문부의 해당 품사에 기술된 자질 지정 스크립트를 실행하여 해당하는 자질을 지정한다.
상기 슬롯대역 정보의 적용이 완료되면, 번역사전(21)을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하고(422), 상기 가중치 값을 이용하여 최종번역 결과로서 하나의 대역문틀을 선택한 후(424), 정규화된 자질값을 갖는 목적언어 형태소로 구성한다(426).
이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.
상기와 같은 본 발명은, 문장단위의 구문분석을 수행하지 않고, 입력문장을 구 단위 슬롯으로 표현하고, 이에 대한 구조변환 규칙을 데이터베이스화하여 적용함으로써, 번역을 위한 번역지식 구축의 일관성을 유지할 수 있고, 대용량의 번역지식을 구축할 수 있으며, 구문분석 단계의 모호성으로 인한 번역품질의 저하를 극복할 수 있는 효과가 있다. 즉, 본 발명은, 구문 분석에 기반하는 변환 방식 자동 번역(Transfer-based Machine Translation) 시스템과 용례 기반의 자동 번역(Example-based Machine Translation) 시스템의 장점을 결합한 복합 번역 시스템으로, 기존의 용례 기반 자동 번역 방식에서 문제시되고 있는 대상 범위의 확장성의 한계를 극복하며, 통계에 의존하는 용례 지식의 모호성 해소 방식을 규칙에 의존하도록 함으로써 보다 안정적이며, 고품질의 번역 결과를 제시할 수 있는 효과가 있다.
Claims (10)
- 자동번역 시스템에 있어서,원시 어휘와 그에 대한 대역어 및 대역어와 관련된 자질정보를 저장하는 자질정보 저장수단;원시언어 문장의 형태소 분석을 수행하여 각 단어의 품사정보를 추출하는 원시언어 형태소 분석수단;상기 원시언어 형태소 분석수단에서 추출된 품사정보를 이용하여 입력문장을 슬롯의 열로 표현하는 구 단위 구문분석수단;해당하는 원문틀의 기본적인 제약조건을 저장하는 원문틀 정보 저장수단;상기 구 단위 구문분석수단으로부터 수신한 원시언어 문장의 슬롯 열을 바탕으로 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하는 원문틀 탐색수단;원문 슬롯의 제약정보 및 대역문 슬롯의 지정정보를 저장하는 대역문틀 정보 저장수단;원문 품사의 제약정보 및 대역문 품사의 지정정보를 저장하는 슬롯대역 정보 저장수단;상기 원문틀 탐색수단으로부터 수신한, 해당하는 원문틀의 기본적인 제약조건이 매칭된 원문을 상기 대역문틀 정보 저장수단 및 슬롯대역 정보 저장수단에 저장된 정보를 이용하여 정규화된 자질값을 갖는 목적언어의 형태소열로 변환하는 문틀 변환수단; 및상기 문틀 변환수단으로부터 목적언어의 형태소열을 수신하여 목적언어의 형태소를 분석하는 목적언어 형태소 생성수단을 포함하는 문장골격을 기반으로 한 자동번역 시스템.
- 제 1 항에 있어서,상기 원문틀 탐색수단은,상기 구 단위 구문분석수단으로부터 원시문장의 슬롯 열을 입력받아 상기 원문틀 정보 저장수단에 저장된 해당하는 원문틀의 기본적인 제약조건을 탐색하여 상기 원시문장 슬롯열의 통사적인 특징을 파악하는 원문틀 제약조건 검사기인 것을 특징으로 하는 문장골격을 기반으로 한 자동번역 시스템.
- 제 1 항 또는 제 2 항에 있어서,상기 문틀 변환수단은,상기 원문틀 탐색 수단으로부터 입력된 대역문에 대해 자질 제약조건 스크립트, 슬롯순서를 정렬, 자질값 부여 및 목적언어 형태로 구조변환을 수행하는 대역문틀 분석수단;상기 대역문틀 분석수단으로부터 구조 변환된 결과를 수신하고, 상기 슬롯대역 정보 저장수단을 이용하여 각 슬롯별로 내부의 형태소들에 대한 어순변환 및 해당하는 자질값을 지정하는 슬롯대역 구조분석수단;상기 자질정보 저장수단을 이용하여 각 어휘별로 대역어를 추출하는 어휘 변환수단;상기 대역문틀 분석수단에서 계산된 가중치 값을 이용하여 가장 적절한 대역문틀을 선택하는 문틀 선택수단; 및상기 대역문틀 분석수단에서 구조변환 결과를 수신하고, 지정된 다수의 자질값들을 정규화하여 상기 목적언어 형태소 생성수단으로 전송하는 자질 정련수단을 포함하는 문장골격을 기반으로 한 자동번역 시스템.
- 삭제
- 자동번역 시스템에 적용되는 문장골격을 기반으로 한 자동번역 방법에 있어서,입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 단계;상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 단계;상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 단계; 및상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 단계를 포함하는 문장골격을 기반으로 한 자동번역 방법.
- 제 5 항에 있어서,상기 제 3 단계는,상기 제약조건 매칭에 성공한 후보가 존재하는지를 확인하여, 상기 제약조건에 부가되어 있는 대역문틀 접근 포인터를 이용하여 대역문틀 데이터베이스를 탐색하는 제 5 단계;상기 대역문틀 데이터베이스에서 탐색된 대역문틀 정보를 상기 입력문장에 적용하는 제 6 단계;슬롯대역 데이터베이스를 탐색하여, 슬롯대역 정보를 적재하는 제 7 단계;상기 대역문틀 적용에 성공한 모든 후보 대역문틀에 대해 각각의 문틀을 구성하는 슬롯별로 상기 슬롯대역 데이터베이스의 슬롯대역 정보를 적용하는 제 8 단계; 및상기 슬롯대역 정보의 적용이 완료되면, 번역사전을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하는 제 9 단계를 포함하는 문장골격을 기반으로 한 자동번역 방법.
- 제 6 항에 있어서,상기 제 6 단계는,상기 대역문틀 데이터베이스의 원문 슬롯의 제약조건 스크립트를 실행하여 가중치를 계산하는 제 10 단계;상기 원문 슬롯과 대역문 슬롯의 위치를 고려하여 문장을 구성하는 슬롯단위의 어순변환을 수행하는 제 11 단계; 및각각의 대역문 슬롯에 대해 자질 지정 스크립트를 수행하여 해당하는 자질값을 지정하는 제 12 단계를 포함하는 문장골격을 기반으로 한 자동번역 방법.
- 제 6 항에 있어서,상기 제 8 단계는,상기 슬롯대역 데이터베이스의 원문 품사에 대한 제약조건 스크립트를 수행하는 제 10 단계;상기 제약조건 스크립트를 만족하는 원문 품사 및 대역문 품사열의 위치를 고려하여 슬롯 내부의 품사단위의 어순변환을 수행하는 제 11 단계; 및대역문의 해당 품사에 기술된 자질 지정 스크립트를 실행하여 해당하는 자질을 지정하는 제 12 단계를 포함하는 문장골격을 기반으로 한 자동번역 방법.
- 제 7 항에 있어서,상기 제 4 단계는,상기 번역사전을 이용하여 원시언어 단어에 해당하는 목적언어 단어로 어휘변환을 수행하는 제 13 단계;상기 가중치 값을 이용하여 최종번역 결과로서 하나의 대역문틀을 선택하는 제 14 단계; 및상기 선택된 대역문틀을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 15 단계를 포함하는 문장골격을 기반으로한 자동번역 방법.
- 마이크로 프로세서를 구비한 자동번역 시스템에,입력문장에 대해 원시언어 형태소 분석기 및 구 단위 구문분석기를 거쳐 생성된 구 단위 구문분석 결과가 올바른 결과인가를 확인하여, 상기 구 단위 구문분석 결과를 이용하여 원문틀 탐색키를 생성하는 제 1 기능;상기 원문틀 탐색키를 이용하여 상기 원문틀 데이터베이스를 탐색하여, 상기 원문틀 데이터베이스에서 탐색한 제약조건을 입력문장에 매칭시키는 제 2 기능;상기 제약조건이 매칭된 구문에 슬롯 단위의 어순변환 및 슬롯 내부의 품사단위의 어순변환을 수행하는 제 3 기능; 및상기 슬롯 단위 및 슬롯 내부의 품사단위로 어순 변환된 원시문장을 정규화된 자질값을 갖는 목적언어 형태소로 구성하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990061182A KR100327114B1 (ko) | 1999-12-23 | 1999-12-23 | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019990061182A KR100327114B1 (ko) | 1999-12-23 | 1999-12-23 | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010057775A KR20010057775A (ko) | 2001-07-05 |
KR100327114B1 true KR100327114B1 (ko) | 2002-03-13 |
Family
ID=19628833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019990061182A KR100327114B1 (ko) | 1999-12-23 | 1999-12-23 | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100327114B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072045A (ko) * | 2000-07-13 | 2000-12-05 | 김진경 | 번역 프로그램에 있어서 소스 파일을 작성하는 방법 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100463376B1 (ko) * | 2002-12-10 | 2004-12-29 | 한국전자통신연구원 | 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법 |
CA2552622A1 (en) * | 2004-01-06 | 2005-07-21 | In-Seop Lee | The auto translator and the method thereof and the recording medium to program it |
KR100859532B1 (ko) | 2006-11-06 | 2008-09-24 | 한국전자통신연구원 | 대응 문형 패턴 기반 자동통역 방법 및 장치 |
KR101136409B1 (ko) * | 2010-07-30 | 2012-04-18 | 박찬준 | 제 1 언어의 문장이 제 2 언어의 문장의 어순을 동시에 표현하도록 하는 방법 및 컴퓨터로 읽을 수 있는 기록 매체 |
-
1999
- 1999-12-23 KR KR1019990061182A patent/KR100327114B1/ko not_active IP Right Cessation
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000072045A (ko) * | 2000-07-13 | 2000-12-05 | 김진경 | 번역 프로그램에 있어서 소스 파일을 작성하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20010057775A (ko) | 2001-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5895446A (en) | Pattern-based translation method and system | |
US7447623B2 (en) | Machine translation | |
JP4694121B2 (ja) | 句の間の翻訳関係を学習するための統計的な方法および装置 | |
US7565281B2 (en) | Machine translation | |
Baptist et al. | Genesis-II: A versatile system for language generation in conversational system applications | |
US7970600B2 (en) | Using a first natural language parser to train a second parser | |
Carroll | Practical unification-based parsing of natural language | |
EP0813156A2 (en) | Method and apparatus for language translation | |
US20050137853A1 (en) | Machine translation | |
JPH07200591A (ja) | 構文解析装置 | |
US7483828B2 (en) | Multilingual database creation system and method | |
KR20030094632A (ko) | 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치 | |
JPH05314166A (ja) | 電子化辞書および辞書検索装置 | |
US8041556B2 (en) | Chinese to english translation tool | |
JPH0261763A (ja) | 機械翻訳装置 | |
KR100327114B1 (ko) | 문장골격을 기반으로 한 자동번역 시스템 및 그 방법 | |
Alkım et al. | Machine translation infrastructure for Turkic languages (MT-Turk) | |
Koehn et al. | Open source toolkit for statistical machine translation: Factored translation models and confusion network decoding | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP3326646B2 (ja) | 機械翻訳システム用辞書・ルール学習装置 | |
Henrich et al. | LISGrammarChecker: Language Independent Statistical Grammar Checking | |
JP3176750B2 (ja) | 自然言語の翻訳装置 | |
Papakitsos et al. | Modelling a Morpheme‐based Lexicon for Modern Greek | |
Balcha et al. | Design and Development of Sentence Parser for Afan Oromo Language | |
Ahmadniaye Bosari | Reliable training scenarios for dealing with minimal parallel-resource language pairs in statistical machine translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20080214 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |