KR100327115B1 - 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 - Google Patents

부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 Download PDF

Info

Publication number
KR100327115B1
KR100327115B1 KR1019990061164A KR19990061164A KR100327115B1 KR 100327115 B1 KR100327115 B1 KR 100327115B1 KR 1019990061164 A KR1019990061164 A KR 1019990061164A KR 19990061164 A KR19990061164 A KR 19990061164A KR 100327115 B1 KR100327115 B1 KR 100327115B1
Authority
KR
South Korea
Prior art keywords
band
partial
matching
pattern
sentence
Prior art date
Application number
KR1019990061164A
Other languages
English (en)
Other versions
KR20010057763A (ko
Inventor
김영길
여상화
심철민
정한민
최승권
서영애
서광준
김태완
박세영
박상규
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061164A priority Critical patent/KR100327115B1/ko
Publication of KR20010057763A publication Critical patent/KR20010057763A/ko
Application granted granted Critical
Publication of KR100327115B1 publication Critical patent/KR100327115B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Abstract

1. 청구 범위에 기재된 발명이 속한 기술분야
본 발명은 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은, 대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.
3. 발명의 해결방법의 요지
본 발명은, 부분대역 패턴 데이터베이스; 의미 범주 데이터베이스; 공기 사전 데이터베이스; 부사대역사전 데이터베이스; 명사구 대역 패턴 데이터베이스; 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 수단; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단; 상기 의미 범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 부분대역 패턴 매칭수단; 상기 부분대역 패턴 매칭수단에 의해 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도를 계산하여 최적의 대역 패턴을 선택하는 수단; 상기 선택수단에 의해 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 수단; 부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 수단; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하는 수단; 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단; 명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사 성분에 대한 대역어를 결정하는 수단; 및 상기 부사구 및 명사구 생성수단에 의해 생성된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 수단을 포함함.

Description

부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법{DEVICE AND METHOD FOR GENERATING TRANSLATED SENTENCES BASED ON PARTIAL TRANSLATION PATTERNS}
본 발명은 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법에 관한 것으로, 특히 대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
현재까지 기계번역 장치의 주된 번역문 생성 방식은 생성 문법이라는 언어적 정보를 표현하여 처리하는 방식을 채택하여 왔다. 이러한 번역문 생성 장치의 핵심 지식인 문법은 여러 가지 방식으로 구현되어 왔다. 첫째, 일반의 프로그래밍 언어를 사용하여 구현하는 방식이 있다. 즉, 프로그래밍 언어를 사용하여 절차적인 모든 내용과 언어학적 정보를 모두 한꺼번에 구현하는 방법이다. 그러나, 이와 같은 방법은 언어학적 정보의 많은 부분들이 프로그래머라기 보다는 언어학적인 지식을 가진 사람들에 의해서 구현되므로 문법의 관리와 확장에 어려움을 겪게 된다.
번역문 생성 문법을 구현하는 두번째 방법으로 일반 프로그래밍 언어를 이용하지 않고, 언어학적인 정보와 절차적인 부분을 분리하여 구현하는 방법이다. 이 방법은 언어적 정보를 표현하기에 적절한 새로운 언어를 정의하여 사용하는 방법이다. 따라서, 새롭게 정의된 언어를 사용하기 위한 컴파일러 장치 및 인터프리터 장치의 개발이 필요하다. 이 방식의 장점은 언어학적인 정보를 기술하는 사람은 문법이 구체적으로 어떠한 방식으로 실행되는지에 대한 복잡한 절차에서 벗어날 수 있고, 언어학적 정보의 정확한 표현이라는 본래의 역할에 주력할 수 있다. 그러나, 이러한 방식은 지식 구축자에게 언어학적인 전문 지식을 요구하여, 대량 작업이 힘들뿐만 아니라, 이러한 생성 문법들이 많이 구축될수록 적용시 서로 문법간의 충돌로 인한 오작동이 일어날 가능성이 높아진다. 즉, 번역 장치의 점진적 품질 향상을 보장할 수 없다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 제안된 것으로, 대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도1은 본 발명에 따른 대역 패턴 데이터베이스에 기반한 번역문 생성장치의 일실시예 블록도.
도2는 본 발명에 따른 의미 범주에 대한 분류표.
*도면의 주요부분에 대한 부호의 설명
101 : 원시문장 구문분석 및 연결정보 추출 장치
102 : 부분 구문 추출부 103 : 부분대역 패턴 탐색부
104 : 부분대역 패턴 매칭부 105 : 부분대역 선택부
106 : 완전매칭 대역문 생성부 107 : 부분매칭 대역문 생성부
108 : 일반 대역문 생성부 109 : 부사구 위치 선정부
110 : 부사구 생성부 111 : 명사구 생성부
112 : 목적언어 형태소 생성부 117 : 부분대역 패턴 데이터베이스
118 : 의미 범주 데이터베이스 119 : 공기 사전 데이터베이스120 : 부사대역 사전 데이터베이스 121 : 명사구 대역 패턴 데이터베이스
상기 목적을 달성하기 위한 본 발명의 장치는, 부분대역 패턴 데이터베이스; 의미 범주 데이터베이스; 공기 사전 데이터베이스; 부사대역사전 데이터베이스; 명사구 대역 패턴 데이터베이스; 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 수단; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단; 상기 의미 범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 부분대역 패턴 매칭수단; 상기 부분대역 패턴 매칭수단에 의해 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도를 계산하여 최적의 대역 패턴을 선택하는 수단; 상기 선택수단에 의해 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 수단; 부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 수단; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하는 수단; 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단; 명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사 성분에 대한 대역어를 결정하는 수단; 및 상기 부사구 및 명사구 생성수단에 의해 생성된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 수단을 포함하는 것을 특징으로 한다.
한편, 본 발명의 방법은, 부분대역 패턴 데이터베이스와 의미 범주 데이터베이스와 공기 사전 데이터베이스와 명사구 대역 패턴 데이터베이스 및 부사대역사전 데이터베이스를 포함하는 장치에 적용되는 번역문 생성방법에 있어서, 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제 1 단계; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스를 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제 2 단계; 상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 제 3 단계; 상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제 4 단계; 부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 제 5 단계; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제 6 단계; 명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사구 성분에 대한 대역어를 결정하는 제 7 단계; 및 상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제 8 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명은, 대용량 프로세서를 구비한 번역문 생성장치에, 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제 1 기능; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스를 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제 2 기능; 상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 제 3 기능; 상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제 4 기능; 부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 제 5 기능; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제 6 기능; 명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사구 성분에 대한 대역어를 결정하는 제 7 기능; 및 상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제 8 기능을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명에서는 번역문 생성 문법에 해당하는 규칙을 각 용언 중심의 데이터 위주로 분산시켰다. 즉, 하나의 생성 문법이 담당하던 여러 기능들을 용언 중심의 부분 대역 패턴에 분산시킴으로써, 각 생성 문법들간의 충돌을 방지하였으며, 여러 지식 구축자가 동시에 작업할 수 있도록 함으로써, 생성 지식의 대량화가 가능해져 번역문의 생성 품질을 향상시킬 수 있다. 그리고, 이러한 대역 패턴을 데이터베이스화함으로써, 이에 대한 검색 속도를 향상시켜 고속의 생성 장치가 가능하다.
본 발명은 입력 원시 문장에서 하나의 용언을 헤드로 가지는 동사구에 대한 목적언어 번역문으로 구성되어 있는 부분대역 패턴 데이터베이스(117)를 참조하여 입력문에 맞는 원시 부분 대역문을 생성한다. 또한, 본 발명은 부분 대역문 추출부(102)를 거친 단문 단위의 동사구에 대해 목적언어 대역문을 생성하고, 그 결과를 목적언어 형태소 생성부(112)에 넘겨준다. 즉, 원시 문장 구문 분석 및 연결 정보 추출 장치(101)의 결과로 나온 구조화된 원시 구문에 대한 부분 대역문을 생성하며, 이때 구조화된 원시 구문에 대하여 단문으로 구성된 부분 대역 패턴 데이터베이스(117)를 참조하여, 입력 구문내에서의 각 용언절에 대한 대역문 생성이 이루어진다.
본 발명은 크게 두 가지로 단계로 이루어진다. 첫째는 원시문장 구문 분석 및 연결 정보 추출 장치(101)에 의한 입력 용언 구문에 대해 기 구축된 번역 패턴을 탐색하여 해당 대역 패턴을 추출한 다음, 선호도가 가장 높은 패턴을 선택하는 단계이고, 둘째는 탐색된 대역 패턴을 이용하여 원시언어 문장을 생성하거나 일반 번역문 생성 규칙에 의한 번역문을 생성하는 단계이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도1은 본 발명에 따른 대역 패턴 데이터베이스에 기반한 번역문 생성장치의 일실시예 블록도이다.
기계번역 장치의 원시 문장 구문 분석 및 연결 정보 추출 장치(101)가 입력 원시언어에 대한 구문 분석 결과를 만들고, 구문들간의 연결 관계를 파악하게 되면, 이를 부분 구문 추출부(102)를 통하여 부분 대역문의 생성 장치에서의 처리 단위인 용언 단위의 부분 구문을 추출하고, 입력 구문 결과에서 생성에 필요한 정보들을 자질화시켜 저장한다. 생성 장치에서의 처리는 하나의 용언 단위로 이루어지며, 모든 용언들의 대역 패턴이 생성될 때까지 반복적으로 진행된다.
부분 대역문의 입력 용언구가 생성되면, 부분 대역 패턴 탐색부(103)에서는 해당되는 부분 대역 패턴 추출을 위한 부분 대역 패턴 데이터베이스(117)를 탐색한다. 이때, 데이터베이스 검색은 용언 값을 키값으로 입력 엔트리에 해당하는 부분대역 패턴의 탐색을 수행한다. 대역 패턴 데이터베이스에 저장되어 있는 패턴의 형태는 크게 2가지로 구분된다. 첫째, 모든 구(Phrase)들이 변수(A,B,) 또는 의미범주가 없이 순수한 어휘로만 구성되는 부분 대역 패턴을 의미한다. 즉, 한영 번역 데이터베이스의 예를 들면 학교!에 가!다 go to school과 같은 형태로 원시언어 표현 부분에 순수한 원시언어의 어휘로만 구성되는 부분 대역 패턴이다. 둘째, 1개 이상의 구(Phrase)가 변수(A,B,)와 의미 범주의 형태를 취하고 있으며 동사는 어휘로 구성되어 있다. A=장소!로 가!다 go to A=Seoul과 같은 형태로 원시언어 표현 부분에 1 어절 이상의 구성 성분에 변수 A와 의미범주인 장소 등으로 구성되는 부분 대역 패턴이다.
부분 대역 패턴 탐색부(103)에 의해 추출된 대상 대역 패턴에 대하여 부분 대역 패턴 매칭부(104)에서는 입력 원시 문장의 각 성분들과의 매칭을 통하여 해당되는 부분 대역 패턴을 추출한다. 모든 어휘가 매칭되는 완전 매칭의 경우는 해당 후보로 등록이 되며, 의미범주로 구성되어 있는 대역 패턴에 대해서는 입력 어휘와 의미범주와의 비교를 통하여 최종적으로 후보를 결정한다. 이때, 사용하는 의미범주 데이터베이스(118)는 도2에 도시된 바와 같이 계층적인 구조를 이용한 의미들의 체계적인 분류로서, 이는 이전의 시소러스와 유사하지만 본 발명에서 사용한 의미범주는 노드들간의 계층적인 관계들이 중심이 되는 형태가 아니며, 각 어휘들의 의미 분류표로서의 역할을 수행한다.
부분 대역 패턴 매칭이 이루어진 후, 그 결과는 다음과 같은 것이 있을 수 있다. 즉, 매칭에 실패하는 경우, 1개의 매칭 후보가 나오는 경우, 그리고 복수개의 매칭후보가 나오는 경우이다. 따라서, 복수개의 후보에서 가장 적절한 대역 패턴 선정을 위해 부분 대역 선택부(105)에서는 각 후보에 대한 최장 일치 원칙, 최소 분산 원칙을 이용하여 패턴의 선호 가중치를 부가한다. 부분 대역 패턴 데이터베이스에서 입력 문장에 대한 매칭 결과 복수개의 매칭 후보가 가능하다. 이 시점에서 부분 대역문 생성의 애매성을 해소할 수 있는 기본 원칙 및 패턴 선호도 계산식의 설정이 필요하다. 부분 대역 패턴 선택을 위한 기본 원칙으로는 다음과 같이 최장일 우선, 고정 어휘 일치 우선 및 분산값 최소 우선이 있을 수 있다. 여기서, 최장 일치 우선이란 일치된 고정 어휘 형태소와 격조사를 나타내는 기능어가 다수 매칭된 후보를 선호한다는 원칙이며, 고정 어휘 우선 원칙은 변수나 의미 범주 코드 보다 고정 어휘 매칭이 선호된다는 원칙이다. 따라서, 부분 대역 패턴 인식에 있어서 패턴의 선호도는 일치된 고정 어휘 형태소와 문법 형태소의 개수를 고정 어휘 우선 원칙을 위하여 어휘에 대해서는 1.1배의 가중치를 곱해서 더해주고, 입력과 패턴간에 일치되지 않는 어절 차이수를 감소시켜 계산한다. 존재하는 어절사이의 관계이기 때문에 더 정확히 인식되었을 가능성이 높은 것으로 본다는 원칙이다. 그리고, 하나의 입력 구문에 대해 대응되는 부분 대역 패턴이 여러 개 존재하여 매칭 형태가 다양할 수 있다. 다음은 한 입력 문장에 매칭 가능한 다양한 형태를 매칭의 유형별로 완전 매칭, 가변요소 포함 완전 매칭, 주어 생략 완전 매칭, 주어 생략 및 가변 요소 포함 완전 매칭, 부분 완전 매칭, 부분 가변 요소 포함 완전 매칭, 매칭 실패로 분류하였다.
다음은 완전 매칭과 부분 매칭에 관한 일례들을 나타낸다. 한영 번역 생성 장치에서 입력 문장이 그가 집에서 학교에 간다인 경우를 예로 들면 그!가 집!에서 학교!로 가!다 he go to school from home 패턴은 완전히 어휘별로 매칭이 성공하는 완전 매칭이다. A=사람!가 B=곳!에서 C=곳!로 가!다 A go to C from B로 매칭되는 경우는 가변요소 포함 완전 매칭이며, 집!에서 학교!로 가!다 go to school from home 패턴은 주어생략 완전 매칭이며, A=곳!에서 B=곳!로 가!다 go to B from A 패턴은 주어생략 가변요소 포함 완전 매칭이다. 학교!로 가!다 go to school로 매칭되는 경우는 입력문과 일부 매칭되었기 때문에 부분 완전 매칭이다. A=곳!로 가!다 go to A는 부분 가변요소 포함 매칭이다. 그리고, 이와 같이 매칭되는 어휘가 패턴이 없는 경우는 매칭 실패이며, 이에 대한 대역문 생성은 일반 구문 생성 규칙을 이용하여 생성함으로써, 대역 패턴 데이터베이스의 커버리지(Coverage) 문제를 해결하는 보조 방법으로 활용될 수 있다.
이러한 분류 중 완전 매칭이 가장 선호도가 높으며, 주어 생략 완전 매칭이 다음으로 패턴의 선호도가 높다. 따라서, 완전 매칭 및 주어 생략 완전 매칭은 어떤 다른 후보와 경쟁해도 최우선으로 선택되며, 이외의 다른 패턴들에 대해서만 매칭 우선도를 결정한다.
다음은 매칭 선호도를 계산하는 가중치 계산 방식을 나타낸다.
선호도 1 : 완전 매칭
선호도 2 : 주어가 없는 경우의 완전 매칭
선호도 3 : 부분 매칭 또는 매칭 실패(선호도 1, 2에서 복수 후보인 경우 어휘 갯수가 많이 포함된 패턴 선택, 선호도 3의 경우 패턴 선호도 계산에 의해 선택)
패턴선호도 = 1.1*FW + FF + FV - FDWP
여기서, FW는 매칭 어휘 수(Frequency of matched Words), FF는 매칭 기능어수(Frequency of matched Function words), FV는 매칭된 가변요소 수(Frequency of Variables), FDWP는 입력 어절과 패턴의 어절간에 매칭되지 않는 어절의 수(Frequency of Diffences of Word phrases between an input and a pattern)를 각각 나타낸다. 여기서, FW에 1.1의 가중치를 곱한 것은 고정 어휘 우선 원칙을 적용하여 어휘 매칭시에 선호도 값을 올려 주기 위해서이다.
부분 대역 선택부에 의해 선택된 대역 패턴 후보에 대하여 각 패턴 유형별에 따른 생성 과정을 거친다. 완전 매칭이 이루어진 경우의 완전 매칭 대역문 생성부(106), 부분 매칭이 이루어진 경우의 부분 매칭 대역문 생성부(107), 매칭 실패인 경우 일반 대역문 생성부(108)를 거쳐 부분 입력문에 대한 최종 번역문을 생성한다.부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스(119)를 이용하여 대역어를 생성한다. 공기 사전 데이터베이스(119)는 명사의미, 기능어, 동사, 빈도의 데이터로 구성된다. 예를 들어, 장소, 에, 가, 12는 에라고 하는 격조사와 가다라고 하는 동사가 명사의미 장소와 함께 12번의 빈도로 사용된다는 것을 나타낸다. 즉, 한 동사와 공기할 수 있는 명사의미의 통계 정보를 이용하여 의미가 결정되지 않은 입력문의 어절성분의 의미를 빈도수가 높은 후보로 결정하여 그 의미에 맞는 대역 정보를 생성한다. 이 공기 사전 데이터베이스(119)는 부분 대역 패턴 데이터베이스(117)에서 명사의미와 동사 간의 이진 관계의 공기 정보를 자동으로 추출할 수 있다.
부분 대역문이 생성되면 매칭 과정에서 제외된 부사구에 대한 생성을 시도한다. 이때, 부사에 부가된 정보를 추출하기 위하여 부사대역 사전 데이터베이스(120)를 참조한다. 먼저, 부사의 생성 정보를 참조하여 각 부사간의 순서 및 입력문장에서의 위치를 결정한다. 부사생성 정보는 부사간의 순서 정보 및 각 부사의 대역문에서의 위치에 관한 정보를 담고 있다. 부사의 위치가 결정되면, 부사대역 사전 데이터베이스(120)에서 함께 추출한 대역정보를 생성한다.부사구의 대역 정보가 생성되고 난 후, 대역어가 결정되지 않은 명사구가 존재하는 경우는 명사구 대역 패턴 데이터베이스(121)의 대역 패턴을 적용하여 명사구의 대역어를 결정한다. 명사구 대역 패턴은 부분 대역 패턴 데이터베이스에 저장되어 있는 동사구 단위의 대역패턴과 같은 형태로 어휘 및 의미정보를 사용하여 표현한다. 예를 들어, A=건축물!의 B=조직 B of A 또는 그!의 A=조직 his A와 같이 의미 정보 또는 어휘 정보를 사용하여 패턴을 나타낸다. 명사구 패턴의 매칭 또는 완전 매칭이 가장 우선되며 부분 매칭의 경우 매칭 어휘 수가 많은 경우 선호된다.이상과 같은 번역문 생성 과정을 입력 용언구의 개수만큼 반복적으로 적용하여 생성 과정을 수행한다. 이와 같은 대역문 생성 결과는 목적언어 형태소 생성부(112)를 거치면서 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종적인 목적언어 번역문을 생성한다. 그리고, 이 결과는 인쇄부(113), 인쇄장치(115) 또는 표시 제어부(114), 표시 장치(116)를 통해 출력된다.상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명에 의하면, 용언에 기반하여 다양하게 번역될 수 있는 언어현상을 대량의 대역 패턴 데이터베이스를 이용하여 처리함으로써, 고품질 및 고속의 번역문 생성이 가능하여, 기존의 자동 번역 장치의 효율적인 번역문 생성장치로 다양하게 응용될 수 있다.

Claims (5)

  1. 부분대역 패턴 데이터베이스;
    의미 범주 데이터베이스;
    공기 사전 데이터베이스;
    부사대역사전 데이터베이스;
    명사구 대역 패턴 데이터베이스;
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 수단;
    상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단;
    상기 의미 범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 부분대역 패턴 매칭수단;
    상기 부분대역 패턴 매칭수단에 의해 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도를 계산하여 최적의 대역 패턴을 선택하는 수단;
    상기 선택수단에 의해 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 수단;
    부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 수단;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하는 수단;
    상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단;
    명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사 성분에 대한 대역어를 결정하는 수단; 및
    상기 부사구 및 명사구 생성수단에 의해 생성된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 수단
    을 포함하는 번역문 생성장치.
  2. 제 1 항에 있어서,
    상기 선택수단은,
    상기 부분대역 패턴 매칭수단에 의한 매칭 결과, 완전 매칭인 패턴을 최우선적으로 선택하고, 주어 생략 완전 매칭인 패턴을 다음 우선적으로 선택하며, 완전 매칭과 주어 생략 완전 매칭에서 가변 요소의 매칭에 의해 복수개의 후보가 나오는 경우 최다 어휘 매칭 후보를 선택하며, 부분 매칭인 패턴에 대해서는 매칭된 어휘의 수, 매칭된 기능어의 수, 매칭된 가변요소의 수, 매칭 실패한 어절의 수 및 입력문과 번역 패턴과의 어절 차이 수를 이용해 계산된 패턴 선호도의 점수에 따라 선택하는 것을 특징으로 하는 번역문 생성장치.
  3. 부분대역 패턴 데이터베이스와 의미 범주 데이터베이스와 공기 사전 데이터베이스와 명사구 대역 패턴 데이터베이스 및 부사대역사전 데이터베이스를 포함하는 장치에 적용되는 번역문 생성방법에 있어서,
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제 1 단계;
    상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스를 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제 2 단계;
    상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 제 3 단계;
    상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제 4 단계;
    부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 제 5 단계;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제 6 단계;
    명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사구 성분에 대한 대역어를 결정하는 제 7 단계; 및
    상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제 8 단계
    를 포함하는 번역문 생성방법.
  4. 제 3 항에 있어서,
    상기 제 3 단계는,
    상기 부분대역 패턴 매칭수단에 의한 매칭 결과, 완전 매칭인 패턴을 최우선적으로 선택하고, 주어 생략 완전 매칭인 패턴을 다음 우선적으로 선택하며, 완전 매칭과 주어 생략 완전 매칭에서 가변 요소의 매칭에 의해 복수개의 후보가 나오는 경우 최다 어휘 매칭 후보를 선택하며, 부분 매칭인 패턴에 대해서는 매칭된 어휘의 수, 매칭된 기능어의 수, 매칭된 가변요소의 수, 매칭 실패한 어절의 수 및 입력문과 번역 패턴과의 어절 차이 수를 이용해 계산된 패턴 선호도의 점수에 따라 선택하는 것을 특징으로 하는 번역문 생성방법.
  5. 대용량 프로세서를 구비한 번역문 생성장치에,
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제 1 기능;
    상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스를 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제 2 기능;
    상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 제 3 기능;
    상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제 4 기능;
    부분 매칭 또는 매칭 실패의 경우, 대역 패턴에 일치하지 않는 입력문의 어절 성분에 대해 공기 사전 데이터베이스를 이용하여 대역어를 결정하는 제 5 기능;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제 6 기능;
    명사구 대역 패턴 정보를 이용하여 부분 대역문의 명사구 성분에 대한 대역어를 결정하는 제 7 기능; 및
    상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제 8 기능
    을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990061164A 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 KR100327115B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Publications (2)

Publication Number Publication Date
KR20010057763A KR20010057763A (ko) 2001-07-05
KR100327115B1 true KR100327115B1 (ko) 2002-03-13

Family

ID=19628815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Country Status (1)

Country Link
KR (1) KR100327115B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266361B1 (ko) 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101740331B1 (ko) 2011-12-15 2017-05-30 한국전자통신연구원 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100480345B1 (ko) * 2002-03-27 2005-04-06 서호일 언어코드를 사용한 언어 학습/번역 서비스 시스템 및 그방법
KR100687734B1 (ko) * 2004-12-14 2007-02-27 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266361B1 (ko) 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101740331B1 (ko) 2011-12-15 2017-05-30 한국전자통신연구원 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Also Published As

Publication number Publication date
KR20010057763A (ko) 2001-07-05

Similar Documents

Publication Publication Date Title
US5528491A (en) Apparatus and method for automated natural language translation
US6760695B1 (en) Automated natural language processing
US5109509A (en) System for processing natural language including identifying grammatical rule and semantic concept of an undefined word
US6278967B1 (en) Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US6442524B1 (en) Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
JP3476237B2 (ja) 構文解析装置
JP2745370B2 (ja) 機械翻訳方法及び機械翻訳装置
US6282507B1 (en) Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2000353161A (ja) 自然言語生成における文体制御方法及び装置
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
WO1997040453A1 (en) Automated natural language processing
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
JPH07191687A (ja) 自然言語処理装置及びその方法
JP3825645B2 (ja) 表現変換方法及び表現変換装置
Ariaratnam et al. A shallow parser for Tamil
KR950013129B1 (ko) 기계번역장치 및 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
KR100286649B1 (ko) 연어패턴에 기초한 어휘 변환방법
JP3892227B2 (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100201

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee