KR20010057763A - 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 - Google Patents

부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 Download PDF

Info

Publication number
KR20010057763A
KR20010057763A KR1019990061164A KR19990061164A KR20010057763A KR 20010057763 A KR20010057763 A KR 20010057763A KR 1019990061164 A KR1019990061164 A KR 1019990061164A KR 19990061164 A KR19990061164 A KR 19990061164A KR 20010057763 A KR20010057763 A KR 20010057763A
Authority
KR
South Korea
Prior art keywords
pattern
partial
sentence
band
adverb
Prior art date
Application number
KR1019990061164A
Other languages
English (en)
Other versions
KR100327115B1 (ko
Inventor
김영길
여상화
심철민
정한민
최승권
서영애
서광준
김태완
박세영
박상규
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR1019990061164A priority Critical patent/KR100327115B1/ko
Publication of KR20010057763A publication Critical patent/KR20010057763A/ko
Application granted granted Critical
Publication of KR100327115B1 publication Critical patent/KR100327115B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구 범위에 기재된 발명이 속한 기술분야
부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법.
2. 발명이 해결하려고 하는 기술적 과제
대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법을 제공.
3. 발명의 해결방법의 요지
부분대역 패턴 데이터베이스; 의미 범주 데이터베이스; 부사대역사전 데이터베이스; 용언 단위의 부분 구문 추출수단; 상기 추출된 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단; 상기 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 수단; 상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 수단; 상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 수단; 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단; 및 최종 목적언어 번역문을 생성하는 수단을 포함한다.

Description

부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법{DEVICE AND METHOD FOR GENERATING TRANSLATED SENTENCES BASED ON PARTIAL TRANSLATION PATTERNS}
본 발명은 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치 및 그 방법에 관한 것으로, 특히 대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법에 관한 것이다.
현재까지 기계번역 장치의 주된 번역문 생성 방식은 생성 문법이라는 언어적 정보를 표현하여 처리하는 방식을 채택하여 왔다. 이러한 번역문 생성 장치의 핵심 지식인 문법은 여러 가지 방식으로 구현되어 왔다. 첫째, 일반의 프로그래밍 언어를 사용하여 구현하는 방식이 있다. 즉 프로그래밍 언어를 사용하여 절차적인 모든 내용과 언어학적 정보를 모두 한꺼번에 구현하는 방법이다. 그러나, 이와 같은 방법은 언어학적 정보의 많은 부분들이 프로그래머라기보다는 언어학적인 지식을 가진 사람들에 의해서 구현되므로 문법의 관리와 확장에 어려움을 겪게 된다.
번역문 생성 문법을 구현하는 두번째 방법으로 일반 프로그래밍 언어를 이용하지 않고, 언어학적인 정보와 절차적인 부분을 분리하여 구현하는 방법이다. 이 방법은 언어적 정보를 표현하기에 적절한 새로운 언어를 정의하여 사용하는 방법이다. 따라서 새롭게 정의된 언어를 사용하기 위한 컴파일러 장치 및 인터프리터 장치의 개발이 필요하다. 이 방식의 장점은 언어학적인 정보를 기술하는 사람은 문법이 구체적으로 어떠한 방식으로 실행되는 지에 대한 복잡한 절차에서 벗어날 수있고, 언어학적 정보의 정확한 표현이라는 본래의 역할에 주력할 수 있다. 그러나, 이러한 방식은 지식 구축자에게 언어학적인 전문 지식을 요구하여, 대량 작업이 힘들뿐만 아니라 이러한 생성 문법들이 많이 구축될수록 적용시 서로 문법간의 충돌로 인한 오작동이 일어날 가능성이 높아진다. 즉, 번역 장치의 점진적 품질 향상을 보장할 수 없다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 대역 패턴 데이터베이스를 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성장치 및 그 방법을 제공하는데 있다.
도1은 본 발명에 따른 부분 대역 패턴 데이터베이스에 기반한 번역문 생성 과정을 설명하기 위한 도면.
도2는 본 발명에 따른 의미 범주에 대한 분류표.
*도면의 주요부분에 대한 부호의 설명
101 : 원시문장 구문분석 및 연결정보 추출부
102 : 부분 구문 추출부 103 : 부분대역 패턴 탐색부
104 : 부분대역 패턴 매칭부 105 : 부분대역 선택부
106 : 완전매칭 단문 생성부 107 : 부분매칭 단문 생성부
108 : 일반단문 생성부 109 : 부사구 위치 선정부
110 : 부사구 생성부 111 : 목적언어 형태소 생성부
116 : 부분대역 패턴 데이터베이스 117 : 의미 범주 데이터베이스
118 : 부사대역 사전 데이터베이스 119 : 공기 사전 데이터베이스
상기 목적을 달성하기 위한 본 발명의 장치는, 부분대역 패턴 데이터베이스; 의미 범주 데이터베이스; 부사대역사전 데이터베이스; 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 수단; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단; 상기 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 부분대역 패턴 매칭수단; 상기 부분대역 패턴 매칭수단에 의해 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도를 계산하여 최적의 대역 패턴을 선택하는 수단; 상기 선택수단에 의해 선택된 대역 패턴의 매칭 유형에 따라부분 대역문을 생성하는 수단; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하는 수단; 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단; 및 상기 부사구 생성수단에 의해 생성된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 수단을 포함하는 것을 특징으로 한다.
또한 본 발명에 따른 번역문 생성방법은, 부분대역 패턴 데이터베이스와 의미 범주 데이터베이스와 부사대역사전 데이터베이스를 포함하는 장치에 적용되는 번역문 생성방법에 있어서, 원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제1단계; 상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제2단계; 상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 제3단계; 상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제4단계; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제5단계; 및 상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제6단계를 포함하는 것을 특징으로 한다.
또한, 본 발명은 컴퓨터에서, 원시문장 구문 분석 결과로부터 용언 단위의부분 구문을 추출하는 단계; 상기 추출된 용언 단위 부분 구문을 키값으로 부분대역 패턴 데이터베이스를 탐색하고, 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 단계; 상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 단계; 상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 단계; 부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 부사대역 사전 데이터베이스를 이용해 상기 생성된 부분 대역문에 부사를 부가하는 단계; 및 상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 단계를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 발명에서는 번역문 생성 문법에 해당하는 규칙을 각 용언 중심의 데이터 위주로 분산시켰다. 즉, 하나의 생성 문법이 담당하던 여러 기능들을 용언 중심의 부분 대역 패턴에 분산시킴으로써, 각 생성 문법들간의 충돌을 방지하였으며, 여러 지식 구축자가 동시에 작업할 수 있도록 함으로써, 생성 지식의 대량화가 가능해져 번역문의 생성 품질을 향상시킬 수 있다. 그리고, 이러한 대역 패턴을 데이터베이스화함으로써, 이에 대한 검색 속도를 향상시켜 고속의 생성 장치가 가능하다.
본 발명은 입력 원시 문장에서 하나의 용언을 헤드로 가지는 동사구에 대한 목적언어 번역문으로 구성되어 있는 부분대역 패턴 데이터베이스(116)를 참조하여 입력문에 맞는 원시 부분 대역문을 생성한다. 또한 본 발명은 부분 대역문 추출부(102)를 거친 단문 단위의 동사구에 대해 목적언어 대역문을 생성하고, 그결과를 형태소 생성부(111)에 넘겨준다. 즉, 구문 분석 장치(101)의 결과로 나온 구조화된 원시 구문에 대한 부분 대역문을 생성하며, 이 때 구조화된 원시 구문에 대하여 단문으로 구성된 부분 대역 패턴 데이터베이스(116)를 참조하여, 입력 구문내에서의 각 용언절에 대한 대역문 생성이 이루어진다.
본 발명은 크게 두 가지로 단계로 이루어진다. 첫째는 원시문장 구문 분석 및 연결 정보 추출부(101)에 의한 입력 용언 구문에 대해 기 구축된 번역 패턴을 탐색하여 해당 대역 패턴을 추출한 다음, 선호도가 가장 높은 패턴을 선택하는 단계이고, 둘째는 탐색된 대역 패턴을 이용하여 원시언어 문장을 생성하거나 일반 번역문 생성 규칙에 의한 번역문을 생성하는 단계이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명한다.
도1은 본 발명에 따른 대역 패턴 데이터베이스에 기반한 번역문 생성장치를 설명하기 위해 블록도이다.
기계번역 장치의 구문 분석부(101)가 입력 원시언어에 대한 구문 분석 결과를 만들고, 구문들간의 연결 관계를 파악하게 되면, 이를 부분 구문 추출부(102)를 통하여 부분 대역문의 생성 장치에서의 처리 단위인 용언 단위의 부분 구문을 추출하고, 입력 구문 결과에서 생성에 필요한 정보들을 자질화시켜 저장한다. 생성 장치에서의 처리는 하나의 용언 단위로 이루어지며, 모든 용언들의 대역 패턴이 생성될 때까지 반복적으로 진행된다.
부분 대역문의 입력 용언구가 생성되면, 부분 대역 패턴 탐색부(103)에서는해당되는 부분 대역 패턴 추출을 위한 부분 대역 패턴 데이터베이스(116)를 탐색한다. 이때 데이터베이스 검색은 용언 값을 키값으로 입력 엔트리에 해당하는 부분대역 패턴의 탐색을 수행한다. 대역 패턴 데이터베이스에 저장되어 있는 패턴의 형태는 크게 2가지로 구분된다. 첫째 모든 구(Phrase)들이 변수(A,B,) 또는 의미범주가 없이 순수한 어휘로만 구성되는 부분 대역 패턴을 의미한다. 즉, 한영 번역 데이터베이스의 예를 들면 "학교!에 가!다 > go to school"과 같은 형태로 원시언어 표현 부분에 순수한 원시언어의 어휘로만 구성되는 부분 대역 패턴이다. 둘째 1개 이상의 구(Phrase)가 변수(A,B,)의 형태나 의미 범주의 형태를 취하고 있으며 동사는 어휘로 구성되어 있다. "A=서울[장소]!로 가!다 > go to A=Seoul"과 같은 형태로 원시언어 표현 부분에 1 어절 이상의 구성 성분에 변수 A나 의미범주인 "장소" 등으로 구성되는 부분 대역 패턴이다.
부분 대역 패턴 탐색부(103)에 의해 추출된 대상 대역 패턴에 대하여 부분 대역 패턴 매칭부(104)에서는 입력 원시 문장의 각 성분들과의 매칭을 통하여 해당되는 부분 대역 패턴을 추출한다. 모든 어휘가 매칭되는 완전 매칭의 경우는 해당 후보로 등록이 되며, 의미범주로 구성되어 있는 대역 패턴에 대해서는 입력 어휘와 의미범주와의 비교를 통하여 최종적으로 후보를 결정한다. 이때 사용하는 의미범주 데이터베이스(117)는 도2에 도시된 바와 같이 계층적인 구조를 이용한 의미들의 체계적인 분류로서, 이는 이전의 시소러스와 유사하지만 본 발명에서 사용한 의미범주는 노드들간의 계층적인 관계들이 중심이 되는 형태가 아니며, 각 어휘들의 의미 분류표로서의 역할을 수행한다.
부분 대역 패턴 매칭이 이루어진 후, 그 결과는 다음과 같은 것이 있을 수 있다. 즉, 매칭에 실패하는 경우, 1개의 매칭 후보가 나오는 경우, 그리고 복수개의 매칭후보가 나오는 경우이다. 따라서 복수개의 후보에서 가장 적절한 대역 패턴 선정을 위해 부분 대역 선택부(105)에서는 각 후보에 대한 최장 일치 원칙, 최소 분산 원칙을 이용하여 패턴의 선호 가중치를 부가한다. 부분 대역 패턴 데이터베이스에서 입력 문장에 대한 매칭 결과 복수개의 매칭 후보가 가능하다. 이 시점에서 부분 대역문 생성의 애매성을 해소할 수 있는 기본 원칙 및 가중치 계산식의 설정이 필요하다. 부분 대역 패턴 선택을 위한 기본 원칙으로는 다음과 같이 최장일 우선, 고정 어휘 일치 우선 및 분산값 최소 우선이 있을 수 있다. 여기서, 최장 일치 우선이란 일치된 고정 어휘 형태소와 문법 형태소가 다수 매칭된 후보를 선호한다는 원칙이며, 고정 어휘 우선 원칙은 변수나 의미 범주 코드 보다 고정 어휘 매칭이 선호된다는 원칙이며, 분산값 우선 원칙은 패턴의 분산값은 패턴의 길이와 용언과의 신장 거리(span distance)의 비로 계산하며, 분산값이 작을수록 가까이에 존재하는 어절사이의 관계이기 때문에 더 정확히 인식되었을 가능성이 높은 것으로 본다는 원칙이다. 따라서, 부분 대역 패턴 인식의 신뢰도는 패턴의 길이, 일치된 고정 어휘 형태소와 문법 형태소의 개수, 부분 대역 패턴의 분산값에 실험적인 가중치를 곱하여 계산된다. 그리고, 하나의 입력 구문에 대해 대응되는 부분 대역 패턴이 여러 개 존재하여 매칭 형태가 다양할 수 있다. 다음은 한 입력 문장에 매칭 가능한 다양한 형태를 매칭의 유형별로 완전 매칭, 가변요소 포함 완전 매칭, 주어 생략 완전 매칭, 주어 생략 및 가변 요소 포함 완전 매칭, 부분 완전 매칭, 부분 가변 요소 포함 완전 매칭, 매칭 실패로 분류하였다.
다음은 완전 매칭과 부분 매칭에 관한 일례들을 나타낸다. 한영 번역 생성 장치에서 입력 문장이 "그가 집에서 학교에 간다"인 경우를 예로 들면 "그!가 집!에서 학교!로 가!다 > he go to school from home" 패턴은 완전히 어휘별로 매칭이 성공하는 완전 매칭이다. "A=나!가 B=서울!에서 C=부산!로 가!다 > A=I go to C=Pusan from B=Seoul"로 매칭되는 경우는 가변요소 포함 완전 매칭이며, "집!에서 학교!로 가!다 > go to school from home" 패턴은 주어생략 완전 매칭이며, "A=서울!에서 B=부산!로 가!다 > go to B=Pusan from A=Seoul" 패턴은 주어생략 가변요소 포함 완전 매칭이다. "학교!로 가!다 > go to school"로 매칭되는 경우는 입력문과 일부 매칭되었기 때문에 부분 완전 매칭이다. "A=서울!로 가!다 > go to A=Seoul"는 부분 가변요소 포함 매칭이다. 그리고 이와 같이 매칭되는 어휘가 패턴이 없는 경우는 매칭 실패이며, 이에 대한 대역문 생성은 일반 구문 생성 규칙을 이용하여 생성함으로써, 대역 패턴 데이터베이스의 커버리지(Coverage) 문제를 해결하는 보조 방법으로 활용될 수 있다.
이러한 분류 중 완전 매칭이 가장 선호도가 높으며, 주어 생략 완전 매칭이 다음으로 패턴의 선호도가 높다. 따라서 완전 매칭 및 주어 생략 완전 매칭은 어떤 다른 후보와 경쟁해도 최우선으로 선택되며, 이외의 다른 패턴들에 대해서만 매칭 우선도를 결정한다.
다음은 매칭 선호도를 계산하는 가중치 계산 방식을 나타낸다.
선호도 1 : 완전 매칭
선호도 2 : 주어가 없는 경우의 완전 매칭
선호도 3 : (변수를 지닌 경우의 완전 매칭, 부분 매칭, 매칭 실패)
패턴선호도 = (FW*k1/FS*k2) + FV*k2 + FF*k3 - FU*k4 + (1/Variance)*k5
여기서, FW는 매칭된 단어 수, FV는 매칭된 가변요소의 수, FF는 매칭된 기능단어 수, FU는 매칭 실패된 단어 수, Variance는 패턴의 불일치 수를 각각 나타낸다.
부분 대역 선택부에 의해 선택된 대역 패턴 후보에 대하여 각 패턴 유형별에 따른 생성 과정을 거친다. 완전 매칭이 이루어진 경우의 완전 매칭 대역문 생성부(106), 부분 매칭이 이루어진 경우의 부분 매칭 대역문 생성부(107), 매칭 실패인 경우 일반 대역문 생성부(108)를 거쳐 부분 입력문에 대한 최종 번역문을 생성한다.
부분 대역문이 생성되면 매칭 과정에서 제외된 부사구에 대한 생성을 시도한다. 이 때 부사에 부가된 정보를 추출하기 위하여 부사대역 사전 데이터베이스(118)를 참조한다. 먼저, 부사의 생성 정보를 참조하여 각 부사간의 순서 및 입력문장에서의 위치를 결정한다. 부사생성 정보는 부사간의 순서 정보 및 각 부사의 대역문에서의 위치에 관한 정보를 담고 있다. 부사의 위치가 결정되면, 부사대역 사전 데이터베이스(118)에서 함께 추출한 대역정보를 생성한다. 이상과 같은 번역문 생성 과정을 입력 용언구의 개수만큼 반복적으로 적용하여 생성 과정을 수행한다. 이와 같은 대역문 생성 결과는 목적언어 형태소 생성부(111)를거치면서 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종적인 목적언어 번역문을 생성한다. 그리고 이 결과는 인쇄부(112), 인쇄장치(113) 또는 표시 제어부(114), 표시 장치(115)를 통해 출력된다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기한 바와 같은 본 발명에 의하면, 용언에 기반하여 다양하게 번역될 수 있는 언어현상을 대량의 대역 패턴 데이터베이스를 이용하여 처리함으로써, 고품질 및 고속의 번역문 생성이 가능하여, 기존의 자동 번역 장치의 효율적인 번역문 생성장치로 다양하게 응용될 수 있다.

Claims (5)

  1. 부분대역 패턴 데이터베이스;
    의미 범주 데이터베이스;
    부사대역사전 데이터베이스;
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 수단;
    상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하는 수단;
    상기 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 부분대역 패턴 매칭수단;
    상기 부분대역 패턴 매칭수단에 의해 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도를 계산하여 최적의 대역 패턴을 선택하는 수단;
    상기 선택수단에 의해 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 수단;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하는 수단;
    상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하여 부사구에 대한 대역문을 생성하는 수단; 및
    상기 부사구 생성수단에 의해 생성된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 수단
    을 포함하는 번역문 생성장치.
  2. 제 1 항에 있어서,
    상기 선택수단은,
    상기 부분대역 패턴 매칭수단에 의한 매칭 결과, 완전 매칭인 패턴을 최우선적으로 선택하고, 주어 생략 완전 매칭인 패턴을 다음 우선적으로 선택하며, 변수 포함 완전매칭 패턴과 부분매칭인 패턴과 매칭 실패인 패턴에 대해서는 매칭된 단어의 수, 매칭된 가변요소의 수, 매칭된 기능단어의 수, 매칭 실패된 단어의 수 및 패턴의 불일치 수를 이용해 계산된 패턴 선호도에 따라 선택하는 것을 특징으로 하는 번역문 생성장치.
  3. 부분대역 패턴 데이터베이스와 의미 범주 데이터베이스와 부사대역사전 데이터베이스를 포함하는 장치에 적용되는 번역문 생성방법에 있어서,
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 제1단계;
    상기 추출된 용언 단위 부분 구문을 키값으로 상기 부분대역 패턴 데이터베이스를 탐색하고, 상기 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 제2단계;
    상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의대역 패턴을 선택하는 제3단계;
    상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 제4단계;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 상기 부사대역 사전 데이터베이스를 이용하여 상기 생성된 부분 대역문에 부사를 부가하는 제5단계; 및
    상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 제6단계
    를 포함하는 번역문 생성방법.
  4. 제 3 항에 있어서,
    상기 제3단계는,
    상기 추출된 복수개의 후보 부분대역 패턴 중에서 완전 매칭인 패턴을 최우선적으로 선택하고, 주어 생략 완전 매칭인 패턴을 다음 우선적으로 선택하며, 변수 포함 완전매칭인 패턴과 부분매칭인 패턴과 매칭 실패인 패턴에 대해서는 매칭된 단어의 수, 매칭된 가변요소의 수, 매칭된 기능단어의 수, 매칭 실패된 단어의 수 및 패턴의 불일치 수를 이용해 계산된 패턴 선호도에 따라 선택하는 것을 특징으로 하는 번역문 생성방법.
  5. 컴퓨터에서,
    원시문장 구문 분석 결과로부터 용언 단위의 부분 구문을 추출하는 단계;
    상기 추출된 용언 단위 부분 구문을 키값으로 부분대역 패턴 데이터베이스를 탐색하고, 의미범주 데이터베이스 이용하여 입력 원시 문장의 각 성분들과의 매칭을 통해 해당되는 부분대역 패턴을 추출하는 단계;
    상기 추출된 복수개의 후보 부분대역 패턴에 대하여 우선도에 따라 최적의 대역 패턴을 선택하는 단계;
    상기 선택된 대역 패턴의 매칭 유형에 따라 부분 대역문을 생성하는 단계;
    부사의 생성 정보를 이용하여 각 부사간의 위치 및 입력문장에서의 위치를 결정하여, 부사대역 사전 데이터베이스를 이용해 상기 생성된 부분 대역문에 부사를 부가하는 단계; 및
    상기 부사가 부가된 대역문에 시제, 양상, 수, 인칭 등의 생성 정보를 처리하여 최종 목적언어 번역문을 생성하는 단계
    를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1019990061164A 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법 KR100327115B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Publications (2)

Publication Number Publication Date
KR20010057763A true KR20010057763A (ko) 2001-07-05
KR100327115B1 KR100327115B1 (ko) 2002-03-13

Family

ID=19628815

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990061164A KR100327115B1 (ko) 1999-12-23 1999-12-23 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법

Country Status (1)

Country Link
KR (1) KR100327115B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100480345B1 (ko) * 2002-03-27 2005-04-06 서호일 언어코드를 사용한 언어 학습/번역 서비스 시스템 및 그방법
KR100687734B1 (ko) * 2004-12-14 2007-02-27 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101266361B1 (ko) 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
KR101740331B1 (ko) 2011-12-15 2017-05-30 한국전자통신연구원 규칙기반 자동번역에서 삽입구 처리 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100397879B1 (ko) * 2000-03-31 2003-09-13 김시환 의미를 갖는 단어코드를 이용한 작업처리시스템 및 그 방법
KR100480345B1 (ko) * 2002-03-27 2005-04-06 서호일 언어코드를 사용한 언어 학습/번역 서비스 시스템 및 그방법
KR100687734B1 (ko) * 2004-12-14 2007-02-27 한국전자통신연구원 전문 분야의 부분 대역 패턴 데이터베이스 자동 구축 장치및 그 방법

Also Published As

Publication number Publication date
KR100327115B1 (ko) 2002-03-13

Similar Documents

Publication Publication Date Title
US5528491A (en) Apparatus and method for automated natural language translation
US6760695B1 (en) Automated natural language processing
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
JP3476237B2 (ja) 構文解析装置
US20140039879A1 (en) Generic system for linguistic analysis and transformation
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
KR20030094632A (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
JPH077419B2 (ja) 機械翻訳装置における略称付き固有名詞処理方法
KR20160138077A (ko) 기계 번역 시스템 및 방법
US20110040553A1 (en) Natural language processing
JP2004513458A (ja) ユーザが変更可能な翻訳のウエイト
WO1997040453A1 (en) Automated natural language processing
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
KR950013129B1 (ko) 기계번역장치 및 방법
KR100286649B1 (ko) 연어패턴에 기초한 어휘 변환방법
Tohma et al. Challenges Encountered in Turkish Natural Language Processing Studies
Gdaniec et al. Derivational morphology to the rescue: how it can help resolve unfound words in MT
JP3176750B2 (ja) 自然言語の翻訳装置
JP3892227B2 (ja) 機械翻訳システム
KR100333681B1 (ko) 용언 중심 문틀을 이용한 자동 번역 장치 및 그 방법
JPH0561902A (ja) 機械翻訳システム
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100201

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee