KR20020054244A - 부분문틀을 이용한 장문 번역 장치 및 그 방법 - Google Patents

부분문틀을 이용한 장문 번역 장치 및 그 방법 Download PDF

Info

Publication number
KR20020054244A
KR20020054244A KR1020000083295A KR20000083295A KR20020054244A KR 20020054244 A KR20020054244 A KR 20020054244A KR 1020000083295 A KR1020000083295 A KR 1020000083295A KR 20000083295 A KR20000083295 A KR 20000083295A KR 20020054244 A KR20020054244 A KR 20020054244A
Authority
KR
South Korea
Prior art keywords
sentence
frame
translation
short
partial
Prior art date
Application number
KR1020000083295A
Other languages
English (en)
Other versions
KR100420474B1 (ko
Inventor
노윤형
박상규
최승권
김영길
서영애
Original Assignee
오길록
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오길록, 한국전자통신연구원 filed Critical 오길록
Priority to KR10-2000-0083295A priority Critical patent/KR100420474B1/ko
Publication of KR20020054244A publication Critical patent/KR20020054244A/ko
Application granted granted Critical
Publication of KR100420474B1 publication Critical patent/KR100420474B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야
본 발명은 부분문틀을 이용한 장문 번역 장치 및 그 방법에 관한 것임.
2. 발명이 해결하려고 하는 기술적 과제
본 발명은 장문에 대해 절 단위의 부분문틀을 이용하여 커버리지가 높은 고품질의 번역 결과를 만들어내는 장문 번역 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있음.
3. 발명의 해결방법의 요지
본 발명은, 장문을 전처리한 결과에 따라 문장 분할을 수행하여 하나 이상의 단문들로 분할하는 제 1 단계; 상기 분할된 단문들을 인식하여 문틀 매칭을 통해 단문 번역을 수행하는 제 2 단계; 전체 문틀을 탐색하여 전체 문틀 번역을 수행한 후에 전체 문틀 번역이 성공인지를 판단하는 제 3 단계; 및 상기 제 3 단계의 판단 결과, 성공이면 번역 결과를 출력하고, 실패이면 부분문틀을 결합하여 번역하는 과정과 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하는 제 4 단계를 포함한다.
4. 발명의 중요한 용도
본 발명은 기계 번역 장치 등에 이용됨.

Description

부분문틀을 이용한 장문 번역 장치 및 그 방법{Apparatus and method of long sentence translation using partial sentence frame}
본 발명은 문틀 기반의 자동 번역에서 장문에 대해 절 단위의 부분문틀을 이용하여 커버리지가 높은 고품질의 번역 결과를 만들어내는 장문 번역 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 더욱 상세하게는 문틀 기반 자동 번역에서 장문의 경우에 나타나는 현저한 문틀 커버리지의 저하 및 장문 번역이 가지고 있는 번역 품질의 감소 문제를 해결하기 위하여 장문으로부터 절 수준의 부분문틀을 인식하고 절 단위 구조 분석을 통하여 부분문틀간 결합 순서를 결정하고 반복적인 문틀 매칭과 문틀 결합을 수행하여 높은 커버리지의 자연스러운 번역문을 만들어내는 장문 번역 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.
먼저, 본 발명에서 사용되는 용어를 정의하면 다음과 같다.
문틀 기반 방식에서 프로텍터라 함은 동사, 접속사 등과 같이 문장에서 구문 분석의 애매성이 폭발적으로 증가하기 시작하는, 문장의 특성을 반영한 단어를 의미한다. 따라서, 프로텍터를 인식함으로써 문장의 형태를 파악할 수 있으며, 번역을 위한 단서를 얻을 수 있다.
그리고, 문틀이라 함은 문장이 가공되어 단순화된 형태를 말하며, 문틀의 구성 요소를 슬롯이라 하는데, 슬롯은 프로텍터 또는 프로텍터 사이의 구문 요소가 된다.
그리고, 구문 요소는 프로텍터 사이의 문장 일부를 구문 분석하여 얻은 구문적 성격을 포함하는 것으로, 명사구를 의미하는 "NP", 전치사구를 의미하는 "PP"와 같이 표현된다.
그리고, 부분문틀이라 함은 입력 문장 전체를 포함하지는 않지만 절 수준의 문장을 포함하는 문틀을 의미한다.
다음으로, 종래 기술 및 그 문제점을 살펴보면 다음과 같다.
종래의 기계 번역 방법에서 문제가 되었던 상향식 구문 분석이 가지는 애매성 폭발 및 대역 구문의 무제한 생성 문제를 해결하기 위해 문틀 기반 번역 방식이 제안되었다.
종래의 문틀 기반의 자동 번역 방법에서는 문장의 구조를 반영하는 프로텍터와 그 사이의 구문 요소로 이루어진 문틀의 개념을 이용하므로 구문 분석의 범위를 제한하여 애매성의 증가를 막으며, 미리 정해진 문장을 위한 틀을 발견하여 대역 구문의 무제한 생성을 방지하고 번역의 품질을 크게 향상시킨다.
그러나, 상기와 같은 종래의 문틀 기반의 자동 번역 방법은 문장 길이가 길어짐에 따라 구축해야 할 문틀 수가 급격히 증가하게 되고, 문틀 매칭 성공률이 떨어져 심각한 커버리지 문제를 갖게 된다.
따라서, 상기 문제점을 해결하기 위해서는 장문을 분할하여 더 작은 단위로처리해야 할 필요성이 생기는데, 기존의 장문 분할 방법은 정형화된 문장을 가정하고 제한된 패턴을 이용하므로 실제 나타나는 문장들을 처리하는 데에는 현실적이지 않고, 문장 분할이 이루어지고 난 이후에 각 단문의 번역 결과를 연결하여 전체 번역 결과를 생성함에 있어 절 단위 구조 분석이 소수의 규칙으로 이루어지므로 전체 문장을 연결하는 자연스러운 번역 결과를 생성하는데 한계가 있었다.
따라서, 본 발명은 상기 문제점을 해결하기 위하여 제안된 것으로, 장문에 대해 절 단위의 부분문틀을 이용하여 커버리지가 높은 고품질의 번역 결과를 만들어내는 장문 번역 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
즉, 본 발명은, 문틀 기반의 자동 번역에 있어 문장 길이가 길어짐에 따라 발생하는 번역의 커버리지 문제와 일반적인 장문 번역이 가지는 부자연스러운 문장 생성을 해결하기 위하여, 문장 분할, 단문 번역 및 치환을 통하여 처리해야할 문틀 길이를 줄이고 전체 절 단위 구조를 반영하는 문틀 매칭 및 부분문틀간 결합을 단계적으로 반복하여 번역을 수행함으로써, 의미적으로 자연스러운 대역문을 만들어내면서도 문틀 기반이 가지고 있는 커버리지 문제를 해결한 장문 번역 장치 및 그 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 부분문틀을 이용한 장문 번역 장치의 일실시예 구성도.
도 2 는 본 발명에 따른 부분 문틀을 이용한 장문 번역 방법에 대한 일실시예 흐름도.
도 3 은 본 발명에 따른 부분문틀을 이용한 장문 번역(영한 번역)의 일예시도.
도 4 는 본 발명에 따른 문장 분할 과정에 대한 일실시예 흐름도.
도 5 는 본 발명에 따른 문장 분할 과정에 대한 일실시예 상세 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
101 : 입력부 102 : 형태소 분석부
103 : 품사 결정부 104 : 고정 표현 인식부
105 : 프로텍터 발견부 106 : 부분 구문 분석부
107 : 원문틀 생성부 108 : 부분문틀 처리부
109 : 대역문틀 선택부 110 : 대역어 생성부
상기 목적을 달성하기 위한 본 발명의 장치는, 부분문틀을 이용한 장문 번역 장치에 있어서, 입력받은 장문에 대하여 전처리를 수행하여 구문 정보를 얻기 위한 전처리 수단; 상기 전처리 수단을 통하여 얻은 구문 정보를 이용하여 상기 입력 장문에 대한 원문틀을 생성하기 위한 원문틀 생성 수단; 및 상기 원문틀 생성 수단에서 생성된 원문틀을 부분문틀로 분할하여 단문을 인식하여 번역한 후에 전체 문틀 탐색과 번역 및 부분문틀 결합과 번역 과정을 반복적으로 수행하여 장문을 번역하기 위한 부분문틀 처리 수단을 포함하는 것을 특징으로 한다.
한편, 본 발명의 방법은, 부분문틀을 이용한 장문 번역 장치에 적용되는 장문 번역 방법에 있어서, 장문을 전처리한 결과에 따라 문장 분할을 수행하여 하나 이상의 단문들로 분할하는 제 1 단계; 상기 분할된 단문들을 인식하여 문틀 매칭을 통해 단문 번역을 수행하는 제 2 단계; 전체 문틀을 탐색하여 전체 문틀 번역을 수행한 후에 전체 문틀 번역이 성공인지를 판단하는 제 3 단계; 및 상기 제 3 단계의 판단 결과, 성공이면 번역 결과를 출력하고, 실패이면 부분문틀을 결합하여 번역하는 과정과 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하는 제 4 단계를 포함하는 것을 특징으로 한다.
한편, 본 발명은, 부분문틀을 이용하여 장문을 번역하기 위하여, 프로세서를 구비한 장문 번역 장치에, 장문을 전처리한 결과에 따라 문장 분할을 수행하여 하나 이상의 단문들로 분할하는 제 1 기능; 상기 분할된 단문들을 인식하여 문틀 매칭을 통해 단문 번역을 수행하는 제 2 기능; 전체 문틀을 탐색하여 전체 문틀 번역을 수행한 후에 전체 문틀 번역이 성공인지를 판단하는 제 3 기능; 및 상기 제 3 기능에서의 판단 결과, 성공이면 번역 결과를 출력하고, 실패이면 부분문틀을 결합하여 번역하는 과정과 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이처럼, 본 발명은 부분문틀 인식 및 절 단위 구조 분석, 그리고 부분문틀 번역 및 치환, 전체 문틀 탐색, 부분문틀 결합을 반복하는 과정으로 이루어지는 것을 특징으로 한다.
즉, 본 발명에서 부분문틀 인식 및 부분문틀간 구조 분석은 분할점 추출, 분할점 구문 패턴 적용, 단문 시작점 인식, 단문 복원 및 문틀 탐색을 통한 단문 인식 및 번역, 시작점-본동사 매칭 및 문틀 탐색을 통한 여러 개의 시작점 후보중에서 올바른 시작점을 선별하는 과정으로 구성되어 있음을 특징으로 하고, 부분문틀간 구조 분석 결과를 이용한 번역 과정은 부분문틀 번역 및 치환, 축소된 문틀 탐색 및 부분문틀 결합을 번역이 성공할 때까지 단계적으로 반복하므로 규칙 기반과 패턴 기반의 절충된 방식으로 번역 과정이 이루어지는 것을 특징으로 한다.
상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.
도 1 은 본 발명에 따른 부분문틀을 이용한 장문 번역 장치의 일실시예 구성도이다.
먼저, 입력부(101)를 통해 들어온 원문은 형태소 분석부(102)를 거쳐 각각의 단어에 대해 형태소가 분석되며, 품사 결정부(103)에서 그 단어들의 품사가 결정된다.
그리고, 고정 표현 인식부(104)에서는 숙어, 복합 명사, 연어 등과 같이 하나의 단어나 구처럼 취급되는 단어들을 묶고 그에 해당하는 새로운 품사를 부착한다. 이처럼 고정 표현을 인식함으로써 구문 분석이나 문틀의 설정을 보다 단순화시킬 수 있다.
그리고, 프로텍터 발견부(105)에서는 문장에서 중요한 역할을 하는 품사나 단어들, 예를 들어 동사, 접속사, 관계사, 기호 등을 발견하여 프로텍터라는 표시를 부착한다. 이들에 대해서는 어떠한 분석도 수행하지 않는다.
그리고, 프로텍터 사이의 단어들에 대해 부분 구문 분석을 실시하는 부분 구문 분석부(106)에서는 그들에 대해 적절한 구문 태그를 부착한다. 이는 프로텍터를 제외한 부분 구문 분석이므로 애매성이 거의 발생하지 않으며, 분석 시간도 상당히 단축된다.
그리고, 원문틀 생성부(107)에서는 앞에서 결정된 프로텍터와 구문 태그를 이용하여 입력 문장에 대한 원문틀을 만들어낸다. 이렇게 만들어진 원문틀은 원문틀 데이터베이스 내에서 동일한 원문틀을 발견하는데 사용되며, 입력 문장과 정확히 일치하는 원문틀이 없는 경우에는 입력된 원문틀을 절수준의 부분문틀로 분할하여 처리하여 입력 문장을 커버하도록 한다. 이는 본 발명의 핵심에 해당하는 부분문틀 처리부(108)에서 담당한다.
즉, 부분문틀 처리부(108)에서는 원문틀에서 부분문틀을 인식하고 분할된 부분문틀에 대한 번역을 수행한다. 각 부분문틀에 대한 번역이 수행되면 전체 문틀을 연결하는 문틀에 의해 전체 번역이 수행되고, 만일 전체를 연결하는 문틀이 존재하지 않으면, 절단위 구조 분석을 통해 부분문틀 간을 묶어서 번역한 후에 부분문틀을 하나의 노드로 치환하여 축소된 전체 문틀을 탐색하여 번역하는 과정을 반복한다.
이때, 하나의 부분문틀을 번역하는 과정은 원문틀 데이터베이스 탐색, 대역문틀 선택, 대역어 생성으로 이루어진다. 원문틀 데이터베이스 탐색을 통해 발견된 원문틀은 여러 개의 대역문틀을 가지고 있으며, 문맥에 따라 그 중의 하나가 선택되게 된다. 대역문틀은 이미 대역 언어의 구조적 특성을 모두 포함하고 있는, 현실적으로 가능한 번역 구조만을 포함하고 있다.
그리고, 대역문틀 선택부(109)는 공기 정보, 구문/의미 정보들을 이용하여 현재의 문맥에 맞는 하나의 대역문틀을 선택한다. 이렇게 선택된 대역문틀로부터 그 대역문틀이 가지는 각각의 슬롯을 구조 변환하여 완전한 하나의 문장으로 만들어내는 것은 대역어 생성부(110)가 담당한다. 입력 문장에 대응하도록 만들어진 최종 대역문은 인쇄부(111)나 표시 제어부(113)을 통하여 인쇄 장치(112)나 표시 장치(114)로 출력된다.
도 2 는 본 발명에 따른 부분 문틀을 이용한 장문 번역 방법에 대한 일실시예 흐름도이다.
먼저, 그 동작 흐름을 간략하게 살펴보면, 영어 문장에 대하여 형태소 분석,품사 결정, 고정 표현 인식, 프로텍터 발견 및 부분 구분 분석 등과 같은 전처리 과정을 수행한다(201).
다음으로, 상기 전처리된 결과인 슬롯의 열에 대해 문장 분할을 수행하여 영어 장문을 하나 이상의 단문들로 분할한다(202).
이후, 상기 분할된 단문들을 인식하여 그에 대해 문틀 매칭을 통해 단문 번역을 수행한다(203). 이후, 단문 번역이 성공인지를 판단하여(204) 단문 번역에 있어 문틀 매칭에 실패한 경우에는 문장 분할에 오류가 있을 가능성을 고려하여 다른 문장 분할 후보로 단문 번역 과정을 재수행하고, 단문 번역이 성공이면 다음 과정으로 진행한다.
이후, 단문 번역이 끝나면 부분문틀에 해당하는 부분을 문장 심볼에 해당하는 구문 노드로 치환하고 축소된 전체 문틀을 탐색하여 전체 문틀 번역을 수행한다(205). 이후, 전체 문틀 번역이 성공인지를 판단하여(206) 전체 문틀 탐색에 성공하고 번역이 이루어지면 번역 결과를 출력하고 종료한다.
만일, 전체 문틀 번역이 실패하면(206) 절간 구조 분석 규칙에 따라 부분문틀을 결합하여 번역을 시도한다(207). 이후, 부분문틀 번역이 성공인지를 확인하여(208) 성공하면 다시 축소된 전체 문틀에 대해 문틀 탐색 및 번역(205)을 수행하고, 만일 부분문틀 번역에 실패하면 부분문틀 결합 및 번역 과정(207)을 반복 수행한다(207).
이제, 상술한 동작 흐름을 상세하게 살펴보기로 한다.
상기 문장 분할 과정(202)에서는 부분 구문 분석 결과로부터 모든 하위절의시작점을 인식한다. 즉, 문장의 분할점은 모든 하위절의 시작점에 해당한다. 시작점의 인식은 정해진 구문 패턴과 미리 구축된 데이터베이스 정보를 통해서 이루어지고 모든 절의 시작점을 인식하는 것을 전제로 한다. 시작점 인식을 위한 구문 패턴은 구두점과 접속사, 관계사, 의문사 등의 조합으로 이루어져 있다. 시작점의 인식에 있어 콤마나 대등접속사에 의한 명사구 병렬에 의해 시작점에 애매성이 있는 경우나 접속사 생략으로 인해 제외된 시작점을 위해 미리 구축된 시작점 패턴을 적용하여 해결한다. 따라서, 정해진 시작점 패턴에 의해 시작점 후보가 인식되고 데이터베이스의 시작점 패턴에 의해 시작점 제거 및 추가가 이루어지게 된다. 이후에 해결되지 않는 시작점 애매성이 있는 경우에 모든 후보를 인식하고 뒷 단계에서 선택하도록 한다.
상기와 같이 모든 절의 시작점이 인식되면 각 시작점 중에서 단문의 시작점을 인식하여 번역하고(203) 그에 해당하는 단문의 끝점 인식을 시도한다. 단문의 시작점 인식은 다음 시작점이 "that"절, 관계절, 의문사절이 아닌 모든 시작점을 단문의 시작점으로 인식함으로써 이루어지고, 단문의 끝점은 문틀 탐색, 시작점-주동사 매칭 등을 통해 이루어진다. 단문 인식이 수행되면 단문이 속한 절의 종류에 따라 도치나 생략에 의해 문장의 주어나 목적어가 생략된 경우에 단문의 문장 복원을 수행한다. 문장 복원은 접속사 및 관계사를 제외한 문틀이 동사로 시작하는 경우에 명사 슬롯을 동사 앞에 추가하고, 관계절 및 의문사가 이끄는 절에 있어 목적어가 생략된 경우에 목적어 위치를 추정하여 명사 슬롯을 추가한다. 이러한 문장 복원을 통하여 부분문틀의 문틀 커버리지를 높일 수 있고 원활한 번역문 생성을 수행할 수 있다. 단문 번역에 있어 문틀 매칭에 실패한 경우에 이는 문장 분할에 오류가 있을 가능성을 고려하여 다른 문장 분할 후보로 단문 번역 과정을 재수행한다.
이처럼 단문 번역이 끝나면 부분문틀에 해당하는 부분을 문장 심볼에 해당하는 구문 노드로 치환하고 축소된 전체 문틀을 탐색하여 전체 문틀 번역을 수행한다(205). 전체 문틀 탐색에 성공하고 번역이 이루어지면 번역 결과를 출력하고 종료한다. 만일, 실패하면 절간 구조 분석 규칙에 따라 부분문틀 결합 및 번역(207)을 시도하고, 이에 성공하면 다시 축소된 전체 문틀에 대해 문틀 탐색 및 번역(205)을 수행한다. 만일, 부분문틀 결합 및 번역에 실패하면 부분문틀 결합 및 번역 과정(207)과 전체 문틀 탐색 및 번역 과정(205)을 반복한다.
이때, 부분문틀 결합에 사용되는 절간 병렬 분석 규칙은 다음과 같다.
1. "that"절, 관계절, 의문사 절 : 바로 앞 절에 의존(depend)
2. T "that"절, (T) and "that"절/관계절 : 가장 가까운 "that"절/관계절에 병렬
3. T(n)V: 가장 가까운 앞쪽의 (n)V 또는 (n)V가 없는 접속사에 연결
4. (T) and nV : 앞쪽에 있는 모든 nV와 유사도가 가장 높은 것과 병렬
5. (T) and V : 가장 가까운 앞쪽의 V와 병렬(수, 시제 고려)
위에서 'T'는 콤마(comma) 등의 구두점을 나타내고, 'n'은 명사구, 'V'는 동사를 나타내고, 각 시작점간의 유사도를 구하는 식은 아래의 (수학식 1)과 같다.
유사도 S = w1*Sim(C-C) + w2*Sim(n-n) + w3*Sim(V-V)
그리고, 각 항목의 유사도를 구할 때 고려하는 대상은 Sim(C-C):어휘, Sim(n-n):타입(type), 의미코드, 어휘, Sim(V-V):타입(type), 어휘, 시제, 수-인칭(TV) 등과 같다.
상기 분석 규칙에 따라 절 단위 결합을 수행하는 과정은, 먼저 현재 처리해야 할 문틀의 각 슬롯에 해당하는 의존(dependency) 리스트를 구성한다. 의존(dependency) 분석은 각 시작점 및 본동사에서 상기 분석 규칙에 의해 다음과 같이 수행된다.
1. 분석 규칙에서 규칙 1의 경우에 dependency[i].depend <- 1, dependency[i].link <- 바로 앞절의 시작점을 할당한다.
2. 분석 규칙에서 규칙 2-4의 경우에 dependency[i].depend <- 0, dependency[i].link <- 해당 절이 병렬을 이루는 절의 시작점을 할당한다.
3. 그외의 종속 접속사절인 경우에 dependency[i].depend <- 0, dependency[i].link <- 바로 앞절의 시작점을 할당한다.
4. 관계절이 문장 내에 포함되는 경우에 관계절의 끝점을 분석하기 위해 슬롯 내의 부정사나 분사가 아닌 본동사에 대해 하나의 절에 하나의 본동사가 매칭되도록 연결한다. 이때, 이러한 연결 링크는 교차되지 않도록 해야 한다. 이러한 연결 링크가 전체 문장에 대해 구성되는 경우에 각 본동사에 대해dependency[i].depend <- 0, dependency[i].link <- 연결되는 시작점을 할당한다.
상기 과정에서 구해진 의존(dependency) 리스트로부터 각 슬롯의 깊이(depth) 리스트를 다음과 같이 구한다.
dependency[i].link 존재시 depth[i] = depth[dependency[i].link] + dependency[i].depend;
dependency[i].link 부재시 depth[i] = depth[i - 1];
상기 과정을 통해 구해진 깊이(depth)를 기반으로 깊이(depth)가 깊은 순서부터 절간의 결합이 수행된다.
상기 과정을 도 3 을 참조하여 예문을 통하여 설명하면 다음과 같다.
도 3 은 본 발명에 따른 부분문틀을 이용한 장문 번역(영한 번역)의 일예시도이다.
먼저, 원문에 대한 부분 구문 분석 결과에서 '/'로 표시되는 시작점 인식을 수행한 후에 각 시작점과 본 동사에 대해 의존(dependency) 리스트를 구한다. 도면에서 화살표와 숫자들은 각 시작점과 본동사들에 대한 dependency[i].link와 dependency[i].depend를 나타낸다. 이러한 의존(dependency) 리스트를 통해 문장의 맨 처음의 깊이(depth)를 '0'으로 하여 깊이(depth) 리스트가 도 3 과 같이 구해진다.
그러면, 가장 먼저 인식된 부분문틀 중에서 단문에 해당하는 부분이 먼저 번역되어 도면에 도시된 바와 같이 's'로 치환되고, 전체 문틀(301)에 대한 문틀 탐색이 수행된다.
만일, 문틀 탐색 및 번역에 성공하면 번역결과를 출력하고 종료하고, 실패하면 깊이(depth) 리스트 값에 따라 'pTs'가 하나의 문틀로 결합이 시도되고 성공하면 전체 문틀(302)에 대한 번역이 시도된다. 마찬가지로 문틀 탐색에 실패하면 깊이(depth) 리스트에 따라 'nCs'의 문틀 결합이 시도되고 동일한 작업이 반복된다.
따라서, 적절한 과정에서 패턴을 기술함으로써 패턴 방식에 의한 높은 번역 품질과 구조 분석 규칙에 의한 단계적 부분문틀간 결합을 통해 높은 커버리지를 얻을 수 있다.
도 4 는 본 발명에 따른 문장 분할 과정에 대한 일실시예 흐름도이다.
도면에 도시된 바와 같이, 장문 분할을 위해서는 우선 부분 구문 분석 결과인 슬롯의 열에서 모든 단문의 시작점을 추출한 후에(401) 시작점 패턴을 이용하여 시작점 후보를 추출한다(402).
다음으로, 상기 시작점 후보에 대응되는, 관계사절이 아닌 단문의 끝점 후보들을 추출한 후에(403) 끝점 패턴을 이용하여, 관계사로 연결된 단문의 끝점 후보를 추출한다(404).
이후, 단문 후보를 추출하고 복원한 후에 문틀 매칭을 수행하여 전체 문장에 대하여 단문을 추출한다(405).
도 5 는 본 발명에 따른 문장 분할 과정에 대한 일실시예 상세 흐름도이다.
먼저, 부분 구문 분석 결과인 슬롯의 열에서 모든 단문의 시작점 후보를 추출하여(501,502) 시작점 후보가 있는지를 판단하여(503) 없으면 리턴하고, 있으면다음 과정으로 진행한다.
이때, 501 과정은, 접속사, 관계사, 구두점 등의 구문 정보만을 이용하여 단문의 시작점 후보들을 추출하는 과정으로서, 입력된 슬롯의 열로부터 직관적으로 추출 가능하다. 시작점 추출에 사용되는 구문 정보로는 다음과 같은 것이 있다.
- 등위 접속사 : and, but, or
- 종속 접속사 : if, when, before, until, as, because
- 명사절 접속사 : that
- 관계사 : who, which, that, whose
- 콤마(comma), 인용부호(" ")
- 문장의 시작
다음으로, 502 과정은 미리 구축된 단문 시작점 패턴 데이터베이스에 저장된 패턴들을 분할하고자 하는 영어 문장과 매칭하여 시작점 후보를 찾는 과정이다. 영어 문장과 단문 시작점 패턴의 매칭은 501과정에 의해 인식된 시작점 사이의 슬롯 열의 전부 또는 일부에 대해 단문 시작점 패턴과의 매칭을 시도함으로써 이루어지며, 매칭이 성공한 경우에 시작점 후보로 추출해 낸다.
단문 시작점 패턴 데이터베이스는 접속사의 생략 등으로 인해 501과정으로는 추출되지 않는 시작점 후보들을 추출하기 위한 패턴들의 집합으로서, 미리 수집된 대량의 영어 문장들로부터 501과정에 의해 추출되지 않는 시작점에 대한 패턴을 수집하여 구축한다. 단문 시작점 패턴은 시작점 주위의 구문 정보와 문맥 정보를 슬롯의 종류와 자질 정보를 이용하여 기술함으로써 시작점을 인식할 수 있도록 구축된 패턴으로서, 시작점의 앞뒤로 나타나는 슬롯의 종류와 해당 자질의 열을 영어 문장에서 나타난 순서대로 기술하여 시작점의 구문 정보와 문맥 정보를 기술한다. 단문 시작점 패턴에 기술되는 슬롯명은 n, V, T, C, p 등이 있으며, 이것은 차례대로 명사구, 동사구, 쉼표 등의 심벌, 관계사를 포함한 접속사, 전치사구를 나타낸다. 슬롯의 자질은 슬롯명 뒤에 []표시 안에 해당 구문에 대한 자질의 종류와 자질값 검사용 연산자, 그리고 해당 자질값을 기술하여 나타낸다. /는 시작점 위치를 표시한다. 단문 시작점 패턴의 예는 다음과 같다.
- V[etype==[D5, T5]] n p / n V[etype==[T1]] p
상기 패턴은 "...had assured the U.S. government throughout the day / Russian troops would not cross into Kosovo..."의 문장에서와 같이 명사절 "that"이 생략된 문장에 대한 시작점 추정을 위한 패턴이다. T5, D5, T1 등은 동사의 형태를 나타낸다.
상기 과정을 통해 시작점 후보들을 모두 추출한 다음에, 시작점 후보에 대응되는 단문의 끝점 후보들을 추출해 낸다(504,505). 여기서, 504 과정은 관계사로 연결되지 않은 단문의 시작점에 대응하는 단문의 끝점 후보를 추출해 내는 과정으로, 관계사로 연결되지 않은 단문에 대해서는 다음 단문의 시작점을 단문의 끝점으로 추출해 낸다.
그리고, 505 과정은 관계사로 연결된 단문의 끝점 후보를 인식하는 과정으로, 단문 끝점 패턴을 이용하여 끝점 후보를 추출한다. 단문 끝점 패턴은 단문의시작점이 단문의 끝점이 되지 않는 단문의 끝점에 대하여 끝점 주위의 구문 정보와 문맥 정보를 슬롯의 종류와 자질 정보를 이용하여 기술함으로써 끝점을 인식할 수 있도록 구축된 패턴으로서, 끝점의 앞뒤로 나타나는 슬롯의 종류와 해당 자질의 열을 영어 문장에서 나타난 순서대로 기술함으로써 끝점의 구문 정보와 문맥 정보를 기술한다.
단문의 끝점 패턴은 단문 시작점 패턴과 동일한 형태로 기술된다. 끝점 추정을 위한 패턴의 매칭은 관계사로 시작된 단문이면서 두개의 시작점 후보 사이에 하나 이상의 본동사가 존재하는 경우에 대해 두 시작점 후보 구간 사이의 전부 또는 일부의 슬롯 열에 대해 패턴 매칭을 시도하여 매칭되는 끝점 패턴이 존재하는 경우에 이를 끝점 후보로 추출한다.
이때, 시작점과 끝점의 후보 인식에 있어서 애매성이 발생하는 경우에는 모든 후보를 인식하고, 이후의 단문 문틀 매칭을 통해 애매성을 해소함으로써 올바른 시작점을 선택한다. 단문 문틀 매칭은 시작점 후보와 끝점 후보 추출의 애매성을 해소하고 올바른 시작점과 끝점을 결정하기 위한 것으로서, 단문 문틀과 단문 후보가 매칭되었다는 것은 단문 후보가 하나의 올바른 단문의 형태라는 것을 의미한다.
이러한 단문 문틀 매칭을 시도하기 위해 우선 영어 문장의 처음 부분부터 시작점 후보와 대응되는 끝점 후보 사이를 단문 후보로 추출한다(506).
단문 후보가 추출되면 단문이 속한 절의 종류에 따라 도치나 생략에 의해 문장의 주어나 목적어가 생략된 경우에 단문 후보의 문장 복원을 수행한다(507). 문장 복원은 접속사 및 관계사를 제외한 문틀이 동사로 시작하는 경우에 명사 슬롯을동사 앞에 추가하고 관계절 및 의문사가 이끄는 절에 있어 목적어가 생략된 경우에 목적어 위치를 추정하여 명사 슬롯을 추가하여 문장 복원을 수행한다.
이후, 문장 복원된 단문 후보에 대해 단문 문틀 데이터베이스에서 가져온 단문 문틀과의 매칭을 시도하고(508) 문틀 매칭이 성공인지를 판단하여(509) 매칭이 성공하면 이를 단문으로 추출해 내고, 실패이면 단문 후보 추출 과정(506)으로 진행한다.
이후, 단문이 추출된 나머지 문장에 대해서 동일한 형태로 단문 후보를 추출해 내고 문장 복원을 수행한 후 문틀 매칭을 반복하여 수행한다(506 내지 510). 즉, 단문으로 분할하고자 하는 영어 문장이 남아 있는 경우에는 다른 시작점 후보와 끝점 후보 사이의 단문 후보에 대해 단문 후보 추출 과정(506)부터 반복 수행하여 영어 문장 전체를 단문들로 분할해 낸다.
상술한 바와 같은 본 발명의 방법은 프로그램으로 구현되어 컴퓨터로 읽을 수 있는 형태로 기록매체(씨디롬, 램, 롬, 플로피 디스크, 하드 디스크, 광자기 디스크 등)에 저장될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
상기와 같은 본 발명은, 문장 분할 및 치환을 통하여 처리해야할 문틀 길이를 줄이고 전체 절 단위 구조를 반영하는 문틀 매칭 및 부분문틀간 결합을 단계적으로 반복하여 번역을 수행함으로써, 의미적으로 자연스러운 대역문을 만들어내면서도 문틀 기반이 가지고 있는 커버리지 문제를 해결할 수 있는 효과가 있다.
즉, 본 발명은 문틀 기반 자동 번역에서 정확성 높은 부분문틀 인식과 절 단위 구조 분석, 단계적 문틀 적용 및 부분문틀 결합을 통해 높은 커버리지와 고 품질의 장문 번역을 얻을 수 있는 효과가 있다.

Claims (10)

  1. 부분문틀을 이용한 장문 번역 장치에 있어서,
    입력받은 장문에 대하여 전처리를 수행하여 구문 정보를 얻기 위한 전처리 수단;
    상기 전처리 수단을 통하여 얻은 구문 정보를 이용하여 상기 입력 장문에 대한 원문틀을 생성하기 위한 원문틀 생성 수단; 및
    상기 원문틀 생성 수단에서 생성된 원문틀을 부분문틀로 분할하여 단문을 인식하여 번역한 후에 전체 문틀 탐색과 번역 및 부분문틀 결합과 번역 과정을 반복적으로 수행하여 장문을 번역하기 위한 부분문틀 처리 수단
    을 포함하는 부분문틀을 이용한 장문 번역 장치.
  2. 제 1 항에 있어서,
    상기 부분문틀 처리 수단은,
    상기 원문틀 생성 수단에서 생성된 원문틀을 분할하여 부분문틀을 인식하고 분할된 각 부분문틀에 대한 번역을 수행한 후에, 전체 문틀을 연결하는 문틀에 의해 전체 번역을 수행하고, 전체를 연결하는 문틀이 존재하지 않으면 절 단위 구조 분석을 통해 부분문틀 간을 결합하여 번역하는 과정과 부분문틀을 하나의 노드로 치환하여 축소된 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하여 입력 장문을 번역하는 것을 특징으로 하는 부분문틀을 이용한 장문 번역 장치.
  3. 제 2 항에 있어서,
    상기 부분문틀 처리 수단은,
    원문틀 데이터베이스 탐색, 대역문틀 선택, 대역어 생성 과정을 수행하여 상기 하나의 부분문틀을 번역하는 것을 특징으로 하는 부분문틀을 이용한 장문 번역 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 부분문틀 처리 수단은,
    구문 정보를 이용하여 단문의 시작점을 추출한 후에 시작점 패턴을 이용하여 시작점 후보를 추출하고,
    상기 시작점 후보에 대응되는, 관계사절이 아닌 단문의 끝점 후보들을 추출한 후에 끝점 패턴을 이용하여, 관계사로 연결된 단문의 끝점 후보를 추출하며,
    단문 후보를 추출하고 복원한 후에 문틀 매칭을 수행하여 전체 문장에 대하여 단문을 추출하여 문장을 분할하는 것을 특징으로 하는 부분문틀을 이용한 장문 번역 장치.
  5. 부분문틀을 이용한 장문 번역 장치에 적용되는 장문 번역 방법에 있어서,
    장문을 전처리한 결과에 따라 문장 분할을 수행하여 하나 이상의 단문들로 분할하는 제 1 단계;
    상기 분할된 단문들을 인식하여 문틀 매칭을 통해 단문 번역을 수행하는 제 2 단계;
    전체 문틀을 탐색하여 전체 문틀 번역을 수행한 후에 전체 문틀 번역이 성공인지를 판단하는 제 3 단계; 및
    상기 제 3 단계의 판단 결과, 성공이면 번역 결과를 출력하고, 실패이면 부분문틀을 결합하여 번역하는 과정과 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하는 제 4 단계
    를 포함하는 부분문틀을 이용한 장문 번역 방법.
  6. 제 5 항에 있어서,
    상기 장문 분할 과정은,
    구문 정보를 이용하여 단문의 시작점 후보들을 추출하고, 시작점 패턴을 이용하여 시작점 후보들을 추출하는 제 5 단계;
    상기 추출된 시작점 후보를 이용하여 끝점 후보들을 추출하고, 끝점 패턴을 이용하여 끝점 후보들을 추출하는 제 6 단계; 및
    단문 후보를 추출하고 복원한 후에 문틀 매칭을 수행하여 전체 문장에 대하여 단문을 추출하는 제 7 단계
    를 포함하는 부분문틀을 이용한 장문 번역 방법.
  7. 제 6 항에 있어서,
    상기 제 7 단계는,
    상기 시작점 후보와 대응되는 끝점 후보 사이의 단문 후보를 추출하는 제 8 단계;
    상기 추출된 단문 후보를 문법적으로 완전한 문장으로 복원하는 제 9 단계;
    상기 복원된 단문 후보에 대해 단문 문틀과의 매칭을 시도하여 매칭 성공 여부에 따라 시작점 후보와 끝점 후보를 시작점과 끝점으로 결정하고 단문 후보를 단문으로 결정하는 제 10 단계; 및
    장문 전체를 단문들의 집합으로 분할할 때까지 상기 제 8 단계부터 반복 수행하는 제 11 단계
    를 포함하는 부분문틀을 이용한 장문 번역 방법.
  8. 제 6 항 또는 제 7 항에 있어서,
    상기 제 5 단계는,
    입력 장문에 대한 부분 구문 분석의 결과인 슬롯 열로부터 접속사, 관계사, 구두점 등의 단문 시작점 후보를 추출하는 제 12 단계; 및
    접속사의 생략 등으로 인하여 상기 제 12 단계에서 추출되지 않은 시작점 후보들을 단문 시작점 패턴의 매칭을 통하여 추출하는 제 13 단계
    를 포함하는 부분문틀을 이용한 장문 번역 방법.
  9. 제 6 항 또는 제 7 항에 있어서,
    상기 제 6 단계는,
    관계사로 연결되지 않은 단문에 대하여 다음 단문의 시작점을 단문의 끝점으로 추출하는 제 12 단계; 및
    관계사로 연결된 단문의 끝점을 단문 끝점 패턴을 이용하여 추출하는 제 13 단계
    를 포함하는 부분문틀을 이용한 장문 번역 방법.
  10. 부분문틀을 이용하여 장문을 번역하기 위하여, 프로세서를 구비한 장문 번역 장치에,
    장문을 전처리한 결과에 따라 문장 분할을 수행하여 하나 이상의 단문들로 분할하는 제 1 기능;
    상기 분할된 단문들을 인식하여 문틀 매칭을 통해 단문 번역을 수행하는 제 2 기능;
    전체 문틀을 탐색하여 전체 문틀 번역을 수행한 후에 전체 문틀 번역이 성공인지를 판단하는 제 3 기능; 및
    상기 제 3 기능에서의 판단 결과, 성공이면 번역 결과를 출력하고, 실패이면 부분문틀을 결합하여 번역하는 과정과 전체 문틀을 탐색하여 번역하는 과정을 반복 수행하는 제 4 기능
    을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR10-2000-0083295A 2000-12-27 2000-12-27 부분문틀을 이용한 장문 번역 장치 및 그 방법 KR100420474B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083295A KR100420474B1 (ko) 2000-12-27 2000-12-27 부분문틀을 이용한 장문 번역 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0083295A KR100420474B1 (ko) 2000-12-27 2000-12-27 부분문틀을 이용한 장문 번역 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20020054244A true KR20020054244A (ko) 2002-07-06
KR100420474B1 KR100420474B1 (ko) 2004-03-02

Family

ID=27686998

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0083295A KR100420474B1 (ko) 2000-12-27 2000-12-27 부분문틀을 이용한 장문 번역 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100420474B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
KR100836159B1 (ko) * 2006-10-13 2008-06-09 에스케이 텔레콤주식회사 반자동 번역 서비스 제공 시스템 및 방법
KR100967555B1 (ko) * 2009-06-25 2010-07-05 김지훈 영어교육을 위한 이-러닝 방법 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101301535B1 (ko) 2009-12-02 2013-09-04 한국전자통신연구원 하이브리드 번역 장치 및 그 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182346A (ja) * 1993-12-22 1995-07-21 Sharp Corp 機械翻訳装置
JPH09106399A (ja) * 1995-08-08 1997-04-22 Matsushita Electric Ind Co Ltd 機械翻訳装置及び機械翻訳方法
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
JPH1021239A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 機械翻訳装置及び翻訳処理方法
KR19980031976A (ko) * 1996-10-31 1998-07-25 김광호 영한 기계 번역 시스템을 위한 영어 장문 분할 방법
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100805190B1 (ko) * 2006-09-07 2008-02-21 한국전자통신연구원 영어 문장 분리 장치 및 방법
KR100836159B1 (ko) * 2006-10-13 2008-06-09 에스케이 텔레콤주식회사 반자동 번역 서비스 제공 시스템 및 방법
KR100967555B1 (ko) * 2009-06-25 2010-07-05 김지훈 영어교육을 위한 이-러닝 방법 및 시스템

Also Published As

Publication number Publication date
KR100420474B1 (ko) 2004-03-02

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US5528491A (en) Apparatus and method for automated natural language translation
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US20030061023A1 (en) Automatic extraction of transfer mappings from bilingual corpora
US20140163951A1 (en) Hybrid adaptation of named entity recognition
US20040002848A1 (en) Example based machine translation system
EP1349079A1 (en) Machine translation
Antony et al. Computational morphology and natural language parsing for Indian languages: a literature survey
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Ratnaparkhi et al. A maximum entropy model for parsing.
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP3309174B2 (ja) 文字認識方法及び装置
US20220004708A1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons
KR100422809B1 (ko) 기계 번역을 위한 장문 분할 방법
JP4033093B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JP2632806B2 (ja) 言語解析装置
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
CN112016301B (zh) 一种融合短语先验知识的依存句法分析方法及装置
KR20010057763A (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20130102926A (ko) 중국어 자동 번역을 위한 생략 성분 복원 방법 및 장치, 이를 포함하는 중국어 자동 번역 방법 및 장치
Phyue Unknown word detection via syntax analyzer

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20091228

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee