KR19990015131A

KR19990015131A - 영한 자동번역 시스템의 숙어 번역 방법

Info

Publication number: KR19990015131A
Application number: KR1019970037040A
Authority: KR
Inventors: 권철중; 오기은
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1997-08-02
Filing date: 1997-08-02
Publication date: 1999-03-05

Abstract

본 발명은 숙어 표현을 번역 과정이 비슷한 형태들로 분류한 숙어 표현에 대한 처리를 번역 과정의 앞단에서 수행하는 영한 자동번역 시스템의 숙어 번역 방식에 관한 것으로,

영어 문장을 입력 받는 단계와; 영어 형태소 해석기가 입력된 문장내의 단어들을 분리하여, 각 단어의 품사를 밝히고, 해석에 필요한 정보를 부가하여 영어 구문해석기의 입력으로 넘겨 주는 영어 형태소 해석 단계와; 정규표현 숙어 처리기가 정규문법으로 표현이 가능한 숙어를 핵심 단어를 중심으로 표현되어 있는 숙어사전에서 참조하여 최장일치 우선 방식으로 처리하는 정규표현 숙어 처리 단계와; 문맥자유문법으로 표현이 가능한 숙어를 상기 숙어사전에서 참조하여 역시 최장 일치 우선 방식을 이용하여 처리하는 문맥자유표현 숙어처리 단계와; 영어 구문해석기가 상기 정규표현 숙어 처리 단계 및 상기 문맥자유표현 숙어처리 단계에서 처리되어 추출된 숙어를 일반적인 구문 규칙들을 이용하여 문장의 구문 해석 기능을 수행하는 영어 구문해석 단계와; 영어 의미해석기가 상기 영어 구문 해석기에서 밝힌 구문 구조를 입력으로 하여 의미단위로 이루어지고 영어의 어순등이 반영된 의미구조를 만들어내는 영어 의미해석 단계와; 영한변환기가 상기 의미구조를 한국어에 맞게 번역하는 영한변환단계와; 한국어 구문생성기가 한국어 의미구조로 변환된 의미구조를 입력으로 하여 한국어 구문 구조를 만들어 주는 한국어 구문생성단계와; 한국어 형태소 생성기가 한국어 구문 구조에 있는 단어들을 이용하여 한국어 음운현상을 처리하여 한국어 형태소를 생성하는 한국어 형태소 생성 단계와 상기 한국어 형태소 생성기에 의해 한국어 문장을 생성하는 단계를 포함하여 이루어진다.

Description

영한 자동번역 시스템의 숙어 번역 방법

본 발명은 영한 자동번역에서 숙어 번역 방식에 관한 것으로 특히, 숙어 표현을 번역 과정이 비슷한 형태들로 분류하고 분류된 숙어 표현을 숙어적 표현의 처리를 번역 과정의 앞단에서 수행하는 영한 자동번역에서 숙어 번역 방식에 관한 것이다.

일반적으로 자연언어에는 일반적인 분석, 변환 및 생성의 과정을 거치는 일반적인 번역방식으로 번역하기에 어려운 표현들이 있다. 이러한 표현들을 숙어(idiom)라고 한다. 숙어는 그 표현된 형태에 따라서 적절한 모듈에서 고려해 주는 것이 필요하다.

번역시스템에서 대상으로 하는 숙어는 원시언어(영한 번역시 영어) 자체의 숙어 표현 뿐만이 아니고, 원시언어 문장에서 나타나는 단어들의 번역어휘 조합으로 쉽게 목적언어를 생성할 수 없는 표현까지도 포함한다.

이하, 도 1을 참조하여 종래 변환단계 숙어 처리 번역시스템의 숙어 처리 방식을 설명한다.

도 1은 종래 변환단계 숙어 처리 번역시스템의 숙어 처리 과정 흐름도이다.

도시된 바와 같이, 먼저 단계(101)에서는 영어 문장을 입력 받는다.

그후, 단계(102)에서는 영어 형태소 해석기가 문장내의 단어들을 분리하여, 각 단어의 품사를 밝히고, 해석에 필요한 정보를 부가하여 영어 구문해석기의 입력으로 넘겨준다.

단계(103)에서는, 상기 영어 구문해석기는 상기 형태소 해석기에서 밝힌 품사를 기준으로 문장의 구문 구조를 밝혀낸다.

단계(104)에서는, 영어 의미해석기가 상기 구문 해석기에서 밝힌 구문 구조를 입력으로 하여 의미단위로 이루어진 의미구조를 만들어낸다. 이 의미구조는 영어의 어순등이 반영되어 있다.

단계(105)에서는, 영한변환기가 상기 의미구조를 한국어에 맞게 번역해준다. 이 영한 변환기는 영어 의미구조의 의미 단위(혹은 단어)에 해당하는 한국어 의미단위(혹은 단어)로 변환(혹은 번역)해 준다.

단계(106)에서는, 영한 숙어 처리기가 상기 단계(105)의 수행중, 앞서 언급한 숙어적 표현, 또는 단순 번역어 조합에 의한 번역이 어려운 표현에 대해 번역을 해준다.

단계(107)에서는, 상기 숙어처리기가 숙어를 처리하기 위하여 이미 지나쳐온 영어문장, 영어 품사열등의 문장표현구조를 숙어사전 모듈을 통하여 다시 참조한다.

단계(108)에서는, 한국어 구문생성기가 한국어 의미구조로 변환된 의미구조를 입력으로 하여 한국어 구문 구조를 만들어 준다. 단계(108)에서 만들어 진 한국어 구문구조에는 조사, 어미등의 활용 형태에 따른 단어들이 구체적으로 생성되어 있다.

단계(109)에서는, 한국어 형태소 생성기가 한국어 구문 구조에 있는 단어들을 이용하여 한국어 음운현상을 처리하여 한국어 형태소를 생성한다.

단계(110)에서는, 상기 한국어 형태소 생성기가 한국어 문장을 생성해준다.

이와같은 형태로 구성된 종래 변환단계 숙어 처리 번역시스템의 숙어 처리 과정은 숙어의 처리 관점에서 보면 아래와 같은 문제점이 발생한다.

(1) 숙어에 해당하는 예외적인 표현에 대해서도 구문/의미 해석이 가능하도록 하기 위하여 많은 수의 예외적 표현에 대한 처리 규칙들이 요구된다.

(2) 숙어 표현이 임의의 구구조에 해당하는 경우 (예를들어, “do a hand's turn”과 같은 표현은 동사구 VP의 구조를 갖는다), 구문해석 단계에서 그 구조만을 확인만 하고, 그 구구조의 하위 구조를 분석할 필요없이 구문/의미 해석을 수행하므로써 번역 시스템의 효율을 올릴수 있다.

그러나 종래 변환단계 숙어 처리 번역시스템의 숙어 처리 과정에서 처럼 변환 단계에서 숙어를 처리하는 경우, 구문/의미 해석 단계에서 숙어 표현에 대한 처리 시간만큼의 부하가 발생하게 된다.

따라서, 본 발명은 상기와 같은 문제점을 해결하기 위하여, 숙어적 표현이 형태소해석 이후, 구문 해석 단계에서 처리되므로써 품사애매성 및 구문 애매성을 감소시켜 영한 번역 시스템 전체의 수행 시간을 감소시키는 영한 자동번역 시스템에서 숙어 번역 방법을 제공하는 것을 목적으로 한다.

도 1은 종래 변환단계 숙어 처리 번역시스템의 숙어처리 과정을 나타낸 흐름도이다.

도 2는 본 발명에 따른 해석단계숙어 처리 번역시스템의 숙어처리 과정을 나타낸 흐름도이다.

상기와 같은 목적을 달성하기 위하여, 본 발명은 영어 문장을 입력 받는 단계와; 영어 형태소 해석기가 문장내의 단어들을 분리하여, 각 단어의 품사를 밝히고, 해석에 필요한 정보를 부가하여 영어 구문해석기의 입력으로 넘겨 주는 영어 형태소 해석 단계와; 정규표현 숙어 처리기가 정규문법(regular grammar)으로 표현이 가능한 숙어를 핵심 단어를 중심으로 표현되어 있는 숙어사전에서 참조하여 최장일치 우선 방식으로 처리하는 정규표현 숙어 처리 단계와; 문맥자유문법(context free grammar)으로 표현이 가능한 숙어를 상기 숙어사전에서 참조하여 역시 최장 일치 우선 방식을 이용하여 처리하는 문맥자유표현 숙어처리 단계와; 영어 구문해석기가 상기 정규표현 숙어 처리 단계 및 상기 문맥자유표현 숙어처리 단계에서 처리되어 추출된 숙어를 일반적인 구문 규칙들을 이용하여 문장의 구문 해석 기능을 수행하는 영어 구문해석 단계와; 영어 의미해석기가 상기 영어 구문 해석기에서 밝힌 구문 구조를 입력으로 하여 의미단위로 이루어지고 영어의 어순등이 반영된 의미구조를 만들어내는 영어 의미해석 단계와; 영한변환기가 상기 의미구조를 한국어에 맞게 번역하는 영한변환단계와; 한국어 구문생성기가 한국어 의미구조로 변환된 의미구조를 입력으로 하여 한국어 구문 구조를 만들어 주는 한국어 구문생성단계와; 한국어 형태소 생성기가 한국어 구문 구조에 있는 단어들을 이용하여 한국어 음운현상을 처리하여 한국어 형태소를 생성하는 한국어 형태소 생성 단계와; 상기 한국어 형태소 생성기에 의해 한국어 문장을 생성하는 단계를 포함하여 이루어진다.

본 발명에서는 숙어 표현을 번역 과정이 비슷한 형태들로 분류하고, 각각의 분류에 대한 처리를 해주는 모듈을 제안하였다.

본 발명에서 제안한 숙어 처리 모듈들은 이전의 숙어 처리 모듈들이 영한변환단계에서 숙어적 표현을 처리한 것과는 달리 영어 형태소해석 이후, 영어 구문해석 단계에서 숙어적 표현을 처리할 수 있도록 하였다. 숙어적 표현의 처리를 번역 과정의 앞단에서 수행함으로써 품사애매성, 구문애매성을 감소시켜 번역시스템 전체의 수행 시간을 감소시킨다.

이하, 도 2를 참조하여 본 발명에서 제안하는 해석단계숙어 처리 번역시스템의 숙어 처리 방식을 설명한다.

도 2는 본 발명에서 제안하는 해석단계숙어 처리 번역시스템의 숙어처리 흐름도이다.

도시된 바와 같이, 상기 해석단계숙어 처리 번역시스템의 숙어 처리 과정은 영어 문장을 입력 받는 단계(201), 영어 형태소 해석 단계(202), 정규표현 숙어 처리 단계(204), 문맥자유표현 숙어처리 단계(206), 영어 구문해석 단계(205), 영어 의미해석 단계(207), 영한변환단계(208), 한국어 구문생성단계(209), 한국어 형태소 생성 단계(210), 한국어 문장 생성 단계(211)를 포함하여 이루어진다.

상기 영한변환단계(208)는 영한 변환기가 영어 의미구조의 의미 단위(혹은 단어)에 해당하는 한국어 의미단위(혹은 단어)로 변환(혹은 번역)해 준다. 상기 단계(208)에서 만들어 진 한국어 구문구조에는 조사, 어미등의 활용 형태에 따른 단어들이 구체적으로 생성되어 있다.

상기 영어 의미해석 단계(207), 영한변환단계(208), 한국어 구문생성단계(209), 한국어 형태소 생성 단계(210) 및 한국어 문장 생성 단계(211)는 상기한 종래의 변환단계 숙어처리 번역시스템의 상기 영어 의미해석 단계(104), 영한변환단계(105), 한국어 구문생성단계(209),한국어 형태소 생성 단계(109), 한국어 문장 생성단계(110)와 동일한 모듈이다.

그리고 정규표현 숙어 처리 단계(204) 및 문맥자유표현 숙어처리 단계(206)에서는 숙어 정보가 핵심 단어를 중심으로 표현되어 있는 숙어 사전을 이용하여 숙어를 처리한다.

상기 단계(204)에서는 정규표현 숙어 처리기가 정규문법(regular grammar)으로 표현이 가능한 숙어를 상기 숙어사전에서 참조하여 최장일치 우선의 방식으로 처리한다.

상기 단계(206)에서는 문맥자유표현 숙어처리기가 문맥자유문법(context free grammar)으로 표현이 가능한 숙어를 상기 숙어사전에서 참조하여 역시 최장 일치의 방법을 이용하여 처리한다.

여기서, 상기 최장일치 방식이란 숙어가 포함하는 부분문장의 길이가 가장 긴 것을 우선하는 방식이다.

그리고, 상기 정규표현 숙어처리기 및 문맥자유표현 숙어처리기는 각각 상기 단계(204) 및 단계(206)에서 숙어 사전으로부터 입력 문장에 나타난 단어에 해당하는 숙어들만을 참조한다. 상기 문맥자유표현 숙어처리기는 상기 단계(205)에서 상기 영어 구문 해석기에 의하여 호출되어 사용된다.

즉, 상기 단계(208)에서는 이미 상기 단계(204)와 단계(206)에서 숙어처리를 했기 때문에 상기 영한 변환기가 숙어 처리에 대한 별도의 단계를 참조하지 않는다.

이하, 상기 구성에 의한 본 발명의 동작원리를 설명한다.

상기 영어 형태소 해석 단계(202)에서는, 상기 영어 형태소 해석기가 상기 단계(201)에서 입력된 영어문장에 대해 문장내의 단어들을 분리하여, 각 단어의 품사를 밝히고, 해석에 필요한 정보를 부가하여 그결과를 다음과 같이 표현한다.

S : ((W1 C1 F1) (W2 C2 F2) ... (Wn Cn Fn))

여기에서 W1 ... Wn은 단어를 나타낸다. C1 ... Cn은 각각 W1 ... Wn에 대응하는 품사를 나타낸다. F1 ... Fn은 각각 W1 ... Wn에 대응하는 품사이외의 해석에 필요한 부가적인 정보를 나타낸다. 여기에서 S는 문장을 표현한다.

또한 숙어사전은 확장된 BNF로 다음과 같이 표현할 수 있다.

숙어사전

idiom-dict ::= word+

word ::= Wx (XP:a1, ... ~ ..., an == KP)*

(YP:EP1 ..., ~, ... EPn == K1 ... Kn)*

위의 표현의 의미는 숙어사전은 하나 이상의 단어로 이루어져 있고, 각 단어에 대한 숙어 표현 형식은 “단어 (0개 이상의 정규표현숙어) (0개이상의 문맥자유표현숙어)”로 이루어져 있음을 의미한다.

Wx는 인덱스 단어, a1 ... an은 영어 단어, ~는 인덱스 단어 Wx를, KP는 한국어 구문을 의미한다.

XP는 영어의 구구조 이름이거나(예를들어, PP, ADVP NP등) 품사이름을 나타낸다.

YP는 영어의 구구조 이름을 나타내며, EP1 ... EPn은 영어 단어 혹은 구구조 이름을 나타낸다.

K1 ... Kn은 한국어 단어 혹은 EP1 ... EPn에 포함된 영어 구구조 이름에 해당하는 한국어 대역어가 대치될 곳을 의미한다.

정규표현 숙어처리 단계(204)에서는, 상기 정규표현 숙어처리기가 품사 및 부가정보가 첨부된 상기 영어 형태소 해석단계(202)의 결과에 대하여 위와 같은 형식으로 표현된 숙어사전으로부터 각 단어에 해당하는 숙어를 추출한다.

이때 숙어를 추출하는 과정에서 정규표현 숙어들 중, 주어진 문장 S의 부분 문장들과 정확하게 맷치(match)되는 것들만을 추출하여 다음과 같은 형태로 나열해둔다.

(Idm1 i1,j1) (Idm2 i2,j2) ... (Idmn in, jn)

위의 표현에서 Idmx는 숙어에 관련 정보를 의미하며 편의상 이하에서는 idmx에 나타나는 숙어의 결과 구조를 XPx로 표현한다. ix는 숙어가 문장에서 시작하는 위치를, jx는 숙어가 끝나는 위치를 나타낸다 (단, x는 1 ... n을 나타냄). 이와같이 걸러져서 추출된 숙어들은 상호간에 일부분을 혹은 전체가 겹쳐질수 있다.

따라서, 추출된 숙어가 상호 겹쳐진 표현인 경우에는 어느 하나를 선택해야한다.

그러나, 3개이상의 숙어가 겹쳐서 나타날 수 있으므로 어떤 숙어를 선택하기 위해서 “최장일치숙어 선택” 방식을 사용하였다.

최장일치숙어 선택 방식이란 숙어들중 jx - ix값이 가장 큰 숙어를 먼저 선택하고, 다시 재귀적으로 1 ~ ix-1 사이의 숙어중 jy - iy가 가장 큰 값을 가진 숙어를 선택한 후, jx+1 ~ n사이에서 jz - iz의 값이 가장 큰 숙어를 선택한다.

유사한 방식으로 나머지 구간에 대해서 숙어가 없을 때까지 재귀적으로 수행한다.

이렇게하여, 서로 겹치지 않는 숙어가 나타나게 된다.

이와같이 정규표현 숙어의 선택이 끝나면 숙어의 표현 결과구조인 XP를 이용하여 형태소 결과 구조를 아래와 같이 변형시켜준다. 표현을 용이하게 하기 위하여 결정된 숙어가 (Idm1 2,4) (Idm2 7,10)인 경우라고 가정한다.

S : ((W1 C1 F1) (Idm1 2,4) (W5 C5 F5) (W6 C6 F6) (Idm2 7,10) ... (Wn Cn Fn))

위의 표현은 품사 및 부가 정보가 첨부된 단어열이 부분적으로 숙어의 결과 구조로 대치되어 있음을 나타낸다. 이 결과는 상기 영어구문해석 단계(205)의 입력으로 주어진다.

상기 영어 구문 해석 단계(205)에서는 일반적인 구문 규칙들을 이용하여 구문 해석 기능을 수행한다. 그러나, 위의 결과 표현은 숙어에 해당하는 문장 부분을 이미 파싱된 것으로 가정하는 것이 가능하다.

따라서, 구문 해석 알고리듬의 간단한 수정을 통하여 숙어에 해당하는 문장 부분을 구문해석하지 않고 전체문장을 구문해석하는 것이 가능하게 한다.

구문 해석 알고리듬의 수정은 개별 알고리듬에 따라서 구체화될 수 있다.

일반적인 LR 파싱 알고리듬의 경우 넌터미널(Nonterminal)에 대한 시프트모듈을 개발하는 것이다.

즉, 입력문장에 터미널 심볼 인 품사만이 오는 것이 아니라, 넌터미널 심볼인 구구조이름이 올 수 있으므로 넌터미널 시프트 액션을 추가하는 것이다.

그리고 터미널 심볼 시프트를 행할 것인지 아니면, 넌터미널 심볼 시프트를 행할 것인지는 결정적(deterministic)이므로 문제가 되지 않는다.

다만, 입력문장내에서 다음에 오는 심볼이 구구조이름 즉, 넌터미널 심볼인 경우 룩어헤드(lookahead)가 없게 되므로 이를 보강하기 위하여 숙어 표현내의 첫번째 단어에 대한 품사 정보는 숙어 표현내에 그대로 살려주는 것이 필요하다.

일반적인 챠트파싱(chart parsing)의 경우는 더욱 간단하게 해결이 가능하다.

즉, 최초 차트(Initial chart)를 만들때 단지 숙어 표현에 해당하는 넌터미널에 대한 비활성 에지(Inactive Edge)를 만들어 주면, 기존의 알고리듬으로도 구문 해석이 가능하다.

문맥자유표현 숙어 처리 단계(206)에서는, 상기 영어 구문해석 단계(205)로 하여금 숙어 표현이 문맥자유문법의 규칙으로 표현되어 있는 문맥자유 표현숙어를 처리할 수 있도록 상기 영어 구문해석 단계(205)에 동적(dynamic)으로 숙어규칙을 추가할 수 있다.

상기 영어 구문 해석 단계(205)의 알고리듬에 따라 문맥자유표현 숙어 처리 단계(206)의 구체적인 처리절차는 변경이 가능하다.

반면에, 일반화된 LR 파싱 알고리듬의 경우, 동적인 숙너규칙의 추가는 매우 어렵다. 이는 구체적인 숙어규칙은 이미 파싱 테이블을 만드는 과정에서 파싱테이블 내의 액션형태로 바뀌어 있기 때문에 파싱 테이블내의 액션과 외부의 규칙을 구문해석의 실행시간에 적용하는 것은 매우 어렵다.

따라서, 일반화된 LR 파싱 알고리듬에서 숙어규칙을 동적으로 추가할 수 있도록 하기 위하여 몇 종류의 메타(Meta) 규칙을 파싱 테이블을 만드는 과정에서 추가하여 숙어규칙이 동적으로 반영된 파싱 테이블을 이용하는 것이다.

다음과 같은 메타규칙은 한 예라고 할 수 있다.

VP - VG XP idmstr XP

여기서, VP는 동사구, VG는 동사그룹을 나타내며 동사, 부정어, 동사수식 부사등으로 이루어진 구조이다. XP는 NP, PP 등의 구구조에 대한 메타 심볼을 나타낸다. 즉, 구체적인 숙어의 처리시 XP는 적절한 구구조이름으로 유도된다. idmstr은 문장에 나타나는 구체적인 단어열을 대치할 수 있는 터미널 심볼이다.

따라서 위와같은 메타 규칙은 prevent us from going out과 같은 숙어를 처리하는데 적용이 가능하게 된다. 즉, prevent us from going out은 prevent NP from NP(ing)의 형태로 숙어가 표현되며, 실제 문장에서 from은 idmstr이라는 터미널 심볼로 대치되어 표현이 가능하다.

문맥자유 표현숙어 처리단계(206)에서는 위와같은 메타 규칙의 사용이외에 정규표현숙어 처리 단계(205)의 결과표현을 선형구조가 아닌 격자구조로 대치하여야 한다.

즉 위의 예에서 처럼 idmstr에 해당하는 부분을 표현구조에 삽입하여야 한다.

일반적인 차트 파싱 알고리듬의 경우엔, 문맥자유표현 숙어 처리단계(206)에서 위와같은 메타규칙을 추가할 필요가 없다.

단지 그 문장에 있는 해당 숙어 규칙을 상기 영어 구문해석 단계(205)에 추가하여 상기 영어 구문해석 단계(205)로 하여금 구문 해석을 가능케 하면 된다.

상기 영어 구문해석 단계(205)로부터 생성된 구문구조를 가지고 수행되는 단계(207 내지 211)는 각각 상기 종래의 변환단계 숙어처리 번역 방식에서 설명한 영어 의미해석 단계(104), 영한변환단계(105), 한국어 구문생성단계(108), 한국어 형태소 생성 단계(109), 한국어 문장 생성 단계(110)와 동일하다.

본 발명에서는 숙어처리를 형태소 해석, 구문해석 단계에서 처리하여, 숙어로부터 파생될수 있는 시스템의 부하를 구문해석 이후의 단계에서 감소시킴으로써 번역시스템 전체의 실행시간을 줄여주는 효과가 있다.

또한, 숙어를 정규표현숙어와 문맥자유표현숙어로 나누어서 각각의 표현숙어에 적절한 처리 알고리듬을 도입함으로써 숙어적 표현으로 파생가능한 번역시스템의 성능저하를 감소시키는 효과가 있다.

또한 예외적 표현 형태를 숙어로 처리하여 구문/의미 해석 단계에서 예외적인 많은 규칙들이 생성되는 것을 방지할 수 있다.

본 발명에서 제안한 일반화된 LR 파싱 알고리듬에서의 문맥자유표현숙어 처리 방법은 일반화된 LR 파싱의 장점을 숙어처리에서 살릴수 있는 효과를 준다.

숙어처리를 구문해석 단계에서 처리함으로써, 구문애매성 해결시 숙어에 따른 가중치를 부여하여 사용함으로써 구문애매성 해소의 성능을 향상시킬수 있다.

Claims

영어 문장을 입력 받는 단계와;

입력된 영어 문장내의 단어들을 분리하여, 각 단어의 품사를 밝히고, 해석에 필요한 정보를 부가하는 영어 형태소 해석 단계와;

정규문법으로 표현이 가능한 숙어를 핵심 단어를 중심으로 표현되어 있는 숙어사전에서 참조하여 최장일치 우선 방식으로 처리하는 정규표현 숙어 처리 단계와;

문맥자유문법으로 표현이 가능한 숙어를 상기 숙어사전에서 참조하여 최장일치 우선 방식을 이용하여 처리하는 문맥자유표현 숙어처리 단계와;

상기 정규표현 숙어 처리 단계 및 상기 문맥자유표현 숙어처리 단계에서 처리되어 추출된 숙어를 일반적인 구문 규칙들을 이용하여 문장의 구문 해석 기능을 수행하는 영어 구문해석 단계와;

상기 영어 구문 해석단계에서 밝힌 구문 구조를 입력으로 하여 의미단위로 이루어지고 영어의 어순등이 반영된 의미구조를 만들어내는 영어 의미해석 단계와;

상기 의미구조를 한국어 의미단위로 번역하는 영한변환단계와;

한국어 의미구조로 변환된 의미구조를 입력으로 하여 한국어 구문 구조를 만들어 주는 한국어 구문생성단계와;

조사, 어미등의 활용 형태에 따른 단어들이 구체적으로 생성되어 있 한국어 구문 구조에 있는 단어들을 이용하여 한국어 음운현상을 처리하여 한국어 형태소를 생성하는 한국어 형태소 생성 단계와

상기 생성된 한국어 형태소로 한국어 문장을 생성하는 단계를 포함하여 이루어지는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 영어 형태소 해석 단계는, 그 결과가

S : ((W1 C1 F1) (W2 C2 F2) ... (Wn Cn Fn))

로 표현되고,

여기에서 W1 ... Wn은 단어를 나타내고, C1 ... Cn은 각각 W1 ... Wn에 대응하는 품사를 나타내고, F1 ... Fn은 각각 W1 ... Wn에 대응하는 품사이외의 해석에 필요한 부가적인 정보를 나타내며, S는 문장을 표현하는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 상기 숙어사전에서 정규표현 숙어는

idiom-dict ::= word+

word ::= Wx (XP:a1, ... ~ ..., an == KP)* 로 표현되고,

상기 숙어사전에서 문맥자유 표현 숙어는

idiom-dict ::= word+

word ::= Wx (YP:EP1 ..., ~, ... EPn == K1 ... Kn)* 로 표현되며,

Wx는 인덱스 단어, a1 ... an은 영어 단어, ~는 인덱스 단어 Wx를, KP는 한국어 구문을 의미하고, XP는 영어의 구구조 이름이거나(예를들어, PP, ADVP NP등) 품사이름을 나타내고, YP는 영어의 구구조 이름을 나타내며, EP1 ... EPn은 영어 단어 혹은 구구조 이름을 나타내며, K1 ... Kn은 한국어 단어 혹은 EP1 ... EPn에 포함된 영어 구구조 이름에 해당하는 한국어 대역어가 대치될 곳을 의미하는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 상기 정규표현 숙어 처리 단계는 정규 표현 숙어중

주어진 문장의 부분 문장들과 정확하게 맷치되는 것들을 추출하여

(Idm1 i1,j1) (Idm2 i2,j2) ... (Idmn in, jn)

와 같이 나열하며,

여기서, Idmx는 숙어에 관련 정보를 의미하고, ix는 숙어가 문장에서 시작하는 위치를, jx는 숙어가 끝나는 위치를 나타내며, x는 1 ... n을 나타내는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 상기 정규 표현 숙어중

(Idm1 i1,j1) (Idm2 i2,j2) ... (Idmn in, jn)

형태로 표현되는 추출된 숙어들중 jx - ix값이 가장 큰 숙어를 먼저 선택하고, 다시 재귀적으로 1 ~ ix-1 사이의 숙어중 jy - iy가 가장 큰 값을 가진 숙어를 선택한 후, jx+1 ~ n사이에서 jz - iz의 값이 가장 큰 숙어를 선택하는 최장일치숙어 선택 방식을,

나머지 구간에 대해서 숙어가 없을 때까지 재귀적으로 수행하므로써 임의의 숙어를 선택하며,

여기서, Idmx는 숙어에 관련 정보를 의미하고, ix는 숙어가 문장에서 시작하는 위치를, jx는 숙어가 끝나는 위치를 나타내며, x는 1 ... n을 나타내는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 상기 문맥 자유 표현 숙어 처리 단계는 문맥 자유 표현 숙어중

일반화된 LR 파싱 알고리듬에서 숙어규칙을 동적으로 추가할 수 있도록 하기 위하여

VP - VG XP idmstr XP

와 같은 메타 규칙을 파싱 테이블을 만드는 과정에서 추가하여 숙어규칙이 동적으로 반영된 파싱 테이블을 이용하며,

여기서, VP는 동사구, VG는 동사그룹을 나타내며 동사, 부정어, 동사수식 부사등으로 이루어진 구조이고,

XP는 NP, PP 등의 구구조에 대한 메타 심볼을 나타내므로써, 구체적인 숙어의 처리시 XP는 적절한 구구조이름으로 유도되고, idmstr은 문장에 나타나는 구체적인 단어열을 대치할 수 있는 터미널 심볼인 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.
제 1 항에 있어서, 영어 구문해석 단계는 일반적인 구문 규칙이

LR 파싱 알고리듬인 경우엔, 넌터미널에 대한 시프트모듈을 개발하여 입력문장에 구구조이름을 입력의 일부분으로 다루므로써 숙어에 해당하는 문장 부분을 구문해석하지 않고 전체문장을 구문해석할 수 있으며,

일반적인 챠트파싱의 경우엔, 이니셜 차트를 만들때 단지 숙어 표현에 해당하는 넌터미널에 대한 비활성 에지를 만들어 기존의 알고리듬으로도 구문 해석할 수 있는 것을 특징으로 하는,

영한 자동번역 시스템의 숙어 번역 방법.