KR20000043739A

KR20000043739A - 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법

Info

Publication number: KR20000043739A
Application number: KR1019980060156A
Authority: KR
Inventors: 이종혁; 문경희; 홍영국
Original assignee: 이계철; 한국전기통신공사; 정명식; 학교법인 포항공과대학교
Priority date: 1998-12-29
Filing date: 1998-12-29
Publication date: 2000-07-15
Also published as: KR100282546B1

Abstract

1. 청구범위에 기재된 발명이 속하는 기술분야

본 발명은 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법에 관한 것임.

2. 발명이 해결하고자 하는 기술적 과제

본 발명은 입력문장에서 다어절 변환 단위를 인식하여 일본어로 변환하기위한 방법을 제공하고자 함.

3. 발명의 해결 방법의 요지

본 발명은 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법에 있어서, 입력문장 중의 다어절 변환 단위(MWTU)를 변환 시키기 위하여 변수값을 초기화하는 제 1 단계; 다어절 변환 단위를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하고, 상기 다어절 변환 단위의 각각에 대하여 토큰과 범위지정자값을 초기화하는 제 2 단계; 상기 입력문장 중의 다어절 변환 단위를 상기 토큰과 범위 지정자를 이용하여 변환시키는 제 3 단계; 및 상기 변환 과정을 수행할 형태소가 존재하지 않을 때까지 상기 제 1 단계부터 반복 수행하는 제 4 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 한국어의 일본어로의 번역에 이용됨.

Description

한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법

본 발명은, 한-일 기계번역에서 원시 언어와 목적 언어의 어휘장의 차이 및 문법의 차이로 인하여, 원시 언어의 여러 형태소가 목적 언어에서는 하나의 형태소로 변환되거나, 혹은 여러 개의 형태소로 다시 조립하여 생성되어야 한다든지 하는 단위를 인식하여, 적절한 변환을 수행할 수 있도록 하는 방법에 관한 것으로서, 특히 한-일 기계번역 시스템에서 다어절 변환 단위의 변환 방법 및 그것을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.

원시언어와 목적언어가 1:1 관계의 형태소 단위로 매칭이 이루어지지 않고 관용구나 복합 형태소, 보조 용언 등과 같이 일부 n:m의 관계로 매칭이 이루어지는 단위, 즉 기본적으로 두개 이상의 단어가 결합하여 각각의 의미의 합과 다른 의미를 나타내는 변환 단위들을 이후부터 다어절 변환 단위(Multi-Word Translation Unit : MWTU)로 부르도록 하겠다.

일반적으로, 한-일 기계번역의 입장에서 다어절 변환 단위를 정의하고 인식 및 변환 방법을 제시한 연구는 없었으나, 다른 원시 언어와 목적 언어에 대한 몇몇 연구는 진행되어 왔다. 그러나, 이들은 다어절 변환 단위의 인식을 위하여 전 문장을 비교 범위로 하고 있다. 따라서, 인식 오류가 발생할 수 있으며, 인식 시간 또한 많이 걸린다.

한국어를 원시언어로 한 일부 기존 연구에서는 다어절 변환 단위의 인식을 위하여 약간의 범위 제약을 가하고 있으나, 아주 미미한 수준에 그치고 있다.

또한, 한국어의 어순이 가변적이라는 데 근거를 두고 숙어를 인식하기 위하여 모든 어순을 생성한 후 패턴 일치를 시도하고 있으나, 한국어의 다어절 변환 단위는 거의 어순이 고정되어 있으며, 아래의 (표 1)에서의 예와 같이 어순이 바뀌면 의미가 달라지는 경우가 많으므로 인식 오류를 증가시킬 수 있다.

독 안에 든 쥐 〈--〉 독 안에 쥐가 들어 있다.바가지 쓰다 〈-〉 머리에 쓴 바가지

따라서, 원시언어와 목적언어의 특성에 맞는 다어절 변환 단위의 처리 방법이 필요하다.

즉, 상기한 바와 같은 종래의 다어절 변환 과정에 있어서는, 인식의 오류가 발생할 수 있을 뿐만 아니라, 인식 시간 또한 많이 걸린다는 문제점이 있다.

상기 종래의 문제점을 해결하기 위하여 안출된 본 발명은, 한국어로된 입력문장에서 다어절 변환 단위를 인식하여, 한-일 번역 사전을 참고로 인식의 오류를 줄이면서 일본어로 변환하기위한, 한-일 기계번역 시스템에서 다어절 변환 단위의 변환 방법 및 그것을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 그 목적이 있다.

도 1 은 본 발명이 적용되는 한-일 기계번역 시스템의 일실시예 구성도.

도 2 는 일반적인 다어절 변환 단위의 일실시예.

도 3 은 본 발명이 적용되는 다어절 변환 단위의 표현을 위한 인식 범위 지정자들의 일실시예.

도 4 는 본 발명이 적용되는 인식 범위 지정자를 이용한 다어절 변환 단위 표현의 일실시예.

도 5 는 본 발명이 적용되는 다어절 변환 단위의 일실시예 사전 구조도.

도 6 은 본 발명에 따른 다어절 변환 단위의 변환 방법의 일실시예 흐름도.

상기 목적을 달성하기 위한 본 발명은, 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법에 있어서, 입력문장 중의 다어절 변환 단위(MWTU)를 변환 시키기 위하여 변수값을 초기화하는 제 1 단계; 다어절 변환 단위를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하고, 상기 다어절 변환 단위의 각각에 대하여 토큰과 범위지정자값을 초기화하는 제 2 단계; 상기 입력문장 중의 다어절 변환 단위를 상기 토큰과 범위 지정자를 이용하여 변환시키는 제 3 단계; 및 상기 변환 과정을 수행할 형태소가 존재하지 않을 때까지 상기 제 1 단계부터 반복 수행하는 제 4 단계를 포함한다.

또한 본 발명은, 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환을 위하여, 대용량 프로세서를 구비한 번역 시스템에, 입력문장 중의 다어절 변환 단위(MWTU)를 변환 시키기 위하여 변수값을 초기화하는 제 1 기능; 다어절 변환 단위를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하고, 상기 다어절 변환 단위의 각각에 대하여 토큰과 범위지정자값을 초기화하는 제 2 기능; 상기 입력문장 중의 다어절 변환 단위를 상기 토큰과 범위 지정자를 이용하여 변환시키는 제 3 기능; 및 상기 변환 과정을 수행할 형태소가 존재하지 않을 때까지 상기 제 1 기능부터 반복 수행하는 제 4 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 포함한다.

원시언어와 목적 언어의 특성에 따라 다르겠으나, 한국어와 일본어의 특성상 다어절 변환 단위는 반드시 단문 내에 위치하지는 않지만 매우 근거리에 위치하며 다어절 변환 단위를 이루는 단어들의 분산 정도를 예측할 수 있으며, 대부분 어순이 고정되어 있다.

따라서, 다어절 변환 단위를 이루는 단어의 어순을 고정하고 인식 범위를 문장 전체로 하기 보다는 근거리에 나타나는 단어들의 범위를 지정하여 줌으로써 인식의 정확성 및 인식 시간을 효과적으로 감소시킴으로써, 한-일 기계번역 시스템에서 다어절 변환 단위의 변환을 효과적으로 수행할 수 있다.

이를 위하여 다어절 변환 단위를 한-일 번역 사전에 표기하는 방법과, 입력문장에서 다어절 변환 단위를 인식하여 일본어로 변환하는 방법을 제안한다.

즉, 한국어와 일본어는 비슷한 문법 체계를 가지고 있어서 상당 부분 1:1 관계의 형태소 단위로 매칭이 이루어지고 있다. 따라서 한-일 기계번역 시스템은 비교적 간단한 직접 번역 방식만을 사용하여 서로 번역을 하더라도 높은 번역률을 얻을 수 있으나, 일반적인 관용구나 복합 형태소, 보조 용언 등 일부는 n:m의 관계로 매칭이 이루어지며, 또한, 구성 요소들이 서로 인접하여 나타나지 않는 경우도 발생하여 부자연스러운 번역 결과를 생성해 낸다.

따라서, 본 발명의 목적은 이러한 다어절 변환 단위를 효과적으로 인식하고 적절한 목적언어로 변환하기 위한 방법을 제공하는데 있다.

이하 도 1 내지 도 6 을 참조하여 본 발명의 바람직한 일실시예를 상세히 설명한다.

도 1 은 본 발명이 적용되는 한-일 기계번역 시스템의 일실시예 구성도이다.

도면을 참조하면, 본 발명을 수행하기 위한 한-일 기계번역 시스템은 한국어와 일본어의 유사성을 기반으로 하여 직접 번역 방식을 채택하였으며, 한국어 형태소 분석 및 품사 태깅 모듈(101), 한-일 어휘 변환 모듈(102), 일본어 생성 모듈(103) 및 한-일 번역사전(104)으로 구성되어 있다. 다음은 각 단계의 기능 및 특징을 설명한 것이다.

형태소 분석 단계(101)에서는 한국어 입력 문장을 형태소 단위로 분할하는 기능을 한다. 이를 위하여 개선된 시와이케이(Cocke-Younger-Kasami : 이하 "CYK"이라함)알고리즘을 이용하고 있으며, 형태론적 품사체계를 정립하고, 수사처리, 미등록어 처리, 띄어쓰기 오류처리, 비 한글 어휘 처리, 문장 부호/ 특수기호 처리 등을 수행한다.

품사 태깅 단계(101)에서는 형태소 단위로 분석된 여러 결과 중 어휘확률과 문맥확률을 이용하여 최적의 형태소 분석 결과 하나를 선택한다. 어휘확률과 문맥확률은 국어정보 베이스의 100만 어절을 학습 말뭉치로 하여 획득하였으며, 이 때 이용된 품사 태그는 25가지로 분류하였다.

어휘 변환 단계(102)에서는 한국어의 다어절 변환 단위(MWTU:Multi-Word Translation Unit)를 변환하는 단계(105)와 어휘 다의성 해소 단계(106)로 이루어진다.

다어절 변환 단위 변환(105) 및 어휘 다의성 해소(106)는 기계번역에서 고품질의 번역을 위해 가장 중요시 다루어야 할 문제 중의 하나이다. 따라서, 본 발명에서 제안하는 바와 같이 인식의 정확성 및 시간의 최적화를 위하여 인식 범위 지정자를 정의하고 이에 따른 다어절 변환 단위 표현 및 인식에 의해 자연스러운 변환이 이루어지도록 하였다.

소리글자인 한국어에는 많은 다의어(ex. 눈:目, 雪, 芽)가 존재하며, 따라서, 한-일 변환시 상황에 적절한 의미를 선택하는 다의성 해소 처리(106)는 매우 중요하다. 이를 위하여 다의어의 각 의미별 연어 패턴(Collocation Pattern)을 기술하여 유사도 점수를 계산함으로써 다의성 해소를 수행할 수 있다.

그러나, 명사의 경우는 의미를 구분할 수 있는 언어 패턴을 기술하기가 쉽지 않으므로 대용량의 말뭉치를 의미 태깅하여 그로부터 다의어 명사의 공기 정보를 자동으로 획득함으로써 명사의 다의성을 해소할 수 있다.

따라서, 본 시스템에서는 수작업에 의해 기술된 연어 패턴과 말뭉치로부터 자동 구축된 공기정보를 이용하여 다의성 해소를 수행한다.

일본어와 한국어는 문법 체계가 거의 비슷하나, 술부 등에서 부분적인 불일치가 나타난다. 이는 어순 교체, 양상 자질의 n:m 관계, 비양상 자질의 양상화 등의 형태로 나타난다.

따라서, 생성 모듈(103)에서는 일본어와 한국어의 부분적인 불일치 해결 및 기타 자연스러운 일본어를 생성하기 위한 처리를 수행한다. 이를 위하여 목적 언어인 일본어의 양상 자질 순서에 따라 구축한 술부 양상류 어휘화 테이블(Modality-Feature Ordering & Lexicalizing Table)(107)을 이용하여 술부 생성을 수행하며, 기타 존경처리, 불규칙 처리 등을 수행한다.

이상의 한-일 기계번역 시스템 중 본 발명에서는 다어절 변환 단위의 효과적인 표현 및 인식 방법(105)을 제안한다.

따라서, 이후 한-일 기계번역 시스템에서의 다어절 변환 단위를 정의하고 이들의 특성 및 효과적인 표현 방법과 인식 방법을 제시한다.

한-일 기계번역에서 하나의 변환 단위로 처리되어야 하는 다어절 변환 단위는 일반적인 숙어나 관용구의 정의보다 광범위한 정의이다. 일반적인 숙어나 관용구 뿐만 아니라, 형태소들 각각의 의미 결합으로도 의미를 잃지는 않으나 하나의 단위로 처리되면 더 자연스러운 표현들, 한국어와 일본어의 문법적인 차이로 인하여 하나의 변환 단위로 인식되어야 하는 모든 단위를 포함한다.

도 2 는 일반적인 다어절 변환 단위의 일실시예이다.

즉, 복합 형태소(201)는 한국어로는 복합 형태소이지만 일본어로는 하나의 형태소로 변환되어야 자연스러운 단위들이다.

"축하+하다"의 경우 일본어로 "祝賀+する"라고 번역한다면 n:n의 관계이며 각 형태소의 변환을 결합하여도 성립하므로 이는 다어절 변환 단위로 다루어질 필요가 없다. 그러나, "祝賀+する"보다는 "祝う"가 보다 자연스러운 표현이므로 n:1의 대응 관계가 이루어지므로 다어절 변환 단위로 처리되어야 한다. 이들은 대부분 다어절 변환 단위를 구성하는 형태소들이 바로 인접하여 위치하는 특성들을 가진다.

숙어(202)는 일반적인 사전적 의미의 숙어 단위이다. n:m의 대응 관계를 가지며 구성 요소들이 근접하여 사용되기는 하나 반드시 바로 인접하여 사용되지는 않는다.

연어(collocation)(203)는 문장 중에 같이 나타나 의미 제약을 주는 단위들을 일컫는다. 이들은 "담배를 피우다"가 "煙草を吸う"로 변환되는 것과 같이 서로 영향을 받지만 각자의 의미를 결정하고 대역어로 변환하는 종류와, "소란을 피우다"가 "さわぐ"로 변환되는 것과 같이 서로 영향을 받아 하나의 의미 단위로 변환되는 종류가 있다.

전자는 1:1의 관계가 성립하므로 차후 연어 패턴에 의한 어휘 다의성 해소 과정에서 다루도록 하며, 본 발명에서는 n:1의 대응 관계를 갖는 후자만을 다루도록 한다. 이들은 반드시 바로 인접하여 사용되지는 않으나, 단문 이내에는 존재하는 특성을 가진다.

한국어 술부를 구성하는 양상 자질(204) 중에서 "었"이나 "다" 등과 같이 하나의 형태소로 양상 자질을 표현하는 것이 있는 반면, 하나의 양상 자질을 표현하기 위하여 "는 것 같"이나 "을 수 있" 등과 같이 여러 어절에 분산되어 나타나는 것도 있다. 따라서, 후자의 경우는 다어절 변환 단위로 처리되어야 한다. 이들은 주로 바로 인접하여 사용되나 사이에 "는 것도 같", "을 수는 있"과 같이 보조사들이 위치하는 경우도 있다.

그 외, 1:1 대응 관계에 의한 변환 보다 더 자연스러운 변환이 이루어지는 표현이 있는 단위들은(205) 모두 다어절 변환 단위로 처리한다.

도면에서의 다어절 변환 단위들은 다음과 같은 특성을 가진다.

첫째, 고정 어순을 갖는다.

한국어와 일본어는 자유어순을 특징으로 하는 언어이지만 "독 안에 든 쥐", "을 수 있" 등과 같이 다어절 변환 단위는 대체로 어순이 고정되어 있다. 이들이 자유 어순화 되어 "쥐가 독 안에 들어 있다", "있을 수" 등과 같이 나타나는 경우는 다어절 변환 단위와는 다른 표현들이 되어버린다. 이는 다어절 변환 단위의 표현을 간단히 할 수 있는 좋은 특성이 된다.

둘째, 근거리에 위치한다.

다어절 변환 단위는 의미적으로 뿐만 아니라 위치적으로도 결합도가 매우 높다. 따라서, 다어절 변환 단위의 인식은 지역적인 비교만으로도 가능하다.

셋째, 기능어나 다른 어절 삽입이 가능하다.

다어절 변환 단위는 위치적 결합도가 강하지만 다음의 (표 2)의 예와 같이 구성 단어들 사이에 기능어나 다른 어절들이 삽입될 수 있다.

(예1) 가 ㄹ 수 있 다 ==〉 가 ㄹ 수 도 있 다(예2) 신세 지 다 ==〉 신세 를 지 다 ==〉 신세 를 그 에게 지 다

넷째, 구성 단어들의 범위 예측이 가능하다.

다어절 변환 단위의 구성 단어들 사이에 다른 어휘들이 삽입될 수 있으나 그 구성 요소들의 나타나는 범위를 예측 가능하다.

위의 (표 2)의 (예1)에서 "ㄹ 수"와 "있" 사이에 "도"가 삽입되었으나, "수"와 "있"의 사이에는 "도, 는, 가" 등의 단순한 기능어 하나 정도만을 허용한다. 따라서, "있"의 범위는 "수"에서 오른쪽으로 두 단어 이내에 존재한다.

또한, 위의 (표 2)의 (예2)에서 "신세"와 "지"의 사이에 "를 "이나 "그 에게" 등의 어휘가 삽입 가능하나 다어절 변환 단위로서의 역할을 하기 위해서는 "신세"와 "지"의 사이에 용언의 삽입은 불가능하다. 따라서, "지"는 아무리 멀리 떨어진다 해도 "신세" 뒤에 처음 나타나는 용언까지로 범위가 한정된다.

이와 같은 다어절 변환 단위의 특성에 따라 본 발명의 한-일 기계번역 시스템에서는 다어절 변환 단위의 효과적인 인식 및 변환을 위하여 도 3 과 같이 5가지 종류의 인식 범위 지정자를 정의하고, 각 다어절 변환 단위의 특성에 맞도록 표현해 줌으로써 인식 시간을 최적화하고 불필요한 인식에 의한 인식 오류를 줄이도록 하였다.

또한, 다어절 변환 단위는 의미의 추가나 변동 없이 다어절 변환 단위의 구성 요소들 사이에 자유롭게 삽입되는 형식 형태소들이나 어미의 활용형 등은 기술하지 않는 것을 기본으로 하였다. 그러나, 반드시 요구되는 형식 형태소나 의미의 추가나 변동을 가져오는 중요한 역할을 하는 형식 형태소는 다어절 변환 단위의 구성요소로 기술해 주었다.

도 3 은 본 발명에 따른 다어절 변환 단위의 표현을 위한 인식 범위 지정자들의 일실시예이다.

도면에서의 '*'(301)는 직접 인접함을 의미하므로 사이에 다른 어휘의 삽입을 허용하지 않으나, 그 외에는 범위 영역 내에 다른 어휘들의 삽입이 가능하다.

예를 들어, "입을 놀리(다)"와 같은 경우는 하나의 일본어 형태소 "ぬか(す)"로 대응되므로, "입", "을", "놀리"의 3개의 형태소가 하나의 변환 단위로 인식되어야 한다. 그러나, "입"과 "놀리"는 항상 같이 나타나지만, "입 놀리(다)"와 같이 "을"은 생략되는 경우도 종종 발생한다.

또한, "입을 그렇게 놀리(면 안된다)"와 같이 중간에 다른 형태소들이 삽입되는 경우도 있다. 따라서, 이들을 모두 포함하기 위하여, 다어절 변환 단위가 성립하기 위해서는 "입" 뒤에 나타나는 첫 용언이 "놀리"이어야만 함을 "입v놀리"와 같이 인식 범위 지정자를 기술함으로써 위의 경우들을 모두 인식할 수 있게 한다.

즉, '='(302)는 오른쪽 2 개의 형태소 위치까지 존재 가능함을 표시하고, '+'(303)은 오른쪽 3 개의 형태소 위치까지 존재 가능함을 표시하며, 'n'(304)은 오른쪽 첫 번째 명사 위치까지 존재 가능함을 표시한다.

또한, 'v'(305)은 오른쪽 첫 번째 용언 위치까지 존재 가능함을 표시한다.

도 4 는 본 발명이 적용되는 인식 범위 지정자를 이용한 다어절 변환 단위 표현의 일실시예로서, 도 3 에 기술한 인식 범위 지정자에 의한 다어절 변환 단위의 표현 예이다.

다어절 변환 단위는 일반 형태소와 같이 하나의 표제어로서 자신의 정보를 가지고 사전에 등록되며, 다어절 변환 단위의 첫 형태소에 다어절 변환 단위로 인식될 수 있음을 기술한다.

또한, 다어절 변환 단위의 좌우 품사정보를 표기하여 인식시 좌우 품사정보도 비교하도록 하여, 표제어만을 비교함으로써 생기는 오인식을 방지한다.

도 5 는 본 발명이 적용되는 다어절 변환 단위의 일실시예 사전 구조도이다.

모든 형태소(예컨데 "입" 등)들은 다어절 변환단위 필드에 자신("입")으로 시작하는 모든 MWTU들(예컨데 "입v놀리","입*바르" 등)을 미리 등록시켜 놓는다.

입력 문장에서 "입"이라는 형태소가 나오면 그 다어절 변환단위 필드에 등록된 MWUT들(예컨데 "입v놀리","입*바르" 등)이 입력 문장에 나타나는지 조사한다. 만약 입력문장에서 인식된 MWUT가 있다면, 그 MWUT의 인식 범위 지정자(예컨데 "*,=,+,n,v" 등)들을 모두 "*"로 바꾼 후 하나의 표제어("입*놀리")로 취급하여 사전 검색한 후 일본어로 변환한다.

따라서, MWUT인식을 위한 사전 정보로서는 각 MWUT의 첫 토큰의 다어절 변환 단위 필드에 그 MWUT가 등록되어야 하며, 그 MWUT의 인식범위지정자들을 모두 "*"로 바꾼 형태가 표제어로 등록되어 있어야 한다.

이상에서 설명한 다어절 변환 단위의 표현 방법에 의해 기술된 정보를 가지고 다음과 같은 몇가지 규칙에 의해 다어절 변환 단위를 효과적으로 인식한다.

첫째, 기술된 인식 범위 지정자에 의한 범위 내에서만 다어절 변환 단위 인식이 이루어진다.

아래의 (표 3)에서 "입v놀리"는 "입" 이 인식된 후 "입" 뒤에 출현하는 첫 용언까지만 "놀리"가 나타나는지 비교하면 되므로 "입을 그렇게 놀리"까지만 비교를 한다. "지=않"은 "지" 뒤의 2개 형태소까지만 비교하면 되므로 "않"과 "겠"까지가 비교 범위가 되나, 여기서는 바로 뒤에 "않"이 인식되므로 "겠"은 비교하지 않아도 된다. 따라서, 적은 비교만으로 다어절 변환 단위를 인식할 수 있다.

네 가 입 을 그렇게 놀리 면 비난 을 받 지 않 겠 느냐 ?네 가 그렇게 입 놀리 면 비난 을 받 지 않 겠 느냐 ?==〉あなたがそうぬかせば非難を受けないか ?

또한, 이러한 범위 지정자에 의한 다어절 변환 단위의 표현 및 인식 기법은 불필요한 비교에 의한 인식 오류를 방지할 수 있다.

예를 들어, 아래의 (표 4)에서 다어절 변환 단위 "신세v지"의 경우 "지"의 범위를 "신세" 뒤에 오는 첫 용언까지로 제한함으로써 다음과 같은 경우의 오류를 방지할 수 있다.

[예] 신세 를 한탄 하 며 지 는 해 를 바라보 았 다 .嘆じながらお世話になる日をながめた . (X)身の上を嘆じながら入り日をながめた . (O)

"신세"와 "지"의 범위를 첫 용언까지 하지 않는 경우 위 (표 4)의 예에서 "신세 지"를 다어절 변환 단위로 인식할 수 있으며, 이는 원시 문장의 의미와 다른 번역 결과를 생성하게 된다.

둘째, 입력 문장에서 인식된 다어절 변환 단위의 구성 요소들 사이에 삽입된 어휘들에 대해서는 다음과 같은 규칙을 적용시킨다.

첫 번째 규칙으로서, 다어절 변환 단위의 구성 요소들 사이에 삽입된 실질 형태소는 다어절 변환 단위의 앞으로 위치시킨다. 위의 (표 3)의 예에서 "그렇게" 가 이에 해당한다.

두 번째 규칙으로서, 다어절 변환 단위의 구성 요소들 사이에 삽입된 형식 형태소의 경우, 다어절 변환 단위의 구성 요소 바로 뒤에 따라오는 형식 형태소는 무시하고, 다어절 변환 단위의 구성 요소가 아닌 삽입된 실질 형태소 바로 뒤에 따라오는 형식 형태소는 그 실질 형태소와 함께 다어절 변환 단위 앞에 위치시킨다. 위의 예에서 "을"이 전자에 해당하며, 만약 "그렇게" 뒤에 "도"나 "는" 등의 형식 형태소가 따라온다면 이는 후자에 해당하여 "그렇게"와 함께 다어절 변환 단위의 앞에 위치하게 된다.

셋째, 하나의 형태소가 두 개 이상의 다어절 변환 단위에 속하는 경우 첫 형태소가 맨 앞에 나타나는 다어절 변환 단위를 우선으로 한다. 이 규칙은 문장의 앞에서 부터 다어절 변환 단위를 인식하여 다어절 변환 단위로 인식이 확정된 형태소들에 대해서는 다시 다어절 변환 단위의 인식을 수행하지 않아도 되므로 인식 시간을 줄일 수 있다.

넷째, 하나의 형태소에서 시작되는 다어절 변환 단위가 두 개 이상 존재하고 하나의 다어절 변환 단위가 다른 것의 부분 집합인 경우 긴 다어절 변환 단위를 선택한다. 예를 들어, "잠시"로 시작하는 두 개의 다어절 변환 단위 "잠시*만*요(少少お待ちください)"와 "잠시*만(少少)" 가 존재하는 경우 문장 내에서 "잠시*만*요"가 인식되는 경우는 당연히 "잠시*만"도 인식된다. 이 경우 보다 긴 다어절 변환 단위 "잠시*만*요"를 선택한다.

이와 같은 방법으로 입력문장에 존재하는 다어절 변환 단위를 인식하고 나면 다어절 변환 단위의 처리 단계는 완료되며 여기서 인식된 단위는 하나의 형태소처럼 다루어져 도 1 에서와 같이 동형이의어 변환 단계(106)로 전달된다.

도 6 은 본 발명에 따른 다어절 변환 단위의 변환 방법의 일실시예 흐름도이다.

도면의 흐름도(flowchart)는 하나의 문장에 나타나는 다어절변환단위(MWTU)를 모두 인식하기 위한 것이다. 우선 도면에 도시된 변수(i, mwtu_ptr, k, jump)를 설명하면 다음과 같다.

i 는 입력된 문장을 구성하는 형태소들의 인덱스이며, 1≤i≤MaxMorph 이다. 여기서 MaxMorph는 입력된 문장의 마지막 형태소의 번호이다. 다음의 (표 5)는 i 를 표현한 예이다.

입력문장 : 네 가 입 을 그렇게 놀리 면i 1 2 3 4 5 6 7

mwtu_ptr는 동일한 형태소(i-th)로 시작하는 MWTU들의 인덱스이며, 1≤mwtu_ptr≤MaxMWTUi이다. 여기서 MaxMWTUi는 동일한 형태소로 시작하는 MWTU의 갯수이다. 만약 위의 (표 5)의 입력문장 중 3번째 형태소 "입"으로 시작하는 MWTU가 "입v놀리", "입*씨름"2개가 존재한다면 이들은 각각 다음의 (표 6)과 같이 표현된다.

MWTU_i[mwtu_ptr]MWTU₃[1] = ″입v놀리″MWTU₃[2] = ″입*씨름″

k는 하나의 MWTU(MWTUi[mwtu_ptr])에서 토큰과 범위지정자의 인덱스이며, 0≤k≤MaxK이다. 여기서 MaxK는 해당 MWTU에서의 가장큰 토큰과 범위지정자 값이다. 다음의 (표 7)은 그 예이다.

MWTUi[mwtu_ptr] = ″을*수=있″을 * 수 = 있k 0 1 1 2 2번째 번째 번째 번째 번째토큰 범위 토큰 범위 토큰지정자 지정자

jump는 현재 형태소i와 다음 수행하고자 하는 형태소와의 거리이다. 현재 형태소i로 시작하는 MWTU가 인식된 경우는 인식된 MWTU의 범위내의 형태소로 시작하는 MWTU에 대해서는 인식을 하지 않아도 되므로 jump는 인식된 범위만큼이 되고, 현재 형태소i로 시작하는 MWTU가 인식되지 않은 경우는 다음 형태소로 시작하는 MWTU로 조사해야 하므로 jump는 1이 된다.

도면을 참조하여 다어절 변환 단위의 변환 방법을 설명하면 다음과 같다.

우선, 입력문장 중 첫 형태소부터 MWTU를 인식하기 위한 초기화(601) 및 i번째 형태소로 시작하는 여러 개의 MWTU중 첫 MWTU부터 시작하기 위한 초기화를 수행한다(602).

하나의 MWTU를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하며(603), 파싱된 하나의 MWTU를 입력문장에서 인식하기 위해 인식할 토큰과 범위지정자 위치를 초기화한다. 이때 k=0인 경우는 현재 형태소와 같으므로 비교할 필요가 없다(604).

입력문장의 현재 형태소(i)로부터 범위지정자(*,=,+,n,v)가 가리키는 범위내에 현재 토큰(MWTU_i[mwtu_ptr])이 존재하는지를 조사한다(605). 예를 들어, '*'는 현재 형태소(i)의 다음 형태소(i+1)까지의 범위내이고, '='는 현재 형태소(i)로부터 2만큼 떨어진 위치(i+2)까지의 범위내이며, '+'는 현재 형태소(i)로부터 3만큼 떨어진 위치(i+3)까지의 범위내이다. 또한, 'n'는 현재 형태소(i)로부터 처음 나타나는 명사까지의 범위내이고, 'v'는 현재 형태소(i)로부터 처음 나타나는 동사까지의 범위내이다.

토큰이 존재하면, 현재 토큰이 MWTU_i[mwtu_ptr]의 마지막 토큰인지를 조사하여(606). 마지막 토큰이면, MWTU_i[mwtu_ptr]가 마지막 토큰까지 입력문장의 지정된 범위 내에 존재하므로 인식에 성공한 것이다(607).

인식된 MWTU_i[mwtu_ptr]의 구성요소는 아니지만 그 사이에 첨가되어 있는 형식/실질 형태소는 인식규칙에 따라 앞에 위치시키거나 삭제한다(608).

마지막 토큰이 아니면, 아직 남아 있는 토큰이 있으므로 다음 토큰으로 이동한다(609).

토큰이 존재하지 않으면, i 번째 형태소로 시작하는 MWTU 중 남아있는 것이 있는지 조사하여(610), 남아 있는 것이 없으면 i 번째 형태소로 시작하는 MWTU가 없으므로 다음 형태소로 이동하기 위하여 jump를 하나 증가시킨다(611).

i번째 형태소로 시작하는 MWTU 중 남아있는 것이 있으면 그것으로 mwtu_ptr을 이동한다(614).

MWTU_i[mwtu_ptr]가 인식되었으면 이 범위 내에 속하는 형태소로 시작하는 MWTU는 인식할 필요가 없으므로 jump를 인식된 MWTU_i[mwtu_ptr]의 범위만큼 증가시킨다(612).

다음번 수행할 형태소가 존재하는지를 조사한다(613).

다음번 수행할 형태소가 존재하면 그 형태소로 i를 이동하고(615), 존재하지 않으면 문장의 끝이므로 종료한다.

이상에서 설명한 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 있어 본 발명의 기술적 사상을 벗어나지 않는 범위내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 한정되는 것이 아니다.

상기한 바와 같은 본 발명에 따르면, 한-일 기계번역시 부자연스러운 번역 결과를 생성할 수 있는 다어절 변환 단위의 처리에 있어서, 범위 지정자에 의한 표현과 인식 방법에 의해, 인식의 정확성 및 인식 속도를 개선할 수 있으므로 한-일 기계번역 시스템의 번역 성능을 크게 향상시킬 수 있는 우수한 효과가 있다.

Claims

한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법에 있어서,

입력문장 중의 다어절 변환 단위(MWTU)를 변환 시키기 위하여 변수값을 초기화하는 제 1 단계;

다어절 변환 단위를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하고, 상기 다어절 변환 단위의 각각에 대하여 토큰과 범위지정자값을 초기화하는 제 2 단계;

상기 입력문장 중의 다어절 변환 단위를 상기 토큰과 범위 지정자를 이용하여 변환시키는 제 3 단계; 및

상기 변환 과정을 수행할 형태소가 존재하지 않을 때까지 상기 제 1 단계부터 반복 수행하는 제 4 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
제 1 항에 있어서,

상기 제 1 단계는,

입력문장 중 첫 형태소부터 다어절 변환 단위를 인식하기 위하여 변수값을 초기화하는 제 5 단계; 및

같은 형태소로 시작하는 여러개의 다어절 변환 단위 중 첫 다어절 변환 단위부터 변환을 시작하기 위하여 변수값을 초기화하는 제 6 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
제 1 항에 있어서,

상기 제 3 단계는,

상기 입력문장 중의 다어절 변환 단위내에, 비교하고자 하는 다어절 변환 단위의 토큰이 존재하는지를 판단하는 제 5 단계;

상기 제 5 단계의 판단결과, 해당하는 토큰이 존재하면, 상기 토큰의 다음 토큰에 대하여 상기 제 5 단계의 과정을 수행하는 제 6 단계; 및

상기 제 5 단계의 판단결과, 해당하는 토큰이 존재하지 않으면, 여러 개의 비교하고자 하는 다어절 변환 단위 중 상기 제 6 단계의 상기 비교하고자 하는 다어절 변환 단위를 제외한 다른 다어절 변환 단위에 대하여 해당하는 토큰이 존재하는지를 판단하는 제 7 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
제 3 항에 있어서,

상기 제 6 단계는,

상기 토큰이 상기 다어절 변환 단위의 마지막 토큰인지를 판단하는 제 8 단계;

상기 제 8 단계의 판단결과, 마지막 토큰이 아니면, 상기 토큰의 다음 토큰에 대하여 상기 제 5 단계의 과정을 수행하는 제 9 단계;

상기 제 8 단계의 판단결과, 마지막 토큰이면 인식에 성공한 것이므로, 상기 다어절 변환 단위의 구성 요소가 아닌 형태소에 대하여 인식 규칙에 따라 재정렬하여 상기 다어절 변환 단위에 대한 인식을 종료하는 제 10 단계; 및

형태소의 값을 상기 입력문장 중의 상기 인식을 종료한 다음번 형태소값으로 지정하는 제 11 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
제 3 항에 있어서,

상기 제 7 단계는,

여러 개의 다어절 변환 단위중 상기 다어절 변환 단위가 마지막 변환 단위인지를 판단하는 제 8 단계;

상기 제 8 단계의 판단결과, 마지막 다어절 변환 단위가 아니면, 상기 다어절 변환 단위를 제외한 다어절 변환 단위에 대하여 상기 제 2 단계부터 반복 수행하는 제 9 단계; 및

상기 제 8 단계의 판단결과, 마지막 다어절 변환 단위이면, 형태소의 값을, 상기 다어절 변환 단위의 변환 대상이된 상기 입력문장의 형태소의 다음번 형태소의 값으로 지정하는 제 10 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
제 4 항 또는 제 5 항에 있어서,

상기 제 4 단계는,

상기 형태소값에 해당하는 형태소가 상기 입력문장의 마지막 형태소 인지를 판단하는 제 12 단계;

상기 제 12 단계의 판단결과, 마지막 형태소가 아니면, 상기 형태소로 시작하는 여러개의 다어절 변환 단위 중 첫 다어절 변환 단위부터 변환을 시작하기 위하여 변수값을 초기화하고 상기 제 2 단계로 리턴하는 제 13 단계; 및

상기 제 12 단계의 판단결과, 마지막 형태소이면, 상기 입력문장에 대하여 인식을 종료한 것이므로 작업을 종료하는 제 14 단계

를 포함하는 한-일 기계번역 시스템에서의 다어절 변환 단위의 변환 방법.
한-일 기계번역 시스템에서의 다어절 변환 단위의 변환을 위하여, 대용량 프로세서를 구비한 번역 시스템에,

입력문장 중의 다어절 변환 단위(MWTU)를 변환 시키기 위하여 변수값을 초기화하는 제 1 기능;

다어절 변환 단위를 토큰과 범위 지정자들로 구분하는 파싱작업을 수행하고, 상기 다어절 변환 단위의 각각에 대하여 토큰과 범위지정자값을 초기화하는 제 2 기능;

상기 입력문장 중의 다어절 변환 단위를 상기 토큰과 범위 지정자를 이용하여 변환시키는 제 3 기능; 및

상기 변환 과정을 수행할 형태소가 존재하지 않을 때까지 상기 제 1 기능부터 반복 수행하는 제 4 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.