KR20010081770A - 목적언어 분석에 기반한 언어 번역 방법 및 장치 - Google Patents

목적언어 분석에 기반한 언어 번역 방법 및 장치 Download PDF

Info

Publication number
KR20010081770A
KR20010081770A KR1020000007874A KR20000007874A KR20010081770A KR 20010081770 A KR20010081770 A KR 20010081770A KR 1020000007874 A KR1020000007874 A KR 1020000007874A KR 20000007874 A KR20000007874 A KR 20000007874A KR 20010081770 A KR20010081770 A KR 20010081770A
Authority
KR
South Korea
Prior art keywords
language
band
target language
candidates
korean
Prior art date
Application number
KR1020000007874A
Other languages
English (en)
Other versions
KR100338806B1 (ko
Inventor
이재원
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1020000007874A priority Critical patent/KR100338806B1/ko
Publication of KR20010081770A publication Critical patent/KR20010081770A/ko
Application granted granted Critical
Publication of KR100338806B1 publication Critical patent/KR100338806B1/ko

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B65/00Implements for throwing  ; Mechanical projectors, e.g. using spring force
    • A63B65/12Ball-throwing apparatus with or without catchers ; Mechanical projectors, e.g. using spring force
    • AHUMAN NECESSITIES
    • A42HEADWEAR
    • A42BHATS; HEAD COVERINGS
    • A42B1/00Hats; Caps; Hoods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B67/00Sporting games or accessories therefor, not provided for in groups A63B1/00 - A63B65/00
    • A63B67/002Games using balls, not otherwise provided for
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2208/00Characteristics or parameters related to the user or player
    • A63B2208/12Characteristics or parameters related to the user or player specially adapted for children

Abstract

본 발명은 언어 번역에서 원시언어 단어에 적합한 목적언어 단어를 선정하는 과정에서 목적언어에 대한 분석을 기반으로 대역어인 목적언어 어휘를 선정하는 것을 특징으로 하는 언어 번역 방법 및 장치에 관한 것이다.
본 발명에 의한 언어 번역 방법은 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석단계; 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색단계; 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석단계; 및 목적언어 분석단계에서 하나의 목적언어 대역어가 정해지지 않는 경우, 규칙간의 우선순위와 어휘의 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정단계를 포함한다.
본 발명에 의하면, 원시언어에 대한 전문 지식이 없더라도 목적언어 분석을 통해서도 언어 번역 장치를 구축할 수 있으므로, 원시언어에 대한 많은 양의 지식 베이스가 요구되지 않으며, 원시언어 지식 베이스 구축에 소요되는 많은 시간과 노력을 줄일 수 있다.

Description

목적언어 분석에 기반한 언어 번역 방법 및 장치{Method and apparatus of language translation based on analysis of target language}
본 발명은 원시언어(source language)를 목적언어(target language)로 번역하는 번역 방법 및 장치에 관한 것으로서, 특히, 언어 번역에서 원시언어 단어에 적합한 목적언어 단어를 선정하는 과정에서 원시언어에 대한 분석보다는 목적언어에 대한 분석을 기반으로 대역어인 목적언어 어휘를 선정하는 언어 번역 방법 및장치에 관한 것이다.
전통적으로, 일·한 번역은 두 언어의 유사성으로 인하여 원시언어(source language)에 대한 형태소 분석만을 한 후에 바로 목적언어(target language)로 번역하는 직접 번역 방식에 의해 이루어지고 있다. 이때, 고품질의 일·한 번역 장치를 구축하기 위해서는 무엇보다도 다의성을 가진 일본어 단어에 대해 적합한 한국어 대역어를 선정해 주는 일이 중요하다.
기존의 일·한 번역 방식은 주로 원시언어, 즉 일본어 분석에 기반하여 일본어 어휘의 의미를 분별한 다음, 동일 의미를 가지는 한국어 어휘로 변환하였다. 그러나, 이러한 방법의 경우 일본어 어휘의 의미를 분석하기 위해서 일본어 문법, 일본어 어휘에 대한 의미분류 체계, 일본어 코퍼스 등 일본어에 대한 많은 지식(knowledge base)을 필요로 한다. 그러므로, 이러한 지식의 활용이 용이하지 않은 경우, 양질의 번역 장치를 구축하기는 매우 힘들다.
기존의 번역 방법에서 변환 규칙은 원시언어의 문맥정보를 이용하여 의미분류를 한 후에 동일한 의미를 가지는 목적언어를 선정하도록 기술된다. 변환 규칙을 형식화하면 다음과 같이 표현될 수 있다.
α Wj β → Wk
수학식 1은 일반적인 변환 규칙을 형식화한 것으로서, 일본어 어휘 Wj의 왼쪽문맥이 α이고, 오른쪽 문맥이 β일때 한국어 어휘 Wk로 번역하는 규칙을 의미한다. 이때, α, β는 Wj의 문맥이 만족해야 하는 어휘, 구문 또는 의미적 제약조건을 의미한다. 다음은 일본어 조사에 대한 변환 규칙을 기술한 예이다.
체언[SEM:탈것] + に + 동사[LEX:乘る] → 을
상기 변환 규칙에서 α는 "체언[SEM:탈것]"이며, β는 "동사[LEX:乘る]"이다. 즉, α에 해당하는 일본어 단어의 의미 분류가 '탈것'이고, β에 해당하는 단어가 '乘る'라는 동사이면, 이때의 に는 '을'로 번역하라는 규칙을 기술한 것이다. 그러나, 이러한 변환 규칙들을 구축하기 위해서는 충분한 양의 일·한 병렬 코퍼스 또는 일본어에 대한 많은 지식을 필요로 한다. 또한, 변환 규칙을 번역하고자 하는 문장에 적용하기 위해서는 일본어 어휘에 대한 의미분류 사전이 요구된다. 그러므로, 기존의 일·한 번역 방법의 단점은 다음과 같이 요약될 수 있다.
첫째, 일본어에 대한 많은 지식 베이스를 요구한다. 번역에 필요한 변환 규칙을 자동 추출하기 위해서는 많은 양의 정렬된 병렬 코퍼스를 필요로 하며, 일본어 어휘의 의미분별을 위해서는 일본어 어휘의 의미분류 사전이 필요하다. 그러므로, 일본어에 대한 지식 베이스가 부족한 상태에서 기존의 방법을 이용하여 양질의 번역 장치를 구축하기는 매우 어렵다.
둘째, 일본어의 의미에 기반하여 한국어 대역어를 선정하기 때문에 부자연스러운 한국어 단어가 선정될 수 있다. 즉, 수학식 1에서 α와 β가 어떠한 한국어 어휘로 번역될지 결정되지 않은 상황에서 일본어 어휘나 일본어 의미 분류에 기반하여 Wk를 결정하기 때문에, Wj의 대역어인 Wk와 α, β의 한국어 대역어가 한국어 관점에서 볼 때 서로 부자연스러운 조합이 될 수도 있다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 언어번역을 실행함에 있어 목적언어의 관점에서 원시언어를 선정함으로써, 적은 양의 원시언어에 대한 지식 데이터베이스에 의해서도 원시언어에 대한 자연스러운 목적언어 대역어를 선정할 수 있는 목적언어 분석에 기반한 언어 번역 방법 및 장치를 제공함을 그 목적으로 한다.
도 1은 본 발명에 의한 목적언어 분석에 기반한 언어 번역장치의 일실시예인 일·한 번역장치의 구성을 도시한 블록도이다.
도 2는 본 발명에 의한 목적언어 분석에 기반한 언어 번역방법의 일실시예인 일·한 번역방법을 설명하기 위한 순서도이다.
도 3은 본 발명에 의한 언어 번역 장치의 일실시예에 구비된 한국어 격틀 사전의 구성을 예시한 것이다.
도 4는 본 발명에 의한 언어 번역 장치의 일실시예에 구비된 한국어 의미분류 사전을 개념적으로 도식화한 것이다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 목적언어 분석에 기반한 언어 번역 장치의 일실시예는 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석부; 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색부; 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석부; 및 상기 목적언어 분석부에 의해 하나의 목적언어 대역어가 정해지지 않는 경우, 언어 규칙간의 우선순위 및 어휘의 사용 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정부를 포함한다.
상기의 목적을 달성하기 위한, 본 발명에 의한 목적언어 분석에 기반한 언어 번역 방법은 (a) 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석단계; (b) 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 각 형태소에 대해대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색단계; (c) 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석단계; 및 (d) 상기 (c) 단계에서 하나의 목적언어 대역어가 정해지지 않는 경우, 언어 규칙간의 우선순위 및 어휘의 사용 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정단계를 포함한다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
우선, 본 발명에 의한 목적언어 분석에 기반한 언어 번역 방법 및 장치에서, 원시언어 및 목적언어로는 모든 종류의 언어들이 포함될 수 있으나, 원시언어와 목적언어가 유사한 경우, 예를 들면 한국어를 일본어로 번역하는 경우 또는 일본어를 한국어로 번역하는 경우에 보다 효과적인 성능을 발휘한다. 따라서, 이후에는 본 발명에 의한 목적언어 분석에 기반한 언어 번역 장치의 일실시예인 일·한 번역 장치 및 본 발명에 의한 목적언어 분석에 기반한 언어 번역 방법의 일실시예인 일·한 번역 방법을 중심으로 설명하고자 한다.
도 1에 의하면, 본 발명에 의한 목적언어 분석에 기반한 언어 번역 장치의 일실시예인 일·한 번역 장치는 입력으로 받은 일본어 문장을 형태소별로 나누는 일본어 형태소 해석부(10), 일·한 대역 사전(60)을 이용하여 일본어 어휘에 대해 가능한 모든 한국어 대역어를 나열하는 한국어 대역어 후보자 검색부(20), 한국어 격틀 사전(70)과 한국어 의미분류 사전(80)을 이용한 한국어 분석을 통해 불가능한 대역어 후보자들을 제거하는 한국어 분석부(30) 및 한국어 분석 후에도 여러 개의대역어 후보자가 남아 있을 경우 최종적인 한국어 대역어를 선정하는 한국어 대역어 선정부(40)를 포함하여 구성된다. 각 장치에 대한 자세한 설명은 다음과 같다.
일본어 형태소 해석부(10)는 일본어 문장을 입력으로 받아 일본어 사전(50)을 이용한 형태소 해석 과정을 거쳐 형태소와 형태소의 태그(품사)를 결과로 출력한다. 형태소 해석 결과는 다음의 한국어 대역어 후보자 검색부(20)의 입력으로 사용된다.
한국어 대역어 후보자 검색부(20)는 일본어 형태소 해석 후 각각의 일본어 형태소에 대해 일·한 대역 사전(60)을 이용하여 가능한 한국어 대역어를 나열한다. 일본어 형태소가 다의어인 경우 하나의 일본어 형태소에 여러 개의 한국어 어휘가 대응된다. 일·한 대역 사전(60)은 일본어 어휘에 대해 대응되는 모든 한국어 어휘를 포함하는 사전이다. 예를 들어, 조사 'に'는 '에', '에서', '으로', '을' 등 여러 개의 한국어 조사에 대응될 수 있으며, 동사 '乘る'는 '타다', '굴리다' 등의 한국어 동사에 대응될 수 있다.
한국어 격틀과 한국어 의미분류를 이용한 한국어 분석부(30)는 모호성을 가지는 일본어 어휘에 대해 한국어 분석을 통해 나열된 대역어 후보자들 중에서 한국어 문장으로 부적합한 후보자들을 제거한다. 이때, 한국어 격틀 사전(70)과 한국어 의미분류 사전(80)이 사용된다. 예를 들어, 'に'가 한국어 조사 '을'로 번역되고, '乘る'가 '타다'로 번역되기 위해서는 'に' 앞에 오는 체언의 한국어 의미분류가 '탈것'이어야 한다. 즉, '車'의 한국어 대역어인 '자동차'가 한국어 의미분류 체계에서 '탈것'의 부류에 속하는지를 조사하게 된다. 이와같이, 한국어 분석을위한 중요 지식베이스로 한국어 격틀 사전(70)과 한국어 의미분류 사전(80)이 사용된다.
한국어 대역어 선정부(40)는 한국어 분석부(30)에서 하나의 한국어 대역어가 정해지지 않는 경우, 최종적으로 한국어 대역어를 선정하게 된다. 여러 개의 후보자들이 가능한 경우, 언어 규칙간의 우선순위와 어휘의 빈도수를 이용하여 후보자들 중 하나의 한국어 대역어를 최종 선정한다. 여기서, 언어규칙은 의미분류 제약조건에 의한 규칙 및 어휘 제약조건에 의한 규칙이며, 어휘 제약조건에 의한 규칙이 의미 분류 제약에 의한 규칙에 우선한다. 이때, 규칙간의 우선순위에 의해서도 대역어가 선정되지 않으면, 빈도수가 가장 많은 후보자를 대역어로 선정하는데, 여기서, 빈도수란 일반적인 사용빈도수, 즉, 후보자들 중 일반적으로 가장 많이 사용되는 대표 단어를 의미한다. 도 4를 참조하여 설명하면, 의미분류에 따른 '차'에 대한 어휘는 '자동차', '버스', '트럭' 등인데, 이때, 빈도수가 가장 많은 단어, 즉, 대표단어는 '자동차'가 될 것이며, 이러한 대표단어는 데이터베이스 구축시, 항상 동일한 어휘군에서 가장 앞에 저장된다. 즉, 한국어 대역어 선정부(40)는 한국어 분석부(30)에서 하나의 한국어 대역어가 정해지지 않은 경우, 어휘 제약조건에 의거하여 후보자들 중 하나의 대역어를 설정하고, 이 과정에서도 하나의 대역어가 설정되지 않을 경우에는 후보자들 중 빈도수가 가장 많은 단어, 즉 동일한 어휘군 중 가장 앞에 위치하는 대표단어를 최종적으로 대역어로 선정한다.
도 2에 의하면, 본 발명에 의한 목적언어 분석에 기반한 언어 번역 방법의 일실시예인 일·한 번역 방법은 다음과 같이 진행된다.
단계(100)에서는 입력된 일본어 문장을 형태소 해석한다. 형태소 해석 결과는 형태소와 형태소에 대한 태그(품사)로 구성되며, 여러 개의 형태소 나열이 가능한 경우 가능한 후보자들 중에서 최적의 형태소 나열 하나만이 결과로서 출력된다. 일본어 형태소 해석부(10)에서 사용되는 데이타베이스로는 일본어 사전(50)이 사용된다.
다음은 일본어 입력문장에 대한 형태소 해석 결과를 보이는 예이다.
彼が車を轉がした → 彼 / が / 車 / を / 轉が / し / た
단계(200)에서는 각 형태소에 대해 일·한 대역 사전(60)을 검색하여 원시언어(일본어) 형태소에 대해 가능한 목적언어(한국어) 어휘를 대응시킨다. 다의어의 경우, 여러 개의 목적언어 어휘가 대응될 수 있다.
다음은 형태소 해석 결과에 대해 가능한 한국어 어휘를 대응시킨 예이다. 편의상 모든 가능한 대역어들 중 일부의 대역어만을 나타내었다.
彼 が 車 を 轉が し た
그 가 차 를 운전하다
를 굴리다
넘어뜨리다
단계(300)에서는 다중의 대역어를 가진 어휘에 대해 한국어 분석을 통해 부적합한 후보자를 제거한다. 단계(300)를 보다 세부적으로 설명하면 다음과 같다.
단계(310)에서는 모호성 단어에 대해 문맥에 나타나는 (명사+조사, 동사)의 쌍을 구성한다.
상기 예문으로부터 (명사+조사, 동사) 쌍을 나열하면 다음과 같다.
(그+가, 운전하다) (차+를, 운전하다)
(그+를, 운전하다) (차+를, 굴리다)
(그+가, 굴리다) (차+를, 넘어뜨리다)
(그+를, 굴리다)
(그+가, 넘어뜨리다)
(그+를, 넘어뜨리다)
단계(320)에서는 단계(310)에서 구성된 (명사+조사, 동사) 쌍에 한국어 격틀 사전(70)과 한국어 의미분류 사전(80)을 적용한다. 한국어 격틀 사전(70)에서의 '운전하다', '굴리다', '넘어뜨리다'의 구성은 다음과 같다.
운전하다 : (@사람명사)이 (@탈것, 차, 기차, 배, 비행기, ...)를
굴리다 : (@사람명사)이 (차, 트럭, 돈, 주식, 머리, ...)를
넘어뜨리다 : (@사람명사, 고통, ...)이 (@사람명사, 문짝, ...)를
예를 들어, 단계(310)에서 구성된 (명사+조사, 동사)의 쌍들 중 (차+를, 넘어뜨리다)의 경우, 한국어 격틀 사전(70)으로부터 동사 '넘어뜨리다'에 대해 조사'를' 앞에 위치할 수 있는 것을 검색하면, '@사람명사', '문짝', 등이다. 이후, 명사 '차'가 '@사람명사'나 '문짝'의 하위개념인지를 한국어 의미분류 사전(80)을 이용하여 검사한다.
단계(330)에서는 접속이 불가능하거나 의미가 일치하지 않는 쌍을 후보자로부터 제거한다. 즉, 한국어 격틀 사전(70)을 이용하여 형태소의 연결이 이루어지지 않는 쌍을 제거하고, 한국어 의미분류 사전(80)을 이용하여 후보자를 구성하는 형태소의 의미가 한국어 격틀 사전(70)에서 대응하는 형태소가 갖는 의미의 하위개념에 해당하지 않는 다음과 같은 후보자를 제거한다.
(그+가, 넘어뜨리다)
(그+를, 넘어뜨리다)
(차+를, 넘어뜨리다)
(그+를, 운전하다)
(그+를, 굴리다)
도 3은 본 발명에 의한 언어 번역 장치의 일실시예에 구비된 한국어 격틀 사전의 구성을 예시한 것이다. 도 3에서 참조번호 70a는 동사 "비교하다"에 대응하여 결합할 수 있는 조사와 명사를 예시적으로 나열한 것이고, 참조번호 70b는 대응하는 동사가 없는 경우 조사에 대응하여 결합될 수 있는 명사를 예시적으로 나열한 것이다. 도 4는 본 발명에 의한 언어 번역 장치의 일실시예에 구비된 한국어 의미분류 사전을 개념적으로 간략히 도식화한 것이다. 도 4에 의하면, 한국어 의미분류 사전은 의미분류에 따라 계층적으로 구성되어 있다. 즉, 하위 노드는 자신이 포함된 상위 노드가 지니는 개념에 포함되는 것이다. 예를 들어, 도 4에서 '자동차'는 '구체물'의 하위 개념이면서, '차'의 하위개념이 된다.
단계(400)에서는 원시언어(일본어) 어휘에 대해 하나의 목적언어(한국어) 어휘를 결정한다. 단계(400)를 보다 세부적으로 설명하면 다음과 같다.
단계(410)에서는 단계(300)가 진행된 다음에도 여러 개의 후보자가 남은 경우 언어규칙, 즉, 어휘 제약조건에 의한 규칙 및 의미분류 제약조건에 의한 규칙에서 우선순위를 이용하여 최종 목적언어 어휘를 선정한다. 이때, 어휘 제약조건에 의한 규칙이 의미분류 제약에 의한 규칙보다 우선함은 상술한 바와 같다.
단계(420)에서는, 단계(410)에서 규칙의 우선순위를 결정할 수 없는 경우, 즉, 대역어가 선정되지 않은 경우, 도 1에서 설명한 바와 같이 빈도수가 가장 높은 , 즉, 일반적으로 가장 많이 사용되는 대표 어휘를 대역어로 선정한다.
최종적으로 다음과 같은 한국어 어휘를 대역어로 선정한다.
(그+가, 운전하다)
(차+를, 운전하다)
그러므로, 최종적으로 한국어 문장 "그가 차를 운전하였다"가 출력된다.
한편, 상술한 본 발명의 실시예는 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하다. 그리고, 컴퓨터에서 사용되는 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 이러한 매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이러한 기록매체는 (a) 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석모듈; (b) 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자검색모듈; (c) 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석모듈; 및 (d) 상기 (c) 단계에서 하나의 목적언어 대역어가 정해지지 않는 경우, 규칙간의 우선순위와 어휘의 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정모듈을 컴퓨터에서 실행하는 프로그램 코드를 포함한다.
이상과 같은 본 발명을 구현하기 위한 기능적인 모듈들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 실시될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 의하면, 첫째, 일본어에 대한 전문 지식이 없더라도 한국어 분석을 통해서도 일·한 번역 장치를 구축할 수 있으므로, 일본어에 대한 많은 양의 지식 베이스가 요구되지 않으며, 일본어 지식 베이스 구축에 소요되는 많은 시간과 노력을 줄일 수 있다.
둘째, 번역 결과는 목적언어인 한국어로 표현되므로, 한국어 분석을 통해 대역어를 선정하는 본 발명이 기존의 방법에 비해 한국어 관점에서 보다 자연스러운 대역어를 선정할 수 있다.
본 발명의 효과를 평가하기 위하여, 일·한 번역에서 나타나는 모호성 중 많은 비중을 차지하는 조사에 대해 대역어 선정의 정확성을 평가하여 보았다. 평가는 일본의 아사히 신문에 기재된 598 문장을 대상으로 하였으며, 각 기사는 경제, 국제, 사회, 스포츠의 4분야를 포함함으로써 다양한 분야를 포함하고자 하였다. 표 1에 표시된 평가 결과에서 알 수 있는 바와 같이 한국어 분석을 통해 높은 번역 정확도를 얻을 수 있다.
일본 아사히 신문 : 598 문장
모델 경제 국제 사회 스포츠
기존 모델 92% 93% 94% 94%
개선 모델 98% 97% 98% 98%

Claims (8)

  1. 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석부;
    원시언어·목적언어 대역 사전 데이터베이스를 이용하여, 상기 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색부;
    목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 상기 검색된 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는목적언어 분석부; 및
    상기 목적언어 분석부에 의해 하나의 목적언어 대역어가 정해지지 않는 경우, 언어규칙간의 우선순위와 어휘의 사용 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정부를 포함함을 특징으로 하는 목적언어 분석에 기반한 언어 번역 장치.
  2. 제1항에 있어서, 상기 목적언어 분석부는
    상기 각 대역어 후보자들에 대하여 문맥을 나타내는 (명사+조사, 동사)의 쌍을 구성하고, 목적언어 격틀 사전 데이터베이스 및 목적언어 의미분류 사전 데이터베이스를 적용하여 그 조합이 불가능한 쌍을 후보자에서 제거하는 것을 특징으로 하는 목적언어 분석에 기반한 언어 번역 장치.
  3. 제1항에 있어서, 상기 목적언어 대역어 선정부의 언어규칙은
    의미분류 제약조건에 의한 규칙 및 어휘 제약조건에 의한 규칙이며,
    상기 목적언어 대역어 선정부는 상기 어휘 제약조건에 의한 조건에 우선순위를 주어 대역어를 선정하며, 상기 언어규칙의 우선순위에 따라 대역어가 선정되지 않을 경우, 상기 사용 빈도수가 많은 후보자에 우선순위를 주어 대역어를 선정하는 것을 특징으로 하는 목적언어 분석에 기반한 언어 번역 장치.
  4. (a) 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석단계;
    (b) 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 상기 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색단계;
    (c) 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 상기 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석단계; 및
    (d) 상기 (c) 단계에서 하나의 목적언어 대역어가 정해지지 않는 경우, 언어 규칙간의 우선순위와 어휘의 사용 빈도수를 이용하여 대역어 후보자들 중 하나의 목적언어 대역어를 최종 선정하는 목적언어 대역어 선정단계를 포함함을 특징으로 하는 목적언어 분석에 기반한 언어 번역 방법.
  5. 제4항에 있어서, 상기 (c) 단계는
    상기 각 대역어 후보자들에 대하여 문맥을 나타내는 (명사+조사, 동사)의 쌍을 구성하고, 목적언어 격틀 사전 데이터베이스 및 목적언어 의미분류 사전 데이터베이스를 적용하여 그 조합이 불가능한 쌍을 후보자에서 제거함을 특징으로 하는 목적언어 분석에 기반한 언어 번역 방법.
  6. 제4항에 있어서, 상기 (d) 단계의 언어규칙은
    의미분류 제약조건에 의한 규칙 및 어휘 제약조건에 의한 규칙이며,
    상기 (d)단계는 상기 어휘 제약조건에 의한 조건에 우선순위를 주어 대역어를 선정하며, 상기 언어규칙의 우선순위에 따라 대역어가 선정되지 않을 경우, 상기 사용 빈도수가 많은 후보자에 우선순위를 주어 대역어를 선정하는 것을 특징으로 하는 목적언어 분석에 기반한 언어 번역 방법.
  7. (a) 일본어 사전 데이터베이스를 이용하여 입력으로 받은 일본어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 일본어 형태소 해석단계;
    (b) 일본어·한국어 대역 사전 데이터베이스를 이용하여 상기 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 한국어 대역어 후보자 검색단계;
    (c) 상기 각 대역어 후보자들에 대하여 문맥을 나타내는 (명사+조사, 동사)의 쌍을 구성하고, 한국어 격틀 사전 데이터베이스 및 한국어 의미분류 사전 데이터베이스를 적용하여 그 조합이 불가능한 쌍을 후보자에서 제거하는 한국어 분석단계; 및
    (d) 상기 (c) 단계에서 하나의 한국어 대역어가 정해지지 않는 경우, 의미분류 제약조건 및 어휘 제약조건에 의한 언어규칙에 따라 대역어를 선정하되, 상기 어휘 제약조건에 의한 규칙에 우선순위를 주어 대역어를 선정하고, 상기 언어 규칙에 의해 대역어가 선정되지 않은 경우 사용 빈도수에 따라 사용 빈도수가 많은 후보자에 보다 높은 우선순위를 주어 대역어 후보자들 중 하나의 한국어 대역어를 최종 선정하는 한국어 대역어 선정단계를 포함함을 특징으로 하는 목적언어 분석에 기반한 언어 번역 방법.
  8. (a) 원시언어 사전 데이터베이스를 이용하여 입력으로 받은 원시언어 문장을 형태소별로 나누고 각 형태소에 태그를 부여하는 원시언어 형태소 해석모듈;
    (b) 원시언어·목적언어 대역 사전 데이터베이스를 이용하여 각 형태소에 대해 대응되는 모든 대역어 후보자들을 검색하는 목적언어 대역어 후보자 검색모듈;
    (c) 목적언어 격틀 사전 데이터베이스와 목적언어 의미분류 사전 데이터베이스를 이용하여 대역어 후보자들 중 부적합한 대역어 후보자들을 제거하는 목적언어 분석모듈; 및
    (d) 상기 (c) 단계에서 하나의 목적언어 대역어가 정해지지 않는 경우, 의미분류 제약조건 및 어휘 제약조건에 의한 언어규칙에 따라 대역어를 선정하되, 상기 어휘 제약조건에 의한 규칙에 우선순위를 주어 대역어를 선정하고, 상기 언어 규칙에 의해 대역어가 선정되지 않은 경우 사용 빈도수에 따라 사용 빈도수가 많은 후보자에 보다 높은 우선순위를 주어 대역어 후보자들 중 하나의 한국어 대역어를 최종 선정하는 목적언어 분석에 기반한 언어 번역 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체.
KR1020000007874A 2000-02-18 2000-02-18 목적언어 분석에 기반한 언어 번역 방법 및 장치 KR100338806B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000007874A KR100338806B1 (ko) 2000-02-18 2000-02-18 목적언어 분석에 기반한 언어 번역 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000007874A KR100338806B1 (ko) 2000-02-18 2000-02-18 목적언어 분석에 기반한 언어 번역 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20010081770A true KR20010081770A (ko) 2001-08-29
KR100338806B1 KR100338806B1 (ko) 2002-05-31

Family

ID=19647816

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000007874A KR100338806B1 (ko) 2000-02-18 2000-02-18 목적언어 분석에 기반한 언어 번역 방법 및 장치

Country Status (1)

Country Link
KR (1) KR100338806B1 (ko)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100463376B1 (ko) * 2002-12-10 2004-12-29 한국전자통신연구원 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
KR100687735B1 (ko) * 2004-12-08 2007-02-27 한국전자통신연구원 명사 의미코드 부착 방법 및 그 장치
KR100792203B1 (ko) * 2005-12-07 2008-01-08 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
US7333927B2 (en) 2001-12-28 2008-02-19 Electronics And Telecommunications Research Institute Method for retrieving similar sentence in translation aid system
KR100815804B1 (ko) * 2006-12-28 2008-03-20 주식회사 케이티 인터넷을 이용한 수준별 문맥 정보 서비스 제공 시스템 및방법
KR100911619B1 (ko) * 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
US8265922B2 (en) 2008-12-02 2012-09-11 Electronics And Telecommunications Research Institute Method and apparatus for applying translation memory in automatic translation system
KR101416098B1 (ko) * 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7333927B2 (en) 2001-12-28 2008-02-19 Electronics And Telecommunications Research Institute Method for retrieving similar sentence in translation aid system
KR100463376B1 (ko) * 2002-12-10 2004-12-29 한국전자통신연구원 원시언어를 대상언어로 번역하기 위한 번역엔진 장치 및 그 번역방법
KR100687735B1 (ko) * 2004-12-08 2007-02-27 한국전자통신연구원 명사 의미코드 부착 방법 및 그 장치
KR100792203B1 (ko) * 2005-12-07 2008-01-08 한국전자통신연구원 특허 문서 번역을 위한 미등록 단일명사 특허 전문용어의대역어 사전 구축 장치 및 방법
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data
KR100815804B1 (ko) * 2006-12-28 2008-03-20 주식회사 케이티 인터넷을 이용한 수준별 문맥 정보 서비스 제공 시스템 및방법
KR100911619B1 (ko) * 2007-12-11 2009-08-12 한국전자통신연구원 자동번역 시스템에서의 영어 어휘 패턴 구축 방법 및 장치
KR101023209B1 (ko) * 2008-10-13 2011-03-18 한국전자통신연구원 문서 번역 장치 및 그 방법
US8265922B2 (en) 2008-12-02 2012-09-11 Electronics And Telecommunications Research Institute Method and apparatus for applying translation memory in automatic translation system
KR101416098B1 (ko) * 2010-10-12 2014-07-09 한국전자통신연구원 구단위 번역 지식 학습 방법 및 이를 수행하는 장치

Also Published As

Publication number Publication date
KR100338806B1 (ko) 2002-05-31

Similar Documents

Publication Publication Date Title
US5694523A (en) Content processing system for discourse
US6061675A (en) Methods and apparatus for classifying terminology utilizing a knowledge catalog
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US5768580A (en) Methods and apparatus for dynamic classification of discourse
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
Wilson et al. The Automatic Content Analysis of Spoken Discourse A Report on Work in Progress
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
KR20050032937A (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Das et al. A novel system for generating simple sentences from complex and compound sentences
KR100338806B1 (ko) 목적언어 분석에 기반한 언어 번역 방법 및 장치
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
Basili et al. A shallow syntactic analyser to extract word associations from corpora
Hong et al. Customizing a Korean-English MT System for Patent Translation
JP3326646B2 (ja) 機械翻訳システム用辞書・ルール学習装置
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH1185766A (ja) キーワード抽出方法及び装置及びキーワード抽出プログラムを格納した記憶媒体
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP7312354B2 (ja) 意図情報抽出プログラム、意図情報抽出装置および意図情報抽出方法
JP2002278963A (ja) 事例翻訳装置
JP3698454B2 (ja) 並列句解析装置および学習データ自動作成装置
KR100333681B1 (ko) 용언 중심 문틀을 이용한 자동 번역 장치 및 그 방법
SARAGIH . An Analysis of Word Formation Process on Covid–19 News in BBC News Online
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20080312

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee