KR20070061008A - 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법 - Google Patents

기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법 Download PDF

Info

Publication number
KR20070061008A
KR20070061008A KR1020060030127A KR20060030127A KR20070061008A KR 20070061008 A KR20070061008 A KR 20070061008A KR 1020060030127 A KR1020060030127 A KR 1020060030127A KR 20060030127 A KR20060030127 A KR 20060030127A KR 20070061008 A KR20070061008 A KR 20070061008A
Authority
KR
South Korea
Prior art keywords
bandword
lexical
probability
information
band
Prior art date
Application number
KR1020060030127A
Other languages
English (en)
Other versions
KR100779164B1 (ko
Inventor
김영길
양성일
김창현
서영애
류철
홍문표
최승권
이기영
노윤형
권오욱
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20070061008A publication Critical patent/KR20070061008A/ko
Application granted granted Critical
Publication of KR100779164B1 publication Critical patent/KR100779164B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치 및 방법에 관한 것으로, 이미 구축되어 있는 기존 대역 전자사전에서 어휘 대역어 공기 정보 및 확률 정보를 자동으로 추출하여 이를 기반으로 복합명사에 대한 대역어를 선택하도록 하는 것을 특징으로 한다.
본 발명에 따르면, 종래와 같이 의미 태그드 코퍼스를 수동으로 구축할 필요 없이 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있으므로, 이에 따라 종래의 대역어 생성 방법에 비해 문맥에 맞는 자연스러운 대역어를 선택할 수 있게 된다.
복합명사, 어휘, 대역어, 공기, 확률, 문맥, 모호성, 중의성

Description

기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치 및 방법{Method and apparatus for automatically translating compound nouns using co-occurrence information and probability information of lexical words at an existing electronic dictionary}
도 1은 본 발명에 따른 복합명사 대역어 생성 장치를 나타낸 블록도이다.
도 2는 본 발명에 따른 복합명사 대역어 생성 방법을 나타낸 흐름도이다.
* 도면의 주요부분에 대한 부호의 설명 *
101: 명사구 구조분석 트리
102: 복합명사 추출부
103: 문맥 기반 어휘 대역어 선택부
104: 확률 기반 어휘 대역어 선택부
105: 복합명사 대역어 생성부
106: 대역 전자사전
107: 어휘 대역어 공기 정보 추출부
108: 어휘 대역어 확률 정보 추출부
109: 어휘 대역어 공기 DB
110: 어휘 대역어 확률 DB
111: 생성 후처리 DB
본 발명은 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치 및 방법에 관한 것으로서, 특히 기존의 대역 전자사전에서 어휘 대역어 공기 정보 및 확률 정보를 자동으로 추출하여 이를 기반으로 복합명사에 대한 대역어를 선택하도록 함으로써, 의미 태그드 코퍼스를 수동으로 구축할 필요 없이 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있는 복합명사 대역어 생성 장치 및 방법에 관한 것이다.
현재 언어정보처리의 대표적인 응용 시스템인 정보검색 시스템은 다국어 교차언어 정보검색으로 기능을 확장하면서 사용자 질의문에 대한 타언어로의 자동 번역 기능이 요구되고 있으며, 자동번역의 경우에는 전문 기술 문서, 매뉴얼, 특허문서 등과 같은 특화된 분야에 적용되면서 수백만 단위의 전문용어 대역어 사전이 적용되고 있지만, 이러한 문서들에서 자주 등장하는 다양한 복합명사들에 대한 번역 사전을 모두 수동으로 구축할 수는 없는 실정이다.
더 자세히 설명하면, 한국어에서는 연속해서 나타나는 명사들을 연속해서 붙여 나열함으로써 하나의 복합명사를 만드는 것이 가능하지만, 조합가능한 복합명사의 수가 무한하기 때문에 모든 복합명사를 모두 사전에 등록할 수 없는 것이다.
이러한 문제점으로 인해 복합명사를 처리하기 위해서 주어진 복합명사를 다시 그 복합명사를 구성하는 단위 어휘들로 분리하는 방법 및 분해된 복합명사의 단위 어휘별 의미 결정 방법에 대한 연구가 이루어지고 있는데, 종래의 언어정보 처리 기술에 있어서 분해된 각 단위 어휘는 정보 검색의 단위가 되어 검색엔진의 성능을 높일 수 있는 기법으로 사용될 수는 있지만, 교차언어 정보검색 또는 자동번역에서와 같이 각 단위 어휘에 대한 정확한 대역표현이 필요한 경우, 이들 복합명사를 단위 어휘로 분해하는 것 이외에도 각 단위 어휘의 적절한 의미에 맞는 정확한 목적언어 대역표현이 생성되어야 하며, 이를 위해 다음과 같이 두가지의 복합명사 대역어 결정 방법이 개시되어 있다.
첫번째로, 복합명사 사전에 등재되어 있는 대역어에 기반하여 복합명사 대역어를 결정하는 방법이 개시되어 있는데, 이 방법은, 복합명사 번역시 고빈도 복합명사에 대해서 대역사전을 구축하여 번역을 수행하고, 미등록 복합명사가 나타나는 경우에는 그 복합명사를 구성하는 단위 어휘들의 대표 대역어를 나열하는 방법으로, 이미 대역어 사전이 구축되어 있는 경우에는 문제가 없지만 복합명사는 그 조합수가 무한대이기 때문에, 이들을 모두 구축한다는 것은 불가능한 일이다.
두번째로, 복합명사의 각 단위 어휘들에 대한 의미를 결정하고 그 의미에 가장 근접한 대역어를 나열하는 방법이 개시되어 있는데, 이러한 경우 의미를 결정하기 의해 복합명사의 각 단위 어휘들에 대한 의미 태깅이 이루어져야 하지만, 이는 시간 및 비용이 많이 소요될 뿐만 아니라 의미 태깅 자체가 사람의 직관에 의존하는 주관적인 작업이기 때문에 일관성 있는 작업이 이루어지기 힘들고, 의미가 올바 르게 결정되었다 하더라도 동일 의미를 지니는 다양한 이종 대역어 표현들을 생성할 수 없다는 한계점을 가진다.
따라서, 교차언어 정보 검색 또는 자동번역에서와 같이 각 단위 어휘에 대한 정확한 대역표현이 필요한 경우, 종래의 의미 기반 대역어 선정 방법의 데이터 부족 문제, 의미 중의성 문제 및 이종 표현 생성 문제를 해결할 수 있는 수단이 요구된다.
본 발명의 목적은 기존 대역 전자사전에서 어휘 대역어 공기 정보 및 확률 정보를 자동으로 추출하여 이를 기반으로 복합명사 단어 어휘에 대한 대역어를 선택하도록 함으로써, 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있는 복합명사 대역어 생성 장치 및 방법을 제공하는 것이다.
상기 목적을 달성하기 위하여 본 발명에 따른 복합명사 대역어 생성 방법은, (a) 대역 전자사전에서 어휘 대역어 공기 정보 및 어휘 대역어 확률 정보를 추출하여 어휘 대역어 공기 DB 및 어휘 대역어 확률 DB를 생성하는 단계; (b) 복합명사를 명사의 단위 어휘들로 분해하는 단계; (c) 상기 어휘 대역어 공기 DB를 참조하여 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 단계; (d) 상기 어휘 대역어 확률 DB를 참조하여 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 단계; 및 (e) 상기 선택된 대역어들을 조합하여 복합명사 대역어를 생성하는 단계를 포함하는 것을 특징으로 한다.
한편, 상기 목적을 달성하기 위하여 본 발명에 따른 복합명사 대역어 생성 장치는, 대역 전자사전에서 어휘 대역어 공기 정보를 추출하는 어휘 대역어 공기 정보 추출부; 대역 전자사전에서 어휘 대역어 확률 정보를 추출하는 어휘 대역어 확률 정보 추출부; 복합명사를 추출하고 상기 추출된 복합명사를 명사의 단위 어휘들로 분해하는 복합명사 추출부; 상기 어휘 대역어 공기 정보를 기반으로 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 문맥 기반 어휘 대역어 선택부; 상기 어휘 대역어 확률 정보를 기반으로 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 확률 기반 어휘 대역어 선택부; 및 상기 선택된 대역어들을 조합하여 상기 추출된 복합명사의 대역어를 생성하는 복합명사 대역어 생성부를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세히 설명한다.
도 1은 본 발명에 따른 복합명사 대역어 생성 장치를 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 복합명사 대역어 생성 장치는, 명사구 구조분석 트리(101), 복합명사 추출부(102), 문맥 기반 어휘 대역어 선택부(103), 확률 기반 어휘 대역어 선택부(104), 복합명사 대역어 생성부(105), 대역 전자사전(106), 어휘 대역어 공기 정보 추출부(107), 어휘 대역어 확률 정보 추출부(108), 어휘 대역어 공기 DB(109), 어휘 대역어 확률 DB(110) 및 생성 후처리 DB(111)로 구성되어 있다.
도 1과 같이 구성된 복합명사 대역어 생성 장치에 있어서, 질의어 번역 또는 자동번역의 대역어 생성을 위해서는 입력문장에 나타나는 단어들에 대한 번역 사전인 대역 전자사전(106)이 필수적으로 구비되어야 하는데, 본 발명에서 사용되는 대역 전자사전(106)은 기존의 대역 전자사전과 그 구성 및 기능이 동일하나, 다음의 표 1과 같이 대역어 생성을 위한 어휘들이 "띄어쓰기 정보를 포함한 원시언어 엔트리 | 해당 목적언어 대역 표현"과 같은 포맷으로 저장되어 있다.
대역 전자사전
다중_처리 방법 | multiprocessing method
디지털 오디오 신호 혼합 회로 | digital audio signal mixing circuit
수소 내연 기관 | hydrogen internal_combustion engine
상기 대역 전자사전(106)에 포함되어 있는 어휘들은 2개 이상의 명사들이 연속해서 나타나는 복합명사의 형태를 가지는데, 다음에서 설명하는 바와 같이 복합명사와 이에 대한 대역어는 N:N 관계로 매칭될 수도 있지만 그렇지 않을 수도 있다.
가) N:N 대응
예) 디지털 오디오 신호 혼합 회로 | digital audio signal mixing circuit
나) N:M(M>N) 대응
예) 수소 내연 기관 | hydrogen internal_combustion engine
다) N:M(M<N) 대응
예) 다중_처리 방법 | multiprocessing method
상기 가)의 경우를 살펴보면 한국어 한 어절에 대해서 영어 한 어절이 1: 1 대응되는 반면, 나) 및 다)의 경우를 살펴보면 복합명사와 그에 대한 대역어의 대응 개수가 일치되지 않아 이를 위해 “_”를 사용하여 그 대응 개수가 맞춰진 것을 알 수 있다.
상기 나) 및 다)의 경우와 같이 복합명사와 대역어의 대응 개수를 일치시키는 이유는, 복합명사와 그 대역어의 대응 개수가 일치하지 않을 경우, 종래에 개시된 구문정렬 알고리즘을 통해 대응하는 길이가 다른 구문들에 대하여 대역어 구문을 추정하여 복합명사에 대한 대역어를 생성할 수도 있지만, 그 정확률이 많이 떨어져 인식 오류가 발생할 가능성이 높기 때문이다.
한편, 본 발명에서는 복합명사 대역어 생성의 정확성을 위해 대역 전자사전(106)에 포함된 어휘들 중에서 상기 가), 나), 다)의 경우와 같이 대역어와 매칭이 가능한 어휘들만을 추출한 후 추출된 어휘들에 대해서만 공기 정보 및 확률 정보를 추출하여 어휘 대역어 공기 DB(109) 및 어휘 대역어 확률 DB(110)를 생성한다.
다시 말해서, 대역 전자사전(106)에 포함된 어휘들 중에서 대역어와 매칭이 가능한 어휘들에 대해서만 어휘 대역어 공기 정보 추출부(107)를 통해 어휘 대역어 공기 정보를 추출하여 어휘 대역어 공기 DB(109)를 생성하는 한편, 대역어와 매칭이 가능한 어휘들에 대해서만 어휘 대역어 확률 정보 추출부(108)를 통해 어휘 대역어 확률 정보를 추출하여 어휘 대역어 확률 DB(110)를 생성한다.
즉, 어휘 대역어 공기 DB(109) 및 어휘 대역어 확률 DB(110)에는 대역 전자사전(106)의 어휘들 중에서 “_”를 포함하여 대역표현과 대응 개수가 일치하는 어휘에 대한 공기 정보 및 확률 정보가 저장되게 되는데, 필요에 따라 수작업에 의해 “_”를 포함하여 그 대응 숫자를 맞춰 DB화 하는 것도 가능하다.
본 발명의 이해를 돕기 위해 어휘 대역어 공기 DB(109)와 어휘 대역어 확률 DB(110)는 미리 구축되어 있는 것으로 가정하여 설명하며, 이에 따라 실제 번역 장치가 가동될 때 이들 어휘 대역어 공기 DB(109)와 어휘 대역어 확률 DB(110)는 메모리에 로딩되어 문맥 기반 어휘 대역어 선택부(103) 및 확률 기반 어휘 대역어 선택부(104)에 의해 액세스 가능한 상태가 된다.
한편, 교차언어 정보검색 또는 자동번역에서와 같이 각 단어 어휘에 대한 정확한 대역표현이 필요한 시스템에서는, 복합명사가 의미적 중의성을 갖는 경우 이에 적합한 대역어를 선택할 수 있어야 하며, 또한, 동일 의미에 의한 다른 목적언어 표현도 선택할 수 있어야 하는데, 기존의 복합명사 자동번역 장치에서는 이에 대해 전혀 고려하고 있지 않기 때문에 이로 인해 자연스러운 대역어를 얻을 수가 없었다.
즉, 실제 자동번역에서 대역어를 선택할 때에는 원문 어휘가 가지는 의미적 모호성만을 해소해서는 자연스러운 대역어를 얻을 수 없으며, 문맥에 가장 적합한 대역어를 선택할 수 있어야 한다.
이를 위하여 본 발명에서는 각 단위 어휘의 의미에 맞는 정확한 목적언어 대역표현을 생성하기 위하여 다음과 같이 어휘 대역어 공기 DB(109)와 어휘 대역어 확률 DB(110)를 기반으로 복합명사의 대역어를 생성하는데, 이하 이에 대하여 더 자세히 설명한다.
우선, 복합명사 추출부(102)는 명사구 구조분석 트리(101)를 통해 대명사, 명사, 수사, 기호 등의 체언들이 연속해서 나타나는 경우 관형격 조사를 경계로 하여 복합명사를 추출하고 추출된 복합명사를 명사의 단위 어휘들로 분해한다.
그 다음, 문맥 기반 어휘 대역어 선택부(103)는 어휘 대역어 공기 DB(109)를 참조하여 복합명사를 이루고 있는 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는데, 문맥 기반 어휘 대역어 선택부(103)의 동작에 대하여 더 자세히 설명하면 다음과 같다.
우선, 문맥 확률은 현재 대상이 되는 단위 어휘와 연속하는 주위 단어들과의 문맥관계로 정의되는데, 문맥 기반 어휘 대역어 선택부(103)는 n-gram 모델을 사용하여 해당 어휘에 대한 문맥 확률을 계산한 후 이를 기반으로 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택함으로써 주위 문맥상 가장 자연스러운 대역어 표현을 선택한다.
여기에서, n-gram 모델은 과거의 n-1개의 단어로부터 다음에 나타날 단어의 확률을 정의한 것으로, 복합명사의 경우 인접 명사들간이 밀접한 관계를 지니기 때문에 본 발명에서는 좌우 두개의 단어에 의존하는 확률을 사용하는 바이그램(bigram)을 이용하여 해당 어휘에 대한 문맥 확률을 계산하는데, 해당 어휘에 대한 문맥 확률 계산에 관한 식은 하기의 수학식 1과 같이 주어진다.
argmax tn [P(Tn=tn | Wn=wn, Wn-1=wn-1)+ P(Tn=tn | Wn=wn, Wn+1=wn+1)
즉, 문맥 기반 어휘 대역어 선택부(103)는 좌우 문맥에 의한 통계 모델에 의해 어휘 대역어 공기 DB(109)를 참조하여 대상 어휘에 대한 문맥 확률을 계산한 후 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택한다.
예를 들어, 복합명사 “디지털 오디오 신호 혼합 회로 | digital audio signal mixing circuit”에 있어서 단위 어휘 "오디오"의 좌문맥 정보는 “디지털”, 우문맥 정보는 “신호”가 되며, 이에 따라 문맥 기반 어휘 대역어 선택부(103)는 "오디오"에 대한 좌문맥 정보 “[오디오]디지털_* audio 1”, 우문맥 정보 “[오디오]*_신호 audio 1”를 기반으로 어휘 대역어 공기 DB(109)를 참조하여 "오디오"에 대한 문맥 확률을 계산한 후 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택한다.
상기와 같이 복합명사를 이루고 있는 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하면, 다음의 예 1)과 같이 의미적 해석이 여러 가지로 가능 한 복합명사가 입력된 경우에도 정확한 대역어 선택이 가능하게 됨을 알 수 있다.
예를 들어 다음의 예 1)과 같이 "2중 부하", "디플리션 부하", "마찰 부하"의 복합명사가 입력된 경우, "부하"는 "subordinate"와 "load" 두 가지로 해석이 가능한데 상기와 같이 문맥 확률이 가장 높은 대역어를 선택하게 되면, "부하"의 대역어를 "subordinate"이 아닌 "load"로 선택할 수 있게 되며, 이에 따라 자동으로 의미 중의성 문제가 해결될 수 있다.
예 1)
2중 부하 | dual load
디플리션 부하 | depletion load
마찰 부하 | frictional load
즉, 어휘 대역어 공기 DB(109)에는 "부하"에 대한 주변 어휘들과의 공기 관계가 저장되어 있는데, 문맥 기반 어휘 대역어 선택부(103)는 이 공기 관계에 따라 "부하"에 대한 문맥 확률을 계산한 후 문맥 확률이 가장 높은 대역어를 선택하게 되는데, 이에 따라 "부하"의 대역어가 "subordinate"이 아닌 "load"로 매핑되며, 이로 인해 자동으로 의미 중의성 문제가 해결되는 것이다.
한편, 해당 어휘에 대한 문맥 정보가 존재하지 않는 경우 상기 문맥 기반 어휘 대역어 선택부(103)를 통해 어휘 대역어 선택이 이루어질 수 없는데, 이러한 경우 본 발명에서는 확률 기반 어휘 대역어 선택부(104)를 통해 해당 어휘와 함께 나 타날 확률이 가장 높은 대역어를 선택하도록 한다.
여기에서, “어휘 대역어 확률”은 복합명사 내에 나타나는 원시언어의 단위 어휘에 대한 특정 대역어 어휘가 나타날 확률을 말하는데, 이에 대하여 더 자세히 설명하면 다음과 같다.
예를 들어, 복합명사(Compound Noun) CN1이 W1W2W3로 구성되고 이에 대한 대역정보가 T1T2T3, 다른 복합명사 CN2가 W1W5W6로 구성되고 이에 대한 대역정보가 T1T5T6, 또 다른 복합명사 CN3가 W1W7W8로 구성되고 이에 대한 대역정보가 T0T7T8 이라 가정하고, 상기 복합명사 CN1, CN2, CN3에 있어서 각 어휘들은 순서대로 그 대역어에 해당한다고 가정한다.
이러한 경우 W1이 T1으로 번역되는 경우는 2번이며 W1이 T0로 번역되는 경우는 1번이므로 단위 어휘 W1의 어휘 대역어 확률은 P(T1|W1)=2/3, P(T0|W1)=1/3이 된다.
이와 같이 복합명사 내의 단위 어휘가 어느 특정한 대역어로 맵핑이 되는 확률을 어휘 대역어 확률이라고 하는데, 어휘 대역어 확률 계산식은 하기의 수학식 2와 같이 주어진다.
argmax tn P(Tn=tn | Wn=wn)
즉, 확률 기반 어휘 대역어 선택부(104)는 어휘 대역어 확률 DB(110)를 참조하여 어휘 대역어 확률을 계산한 다음 이를 기반으로 해당 어휘에 대하여 어휘 대 역어 확률이 가장 높은 대역어를 선택하는데, 이에 따라 다음의 예 2)와 같이 동일 의미일지라도 그 대역어 선택이 달라져야 하는 경우에도 정확한 대역어 선택이 가능하게 됨을 알 수 있다.
예를 들어 다음의 예 2)와 같이 "복합 세분도", "복합 객체", "복합 결합제", "복합 구조체", "복합 계수", "복합 공간", "복합 광 무선" 의 복합명사가 입력된 경우, 모두 "복합"이라는 동일한 명사를 포함하고 있지만 이에 대한 대역어 표현은 각각 달라야 하는데, 이러한 경우 해당 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하게 되면 "복합"이라는 동일한 어휘에 대해 "multi", "composite", "complex", "hybrid"와 같이 각각 다른 대역어 표현이 가능하게 되는 것이다.
예 2)
복합 세분도 | multi-granularity
복합 객체 | composite object
복합 결합제 | composite binder
복합 구조체 | composite structure
복합 계수 | complex coefficient
복합 공간 | complex space
복합 광 무선 | hybrid fiber radio
한편, 복합명사의 대역어는 대부분 한국어 단위 어휘에 대해 해당 영어 어휘 의 나열로 이루어지는데, 한국어 단어 어휘의 위치가 바뀌는 경우 또는 전치사 또는 목적어를 대동하는 경우, 상기와 같은 방법으로 복합명사에 대한 대역어를 선택하면 목적하는 바와 전혀 다른 대역어가 선택될 수 있는데, 이러한 경우 확률 기반 어휘 대역어 선택부(104)는 복합명사를 하나의 단위 어휘로 간주하여 어휘 대역어확률을 계산함으로써 어휘 대역어 선택의 정확성을 높일 수 있도록 한다.
그 다음, 복합명사 대역어 생성부(105)는 문맥 기반 어휘 대역어 선택부(103) 및 확률 기반 어휘 대역어 선택부(104)를 통해 선택된 대역어들을 조합한 다음 최종적으로 생성 후처리 DB(111)를 참조하여 복합명사 대역어를 생성한다.
여기에서, 생성 후처리 DB(111)는 통계적으로 빈번히 나타나는 오류를 정정할 수 있는 오류 정정 후처리 데이터들에 대한 정보를 포함하고 있는데, 예를 들어 "informations_retrieval" → "information_retrieval"와 같이 오류표현에 대한 정정표현들이 구축되어 있으며, 복합명사 대역어 생성부(105)는 이러한 생성 후처리 DB(111)를 통해 통계적으로 빈번히 틀리는 표현을 교정하여 복합명사 대역어를 생성한다.
상기한 바와 같이, 대역 전자사전(106)으로부터 어휘 대역어 공기 정보 및 어휘 대역어 확률 정보를 추출하여 이를 복합명사의 대역어 선택에 이용함으로써, 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있게 되며, 이에 따라 해당 복합명사에 가장 적합한 대역어를 생성할 수 있게 된다.
이하, 본 발명에 따른 복합명사 대역어 생성 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 복합명사 대역어 생성 방법을 나타낸 흐름도이다.
우선, 대역 전자사전(106)에서 어휘 대역어 공기 정보 및 어휘 대역어 확률 정보를 자동으로 추출하여 이를 기반으로 어휘 대역어 공기 DB(109) 및 어휘 대역어 확률 DB(110)를 생성한다(S201~S202).
여기에서, 대역 전자사전(106)에는 상기 표 1과 같이 대역문 생성을 위한 어휘들이 "띄어쓰기 정보를 포함한 원시언어 엔트리 | 해당 목적언어 대역 표현"과 같은 포맷으로 저장되어 있는데, 이들 어휘의 포맷에 대해서는 표 1과 관련된 설명에서 상세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
또한, 본 발명에서는 복합명사 대역어 생성의 정확성을 위해 기존의 대역 전자사전(106)에 포함된 어휘들 중에서 대역어와 매칭이 가능한 어휘들만을 추출한 후 추출된 어휘들에 대해서만 공기 정보 및 확률 정보를 추출하여 어휘 대역어 공기 DB(109) 및 어휘 대역어 확률 DB(110)를 생성하도록 한다.
한편, 상기 어휘 대역어 공기 DB(109) 및 어휘 대역어 확률 DB(110)는 미리 구축되어 실제 번역 장치가 가동될 때 메모리에 로딩되어 문맥 기반 대역어 선택부(103) 및 확률 기반 대역어 선택부(104)에 의해 액세스 가능한 상태인 것이 바람직하다.
그 다음, 복합명사가 입력되면 복합명사 추출부(102)는 명사구 구조분석 트리(101)를 통해 대명사, 명사, 수사, 기호 등의 체언들이 연속해서 나타나는 경우 관형격 조사를 경계로 하여 복합명사를 추출한 후 추출된 복합명사를 명사의 단위 어휘들로 분해한다(S203).
그 다음, 문맥 기반 어휘 대역어 선택부(103)는 어휘 대역어 공기 DB(109)를 참조하여 좌우 문맥에 의한 통계 모델에 의해 대상 어휘에 대한 문맥 확률을 계산한 후(S204), 이를 기반으로 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택함으로써 각 단위 어휘에 대하여 가장 자연스러운 대역어 표현을 선택하는데(S205), 문맥 기반 어휘 대역어 선택부(103)의 동작에 대하여는 도 1과 관련된 설명에서 상세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
상기와 같이 복합명사를 이루고 있는 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하면, 의미적 해석이 여러 가지로 가능한 복합명사가 입력된 경우에도 정확한 대역어 선택이 가능하게 되며, 이에 따라 각 분야에 따른 의미 중의성을 해소할 수 있게 된다.
그 다음, 해당 어휘에 대한 문맥 정보가 존재하지 않는 경우 상기 문맥 기반 어휘 대역어 선택부(103)를 통해 어휘 대역어 선택이 이루어질 수 없는데, 이러한 경우 확률 기반 어휘 대역어 선택부(104)는 어휘 대역어 확률 DB(110)를 참조하여 해당 어휘에 대한 어휘 대역어 확률을 계산한 후(S206), 이를 기반으로 해당 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하며(S207), 확률 기반 어휘 대역어 선택부(104)의 동작에 대하여는 도 1과 관련된 설명에서 상세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
상기와 같이 해당 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하면, 이에 따라 동일 의미일지라도 그 대역어 선택이 달라져야 하는 경우에도 정확한 대역어 선택이 가능하게 된다.
그 다음, 복합명사 대역어 생성부(105)는 문맥 기반 어휘 대역어 선택부(103) 및 확률 기반 어휘 대역어 선택부(104)에 의해 선택된 어휘 대역어들을 조합하여 복합명사 대역어를 생성한 후(S208), 생성 후처리 DB(111)를 참조하여 빈번히 틀리는 표현을 교정함으로써 복합명사에 대한 정확한 대역어가 생성되도록 한다(S209).
따라서, 상기한 바와 같이 대역 전자사전(106)으로부터 어휘 대역어 공기 정보 및 확률 정보를 추출하여 이를 복합명사의 대역어 선택에 이용하면, 복합명사가 의미적 중의성을 갖는 경우 이에 적합한 대역어를 선택할 수 있을 뿐만 아니라 동일 의미에 의한 다른 목적언어 표현도 선택할 수 있으므로, 이에 따라 해당 복합명사에 대한 자연스러운 대역어 표현을 얻을 수 있게 된다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본 질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상기한 바와 같이, 본 발명에 따르면, 종래와 같이 의미 태그드 코퍼스를 수동으로 구축할 필요 없이 대역어 선택에 있어서 문제가 되는 의미 중의성 문제와 동일 의미의 이종 대역어 표현 문제를 해결할 수 있으므로, 이에 따라 종래의 대역어 생성 방법에 비해 문맥에 맞는 자연스러운 대역어를 생성할 수 있다.
또한, 본 발명을 복합명사의 질의어가 빈번히 등장하는 교차언어 검색 시스템 및 자동번역 시스템에 적용하면 실용적인 자동번역 결과를 얻을 수 있으므로, 이에 따라 전체 응용 시스템의 성능 향상도 기대할 수 있다.
또한, 본 발명에 따르면 어휘 기반의 처리를 통해 자동번역 시스템의 점진적인 성능 향상이 가능하며, 복합명사 대역어가 문맥에 맞지 않게 생성된 경우에는 기존 대역 전자사전을 수정 편집하는 것에 의해 복합명사 대역어 생성 장치의 성능을 손쉽게 향상시킬 수 있다.

Claims (13)

  1. (a) 대역 전자사전에서 어휘 대역어 공기 정보 및 어휘 대역어 확률 정보를 추출하여 어휘 대역어 공기 DB 및 어휘 대역어 확률 DB를 생성하는 단계;
    (b) 복합명사를 명사의 단위 어휘들로 분해하는 단계;
    (c) 상기 어휘 대역어 공기 DB를 참조하여 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 단계;
    (d) 상기 어휘 대역어 확률 DB를 참조하여 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 단계; 및
    (e) 상기 선택된 대역어들을 조합하여 복합명사 대역어를 생성하는 단계를 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  2. 제 1항에 있어서, 상기 (a) 단계는,
    대역 전자사전에 포함된 어휘들 중에서 대역어와 매칭이 가능한 어휘들만을 추출하는 단계; 및
    상기 추출된 어휘들에서 어휘 대역어 공기 정보 및 어휘 대역어 확률 정보를 추출하여 어휘 대역어 공기 DB 및 어휘 대역어 확률 DB를 생성하는 단계를 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  3. 제 1항에 있어서, 상기 (c) 단계는,
    상기 어휘 대역어 공기 DB를 참조하여 좌우 문맥에 의한 통계 모델에 의해 상기 각 단위 어휘에 대한 문맥 확률을 계산하는 제 1단계; 및
    상기 문맥 확률값에 따라 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 제 2단계를 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  4. 제 3항에 있어서, 상기 제 1단계에 있어서,
    좌우 문맥에 의한 통계 모델에 의해 상기 각 단위 어휘에 대한 문맥 확률을 계산하는 식은,
    argmax tn [P(Tn=tn | Wn=wn, Wn-1=wn-1)+ P(Tn=tn | Wn=wn, Wn+1=wn+1)
    인 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  5. 제 1항에 있어서, 상기 (d) 단계는,
    상기 어휘 대역어 확률 DB를 참조하여 상기 각 단위 어휘에 대한 어휘 대역어 확률을 계산하는 제 1단계; 및
    상기 어휘 대역어 확률값에 따라 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 제 2단계를 포함하는 것을 특징으로 하는 기 존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  6. 제 5항에 있어서, 상기 제 1단계에 있어서,
    상기 각 단위 어휘에 대한 어휘 대역어 확률을 계산하는 식은,
    argmax tn P(Tn=tn | Wn=wn)
    인 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  7. 제 1항에 있어서, 상기 (e) 단계는,
    생성 후처리 DB를 참조하여 통계적으로 빈번히 틀리는 표현을 교정하는 단계를 더 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 방법.
  8. 대역 전자사전에서 어휘 대역어 공기 정보를 추출하는 어휘 대역어 공기 정보 추출부;
    대역 전자사전에서 어휘 대역어 확률 정보를 추출하는 어휘 대역어 확률 정보 추출부;
    복합명사를 추출하고 상기 추출된 복합명사를 명사의 단위 어휘들로 분해하는 복합명사 추출부;
    상기 어휘 대역어 공기 정보를 기반으로 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 문맥 기반 어휘 대역어 선택부;
    상기 어휘 대역어 확률 정보를 기반으로 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 확률 기반 어휘 대역어 선택부; 및
    상기 선택된 대역어들을 조합하여 상기 추출된 복합명사의 대역어를 생성하는 복합명사 대역어 생성부를 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
  9. 제 8항에 있어서, 상기 어휘 대역어 공기 정보 추출부는,
    상기 대역 전자사전에 포함된 어휘들 중에서 대역어와 매칭이 가능한 어휘들에 대하여 어휘 대역어 공기 정보를 추출하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
  10. 제 8항에 있어서, 상기 어휘 대역어 확률 정보 추출부는,
    상기 대역 전자사전에 포함된 어휘들 중에서 대역어와 매칭이 가능한 어휘들에 대하여 어휘 대역어 확률 정보를 추출하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
  11. 제 8항에 있어서, 상기 문맥 기반 어휘 대역어 선택부는,
    상기 어휘 대역어 공기 정보를 참조하여 좌우 문맥에 의한 통계 모델에 의해 상기 각 단위 어휘에 대한 문맥 확률을 계산한 후, 상기 계산된 문맥 확률값을 기반으로 상기 각 단위 어휘에 대하여 문맥 확률이 가장 높은 대역어를 선택하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
  12. 제 8항에 있어서, 상기 확률 기반 어휘 대역어 선택부는,
    상기 어휘 대역어 확률 정보를 참조하여 상기 각 단위 어휘에 대한 어휘 대역어 확률을 계산한 후, 상기 계산된 어휘 대역어 확률값을 기반으로 상기 각 단위 어휘에 대하여 어휘 대역어 확률이 가장 높은 대역어를 선택하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
  13. 제 8항에 있어서,
    복합명사 대역어 생성시 통계적으로 빈번히 나타나는 오류를 정정할 수 있는 오류 정정 후처리 데이터들에 대한 정보가 저장된 생성 후처리 DB를 더 포함하는 것을 특징으로 하는 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률 정보를 이용한 복합명사 대역어 생성 장치.
KR1020060030127A 2005-12-09 2006-04-03 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법 KR100779164B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020050120447 2005-12-09
KR20050120447 2005-12-09

Publications (2)

Publication Number Publication Date
KR20070061008A true KR20070061008A (ko) 2007-06-13
KR100779164B1 KR100779164B1 (ko) 2007-11-26

Family

ID=38356947

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060030127A KR100779164B1 (ko) 2005-12-09 2006-04-03 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100779164B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101027007B1 (ko) * 2008-12-22 2011-04-11 한국전자통신연구원 대역어 사전 특화 장치 및 그 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000039749A (ko) 1998-12-15 2000-07-05 정선종 기계 번역을 위한 변환 장치 및 이를 이용한 변환 방법
KR20010094627A (ko) 2000-03-31 2001-11-01 김영택 마르코프 모델을 이용해 복합명사를 분리하는 기계번역방법
KR100559472B1 (ko) * 2003-12-24 2006-03-10 한국전자통신연구원 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
KR100513161B1 (ko) * 2003-12-26 2005-09-08 한국전자통신연구원 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101027007B1 (ko) * 2008-12-22 2011-04-11 한국전자통신연구원 대역어 사전 특화 장치 및 그 방법

Also Published As

Publication number Publication date
KR100779164B1 (ko) 2007-11-26

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
Nießen et al. Statistical machine translation with scarce resources using morpho-syntactic information
JP2745370B2 (ja) 機械翻訳方法及び機械翻訳装置
JP3969628B2 (ja) 翻訳支援装置、方法及び翻訳支援プログラム
JP4993762B2 (ja) 用例ベースの機械翻訳システム
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
US20100228538A1 (en) Computational linguistic systems and methods
Caseli et al. Automatic induction of bilingual resources from aligned parallel corpora: application to shallow-transfer machine translation
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
KR100779164B1 (ko) 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법
Wu et al. Parsing-based Chinese word segmentation integrating morphological and syntactic information
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Gavhal et al. Sentence Compression Using Natural Language Processing
CN112784612B (zh) 基于迭代修改的同步机器翻译的方法、装置、介质及设备
Czarnowska et al. Morphologically aware word-level translation
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
JP3419748B2 (ja) 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体
KUCHIBHOTLA Applications of Data-Driven Dependency Rules
Mall et al. Shallow Parsing and Word Sense Disambiguation Used for Machine Translation from Hindi to English Languages.
JP2006163491A (ja) 質問応答システム、質問応答方法及び質問応答プログラム
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
Kumar Minimum bayes-risk techniques in automatic speech recognition and statistical machine translation
Li et al. Mining live transliterations using incremental learning algorithms

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20121031

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20131024

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee