KR101027007B1 - 대역어 사전 특화 장치 및 그 방법 - Google Patents

대역어 사전 특화 장치 및 그 방법 Download PDF

Info

Publication number
KR101027007B1
KR101027007B1 KR1020080131758A KR20080131758A KR101027007B1 KR 101027007 B1 KR101027007 B1 KR 101027007B1 KR 1020080131758 A KR1020080131758 A KR 1020080131758A KR 20080131758 A KR20080131758 A KR 20080131758A KR 101027007 B1 KR101027007 B1 KR 101027007B1
Authority
KR
South Korea
Prior art keywords
vocabulary
band
corpus
bandword
air
Prior art date
Application number
KR1020080131758A
Other languages
English (en)
Other versions
KR20100073164A (ko
Inventor
이기영
권오욱
김창현
노윤형
서영애
양성일
최승권
김운
박은진
오영순
윤창호
황금하
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131758A priority Critical patent/KR101027007B1/ko
Publication of KR20100073164A publication Critical patent/KR20100073164A/ko
Application granted granted Critical
Publication of KR101027007B1 publication Critical patent/KR101027007B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 자동 번역 시스템의 도메인 변화에 따른 대역어 사전의 특화 기법에 관한 것으로, 목표 도메인에 속하는 원시 언어 코퍼스와 목표 언어 코퍼스를 이용하여 공기 어휘를 추출하고, 이를 대역어 사전에 매핑시켜 대역어 후보를 추출하며, 이에 대한 대역 관계의 오류를 필터링한 후 대표 대역어를 결정하여 대역어 사전에 반영함으로써, 자동 번역 시스템의 대역어 사전을 자동으로 특화시킬 수 있어 이를 구축하는데 소요되는 비용을 절감할 수 있는 것이다.
자동 번역, 대역어 사전

Description

대역어 사전 특화 장치 및 그 방법{PAGINAL TRANSLATION WORD DICTIONARY CUSTOMIZATION APPARATUS AND ITS METHOD}
본 발명은 대역어 사전을 자동으로 특화하는 기법에 관한 것으로, 더욱 상세하게는 자동 번역 시스템에서 번역 대상인 도메인이 변경될 경우 신규 도메인에 적합한 대역어 사전으로 특화하는데 적합한 대역어 사전 특화 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용 특화 한중영 자동번역 기술개발].
잘 알려진 바와 같이, 자동 번역 시스템의 성능 향상은 이를 구성하는 엔진의 각 모듈이나 번역지식에 대한 전반적인 개선에 의해 이루어질 수 있다.
하지만, 자동 번역 시스템의 상용화를 위해서 또는 보다 나은 번역 성능을 위해서는 자동 번역 시스템이 번역 대상으로 하는 도메인의 특성을 잘 파악하고 이러한 특성을 커버할 수 있도록 자동 번역 시스템의 엔진 및 지식을 특화시키는 작 업이 필요하며, 자동 번역 시스템의 도메인 특화 작업은 시스템의 성능을 보다 실질적으로 올릴 수 있는 중요한 작업이다.
특히, 자동 번역 시스템의 가장 중요한 지식 중 하나인 대역어 사전은 원시언어 어휘에 대한 대역어를 포함하기 때문에 번역 성능에 직접적인 영향을 주는데, 대역어 사전은 일반적으로 수십만에 달하는 원시 언어 어휘들 및 각 원시 언어 어휘들에 대한 대역어를 포함하기 때문에, 상기한 바와 같은 도메인 특화 작업을 수작업으로 행할 경우, 일관성의 문제가 발생하며, 시간 소모적이고 비용 문제가 발생하기 때문에, 자동 번역 시스템의 대역어 사전에 대한 자동 도메인 특화는 매우 중요한 이슈이다.
일반적으로, 원시 언어의 어휘들은 목표 언어로 번역할 때 다양한 대역어로 번역될 수 있는 모호성을 지닌다. 특히, 영한 번역의 경우, 많은 영어 어휘들은 사용되는 문맥에 따라 다양한 한국어로 번역될 수 있다.
예를 들면, 아래의 경우 영한 번역에 있어서, 일반 도메인의 경우와 IT 도메인의 경우 의미적으로 중의성을 지니는 어휘의 예를 나타낸다.
(예 문1-1) He will cherish the memory of this visit to Seoul. (일반 도메인의 경우)
(번역문1-1) 그는 이번 서울 방문의 기억을 소중히 간직할 것이다.
(예 문2-1) Taycom manufactures memory chips. (IT 도메인의 경우)
(번역문2-1) 테이콤사는 메모리 칩을 생산한다.
이와 같이, (예문 1-1)와 (예문 2-1)는 모두 동일한 영어 어휘 ‘memory’를 사용하는 문장이지만, (예문 1-1)은 주로 일반 도메인에서 발견되는 표현이며, (예문 2-1)는 주로 IT 관련 도메인이나 과학 기술 도메인에서 발견된다. 각각 ‘memory의 올바른 번역은 (예문 1-1)의 경우, ’기억‘으로 번역된 반면, (예문 2-1)의 경우, ’메모리‘로 번역되었고, 각각 자연스럽게 번역되었다.
일반적으로, 기계 번역에서 어휘가 갖는 의미적 모호성을 단순히 공기 정보 등의 클루(clue)만을 사용하여 해소하려고 할 때, 그 정확성이 높지 않다는 것을 고려하면, 의미 모호성 이전에 기본적인 사전의 대역어를 해당 번역 도메인에 맞도록 구성할 경우, 전반적으로 높은 번역 성능을 얻을 수 있다.
상술한 바와 같은 예문을 참조하여 설명하면, 일반 도메인 문서를 대상으로 할 때는, 기계 번역을 위한 대역어 사전에서 ‘memory’의 대표 대역어를 ‘기억’으로 두는 것이 효율적이며, IT 분야 도메인 문서를 대상으로 할 때는, ‘memory’의 대표 대역어를 ‘메모리’로 두는 것이 효율적이다.
아래의 표 1은 도메인에 따라 대표 대역어가 수정되어야 하는 영어 어휘들의 예를 추가적으로 나타낸 것이다.
<표 1>
어 휘 일반 도메인 대표 대역어 IT 도메인 대표 대역어
memory 기억 메모리
capture 폭획, 체포 캡쳐
solution 해결책 솔루션
value 가치
compound 혼합물 화합물
sequence 순서 시퀀스
transition 변천 전이
이와 같이, 자동 번역 시스템에서 기계 번역 도메인에 따라 자동으로 기계 번역을 위한 대역어 사전의 대표 대역어를 선정하기 위한 대역어 사전의 자동 특화 과정은 수작업에 의한 비용과 시간의 손실을 줄일 수 있으며, 자동 번역 시스템의 상용화를 위해 반드시 필요한 것으로, 현재 대역어 사전의 자동 특화 기법에 대한 연구가 활발하게 진행되고 있다.
이에 따라, 본 발명은 원시 언어 코퍼스와 목표 언어 코퍼스를 이용하여 해당 도메인에 대응하는 대표 대역어를 선정하기 위한 대역어 사전을 자동으로 특화하는데 적합한 대역어 사전 특화 장치 및 그 방법을 제공하고자 한다.
일 관점에서 본 발명은, 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스를 이용하여 원시 언어 및 목표 언어에 각각 공기하는 각 공기 어휘를 추출하고, 이들의 대역 관계를 대역어 사전에 매핑시켜 대역어 후보를 추출하는 어휘 정렬부와, 상기 추출된 대역어 후보에 대해 대역 관계 오류를 필터링하여 대표 대역어를 결정하는 오류 필터링부와, 상기 결정된 대표 대역어를 상기 대역어 사전에 반영하는 대역어 사전 반영부를 포함하는 대역어 사전 특화 장치를 제공한다.
다른 관점에서 본 발명은, 원시 언어 태그드 코퍼스를 이용하여 원시 언어에 공기하는 제 1 공기 어휘를 추출하는 단계와, 목표 언어 태그드 코퍼스를 이용하여 목표 언어에 공기하는 제 2 공기 어휘를 추출하는 단계와, 상기 추출된 제 1 공기 어휘 및 제 2 공기 어휘의 대역 관계를 대역어 사전에 매핑시켜 대역어 후보를 추출하는 단계와, 상기 추출된 대역어 후보에 대해 대역 관계 오류를 필터링하여 대표 대역어를 결정하는 단계와, 상기 결정된 대표 대역어를 상기 대역어 사전에 반영하는 단계를 포함하는 대역어 사전 특화 방법을 제공한다.
본 발명은, 목표 도메인에 속하는 원시 언어 코퍼스와 목표 언어 코퍼스를 이용하여 공기 어휘를 추출하고, 이를 대역어 사전에 매핑시켜 대역어 후보를 추출하며, 이에 대한 대역 관계의 오류를 필터링한 후 대표 대역어를 결정하여 대역어 사전에 반영함으로써, 자동 번역 시스템의 대역어 사전을 자동으로 특화시킬 수 있어 이를 구축하는데 소요되는 비용을 절감할 수 있으며, 자동 번역 시스템의 다양한 도메인 변경에 상관없이 일관되고 우수한 번역 성능을 제공할 수 있다.
본 발명은, 대역어 사전 특화 장치에서 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스를 획득하고, 이를 이용하여 원시 언어와 그 원시 언어에 대응하는 대역 관계를 추출하고, 그 대역 관계에 따라 대역어 후보를 추출한 후에, 대역 관계의 오류를 필터링하여 해당 원시 어휘와 목표 어휘를 대표 대역어로서 대역어 사전에 반영한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시 예에 따라 특정 도메인에 대응하는 대표 대역어를 선정하기 위한 대역어 사전을 자동으로 특화하는데 적합한 대역어 사전 특화 장치의 블록 구성도로서, 원시 언어 태그드 코퍼스 획득부(102), 목표 언어 태그드 코퍼스 획득부(104), 어휘 정렬부(106), 오류 필터링부(108), 대역어 사전 반영부(110) 및 대역어 사전 데이터베이스(112) 등을 포함할 수 있다.
도 1을 참조하면, 원시 언어 태그드 코퍼스 획득부(102)는 원시 언어 코퍼스에 대해 원시 언어의 형태소를 태깅하여 원시 언어 태그드 코퍼스를 획득한다.
또한, 목표 언어 태그드 코퍼스 획득부(104)는 목표 언어 코퍼스에 대해 목표 언어의 형태소를 태깅하여 목표 언어 태그드 코퍼스를 획득한다. 여기에서, 원시 언어 코퍼스와 목표 언어 코퍼스는 비교 가능 코퍼스(comparable corpus)로서, 대역어 사전의 자동 특화를 위해 서로 동일한 또는 유사한 도메인에 속하는 문장들로 구성될 수 있으며, 코퍼스는 실제 존재하는 텍스트를 집적한 언어 데이터를 데이터베이화한 것을 의미한다.
그리고, 어휘 정렬부(106)는 원시 언어 태그드 코퍼스 획득부(102)를 통해 획득된 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스 획득부(104)를 통해 획득된 목표 언어 태그드 코퍼스에 대해 원시 언어와 그 원시 언어에 대응하는 대 역 표현(즉, 목표 어휘) 관계를 추출한다.
여기에서, 어휘 정렬부(106)는 원시 언어 태그드 코퍼스 획득부(102)와 목표 언어 태그드 코퍼스 획득부(104)를 통해 각각 획득된 비교 가능한 코퍼스인 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스에 대해 원시 어휘가 공기(co-occur)하는 제 1 공기 어휘와 목표 어휘가 공기하는 제 2 공기 어휘간의 대역 관계를 이용하여 대역 관계 추출의 오류를 제거한 후에, 원시 어휘와 그에 대응하는 대역 관계를 가진 목표 어휘를 추출함으로써, 대역어 후보를 추출한다. 이러한 제 1 공기 어휘와 제 2 공기 어휘간의 대역 관계는 대역어 사전 데이터베이스(112)에 기 저장된 대역어 사전을 기반으로 파악할 수 있다.
또한, 어휘 정렬부(106)에서 원시 어휘와 목표 어휘간의 대역 관계를 추출함에 있어 대역어 사전 데이터베이스(112)에 기 저장된 대역어 사전을 이용하여 대역 관계를 추출하지 않는 이유는 다양한 원시 어휘가 특정 목표 어휘로 번역될 수 있으며, 특정 원시 어휘가 다양한 목표 어휘로 번역될 수 있기 때문이며, 이러한 오류를 방지하기 위해 서로 다른 언어에서 동일한 의미를 갖는 원시 어휘 및 목표 어휘는 서로 공기하는 공기 어휘도 서로 유사하다는 것에 입각하여 오류를 방지할 수 있다.
다음에, 오류 필터링부(108)는 추출된 대역어 후보의 대역 관계에 따라 원시 어휘와 목표 어휘에 대해 오류 가능성이 있는 대역 관계를 제거하는데, 원시 어휘 및 그 대역어 후보의 발생 빈도를 각각 원시 언어 코퍼스 및 목표 언어 코퍼스로부터 검출하여 이러한 발생 빈도가 기 설정된 범위 내의 유사한 발생 빈도를 갖는 경 우 해당 대표 대역어를 최종 대표 대역어로 결정할 수 있다.
이어서, 대역어 사전 반영부(110)는 오류 필터링부(108)를 통해 오류가 제거되어 대표 대역어로서의 관계를 갖는 원시 어휘와 목표 어휘에 대한 대역 관계를 대역어 사전에 반영하여 대역어 사전 데이터베이스(112)에 저장한다.
여기에서, 대역어 사전 반영부(110)는 오류 필터링부(108)를 통해 결정된 최종 대표 대역어를 대역어 사전 데이터베이스(112)의 대역어 사전에 반영하는데, 각 사전 엔트리의 대표 대역어가 가장 첫 번째 순위에 위치함으로써, 자동 번역 과정에서 사용될 수 있다.
한편, 대역어 사전 데이터베이스(112)는 각종 도메인에 대응하여 대표 대역어를 포함하는 대역어 사전을 저장하고 있으며, 이들은 필요에 따라 추출되어 어휘 정렬부(106)에 제공된다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 사전 특화 장치에서 원시 언어 코퍼스에 대해 원시 언어의 형태소를 태깅하여 원시 언어 태그드 코퍼스를 획득하는 원시 언어 태그드 코퍼스 획득부에 대해 설명한다.
도 2는 본 발명의 실시 예에 따라 원시 언어 태그드 코퍼스를 획득하는데 적합한 원시 언어 태그드 코퍼스 획득부의 블록 구성도로서, 원시 언어 태그드 코퍼스 획득부(102)는 원시 언어 코퍼스(202), 원시 언어 형태소 태거(204) 및 원시 언어 태그드 코퍼스(206) 등을 포함할 수 있다.
도 2를 참조하면, 원시 언어 코퍼스(202)는 목표 언어 코퍼스와 서로 동일하거나 유사하여 비교 가능한 코퍼스로서, 특정 도메인에 속하는 번역 전의 언어 데 이터(즉, 원시 언어)를 저장한 데이터베이스를 의미한다.
그리고, 원시 언어 형태소 태거(204)는 원시 언어 코퍼스(202)의 원시 언어에 대해 형태소별로 태킹을 수행한 후, 원시 언어 태그드 코퍼스(206)에 데이터베이스화하여 저장한다. 이에 따라, 원시 언어를 형태소별로 태깅한 원시 언어 태그드 코퍼스(206)를 획득하게 된다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 사전 특화 장치에서 목표 언어 코퍼스에 대해 목표 언어의 형태소를 태깅하여 목표 언어 태그드 코퍼스를 획득하는 원시 언어 태그드 코퍼스 획득부에 대해 설명한다.
도 3은 본 발명의 실시 예에 따라 목표 언어 태그드 코퍼스를 획득하는데 적합한 목표 언어 태그드 코퍼스 획득부의 블록 구성도로서, 목표 언어 태그드 코퍼스 획득부(104)는 목표 언어 코퍼스(302), 목표 언어 형태소 태거(304) 및 목표 언어 태그드 코퍼스(306) 등을 포함할 수 있다.
도 3을 참조하면, 목표 언어 코퍼스(302)는 원시 언어 코퍼스와 서로 동일하거나 유사하여 비교 가능한 코퍼스로서, 특정 도메인에 속하는 번역 후의 언어 데이터(즉, 목표 언어)를 저장한 데이터베이스를 의미한다.
그리고, 목표 언어 형태소 태거(304)는 목표 언어 코퍼스(302)의 목표 언어에 대해 형태소별로 태킹을 수행한 후, 목표 언어 태그드 코퍼스(306)에 데이터베이스화하여 저장한다. 이에 따라, 목표 언어를 형태소별로 태깅한 목표 언어 태그드 코퍼스(306)를 획득하게 된다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 사전 특화 장치에서 원시 언 어 태그드 코퍼스와 목표 언어 태그드 코퍼스에 이용하여 원시 언어와 그 원시 언어에 대응하는 대역 표현(즉, 목표 어휘) 관계를 추출하고, 그 대역 관계에 따라 대역어 후보를 추출하는 어휘 정렬부에 대해 설명한다.
도 4는 본 발명의 실시 예에 따라 대역 관계에 따른 대역어 후보를 추출하는데 적합한 어휘 정렬부의 블록 구성도로서, 어휘 정렬부(106)는 제 1 공기 어휘 추출부(402), 제 1 공기 어휘 필터링부(404), 제 2 공기 어휘 추출부(406), 제 2 공기 어휘 필터링부(408), 대역 관계 매핑부(410) 및 대역어 후보 추출부(412) 등을 포함할 수 있다.
도 4를 참조하면, 제 1 공기 어휘 추출부(402)는 형태소별로 태깅된 원시 언어 태그드 코퍼스(206)에서 대역어 선택에 있어 모호성을 갖는 모호성 어휘를 추출하고, 모호성 어휘들이 포함된 문장에서 모호성 어휘에 대한 제 1 공기 어휘를 추출한다.
그리고, 제 1 공기 어휘 필터링부(404)는 제 1 공기 어휘 추출부(402)를 통해 추출된 제 1 공기 어휘에 대해 상호 정보(MI : mutual information)를 통해 의미없는 공기 어휘를 제거(필터링)한다.
한편, 제 2 공기 어휘 추출부(406)는 모호성을 갖는 원시 어휘의 대역 가능한 대역어들이 형태소별로 태깅된 목표 언어 태그드 코퍼스(306)에서 나타나면, 이러한 대역어들과 공기하는 제 2 공기 어휘를 추출한다.
그리고, 제 2 공기 어휘 필터링부(408)는 제 2 공기 어휘 추출부(406)를 통해 추출된 제 2 공기 어휘에 대해 상호 정보를 통해 의미없는 공기 어휘를 제거(필 터링)한다.
다음에, 대역 관계 매핑부(410)는 제 1 공기 어휘 필터링부(404)를 통해 필터링된 제 1 공기 어휘와 제 2 공기 어휘 필터링부(408)를 통해 필터링된 제 2 공기 어휘간의 대역 관계를 대역어 사전 데이어베이스(112)를 이용하여 대역어 사전에 매핑시킨다.
이어서, 대역어 후보 추출부(412)는 대역어 사전에 매핑시킨 결과에 따라 제 1 공기 어휘와 제 2 공기 어휘간에 상대적으로 가장 많은 대역 매핑을 갖는 원시 어휘와 목표 어휘를 대역어 후보로 추출한다.
여기에서, 도 5는 본 발명의 실시 예에 따라 원시 어휘와 목표 어휘를 정렬하는 것을 예시한 도면으로, 영한 번역의 경우 영어 의미 모호성 어휘인 EW1은 한국어 대역어로서 KW1과 KW2를 가지고 있으며, 한국어 대역어 KW1과 KW2 중 하나는 특정 자동 번역 도메인에서 대표 대역어로 사용되어야 하는데, 이를 위해 EW1의 대역어 KW1 및 KW2 가운데, 어떠한 것이 대표 대역어로 사용되어야 하는지는 두 대역어 가운데 해당 도메인에서 사용이 높은 것을 선택할 수 있다.
하지만, 단순히 대역어의 빈도만을 고려한다면, 문제가 발생할 수 있는데, 도 5에 도시한 바와 같이 EW1의 대역어로서 KW1이나 KW2 가운데, 실제로 KW1이 보다 많이 사용되는 대표 대역어라고 하더라도 다른 영어 어휘의 대역어로서 KW2가 빈번하게 사용되고, 이러한 이유 때문에 EW1의 대표 대역어로서 KW2를 선택한다면 오류가 발생하기 때문에, 이러한 오류를 방지하기 위해, 목표 언어 코퍼스에서 등장하는 KW1과 KW2의 원시 어휘가 무엇인지를 오류 없이 파악해야 하며, 이러한 오 류를 배제하기 위해 원시 언어 코퍼스 및 목표 언어 코퍼스로부터 얻어질 수 있는 각 공기어휘들 간의 상관 관계를 이용한다.
즉, 도 5에 도시한 바와 같이 모호성 어휘 EW1의 공기 어휘들과 대표 대역어 후보가 될 수 있는 KW1 및 KW2 각각의 공기 어휘들을 추출하고, 각 공기 어휘들 간의 어휘 정렬을 수행하여 서로 대역관계를 가지고 공기 어휘 쌍들을 상대적으로 많이 갖는 원시 어휘 및 목표 어휘가 해당 번역 도메인에서 대표 대역어로서의 후보가 될 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 대역어 사전 특화 장치에서 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스를 획득하고, 이를 이용하여 원시 언어와 그 원시 언어에 대응하는 대역 관계를 추출하고, 그 대역 관계에 따라 대역어 후보를 추출한 후에, 대역 관계의 오류를 필터링하여 해당 원시 어휘와 목표 어휘를 대표 대역어로서 대역어 사전에 반영하는 과정에 대해 설명한다.
도 6은 본 발명의 일 실시 예에 따라 원시 언어와 목표 언어의 대역 관계에 따라 대표 대역어를 추출하여 대역어 사전에 반영하는 과정을 도시한 플로우차트이다.
도 6을 참조하면, 대역어 사전 특화 장치의 자동 특화 모드에서(단계602), 원시 언어 태그드 코퍼스 획득부(102)에서는 원시 언어 코퍼스(202)에 대해 원시 언어의 형태소를 태깅하여 원시 언어 태그드 코퍼스(206)를 획득한다(단계604).
이와 함께, 목표 언어 태그드 코퍼스 획득부(104)에서는 목표 언어 코퍼스(302)에 대해 목표 언어의 형태소를 태깅하여 목표 언어 태그드 코퍼스(306)를 획득한다(단계606).
그리고, 어휘 정렬부(106)의 제 1 공기 어휘 추출부(402)에서는 형태소별로 태깅된 원시 언어 태그드 코퍼스(206)에서 대역어 선택에 있어 모호성을 갖는 모호성 어휘를 추출하고, 모호성 어휘들이 포함된 문장에서 모호성 어휘에 대한 제 1 공기 어휘를 추출한다(단계608).
또한, 어휘 정렬부(106)의 제 2 공기 어휘 추출부(406)는 형태소별로 태깅된 목표 언어 태그드 코퍼스(306)에서 모호성을 갖는 원시 어휘의 대역 가능한 대역어들이 나타나면, 이러한 대역어들과 공기하는 제 2 공기 어휘를 추출한다(단계610).
다음에, 어휘 정렬부(106)의 제 1 공기 어휘 필터링부(404)에서는 제 1 공기 어휘 추출부(402)를 통해 추출된 제 1 공기 어휘에 대해 상호 정보를 통해 의미없는 공기 어휘를 제거(필터링)하고, 제 2 공기 어휘 필터링부(408)에서는 제 2 공기 어휘 추출부(406)를 통해 추출된 제 2 공기 어휘에 대해 상호 정보를 통해 의미없는 공기 어휘를 제거(필터링)한다(단계612).
또한, 어휘 정렬부(106)의 대역 관계 매핑부(410)에서는 각각 필터링된 제 1 공기 어휘와 제 2 공기 어휘간의 대역 관계를 대역어 사전 데이어베이스(112)를 이용하여 대역어 사전에 매핑시킨다(단계614).
그리고, 어휘 정렬부(106)의 대역어 후보 추출부(412)에서는 대역어 사전에 매핑시킨 결과에 따라 제 1 공기 어휘와 제 2 공기 어휘간에 상대적으로 가장 많은 대역 매핑을 갖는 원시 어휘와 목표 어휘를 대표 대역어 후보로 추출한다(단계616).
다음에, 오류 필터링부(108)에서는 추출된 원시 어휘와 목표 어휘에 대해 오류 가능성이 있는 대역 관계를 제거한다(단계618). 이러한 제거 과정을 수행함으로써, 원시 어휘 및 그 대표 대역어의 발생 빈도를 각각 원시 언어 코퍼스 및 목표 언어 코퍼스로부터 검출하여 이러한 발생 빈도가 기 설정된 범위 내의 유사한 발생 빈도를 갖는 경우 해당 대표 대역어를 최종 대표 대역어로 결정할 수 있다.
이어서, 대역어 사전 반영부(110)에서는 오류 필터링부(108)를 통해 결정된 최종 대표 대역어를 대역어 사전 데이터베이스(112)의 대역어 사전에 반영한다(단계620). 여기에서, 각 사전 엔트리의 대표 대역어가 가장 첫 번째 순위에 위치함으로써, 자동 번역 과정에서 사용될 수 있다.
따라서, 원시 언어 코퍼스와 목표 언어 코퍼스로부터 각각 획득된 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스를 이용하여 각각 공기하는 공기 어휘를 추출하고, 이러한 공기 언어를 대역어 사전에 매핑하여 원시 언어와 목표 언어를 포함하는 대역어 후보를 추출하고, 이에 대한 오류를 필터링하여 대표 대역어를 결정하며, 결정된 대표 대역어를 대역어 사전에 반영함으로써, 특정 도메인에 적합한 대역어 사전을 자동으로 특화할 수 있다.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 실시 예에 따라 특정 도메인에 대응하는 대표 대역어를 선정하기 위한 대역어 사전을 자동으로 특화하는데 적합한 대역어 사전 특화 장치의 블록 구성도,
도 2는 본 발명의 실시 예에 따라 원시 언어 태그드 코퍼스를 획득하는데 적합한 원시 언어 태그드 코퍼스 획득부의 블록 구성도,
도 3은 본 발명의 실시 예에 따라 목표 언어 태그드 코퍼스를 획득하는데 적합한 목표 언어 태그드 코퍼스 획득부의 블록 구성도,
도 4는 본 발명의 실시 예에 따라 대역 관계에 따른 대역어 후보를 추출하는데 적합한 어휘 정렬부의 블록 구성도,
도 5는 본 발명의 실시 예에 따라 원시 어휘와 목표 어휘를 정렬하는 것을 예시한 도면,
도 6은 본 발명의 일 실시 예에 따라 원시 언어와 목표 언어의 대역 관계에 따라 대표 대역어를 추출하여 대역어 사전에 반영하는 과정을 도시한 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
102 : 원시 언어 태그드 코퍼스 획득부
104 : 목표 언어 태그드 코퍼스 획득부
106 : 어휘 정렬부 108 : 오류 필터링부
110 : 대역어 사전 반영부 112 : 대역어 사전 데이터베이스
202 : 원시 언어 코퍼스 204 : 원시 언어 형태소 태거
206 : 원시 언어 태그드 코퍼스 302 : 목표 언어 코퍼스
304 : 목표 언어 형태소 태거 306 : 목표 언어 태그드 코퍼스
402 : 제 1 공기 어휘 추출부 404 : 제 1 공기 어휘 필터링부
406 : 제 2 공기 어휘 추출부 408 : 제 2 공기 어휘 필터링부
410 : 대역 관계 매핑부 412 : 대역어 후보 추출부

Claims (11)

  1. 원시 언어 태그드 코퍼스와 목표 언어 태그드 코퍼스를 이용하여 원시 언어 및 목표 언어에 각각 공기하는 각 공기 어휘를 추출하고, 이들의 대역 관계를 대역어 사전에 매핑시켜 대역어 후보를 추출하는 어휘 정렬부와,
    상기 추출된 대역어 후보에 대해 대역 관계 오류를 필터링하여 대표 대역어를 결정하는 오류 필터링부와,
    상기 결정된 대표 대역어를 상기 대역어 사전에 반영하는 대역어 사전 반영부
    를 포함하는 대역어 사전 특화 장치.
  2. 제 1 항에 있어서,
    상기 어휘 정렬부는,
    상기 원시 언어 태그드 코퍼스에서 모호성 어휘를 추출하고, 상기 추출된 모호성 어휘에 대한 제 1 공기 어휘를 추출하는 제 1 공기 어휘 추출부와,
    상기 추출된 제 1 공기 어휘에 대해 상호 정보를 통해 필터링하는 제 1 공기 어휘 필터링부와,
    상기 원시 언어의 대역어들이 상기 목표 언어 태그드 코퍼스에 나타나면 이에 공기하는 제 2 공기 어휘를 추출하는 제 2 공기 어휘 추출부와,
    상기 추출된 제 2 공기 어휘에 대해 상기 상호 정보를 통해 필터링하는 제 2 공기 어휘 필터링부와,
    상기 필터링된 제 1 공기 어휘 및 제 2 공기 어휘에 대한 상기 대역 관계를 상기 대역어 사전에 매핑시키는 대역 관계 매핑부와,
    상기 대역 관계 매핑부의 매핑 결과에 따라 원시 어휘 및 목표 어휘를 포함하는 상기 대역어 후보를 추출하는 대역어 후보 추출부
    를 포함하는 대역어 사전 특화 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 오류 필터링부는, 상기 대역어 후보에 대해 코퍼스 발생 빈도가 기 설정된 범위 내의 발생 빈도를 갖는 경우 상기 대역어 후보를 상기 대표 대역어로 결정하는 대역어 사전 특화 장치.
  4. 제 3 항에 있어서,
    상기 원시 언어 태그드 코퍼스는, 원시 언어 코퍼스를 형태소별로 태깅하여 획득되는 대역어 사전 특화 장치.
  5. 제 3 항에 있어서,
    상기 목표 언어 태그드 코퍼스는, 목표 언어 코퍼스를 형태소별로 태깅하여 획득되는 대역어 사전 특화 장치.
  6. 원시 언어 태그드 코퍼스를 이용하여 원시 언어에 공기하는 제 1 공기 어휘를 추출하는 단계와,
    목표 언어 태그드 코퍼스를 이용하여 목표 언어에 공기하는 제 2 공기 어휘를 추출하는 단계와,
    상기 추출된 제 1 공기 어휘 및 제 2 공기 어휘의 대역 관계를 대역어 사전에 매핑시켜 대역어 후보를 추출하는 단계와,
    상기 추출된 대역어 후보에 대해 대역 관계 오류를 필터링하여 대표 대역어를 결정하는 단계와,
    상기 결정된 대표 대역어를 상기 대역어 사전에 반영하는 단계
    를 포함하는 대역어 사전 특화 방법.
  7. 제 6 항에 있어서,
    상기 제 1 공기 어휘를 추출하는 단계는, 상기 원시 언어 태그드 코퍼스에서 모호성 어휘를 추출하고, 상기 추출된 모호성 어휘에 대한 상기 제 1 공기 어휘를 추출하는 대역어 사전 특화 방법.
  8. 제 6 항에 있어서,
    상기 제 2 공기 어휘를 추출하는 단계는, 상기 원시 언어의 대역어들이 상기 목표 언어 태그드 코퍼스에 나타나면 이에 공기하는 상기 제 2 공기 어휘를 추출하는 대역어 사전 특화 방법.
  9. 제 6 항에 있어서,
    상기 대표 대역어를 결정하는 단계는, 상기 대역어 후보에 대해 코퍼스 발생 빈도가 기 설정된 범위 내의 발생 빈도를 갖는 경우 상기 대역어 후보를 상기 대표 대역어로 결정하는 대역어 사전 특화 방법.
  10. 제 6 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 원시 언어 태그드 코퍼스는, 원시 언어 코퍼스를 형태소별로 태깅하여 획득되는 대역어 사전 특화 방법.
  11. 제 6 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 목표 언어 태그드 코퍼스는, 목표 언어 코퍼스를 형태소별로 태깅하여 획득되는 대역어 사전 특화 방법.
KR1020080131758A 2008-12-22 2008-12-22 대역어 사전 특화 장치 및 그 방법 KR101027007B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131758A KR101027007B1 (ko) 2008-12-22 2008-12-22 대역어 사전 특화 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131758A KR101027007B1 (ko) 2008-12-22 2008-12-22 대역어 사전 특화 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100073164A KR20100073164A (ko) 2010-07-01
KR101027007B1 true KR101027007B1 (ko) 2011-04-11

Family

ID=42636167

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131758A KR101027007B1 (ko) 2008-12-22 2008-12-22 대역어 사전 특화 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101027007B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216726B2 (en) 2015-07-31 2019-02-26 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818212B (zh) * 2020-04-23 2023-10-13 腾讯科技(深圳)有限公司 语料数据采集方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061008A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070061008A (ko) * 2005-12-09 2007-06-13 한국전자통신연구원 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216726B2 (en) 2015-07-31 2019-02-26 Samsung Electronics Co., Ltd. Apparatus and method for determining translation word

Also Published As

Publication number Publication date
KR20100073164A (ko) 2010-07-01

Similar Documents

Publication Publication Date Title
US7620538B2 (en) Constructing a translation lexicon from comparable, non-parallel corpora
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
CN103488648B (zh) 一种多语种混合检索方法和系统
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
CN104239286A (zh) 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
CN104077275A (zh) 一种基于语境进行分词的方法和装置
CN104008126A (zh) 一种基于网页内容分类进行分词处理的方法和装置
JP2009151777A (ja) 音声言語パラレルコーパスのアライメント方法及び装置
KR100835706B1 (ko) 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
CN108959276A (zh) 一种用于翻译的术语发现方法及其系统
US8041556B2 (en) Chinese to english translation tool
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
JP2007058706A (ja) 文書検索システム、文書検索方法及び文書検索プログラム
CN101520778A (zh) 用于确定中文词性的设备和方法
KR101027007B1 (ko) 대역어 사전 특화 장치 및 그 방법
JP2006338261A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
KR100689029B1 (ko) 번역 메모리 확장 방법 및 이를 이용한 기계번역 시스템
JP2003303194A (ja) 慣用句辞書作成装置、検索用インデックス作成装置、文書検索装置、それらの方法、プログラム及び記録媒体
CN112183074A (zh) 一种数据增强方法、装置、设备及介质
JP5182960B2 (ja) 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
KR100779164B1 (ko) 기존 대역 전자사전의 어휘 대역어 공기 정보 및 확률정보를 이용한 복합명사 대역어 생성 장치 및 방법
Singh et al. Extracting Data Elements from Punjabi Language query
JP6221339B2 (ja) 翻訳装置及び翻訳方法
Štromajerová et al. Parallel Corpus from Wikipedia
CN115796194A (zh) 一种基于机器学习的英语翻译系统

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 18