KR20060067073A - 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 - Google Patents

영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 Download PDF

Info

Publication number
KR20060067073A
KR20060067073A KR1020050018746A KR20050018746A KR20060067073A KR 20060067073 A KR20060067073 A KR 20060067073A KR 1020050018746 A KR1020050018746 A KR 1020050018746A KR 20050018746 A KR20050018746 A KR 20050018746A KR 20060067073 A KR20060067073 A KR 20060067073A
Authority
KR
South Korea
Prior art keywords
verb
english
noun
korean
semantic
Prior art date
Application number
KR1020050018746A
Other languages
English (en)
Other versions
KR100617319B1 (ko
Inventor
이기영
최승권
노윤형
권오욱
김영길
김창현
홍문표
양성일
류철
서영애
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067073A publication Critical patent/KR20060067073A/ko
Application granted granted Critical
Publication of KR100617319B1 publication Critical patent/KR100617319B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.
기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴

Description

영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법{Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof}
도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이다.
도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다.
도 2는 본 발명에 의한 의미 벡터 데이터베이스와 국소 문맥 정보 데이터베이스를 구성하는 과정을 보여주는 흐름도이다.
도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이다.
도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명
301 : 단문 분할부 302 : 동사구 패턴 적용부
304 : 동사 대역어 결정부 305 : 명사 대역어 선택부
307 : 테스트벡터 구성부 308 : 유사도 계산부
309 : 명사 의미코드 결정부 311: 디폴트 동사구 패턴 적용부
303 : 동사구 패턴 데이터베이스 310 : 의미 벡터 데이터베이스
306: 한국어 국소 문맥 데이터베이스
본 발명은 영한 자동 번역 시스템에서 동사구 패턴 및 의미 벡터를 사용하여명사와 동사의 대역어를 선택하는 장치 및 그 방법, 그리고 상기 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 관한 것이다.
자동번역 시스템의 경우, 원문에서 각 어휘가 가지는 고유한 의미를 손실하지 않고, 대역어로 변환시키는 기술은 자연스러운 번역 품질을 얻는데 있어서 매우 중요한 요소라고 할 수 있다. 현재까지는 주로 단순한 공기 정보에 의존한 대역어 선택 기술들이 제공되어 왔지만, 그 성능은 실용적인 자동번역 결과를 얻기에는 매우 미흡한 실정이다.
동시에 원시 언어의 어휘가 가지는 의미적 모호성을 해소하기 위한 몇몇 기술들이 제안되었지만, 실제 자동번역에서 대역어를 선택할 때에는 원문 어휘가 가지는 의미적 모호성만을 해소해서는 자연스러운 대역어를 얻을 수 없으며, 목표 언어의 측면도 고려해야 한다.
따라서, 상기와 같은 문제점을 해결하기 위해서는 우선, 원문 어휘의 의미적 모호성을 해결해야 하며, 이 단계에서 결정된 의미를 지니는 대역 후보들 가운데, 생성될 한국어 문맥에 가장 적합한 대역어를 선택하는 방법이 요구된다.
본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 영한 자동 번역시 문장의 핵심 품사이며 전체 번역의 성능을 크게 좌우하는 명사 및 동사의 대역어를 선택할 때 해당 문장의 문맥에 맞는 가장 자연스러운 대역어를 선택하기 위한 장치 및 그 방법 그리고 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체를 제공하는데 있다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 한다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치는 문장을 입력 받아 단문 단위로 분할하는 단문분할부; 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용가능한 동사구 패턴을 검색하는 동사구패턴적용부; 상기 검색이 성공하면 상기 동사구패턴적용부에서 검색한 동사구 패턴을 입력받아 동사의 대역어와 명사의 의미코드를 결정하는 동사대역어결정부; 및 상기 동사구패턴적용부에서의 검색이 실패하면 의미벡터 데이터 베이스와 한국어 국소 문맥 데이터 베이스를 참조하여 대역어를 확률적으로 선택하여 출력하는 대역어 선택부;를 포함하는 것을 특징으로 한다.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 것을 특징으로 한다.
본 발명의 바람직한 일 실시예를 설명하기에 앞서 발명의 상세한 설명과 청구범위에서 사용되는 용어에 대한 개념을 정리하면 다음과 같다.
영한 병렬 코퍼스라 함은 영어 문장과 그에 대한 한국어 대역 문장으로 구성되며, 본 발명에서 사용되는 대역어 선택 지식의 주된 추출 대상이라 할 수 있다.
영어 모노링궐 코퍼스라 함은 영어 문장으로만 구성된 단일 언어 코퍼스이며, 상대적으로 크기가 작은 병렬 코퍼스의 데이터 부족 문제를 해결하기 위해 사용된다.
동사구 패턴이라 함은 영어 원문 패턴과 한국어 대역문 패턴으로 구성되며, 영어 동사를 중심으로 하여 해당 동사가 논항으로 취하는 문법적 요소들을 포함하는 패턴이라 할 수 있으며, 논항이 명사인 경우 해당 명사의 의미코드가 사용된다.
명사 어휘 정렬이라 함은 영한 병렬 코퍼스를 구성하는 각각의 영어 문장 및 한국어 문장 쌍에 대해서 영어 명사 어휘에 대한 그 대역 한국어 명사 어휘를 매핑시키는 작업이라 할 수 있다.
의미 벡터라 함은 N-차원으로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내며, 이러한 정보는 영한 병렬 코퍼스로부터 추출된다. 의미 벡터의 차원은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명에 따른 영어 명사 및 동사의 한국어 대역어 선택에 대한 각각의 실시 예를 설명하기 전에, 동사구 패턴 및 의미 코드에 대한 설명을 우선한다.
동사구 패턴은 아래의 예 1과 같이 크게 원문부와 대역부로 구성되어 있다
[예 1] 영어 동사 'abandon'의 동사구 패턴 예
S=(person#1) abandon O=(idea#1) => S!가 O!를 포기하!다.
위의 예 1은 영어 동사 'abandon'의 동사구 패턴 중 하나를 나타낸다. 위의 동사구 패턴에서 원문부는 "S=(person#1) abandon O=(idea#1)"이며, 대역부는 "S!가 O!를 포기하!다."이다. 원문부에서 S 및 O와 같은 심볼은 논항을 나타내며, S는 주어, O는 목적어를 나타낸다. 또한 person#1과 idea#1은 논항 자리에 가능한 의미코드를 나타낸다. 미리 설명을 하자면, 'abandon'이 본동사로 사용된 문장에 대해서 위의 예 1에 해당하는 동사구 패턴이 적용되기 위해서는 문장의 주어 및 목적어에 해당하는 의미코드가 동사구 패턴에 기재되어 있는 의미코드와 매칭되어야 한 다. 동사구 패턴이 매칭될 경우, 그 동사 대역어는 해당 동사구 패턴의 대역부를 통하여 결정되며, 논항에서 매칭된 명사의 경우, 해당 의미코드가 결정된다.
다음은 본 발명에서 사용하는 영한 전자 사전의 각 엔트리에 대한 의미 자질을 설명한다. 영한 전자 사전의 경우, 의미 코드 자질로서 'SEM'이라는 자질을 두었고, 그 자질값은 WordNet1.71의 의미체계를 따르는 1,163개의 의미 코드중 하나가 할당된다. 그리고, 의미 코드에 따라서 그 대역어를 분류하는 방법을 개시하고자 한다.
일반적으로, 영어 어휘는 두 개 이상의 한국어로 번역될 수 있는 다의어(polysemous word)가 많다. 표 1은 대표적인 영어 명사의 예를 보인 것이다.
어휘 의미코드 대역어
goal/NOUN goal#1 목표, 결과, 목적
equipment#1
accomplishment#1 득점
extremity#4 결승선, 목적지, 행선지
표 1은 영어 어휘 goal/NOUN에 대한 의미코드에 따른 대역어 분류 예를 나타낸다. 표 1에서 영어 어휘 goal/NOUN은 4개의 의미코드 goal#1, equipment#1, accomplishment#1 그리고 extremity#4를 지니며, 각각의 의미코드에 해당하는 한국어 대역어들을 각각 표 1에서와 같이 분류된다.
도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이고 , 도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다. 이는 본 발명이 적용되는 영한 동사 대역어 선택을 위한 지식인 동사구 패턴에 관한 것을 보여준다. 도 1a를 참조하면, 동사구 패턴 프로세스는 먼저 동사를 중심으로 해당 동사가 취하는 논항 정보를 추출한다(S101). 다음으로 추출된 논항 정보에 대한 의미코드를 부여하고(S102), 영어 동사구 패턴에 대한 한국어 대역 패턴을 구축한다(S103). 영어-한국어 동사구 패턴의 형식도 또한 도 1b에 설명되어 있다.
도 2는 본 발명이 적용되는 의미 벡터를 이용한 영한 대역어 선택 장치에서 대역어 선택을 위한 지식인 의미 벡터와 한국어 국소 문맥 정보의 구축 방법에 관한 일 실시예를 보인 도면이다. 이하 설명의 편의를 위하여 장치의 구성 설명과 방법의 흐름 설명을 연관지어 함께 서술하도록 한다.
도 2를 참조하면, 본 발명은 병렬 코퍼스(미도시)의 영어 문장과 한국어 문장 각각에 대하여, 영어 형태소 분석기, 영어 태거, 한국어 형태소 분석기, 한국어 태거를 사용하여 형태소 분석/태깅 작업이 수행된다(S201).
이렇게 태깅된 병렬 코퍼스의 각 문장에 대해서 영한 전자사전의 정보를 사용하여 명사 정렬이 이루어진다(S203).
본 발명은 영한 전자사전을 참조하여, 각 대역어가 어떤 의미 코드를 가지는지 알 수 있으며, 이러한 정보를 사용하여 의미 벡터를 구축하고(S204), 한국어 국소 문맥 정보를 구축(S205)하여 구축된 각각의 정보를 의미 벡터 데이터베이스(이하 "DB"라고 한다)(310)와 한국어 국소 문맥 정보 DB(306)에 저장한다.
의미 벡터는 N-차원의 벡터로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내고, 이러한 정보는 병렬 코퍼스로부터 추출된다. 이때, 공기 정보로서 허용되는 품사는 형용사와 명사로 한정한다. 그 이유는 전치사와 같은 기능어류의 어휘들은 의미를 결정하는데 변별력을 갖고 있지 않기 때문이다. 의미 벡터의 차원 N은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.
다음의 수학식 1은 상호 정보를, 수학식 2는 의미벡터 SV를, 그리고 수학식 3은 그 구성요소들을 나타낸다.
Figure 112005012045270-PAT00001
Figure 112005012045270-PAT00002
Figure 112005012045270-PAT00003
(여기서, si는 임의의 의미)
수학식 1은 상호 정보(MI)에 대한 공식을 나타내며, 수학식 2는 의미 벡터와 그 구성요소를 나타낸다. 수학식 2에서 각 구성요소에 대한 가중치값은 수학식 3과 같다. 즉, 의미 벡터의 각 구성요소는 공기 어휘에 대한 의미의 조건부 확률값을 나타내며, 그 값은 0과 1사이의 값을 가지며, 1에 가까울수록 해당 공기 어휘(co-occurring word)가 영어 명사 어휘의 특정 의미 결정에 매우 강력한 단서가 된다는 것을 나타낸다. 이러한 의미 벡터는 각 영어 명사 어휘에 대해 서로 다른 의미 코 드의 개수만큼 만들어진다. 예를 들어, 표 1에 제시된 'race/NOUN'의 경우, 2개의 의미 벡터가 만들어진다.
한국어 국소 문맥 정보는 표 1과 같이 동일한 의미코드를 갖는 한국어 대역어의 개수가 2개 이상일 경우, 그 중 최적의 대역어를 선택하기 위하여 사용된다. 도 1a 내지 도 1b에서 보이는 바와 같이, 한국어 국소 문맥 정보는 병렬 코퍼스의 한국어 파트만을 사용하여 구축되며, 형용사, 명사에 한정하여 상호 공기하는 빈도 정보를 나타낸다.
도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이고, 도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다. 먼저 위에서 설명한 것처럼 동사구 패턴 DB(303)와 의미벡터 DB(310), 그리고 한국어 국소 문맥 DB(306)을 구축한다(S401). 이제 입력된 문장은 우선 단문 분할부(301)에 의해 단문으로 분할된다. 동사구 패턴 적용부(302)는 분할된 단문을 입력받아 각 단문의 동사에 중심으로 동사구 패턴 DB(303)를 검색하여 해당 단문을 커버하는 동사구 패턴이 존재하는지 검색하여 동사구 패턴 적용을 시도하게 된다(S402).
즉 매칭되는 동사구 패턴이 존재하는지를 판단하여(S403) 존재할 경우, 동사대역어 결정부(304)는 매칭된 동사구 패턴에 의해 동사 대역어를 결정하고, 또한 해당 동사의 논항에 위치한 명사의 의미코드를 결정한다(S404). 명사의 의미코드가 결정된 후, 해당 명사가 결정된 의미코드에 속하는 2개 이상의 한국어 대역어를 가 지는지 판단하여(S405), 2개 이상의 한국어 대역어가 존재하면 명사대역어 선택부(305)는, 한국어 국소 문맥 DB(306)를 참조하여 입력 문장의 문맥에 가장 적합한 한국어 대역어를 선택하게 된다(S411).
다른 경우로서 즉 매칭되는 동사구 패턴이 검색되지 않는 경우로서 동사의 논항이 명사구이거나 동사 혹은 명사인지를 판단하여(S406) 상이한 과정을 거치는데 이하 설명한다.
먼저, 동사의 논항이 명사구로 구성되어 헤드 명사 이외의 헤드가 아닌 명사에 대한 의미코드를 결정하기 위해서는 영어 공기 어휘를 사용하여 의미 코드를 결정하게 되는데, 아래에서 상세히 살펴 본다. 즉, 본 발명의 테스트 벡터 구성부(307)는 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다(S408).
벡터간 유사도 계산부(308)는 상기 테스트 벡터 구성부(307)에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산(S409)하여 명사 의미 코드 결정부(309)에서 명사의 의미코드를 결정한다(S410). 의미코드가 결정된 후, 이미 상기에서 서술한 바와 같이 만약 해당 명사가 결정된 의미코드에 속하는 2개 이상의 대역어를 가질 경우에는 명사 대역어 선택부(305)가 한국어 국소 문맥 DB(306)를 사용하여 최종적인 한국어 대역어를 선택한다(S411).
마지막으로 동사구 패턴이 적용되지 않을 경우에는 동사의 경우 디폴트 동사구 패턴 적용부(311)는 디폴트 동사구 패턴을 사용하여 기본적인 동사 대역어를 선택하며(S407), 명사의 경우, 공기 정보를 사용한 의미 벡터와의 유사도 계산(S409) 에 의해 그 의미코드가 결정되고(S410), 명사 대역어 선택부(305)에 의해 최종적인 대역어가 선택된다.
위에서 설명한 의미 벡터와 한국어 국소 문맥 정보를 사용하여 해당 영어 어휘의 대역어를 선택하는 방법을 보다 상세하게 설명하면 다음과 같다.
도면을 참조하면, 테스트 벡터 구성부(307)로 입력문이 들어오면, 변환 단계에서는 대역어 선택 모호성을 가지는 어휘에 대해 상기 테스트 벡터 구성부(307)에서는 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다. 테스트 벡터의 각 구성요소는 0 또는 1의 값을 가지며, 입력 문장에 포함된 각각의 영어 명사 어휘에 대한 공기 어휘가 해당 영어 명사 어휘의 의미 벡터의 구성 요소일 경우에는 1을 지니며, 그렇지 않을 경우에는 0을 지닌다. 예를 들어, 'bank/NOUN'의 의미 벡터가 (w(rain), w(commercial), w(money))라고 가정하고, 입력 문장이 "Rain broke the bank"라고 하면 (1, 0, 0)의 테스트 벡터가 생성된다.
입력 문장으로부터 얻어진 테스트 벡터와 기 구축된 의미 벡터와의 유사도는 코사인 메저(cosine measure)를 사용하며, 벡터간 유사도 계산부(308)에서는 다음의 수학식 4에 의해 두 벡터 간의 유사도(similarity;si)를 계산한다.
Figure 112005012045270-PAT00004
본 발명은 상기에서 설명한 바와 같이 대역어 선택 모호성을 지니는 영어 명사 어휘에 대해서 명사 의미코드 결정부(304)에서 의미 코드가 결정되고(S410), 마지막으로, 결정된 어휘의 의미 코드를 갖는 한국어 대역어가 2개 이상일 경우에는 명사 대역어 선택부(305)에서는 한국어 국소 문맥 정보 DB(306)에 저장된 정보를 사용하여 인접하는 명사나 또는 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하여 최적의 대역어를 결정한다.
다음의 예 2는 영어 명사 'change/NOUN'가 한국어로 번역되는 다양한 경우를 보인 것이다.
[예 2]
interest rate changes (이자율 변동)
changes in your cells (세포의 변화)
requests for services changes (서비스 변경 요청)
본 발명은 상기 예 2에서 알 수 있듯이 영어 명사 'change/NOUN'의 대역어 '변동', '변화', '변경'은 단순히 영어 어휘 'change/NOUN'의 의미 결정만으로는 결정될 수 없다. 왜냐하면, 'change/NOUN'의 대역어 '변동', '변화', '변경'은 동일한 의미 코드를 가지며, 이러한 미묘한 한국어 대역어 선택은 한국어 국소 문맥 정보를 고려하여야만 가장 자연스러운 대역어를 선택할 수 있다.
앞에서 상술했듯이, 대역어 선택에 대한 미묘한 차이의 해소는 병렬 코퍼스의 한국어 파트로부터 구축된 한국어 국소 문맥 정보에 의존한다. 한국어 국소 문맥 정보는 형용사, 명사로 구성된 공기 빈도로 구성되며, 영한 자동번역 시스템의 생성부로 넘어온 한국어 어휘들의 시퀀스에 대한 확률값을 구함으로써, 최적의 한국어 대역어를 선택한다.
본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
이상에서 설명한 바와 같이 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법에 의하면 영한 병렬 코퍼스와 영어 모노링궐 코퍼스로부터 구축된 동사구 패턴을 문장을 구성하는 각각의 단문에 적용함으로써 동사와 명사의 대역어를 함께 얻으며, 동사구 패턴이 적용되지 않거나, 동사구 패턴 적용시 명사구의 헤드 어휘가 아니기 때문에 동사구 패턴에 의해 그 의미가 결정되지 않는 명사에 대해서는 영한 병렬 코퍼스에 대한 어휘 정렬 과정에 의해 얻어진 의미 벡터를 이용하여 영어 어휘에 대한 의미를 결정한다. 이러한 방법으로 명사의 의미가 결정된 후, 사전에서 해당 영어 어휘의 대역어들 중, 기 구축된 한국어 국소 문맥 정보를 이용하여 문맥에 가장 자연스러운 한국어 대역어를 선택할 수 있게 된다. 또한 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.

Claims (15)

  1. (a) 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계;
    (b) 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계;
    (c) 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계;
    (d) 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계;
    (e) 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및
    (f) 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  2. 제1항에 있어서, 상기 (a)단계는
    (a1) 동사를 중심으로 해당 동사가 취하는 논항 정보를 추출하는 단계;
    (a2) 상기 추출된 논항 정보에 대하여 워드넷을 기초로 의미 정보를 태깅하 는 단계;
    (a3) 상기 동사의 하위범주 정보에 대한 한국어 대역 정보를 구축하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  3. 제1항에 있어서, 상기 (b)단계는
    (b1) 상기 병렬 코퍼스로부터 영어 및 한국어 문장들의 형태소를 분석하고 태깅하는 단계; 및
    (b2) 상기 태깅된 각 문장쌍에 대한 어휘레벨을 소정의 영한 전자 사전을 참조하여 정렬한 후 상기 의미벡터를 구축하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  4. 제3항에 있어서, 상기 의미벡터는
    영어 명사들과 각 영어명사와 공기하는 어휘들의 가중치값을 나타내는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  5. 제1항에 있어서, 상기 (d)단계는
    한국어 대역어가 2 이상 존재하면 상기 한국어 국소 문맥 정보 데이터베이스 를 참조하여 최적의 대역어를 선정하는 단계;를 더 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  6. 제1항에 있어서, 상기 제(f)단계는
    (f1) 각 어휘에 대하여 소정의 테스트 벡터를 구성하는 단계;
    (f2) 상기 테스트 벡터와 의미벡터간의 유사도를 계산하여 의미코드를 결정하는 단계; 및
    (f3) 의미코드가 결정된 명사가 대역어를 2개 이상 가질 경우에는 상기 한국어 국소 문맥 데이터베이스를 참조하여 최적 대역어를 선정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  7. 제6항에 있어서, 상기 테스트 벡터는
    상기 입력되는 문장에 포함된 각 영어 명사에 대한 공기 어휘가 해당 영어 명사 어휘의 의미벡터의 구성요소이면 1의 값을 가지고, 그렇지 아니한 경우에는 0의 값을 가지는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  8. 제6항에 있어서, 상기 (f2)단계는
    상기 테스트 벡터와 의미 벡터와의 유사도를 코사인 메져(cosine measure)를 이용하여 구하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  9. 제5항 혹은 제6항 중 어느 하나의 항에 있어서,
    상기 한국어 국소 문맥 정보를 참조하여 최적의 대역어를 선정하는 단계는 상기 한국어 국소 문맥 정보 데이터베이스를 참조하여 인접하는 명사 혹은 형용사와 의미상 가장 근접한 대역어의 확률적 최고치를 가지는 대역어를 선택하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.
  10. 문장을 입력 받아 단문 단위로 분할하는 단문분할부;
    동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용가능한 동사구 패턴을 검색하는 동사구패턴적용부;
    상기 검색이 성공하면 상기 동사구패턴적용부에서 검색한 동사구 패턴을 입력받아 동사의 대역어와 명사의 의미코드를 결정하는 동사대역어결정부;
    상기 동사구패턴적용부에서의 검색이 실패하면 의미벡터 데이터 베이스와 한국어 국소 문맥 데이터 베이스를 참조하여 대역어를 확률적으로 선택하여 출력하는 대역어 선택부;를 포함하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.
  11. 제10항에 있어서, 상기 대역어 선택부는
    각 어휘에 대하여 소정의 테스트 벡터를 생성하는 테스트벡터구성부;
    상기 의미벡터 데이터 베이스를 참조하여 상기 테스트 벡터와 의미벡터간의 유사도를 결정하는 유사도계산부;
    상기 유사도에 따라 명사의 의미코드를 결정하여 출력하는 명사의미코드결정부; 및
    상기 명사의미코드결정부가 결정한 명사의 의미코드를 2이상 가지는 명사에대하여 상기 한국어 국소문맥 정보 데이터베이스를 참조하여 최적대역어를 출력하는 명사대역어선택부;를 포함하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.
  12. 제11항에 있어서, 상기 테스트벡터구성부는
    상기 입력되는 문장에 포함된 각 영어 명사에 대한 공기 어휘가 해당 영어 명사 어휘의 의미벡터의 구성요소이면 1의 값을 가지고, 그렇지 아니한 경우에는 0의 값을 가지도록 상기 테스트벡터를 생성하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.
  13. 제11항에 있어서, 상기 의미벡터 데이터베이스에 구축되는 의미벡터는
    영어 명사들과 각 영어명사와 공기하는 어휘들의 가중치값을 나타내는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.
  14. 제11항에 있어서, 상기 명사대역어선택부는
    인접하는 명사 혹은 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하여 상기 최적의 대역어를 결정하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.
  15. (a) 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계;
    (b) 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계;
    (c) 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계;
    (d) 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계;
    (e) 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정 의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및
    (f) 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020050018746A 2004-12-14 2005-03-07 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법 KR100617319B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105412 2004-12-14
KR20040105412 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067073A true KR20060067073A (ko) 2006-06-19
KR100617319B1 KR100617319B1 (ko) 2006-08-30

Family

ID=37161694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050018746A KR100617319B1 (ko) 2004-12-14 2005-03-07 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100617319B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100858035B1 (ko) * 2007-03-13 2008-09-10 서승현 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치
WO2010055967A1 (en) * 2008-11-14 2010-05-20 Korea Institute Of Science & Technology Information System for extracting ralation between technical terms in large collection using a verb-based pattern
WO2012060534A1 (ko) * 2010-11-05 2012-05-10 에스케이텔레콤 주식회사 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US8335681B2 (en) 2008-08-28 2012-12-18 Electronics And Telecommunications Research Institute Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100858035B1 (ko) * 2007-03-13 2008-09-10 서승현 형태소 분석용 다차원 해석 사전 구축 방법 및 그 다차원해석 사전 구축 장치
US8335681B2 (en) 2008-08-28 2012-12-18 Electronics And Telecommunications Research Institute Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
WO2010055967A1 (en) * 2008-11-14 2010-05-20 Korea Institute Of Science & Technology Information System for extracting ralation between technical terms in large collection using a verb-based pattern
WO2012060534A1 (ko) * 2010-11-05 2012-05-10 에스케이텔레콤 주식회사 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
KR101356417B1 (ko) * 2010-11-05 2014-01-28 고려대학교 산학협력단 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
US8818792B2 (en) 2010-11-05 2014-08-26 Sk Planet Co., Ltd. Apparatus and method for constructing verbal phrase translation pattern using bilingual parallel corpus

Also Published As

Publication number Publication date
KR100617319B1 (ko) 2006-08-30

Similar Documents

Publication Publication Date Title
US10552533B2 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US8442812B2 (en) Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
EP0830668B1 (en) Systems and methods for word recognition
US5418717A (en) Multiple score language processing system
JPH06314294A (ja) 機械翻訳方法及び機械翻訳装置
CN114580382A (zh) 文本纠错方法以及装置
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Smadja et al. Translating collocations for use in bilingual lexicons
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
JP2004070636A (ja) 概念検索装置
KR100327115B1 (ko) 부분 대역 패턴 데이터베이스에 기반한 번역문 생성장치및 그 방법
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP3825645B2 (ja) 表現変換方法及び表現変換装置
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP4059501B2 (ja) 自然語辞書更新装置
JP2000250914A (ja) 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JPH1011450A (ja) 概念属性値辞書および自然言語処理装置
JPH07230461A (ja) 構文解析装置及び機械翻訳装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee