KR100617319B1 - Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof - Google Patents

Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof Download PDF

Info

Publication number
KR100617319B1
KR100617319B1 KR1020050018746A KR20050018746A KR100617319B1 KR 100617319 B1 KR100617319 B1 KR 100617319B1 KR 1020050018746 A KR1020050018746 A KR 1020050018746A KR 20050018746 A KR20050018746 A KR 20050018746A KR 100617319 B1 KR100617319 B1 KR 100617319B1
Authority
KR
South Korea
Prior art keywords
verb
english
noun
korean
semantic
Prior art date
Application number
KR1020050018746A
Other languages
Korean (ko)
Other versions
KR20060067073A (en
Inventor
이기영
최승권
노윤형
권오욱
김영길
김창현
홍문표
양성일
류철
서영애
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067073A publication Critical patent/KR20060067073A/en
Application granted granted Critical
Publication of KR100617319B1 publication Critical patent/KR100617319B1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers

Abstract

본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.Verb / noun band word selection device and method using verb phrase pattern and semantic vector for English-Korean automatic translation according to the present invention are based on verb phrase pattern based on English-Korean parallel corpus, English monolingual corpus and wordnet Building a database; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And determining a semantic code using an English air vocabulary if the search fails and the argument of the verb is a noun phrase. The band word for the verb and the head noun is selected by the verb phrase pattern. Air information also allows the selection of bandwords for other nouns other than head nouns.

기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴 Machine translation, automatic translation, band choice, semantic vector, verb phrase pattern

Description

영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법{Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof}Apparatus for selecting target word for noun / verb using verb patterns and sense vectors for English-Korean machine translation and method

도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이다.1A is a flowchart for constructing a verb phrase pattern for selecting a English-Korean verb band word.

도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다.1B is a diagram illustrating an example of a format of an English-Korean verb phrase pattern applied to the present invention.

도 2는 본 발명에 의한 의미 벡터 데이터베이스와 국소 문맥 정보 데이터베이스를 구성하는 과정을 보여주는 흐름도이다.2 is a flowchart illustrating a process of configuring a semantic vector database and a local context information database according to the present invention.

도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이다.3 is a block diagram showing the configuration of a verb / noun band word selection device using a verb phrase pattern and a semantic vector according to the present invention.

도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다.4 is a flowchart illustrating a process of a verb / noun band word selection method using a verb phrase pattern and a semantic vector according to the present invention.

* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings

301 : 단문 분할부 302 : 동사구 패턴 적용부301: short sentence division unit 302: verb phrase pattern application unit

304 : 동사 대역어 결정부 305 : 명사 대역어 선택부304: verb band word determination unit 305: noun band word selection unit

307 : 테스트벡터 구성부 308 : 유사도 계산부307: test vector component 308: similarity calculator

309 : 명사 의미코드 결정부 311: 디폴트 동사구 패턴 적용부309: noun semantic code determiner 311: default verb phrase pattern applying unit

303 : 동사구 패턴 데이터베이스 310 : 의미 벡터 데이터베이스 303: verb phrase pattern database 310: semantic vector database

306: 한국어 국소 문맥 데이터베이스306: Korean Local Context Database

본 발명은 영한 자동 번역 시스템에서 동사구 패턴 및 의미 벡터를 사용하여명사와 동사의 대역어를 선택하는 장치 및 그 방법, 그리고 상기 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 관한 것이다.The present invention provides an apparatus and method for selecting a noun and a band word of a verb using a verb phrase pattern and a semantic vector in an English-Korean automatic translation system, and a computer-readable recording medium recording a program capable of executing the method on a computer. It is about.

자동번역 시스템의 경우, 원문에서 각 어휘가 가지는 고유한 의미를 손실하지 않고, 대역어로 변환시키는 기술은 자연스러운 번역 품질을 얻는데 있어서 매우 중요한 요소라고 할 수 있다. 현재까지는 주로 단순한 공기 정보에 의존한 대역어 선택 기술들이 제공되어 왔지만, 그 성능은 실용적인 자동번역 결과를 얻기에는 매우 미흡한 실정이다.In the case of an automatic translation system, the technique of translating a band word without losing the unique meaning of each vocabulary in the original text is a very important factor in obtaining a natural translation quality. To date, bandword selection techniques have been provided, which mainly rely on simple air information, but the performance is insufficient to obtain a practical automatic translation result.

동시에 원시 언어의 어휘가 가지는 의미적 모호성을 해소하기 위한 몇몇 기술들이 제안되었지만, 실제 자동번역에서 대역어를 선택할 때에는 원문 어휘가 가지는 의미적 모호성만을 해소해서는 자연스러운 대역어를 얻을 수 없으며, 목표 언어의 측면도 고려해야 한다.At the same time, some techniques have been proposed to solve the semantic ambiguity of the vocabulary of the primitive language, but when selecting the band word in the automatic translation, only the semantic ambiguity of the original vocabulary cannot be solved to obtain the natural band word, and the aspect of the target language must be considered. do.

따라서, 상기와 같은 문제점을 해결하기 위해서는 우선, 원문 어휘의 의미적 모호성을 해결해야 하며, 이 단계에서 결정된 의미를 지니는 대역 후보들 가운데, 생성될 한국어 문맥에 가장 적합한 대역어를 선택하는 방법이 요구된다.Therefore, in order to solve the above problems, first, the semantic ambiguity of the original vocabulary must be solved, and among the band candidates having the meaning determined in this step, a method of selecting a band word most suitable for the Korean context to be generated is required.

본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 영한 자동 번역시 문장의 핵심 품사이며 전체 번역의 성능을 크게 좌우하는 명사 및 동사의 대역어를 선택할 때 해당 문장의 문맥에 맞는 가장 자연스러운 대역어를 선택하기 위한 장치 및 그 방법 그리고 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체를 제공하는데 있다.The technical problem to be achieved by the present invention is to solve the above problems, it is a core part of speech in the English-Korean automatic translation and when selecting the nouns and verb band words that greatly influence the performance of the entire translation fits the context of the sentence. An apparatus, a method, and a method for selecting the most natural band word are provided.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, a verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention uses a semantic code based on an English-Korean parallel corpus, an English monolingual corpus, and WordNet. Constructing a verb phrase pattern database as a basis; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And if the search fails and the argument of the verb is a noun phrase, determining a semantic code using an English air vocabulary.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치는 문장을 입력 받아 단문 단위로 분할하는 단문분할부; 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용가능한 동사구 패턴을 검색하는 동사구패턴적용부; 상기 검색이 성공하면 상기 동사구패턴적용부에서 검색한 동사구 패턴을 입력받아 동사의 대역어와 명사의 의미코드를 결정하는 동사대역어결정부; 및 상기 동사구패턴적용부에서의 검색이 실패하면 의미벡터 데이터 베이스와 한국어 국소 문맥 데이터 베이스를 참조하여 대역어를 확률적으로 선택하여 출력하는 대역어 선택부;를 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, a verb / noun band word selection device using a verb phrase pattern and a semantic vector for English-Korean automatic translation according to the present invention comprises: a short sentence division unit for receiving a sentence and dividing it into a short sentence unit; A verb phrase pattern application unit for searching a verb phrase pattern applicable to the short sentence by referring to a verb phrase pattern database; A verb band word determining unit configured to determine verb band words and meaning codes of nouns by receiving verb verb patterns searched by the verb phrase pattern applying unit if the search is successful; And a band word selector that probabilistically selects and outputs a band word by referring to a semantic vector database and a Korean local context database if the search in the verb phrase pattern application unit fails.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 것을 특징으로 한다. In order to achieve the above technical problem, a computer-readable recording medium recording a program capable of executing a verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention is in parallel with English. Constructing a verb phrase pattern database based on semantic codes based on corpus, English monolingual corpus, and WordNet; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And determining a semantic code using an English air vocabulary if the search fails and the argument of the verb is a noun phrase. The program may be executed by a computer.

본 발명의 바람직한 일 실시예를 설명하기에 앞서 발명의 상세한 설명과 청구범위에서 사용되는 용어에 대한 개념을 정리하면 다음과 같다.Prior to describing the preferred embodiment of the present invention, the concept of terms used in the detailed description and claims are summarized as follows.

영한 병렬 코퍼스라 함은 영어 문장과 그에 대한 한국어 대역 문장으로 구성되며, 본 발명에서 사용되는 대역어 선택 지식의 주된 추출 대상이라 할 수 있다.The English-Korean parallel corpus is composed of an English sentence and a Korean band sentence, and can be said to be the main extraction target of the bandword selection knowledge used in the present invention.

영어 모노링궐 코퍼스라 함은 영어 문장으로만 구성된 단일 언어 코퍼스이며, 상대적으로 크기가 작은 병렬 코퍼스의 데이터 부족 문제를 해결하기 위해 사용된다.The English monolingham corpus is a monolingual corpus consisting only of English sentences and is used to solve the data shortage problem of relatively small parallel corpus.

동사구 패턴이라 함은 영어 원문 패턴과 한국어 대역문 패턴으로 구성되며, 영어 동사를 중심으로 하여 해당 동사가 논항으로 취하는 문법적 요소들을 포함하는 패턴이라 할 수 있으며, 논항이 명사인 경우 해당 명사의 의미코드가 사용된다.The verb phrase pattern is composed of the original English pattern and the Korean band pattern, and it can be called a pattern that includes grammatical elements that the verb takes as an argument centering on the English verb. Is used.

명사 어휘 정렬이라 함은 영한 병렬 코퍼스를 구성하는 각각의 영어 문장 및 한국어 문장 쌍에 대해서 영어 명사 어휘에 대한 그 대역 한국어 명사 어휘를 매핑시키는 작업이라 할 수 있다.Noun vocabulary alignment can be referred to as a task of mapping the Korean noun vocabulary to the English noun vocabulary for each pair of English sentences and Korean sentences constituting the English-Korean parallel corpus.

의미 벡터라 함은 N-차원으로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내며, 이러한 정보는 영한 병렬 코퍼스로부터 추출된다. 의미 벡터의 차원은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.A semantic vector is composed of N-dimensions, the elements of which represent the weighted values of each English noun and the lexical vocabulary, and this information is extracted from the English-Korean parallel corpus. The dimension of the semantic vector is defined as the number of vocabulary having a high relationship with the English noun vocabulary based on mutual information (MI).

이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

본 발명에 따른 영어 명사 및 동사의 한국어 대역어 선택에 대한 각각의 실시 예를 설명하기 전에, 동사구 패턴 및 의미 코드에 대한 설명을 우선한다.Before describing each embodiment of the Korean nouns of English nouns and verbs according to the present invention, descriptions of verb phrase patterns and semantic codes are given priority.

동사구 패턴은 아래의 예 1과 같이 크게 원문부와 대역부로 구성되어 있다The verb phrase pattern is composed of the original part and the band part as shown in Example 1 below.

[예 1] 영어 동사 'abandon'의 동사구 패턴 예[Example 1] Example of verb phrase pattern in English verb abandon

S=(person#1) abandon O=(idea#1) => S!가 O!를 포기하!다.S = (person # 1) abandon O = (idea # 1) => S! Gives up O!

위의 예 1은 영어 동사 'abandon'의 동사구 패턴 중 하나를 나타낸다. 위의 동사구 패턴에서 원문부는 "S=(person#1) abandon O=(idea#1)"이며, 대역부는 "S!가 O!를 포기하!다."이다. 원문부에서 S 및 O와 같은 심볼은 논항을 나타내며, S는 주어, O는 목적어를 나타낸다. 또한 person#1과 idea#1은 논항 자리에 가능한 의미코드를 나타낸다. 미리 설명을 하자면, 'abandon'이 본동사로 사용된 문장에 대해서 위의 예 1에 해당하는 동사구 패턴이 적용되기 위해서는 문장의 주어 및 목적어에 해당하는 의미코드가 동사구 패턴에 기재되어 있는 의미코드와 매칭되어야 한 다. 동사구 패턴이 매칭될 경우, 그 동사 대역어는 해당 동사구 패턴의 대역부를 통하여 결정되며, 논항에서 매칭된 명사의 경우, 해당 의미코드가 결정된다.Example 1 above shows one of the verb phrase patterns of the English verb 'abandon'. In the above verb phrase pattern, the original part is "S = (person # 1) abandon O = (idea # 1)", and the band part is "S! Gives up O!". In the text, symbols such as S and O represent arguments, S is given, and O is the object. Person # 1 and idea # 1 also represent possible semantic codes in place of arguments. To explain in advance, in order to apply the verb phrase pattern corresponding to Example 1 to a sentence using 'abandon' as the main verb, the semantic code corresponding to the subject and object of the sentence matches the semantic code described in the verb phrase pattern. Should be. When the verb phrase pattern is matched, the verb band word is determined through the band portion of the verb phrase pattern, and in the case of a matching noun in the argument, the corresponding semantic code is determined.

다음은 본 발명에서 사용하는 영한 전자 사전의 각 엔트리에 대한 의미 자질을 설명한다. 영한 전자 사전의 경우, 의미 코드 자질로서 'SEM'이라는 자질을 두었고, 그 자질값은 WordNet1.71의 의미체계를 따르는 1,163개의 의미 코드중 하나가 할당된다. 그리고, 의미 코드에 따라서 그 대역어를 분류하는 방법을 개시하고자 한다. The following describes semantic features for each entry of the English-Korean dictionary used in the present invention. In the case of the English-Korean dictionary, the semantic code feature is named 'SEM', which is assigned one of 1,163 semantic codes that follow the semantics of WordNet1.71. Then, a method of classifying the band word according to a semantic code is disclosed.

일반적으로, 영어 어휘는 두 개 이상의 한국어로 번역될 수 있는 다의어(polysemous word)가 많다. 표 1은 대표적인 영어 명사의 예를 보인 것이다.In general, English vocabulary has many polysemous words that can be translated into two or more Korean words. Table 1 shows examples of representative English nouns.

어휘Vocabulary 의미코드Meaning Code 대역어Band word goal/NOUNgoal / NOUN goal#1goal # 1 목표, 결과, 목적Goals, results, objectives equipment#1equipment # 1 goal accomplishment#1accomplishment # 1 득점score extremity#4extremity # 4 결승선, 목적지, 행선지Finish line, destination, destination

표 1은 영어 어휘 goal/NOUN에 대한 의미코드에 따른 대역어 분류 예를 나타낸다. 표 1에서 영어 어휘 goal/NOUN은 4개의 의미코드 goal#1, equipment#1, accomplishment#1 그리고 extremity#4를 지니며, 각각의 의미코드에 해당하는 한국어 대역어들을 각각 표 1에서와 같이 분류된다.Table 1 shows examples of bandword classification according to semantic codes for English vocabulary goal / NOUN. In Table 1, the English vocabulary goal / NOUN has four semantic codes: goal # 1, equipment # 1, accomplishment # 1, and extremity # 4, and Korean Korean words corresponding to each semantic code are classified as shown in Table 1, respectively. .

도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이고 , 도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다. 이는 본 발명이 적용되는 영한 동사 대역어 선택을 위한 지식인 동사구 패턴에 관한 것을 보여준다. 도 1a를 참조하면, 동사구 패턴 프로세스는 먼저 동사를 중심으로 해당 동사가 취하는 논항 정보를 추출한다(S101). 다음으로 추출된 논항 정보에 대한 의미코드를 부여하고(S102), 영어 동사구 패턴에 대한 한국어 대역 패턴을 구축한다(S103). 영어-한국어 동사구 패턴의 형식도 또한 도 1b에 설명되어 있다. FIG. 1A is a flowchart for constructing a verb phrase pattern for selecting a Korean-English verb band word, and FIG. 1B is a diagram illustrating an example of a format of an English-Korean verb phrase pattern applied to the present invention. This shows a verb phrase pattern that is knowledge for selecting English-Korean verb band words to which the present invention is applied. Referring to FIG. 1A, the verb phrase pattern process first extracts argument information taken by a verb based on the verb (S101). Next, a semantic code is assigned to the extracted argument information (S102), and a Korean band pattern is constructed for the English verb phrase pattern (S103). The format of the English-Korean verb phrase pattern is also described in FIG. 1B.

도 2는 본 발명이 적용되는 의미 벡터를 이용한 영한 대역어 선택 장치에서 대역어 선택을 위한 지식인 의미 벡터와 한국어 국소 문맥 정보의 구축 방법에 관한 일 실시예를 보인 도면이다. 이하 설명의 편의를 위하여 장치의 구성 설명과 방법의 흐름 설명을 연관지어 함께 서술하도록 한다.FIG. 2 is a diagram illustrating an embodiment of a method of constructing a semantic vector and Korean local context information, which are knowledge for band word selection, in an apparatus for selecting a Korean-English band word using a semantic vector to which the present invention is applied. For convenience of description, the description of the configuration of the device and the flow description of the method will be described together.

도 2를 참조하면, 본 발명은 병렬 코퍼스(미도시)의 영어 문장과 한국어 문장 각각에 대하여, 영어 형태소 분석기, 영어 태거, 한국어 형태소 분석기, 한국어 태거를 사용하여 형태소 분석/태깅 작업이 수행된다(S201).Referring to FIG. 2, in the present invention, a morpheme analysis / tagging operation is performed using an English morpheme analyzer, an English tagger, a Korean morpheme analyzer, and a Korean tagger for each English sentence and a Korean sentence of a parallel corpus (not shown) ( S201).

이렇게 태깅된 병렬 코퍼스의 각 문장에 대해서 영한 전자사전의 정보를 사용하여 명사 정렬이 이루어진다(S203).The nouns are sorted using information of the English-Korean electronic dictionary for each sentence of the tagged parallel corpus (S203).

본 발명은 영한 전자사전을 참조하여, 각 대역어가 어떤 의미 코드를 가지는지 알 수 있으며, 이러한 정보를 사용하여 의미 벡터를 구축하고(S204), 한국어 국소 문맥 정보를 구축(S205)하여 구축된 각각의 정보를 의미 벡터 데이터베이스(이하 "DB"라고 한다)(310)와 한국어 국소 문맥 정보 DB(306)에 저장한다.The present invention refers to the English-Korean electronic dictionary, and it is possible to know what semantic codes each band word has, and by using this information, a semantic vector is constructed (S204) and Korean local context information is constructed (S205). Information is stored in the semantic vector database (hereinafter referred to as "DB") 310 and the Korean local context information DB 306.

의미 벡터는 N-차원의 벡터로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내고, 이러한 정보는 병렬 코퍼스로부터 추출된다. 이때, 공기 정보로서 허용되는 품사는 형용사와 명사로 한정한다. 그 이유는 전치사와 같은 기능어류의 어휘들은 의미를 결정하는데 변별력을 갖고 있지 않기 때문이다. 의미 벡터의 차원 N은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.The semantic vector is composed of N-dimensional vectors whose components represent the weights of each English noun and the lexical vocabulary, and this information is extracted from the parallel corpus. At this time, the parts of speech permitted as the air information are limited to adjectives and nouns. The reason is that the vocabulary of functional fish, such as prepositions, has no discernment in determining meaning. The dimension N of the semantic vector is defined as the number of vocabulary having a high relationship with the English noun vocabulary based on mutual information (MI).

다음의 수학식 1은 상호 정보를, 수학식 2는 의미벡터 SV를, 그리고 수학식 3은 그 구성요소들을 나타낸다.Equation 1 below represents mutual information, Equation 2 indicates a semantic vector SV, and Equation 3 indicates its components.

Figure 112005012045270-pat00001
Figure 112005012045270-pat00001

Figure 112005012045270-pat00002
Figure 112005012045270-pat00002

Figure 112005012045270-pat00003
Figure 112005012045270-pat00003

(여기서, si는 임의의 의미) Where si is arbitrary

수학식 1은 상호 정보(MI)에 대한 공식을 나타내며, 수학식 2는 의미 벡터와 그 구성요소를 나타낸다. 수학식 2에서 각 구성요소에 대한 가중치값은 수학식 3과 같다. 즉, 의미 벡터의 각 구성요소는 공기 어휘에 대한 의미의 조건부 확률값을 나타내며, 그 값은 0과 1사이의 값을 가지며, 1에 가까울수록 해당 공기 어휘(co-occurring word)가 영어 명사 어휘의 특정 의미 결정에 매우 강력한 단서가 된다는 것을 나타낸다. 이러한 의미 벡터는 각 영어 명사 어휘에 대해 서로 다른 의미 코 드의 개수만큼 만들어진다. 예를 들어, 표 1에 제시된 'race/NOUN'의 경우, 2개의 의미 벡터가 만들어진다.Equation 1 represents a formula for mutual information MI, and Equation 2 represents a semantic vector and its components. In Equation 2, a weight value for each component is shown in Equation 3. That is, each component of the semantic vector represents a conditional probability value of the meaning for the air vocabulary, and the value has a value between 0 and 1, and the closer to 1, the co-occurring word is the English noun vocabulary. This is a very powerful clue for determining a particular meaning. These semantic vectors are made up of different semantic codes for each English noun vocabulary. For example, for 'race / NOUN' shown in Table 1, two semantic vectors are created.

한국어 국소 문맥 정보는 표 1과 같이 동일한 의미코드를 갖는 한국어 대역어의 개수가 2개 이상일 경우, 그 중 최적의 대역어를 선택하기 위하여 사용된다. 도 1a 내지 도 1b에서 보이는 바와 같이, 한국어 국소 문맥 정보는 병렬 코퍼스의 한국어 파트만을 사용하여 구축되며, 형용사, 명사에 한정하여 상호 공기하는 빈도 정보를 나타낸다.The Korean local context information is used to select an optimal band word when there are two or more Korean band words having the same semantic code as shown in Table 1. As shown in Figs. 1A to 1B, Korean local context information is constructed using only Korean parts of a parallel corpus, and represents frequency information of mutual airing only for adjectives and nouns.

도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이고, 도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다. 먼저 위에서 설명한 것처럼 동사구 패턴 DB(303)와 의미벡터 DB(310), 그리고 한국어 국소 문맥 DB(306)을 구축한다(S401). 이제 입력된 문장은 우선 단문 분할부(301)에 의해 단문으로 분할된다. 동사구 패턴 적용부(302)는 분할된 단문을 입력받아 각 단문의 동사에 중심으로 동사구 패턴 DB(303)를 검색하여 해당 단문을 커버하는 동사구 패턴이 존재하는지 검색하여 동사구 패턴 적용을 시도하게 된다(S402). Figure 3 is a block diagram showing the configuration of a verb / noun band word selection apparatus using a verb phrase pattern and a semantic vector according to the present invention, Figure 4 is a verb / noun band word selection method using a verb phrase pattern and a semantic vector according to the present invention Is a flow chart showing the process. First, as described above, the verb phrase pattern DB 303, the semantic vector DB 310, and the Korean local context DB 306 are constructed (S401). Now, the input sentence is first divided into short sentences by the short sentence divider 301. The verb phrase pattern applying unit 302 receives the divided short sentence and searches the verb phrase pattern DB 303 centered on the verb of each short sentence and searches for the existence of the verb phrase pattern covering the short sentence and attempts to apply the verb phrase pattern ( S402).

즉 매칭되는 동사구 패턴이 존재하는지를 판단하여(S403) 존재할 경우, 동사대역어 결정부(304)는 매칭된 동사구 패턴에 의해 동사 대역어를 결정하고, 또한 해당 동사의 논항에 위치한 명사의 의미코드를 결정한다(S404). 명사의 의미코드가 결정된 후, 해당 명사가 결정된 의미코드에 속하는 2개 이상의 한국어 대역어를 가 지는지 판단하여(S405), 2개 이상의 한국어 대역어가 존재하면 명사대역어 선택부(305)는, 한국어 국소 문맥 DB(306)를 참조하여 입력 문장의 문맥에 가장 적합한 한국어 대역어를 선택하게 된다(S411).In other words, if there is a matching verb phrase pattern (S403), the verb band word determination unit 304 determines a verb band word based on the matched verb phrase pattern, and determines a semantic code of a noun located in the argument of the verb. (S404). After the semantic code of the noun is determined, it is determined whether the noun has two or more Korean band words belonging to the determined semantic code (S405), and if there are two or more Korean band words, the noun band word selection unit 305 determines the Korean local context. With reference to the DB 306, the Korean band word most suitable for the context of the input sentence is selected (S411).

다른 경우로서 즉 매칭되는 동사구 패턴이 검색되지 않는 경우로서 동사의 논항이 명사구이거나 동사 혹은 명사인지를 판단하여(S406) 상이한 과정을 거치는데 이하 설명한다.As another case, that is, when a matching verb phrase pattern is not searched, it is determined below whether the argument of the verb is a noun phrase, a verb or a noun (S406), and goes through a different process.

먼저, 동사의 논항이 명사구로 구성되어 헤드 명사 이외의 헤드가 아닌 명사에 대한 의미코드를 결정하기 위해서는 영어 공기 어휘를 사용하여 의미 코드를 결정하게 되는데, 아래에서 상세히 살펴 본다. 즉, 본 발명의 테스트 벡터 구성부(307)는 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다(S408).First, the arguments of verbs are made up of noun phrases to determine the semantic codes for non-head nouns other than head nouns, and the semantic codes are determined using English air vocabulary. That is, the test vector constructing unit 307 of the present invention creates a test vector having the same dimension as the semantic vector of the corresponding vocabulary for the vocabulary having the bandword selection ambiguity in the conversion step from the input sentence (S408).

벡터간 유사도 계산부(308)는 상기 테스트 벡터 구성부(307)에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산(S409)하여 명사 의미 코드 결정부(309)에서 명사의 의미코드를 결정한다(S410). 의미코드가 결정된 후, 이미 상기에서 서술한 바와 같이 만약 해당 명사가 결정된 의미코드에 속하는 2개 이상의 대역어를 가질 경우에는 명사 대역어 선택부(305)가 한국어 국소 문맥 DB(306)를 사용하여 최종적인 한국어 대역어를 선택한다(S411).The similarity calculation vector between the vectors 308 calculates the similarity between the test vector obtained from the test vector constructing unit 307 and the semantic vector already constructed (S409), and the noun semantic code determining unit 309 calculates the noun semantic code. Determine (S410). After the semantic code is determined, as described above, if the noun has two or more band words belonging to the determined semantic code, the noun band word selection unit 305 uses the Korean local context DB 306 to determine the final result. A Korean band word is selected (S411).

마지막으로 동사구 패턴이 적용되지 않을 경우에는 동사의 경우 디폴트 동사구 패턴 적용부(311)는 디폴트 동사구 패턴을 사용하여 기본적인 동사 대역어를 선택하며(S407), 명사의 경우, 공기 정보를 사용한 의미 벡터와의 유사도 계산(S409) 에 의해 그 의미코드가 결정되고(S410), 명사 대역어 선택부(305)에 의해 최종적인 대역어가 선택된다.Finally, when the verb phrase pattern is not applied, in case of the verb, the default verb phrase pattern applying unit 311 selects a basic verb band word using the default verb phrase pattern (S407), and in case of noun, compares with a semantic vector using air information. The semantic code is determined by the similarity calculation (S409) (S410), and the final band word is selected by the noun band word selection unit 305.

위에서 설명한 의미 벡터와 한국어 국소 문맥 정보를 사용하여 해당 영어 어휘의 대역어를 선택하는 방법을 보다 상세하게 설명하면 다음과 같다.A method of selecting a band word of the corresponding English vocabulary using the semantic vector and the Korean local context information described above will be described in detail as follows.

도면을 참조하면, 테스트 벡터 구성부(307)로 입력문이 들어오면, 변환 단계에서는 대역어 선택 모호성을 가지는 어휘에 대해 상기 테스트 벡터 구성부(307)에서는 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다. 테스트 벡터의 각 구성요소는 0 또는 1의 값을 가지며, 입력 문장에 포함된 각각의 영어 명사 어휘에 대한 공기 어휘가 해당 영어 명사 어휘의 의미 벡터의 구성 요소일 경우에는 1을 지니며, 그렇지 않을 경우에는 0을 지닌다. 예를 들어, 'bank/NOUN'의 의미 벡터가 (w(rain), w(commercial), w(money))라고 가정하고, 입력 문장이 "Rain broke the bank"라고 하면 (1, 0, 0)의 테스트 벡터가 생성된다.Referring to the drawing, when an input statement is input to the test vector constructing unit 307, the test vector constructing unit 307 has a test vector having the same dimension as the semantic vector of the corresponding vocabulary in the converting step. Make Each component of the test vector has a value of 0 or 1, and 1 if the air vocabulary for each English noun vocabulary included in the input sentence is a component of the semantic vector of the corresponding English noun vocabulary. In case it has 0. For example, suppose that the semantic vector of 'bank / NOUN' is (w (rain), w (commercial), w (money)), and the input sentence is "Rain broke the bank" (1, 0, 0 A test vector is generated.

입력 문장으로부터 얻어진 테스트 벡터와 기 구축된 의미 벡터와의 유사도는 코사인 메저(cosine measure)를 사용하며, 벡터간 유사도 계산부(308)에서는 다음의 수학식 4에 의해 두 벡터 간의 유사도(similarity;si)를 계산한다.The similarity between the test vector obtained from the input sentence and the previously constructed semantic vector uses a cosine measure, and the vector similarity calculator 308 calculates similarity between the two vectors according to Equation 4 below. Calculate

Figure 112005012045270-pat00004
Figure 112005012045270-pat00004

본 발명은 상기에서 설명한 바와 같이 대역어 선택 모호성을 지니는 영어 명사 어휘에 대해서 명사 의미코드 결정부(304)에서 의미 코드가 결정되고(S410), 마지막으로, 결정된 어휘의 의미 코드를 갖는 한국어 대역어가 2개 이상일 경우에는 명사 대역어 선택부(305)에서는 한국어 국소 문맥 정보 DB(306)에 저장된 정보를 사용하여 인접하는 명사나 또는 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하여 최적의 대역어를 결정한다.As described above, the semantic code is determined by the noun semantic code determining unit 304 with respect to the English noun vocabulary having the bandword selection ambiguity as described above (S410), and finally, the Korean bandword having the semantic code of the determined vocabulary is 2 If there are more than one, the noun band word selection unit 305 uses the information stored in the Korean local context information DB 306 to probabilistically calculate a band word that is semantically closest to an adjacent noun or adjective to determine an optimal band word. .

다음의 예 2는 영어 명사 'change/NOUN'가 한국어로 번역되는 다양한 경우를 보인 것이다.Example 2 shows various cases in which the English noun 'change / NOUN' is translated into Korean.

[예 2][Example 2]

interest rate changes (이자율 변동)interest rate changes (interest rate)

changes in your cells (세포의 변화) changes in your cells (changes in the cell)

requests for services changes (서비스 변경 요청)requests for services changes (Service Change Request)

본 발명은 상기 예 2에서 알 수 있듯이 영어 명사 'change/NOUN'의 대역어 '변동', '변화', '변경'은 단순히 영어 어휘 'change/NOUN'의 의미 결정만으로는 결정될 수 없다. 왜냐하면, 'change/NOUN'의 대역어 '변동', '변화', '변경'은 동일한 의미 코드를 가지며, 이러한 미묘한 한국어 대역어 선택은 한국어 국소 문맥 정보를 고려하여야만 가장 자연스러운 대역어를 선택할 수 있다.As can be seen in Example 2, the band words 'change', 'change' and 'change' of the English noun 'change / NOUN' cannot be determined simply by determining the meaning of the English vocabulary 'change / NOUN'. This is because the band words 'change', 'change', and 'change' of 'change / NOUN' have the same semantic code, and such subtle Korean bandword selection can only select the most natural bandword by considering Korean local context information.

앞에서 상술했듯이, 대역어 선택에 대한 미묘한 차이의 해소는 병렬 코퍼스의 한국어 파트로부터 구축된 한국어 국소 문맥 정보에 의존한다. 한국어 국소 문맥 정보는 형용사, 명사로 구성된 공기 빈도로 구성되며, 영한 자동번역 시스템의 생성부로 넘어온 한국어 어휘들의 시퀀스에 대한 확률값을 구함으로써, 최적의 한국어 대역어를 선택한다.As mentioned above, resolving subtle differences in bandword selection relies on Korean local context information built from the Korean part of the parallel corpus. The Korean local context information is composed of air frequencies consisting of adjectives and nouns, and the optimal Korean band words are selected by obtaining probability values for sequences of Korean vocabularies passed to the generation part of the English-Korean automatic translation system.

본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention can also be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the technical field to which the present invention pertains without departing from the technical spirit of the present invention. It will be clear to those of ordinary knowledge.

이상에서 설명한 바와 같이 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법에 의하면 영한 병렬 코퍼스와 영어 모노링궐 코퍼스로부터 구축된 동사구 패턴을 문장을 구성하는 각각의 단문에 적용함으로써 동사와 명사의 대역어를 함께 얻으며, 동사구 패턴이 적용되지 않거나, 동사구 패턴 적용시 명사구의 헤드 어휘가 아니기 때문에 동사구 패턴에 의해 그 의미가 결정되지 않는 명사에 대해서는 영한 병렬 코퍼스에 대한 어휘 정렬 과정에 의해 얻어진 의미 벡터를 이용하여 영어 어휘에 대한 의미를 결정한다. 이러한 방법으로 명사의 의미가 결정된 후, 사전에서 해당 영어 어휘의 대역어들 중, 기 구축된 한국어 국소 문맥 정보를 이용하여 문맥에 가장 자연스러운 한국어 대역어를 선택할 수 있게 된다. 또한 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.As described above, according to the present invention, a verb / noun band word selection device using a verb phrase pattern and a semantic vector and a method for constructing an English-Korean automatic translation according to the present invention constitute a sentence composed of a verb phrase pattern constructed from an English-Korean parallel corpus and an English monolinge corpus. The verbs and verbs of verbs and nouns are obtained by applying to each short sentence, and the parallel corpus of nouns whose meaning is not determined by the verb phrase pattern is not applied because the verb phrase pattern is not applied or the head vocabulary of the noun phrase is not applied when the verb phrase pattern is applied. The meaning of the English vocabulary is determined using the semantic vector obtained by the vocabulary sorting process. After the meaning of the noun is determined in this way, among the band words of the corresponding English vocabulary, it is possible to select a Korean band word most natural to the context using the existing Korean local context information. It is also possible to select bandwords for verbs and head nouns by verb phrase patterns, and bandwords for other nouns other than head nouns by air information.

Claims (15)

(a) 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계;(a) constructing a verb phrase pattern database based on semantic codes based on English-Korean parallel corpus, English monolingual corpus and WordNet; (b) 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계;(b) constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; (c) 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계;(c) dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; (d) 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계;(d) if the search is successful, determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern; (e) 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및(e) selecting a basic verb band word by applying a predetermined default verb phrase pattern when the search fails and the verb phrase pattern is not applied; And (f) 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.(f) determining a semantic code using an English air vocabulary if the search fails and the term of the verb is a noun phrase; and includes a verb phrase pattern, a semantic vector, and Korean local context information in an English-Korean automatic translation. How to select English verbs / noun bands used. 제1항에 있어서, 상기 (a)단계는The method of claim 1, wherein step (a) (a1) 동사를 중심으로 해당 동사가 취하는 논항 정보를 추출하는 단계;(a1) extracting argument information taken by the verb mainly from the verb; (a2) 상기 추출된 논항 정보에 대하여 워드넷을 기초로 의미 정보를 태깅하 는 단계;(a2) tagging semantic information on the extracted dispute information based on WordNet; (a3) 상기 동사의 하위범주 정보에 대한 한국어 대역 정보를 구축하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.(a3) constructing Korean band information for sub-category information of the verbs; an English verb / noun band word selection method using a verb phrase pattern, a semantic vector, and Korean local context information in an English-Korean automatic translation. 제1항에 있어서, 상기 (b)단계는The method of claim 1, wherein step (b) (b1) 상기 병렬 코퍼스로부터 영어 및 한국어 문장들의 형태소를 분석하고 태깅하는 단계; 및(b1) analyzing and tagging morphemes of English and Korean sentences from the parallel corpus; And (b2) 상기 태깅된 각 문장쌍에 대한 어휘레벨을 소정의 영한 전자 사전을 참조하여 정렬한 후 상기 의미벡터를 구축하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.(b2) constructing the semantic vector after arranging the lexical levels of the tagged pairs with reference to a predetermined English-Korean electronic dictionary; a verb phrase pattern, a semantic vector, and A method of selecting English verb / noun band words using Korean local contextual information. 제3항에 있어서, 상기 의미벡터는The method of claim 3, wherein the semantic vector 영어 명사들과 각 영어명사와 공기하는 어휘들의 가중치값을 나타내는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.An English verb / noun band word selection method using verb phrase patterns, semantic vectors, and Korean local context information in English-Korean automatic translation, characterized by representing the weighted values of English nouns, each English noun, and the lexical vocabulary. 제1항에 있어서, 상기 (d)단계는The method of claim 1, wherein step (d) 한국어 대역어가 2 이상 존재하면 상기 한국어 국소 문맥 정보 데이터베이스 를 참조하여 최적의 대역어를 선정하는 단계;를 더 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.Selecting an optimal band word by referring to the Korean local context information database when there are two or more Korean band words; and the English verb using a verb phrase pattern, a semantic vector, and Korean local context information in the English-Korean automatic translation. / Noun bandword selection method. 제1항에 있어서, 상기 제(f)단계는The method of claim 1, wherein step (f) (f1) 각 어휘에 대하여 소정의 테스트 벡터를 구성하는 단계;(f1) constructing a predetermined test vector for each vocabulary; (f2) 상기 테스트 벡터와 의미벡터간의 유사도를 계산하여 의미코드를 결정하는 단계; 및(f2) determining a semantic code by calculating a similarity between the test vector and the semantic vector; And (f3) 의미코드가 결정된 명사가 대역어를 2개 이상 가질 경우에는 상기 한국어 국소 문맥 데이터베이스를 참조하여 최적 대역어를 선정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.(f3) if the noun having a semantic code has two or more band words, selecting an optimal band word with reference to the Korean local context database; and includes a verb phrase pattern, a semantic vector, and a Korean word in an automatic Korean-English translation. How to select English verb / noun band words using local contextual information. 제6항에 있어서, 상기 테스트 벡터는The method of claim 6, wherein the test vector is 상기 입력되는 문장에 포함된 각 영어 명사에 대한 공기 어휘가 해당 영어 명사 어휘의 의미벡터의 구성요소이면 1의 값을 가지고, 그렇지 아니한 경우에는 0의 값을 가지는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.The verb phrase in the English-Korean automatic translation, characterized in that it has a value of 1 if the air vocabulary for each English noun included in the input sentence is a component of the semantic vector of the corresponding English noun vocabulary. A method of selecting English verb / noun band words using patterns, semantic vectors, and Korean local contextual information. 제6항에 있어서, 상기 (f2)단계는The method of claim 6, wherein step (f2) 상기 테스트 벡터와 의미 벡터와의 유사도를 코사인 메져(cosine measure)를 이용하여 구하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.A method of selecting an English verb / noun band word using a verb phrase pattern, a semantic vector, and Korean local context information in an English-Korean automatic translation, wherein the similarity between the test vector and the semantic vector is calculated using a cosine measure. 제5항 혹은 제6항 중 어느 하나의 항에 있어서, The method according to any one of claims 5 and 6, 상기 한국어 국소 문맥 정보를 참조하여 최적의 대역어를 선정하는 단계는 상기 한국어 국소 문맥 정보 데이터베이스를 참조하여 인접하는 명사 혹은 형용사와 의미상 가장 근접한 대역어의 확률적 최고치를 가지는 대역어를 선택하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법.The step of selecting an optimal band word by referring to the Korean local context information may include selecting a band word having a probabilistic maximum value of a band word semantically closest to an adjacent noun or adjective by referring to the Korean local context information database. A method of selecting English verb / noun verbs using verb phrase patterns, semantic vectors, and Korean local contextual information. 문장을 입력 받아 단문 단위로 분할하는 단문분할부;A short sentence division unit that receives a sentence and divides the sentence into short sentence units; 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용가능한 동사구 패턴을 검색하는 동사구패턴적용부;A verb phrase pattern application unit for searching a verb phrase pattern applicable to the short sentence by referring to a verb phrase pattern database; 상기 검색이 성공하면 상기 동사구패턴적용부에서 검색한 동사구 패턴을 입력받아 동사의 대역어와 명사의 의미코드를 결정하는 동사대역어결정부;A verb band word determining unit configured to determine verb band words and meaning codes of nouns by receiving verb verb patterns searched by the verb phrase pattern applying unit if the search is successful; 상기 동사구패턴적용부에서의 검색이 실패하면 의미벡터 데이터 베이스와 한국어 국소 문맥 데이터 베이스를 참조하여 대역어를 확률적으로 선택하여 출력하는 대역어 선택부;를 포함하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.A verbal word selector which probabilistically selects and outputs a bandword by referring to a semantic vector database and a Korean local context database if the search is unsuccessful in the verb phrase pattern application part; Verb / Noun Band Word Selection Device Using Word, Semantic Vector, and Korean Local Context Information. 제10항에 있어서, 상기 대역어 선택부는The method of claim 10, wherein the band word selector 각 어휘에 대하여 소정의 테스트 벡터를 생성하는 테스트벡터구성부;A test vector constructing unit generating a predetermined test vector for each vocabulary; 상기 의미벡터 데이터 베이스를 참조하여 상기 테스트 벡터와 의미벡터간의 유사도를 결정하는 유사도계산부;A similarity calculator which determines a similarity between the test vector and the semantic vector by referring to the semantic vector database; 상기 유사도에 따라 명사의 의미코드를 결정하여 출력하는 명사의미코드결정부; 및A noun determination unit for determining and outputting a semantic code of a noun according to the similarity; And 상기 명사의미코드결정부가 결정한 명사의 의미코드를 2이상 가지는 명사에대하여 상기 한국어 국소문맥 정보 데이터베이스를 참조하여 최적대역어를 출력하는 명사대역어선택부;를 포함하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.A noun band word selection unit for outputting an optimum band word with reference to the Korean local context information database for a noun having two or more semantic codes determined by the uncode determining unit of the noun; Verb / Noun Band Word Selection Device Using Word, Semantic Vector, and Korean Local Context Information. 제11항에 있어서, 상기 테스트벡터구성부는The method of claim 11, wherein the test vector configuration unit 상기 입력되는 문장에 포함된 각 영어 명사에 대한 공기 어휘가 해당 영어 명사 어휘의 의미벡터의 구성요소이면 1의 값을 가지고, 그렇지 아니한 경우에는 0의 값을 가지도록 상기 테스트벡터를 생성하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.If the air vocabulary for each English noun included in the input sentence is a component of the semantic vector of the corresponding English noun vocabulary, the test vector is generated to have a value of 1, otherwise it has a value of 0. English verb / noun band word selection device using verb phrase pattern, semantic vector, and Korean local context information in English-Korean automatic translation. 제11항에 있어서, 상기 의미벡터 데이터베이스에 구축되는 의미벡터는The method of claim 11, wherein the semantic vector constructed in the semantic vector database is 영어 명사들과 각 영어명사와 공기하는 어휘들의 가중치값을 나타내는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.An English verb / noun band word selection device using verb phrase patterns, semantic vectors, and Korean local context information in an English-Korean automatic translation characterized by representing weighted values of English nouns and respective English nouns and lexical words. 제11항에 있어서, 상기 명사대역어선택부는The method of claim 11, wherein the noun band word selection unit 인접하는 명사 혹은 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하여 상기 최적의 대역어를 결정하는 것을 특징으로 하는 영한 자동 번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 장치.English verb / noun bandword selection using verb phrase patterns, semantic vectors, and Korean local contextual information in English-Korean automatic translation characterized by probabilistic calculation of a bandword semantically closest to an adjacent noun or adjective. Device. (a) 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계;(a) constructing a verb phrase pattern database based on semantic codes based on English-Korean parallel corpus, English monolingual corpus and WordNet; (b) 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계;(b) constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; (c) 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계;(c) dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; (d) 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계;(d) if the search is successful, determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern; (e) 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정 의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및(e) selecting a basic verb band word by applying a predetermined default verb phrase pattern when the search fails and the verb phrase pattern is not applied; And (f) 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하는 영한 자동번역에서 동사구 패턴, 의미 벡터 및 한국어 국소 문맥 정보를 사용한 영어 동사/명사 대역어 선택 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.(f) determining a semantic code using an English air vocabulary if the search fails and the term of the verb is a noun phrase; and includes a verb phrase pattern, a semantic vector, and Korean local context information in an English-Korean automatic translation. A computer-readable recording medium that records a program that can be run on a computer that uses the English verb / noun band method selection method.
KR1020050018746A 2004-12-14 2005-03-07 Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof KR100617319B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040105412 2004-12-14
KR20040105412 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067073A KR20060067073A (en) 2006-06-19
KR100617319B1 true KR100617319B1 (en) 2006-08-30

Family

ID=37161694

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050018746A KR100617319B1 (en) 2004-12-14 2005-03-07 Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof

Country Status (1)

Country Link
KR (1) KR100617319B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100858035B1 (en) * 2007-03-13 2008-09-10 서승현 Method for structuring multi-dimensional analysis dictionary for analyzing morpheme and apparatus of structuring the analysis dictionary
KR100956794B1 (en) 2008-08-28 2010-05-11 한국전자통신연구원 Translation apparatus by using multi-level verb pattern, and application and extraction method thereof
KR101061391B1 (en) * 2008-11-14 2011-09-01 한국과학기술정보연구원 Relationship Extraction System between Technical Terms in Large-capacity Literature Information Using Verb-based Patterns
KR101356417B1 (en) * 2010-11-05 2014-01-28 고려대학교 산학협력단 Apparatus and method for contructing verbal phrase translation pattern using bilingual paraelle corpus

Also Published As

Publication number Publication date
KR20060067073A (en) 2006-06-19

Similar Documents

Publication Publication Date Title
US10552533B2 (en) Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US8442812B2 (en) Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
KR100453227B1 (en) Similar sentence retrieval method for translation aid
EP0830668B1 (en) Systems and methods for word recognition
US5418717A (en) Multiple score language processing system
JPH06314294A (en) Method and device for mechanical translation
CN114580382A (en) Text error correction method and device
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
JP2020190970A (en) Document processing device, method therefor, and program
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
KR20040101678A (en) Apparatus and method for analyzing compounded morpheme
KR100617319B1 (en) Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof
KR100559472B1 (en) System for Target word selection using sense vectors and Korean local context information for English-Korean Machine Translation and thereof
Smadja et al. Translating collocations for use in bilingual lexicons
Khoo et al. Using statistical and contextual information to identify two‐and three‐character words in Chinese text
JP2004070636A (en) Concept searching device
KR100327115B1 (en) Device and method for generating translated sentences based on partial translation patterns
JP2005202924A (en) Translation determination system, method, and program
JP3825645B2 (en) Expression conversion method and expression conversion apparatus
KR20020054254A (en) Analysis Method for Korean Morphology using AVL+Trie Structure
KR100420474B1 (en) Apparatus and method of long sentence translation using partial sentence frame
JP4059501B2 (en) Natural language dictionary update device
JP2000250914A (en) Machine translation method and device and recording medium recording machine translation program
JP2000222432A (en) Document retrieval device, document retrieval method and recording medium recording document retrieval program
JPH1011450A (en) Concept attribute value dictionary and natural language processor

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee