KR100617319B1 - Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof - Google Patents
Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof Download PDFInfo
- Publication number
- KR100617319B1 KR100617319B1 KR1020050018746A KR20050018746A KR100617319B1 KR 100617319 B1 KR100617319 B1 KR 100617319B1 KR 1020050018746 A KR1020050018746 A KR 1020050018746A KR 20050018746 A KR20050018746 A KR 20050018746A KR 100617319 B1 KR100617319 B1 KR 100617319B1
- Authority
- KR
- South Korea
- Prior art keywords
- verb
- english
- noun
- korean
- semantic
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/04—Supports for telephone transmitters or receivers
Abstract
본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 하며, 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 또한 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.Verb / noun band word selection device and method using verb phrase pattern and semantic vector for English-Korean automatic translation according to the present invention are based on verb phrase pattern based on English-Korean parallel corpus, English monolingual corpus and wordnet Building a database; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And determining a semantic code using an English air vocabulary if the search fails and the argument of the verb is a noun phrase. The band word for the verb and the head noun is selected by the verb phrase pattern. Air information also allows the selection of bandwords for other nouns other than head nouns.
기계번역, 자동번역, 대역어 선택, 의미 벡터, 동사구 패턴 Machine translation, automatic translation, band choice, semantic vector, verb phrase pattern
Description
도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이다.1A is a flowchart for constructing a verb phrase pattern for selecting a English-Korean verb band word.
도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다.1B is a diagram illustrating an example of a format of an English-Korean verb phrase pattern applied to the present invention.
도 2는 본 발명에 의한 의미 벡터 데이터베이스와 국소 문맥 정보 데이터베이스를 구성하는 과정을 보여주는 흐름도이다.2 is a flowchart illustrating a process of configuring a semantic vector database and a local context information database according to the present invention.
도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이다.3 is a block diagram showing the configuration of a verb / noun band word selection device using a verb phrase pattern and a semantic vector according to the present invention.
도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다.4 is a flowchart illustrating a process of a verb / noun band word selection method using a verb phrase pattern and a semantic vector according to the present invention.
* 도면의 주요 부분에 대한 부호의 설명* Explanation of symbols for the main parts of the drawings
301 : 단문 분할부 302 : 동사구 패턴 적용부301: short sentence division unit 302: verb phrase pattern application unit
304 : 동사 대역어 결정부 305 : 명사 대역어 선택부304: verb band word determination unit 305: noun band word selection unit
307 : 테스트벡터 구성부 308 : 유사도 계산부307: test vector component 308: similarity calculator
309 : 명사 의미코드 결정부 311: 디폴트 동사구 패턴 적용부309: noun semantic code determiner 311: default verb phrase pattern applying unit
303 : 동사구 패턴 데이터베이스 310 : 의미 벡터 데이터베이스 303: verb phrase pattern database 310: semantic vector database
306: 한국어 국소 문맥 데이터베이스306: Korean Local Context Database
본 발명은 영한 자동 번역 시스템에서 동사구 패턴 및 의미 벡터를 사용하여명사와 동사의 대역어를 선택하는 장치 및 그 방법, 그리고 상기 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체에 관한 것이다.The present invention provides an apparatus and method for selecting a noun and a band word of a verb using a verb phrase pattern and a semantic vector in an English-Korean automatic translation system, and a computer-readable recording medium recording a program capable of executing the method on a computer. It is about.
자동번역 시스템의 경우, 원문에서 각 어휘가 가지는 고유한 의미를 손실하지 않고, 대역어로 변환시키는 기술은 자연스러운 번역 품질을 얻는데 있어서 매우 중요한 요소라고 할 수 있다. 현재까지는 주로 단순한 공기 정보에 의존한 대역어 선택 기술들이 제공되어 왔지만, 그 성능은 실용적인 자동번역 결과를 얻기에는 매우 미흡한 실정이다.In the case of an automatic translation system, the technique of translating a band word without losing the unique meaning of each vocabulary in the original text is a very important factor in obtaining a natural translation quality. To date, bandword selection techniques have been provided, which mainly rely on simple air information, but the performance is insufficient to obtain a practical automatic translation result.
동시에 원시 언어의 어휘가 가지는 의미적 모호성을 해소하기 위한 몇몇 기술들이 제안되었지만, 실제 자동번역에서 대역어를 선택할 때에는 원문 어휘가 가지는 의미적 모호성만을 해소해서는 자연스러운 대역어를 얻을 수 없으며, 목표 언어의 측면도 고려해야 한다.At the same time, some techniques have been proposed to solve the semantic ambiguity of the vocabulary of the primitive language, but when selecting the band word in the automatic translation, only the semantic ambiguity of the original vocabulary cannot be solved to obtain the natural band word, and the aspect of the target language must be considered. do.
따라서, 상기와 같은 문제점을 해결하기 위해서는 우선, 원문 어휘의 의미적 모호성을 해결해야 하며, 이 단계에서 결정된 의미를 지니는 대역 후보들 가운데, 생성될 한국어 문맥에 가장 적합한 대역어를 선택하는 방법이 요구된다.Therefore, in order to solve the above problems, first, the semantic ambiguity of the original vocabulary must be solved, and among the band candidates having the meaning determined in this step, a method of selecting a band word most suitable for the Korean context to be generated is required.
본 발명이 이루고자 하는 기술적 과제는 상기의 문제점을 해결하기 위하여 안출된 것으로서, 영한 자동 번역시 문장의 핵심 품사이며 전체 번역의 성능을 크게 좌우하는 명사 및 동사의 대역어를 선택할 때 해당 문장의 문맥에 맞는 가장 자연스러운 대역어를 선택하기 위한 장치 및 그 방법 그리고 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터가 읽을 수 있는 기록매체를 제공하는데 있다.The technical problem to be achieved by the present invention is to solve the above problems, it is a core part of speech in the English-Korean automatic translation and when selecting the nouns and verb band words that greatly influence the performance of the entire translation fits the context of the sentence. An apparatus, a method, and a method for selecting the most natural band word are provided.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, a verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention uses a semantic code based on an English-Korean parallel corpus, an English monolingual corpus, and WordNet. Constructing a verb phrase pattern database as a basis; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And if the search fails and the argument of the verb is a noun phrase, determining a semantic code using an English air vocabulary.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치는 문장을 입력 받아 단문 단위로 분할하는 단문분할부; 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용가능한 동사구 패턴을 검색하는 동사구패턴적용부; 상기 검색이 성공하면 상기 동사구패턴적용부에서 검색한 동사구 패턴을 입력받아 동사의 대역어와 명사의 의미코드를 결정하는 동사대역어결정부; 및 상기 동사구패턴적용부에서의 검색이 실패하면 의미벡터 데이터 베이스와 한국어 국소 문맥 데이터 베이스를 참조하여 대역어를 확률적으로 선택하여 출력하는 대역어 선택부;를 포함하는 것을 특징으로 한다. In order to achieve the above technical problem, a verb / noun band word selection device using a verb phrase pattern and a semantic vector for English-Korean automatic translation according to the present invention comprises: a short sentence division unit for receiving a sentence and dividing it into a short sentence unit; A verb phrase pattern application unit for searching a verb phrase pattern applicable to the short sentence by referring to a verb phrase pattern database; A verb band word determining unit configured to determine verb band words and meaning codes of nouns by receiving verb verb patterns searched by the verb phrase pattern applying unit if the search is successful; And a band word selector that probabilistically selects and outputs a band word by referring to a semantic vector database and a Korean local context database if the search in the verb phrase pattern application unit fails.
상기의 기술적 과제를 이루기 위하여 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 영한 병렬 코퍼스와 영어 모노링궐(monolingual) 코퍼스 및 워드넷에 기반한 의미코드를 기초로 동사구 패턴 데이터베이스를 구축하는 단계; 원문과 대역문의 쌍으로 이루어지는 병렬 코퍼스내의 각 문장 쌍에 대하여 어휘 정렬을 수행한 후 의미벡터 및 한국어 국소 문맥 정보를 구축하는 단계; 입력되는 문장을 단문 단위로 분할하여 상기 동사구 패턴 데이터베이스를 참조하여 상기 단문에 적용할 동사구 패턴을 검색하는 단계; 상기 검색에 성공하면 검색된 동사구 패턴을 기초로 동사의 대역어와 각 논항의 명사 의미코드를 결정하는 단계; 상기 검색에 실패하고 상기 동사구 패턴이 적용되지 않는 경우에는 소정의 디폴트 동사구 패턴을 적용하여 기본적인 동사 대역어를 선정하는 단계; 및 상기 검색에 실패하고 상기 동사의 논항이 명사구이면 영어 공기 어휘를 이용하여 의미코드를 결정하는 단계;를 포함하는 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 것을 특징으로 한다. In order to achieve the above technical problem, a computer-readable recording medium recording a program capable of executing a verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention is in parallel with English. Constructing a verb phrase pattern database based on semantic codes based on corpus, English monolingual corpus, and WordNet; Constructing a semantic vector and Korean local context information after performing lexical alignment on each pair of sentences in a parallel corpus composed of a pair of original and band sentences; Dividing an input sentence into short sentence units and searching for a verb phrase pattern to be applied to the short sentence by referring to the verb phrase pattern database; Determining a band word of a verb and a noun semantic code of each argument based on the found verb phrase pattern if the search is successful; If the search fails and the verb phrase pattern is not applied, selecting a basic verb band word by applying a predetermined default verb phrase pattern; And determining a semantic code using an English air vocabulary if the search fails and the argument of the verb is a noun phrase. The program may be executed by a computer.
본 발명의 바람직한 일 실시예를 설명하기에 앞서 발명의 상세한 설명과 청구범위에서 사용되는 용어에 대한 개념을 정리하면 다음과 같다.Prior to describing the preferred embodiment of the present invention, the concept of terms used in the detailed description and claims are summarized as follows.
영한 병렬 코퍼스라 함은 영어 문장과 그에 대한 한국어 대역 문장으로 구성되며, 본 발명에서 사용되는 대역어 선택 지식의 주된 추출 대상이라 할 수 있다.The English-Korean parallel corpus is composed of an English sentence and a Korean band sentence, and can be said to be the main extraction target of the bandword selection knowledge used in the present invention.
영어 모노링궐 코퍼스라 함은 영어 문장으로만 구성된 단일 언어 코퍼스이며, 상대적으로 크기가 작은 병렬 코퍼스의 데이터 부족 문제를 해결하기 위해 사용된다.The English monolingham corpus is a monolingual corpus consisting only of English sentences and is used to solve the data shortage problem of relatively small parallel corpus.
동사구 패턴이라 함은 영어 원문 패턴과 한국어 대역문 패턴으로 구성되며, 영어 동사를 중심으로 하여 해당 동사가 논항으로 취하는 문법적 요소들을 포함하는 패턴이라 할 수 있으며, 논항이 명사인 경우 해당 명사의 의미코드가 사용된다.The verb phrase pattern is composed of the original English pattern and the Korean band pattern, and it can be called a pattern that includes grammatical elements that the verb takes as an argument centering on the English verb. Is used.
명사 어휘 정렬이라 함은 영한 병렬 코퍼스를 구성하는 각각의 영어 문장 및 한국어 문장 쌍에 대해서 영어 명사 어휘에 대한 그 대역 한국어 명사 어휘를 매핑시키는 작업이라 할 수 있다.Noun vocabulary alignment can be referred to as a task of mapping the Korean noun vocabulary to the English noun vocabulary for each pair of English sentences and Korean sentences constituting the English-Korean parallel corpus.
의미 벡터라 함은 N-차원으로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내며, 이러한 정보는 영한 병렬 코퍼스로부터 추출된다. 의미 벡터의 차원은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.A semantic vector is composed of N-dimensions, the elements of which represent the weighted values of each English noun and the lexical vocabulary, and this information is extracted from the English-Korean parallel corpus. The dimension of the semantic vector is defined as the number of vocabulary having a high relationship with the English noun vocabulary based on mutual information (MI).
이하, 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
본 발명에 따른 영어 명사 및 동사의 한국어 대역어 선택에 대한 각각의 실시 예를 설명하기 전에, 동사구 패턴 및 의미 코드에 대한 설명을 우선한다.Before describing each embodiment of the Korean nouns of English nouns and verbs according to the present invention, descriptions of verb phrase patterns and semantic codes are given priority.
동사구 패턴은 아래의 예 1과 같이 크게 원문부와 대역부로 구성되어 있다The verb phrase pattern is composed of the original part and the band part as shown in Example 1 below.
[예 1] 영어 동사 'abandon'의 동사구 패턴 예[Example 1] Example of verb phrase pattern in English verb abandon
S=(person#1) abandon O=(idea#1) => S!가 O!를 포기하!다.S = (person # 1) abandon O = (idea # 1) => S! Gives up O!
위의 예 1은 영어 동사 'abandon'의 동사구 패턴 중 하나를 나타낸다. 위의 동사구 패턴에서 원문부는 "S=(person#1) abandon O=(idea#1)"이며, 대역부는 "S!가 O!를 포기하!다."이다. 원문부에서 S 및 O와 같은 심볼은 논항을 나타내며, S는 주어, O는 목적어를 나타낸다. 또한 person#1과 idea#1은 논항 자리에 가능한 의미코드를 나타낸다. 미리 설명을 하자면, 'abandon'이 본동사로 사용된 문장에 대해서 위의 예 1에 해당하는 동사구 패턴이 적용되기 위해서는 문장의 주어 및 목적어에 해당하는 의미코드가 동사구 패턴에 기재되어 있는 의미코드와 매칭되어야 한 다. 동사구 패턴이 매칭될 경우, 그 동사 대역어는 해당 동사구 패턴의 대역부를 통하여 결정되며, 논항에서 매칭된 명사의 경우, 해당 의미코드가 결정된다.Example 1 above shows one of the verb phrase patterns of the English verb 'abandon'. In the above verb phrase pattern, the original part is "S = (person # 1) abandon O = (idea # 1)", and the band part is "S! Gives up O!". In the text, symbols such as S and O represent arguments, S is given, and O is the object. Person # 1 and idea # 1 also represent possible semantic codes in place of arguments. To explain in advance, in order to apply the verb phrase pattern corresponding to Example 1 to a sentence using 'abandon' as the main verb, the semantic code corresponding to the subject and object of the sentence matches the semantic code described in the verb phrase pattern. Should be. When the verb phrase pattern is matched, the verb band word is determined through the band portion of the verb phrase pattern, and in the case of a matching noun in the argument, the corresponding semantic code is determined.
다음은 본 발명에서 사용하는 영한 전자 사전의 각 엔트리에 대한 의미 자질을 설명한다. 영한 전자 사전의 경우, 의미 코드 자질로서 'SEM'이라는 자질을 두었고, 그 자질값은 WordNet1.71의 의미체계를 따르는 1,163개의 의미 코드중 하나가 할당된다. 그리고, 의미 코드에 따라서 그 대역어를 분류하는 방법을 개시하고자 한다. The following describes semantic features for each entry of the English-Korean dictionary used in the present invention. In the case of the English-Korean dictionary, the semantic code feature is named 'SEM', which is assigned one of 1,163 semantic codes that follow the semantics of WordNet1.71. Then, a method of classifying the band word according to a semantic code is disclosed.
일반적으로, 영어 어휘는 두 개 이상의 한국어로 번역될 수 있는 다의어(polysemous word)가 많다. 표 1은 대표적인 영어 명사의 예를 보인 것이다.In general, English vocabulary has many polysemous words that can be translated into two or more Korean words. Table 1 shows examples of representative English nouns.
표 1은 영어 어휘 goal/NOUN에 대한 의미코드에 따른 대역어 분류 예를 나타낸다. 표 1에서 영어 어휘 goal/NOUN은 4개의 의미코드 goal#1, equipment#1, accomplishment#1 그리고 extremity#4를 지니며, 각각의 의미코드에 해당하는 한국어 대역어들을 각각 표 1에서와 같이 분류된다.Table 1 shows examples of bandword classification according to semantic codes for English vocabulary goal / NOUN. In Table 1, the English vocabulary goal / NOUN has four semantic codes: goal # 1, equipment # 1, accomplishment # 1, and extremity # 4, and Korean Korean words corresponding to each semantic code are classified as shown in Table 1, respectively. .
도 1a는 영한 동사 대역어 선택을 위한 동사구 패턴 구축을 위한 흐름도이고 , 도 1b는 본 발명에 적용되는 영어-한국어 동사구 패턴의 형식의 일 예를 보여주는 도면이다. 이는 본 발명이 적용되는 영한 동사 대역어 선택을 위한 지식인 동사구 패턴에 관한 것을 보여준다. 도 1a를 참조하면, 동사구 패턴 프로세스는 먼저 동사를 중심으로 해당 동사가 취하는 논항 정보를 추출한다(S101). 다음으로 추출된 논항 정보에 대한 의미코드를 부여하고(S102), 영어 동사구 패턴에 대한 한국어 대역 패턴을 구축한다(S103). 영어-한국어 동사구 패턴의 형식도 또한 도 1b에 설명되어 있다. FIG. 1A is a flowchart for constructing a verb phrase pattern for selecting a Korean-English verb band word, and FIG. 1B is a diagram illustrating an example of a format of an English-Korean verb phrase pattern applied to the present invention. This shows a verb phrase pattern that is knowledge for selecting English-Korean verb band words to which the present invention is applied. Referring to FIG. 1A, the verb phrase pattern process first extracts argument information taken by a verb based on the verb (S101). Next, a semantic code is assigned to the extracted argument information (S102), and a Korean band pattern is constructed for the English verb phrase pattern (S103). The format of the English-Korean verb phrase pattern is also described in FIG. 1B.
도 2는 본 발명이 적용되는 의미 벡터를 이용한 영한 대역어 선택 장치에서 대역어 선택을 위한 지식인 의미 벡터와 한국어 국소 문맥 정보의 구축 방법에 관한 일 실시예를 보인 도면이다. 이하 설명의 편의를 위하여 장치의 구성 설명과 방법의 흐름 설명을 연관지어 함께 서술하도록 한다.FIG. 2 is a diagram illustrating an embodiment of a method of constructing a semantic vector and Korean local context information, which are knowledge for band word selection, in an apparatus for selecting a Korean-English band word using a semantic vector to which the present invention is applied. For convenience of description, the description of the configuration of the device and the flow description of the method will be described together.
도 2를 참조하면, 본 발명은 병렬 코퍼스(미도시)의 영어 문장과 한국어 문장 각각에 대하여, 영어 형태소 분석기, 영어 태거, 한국어 형태소 분석기, 한국어 태거를 사용하여 형태소 분석/태깅 작업이 수행된다(S201).Referring to FIG. 2, in the present invention, a morpheme analysis / tagging operation is performed using an English morpheme analyzer, an English tagger, a Korean morpheme analyzer, and a Korean tagger for each English sentence and a Korean sentence of a parallel corpus (not shown) ( S201).
이렇게 태깅된 병렬 코퍼스의 각 문장에 대해서 영한 전자사전의 정보를 사용하여 명사 정렬이 이루어진다(S203).The nouns are sorted using information of the English-Korean electronic dictionary for each sentence of the tagged parallel corpus (S203).
본 발명은 영한 전자사전을 참조하여, 각 대역어가 어떤 의미 코드를 가지는지 알 수 있으며, 이러한 정보를 사용하여 의미 벡터를 구축하고(S204), 한국어 국소 문맥 정보를 구축(S205)하여 구축된 각각의 정보를 의미 벡터 데이터베이스(이하 "DB"라고 한다)(310)와 한국어 국소 문맥 정보 DB(306)에 저장한다.The present invention refers to the English-Korean electronic dictionary, and it is possible to know what semantic codes each band word has, and by using this information, a semantic vector is constructed (S204) and Korean local context information is constructed (S205). Information is stored in the semantic vector database (hereinafter referred to as "DB") 310 and the Korean local
의미 벡터는 N-차원의 벡터로 구성되며, 그 구성요소는 각 영어 명사와 공기하는 어휘들의 가중치값을 나타내고, 이러한 정보는 병렬 코퍼스로부터 추출된다. 이때, 공기 정보로서 허용되는 품사는 형용사와 명사로 한정한다. 그 이유는 전치사와 같은 기능어류의 어휘들은 의미를 결정하는데 변별력을 갖고 있지 않기 때문이다. 의미 벡터의 차원 N은 상호 정보(MI: Mutual Information)에 근거하여 영어 명사 어휘와 높은 관계를 가지는 어휘들의 개수로서 정의된다.The semantic vector is composed of N-dimensional vectors whose components represent the weights of each English noun and the lexical vocabulary, and this information is extracted from the parallel corpus. At this time, the parts of speech permitted as the air information are limited to adjectives and nouns. The reason is that the vocabulary of functional fish, such as prepositions, has no discernment in determining meaning. The dimension N of the semantic vector is defined as the number of vocabulary having a high relationship with the English noun vocabulary based on mutual information (MI).
다음의 수학식 1은 상호 정보를, 수학식 2는 의미벡터 SV를, 그리고 수학식 3은 그 구성요소들을 나타낸다.Equation 1 below represents mutual information, Equation 2 indicates a semantic vector SV, and Equation 3 indicates its components.
(여기서, si는 임의의 의미) Where si is arbitrary
수학식 1은 상호 정보(MI)에 대한 공식을 나타내며, 수학식 2는 의미 벡터와 그 구성요소를 나타낸다. 수학식 2에서 각 구성요소에 대한 가중치값은 수학식 3과 같다. 즉, 의미 벡터의 각 구성요소는 공기 어휘에 대한 의미의 조건부 확률값을 나타내며, 그 값은 0과 1사이의 값을 가지며, 1에 가까울수록 해당 공기 어휘(co-occurring word)가 영어 명사 어휘의 특정 의미 결정에 매우 강력한 단서가 된다는 것을 나타낸다. 이러한 의미 벡터는 각 영어 명사 어휘에 대해 서로 다른 의미 코 드의 개수만큼 만들어진다. 예를 들어, 표 1에 제시된 'race/NOUN'의 경우, 2개의 의미 벡터가 만들어진다.Equation 1 represents a formula for mutual information MI, and Equation 2 represents a semantic vector and its components. In Equation 2, a weight value for each component is shown in Equation 3. That is, each component of the semantic vector represents a conditional probability value of the meaning for the air vocabulary, and the value has a value between 0 and 1, and the closer to 1, the co-occurring word is the English noun vocabulary. This is a very powerful clue for determining a particular meaning. These semantic vectors are made up of different semantic codes for each English noun vocabulary. For example, for 'race / NOUN' shown in Table 1, two semantic vectors are created.
한국어 국소 문맥 정보는 표 1과 같이 동일한 의미코드를 갖는 한국어 대역어의 개수가 2개 이상일 경우, 그 중 최적의 대역어를 선택하기 위하여 사용된다. 도 1a 내지 도 1b에서 보이는 바와 같이, 한국어 국소 문맥 정보는 병렬 코퍼스의 한국어 파트만을 사용하여 구축되며, 형용사, 명사에 한정하여 상호 공기하는 빈도 정보를 나타낸다.The Korean local context information is used to select an optimal band word when there are two or more Korean band words having the same semantic code as shown in Table 1. As shown in Figs. 1A to 1B, Korean local context information is constructed using only Korean parts of a parallel corpus, and represents frequency information of mutual airing only for adjectives and nouns.
도 3은 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치의 구성을 보여주는 블럭도이고, 도 4는 본 발명에 의한 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법의 과정을 보여주는 흐름도이다. 먼저 위에서 설명한 것처럼 동사구 패턴 DB(303)와 의미벡터 DB(310), 그리고 한국어 국소 문맥 DB(306)을 구축한다(S401). 이제 입력된 문장은 우선 단문 분할부(301)에 의해 단문으로 분할된다. 동사구 패턴 적용부(302)는 분할된 단문을 입력받아 각 단문의 동사에 중심으로 동사구 패턴 DB(303)를 검색하여 해당 단문을 커버하는 동사구 패턴이 존재하는지 검색하여 동사구 패턴 적용을 시도하게 된다(S402). Figure 3 is a block diagram showing the configuration of a verb / noun band word selection apparatus using a verb phrase pattern and a semantic vector according to the present invention, Figure 4 is a verb / noun band word selection method using a verb phrase pattern and a semantic vector according to the present invention Is a flow chart showing the process. First, as described above, the verb
즉 매칭되는 동사구 패턴이 존재하는지를 판단하여(S403) 존재할 경우, 동사대역어 결정부(304)는 매칭된 동사구 패턴에 의해 동사 대역어를 결정하고, 또한 해당 동사의 논항에 위치한 명사의 의미코드를 결정한다(S404). 명사의 의미코드가 결정된 후, 해당 명사가 결정된 의미코드에 속하는 2개 이상의 한국어 대역어를 가 지는지 판단하여(S405), 2개 이상의 한국어 대역어가 존재하면 명사대역어 선택부(305)는, 한국어 국소 문맥 DB(306)를 참조하여 입력 문장의 문맥에 가장 적합한 한국어 대역어를 선택하게 된다(S411).In other words, if there is a matching verb phrase pattern (S403), the verb band
다른 경우로서 즉 매칭되는 동사구 패턴이 검색되지 않는 경우로서 동사의 논항이 명사구이거나 동사 혹은 명사인지를 판단하여(S406) 상이한 과정을 거치는데 이하 설명한다.As another case, that is, when a matching verb phrase pattern is not searched, it is determined below whether the argument of the verb is a noun phrase, a verb or a noun (S406), and goes through a different process.
먼저, 동사의 논항이 명사구로 구성되어 헤드 명사 이외의 헤드가 아닌 명사에 대한 의미코드를 결정하기 위해서는 영어 공기 어휘를 사용하여 의미 코드를 결정하게 되는데, 아래에서 상세히 살펴 본다. 즉, 본 발명의 테스트 벡터 구성부(307)는 입력된 문장으로부터 변환 단계에서 대역어 선택 모호성을 가지는 어휘에 대해 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다(S408).First, the arguments of verbs are made up of noun phrases to determine the semantic codes for non-head nouns other than head nouns, and the semantic codes are determined using English air vocabulary. That is, the test
벡터간 유사도 계산부(308)는 상기 테스트 벡터 구성부(307)에서 구해진 테스트 벡터와 이미 구축된 의미 벡터와의 유사도를 계산(S409)하여 명사 의미 코드 결정부(309)에서 명사의 의미코드를 결정한다(S410). 의미코드가 결정된 후, 이미 상기에서 서술한 바와 같이 만약 해당 명사가 결정된 의미코드에 속하는 2개 이상의 대역어를 가질 경우에는 명사 대역어 선택부(305)가 한국어 국소 문맥 DB(306)를 사용하여 최종적인 한국어 대역어를 선택한다(S411).The similarity calculation vector between the
마지막으로 동사구 패턴이 적용되지 않을 경우에는 동사의 경우 디폴트 동사구 패턴 적용부(311)는 디폴트 동사구 패턴을 사용하여 기본적인 동사 대역어를 선택하며(S407), 명사의 경우, 공기 정보를 사용한 의미 벡터와의 유사도 계산(S409) 에 의해 그 의미코드가 결정되고(S410), 명사 대역어 선택부(305)에 의해 최종적인 대역어가 선택된다.Finally, when the verb phrase pattern is not applied, in case of the verb, the default verb phrase
위에서 설명한 의미 벡터와 한국어 국소 문맥 정보를 사용하여 해당 영어 어휘의 대역어를 선택하는 방법을 보다 상세하게 설명하면 다음과 같다.A method of selecting a band word of the corresponding English vocabulary using the semantic vector and the Korean local context information described above will be described in detail as follows.
도면을 참조하면, 테스트 벡터 구성부(307)로 입력문이 들어오면, 변환 단계에서는 대역어 선택 모호성을 가지는 어휘에 대해 상기 테스트 벡터 구성부(307)에서는 해당 어휘의 의미 벡터와 동일한 차원의 테스트 벡터를 만든다. 테스트 벡터의 각 구성요소는 0 또는 1의 값을 가지며, 입력 문장에 포함된 각각의 영어 명사 어휘에 대한 공기 어휘가 해당 영어 명사 어휘의 의미 벡터의 구성 요소일 경우에는 1을 지니며, 그렇지 않을 경우에는 0을 지닌다. 예를 들어, 'bank/NOUN'의 의미 벡터가 (w(rain), w(commercial), w(money))라고 가정하고, 입력 문장이 "Rain broke the bank"라고 하면 (1, 0, 0)의 테스트 벡터가 생성된다.Referring to the drawing, when an input statement is input to the test
입력 문장으로부터 얻어진 테스트 벡터와 기 구축된 의미 벡터와의 유사도는 코사인 메저(cosine measure)를 사용하며, 벡터간 유사도 계산부(308)에서는 다음의 수학식 4에 의해 두 벡터 간의 유사도(similarity;si)를 계산한다.The similarity between the test vector obtained from the input sentence and the previously constructed semantic vector uses a cosine measure, and the
본 발명은 상기에서 설명한 바와 같이 대역어 선택 모호성을 지니는 영어 명사 어휘에 대해서 명사 의미코드 결정부(304)에서 의미 코드가 결정되고(S410), 마지막으로, 결정된 어휘의 의미 코드를 갖는 한국어 대역어가 2개 이상일 경우에는 명사 대역어 선택부(305)에서는 한국어 국소 문맥 정보 DB(306)에 저장된 정보를 사용하여 인접하는 명사나 또는 형용사와 의미상 가장 근접한 대역어를 확률적으로 계산하여 최적의 대역어를 결정한다.As described above, the semantic code is determined by the noun semantic
다음의 예 2는 영어 명사 'change/NOUN'가 한국어로 번역되는 다양한 경우를 보인 것이다.Example 2 shows various cases in which the English noun 'change / NOUN' is translated into Korean.
[예 2][Example 2]
interest rate changes (이자율 변동)interest rate changes (interest rate)
changes in your cells (세포의 변화) changes in your cells (changes in the cell)
requests for services changes (서비스 변경 요청)requests for services changes (Service Change Request)
본 발명은 상기 예 2에서 알 수 있듯이 영어 명사 'change/NOUN'의 대역어 '변동', '변화', '변경'은 단순히 영어 어휘 'change/NOUN'의 의미 결정만으로는 결정될 수 없다. 왜냐하면, 'change/NOUN'의 대역어 '변동', '변화', '변경'은 동일한 의미 코드를 가지며, 이러한 미묘한 한국어 대역어 선택은 한국어 국소 문맥 정보를 고려하여야만 가장 자연스러운 대역어를 선택할 수 있다.As can be seen in Example 2, the band words 'change', 'change' and 'change' of the English noun 'change / NOUN' cannot be determined simply by determining the meaning of the English vocabulary 'change / NOUN'. This is because the band words 'change', 'change', and 'change' of 'change / NOUN' have the same semantic code, and such subtle Korean bandword selection can only select the most natural bandword by considering Korean local context information.
앞에서 상술했듯이, 대역어 선택에 대한 미묘한 차이의 해소는 병렬 코퍼스의 한국어 파트로부터 구축된 한국어 국소 문맥 정보에 의존한다. 한국어 국소 문맥 정보는 형용사, 명사로 구성된 공기 빈도로 구성되며, 영한 자동번역 시스템의 생성부로 넘어온 한국어 어휘들의 시퀀스에 대한 확률값을 구함으로써, 최적의 한국어 대역어를 선택한다.As mentioned above, resolving subtle differences in bandword selection relies on Korean local context information built from the Korean part of the parallel corpus. The Korean local context information is composed of air frequencies consisting of adjectives and nouns, and the optimal Korean band words are selected by obtaining probability values for sequences of Korean vocabularies passed to the generation part of the English-Korean automatic translation system.
본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The verb / noun band word selection method using a verb phrase pattern and a semantic vector for the English-Korean automatic translation according to the present invention can also be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disk, optical data storage, and the like, which are also implemented in the form of a carrier wave (for example, transmission over the Internet). It also includes. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하는 것이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the technical field to which the present invention pertains without departing from the technical spirit of the present invention. It will be clear to those of ordinary knowledge.
이상에서 설명한 바와 같이 본 발명에 의한 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법에 의하면 영한 병렬 코퍼스와 영어 모노링궐 코퍼스로부터 구축된 동사구 패턴을 문장을 구성하는 각각의 단문에 적용함으로써 동사와 명사의 대역어를 함께 얻으며, 동사구 패턴이 적용되지 않거나, 동사구 패턴 적용시 명사구의 헤드 어휘가 아니기 때문에 동사구 패턴에 의해 그 의미가 결정되지 않는 명사에 대해서는 영한 병렬 코퍼스에 대한 어휘 정렬 과정에 의해 얻어진 의미 벡터를 이용하여 영어 어휘에 대한 의미를 결정한다. 이러한 방법으로 명사의 의미가 결정된 후, 사전에서 해당 영어 어휘의 대역어들 중, 기 구축된 한국어 국소 문맥 정보를 이용하여 문맥에 가장 자연스러운 한국어 대역어를 선택할 수 있게 된다. 또한 동사구 패턴에 의해 동사와 헤드 명사에 대한 대역어를 선택하고, 공기 정보에 의해 헤드 명사가 아닌 기타 명사에 대한 대역어 선택도 가능하다.As described above, according to the present invention, a verb / noun band word selection device using a verb phrase pattern and a semantic vector and a method for constructing an English-Korean automatic translation according to the present invention constitute a sentence composed of a verb phrase pattern constructed from an English-Korean parallel corpus and an English monolinge corpus. The verbs and verbs of verbs and nouns are obtained by applying to each short sentence, and the parallel corpus of nouns whose meaning is not determined by the verb phrase pattern is not applied because the verb phrase pattern is not applied or the head vocabulary of the noun phrase is not applied when the verb phrase pattern is applied. The meaning of the English vocabulary is determined using the semantic vector obtained by the vocabulary sorting process. After the meaning of the noun is determined in this way, among the band words of the corresponding English vocabulary, it is possible to select a Korean band word most natural to the context using the existing Korean local context information. It is also possible to select bandwords for verbs and head nouns by verb phrase patterns, and bandwords for other nouns other than head nouns by air information.
Claims (15)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020040105412 | 2004-12-14 | ||
KR20040105412 | 2004-12-14 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20060067073A KR20060067073A (en) | 2006-06-19 |
KR100617319B1 true KR100617319B1 (en) | 2006-08-30 |
Family
ID=37161694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050018746A KR100617319B1 (en) | 2004-12-14 | 2005-03-07 | Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100617319B1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100858035B1 (en) * | 2007-03-13 | 2008-09-10 | 서승현 | Method for structuring multi-dimensional analysis dictionary for analyzing morpheme and apparatus of structuring the analysis dictionary |
KR100956794B1 (en) | 2008-08-28 | 2010-05-11 | 한국전자통신연구원 | Translation apparatus by using multi-level verb pattern, and application and extraction method thereof |
KR101061391B1 (en) * | 2008-11-14 | 2011-09-01 | 한국과학기술정보연구원 | Relationship Extraction System between Technical Terms in Large-capacity Literature Information Using Verb-based Patterns |
KR101356417B1 (en) * | 2010-11-05 | 2014-01-28 | 고려대학교 산학협력단 | Apparatus and method for contructing verbal phrase translation pattern using bilingual paraelle corpus |
-
2005
- 2005-03-07 KR KR1020050018746A patent/KR100617319B1/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR20060067073A (en) | 2006-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10552533B2 (en) | Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces | |
US8442812B2 (en) | Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface | |
KR100453227B1 (en) | Similar sentence retrieval method for translation aid | |
EP0830668B1 (en) | Systems and methods for word recognition | |
US5418717A (en) | Multiple score language processing system | |
JPH06314294A (en) | Method and device for mechanical translation | |
CN114580382A (en) | Text error correction method and device | |
US7475005B2 (en) | Translation system, dictionary updating server, translation method, and program and recording medium for use therein | |
JP2020190970A (en) | Document processing device, method therefor, and program | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
KR20040101678A (en) | Apparatus and method for analyzing compounded morpheme | |
KR100617319B1 (en) | Apparatus for selecting target word for noun/verb using verb patterns and sense vectors for English-Korean machine translation and method thereof | |
KR100559472B1 (en) | System for Target word selection using sense vectors and Korean local context information for English-Korean Machine Translation and thereof | |
Smadja et al. | Translating collocations for use in bilingual lexicons | |
Khoo et al. | Using statistical and contextual information to identify two‐and three‐character words in Chinese text | |
JP2004070636A (en) | Concept searching device | |
KR100327115B1 (en) | Device and method for generating translated sentences based on partial translation patterns | |
JP2005202924A (en) | Translation determination system, method, and program | |
JP3825645B2 (en) | Expression conversion method and expression conversion apparatus | |
KR20020054254A (en) | Analysis Method for Korean Morphology using AVL+Trie Structure | |
KR100420474B1 (en) | Apparatus and method of long sentence translation using partial sentence frame | |
JP4059501B2 (en) | Natural language dictionary update device | |
JP2000250914A (en) | Machine translation method and device and recording medium recording machine translation program | |
JP2000222432A (en) | Document retrieval device, document retrieval method and recording medium recording document retrieval program | |
JPH1011450A (en) | Concept attribute value dictionary and natural language processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120730 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20130729 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |