KR100831037B1 - Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus - Google Patents

Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus Download PDF

Info

Publication number
KR100831037B1
KR100831037B1 KR1020060096341A KR20060096341A KR100831037B1 KR 100831037 B1 KR100831037 B1 KR 100831037B1 KR 1020060096341 A KR1020060096341 A KR 1020060096341A KR 20060096341 A KR20060096341 A KR 20060096341A KR 100831037 B1 KR100831037 B1 KR 100831037B1
Authority
KR
South Korea
Prior art keywords
word
band
sentence
words
registered
Prior art date
Application number
KR1020060096341A
Other languages
Korean (ko)
Other versions
KR20080029567A (en
Inventor
양성일
박상규
홍문표
김영길
서영애
김창현
최승권
이기영
권오욱
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060096341A priority Critical patent/KR100831037B1/en
Publication of KR20080029567A publication Critical patent/KR20080029567A/en
Application granted granted Critical
Publication of KR100831037B1 publication Critical patent/KR100831037B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Abstract

본 발명은 기계번역에 이용되는 대역어 자동 선정 방법 및 장치에 관한 것으로서, 구체적으로는 병렬 말뭉치(Bilingual Corpus)를 이용하여 기존의 대역어 사전에 등록되어 있지 않은 신조어(미등록어)에 대한 대역어를 자동으로 선정할 수 있는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for automatically selecting a band word used for machine translation. Specifically, a parallel word is automatically used for a new word (unregistered word) that is not registered in an existing band word dictionary using a parallel language corpus. It relates to a method and apparatus that can be selected.

본 발명은 원시언어 문장 및 이에 대응하는 목표언어 대역문으로 이루어진 병렬 말뭉치를 이용하여 대역어를 자동 선정하는 방법을 제공한다. 상기 방법은, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 상기 문장에 포함된 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 단계와, 상기 원시언어 문장의 단어들중 대역어 사전에 존재하지 않는 미등록어를 추출하는 단계와, 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별하는 단계와, 상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 단계를 포함한다. The present invention provides a method for automatically selecting a band language using a parallel corpus consisting of a primitive language sentence and a target language band sentence corresponding thereto. The method may include: analyzing the part-of-speech information of words included in the sentence and determining a grammatical relationship between the words by performing a morphological analysis and a structure analysis on the source language sentence, and a word of the source language sentence. Extracting a non-registered word that does not exist in the bandword dictionary, selecting a peripheral word having a grammatical relationship with the extracted non-registered word from the source language sentence, and corresponding to the peripheral word in the target language band sentence And selecting the remaining words after removing the bandword, as the bandword of the non-registered word.

기계번역, 병렬 말뭉치(bilingual corpus), 대역어 Machine translation, bilingual corpus, bandword

Description

병렬 말뭉치를 이용한 신조어의 대역어 자동 선정 방법 및 장치{Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus}Method and apparatus for automatically selecting a band word using parallel corpus {Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus}

도 1 은 본 발명의 바람직한 실시예에 따른 병렬 말뭉치를 이용한 대역어 자동 선정 과정을 도시한 흐름도.1 is a flowchart illustrating a process for automatically selecting a band word using a parallel corpus according to a preferred embodiment of the present invention.

도 2 는 본 발명에 따라 미등록어의 대역어가 선정되는 과정의 일예.2 is an example of a process of selecting a band word of an unregistered word according to the present invention.

도 3 은 본 발명의 바람직한 실시예에 따른 대역어 자동 선정 장치의 구성을 도시한 도면.3 is a diagram illustrating a configuration of an apparatus for automatically selecting a band word according to a preferred embodiment of the present invention.

본 발명은 기계번역에 이용되는 대역어 자동 선정 방법 및 장치에 관한 것으로서, 구체적으로는 병렬 말뭉치(Bilingual Corpus)를 이용하여 기존의 대역어 사전에 등록되어 있지 않은 신조어(미등록어)에 대한 대역어를 자동으로 선정할 수 있는 방법 및 장치에 관한 것이다. The present invention relates to a method and apparatus for automatically selecting a band word used for machine translation. Specifically, a parallel word is automatically used for a new word (unregistered word) that is not registered in an existing band word dictionary using a parallel language corpus. It relates to a method and apparatus that can be selected.

통상적으로, 기계 번역은 원시 언어 표제어와 그에 대응하는 대역어 정보가 등록된 대역어 사전을 이용하여 입력 문장의 단어들에 대한 대응 대역어들을 조합 함으로써 번역문을 생성하는 방식으로 수행된다. 입력 문장에 대역어 사전에 없는 단어가 존재하는 경우에, 대역어 추정에 실패하게 되고, 대상 단어는 인명, 지명과 같은 고유명사로 취급되어 발음표기(Romanize)와 같은 대역어 생성 방식을 사용하였다. Typically, machine translation is performed in such a way as to generate a translation by combining corresponding band words for words in the input sentence using a band word dictionary in which the source language headword and the corresponding band word information are registered. When there is a word that does not exist in the bandword dictionary in the input sentence, the bandword estimation fails, and the target word is treated as a proper noun such as a human name and a place name, and a bandword generation method such as a romanization is used.

방송 뉴스와 같은 문장의 경우에 시사적인 특성에 의해 새롭게 탄생되는 신조어가 매우 빈번히 발생하여 기존 대역어 사전에만 의존할 수 없는 실정이다. 방송 뉴스와 같이 신조어의 사용이 빈번한 문서를 대상으로 기계번역을 하고자 하는 경우에, 한번 발생된 신조어는 그 이후 빈발하게 반복적으로 사용되어 대역어 사전에 등록되어 있지 않은 경우 기계번역의 성능을 떨어뜨리는 주된 요인이 되고 있다. 이러한 신조어들에 대한 대역어 정보의 구축 필요성이 제기되지만, 지속적으로 수작업에 의한 구축 작업을 수행하는 경우에 많은 시간과 비용이 든다는 문제점이 있다.In the case of sentences such as broadcast news, new words that are newly born due to current characteristics occur very frequently, and thus cannot rely only on existing bandword dictionaries. When a machine translation is intended for a document that frequently uses a new word such as broadcast news, a new word that has been generated once is frequently used repeatedly since it is a major factor that degrades the performance of the machine translation if it is not registered in the dictionary. It is a factor. Although the necessity of constructing the bandword information for these new words is raised, there is a problem that it takes a lot of time and cost when the construction work by hand continuously.

본 발명은 전술한 문제점을 해결하기 위하여 제안된 것으로서, 병렬 말뭉치를 이용한 효율적인 대역어 선정 방법 및 장치를 제공하는 것을 목적으로 한다.The present invention has been proposed to solve the above problems, and an object of the present invention is to provide an efficient method and apparatus for selecting a band word using a parallel corpus.

전술한 목적 달성을 위해, 본 발명의 일특징에 따르면, 원시언어 문장 및 이에 대응하는 목표언어 대역문으로 이루어진 병렬 말뭉치를 이용하여 대역어를 자동 선정하는 방법이 제공되며, 상기 방법은, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 상기 문장에 포함된 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 단계와, 상기 원시언어 문장의 단어들중 대역어 사전에 존재하지 않는 미등록어를 추출하는 단계와, 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별하는 단계와,상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 단계를 포함한다.In order to achieve the above object, according to an aspect of the present invention, there is provided a method for automatically selecting a band word using a parallel corpus composed of a source language sentence and a target language band sentence corresponding thereto, and the method includes: Analyzing the part-of-speech information of the words included in the sentence and determining the grammatical relationship between the words by performing morphological analysis and structure analysis on the sentence; Extracting non-registered words that are not registered, selecting neighboring words having a grammatical relationship to the extracted non-registered words from the source language sentence, and removing the remaining words after removing the band words corresponding to the surrounding words from the target language band sentence. And selecting a band word of the non-registered word.

바람직하게, 상기 방법은 상기 미등록어 및 상기 선정된 대역어를 상기 대역어 사전에 새로운 엔트리로 등록하는 단계를 더 포함한다.Advantageously, the method further comprises registering said unregistered word and said predetermined band word as a new entry in said band word dictionary.

본 발명의 다른 특징에 따르면, 원시언어 문장 및 이에 대응하는 목표언어 대역문으로 이루어진 병렬 말뭉치를 이용한 대역어 자동 선정 장치가 제공되고, 상기 장치는, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 상기 원시언어 문장의 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 형태소/구조 분석 수단과, 상기 원시언어 문장의 단어들중 상기 대역어 사전에 존재하지 않는 미등록어를 추출하기 위한 미등록어 추출 수단과, 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별하기 위한 주변단어 선별 수단과, 상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 대역어 선정 수단과, 상기 선정된 대역어를 사전 구축자에게 표시하는 대역어 표시수단을 포함한다.According to another aspect of the present invention, there is provided a device for automatically selecting a band word using a parallel corpus consisting of a source language sentence and a target language band sentence corresponding thereto, wherein the device performs morphological analysis and structure analysis on the source language sentence. Morpheme / structure analysis means for analyzing parts of speech information about words in the source language sentence and determining grammatical relationships between the words, and extracting unregistered words that do not exist in the bandword dictionary among the words in the source language sentence A non-registered word extracting means for extracting, a peripheral word selecting means for selecting a peripheral word having a grammatical relationship with the extracted non-registered word from the source language sentence, and removing a band word corresponding to the peripheral word from the target language band sentence; Band word selecting means for selecting the remaining words as the band words of the unregistered words , Translated words comprises a display means for displaying the selection of the translated words to the dictionary builder.

방송 뉴스 등을 통해 전달되는 내용은 인터넷이나 기타 다른 매체를 통해 동일 뉴스의 번역문이 신속하게 제공되는 경우가 많다. 원시언어 뉴스 기사와 이에 대응하는 목적언어 번역문 기사는 공지된 문장정렬용 소프트웨어를 이용함으로써 쉽게 병렬 말뭉치로 변환 가능하다. 병렬 말뭉치라 함은 동일한 내용으로 원시언어 문장과 이에 대응하는 목표언어 문장으로 이루어진 텍스트 문서의 모음을 의미한다. 본 발명은 이러한 병렬 말뭉치를 이용함으로써 원시언어 문장에 포함된 신조어의 대역어 정보를 상기 원시언어 문장에 대응하는 목표언어 문장으로부터 자동 추출할 수 있다는 점에 착안한다. In the case of contents delivered through broadcast news, translations of the same news are frequently provided through the Internet or other media. Source language news articles and corresponding target language translation articles can be easily converted into parallel corpus by using known sentence sorting software. Parallel corpus refers to a collection of text documents consisting of source language sentences and corresponding target language sentences with the same content. The present invention focuses on the fact that by using such a parallel corpus, bandword information of a coined word included in a source language sentence can be automatically extracted from a target language sentence corresponding to the source language sentence.

본 발명의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시 예를 상세히 설명한다.The above objects, features and advantages of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings. Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명의 바람직한 실시예에 따른 병렬 말뭉치를 이용한 대역어 자동 선정 과정의 일실시예를 도시한 흐름도이다. 상기 도 1에 도시된 실시예는 한영 병렬 말뭉치를 이용하여 한국어 신조어에 대한 영어 대역어를 자동 선정하는 과정을 설명한 것이나, 본 발명은 반드시 이에 국한되는 것이 아님을 이해할 수 있을 것이다.1 is a flowchart illustrating an embodiment of a band word automatic selection process using a parallel corpus according to a preferred embodiment of the present invention. 1 illustrates a process of automatically selecting English band words for Korean new words using a Korean-English parallel corpus, but it will be understood that the present invention is not limited thereto.

먼저, 단계(110)에서, 한영 병렬 말뭉치에 포함된 한국어 문장에 대한 형태소 및 구조 분석을 수행하여 상기 한국어 문장에 포함된 단어들에 대한 품사 정보를 분석하고 단어들간의 문법적 관계를 판단한다. 한영 병렬 말뭉치는 한국어 문장과 이에 대응하는 영어 문장이 문장 단위로 정렬된 텍스트 문서이다. 형태소 사전을 이용하여 텍스트 형태로 입력되는 한국어 문장(예, 방송 뉴스 문장)에 대한 형태소 분석을 수행함으로써 문장의 단어들에 대한 품사 정보를 파악한다. 다음, 이러한 형태소 분석 결과에 대하여 구조 분석 사전을 이용하여 구조 분석을 수행함으로써 문장내 용언과 체언간의 문법적 관계를 얻을 수 있다. 형태소 분석 과정에서 형태소 사전에 없는 단어는 미등록어로 판단될 것이다. 상기 단계(110)에서 이용되는 형태소 사전 및 구조 분석 사전은 본 발명의 기술분야에 공지되어 있는 것들로서 본 발명에서 새로이 고안한 것들이 아니므로 이들에 대한 상세한 설명은 생략한다.First, in step 110, morphological and structural analysis of Korean sentences included in the Han-Young parallel corpus is performed to analyze parts of speech information on words included in the Korean sentence and to determine grammatical relationships between words. The Korean-English parallel corpus is a text document in which Korean sentences and their corresponding English sentences are arranged in sentence units. The part-of-speech information about the words in a sentence is identified by performing a morpheme analysis on a Korean sentence (eg, a broadcast news sentence) input in a text form using a morpheme dictionary. Next, by performing structural analysis on the results of the morphological analysis by using the structural analysis dictionary, the grammatical relationship between the verb and the sentence in the sentence can be obtained. Words that are not in the morpheme dictionary during morphological analysis will be judged as unregistered words. The morpheme dictionary and the structural analysis dictionary used in the step 110 are well known in the art and are not newly devised in the present invention, and thus detailed description thereof will be omitted.

다음, 단계(120)에서, 상기 한국어 문장에 포함된 단어들중 대역어 사전에 존재하지 않는 단어를 미등록어로 추출한다. 기계번역을 수행할 한국어 문장에서 미등록어라 함은'자유 무역 협정', '나노 로봇'과 같은 형태로 단일, 혹은 복합 명사로서 이에 대응하는 대역어 정보를 대역어 사전에서 찾을 수 없는 단어를 미등록어라 한다. 대역어라 함은 '사과','포도'등과 같은 한국어 단어에 'apple', 'grape'와 같이 동일한 뜻을 나타내는 목표언어(예, 영어) 단어를 의미한다.Next, in step 120, words that do not exist in the bandword dictionary among the words included in the Korean sentence are extracted as unregistered words. Unregistered words in Korean sentences to be machine translated are unregistered words, such as 'free trade agreements' and 'nano robots,' which are single or compound nouns and whose corresponding word information cannot be found in the bandword dictionary. A band word means a target language (eg, English) word that has the same meaning as Korean words such as apple and grape, and Korean words such as apple and grape.

단계(130)에서, 상기 한국어 문장으로부터 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어(들)를 선별한다. 예를 들어, "나는 학교에 간다"라는 문장에서 동사 "가다"는 각각 "나"와 "학교"를 주어와 목적어로 관계를 갖는다. 따라서, 용언 "가다"를 중심으로 "나", "학교"와 같이 서로 동일 용언 "가다"의 격관계를 채우는 문법적 관계를 갖는 단어들이 서로 인접하고 있다. 이처럼 대상 단어에 인접한 단어들중 동일 용언을 중심으로 관계를 갖는 단어를 대상 단어에 대한 문법 관계를 갖는 "주변 단어"라 칭한다.In operation 130, neighboring word (s) having a grammatical relationship with the extracted unregistered word are selected from the Korean sentence. For example, in the sentence "I go to school", the verb "go" is related to the object by giving "I" and "school", respectively. Accordingly, words having grammatical relations that fill the relationship between the same verb "go" such as "me" and "school" are adjacent to each other around the word "go". As such, a word having a relationship based on the same term among words adjacent to the target word is referred to as a "peripheral word" having a grammatical relationship to the target word.

단계(140)에서, 상기 단계(130)에서 선별된 주변 단어에 대응하는 대역어를 상기 한국어 문장에 대응하는 영어 문장으로부터 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정한다. 주변 단어에 대응하는 대역어는 대역어 사전을 이용하여 찾는다. 영어 문장에서 주변 단어의 대역어들을 삭제한 후에 남은 단어가 있는지 판단하고, 남은 단어의 개수와 위치 정보를 참조하여 남은 단어를 미등록어의 대역어로 선정한다. In step 140, the remaining words are selected as the band words of the non-registered words after removing the band words corresponding to the peripheral words selected in step 130 from the English sentences corresponding to the Korean sentences. The band word corresponding to the surrounding word is searched using the band word dictionary. After deleting the band words of the surrounding words in the English sentence, it is determined whether there are remaining words, and the remaining words are selected as the band words of the non-registered words by referring to the number and location information of the remaining words.

선정된 대역어는 대역어 사전 구축자의 검증을 위해 화면상에 표시될 수 있다. 영어 문장에서 주변 단어의 대역어들을 삭제한 후에 남은 단어가 없다면, 대역어 선정에 실패한 것으로 간주되며, 미등록어를 사전 구축자에게 알리기 위해 화면상에 표시한다. 이에 따라, 사전 구축자는 상기 미등록어에 대한 대역어를 수동으로 입력가능하다.The selected band word may be displayed on the screen for verification of the band word dictionary builder. If there is no word remaining after deleting the band words of the surrounding words in the English sentence, it is considered that the band word selection has failed, and the unregistered words are displayed on the screen to inform the dictionary builder. Accordingly, the dictionary builder can manually input a band word for the unregistered word.

또한, 단계(150)에서, 상기 미등록어 및 이에 대응하여 선정된 대역어를 대역어 사전에 새로운 엔트리로 등록한다.In addition, in step 150, the unregistered word and the corresponding bandword selected accordingly are registered as a new entry in the bandword dictionary.

도 2 는 본 발명에 따라 미등록어의 대역어가 선정되는 과정의 일예를 도시한다. 상기 예에서 이용되는 한영 병렬 말뭉치는 "어제 자유 무역 협정에서 논의된"이라는 한국어 방송 뉴스 문장과 이에 대응하는 "...was discussed at FTA yesterday"로 이루어진다. 2 illustrates an example of a process of selecting a bandword of an unregistered word according to the present invention. The Korean-English parallel corpus used in the above example consists of a Korean broadcast news sentence "discussed in a free trade agreement yesterday" and a corresponding "... was discussed at FTA yesterday".

단계(210)에서, 한국어 문장의 형태소 및 구조 분석 결과가 산출되고 이로부터 미등록어가 추출된다. 기재된 바와 같이, "어제", "자유무역협정", "에서", " 논의된"에 붙어 있는 "/adv", "/u", "/j", "/v" 표기는 각각 부사(adverb), 미등록어(Unknown), 조사(josa), 용언(verb)을 나타내는 것으로, 형태소 분석 결과에 의해 발생된 표지이다. 형태소 분석 표지가 첨부된 형태소 분석 결과에 대해 구조 분석이 수행된다.In step 210, the result of the morpheme and structure analysis of the Korean sentence is calculated and unregistered words are extracted therefrom. As noted, the notations "/ adv", "/ u", "/ j" and "/ v" attached to "yesterday", "free trade agreement", "in" and "discussed" are each adverb. ), An unknown word, a josa, and a verb, and are marks generated by a morphological analysis result. Structural analysis is performed on the results of morphological analysis with a morphological marker.

단계(220)에서, 단계(210)의 원문 분석결과로부터 미등록어를 추출하고 상기 미등록어와 문법적 관계가 있는 주변 단어에 대한 대역어 선정이 수행된다. 이에 따라, "자유무역협정"를 대역어 사전(250)에 존재하지 않는 미등록어로 추출하며, 상기 "자유무역협정"과 문법적인 관계를 맺고 있는 주변단어 "어제", "에서", "논의된"에 대한 대역어("yesterday", "at", "was discussed")를 대역어 사전(250)을 이용하여 추출한다. In operation 220, an unregistered word is extracted from the text analysis result of step 210, and a band word is selected for a peripheral word having a grammatical relationship with the unregistered word. Accordingly, the "free trade agreement" is extracted from the non-registered words that do not exist in the bandword dictionary 250, and the peripheral words "Yesterday", "in", "discussed" having a grammatical relationship with the "free trade agreement". Bandwords ("yesterday", "at", "was discussed") for are extracted using the bandword dictionary 250.

단계(230)에서, 영어 문장에서 상기 주변 단어들의 대역어를 삭제한 후에 남은 단어 "FTA"를 "자유무역협정"에 해당하는 대역어로 설정한다.In step 230, the word "FTA" remaining after the band words of the surrounding words are deleted from the English sentence is set as a band word corresponding to the "free trade agreement".

단계(240)에서, "FTA"--> "자유무역협정"이 대역어 사전 구축자의 검증을 위해 제시될 수 잇다.In step 240, "FTA"-> "free trade agreement" may be presented for verification of the bandword dictionary builder.

도 3은 본 발명의 바람직한 실시예에 따른 대역어 자동 선정 장치의 구성을 도시한 도면이다. 도시된 바와 같이, 대역어 자동 선정 장치는 형태소/구조 분석부(310), 미등록어 추출부(320), 주변단어 선별부(330), 대역어 선정부(340), 대역어 표시부(350) 및 등록부(360)를 포함한다. 3 is a diagram illustrating a configuration of a band word automatic selection device according to a preferred embodiment of the present invention. As shown in the drawing, the automatic band selection device includes a morpheme / structure analysis unit 310, a non-registered word extraction unit 320, a peripheral word selection unit 330, a band word selection unit 340, a band word display unit 350, and a register unit ( 360).

형태소 구조/분석부(310)는 원시언어 문장/목표언어 대역문으로 이루어진 병렬 말뭉치내의 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 원시언 어 문장의 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 역할을 수행한다. 미등록어 추출부(320)는 상기 원시언어 문장의 단어들중 상기 대역어 사전에 존재하지 않는 미등록어를 추출하고, 주변단어선별부(330)는 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별한다.The morpheme structure / analysis unit 310 analyzes the part-of-speech information on the words of the source language sentence by performing the morphological analysis and the structure analysis on the source language sentence in the parallel corpus consisting of the source language sentence / target language band sentence. It determines the grammatical relationship between words. The non-registered word extracting unit 320 extracts an unregistered word that does not exist in the bandword dictionary among the words of the source language sentence, and the peripheral word selection unit 330 selects the surrounding word having a grammatical relationship with the extracted non-registered word. Select from source language sentences.

대역어 선정부(340)는 목표언어 대역문에서 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하고, 대역어 표시부(350)는 상기 선정된 대역어를 사전 구축자에게 표시하는 역할을 수행한다. 대역어 선정부(340)에서 대역어 선정에 실패한 경우(즉, 주변단어의 대역어를 삭제한 후에 남은 단어가 없는 경우)에는 상기 대역어 선정에 실패한 미등록어를 사전 구축자에게 표시해줌으로써 구축자로부터 해당 대역어를 수동으로 입력받을 수 있도록 한다.The band word selecting unit 340 selects a word remaining after removing the band word corresponding to the surrounding word from the target language band sentence, and the band word display unit 350 displays the selected band word to the dictionary builder. Play a role. If the band word selection unit 340 fails to select the band word (that is, if there are no words left after deleting the band word of the peripheral word), the corresponding word is not displayed from the builder by displaying the unregistered word that failed to select the band word to the pre-builder. Allow manual entry.

상기와 같은 본 발명에 따르면, 인터넷 또는 기타 매체를 통해 쉽게 구할 수 있는 한영 병렬 말뭉치를 이용하여 방송 뉴스 문장에 빈번히 등장하는 신조어들에 대한 대역어 정보를 자동 추출함으로써 효율적으로 대역어 사전을 구축할 수 있다.According to the present invention as described above, it is possible to efficiently build a bandword dictionary by automatically extracting bandword information about new words frequently appearing in a broadcast news sentence using a Korean-English parallel corpus that can be easily obtained through the Internet or other media. .

Claims (11)

원시언어 문장 및 이에 대응하는 목표언어 대역문으로 이루어진 병렬 말뭉치를 이용하여 대역어를 자동 선정하는 방법에 있어서,In the method of automatically selecting a band language using a parallel corpus composed of a source language sentence and a target language band sentence, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 상기 문장에 포함된 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 단계와, Analyzing the part-of-speech information about the words included in the sentence and determining the grammatical relationship between the words by performing morphological analysis and structure analysis on the source language sentence; 상기 원시언어 문장의 단어들중 대역어 사전에 존재하지 않는 미등록어를 추출하는 단계와,Extracting a non-registered word which does not exist in a bandword dictionary among words of the source language sentence; 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별하는 단계와, Selecting neighboring words having a grammatical relationship with the extracted non-registered words from the source language sentences; 상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 단계Selecting a word remaining after the band word corresponding to the surrounding word is removed from the target language band sentence as the band word of the non-registered word; 를 포함하는 병렬 말뭉치를 이용한 대역어 자동 선정 방법.Band word automatic selection method using a parallel corpus comprising a. 제1항에 있어서, 상기 미등록어 및 상기 선정된 대역어를 상기 대역어 사전에 새로운 엔트리로 등록하는 단계를 더 포함하는 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, further comprising registering the unregistered word and the selected band word as a new entry in the band word dictionary. 제1항에 있어서, 상기 원시언어는 한국어고, 상기 목표언어는 영어인 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, wherein the source language is Korean and the target language is English. 제1항에 있어서, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석은 형태소 사전 및 구조 분석 사전을 이용하여 수행되고, 상기 원시언어 문장에 포함된 단어들중 상기 형태소 사전에 등록되어 있지 않은 명사는 미등록어로 판단되는 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, wherein the morphological analysis and the structural analysis of the primitive sentences are performed using a morpheme dictionary and a structure analysis dictionary, and nouns not registered in the morpheme dictionary among words included in the primitive sentences are included. Automated selection of band words using parallel corpus determined as unregistered words. 제1항에 있어서, 상기 미등록어의 품사 정보는 명사인 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, wherein the part-of-speech information of the unregistered word is a noun. 제1항에 있어서, 상기 미등록어와 문법적 관계가 있는 주변 단어는 상기 미등록어에 관련된 용언과 문법적 관계가 있는 단어인 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, wherein the peripheral word having a grammatical relationship with the non-registered word is a word having a grammatical relationship with a term related to the non-registered word. 제1항에 있어서, 상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 단계는,The method of claim 1, wherein the step of selecting a word remaining after removing the band word corresponding to the surrounding word from the target language band sentence is a band word of the non-registered word. 상기 주변 단어에 대응하는 대역어를 상기 대역어 사전에서 검색하는 단계와,Searching the band word dictionary for a band word corresponding to the surrounding word; 상기 검색된 주변 단어의 대역어를 상기 목표언어 대역문에서 제거하는 단계Removing the band word of the searched neighboring words from the target language band sentence; 를 포함하는 병렬 말뭉치를 이용한 대역어 자동 선정 방법.Band word automatic selection method using a parallel corpus comprising a. 제1항에 있어서, 상기 병렬 말뭉치는 인터넷을 통해 제공되는 원시언어 방송 뉴스 및 이에 대응하는 목표언어 번역문을 문장정렬 소프트웨어를 이용하여 변환한 것인 병렬 말뭉치를 이용한 대역어 자동 선정 방법.The method of claim 1, wherein the parallel corpus is converted from original language broadcasting news provided through the Internet and a corresponding target language translation using sentence alignment software. 제1항에 있어서, 사전 구축자의 검증을 위해 상기 미등록어의 대역어로 선정된 단어를 화면상에 표시하는 단계를 더 포함하고, 상기 구축자에 의해 검증된 경우에만 상기 미등록어 및 상기 선정된 대역어를 대역어 사전에 등록하는 병렬 말뭉치를 이용한 대역어 자동 선정 방법. The method of claim 1, further comprising displaying on the screen a word selected as a band word of the non-registered word for verification of a dictionary builder, wherein the unregistered word and the selected band word are only verified by the builder. A method for automatically selecting a band word using a parallel corpus for registering a word into a band word dictionary. 제1항에 있어서, The method of claim 1, 상기 주변 단어의 대역어가 제거된 상기 목표언어 대역문에 남은 단어가 없는 경우에 상기 미등록어를 화면상에 표시하는 단계와,Displaying the non-registered word on the screen when there are no words left in the target language band statement from which the band word of the surrounding word is removed; 사전 구축자로부터 상기 미등록어에 대한 대역어 정보를 수신하는 단계Receiving band word information on the non-registered word from a pre-builder 를 더 포함하는 병렬 말뭉치를 이용한 대역어 자동 선정 방법.Band word automatic selection method using a parallel corpus further comprising. 원시언어 문장 및 이에 대응하는 목표언어 대역문으로 이루어진 병렬 말뭉치를 이용한 대역어 자동 선정 장치에 있어서,   In the automatic band selection device using a parallel corpus consisting of a source language sentence and a target language band sentence, 상기 원시언어 문장에 대한 형태소 분석 및 구조 분석을 수행하여 상기 원시언어 문장의 단어들에 대한 품사 정보를 분석하고 상기 단어들간의 문법적 관계를 판단하는 형태소/구조 분석부와,A morpheme / structure analysis unit which analyzes part-of-speech information about words in the source language sentence by performing morphological analysis and structure analysis on the source language sentence and determines grammatical relationship between the words; 상기 원시언어 문장의 단어들중 상기 대역어 사전에 존재하지 않는 미등록어를 추출하기 위한 미등록어 추출부와,An unregistered word extracting unit for extracting an unregistered word which does not exist in the bandword dictionary among the words of the source language sentence; 상기 추출된 미등록어와 문법적 관계가 있는 주변 단어를 상기 원시언어 문장으로부터 선별하기 위한 주변단어 선별부와, A peripheral word selection unit for selecting a peripheral word having a grammatical relationship with the extracted unregistered word from the source language sentence; 상기 목표언어 대역문에서 상기 주변 단어에 대응하는 대역어를 제거한 후에 남은 단어를 상기 미등록어의 대역어로 선정하는 대역어 선정부와,A band word selection unit for selecting a word remaining after removing a band word corresponding to the surrounding word from the target language band sentence, as a band word of the non-registered word; 상기 선정된 대역어를 사전 구축자에게 표시하는 대역어 표시부Band word display unit for displaying the selected band word to the pre-builder 를 포함하는 대역어 자동 선정 장치.Band word automatic selection device comprising a.
KR1020060096341A 2006-09-29 2006-09-29 Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus KR100831037B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060096341A KR100831037B1 (en) 2006-09-29 2006-09-29 Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060096341A KR100831037B1 (en) 2006-09-29 2006-09-29 Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus

Publications (2)

Publication Number Publication Date
KR20080029567A KR20080029567A (en) 2008-04-03
KR100831037B1 true KR100831037B1 (en) 2008-05-20

Family

ID=39532116

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060096341A KR100831037B1 (en) 2006-09-29 2006-09-29 Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus

Country Status (1)

Country Link
KR (1) KR100831037B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102019756B1 (en) 2017-03-14 2019-09-10 한국전자통신연구원 On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word
KR102446305B1 (en) * 2020-11-20 2022-09-23 네이버 주식회사 Method and apparatus for sentiment analysis service including highlighting function

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (en) * 2000-12-27 2002-07-06 오길록 Analysis Method for Korean Morphology using AVL+Trie Structure
KR20050063815A (en) * 2003-12-19 2005-06-28 한국전자통신연구원 Verb pattern automatic extension and verification apparatus of korean-chinese machine translation system and method thereof
JP2006201873A (en) 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International Device for automatically extracting unregistered word and program, and device for automatically registering unregistered word and program
KR20070059869A (en) * 2005-12-07 2007-06-12 한국전자통신연구원 Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020054254A (en) * 2000-12-27 2002-07-06 오길록 Analysis Method for Korean Morphology using AVL+Trie Structure
KR20050063815A (en) * 2003-12-19 2005-06-28 한국전자통신연구원 Verb pattern automatic extension and verification apparatus of korean-chinese machine translation system and method thereof
JP2006201873A (en) 2005-01-18 2006-08-03 Advanced Telecommunication Research Institute International Device for automatically extracting unregistered word and program, and device for automatically registering unregistered word and program
KR20070059869A (en) * 2005-12-07 2007-06-12 한국전자통신연구원 Apparatus and method of construction for single noun korean-english technical word dictionary using compound noun's target word notation in patent documents

Also Published As

Publication number Publication date
KR20080029567A (en) 2008-04-03

Similar Documents

Publication Publication Date Title
JP3969628B2 (en) Translation support apparatus, method, and translation support program
US20090094017A1 (en) Multilingual Translation Database System and An Establishing Method Therefor
JP2008276517A (en) Device and method for evaluating translation and program
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program
Songlin Piao et al. Lexical coverage evaluation of large-scale multilingual semantic lexicons for twelve languages
Barlow Parallel texts and corpus-based contrastive analysis
KR100792203B1 (en) Apparatus and Method of Construction for Single Noun Korean-English Technical Word Dictionary Using Compound Noun's Target Word Notation in Patent Documents
JP2004246440A (en) Morphemic analyzing device, natural language processor, and morphemic analyzing method and program
KR100831037B1 (en) Method and apparatus for automatically selecting a corresponding translation of a new word using bilingual corpus
Jian et al. TANGO: Bilingual collocational concordancer
KR100513161B1 (en) Device and Method of Word Sense Disambiguation for Korean Complex Noun Phrase for Target Word Generation
Fan et al. Automatic extraction of bilingual terms from a chinese-japanese parallel corpus
JP2010067021A (en) Machine translation device and machine translation program
KR102118322B1 (en) Document translation server and translation method for generating original and translation files individually
Garcia Comparing bilingual word embeddings to translation dictionaries for extracting multilingual collocation equivalents
JP2007072841A (en) Word extraction method, database construction method, database constructing device, database construction program, and recording medium
JP4007630B2 (en) Bilingual example sentence registration device
Seretan et al. Fipscoview: On-line visualisation of collocations extracted from multilingual parallel corpora
Chhetri et al. Development of a morph analyser for Nepali noun token
JP2009059290A (en) Device, method, and program for supporting preparation of foreign language document
Rikters K-Translate-Interactive Multi-system Machine Translation
JP3949874B2 (en) Translation translation learning method, translation translation learning device, storage medium, and translation system
Chambers Automatic Bilingual Terminology Extraction-A Practical Approach
JP2003308319A (en) Device for selecting translation, translator, program for selecting translation, and translation program
KR20120072196A (en) Variable factor auto-creation translation system and translation method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110511

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee