KR20040051351A - Method for machine translation using word-level statistical information and apparatus thereof - Google Patents

Method for machine translation using word-level statistical information and apparatus thereof Download PDF

Info

Publication number
KR20040051351A
KR20040051351A KR1020020079265A KR20020079265A KR20040051351A KR 20040051351 A KR20040051351 A KR 20040051351A KR 1020020079265 A KR1020020079265 A KR 1020020079265A KR 20020079265 A KR20020079265 A KR 20020079265A KR 20040051351 A KR20040051351 A KR 20040051351A
Authority
KR
South Korea
Prior art keywords
sentence
word
target language
words
morpheme
Prior art date
Application number
KR1020020079265A
Other languages
Korean (ko)
Other versions
KR100487716B1 (en
Inventor
최미란
박준
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR10-2002-0079265A priority Critical patent/KR100487716B1/en
Publication of KR20040051351A publication Critical patent/KR20040051351A/en
Application granted granted Critical
Publication of KR100487716B1 publication Critical patent/KR100487716B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

PURPOSE: A method and a device for generating a translated sentence using a statistical method of a word level are provided to generate the translated sentence of a high quality in a high speed by forming/using an order information database extracted from a large target language corpus through the statistical method. CONSTITUTION: A training module(110) statistically stores the order information from the target language corpus. A morpheme analyzer(121) analyzes a morpheme by receiving a original language sentence. A parameterizer(123) parameterizes the words corresponding to the first speech part forming the original language sentence divided into each morpheme and forms the sentence tagged by the morpheme after hiding the words corresponding to the second speech part. A word arranger(125) replaces each morpheme with the target language word from a translation dictionary database(130) by receiving the tagged sentence. A recovery part(127) recovers/inserts the original word of the parameterized speech part into the replaced target language and recovers the hidden words. A post-processor(129) outputs the original language sentence and the translated sentence based on the generation information after removing a tag.

Description

단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그 장치{Method for machine translation using word-level statistical information and apparatus thereof}Method for machine translation using word-level statistical information and apparatus

본 발명은 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그 장치에 관한 것으로, 보다 자세하게는 대용량 대상어의 코퍼스를 이용한 훈련 절차에서 추출된 통계정보에 의해 고품질의 번역문을 생성할 수 있는 번역문 생성 방법 및 그 장치에 관한 것이다.The present invention relates to a method for generating a translation using a statistical method of a word level and a device thereof, and more particularly, to a translation generating method capable of generating a high quality translation by statistical information extracted from a training procedure using a corpus of a large target language, and To the device.

지금까지 원시 언어에서 대상 언어로 번역문을 생성하기 위한 기계번역 방식에는 크게 생성 문법을 사용한 방식과 중간 언어를 사용한 방식이 사용되었다. 전자인 생성 문법을 사용한 방식은 번역문 생성장치의 핵심 지식인 문법을 프로그래밍 언어를 사용하여 구현하는 방식을 채택했는데 이 방법은 많은 언어학적 정보들을 프로그래밍화하기 위하여 언어학적인 지식을 가진 사람들에 의해 구현되기 때문에 문법의 확장이 어렵다는 단점이 있다. 또한 다양한 언어학적인 현상을 단순한 문법을 사용하여 표시하기 어렵기 때문에 수많은 예외 처리를 하는데 한계가 발생한다. 특히 생성 문법에 의해 번역을 하는 방식은 대화체에서 많은 어려움이 있는데 그 이유는 문법적으로 문어체보다 자유로운 대화체의 특성 때문이다.Until now, the method of generating a translation from a source language to a target language has largely used a generation grammar and an intermediate language. The electronic grammar generation method uses the programming language to implement grammar, the core knowledge of the translation generator, because it is implemented by people with linguistic knowledge to program many linguistic information. The disadvantage is that the syntax is difficult to extend. In addition, since various linguistic phenomena are difficult to display using simple grammar, there are limitations in handling numerous exceptions. In particular, the way of translating by the generated grammar has a lot of difficulties in the dialogue, because of the characteristics of the dialogue which is more grammatically free than the written language.

번역문 생성을 위하여 사용되는 다른 한 가지 방법인 중간 언어를 이용하는 방식은 한정된 도메인에서는 적용 가능하나 범용으로 사용되기에는 한계가 있으며 인간의 언어가 나타내는 다양한 표현 형태를 중간 언어를 사용하여 표현하기 위해서는 대량 작업이 요구되며 끊임없이 중간 언어의 새로운 형태를 추가해야 된다는 부담이 있다. 또한 복잡한 상황에 대해서는 중간언어를 사용하여 표현하기 어렵고 이 중간 언어를 대상 언어로 다시 변환하기 위해서는 복잡한 변환 규칙을 다시 규정해야하는 어려움이 존재한다. 즉, 번역 장치의 점진적인 품질 향상을 위한 부담이 크게 증진하는 문제점이 있게 된다.Another method used for generating translations, using intermediate languages, is applicable in limited domains, but it is limited to use universally. In order to express various expression forms represented by human languages using intermediate languages, This is a demand and the burden of constantly adding new forms of intermediate languages. In addition, it is difficult to express the intermediate language in a complicated situation, and in order to convert the intermediate language back to the target language, there is a difficulty in redefining the complicated conversion rules. That is, there is a problem that the burden for gradual improvement of the translation apparatus is greatly enhanced.

본 발명이 이루고자 하는 기술적 과제는 통계적 방법을 이용해 고품질의 번역문을 생성할 수 있는 번역문 생성 방법 및 그 장치를 제공하는데 있다.SUMMARY OF THE INVENTION The present invention has been made in an effort to provide a translation generation method and apparatus for generating a high quality translation using a statistical method.

도 1 은 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 장치의 블럭도이다.1 is a block diagram of an apparatus for generating a translation using a statistical method of word level according to the present invention.

도 2는 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법의 흐름을 보여주는 흐름도이다.2 is a flowchart illustrating a flow of a method for generating a translation using a statistical method of word level according to the present invention.

도 3은 본 발명에 적용되는 대역 사전의 일 실시예를 보여주는 도면이다.3 is a diagram illustrating an embodiment of a band dictionary applied to the present invention.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법은 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계; 대역 사전 데이터베이스를 구비하는 단계; 원시 언어 문장을 입력받아 형태소를 분석하는 단계; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, a method of generating a translation using a word level statistical method according to the present invention includes generating and storing order information statistically from a target language corpus; Providing a band dictionary database; Receiving a source language sentence and analyzing the morpheme; Variableizing words corresponding to predetermined first parts of speech constituting the primitive language sentences classified by the morphemes, and concealing words corresponding to predetermined second parts of speech to form sentences tagged with morphemes; Receiving the tagged sentence and replacing the target language word with the corresponding morpheme from the band dictionary database, and arranging the word of the sentence replaced with the target language based on the order information; Recovering the original word of the variable part of speech and inserting it into the replaced target language and restoring the hidden words; And removing the tagging and outputting a translation based on the source information and the generated information according to the characteristics of the target language.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 장치는 대역 사전 데이터베이스; 대상 언어 코퍼스로부터 통계적으로 순서 정보가 저장된 훈련모듈; 원시 언어 문장을 입력받아 형태소를 분석하는 형태소분석부; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 변수화부; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단어배열부; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 복구부; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 후처리부;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, the apparatus for generating a translation using a word level statistical method according to the present invention includes a band dictionary database; A training module in which order information is statistically stored from a target language corpus; A morpheme analysis unit for receiving a source language sentence and analyzing a morpheme; A variable unit configured to variable words corresponding to predetermined first parts of speech constituting the primitive language sentences classified by the morphemes, and to conceal words corresponding to the predetermined second parts of speech and to form sentences tagged with morphemes; A word array unit configured to receive the tagged sentences and replace the target language words with the corresponding morphemes from the band dictionary database, and arrange the words of the sentences replaced with the target language based on the order information; A recovery unit for recovering the original word of the variable part-of-speech, inserting it into the replaced target language, and restoring the hidden words; And a post-processing unit for removing the tagging and outputting a translation based on the source information and the generated information according to the characteristics of the target language.

상기의 기술적 과제를 이루기 위하여 본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계; 대역 사전 데이터베이스를 구비하는 단계; 원시 언어 문장을 입력받아 형태소를 분석하는 단계; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 한다.In order to achieve the above technical problem, a computer-readable recording medium recording a program for executing a translation method using a word-level statistical method according to the present invention on a computer generates statistical information from a target language corpus and stores it. Making; Providing a band dictionary database; Receiving a source language sentence and analyzing the morpheme; Variableizing words corresponding to predetermined first parts of speech constituting the primitive language sentences classified by the morphemes, and concealing words corresponding to predetermined second parts of speech to form sentences tagged with morphemes; Receiving the tagged sentence and replacing the target language word with the corresponding morpheme from the band dictionary database, and arranging the word of the sentence replaced with the target language based on the order information; Recovering the original word of the variable part of speech and inserting it into the replaced target language and restoring the hidden words; And removing the tagging and outputting a translation based on the source information and the generated information according to the characteristics of the target language.

이하 첨부된 도면을 참조하면서 본 발명의 바람직한 일 실시예를 자세히 설명하도록 한다. 도 1 은 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 장치의 블럭도이며, 도 2는 본 발명에 의한 단어 레벨의 통계적 방법을 이용한 번역문 생성 방법의 흐름을 보여주는 흐름도이다. 설명의 편의 및 본 발명의 구성을 명확하게 하기 위하여 장치와 방법의 일 실시예를 함께 기술하도록 한다. 먼저, 본 발명의 바람직한 일 실시예의 구성을 개괄적으로 언급하도록 한다. 본 발명은 크게 두 가지로 이루어진다. 첫째는 훈련 모듈(110)인데, 순서 정보 데이터 베이스를 만들기 위한 것으로서, 형태소 추출부(111)은 대상 언어 코퍼스를 입력으로하여(201단계) 형태소 분석(202단계)을 거치게 된다. 이어 변수부(113)는 일정한 품사(예를 들면, 명사와 수사)에 해당하는 단어를 변수화한 후 형태소별로 단어별로 제거, 은닉 및 변수화를 시킨다(203단계). 순서정보추출부(115)는 트라이그램(trigram)을 이용하여 단어 순서 정보를 추출하고(204단계), 이 204단계의 결과로 생성된 순서 정보를 데이터베이스(205)화하여 저장한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. 1 is a block diagram of a translation generating apparatus using a word level statistical method according to the present invention, Figure 2 is a flow chart showing the flow of a translation generating method using a statistical method of the word level according to the present invention. BRIEF DESCRIPTION OF THE DRAWINGS One embodiment of an apparatus and a method is described together in order to make the description clear and the configuration of the present invention. First, the configuration of a preferred embodiment of the present invention will be mentioned in general. The present invention largely consists of two things. First, the training module 110, which is to create a sequence information database, the morpheme extracting unit 111 is subjected to morphological analysis (step 202) by inputting the target language corpus (step 201). Subsequently, the variable unit 113 converts a word corresponding to a certain part-of-speech (eg, noun and rhetoric) and then removes, conceals, and converts each word by morpheme (step 203). The sequence information extracting unit 115 extracts word sequence information using a trigram (step 204), and stores the sequence information generated as a result of the step 204 into a database 205.

두번째로 번역 모듈(120)을 살펴본다. 형태소분석부(121)은 입력으로 원시 언어 문장을 수신(206단계)하여 훈련 모듈(110)과 같이 형태소를 분석한다(207단계). 이 때는 원시 언어에 해당되는 형태소 분석기가 사용된다. 변수화부(123)는 형태소를 분석한 후 원시 언어 문장에 형태소 태거를 부착한다. 그리고 원시 언어 문장에 일정한 품사에 해당하는 단어를 변수화하고 해당 형태소별로 단어를 제거, 은닉 및 변수화를 시킨후에 출력한다(208단계). 단어배열부(125)는 대역 사전 데이터베이스(130)으로부터 자료을 입력받아 대상 언어로 단어를 교체한다(209단계). 단어 배열부는 훈련 모듈(110)에서 추출되어 저장된 순서 정보를 저장하고 있는 데이터베이스(205)를 참조하여 가장 확률값이 높은 단어 배열 선정에 들어간다(210단계). 이 때 각 퍼뮤테이션에 대하여 단어 교체의 가능성을 감안하여 가장 확률값이 높은 단어와 단어 배열이 선정된다. 만일 해당 트라이그램 정보가 순서 정보 데이터베이스(117, 205)에 없을 경우에는 백오프(backoff) 방법을 사용하여 바이그램(bigram)과 모노그램(monogram)을 이용하여 확률값을 구한다. 가장 확률값이 높은 단어 배열이 선정된 후 복구부(127)는 변수를 원래의 단어로 바꿔주고 은닉된 단어를 살린다(211단계). 후처리부(129)는 복구부(127)에서 결과로 생성된 문장을 문장의 형태에 맞게 평서문, 의문문등으로 문장 순서나 어미등을 맞춰서 변형해준다. 한영 번역의 경우에는 주어가 생략된 문장에 대해서 적절한 주어를 삽입해준다. 그외에 첫단어의 첫글자는 대문자화, 문장 부호를 살려준다(212단계). 그 결과로 대상 언어의 번역문이 생성된다(213단계).Second, look at the translation module 120. The morpheme analysis unit 121 receives the source language sentence as an input (step 206) and analyzes the morpheme as in the training module 110 (step 207). In this case, stemmers corresponding to native languages are used. The variableizer 123 analyzes the morpheme and attaches the morpheme tag to the original language sentence. The word corresponding to a certain part-of-speech is parametrized in the primitive language sentence, and the word is removed, concealed, and parametrized by the corresponding morpheme, and then output (step 208). The word arranging unit 125 receives the data from the band dictionary database 130 and replaces the word with the target language (step 209). The word arranging unit enters the word arranging having the highest probability with reference to the database 205 storing the sequence information extracted and stored by the training module 110 (step 210). In this case, the word and word array having the highest probability are selected in consideration of the possibility of word replacement for each permutation. If the corresponding trigram information does not exist in the order information database 117 or 205, a probability value is obtained using a bigram and a monogram using a backoff method. After the word array having the highest probability is selected, the recovery unit 127 replaces the variable with the original word and saves the hidden word (step 211). The post-processing unit 129 transforms the sentence generated as a result of the recovery unit 127 to match the sentence order or the ending of the sentence to the form of the sentence, such as a plain sentence, a question. In the case of Korean-English translations, the appropriate subject is inserted for the sentence where the subject is omitted. In addition, the first letter of the first word capitalizes, punctuation marks (step 212). As a result, a translation of the target language is generated (step 213).

이제, 본 발명의 바람직한 실시예를 보다 구체적으로 예를 들면서 상세히 설명한다. 번역문 생성장치의 기능은 번역문 생성 방법에 대응되므로 이하 번역문 생성 방법을 주로 하여 설명하도록 한다. 훈련 모듈(110)에서 대상 언어 코퍼스의 문장들은 문장 단위로 입력되어(201) 아래에서 설명할 각 단계를 거친다. 예로 대상 언어는 영어이고 원시 언어는 한국어인 경우를 들겠다. 즉 영어 코퍼스에서 하나의 영어 문장이 형태소 분석 단계(202)에서 영어 형태소 분석기에 의해 형태소 태깅 작업이 일어난다. 그 결과로 다음과 같은 예문의 형태소 태깅 결과문을 얻을 수 있다.Now, preferred embodiments of the present invention will be described in detail with examples. Since the function of the translation generation apparatus corresponds to the translation generation method, the following description will mainly be given of the translation generation method. In the training module 110, sentences of the target language corpus are input in units of sentences 201 and go through each step to be described below. For example, the target language is English and the native language is Korean. That is, the stemming tagging operation is performed by the English morpheme analyzer in the stemming step 202 of the English sentence in the English corpus. As a result, the following stemming tagging result can be obtained.

원문: I'd like a hot coffee with milk.Original: I'd like a hot coffee with milk.

태깅 결과문: i/PRON 'd/AUX like/VERB a/DET hot/ADJ coffee/NOUN with/PREP milk/NOUNTagging Result: i / PRON 'd / AUX like / VERB a / DET hot / ADJ coffee / NOUN with / PREP milk / NOUN

다음으로 태깅 결과문은 해당 단어의 변수화 과정(203)을 거쳐서 접속사, 조동사, 한정사, 부사등은 은닉이 되고 명사와 수사는 변수화된다. 문장 부호는 삭제된다. 그 결과 문장은 다음과 같다.Next, the tagging result is subjected to a variable process of the word 203, and the conjunctions, modifiers, qualifiers, adverbs, etc. are concealed, and the nouns and rhetoric are variable. Punctuation marks are deleted. The resulting sentence looks like this:

i/PRON like/VERB hot/ADJ NOUN with/PREP NOUNi / PRON like / VERB hot / ADJ NOUN with / PREP NOUN

이 결과를 가지고 다음 단계인 단어 순서 정보 추출(204)로 넘어간다. 문장 경계 정보를 넣기 위해서 결과 문장의 양 끝에 문장 시작과 끝은 표시하는 <s>와 </s>를 추가한다. 그 결과 문장은 다음과 같다.With this result, it proceeds to the next step, word order information extraction (204). To enter sentence boundary information, add <s> and </ s> at the end of the resulting sentence to mark the beginning and end of the sentence. The resulting sentence looks like this:

<s> i/PRON like/VERB hot/ADJ NOUN with/PREP NOUN </s><s> i / PRON like / VERB hot / ADJ NOUN with / PREP NOUN </ s>

이 문장을 입력으로 하여 순서 통계를 추출하는 과정을 거친다. 이 문장에서의 모든 트라이그램을 기록하고 또한 바이그램과 모노그램을 기록한다. 영어 코퍼스에 있는 모든 문장을 이와 같은 단계를 거쳐서 훈련 코퍼스 데이터에서 나올 수 있는 모든 트라이그램, 바이그램, 모노그램의 통계를 계산하여 하나의 표에 저장한다. 즉 각 트라이그램, 모노그램에 대하여 출현 빈도를 계산하고 그 확률값을 계산하여 기록한다. 트라이그램 확률 계산식은 $prob = $count_tri / $count_bi 가 되는데 즉 하나의 트라이그램이 나올 확률은 그 트라이그램의 출현 빈도수를 바이그램의 출현 빈도수로 나눈 값이 된다. 바이그램 확률 계산식은 $binom_w = $v_count + $binom{$item_bi}; $prob = ($count_bi + 1)/$binom_w;을 사용한다. 여기서 $v_count는 전체 어휘수이며, $binom{$item_bi}는 특정 바이그램 $item_bi가 출현하는 누적 빈도수이다. $count_bi는 특정 바이그램이 출현하는 빈도수이다. 모노그램의 빈도수는 1/$v_count로 계산한다. 이 모노그램의 확률값은 번역 모듈에서 순서 정보가 없는 경우에 스무딩(smoothing)을 위하여 0 대신 사용한다. 이런 계산과정을 거쳐서 나온 결과가 순서 정보 데이터 베이스(205)에 저장된다. 순서 정보 데이터 베이스(205)에 기록되는 다른 정보로는 프루닝을 위한 출현하지 않는 바이그램의 리스트이다. 이 리스트를 추출하기 위해서는 훈련 데이터의 각 문장을 가능한 모든 배열로 정렬하여 산출될 수 있는 모든 종류의 바이그램을 추출한 후에 순서 정보에 이미 저장되어 있는 바이그램은 제외한 것을 리스트로 만들어 놓는다. 이것이 프루닝을 위한 후보 바이그램 리스트이다.This sentence is input and the order statistics are extracted. Record all trigrams in this sentence, as well as the bigrams and monograms. All the sentences in the English corpus go through these steps to calculate the statistics of all trigrams, bigrams, and monograms that can come from the training corpus data and store them in one table. That is, the frequency of occurrence is calculated for each trigram and monogram, and the probability value is calculated and recorded. The trigram probability calculation is $ prob = $ count_tri / $ count_bi. That is, the probability of one trigram is the frequency of occurrence of the trigram divided by the frequency of occurrence of the bigram. The bigram probability calculation is $ binom_w = $ v_count + $ binom {$ item_bi}; Use $ prob = ($ count_bi + 1) / $ binom_w; Where $ v_count is the total vocabulary and $ binom {$ item_bi} is the cumulative frequency at which the particular item $ item_bi appears. $ count_bi is the frequency of occurrence of a particular biggram. The frequency of the monogram is calculated as 1 / $ v_count. The probability value of this monogram is used instead of 0 for smoothing when there is no order information in the translation module. The result of the calculation is stored in the sequence information database 205. Other information recorded in the sequence information database 205 is a list of non-appearing bigrams for pruning. In order to extract this list, each sentence of the training data is sorted into every possible arrangement, and all kinds of bigrams can be extracted. This is a list of candidate bigrams for pruning.

이제, 실제로 원시 언어 문장을 번역하는 번역 모듈(120)에서 한국어 문장이 입력(206)되어 형태소 분석 단계(207)로 들어간다. 다음과 같이 한국어 원문은 한국어 형태소 분석기를 거쳐서 태깅된 결과가 나온다.Now, the Korean sentence is input 206 in the translation module 120 which actually translates the native language sentence and enters the morphological analysis step 207. The original Korean text is tagged with the Korean stemmer.

입력 문장: 저는 내일 서울로 출발할 것입니다.Input sentence: I will leave for Seoul tomorrow.

태깅 결과: 저/npp+는/jxt 내일/mag 서울/nq+로/jca 출발/ncpa+ 하/xsv+ㄹ/etm 것/nbn+이/jp+ㅂ니다/efTagging result: low / npp + / jxt tomorrow / mag seoul / nq + / jca departure / ncpa + ha / xsv + d / etm one / nbn + / jp + up / ef

태깅 결과문에서 변수화 과정(208)을 거쳐서 해당 형태소의 은닉, 제거, 변수화가 이루어진 후 다음과 같은 결과 문장이 나온다.In the tagging result statement, the morpheme is concealed, removed, and parametrized through the variable process (208).

저/npp nq 로/jca 출발/ncpa+하/xsvLow / npp nq / jca to / ncpa + ha / xsv

이 문장은 도 3에 나온 것과 같은 대역 사전(130)을 기반으로 대상 언어로 단어 교체(209) 과정을 거쳐서 영어 단어로 교체되며, 형태소도 해당 영어 형태소로 교체된다. 원시 언어의 형태소와 대상 언어의 형태소의 비교표는 테이블로 프로그램 상에 유지된다. 그 결과 문장은 다음과 같다. 여기에서 동사인 출발하다의 대역어가 대역어 사전에 두 개가 존재하므로 두 가지의 후보 문장이 생성된다.This sentence is replaced with an English word through a word replacement 209 process for the target language based on the band dictionary 130 as shown in FIG. 3, and the morpheme is also replaced with the corresponding English morpheme. A comparison table of the stems of the source language and the stems of the target language is maintained on the program as a table. The resulting sentence looks like this: Here, since there are two band words in the band word dictionary of the verb start, two candidate sentences are generated.

I/PRON NOUN for/PRON start/VERBI / PRON NOUN for / PRON start / VERB

I/PRON NOUN for/PRON depart/VERBI / PRON NOUN for / PRON depart / VERB

위의 두 가지 경우에 대한 각 단어를 배열한 모든 경우에 대하여 순서 정보 데이터 베이스(205)를 참조하여 가장 높은 확률값을 구한다. 확률값은 모든 경우로 배열된 문장에 출현하는 각각의 트라이그램의 확률값의 곱으로 결정한다. 이 과정이 단어 배열(210) 단계이다. 여기에서 사용되는 프루닝 리스트는 훈련과정에서 산출된 출현하지 않는 바이그램 리스트이다. 모든 경우의 단어 배열을 하면서 프루닝 리스트에 해당되는 바이그램에 대해서는 미리 제외함으로써 계산의 범위를 줄여서 성능을 높일 수 있다. 이 단계의 결과로 확률값을 계산한 결과 가장 높은 점수를 얻은 배열로 다음과 같은 중간 단계의 문장이 출력된다.For all the cases in which the words for the above two cases are arranged, the highest probability value is obtained by referring to the order information database 205. The probability value is determined by multiplying the probability value of each trigram appearing in the arranged sentences in all cases. This process is the word arrangement 210 step. The pruning list used here is a list of non-occurring bigrams produced during training. By allocating words in all cases and precluding those that are pruning lists in advance, performance can be improved by reducing the scope of the calculation. As a result of calculating the probability value as the result of this step, the following middle sentence is output as an array having the highest score.

I/PRON depart/VERB for/PRON NOUNI / PRON depart / VERB for / PRON NOUN

다음 단계는 변수의 원단어 복구(211) 단계로 이 문장의 변수인 NOUN은 원단어인 Seoul로 교체되고 은닉되었던 부사인 tomorrow가 문장 뒤에 삽입되어 다음과 같은 결과가 나온다.The next step is to recover the far end word of the variable (211). The variable NOUN of this sentence is replaced with the far end word Seoul and inserted into the hidden adverb tomorrow after the sentence.

I/PRON depart/VERB for/PRON Seoul tomorrow.I / PRON depart / VERB for / PRON Seoul tomorrow.

번역 모듈의 마지막 단계인 문장 후처리(212) 단계에서는 태깅이 삭제되고 부호가 추가되며 각 문장에 해당되는 문장 룰에 의해서 미래를 나타내는 조동사 will 이 추가된다. 결과로 다음과 같은 번역문이 생성된다.In the sentence post-processing step 212, which is the last step of the translation module, tagging is deleted, a sign is added, and an auxiliary verb will indicating the future is added by a sentence rule corresponding to each sentence. As a result, the following translation is generated:

I will depart for Seoul tomorrow.I will depart for Seoul tomorrow.

문장 후처리 단계에서는 이외에도 주어 첨가, 수, 인칭, 시제등의 생성 정보를 처리하여 최종적으로 대상 언어에 가장 가까운 형태의 번역 문장이 출력된다(213).In the sentence post-processing step, in addition to generating information such as subject addition, number, person, and tense, translated sentences of the form closest to the target language are finally output (213).

본 발명에 의한 단어레벨의 통계적 방법을 이용한 번역문 생성 방법은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등이 있으며, 또한 캐리어 웨이브(예를들면 인터넷을 통한 전송)의 형태로 구현되는 것도 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다. 또한 본 발명에 의한 폰트 롬 데이터구조도 컴퓨터로 읽을 수 있는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이타 저장장치등과 같은 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다.The translation generation method using the word-level statistical method according to the present invention can also be embodied as computer readable codes on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, flash memory, optical data storage device, and also carrier wave (e.g. transmission over the Internet). It is also included to be implemented in the form of. The computer readable recording medium can also be distributed over computer systems connected over a computer network so that the computer readable code is stored and executed in a distributed fashion. Also, the font ROM data structure according to the present invention can be read by a computer on a recording medium such as a computer readable ROM, RAM, CD-ROM, magnetic tape, hard disk, floppy disk, flash memory, optical data storage device, and the like. It can be implemented as code.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서의 통상의 지식을 가진 자에게 있어 명백할 것이다.The present invention described above is not limited to the above-described embodiments and the accompanying drawings, and various substitutions, modifications, and changes are possible in the art without departing from the technical spirit of the present invention. It will be apparent to those of ordinary skill in the art.

상기와 같이 본 발명에 의한 번역문 생성 방법 및 그 장치에 의하면 대화체영역에서 원시언어로부터 대상 언어로 번역하는 과정에 있어서 대규모 대상 언어 코퍼스를 이용하여 통계적 방식으로 추출한 순서정보 데이터 베이스를 구성하여 이용함으로써 고품질 및 고속의 번역문 생성이 가능하며, 기존의 기계 번역 장치의 효율적인 번역문 생성 장치로 다양하게 응용될 수 있다.As described above, according to the method and apparatus for generating a translation sentence according to the present invention, in the process of translating from a source language to a target language in a conversational area, by using a large-scale target language corpus, a sequence information database extracted in a statistical manner can be used and constructed. And it is possible to generate a high-speed translation, it can be variously applied as an efficient translation generation device of the existing machine translation device.

Claims (11)

(a) 대상 언어 코퍼스로부터 통계적으로 순서 정보를 생성하여 저장하는 단계;(a) statistically generating and storing order information from the target language corpus; (b) 대역 사전 데이터베이스를 구비하는 단계;(b) having a band dictionary database; (c) 원시 언어 문장을 입력받아 형태소를 분석하는 단계;(c) receiving a source language sentence and analyzing the morpheme; (d) 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계;(d) variable-word the words corresponding to the predetermined first parts of speech constituting the source language sentence classified by the morphemes, and the words corresponding to the predetermined second parts of speech are concealed, and then composed of the sentence tagged with the morpheme step; (e) 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단계;(e) receiving the tagged sentence and replacing the target language word with the corresponding morpheme from the band dictionary database and arranging the word of the sentence replaced with the target language based on the order information; (f) 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 단계; 및(f) recovering the original word of the variable part-of-speech, inserting it into the replaced target language, and restoring the hidden words; And (g) 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.and (g) outputting a translation based on the generation information according to the characteristics of the source language and the target language after removing the tagging. 제1항에 있어서, 상기 (a)단계는The method of claim 1, wherein step (a) (a1) 상기 대상 언어 코퍼스로부터 문장을 입력받아 형태소를 분석하는 단계;(a1) analyzing a morpheme by receiving a sentence from the target language corpus; (a2) 상기 형태소별로 태깅을 한 후 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 단계;(a2) after tagging by the morphemes, converting words corresponding to predetermined first parts of speech and hiding words corresponding to predetermined second parts of speech and forming a sentence tagged with morphemes; (a3) 변수화되고 형태소별로 태깅된 상기 입력문장을 구성하는 단어의 순서정보를 추출한 후 저장하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.and (a3) extracting and storing order information of words constituting the input sentence that is variable and morphologically tagged, and storing the translated sentence. 제2항에 있어서, 상기 (a3)단계는The method of claim 2, wherein step (a3) 상기 단어간의 트라이그램, 바이그램, 그리고 모노그램의 빈도수에 기초한 확률값을 저장하는 단계;를 포함하는 것을 특징으로 하는 번역문 생성 방법.And storing a probability value based on the frequency of the trigram, the bigram, and the monogram between the words. 제1항에 있어서, 상기 (e)단계는The method of claim 1, wherein step (e) (e1) 상기 대상 언어 단어가 하나 이상인 경우에는 각 단어가 삽입된 문장에 대하여 배열한 후 상기 (a)단계에서 저장된 확률값에 기초하여 그 중 하나를 선택하는 것을 특징으로 하는 번역문 생성 방법.(e1) If the target language word is one or more, the translation sentence generation method comprising arranging for each sentence in which the word is inserted and selecting one of them based on the stored probability value in step (a). 제4항에 있어서, 상기 (e1)단계는The method of claim 4, wherein step (e1) 상기 각 단어가 배열된 문장에 대하여 대치된 단어의 의미를 반영하고, 상기 저장된 순서정보에서 트라이그램, 바이그램, 그리고 모노그램값을 추출하여 각 배열의 값을 구한 후 가장 최대값을 선택하는 것을 특징으로 하는 번역문 생성 방법.Reflecting the meaning of the word replaced for the sentence arranged for each word, extract the trigram, bigram, and monogram value from the stored order information to obtain the value of each array, and then select the maximum value How to create a translation. 대역 사전 데이터베이스;Band dictionary database; 대상 언어 코퍼스로부터 통계적으로 순서 정보가 저장된 훈련모듈;A training module in which order information is statistically stored from a target language corpus; 원시 언어 문장을 입력받아 형태소를 분석하는 형태소분석부;A morpheme analysis unit for receiving a source language sentence and analyzing a morpheme; 상기 형태소별로 구분된 상기 원시 언어 문장을 구성하는 소정의 제1품사들에 해당하는 단어들을 변수화하고 소정의 제2품사들에 해당하는 단어들은 은닉한 후 형태소가 태깅된 문장으로 구성하는 변수화부;A variable unit configured to variable words corresponding to predetermined first parts of speech constituting the primitive language sentences classified by the morphemes, and to conceal words corresponding to the predetermined second parts of speech and to form sentences tagged with morphemes; 상기 태깅된 문장을 입력받아 상기 대역 사전 데이터베이스로부터 해당되는 형태소별로 대상 언어 단어로 교체하고, 상기 대상 언어로 교체된 문장의 단어를 상기 순서 정보를 기초로 배열하는 단어배열부;A word array unit configured to receive the tagged sentences and replace the target language words with the corresponding morphemes from the band dictionary database, and arrange the words of the sentences replaced with the target language based on the order information; 상기 변수화된 품사의 원래의 단어를 복구하여 상기 교체된 대상 언어에 삽입하고 상기 은닉된 단어들을 복원하는 복구부; 및A recovery unit for recovering the original word of the variable part-of-speech, inserting it into the replaced target language, and restoring the hidden words; And 상기 태깅을 제거한 후 상기 원시 언어 문장 및 대상 언어의 특성에 따른 생성정보를 기초로 번역문을 출력하는 후처리부;를 포함하는 것을 특징으로 하는 번역문 생성 장치.And a post-processing unit for outputting a translation based on the generated information according to the characteristics of the source language and the target language after removing the tagging. 제6항에 있어서, 상기 훈련모듈은The method of claim 6, wherein the training module 상기 대상 언어 코퍼스를 문장단위로 입력받아 형태소를 분석하는 형태소추출부;A morpheme extraction unit configured to receive the target language corpus in sentence units and analyze morphemes; 상기 형태소별로 태깅을 한 후 소정의 품사들에 대하여 변수화하는 변수부;A variable unit for tagging the morphemes and then converting them to predetermined parts of speech; 변수화되고 형태소별로 태깅된 상기 입력문장을 구성하는 단어의 순서정보를 추출하는 순서정보추출부;An order information extracting unit for extracting order information of words constituting the input sentence that is parameterized and tagged according to morphemes; 상기 순서정보를 저장하는 저장부;를 포함하는 것을 특징으로 하는 번역문 생성 장치.And a storage unit storing the sequence information. 제6항에 있어서, 상기 저장부는The method of claim 6, wherein the storage unit 상기 단어간의 트라이그램, 바이그램, 그리고 모노그램의 빈도수에 기초한 확률값을 저장하는 것을 특징으로 하는 번역문 생성 장치.And a probability value based on the frequency of the trigram, the bigram, and the monogram between the words. 제6항에 있어서, 상기 단어배열부는The method of claim 6, wherein the word array unit 상기 대상 언어 단어가 하나 이상인 경우에는 각 단어가 삽입된 문장에 대하여 상기 훈련모듈의 저장부에 기록된 확률값에 기초하여 배열하는 것을 특징으로 하는 번역문 생성 장치.And when the target language word is one or more, the translation sentence generation device according to claim 1, wherein the sentence is arranged based on the probability value recorded in the storage unit of the training module. 제9항에 있어서, 상기 단어배열부는10. The method of claim 9, wherein the word array unit 상기 순서정보를 생성하는 과정에서 출현하지 않는 바이그램 리스트를 작성하여 상기 리스트에 해당되는 바이그램은 제외하는 것을 특징으로 하는 번역문 생성 장치.And generating a bigram list that does not appear in the process of generating the order information and excluding a bigram corresponding to the list. 제1항의 단계를 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the steps of claim 1 on a computer.
KR10-2002-0079265A 2002-12-12 2002-12-12 Method for machine translation using word-level statistical information and apparatus thereof KR100487716B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079265A KR100487716B1 (en) 2002-12-12 2002-12-12 Method for machine translation using word-level statistical information and apparatus thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0079265A KR100487716B1 (en) 2002-12-12 2002-12-12 Method for machine translation using word-level statistical information and apparatus thereof

Publications (2)

Publication Number Publication Date
KR20040051351A true KR20040051351A (en) 2004-06-18
KR100487716B1 KR100487716B1 (en) 2005-05-03

Family

ID=37345321

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0079265A KR100487716B1 (en) 2002-12-12 2002-12-12 Method for machine translation using word-level statistical information and apparatus thereof

Country Status (1)

Country Link
KR (1) KR100487716B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911372B1 (en) * 2006-12-05 2009-08-10 한국전자통신연구원 Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system
KR101023209B1 (en) * 2008-10-13 2011-03-18 한국전자통신연구원 Document translation apparatus and its method
WO2021112384A1 (en) * 2019-12-05 2021-06-10 울산대학교 산학협력단 Natural language representation method and computer program stored in medium to execute same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101359718B1 (en) 2012-05-17 2014-02-13 포항공과대학교 산학협력단 Conversation Managemnt System and Method Thereof

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100911372B1 (en) * 2006-12-05 2009-08-10 한국전자통신연구원 Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system
KR101023209B1 (en) * 2008-10-13 2011-03-18 한국전자통신연구원 Document translation apparatus and its method
WO2021112384A1 (en) * 2019-12-05 2021-06-10 울산대학교 산학협력단 Natural language representation method and computer program stored in medium to execute same
KR20210070685A (en) * 2019-12-05 2021-06-15 울산대학교 산학협력단 Natural language representation method and computer program stored in the medium for performing the same

Also Published As

Publication number Publication date
KR100487716B1 (en) 2005-05-03

Similar Documents

Publication Publication Date Title
US5930746A (en) Parsing and translating natural language sentences automatically
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
JP4986919B2 (en) Full-form lexicon with tagged data and method for constructing and using tagged data
KR101762866B1 (en) Statistical translation apparatus by separating syntactic translation model from lexical translation model and statistical translation method
Al Shamsi et al. A hidden Markov model-based POS tagger for Arabic
JP2002215617A (en) Method for attaching part of speech tag
JP2000353161A (en) Method and device for controlling style in generation of natural language
Sawalha Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora
Hamdi et al. POS-tagging of Tunisian dialect using standard Arabic resources and tools
Wang et al. MUXING: a telephone-access Mandarin conversational system.
Rasooli et al. Unsupervised morphology-based vocabulary expansion
WO2003079224A1 (en) Text generation method and text generation device
da Silva Shallow processing of Portuguese: From sentence chunking to nominal lemmatization
Soumya et al. Development of a POS tagger for Malayalam-an experience
Haertel et al. Automatic diacritization for low-resource languages using a hybrid word and consonant CMM
KR100487716B1 (en) Method for machine translation using word-level statistical information and apparatus thereof
KR102182248B1 (en) System and method for checking grammar and computer program for the same
JP7247460B2 (en) Correspondence Generating Program, Correspondence Generating Device, Correspondence Generating Method, and Translation Program
KR100650393B1 (en) A system for generating technique for generating korean phonetic alphabet
KR100911619B1 (en) Method and apparatus for constructing vocabulary pattern of english
Zribi et al. A Multi-Agent System for POS-Tagging Vocalized Arabic Texts.
KR100463376B1 (en) A Translation Engine Apparatus for Translating from Source Language to Target Language and Translation Method thereof
Cattoni et al. Robust analysis of spoken input combining statistical and knowledge-based information sources
L’haire FipsOrtho: A spell checker for learners of French
JP4088171B2 (en) Text analysis apparatus, method, program, and recording medium recording the program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100401

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee