KR101735314B1 - Apparatus and method for Hybride Translation - Google Patents

Apparatus and method for Hybride Translation Download PDF

Info

Publication number
KR101735314B1
KR101735314B1 KR1020150002051A KR20150002051A KR101735314B1 KR 101735314 B1 KR101735314 B1 KR 101735314B1 KR 1020150002051 A KR1020150002051 A KR 1020150002051A KR 20150002051 A KR20150002051 A KR 20150002051A KR 101735314 B1 KR101735314 B1 KR 101735314B1
Authority
KR
South Korea
Prior art keywords
translation
reliability
value
input
statistical
Prior art date
Application number
KR1020150002051A
Other languages
Korean (ko)
Other versions
KR20160085100A (en
Inventor
박은진
권오욱
김강일
김영길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020150002051A priority Critical patent/KR101735314B1/en
Publication of KR20160085100A publication Critical patent/KR20160085100A/en
Application granted granted Critical
Publication of KR101735314B1 publication Critical patent/KR101735314B1/en

Links

Images

Classifications

    • G06F17/2854
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/02Constructional features of telephone sets
    • H04M1/04Supports for telephone transmitters or receivers
    • G06F17/289
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J7/00Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Power Engineering (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 하이브리드 번역 장치에 대하여 개시한다. 본 발명의 일면에 따른 하이브리드 번역 장치는, 입력문에 대해 통계 기반의 기계 번역을 수행하는 제1 번역기와 규칙 기반의 기계 번역을 수행하는 제2 번역기; 상기 제1 번역기의 상기 입력문에 대한 번역 결과인 제1 번역문에 대한 언어 모델, 상기 제2 번역기의 상기 입력문에 대한 번역 결과인 제2 번역문에 대한 언어 모델 및 번역 확률을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및 상기 제1 번역문 및 상기 제2 번역문의 성능을 정답문을 이용해 자동 평가한 결과를 이용해 상기 제1 번역기 및 상기 제2 번역기의 번역 성능을 기학습한 결과에 의해 생성되며, 상기 특징들을 분류하여 상기 제1 및 제2 번역문 중에서 신뢰도가 높은 번역문을 선택 및 출력하는 분류기를 포함하는 것을 특징으로 한다.The present invention relates to a hybrid translation device. A hybrid translation apparatus according to one aspect of the present invention includes a first translator for performing statistical-based machine translation on an input statement and a second translator for performing rule-based machine translation; A language model for a first translation as a translation result of the first translator, a language model for a second translation as a translation result for the input of the second translator, A feature extractor for extracting features that are translation reliability values of a translation, a translation of the second translation and a translation log of the translation process; And a result of learning the translation performance of the first translator and the second translator using a result of automatically evaluating the performance of the first translation and the second translation using a correct answer statement, And a classifier for selecting and outputting a highly reliable translation among the first and second translations.

Figure R1020150002051
Figure R1020150002051

Description

하이브리드 번역 장치 및 그 방법{Apparatus and method for Hybride Translation}[0001] Apparatus and method for Hybride Translation [

본 발명은 자동 번역 기술에 관한 것으로서, 더 구체적으로는 통계 및 규칙 기반의 자동 번역 기술을 사용하는 하이브리드 번역 장치 및 그 방법에 관한 것이다.The present invention relates to automatic translation technology, and more particularly, to a hybrid translation apparatus and method using statistical and rule-based automatic translation technology.

일반적으로, 자동 번역 기술은 정보 처리 장치와 기 구축된 번역 자원을 이용하여 원시 언어로 작성된 문장을 동일한 의미를 갖는 다른 목표 언어로 자동으로 변환하는 기술이다.Generally, automatic translation technology is a technology for automatically converting a sentence written in a source language into another target language having the same meaning by using an information processing device and pre-built translation resources.

근래 들어, 다양한 자동 번역 기술의 단점을 보완하고자 이종의 자동 번역 엔진을 서로 연결하여 사용하는 하이브리드 자동 번역 기술이 연구되고 있다.In recent years, hybrid automatic translation technology, which uses heterogeneous automatic translation engines connected to each other, has been studied to overcome the disadvantages of various automatic translation techniques.

종래의 하이브리드 번역 장치는 번역 결과, 번역 지식이나, 번역 로그를 사용한 두 개 이상의 번역 결과를 합치거나 그 중 하나를 선택하는 방식을 사용하였다.Conventional hybrid translation apparatuses combine translation results, translation knowledge, or two or more translation results using translation logs, or select one of them.

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 본 발명의 목적은, 통계 및 규칙 기반의 자동 번역 기술을 사용하는 하이브리드 번역 장치 및 그 방법을 제공함에 있다. It is an object of the present invention to provide a hybrid translation apparatus and method using statistical and rule-based automatic translation technology.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

상기한 목적을 달성하기 위한 본 발명의 일 측면에 따른 하이브리드 번역 장치는, 입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 제1, 2 번역기; 상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및 상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 분류기를 포함할 수 있다.
상기 추출기에서 추출되는 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산한다.
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문이다.
한편, 본 발명의 다른 측면에 따른 하이브리드 번역 방법은, 입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 단계; 상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 단계; 및 상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 단계를 포함할 수 있다.
상기 추출된 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산한다.
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문이다.
According to an aspect of the present invention, there is provided a hybrid translation apparatus for performing a statistical-based machine translation and a rule-based machine translation on an input sentence to generate first and second translated texts, respectively, , 2 translator; Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation Feature extractor; And calculating the reliability of the first translation and the second translation using the features of the extracted translation reliability value, and selecting and translating the translation having a high reliability value according to the calculated translation reliability values of the first and second translation And outputting a classifier.
Features extracted from the extractor include a language model value of an input query, a language model value of the first and second translation, and translation probability values of the translation model of the first translation.
The translation reliability values of the first and second translations are calculated using a SVM (Support Vector Machine) algorithm.
The translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, And the second translation is a translation in which a rule-based translation is performed on an input sentence using a translation rule through grammatical structure analysis of the language.
According to another aspect of the present invention, there is provided a hybrid translation method including: generating first and second translations by performing statistical-based machine translation and rule-based machine translation on an input statement, respectively; Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation step; And calculating the reliability of the first translation and the second translation using the features of the extracted translation reliability value, and selecting and translating the translation having a high reliability value according to the calculated translation reliability values of the first and second translation And outputting the output signal.
The extracted features include a language model value of an input query, a language model value of the first and second translated texts, and a translation probability value of the translation model of the first translated text.
The translation reliability values of the first and second translations are calculated using a SVM (Support Vector Machine) algorithm.
The translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, And the second translation is a translation in which a rule-based translation is performed on an input sentence using a translation rule through grammatical structure analysis of the language.

본 발명에 따르면, 더 나은 번역 결과를 선택적으로 이용할 수 있다.According to the present invention, a better translation result can be selectively used.

도 1은 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치를 도시한 구성도.
도 2는 본 발명의 실시예에 따른 번역 과정의 하이브리드 번역 장치를 도시한 구성도.
1 is a block diagram showing a hybrid translation apparatus of a learning process according to an embodiment of the present invention;
BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, advantages and features of the present invention and methods of achieving them will be apparent from the following detailed description of embodiments thereof taken in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. As used herein, the terms " comprises, " and / or "comprising" refer to the presence or absence of one or more other components, steps, operations, and / Or additions.

이제 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치를 도시한 구성도이다.Embodiments of the present invention will now be described in detail with reference to the accompanying drawings. 1 is a block diagram showing a hybrid translation apparatus for a learning process according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치(10)는 자동 평가기(120), 특징 추출기(110), 기계학습기(140) 및 대용량 코퍼스(130)를 포함한다.1, the hybrid translation apparatus 10 of the learning process according to the embodiment of the present invention includes an automatic evaluator 120, a feature extractor 110, a machine learning device 140, and a large capacity corpora 130 .

제1 번역문은 입력문에 대한 통계기반 번역(SMT; Statistical Machine Translation) 수행 결과이다.The first translation is the result of statistical machine translation (SMT) on the input text.

제2 번역문은 입력문에 대해 규칙기반 번역(RBMT; Rule-based Machine Translation) 수행 결과이다. The second translation is the result of Rule-based Machine Translation (RBMT) for the input.

자동 평가기(120)는 입력문에 대하여 사람이 번역한 결과(즉, 정답 셋)을 이용하여, 예컨대, BLEU 방식으로 문장별 번역 성능을 평가할 수 있다. 학습 과정에서는 입력문에 대한 정답셋이 있으므로, 자동 평가기(120)는 문장별 번역 성능을 정확히 번역할 수 있다.The automatic evaluator 120 can evaluate the translation performance of each sentence by using, for example, the BLEU method, using the result of human translation (i.e., correct answer set) with respect to the input sentence. Since the learning process has a set of correct answers to the input statements, the automatic evaluator 120 can correctly translate the translation performance per sentence.

구체적으로, 자동 평가기(120)는 제1 및 제2 번역문과 사람이 번역한 결과 간의 n-gram 차이를 계산하여 이를 0~1 사이의 수로 표현한다. 이때, 자동 번역된 결과와 사람이 번역한 결과가 일치하면, 계산된 수는 1이며, 계산된 수가 1에 가까울수록 자동 번역 결과의 정확도가 높은 것이다. 즉, 자동 평가기(120)는 계산된 0~1 사이의 자동 평가 결과값을 출력한다.Specifically, the automatic evaluator 120 calculates an n-gram difference between the first and second translated texts and the result of human translation, and expresses the n-gram difference as a number between 0 and 1. At this time, if the automatic translation result matches the person translation result, the calculated number is 1, and the closer the calculated number is to 1, the higher the accuracy of the automatic translation result. That is, the automatic evaluator 120 outputs the calculated automatic evaluation result value between 0 and 1.

특징 추출기(Feature Extractor)(110)는 입력문과 제1 및 제2 번역문에 대한 대용량 언어모델, SMT 번역 모델 및 SMT 번역 로그(중간 결과) 중 적어도 하나와 입력문, 제1 및 제2 번역문을 이용하여 특징(번역 신뢰도)을 추출한다. Feature Extractor 110 uses at least one of an input statement, a large-capacity language model for first and second translations, an SMT translation model and an SMT translation log (intermediate result), an input statement, first and second translations To extract features (translation reliability).

구체적으로, 특징 추출기(110)는 입력문과 제1 및 제2 번역문에서 n-gram 기반의 언어모델(Language Model)의 확률값을 계산한다. 또한, 특징 추출기(110)는 SMT 번역 로그와 SMT 번역 모델에서 각 절 또는 구에서 번역 확률 및 어휘 확률을 계산한다. Specifically, the feature extractor 110 calculates a probability value of an n-gram based language model in the input statement and the first and second translations. In addition, the feature extractor 110 calculates translation probabilities and lexical probabilities in each clause or phrase in the SMT translation log and the SMT translation model.

예를 들어, n이 3인 경우, 특징 추출기(110)는 입력문인 "나는 어제 학교에 갔었다"에서 n-gram을 추출하여 "나 는 어제", "는 어제 학교", "어제 학교 에", "학교 에 갔", "에 갔 었다" 등을 추출한다. 그리고, 특징 추출기(110)는 이렇게 추출된 n-gram을 기반으로 대용량 코퍼스(Corpus, 말뭉치)(130)로부터 추출한 LM 사전 값을 기반으로 입력문에 대한 언어모델 값을 계산한다. 또한, 특징 추출기(110)는 제1 및 제2 번역문에서도 언어모델 값을 계산한다. 한편, SMT 번역 로그에는 "나는 학교에"에 대응하는 "I went to school"과 같은 대역정보가 있으므로, 특징 추출기(110)는 SMT 번역 로그를 이용하여 번역 모델의 번역 확률값(구/절 번역 확률(Phrase Probabilty) 및 어휘 확률(Lexical Probability)을 계산한다. 예를 들어, 특징 추출기(110)는 입력문의 언어모델 값과 각 번역문의 언어모델 값을 이용하여 각 번역문의 번역 신뢰도를 계산할 수 있다.For example, if n is 3, the feature extractor 110 extracts the n-gram from the input text "I went to school yesterday" "Went to school", "went to" and so on. Then, the feature extractor 110 calculates a language model value for the input statement based on the LM dictionary value extracted from the large-capacity corpus 130 based on the extracted n-gram. The feature extractor 110 also calculates the language model values in the first and second translations. On the other hand, since the SMT translation log has band information such as "I went to school" corresponding to " I am at school ", the feature extractor 110 uses the SMT translation log to calculate the translation probability For example, the feature extractor 110 can calculate the translation reliability of each translation using the language model value of the input query and the language model value of each translation.

전술한 과정에서, 특징 추출기(110)는 실제로 SMT 번역 과정에서 사용되는 코퍼스보다 더 많은 데이터를 포함하는 대용량 코퍼스를 사용한다. 따라서, 본 발명에서는 이후 하이브리드 번역 과정에서 SMT 기반의 번역에 대해 더 높은 번역 신뢰도를 매기는 문제를 방지할 수 있다.In the above-described process, the feature extractor 110 uses a large-capacity corpus containing more data than the corpus actually used in the SMT translation process. Therefore, in the present invention, it is possible to avoid a problem of giving a higher translation reliability to the SMT-based translation in the hybrid translation process.

이 같이, 특징 추출기(110)는 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 특징(번역 신뢰도)으로 추출하여 기계학습기(140)로 전달한다.In this way, the feature extractor 110 extracts the language model value of the input query, the language model value of the first and second translation, the translation probability value of the SMT translation model, and the like as a feature (translation reliability) and transmits the extracted feature to the machine learning device 140 .

기계학습기(140)는 SVM(Support Vector Machine) 알고리즘에 기반하여 기계 학습을 수행하며, 자동 평가기(120)로부터의 제1 및 제2 번역문에 대한 자동 평가 결과인 제1 및 제2 평가치, 그리고 특징 추출기(110)로부터의 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 특징(번역 신뢰도)을 입력받아, 해당 입력을 이용한 기계학습을 수행하여 분류 모델을 생성한다.The machine learning unit 140 performs machine learning based on a SVM (Support Vector Machine) algorithm, and generates first and second evaluation values, which are automatic evaluation results of the first and second translations from the automatic evaluator 120, Then, the feature (translation reliability) is input to the language model value of the input inquiry from the feature extractor 110, the language model value of the first and second translation, the translation probability value of the SMT translation model, and the like, And generates a classification model.

이때, 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값 및 번역 확률값은 각 번역방법의 번역 신뢰도를 계산한 상대적인 값이므로, 기계학습기(140)는 제1 및 제2 평가치와 특징값인 상대적인 번역 신뢰도 값을 이용한 학습을 수행하여, 제1 및 제2 번역문 중에서 상대적으로 번역 신뢰도가 높은 번역문을 선택하여 출력할 수 있는 분류 모델을 생성할 수 있다. 기계학습기(140)가 전술한 특징을 이용하여 분류 모델을 생성하는 과정에 대해서는 본 명세서로부터 당업자라면 자명하게 도출할 수 있으므로, 그에 대한 상세한 설명은 생략하기로 한다.
At this time, since the language model value of the input query, the language model value of the first and second translation, and the translation probability value are relative values that calculate the translation reliability of each translation method, the machine learning device 140 determines the first and second evaluation values And a translation model having a relatively high translation reliability can be selected and output from among the first and second translations. The process of generating the classification model using the above-described features of the machine learning device 140 will be apparent to those skilled in the art from this specification, and a detailed description thereof will be omitted.

이와 같이, 본 발명의 실시예는 기계학습에 사용되는 학습셋을 별도의 병렬말뭉치를 이용함으로써, 하이브리드 번역 과정에서 통계기반 번역 시스템에 편향되는 것을 방지할 수 있다.
As described above, the embodiment of the present invention can prevent the learning set used in the machine learning from being deviated to the statistical based translation system in the hybrid translation process by using a separate parallel corpus.

이하, 도 2를 참조하여 본 발명의 실시예에 따른 하이브리드 번역 장치의 번역 과정에 대하여 설명한다. 도 2는 본 발명의 실시예에 따른 하이브리드 번역 장치를 도시한 구성도이다.Hereinafter, a translation process of the hybrid translation apparatus according to the embodiment of the present invention will be described with reference to FIG. 2 is a block diagram illustrating a hybrid translation apparatus according to an embodiment of the present invention.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 하이브리드 번역 장치(20)는 제1 번역기(210), 제2 번역기(220), 특징 추출기(230) 및 분류기(240)를 포함한다.2, the hybrid translation apparatus 20 according to the embodiment of the present invention includes a first translator 210, a second translator 220, a feature extractor 230, and a sorter 240.

제1 번역기(210)는 입력문(input sentence, 즉, 번역 원문)에 대해 통계기반 번역(SMT; Statistical Machine Translation)을 수행하고, 그 결과 제1 번역문을 출력한다.The first translator 210 performs statistical machine translation (SMT) on the input sentence (i.e., the translation original text) and outputs the first translation as a result.

이때, 제1 번역기(210)는 코퍼스 내 기구축된 통계 기반 번역지식을 이용하여 통계 기반 번역을 수행하는 것으로서, 입력문과 대역문 간의 통계 관계 정보를 수집하여 입력 단위에 대한 변환 정보를 구축한 후 이러한 변환 정보에 따라 통계 기반 번역을 수행할 수 있다.At this time, the first translator 210 performs statistical-based translation using the statistical-based translation knowledge constructed in the corpus. The first translator 210 collects statistical relationship information between the input statement and the band sentence, Based on this conversion information, statistical translation can be performed.

제2 번역기(220)는 입력문에 대해 규칙기반 번역(RBMT; Rule-based Machine Translation)을 수행하고, 그 결과 제2 번역문을 출력한다. 이때, 제2 번역기(220)는 언어의 문법 구조를 분석해 만들어진 번역 규칙을 이용하여 입력문을 번역하여 제2 번역문을 생성할 수 있다.The second translator 220 performs rule-based translation (RBMT) on the input statement, and outputs the second translation as a result. At this time, the second translator 220 can generate the second translation by translating the input sentence using the translation rule created by analyzing the grammar structure of the language.

특징 추출기(Feature Extractor)(230)는 입력문, 제1 및 제2 번역문 및 SMT 번역 로그(중간 결과), SMT 번역 모델을 이용하여, 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 포함하는 특징(번역 신뢰도)을 추출한다.The feature extractor 230 uses the input statement, the first and second translation and the SMT translation log (intermediate result), the SMT translation model to determine the language model value of the input query, the language model of the first and second translations Value, a translation probability value of the SMT translation model, and the like (translation reliability).

분류기(240)는 SVM 알고리즘에 기반한 분류를 수행하고, 제1 번역문과 제2 번역문 중에서 신뢰도가 높은 번역문을 선택한다.The classifier 240 performs classification based on the SVM algorithm and selects a highly reliable translation from among the first translation and the second translation.

상세하게는, 분류기(240)는 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 포함하는 제1 및 제2 번역문의 번역 신뢰도를 입력 및 확인하고, 기학습결과 생성된 분류 모델(도 1의 설명 참조)을 이용하여 제1 번역문과 제2 번역문 중에서 신뢰도가 높은 번역문을 출력한다. In detail, the classifier 240 inputs and confirms the translation reliability of the first and second translations including the language model value of the input query, the language model value of the first and second translation, the translation probability value of the SMT translation model, and the like , And outputs a highly reliable translation from the first translation and the second translation using the classification model (see the description of FIG. 1) generated as a result of the learning.

한편, 도 1 및 도 2의 설명에서는 하이브리드 번역 장치가 학습 과정 및 번역 과정에서 각기 다른 구성요소를 포함하는 경우를 예로 들어 설명하였다. 하지만, 하이브리드 번역 장치는 학습 및 번역 과정을 각기 수행할 수 있는 도 1 및 도 2를 통합하는 구성요소를 포함하도록 구성될 수도 있음은 물론이다.1 and 2, the case where the hybrid translation apparatus includes different components in the learning process and the translation process has been described as an example. However, it is needless to say that the hybrid translation device may be configured to include components that incorporate Figs. 1 and 2, respectively, to perform learning and translation processes.

또한, 하이브리드 번역 장치는 도 2의 구성과 달리, 제1 및 제2 번역기(210, 220)를 구비하지 않고, 외부의 SMT 번역을 수행하는 제1 장치와 외부의 RBMT 기반의 번역을 수행하는 제2 장치로부터 번역 결과를 제공받아, 그 중에서 신뢰도가 높은 번역문을 선택할 수도 있다.
Unlike the configuration shown in FIG. 2, the hybrid translation device does not include the first and second translators 210 and 220, and includes a first device for performing an external SMT translation and a second device for performing an external RBMT- 2 device, it is possible to select a translation having high reliability from the translation result.

이와 같이, 본 발명의 실시예는 사람이 번역한 문장의 자동 평가 결과와 여러 언어 자원을 이용하여 번역 신뢰도를 계산하고, 각 번역 신뢰도에 대한 SVM 분류기를 통해 각 번역 신뢰도 중에서 상대적으로 점수가 높은 것을 파악하고, 번역 성능이 더 나은 결과를 사용자에게 제공할 수 있다.As described above, in the embodiment of the present invention, the translation reliability is calculated by using the automatic evaluation result of the sentence translated by the person and the various language resources, and the translation reliability of each of the translation reliability is higher through the SVM classifier for each translation reliability And provide users with better translation performance.

또한, 본 발명의 실시예는 여러 자동 번역 결과 중에서 최적의 번역 결과를 선택할 수 있다.
In addition, the embodiment of the present invention can select an optimum translation result from among various automatic translation results.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.While the present invention has been described in detail with reference to the accompanying drawings, it is to be understood that the invention is not limited to the above-described embodiments. Those skilled in the art will appreciate that various modifications, Of course, this is possible. Accordingly, the scope of protection of the present invention should not be limited to the above-described embodiments, but should be determined by the description of the following claims.

Claims (10)

입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 제1, 2 번역기;
상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및
상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 분류기를 포함하고,
상기 추출기에서 추출되는 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함하고,
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산하며,
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함하는 것인 하이브리드 번역 장치.
First and second translators for performing statistical-based machine translation and rule-based machine translation on an input statement, respectively, to generate first and second translated versions, respectively;
Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation Feature extractor; And
Calculating a reliability of each of the first translation and the second translation using the features of the extracted reliability reliability value and then selecting and outputting a translation having a high reliability value according to the calculated reliability reliability values of the first and second translation , ≪ / RTI >
The feature extracted from the extractor includes a language model value of an input query, a language model value of the first and second translation, and a translation probability of the translation model of the first translation,
The translation reliability values of the first and second translations are calculated using an SVM (Support Vector Machine) algorithm,
Wherein the translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
삭제delete 삭제delete 삭제delete 제1항에 있어서, 상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문인 것인 하이브리드 번역 장치. The method according to claim 1, wherein the first translation uses statistical translation knowledge built in the corpus to collect statistical relationship information between the input statement and the band sentence, and converts the input unit according to the collected statistical relationship information And the second translation is a translation in which a rule-based translation of the input statement is performed using a translation rule through grammatical structure analysis of the language. 입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 단계;
상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 단계; 및
상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 단계를 포함하고,
상기 추출된 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함하고,
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산하며,
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함하는 것인 하이브리드 번역 방법.
Performing statistical-based machine translation and rule-based machine translation on the input statement to generate first and second translated versions, respectively;
Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation step; And
Calculating a reliability of each of the first translation and the second translation using the features of the extracted reliability reliability value and then selecting and outputting a translation having a high reliability value according to the calculated reliability reliability values of the first and second translation , ≪ / RTI >
Wherein the extracted features include a language model value of an input query, a language model value of the first and second translated texts, and a translation probability value of a translation model of the first translated text,
The translation reliability values of the first and second translations are calculated using an SVM (Support Vector Machine) algorithm,
Wherein the translation reliability value comprises a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
삭제delete 삭제delete 삭제delete 제6항에 있어서,
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문인 것인 하이브리드 번역 방법.
The method according to claim 6,
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, Wherein the first translation is a statistical translation based on information and the second translation is a translation in which rule-based translation of an input sentence is performed using a translation rule through grammatical structure analysis of the language.
KR1020150002051A 2015-01-07 2015-01-07 Apparatus and method for Hybride Translation KR101735314B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150002051A KR101735314B1 (en) 2015-01-07 2015-01-07 Apparatus and method for Hybride Translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150002051A KR101735314B1 (en) 2015-01-07 2015-01-07 Apparatus and method for Hybride Translation

Publications (2)

Publication Number Publication Date
KR20160085100A KR20160085100A (en) 2016-07-15
KR101735314B1 true KR101735314B1 (en) 2017-05-16

Family

ID=56505996

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150002051A KR101735314B1 (en) 2015-01-07 2015-01-07 Apparatus and method for Hybride Translation

Country Status (1)

Country Link
KR (1) KR101735314B1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102424540B1 (en) 2017-10-16 2022-07-25 삼성전자주식회사 Updating method of sentence generation model and sentence generation apparatus
CN109271521B (en) * 2018-11-16 2021-03-30 北京九狐时代智能科技有限公司 Text classification method and device

Also Published As

Publication number Publication date
KR20160085100A (en) 2016-07-15

Similar Documents

Publication Publication Date Title
KR101694286B1 (en) Apparatus and method for providing two-way automatic interpretation and tranlating service
US10748528B2 (en) Language model generating device, language model generating method, and recording medium
US10303775B2 (en) Statistical machine translation method using dependency forest
KR20180078318A (en) Methods and Apparatus for Determining the Agents
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
KR20160060247A (en) System and Method for Question and answer of Natural Language and Paraphrase Module
WO2003056450A1 (en) Syntax analysis method and apparatus
JP6946842B2 (en) Model learners, converters, methods, and programs
Pal et al. Automatic building and using parallel resources for SMT from comparable corpora
KR20080069077A (en) Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof
KR20090061158A (en) Method and apparatus for correcting of translation error by using error-correction pattern in a translation system
KR20080052282A (en) Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system
Reshadat et al. A new open information extraction system using sentence difficulty estimation
KR101735314B1 (en) Apparatus and method for Hybride Translation
Saloot et al. Toward tweets normalization using maximum entropy
JP2007317000A (en) Machine translation device, its method, and program
US20230028376A1 (en) Abstract learning method, abstract learning apparatus and program
Novák Pronoun prediction with linguistic features and example weighing
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Khenglawt Machine translation and its approaches
Nidhi et al. English-maithili machine translation and divergence
WO2022123716A1 (en) Predicate argument structure modification program, predicate argument structure modification method, and information processing device
JP4039205B2 (en) Natural language processing system, natural language processing method, and computer program
Huu et al. Dependency-based pre-ordering of preposition phrases in Chinese-Vietnamese machine translation
JP6730710B2 (en) Syntax evaluation device, translation device, syntax evaluation method, and syntax evaluation program

Legal Events

Date Code Title Description
A201 Request for examination
GRNT Written decision to grant