KR101735314B1 - Apparatus and method for Hybride Translation - Google Patents
Apparatus and method for Hybride Translation Download PDFInfo
- Publication number
- KR101735314B1 KR101735314B1 KR1020150002051A KR20150002051A KR101735314B1 KR 101735314 B1 KR101735314 B1 KR 101735314B1 KR 1020150002051 A KR1020150002051 A KR 1020150002051A KR 20150002051 A KR20150002051 A KR 20150002051A KR 101735314 B1 KR101735314 B1 KR 101735314B1
- Authority
- KR
- South Korea
- Prior art keywords
- translation
- reliability
- value
- input
- statistical
- Prior art date
Links
Images
Classifications
-
- G06F17/2854—
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/04—Supports for telephone transmitters or receivers
-
- G06F17/289—
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J7/00—Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Power Engineering (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 하이브리드 번역 장치에 대하여 개시한다. 본 발명의 일면에 따른 하이브리드 번역 장치는, 입력문에 대해 통계 기반의 기계 번역을 수행하는 제1 번역기와 규칙 기반의 기계 번역을 수행하는 제2 번역기; 상기 제1 번역기의 상기 입력문에 대한 번역 결과인 제1 번역문에 대한 언어 모델, 상기 제2 번역기의 상기 입력문에 대한 번역 결과인 제2 번역문에 대한 언어 모델 및 번역 확률을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및 상기 제1 번역문 및 상기 제2 번역문의 성능을 정답문을 이용해 자동 평가한 결과를 이용해 상기 제1 번역기 및 상기 제2 번역기의 번역 성능을 기학습한 결과에 의해 생성되며, 상기 특징들을 분류하여 상기 제1 및 제2 번역문 중에서 신뢰도가 높은 번역문을 선택 및 출력하는 분류기를 포함하는 것을 특징으로 한다.The present invention relates to a hybrid translation device. A hybrid translation apparatus according to one aspect of the present invention includes a first translator for performing statistical-based machine translation on an input statement and a second translator for performing rule-based machine translation; A language model for a first translation as a translation result of the first translator, a language model for a second translation as a translation result for the input of the second translator, A feature extractor for extracting features that are translation reliability values of a translation, a translation of the second translation and a translation log of the translation process; And a result of learning the translation performance of the first translator and the second translator using a result of automatically evaluating the performance of the first translation and the second translation using a correct answer statement, And a classifier for selecting and outputting a highly reliable translation among the first and second translations.
Description
본 발명은 자동 번역 기술에 관한 것으로서, 더 구체적으로는 통계 및 규칙 기반의 자동 번역 기술을 사용하는 하이브리드 번역 장치 및 그 방법에 관한 것이다.The present invention relates to automatic translation technology, and more particularly, to a hybrid translation apparatus and method using statistical and rule-based automatic translation technology.
일반적으로, 자동 번역 기술은 정보 처리 장치와 기 구축된 번역 자원을 이용하여 원시 언어로 작성된 문장을 동일한 의미를 갖는 다른 목표 언어로 자동으로 변환하는 기술이다.Generally, automatic translation technology is a technology for automatically converting a sentence written in a source language into another target language having the same meaning by using an information processing device and pre-built translation resources.
근래 들어, 다양한 자동 번역 기술의 단점을 보완하고자 이종의 자동 번역 엔진을 서로 연결하여 사용하는 하이브리드 자동 번역 기술이 연구되고 있다.In recent years, hybrid automatic translation technology, which uses heterogeneous automatic translation engines connected to each other, has been studied to overcome the disadvantages of various automatic translation techniques.
종래의 하이브리드 번역 장치는 번역 결과, 번역 지식이나, 번역 로그를 사용한 두 개 이상의 번역 결과를 합치거나 그 중 하나를 선택하는 방식을 사용하였다.Conventional hybrid translation apparatuses combine translation results, translation knowledge, or two or more translation results using translation logs, or select one of them.
본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 본 발명의 목적은, 통계 및 규칙 기반의 자동 번역 기술을 사용하는 하이브리드 번역 장치 및 그 방법을 제공함에 있다. It is an object of the present invention to provide a hybrid translation apparatus and method using statistical and rule-based automatic translation technology.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.The objects of the present invention are not limited to the above-mentioned objects, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.
상기한 목적을 달성하기 위한 본 발명의 일 측면에 따른 하이브리드 번역 장치는, 입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 제1, 2 번역기; 상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및 상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 분류기를 포함할 수 있다.
상기 추출기에서 추출되는 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산한다.
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문이다.
한편, 본 발명의 다른 측면에 따른 하이브리드 번역 방법은, 입력문에 대해 통계 기반의 기계 번역 및 규칙 기반의 기계 번역을 각각 수행하여 각각의 제1,2 번역문을 생성하는 단계; 상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 단계; 및 상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 단계를 포함할 수 있다.
상기 추출된 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산한다.
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함한다.
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문이다. According to an aspect of the present invention, there is provided a hybrid translation apparatus for performing a statistical-based machine translation and a rule-based machine translation on an input sentence to generate first and second translated texts, respectively, , 2 translator; Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation Feature extractor; And calculating the reliability of the first translation and the second translation using the features of the extracted translation reliability value, and selecting and translating the translation having a high reliability value according to the calculated translation reliability values of the first and second translation And outputting a classifier.
Features extracted from the extractor include a language model value of an input query, a language model value of the first and second translation, and translation probability values of the translation model of the first translation.
The translation reliability values of the first and second translations are calculated using a SVM (Support Vector Machine) algorithm.
The translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, And the second translation is a translation in which a rule-based translation is performed on an input sentence using a translation rule through grammatical structure analysis of the language.
According to another aspect of the present invention, there is provided a hybrid translation method including: generating first and second translations by performing statistical-based machine translation and rule-based machine translation on an input statement, respectively; Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation step; And calculating the reliability of the first translation and the second translation using the features of the extracted translation reliability value, and selecting and translating the translation having a high reliability value according to the calculated translation reliability values of the first and second translation And outputting the output signal.
The extracted features include a language model value of an input query, a language model value of the first and second translated texts, and a translation probability value of the translation model of the first translated text.
The translation reliability values of the first and second translations are calculated using a SVM (Support Vector Machine) algorithm.
The translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, And the second translation is a translation in which a rule-based translation is performed on an input sentence using a translation rule through grammatical structure analysis of the language.
본 발명에 따르면, 더 나은 번역 결과를 선택적으로 이용할 수 있다.According to the present invention, a better translation result can be selectively used.
도 1은 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치를 도시한 구성도.
도 2는 본 발명의 실시예에 따른 번역 과정의 하이브리드 번역 장치를 도시한 구성도.1 is a block diagram showing a hybrid translation apparatus of a learning process according to an embodiment of the present invention;
BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]
본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
BRIEF DESCRIPTION OF THE DRAWINGS The above and other objects, advantages and features of the present invention and methods of achieving them will be apparent from the following detailed description of embodiments thereof taken in conjunction with the accompanying drawings. The present invention may, however, be embodied in many different forms and should not be construed as being limited to the embodiments set forth herein. Rather, these embodiments are provided so that this disclosure will be thorough and complete, and will fully convey the scope of the invention to those skilled in the art. Is provided to fully convey the scope of the invention to those skilled in the art, and the invention is only defined by the scope of the claims. It is to be understood that the terminology used herein is for the purpose of describing particular embodiments only and is not intended to be limiting of the invention. In the present specification, the singular form includes plural forms unless otherwise specified in the specification. As used herein, the terms " comprises, " and / or "comprising" refer to the presence or absence of one or more other components, steps, operations, and / Or additions.
이제 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치를 도시한 구성도이다.Embodiments of the present invention will now be described in detail with reference to the accompanying drawings. 1 is a block diagram showing a hybrid translation apparatus for a learning process according to an embodiment of the present invention.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 학습 과정의 하이브리드 번역 장치(10)는 자동 평가기(120), 특징 추출기(110), 기계학습기(140) 및 대용량 코퍼스(130)를 포함한다.1, the
제1 번역문은 입력문에 대한 통계기반 번역(SMT; Statistical Machine Translation) 수행 결과이다.The first translation is the result of statistical machine translation (SMT) on the input text.
제2 번역문은 입력문에 대해 규칙기반 번역(RBMT; Rule-based Machine Translation) 수행 결과이다. The second translation is the result of Rule-based Machine Translation (RBMT) for the input.
자동 평가기(120)는 입력문에 대하여 사람이 번역한 결과(즉, 정답 셋)을 이용하여, 예컨대, BLEU 방식으로 문장별 번역 성능을 평가할 수 있다. 학습 과정에서는 입력문에 대한 정답셋이 있으므로, 자동 평가기(120)는 문장별 번역 성능을 정확히 번역할 수 있다.The
구체적으로, 자동 평가기(120)는 제1 및 제2 번역문과 사람이 번역한 결과 간의 n-gram 차이를 계산하여 이를 0~1 사이의 수로 표현한다. 이때, 자동 번역된 결과와 사람이 번역한 결과가 일치하면, 계산된 수는 1이며, 계산된 수가 1에 가까울수록 자동 번역 결과의 정확도가 높은 것이다. 즉, 자동 평가기(120)는 계산된 0~1 사이의 자동 평가 결과값을 출력한다.Specifically, the
특징 추출기(Feature Extractor)(110)는 입력문과 제1 및 제2 번역문에 대한 대용량 언어모델, SMT 번역 모델 및 SMT 번역 로그(중간 결과) 중 적어도 하나와 입력문, 제1 및 제2 번역문을 이용하여 특징(번역 신뢰도)을 추출한다. Feature Extractor 110 uses at least one of an input statement, a large-capacity language model for first and second translations, an SMT translation model and an SMT translation log (intermediate result), an input statement, first and second translations To extract features (translation reliability).
구체적으로, 특징 추출기(110)는 입력문과 제1 및 제2 번역문에서 n-gram 기반의 언어모델(Language Model)의 확률값을 계산한다. 또한, 특징 추출기(110)는 SMT 번역 로그와 SMT 번역 모델에서 각 절 또는 구에서 번역 확률 및 어휘 확률을 계산한다. Specifically, the
예를 들어, n이 3인 경우, 특징 추출기(110)는 입력문인 "나는 어제 학교에 갔었다"에서 n-gram을 추출하여 "나 는 어제", "는 어제 학교", "어제 학교 에", "학교 에 갔", "에 갔 었다" 등을 추출한다. 그리고, 특징 추출기(110)는 이렇게 추출된 n-gram을 기반으로 대용량 코퍼스(Corpus, 말뭉치)(130)로부터 추출한 LM 사전 값을 기반으로 입력문에 대한 언어모델 값을 계산한다. 또한, 특징 추출기(110)는 제1 및 제2 번역문에서도 언어모델 값을 계산한다. 한편, SMT 번역 로그에는 "나는 학교에"에 대응하는 "I went to school"과 같은 대역정보가 있으므로, 특징 추출기(110)는 SMT 번역 로그를 이용하여 번역 모델의 번역 확률값(구/절 번역 확률(Phrase Probabilty) 및 어휘 확률(Lexical Probability)을 계산한다. 예를 들어, 특징 추출기(110)는 입력문의 언어모델 값과 각 번역문의 언어모델 값을 이용하여 각 번역문의 번역 신뢰도를 계산할 수 있다.For example, if n is 3, the
전술한 과정에서, 특징 추출기(110)는 실제로 SMT 번역 과정에서 사용되는 코퍼스보다 더 많은 데이터를 포함하는 대용량 코퍼스를 사용한다. 따라서, 본 발명에서는 이후 하이브리드 번역 과정에서 SMT 기반의 번역에 대해 더 높은 번역 신뢰도를 매기는 문제를 방지할 수 있다.In the above-described process, the
이 같이, 특징 추출기(110)는 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 특징(번역 신뢰도)으로 추출하여 기계학습기(140)로 전달한다.In this way, the
기계학습기(140)는 SVM(Support Vector Machine) 알고리즘에 기반하여 기계 학습을 수행하며, 자동 평가기(120)로부터의 제1 및 제2 번역문에 대한 자동 평가 결과인 제1 및 제2 평가치, 그리고 특징 추출기(110)로부터의 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 특징(번역 신뢰도)을 입력받아, 해당 입력을 이용한 기계학습을 수행하여 분류 모델을 생성한다.The
이때, 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값 및 번역 확률값은 각 번역방법의 번역 신뢰도를 계산한 상대적인 값이므로, 기계학습기(140)는 제1 및 제2 평가치와 특징값인 상대적인 번역 신뢰도 값을 이용한 학습을 수행하여, 제1 및 제2 번역문 중에서 상대적으로 번역 신뢰도가 높은 번역문을 선택하여 출력할 수 있는 분류 모델을 생성할 수 있다. 기계학습기(140)가 전술한 특징을 이용하여 분류 모델을 생성하는 과정에 대해서는 본 명세서로부터 당업자라면 자명하게 도출할 수 있으므로, 그에 대한 상세한 설명은 생략하기로 한다.
At this time, since the language model value of the input query, the language model value of the first and second translation, and the translation probability value are relative values that calculate the translation reliability of each translation method, the
이와 같이, 본 발명의 실시예는 기계학습에 사용되는 학습셋을 별도의 병렬말뭉치를 이용함으로써, 하이브리드 번역 과정에서 통계기반 번역 시스템에 편향되는 것을 방지할 수 있다.
As described above, the embodiment of the present invention can prevent the learning set used in the machine learning from being deviated to the statistical based translation system in the hybrid translation process by using a separate parallel corpus.
이하, 도 2를 참조하여 본 발명의 실시예에 따른 하이브리드 번역 장치의 번역 과정에 대하여 설명한다. 도 2는 본 발명의 실시예에 따른 하이브리드 번역 장치를 도시한 구성도이다.Hereinafter, a translation process of the hybrid translation apparatus according to the embodiment of the present invention will be described with reference to FIG. 2 is a block diagram illustrating a hybrid translation apparatus according to an embodiment of the present invention.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 하이브리드 번역 장치(20)는 제1 번역기(210), 제2 번역기(220), 특징 추출기(230) 및 분류기(240)를 포함한다.2, the
제1 번역기(210)는 입력문(input sentence, 즉, 번역 원문)에 대해 통계기반 번역(SMT; Statistical Machine Translation)을 수행하고, 그 결과 제1 번역문을 출력한다.The
이때, 제1 번역기(210)는 코퍼스 내 기구축된 통계 기반 번역지식을 이용하여 통계 기반 번역을 수행하는 것으로서, 입력문과 대역문 간의 통계 관계 정보를 수집하여 입력 단위에 대한 변환 정보를 구축한 후 이러한 변환 정보에 따라 통계 기반 번역을 수행할 수 있다.At this time, the
제2 번역기(220)는 입력문에 대해 규칙기반 번역(RBMT; Rule-based Machine Translation)을 수행하고, 그 결과 제2 번역문을 출력한다. 이때, 제2 번역기(220)는 언어의 문법 구조를 분석해 만들어진 번역 규칙을 이용하여 입력문을 번역하여 제2 번역문을 생성할 수 있다.The
특징 추출기(Feature Extractor)(230)는 입력문, 제1 및 제2 번역문 및 SMT 번역 로그(중간 결과), SMT 번역 모델을 이용하여, 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 포함하는 특징(번역 신뢰도)을 추출한다.The
분류기(240)는 SVM 알고리즘에 기반한 분류를 수행하고, 제1 번역문과 제2 번역문 중에서 신뢰도가 높은 번역문을 선택한다.The
상세하게는, 분류기(240)는 입력문의 언어모델 값, 제1 및 제2 번역문의 언어모델 값, SMT 번역 모델의 번역 확률값 등을 포함하는 제1 및 제2 번역문의 번역 신뢰도를 입력 및 확인하고, 기학습결과 생성된 분류 모델(도 1의 설명 참조)을 이용하여 제1 번역문과 제2 번역문 중에서 신뢰도가 높은 번역문을 출력한다. In detail, the
한편, 도 1 및 도 2의 설명에서는 하이브리드 번역 장치가 학습 과정 및 번역 과정에서 각기 다른 구성요소를 포함하는 경우를 예로 들어 설명하였다. 하지만, 하이브리드 번역 장치는 학습 및 번역 과정을 각기 수행할 수 있는 도 1 및 도 2를 통합하는 구성요소를 포함하도록 구성될 수도 있음은 물론이다.1 and 2, the case where the hybrid translation apparatus includes different components in the learning process and the translation process has been described as an example. However, it is needless to say that the hybrid translation device may be configured to include components that incorporate Figs. 1 and 2, respectively, to perform learning and translation processes.
또한, 하이브리드 번역 장치는 도 2의 구성과 달리, 제1 및 제2 번역기(210, 220)를 구비하지 않고, 외부의 SMT 번역을 수행하는 제1 장치와 외부의 RBMT 기반의 번역을 수행하는 제2 장치로부터 번역 결과를 제공받아, 그 중에서 신뢰도가 높은 번역문을 선택할 수도 있다.
Unlike the configuration shown in FIG. 2, the hybrid translation device does not include the first and
이와 같이, 본 발명의 실시예는 사람이 번역한 문장의 자동 평가 결과와 여러 언어 자원을 이용하여 번역 신뢰도를 계산하고, 각 번역 신뢰도에 대한 SVM 분류기를 통해 각 번역 신뢰도 중에서 상대적으로 점수가 높은 것을 파악하고, 번역 성능이 더 나은 결과를 사용자에게 제공할 수 있다.As described above, in the embodiment of the present invention, the translation reliability is calculated by using the automatic evaluation result of the sentence translated by the person and the various language resources, and the translation reliability of each of the translation reliability is higher through the SVM classifier for each translation reliability And provide users with better translation performance.
또한, 본 발명의 실시예는 여러 자동 번역 결과 중에서 최적의 번역 결과를 선택할 수 있다.
In addition, the embodiment of the present invention can select an optimum translation result from among various automatic translation results.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.While the present invention has been described in detail with reference to the accompanying drawings, it is to be understood that the invention is not limited to the above-described embodiments. Those skilled in the art will appreciate that various modifications, Of course, this is possible. Accordingly, the scope of protection of the present invention should not be limited to the above-described embodiments, but should be determined by the description of the following claims.
Claims (10)
상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 특징 추출기; 및
상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 분류기를 포함하고,
상기 추출기에서 추출되는 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함하고,
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산하며,
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함하는 것인 하이브리드 번역 장치.First and second translators for performing statistical-based machine translation and rule-based machine translation on an input statement, respectively, to generate first and second translated versions, respectively;
Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation Feature extractor; And
Calculating a reliability of each of the first translation and the second translation using the features of the extracted reliability reliability value and then selecting and outputting a translation having a high reliability value according to the calculated reliability reliability values of the first and second translation , ≪ / RTI >
The feature extracted from the extractor includes a language model value of an input query, a language model value of the first and second translation, and a translation probability of the translation model of the first translation,
The translation reliability values of the first and second translations are calculated using an SVM (Support Vector Machine) algorithm,
Wherein the translation reliability value includes a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
상기 생성된 제1,2 번역문 및 제1 번역문을 번역하기 위한 번역 로그 및 번역 모델을 이용하여 상기 제1 번역문, 상기 제2 번역문 및 번역 과정의 번역 로그의 번역 신뢰도 값인 특징(Feature)들을 추출하는 단계; 및
상기 추출된 번역 신뢰도 값인 특징들을 이용하여 상기 제1 번역문 및 상기 제2 번역문의 번역 신뢰도를 각각 계산한 후, 계산된 제1,2 번역문의 번역 신뢰도 값에 따라 신뢰도 값이 높은 번역문을 선택 및 출력하는 단계를 포함하고,
상기 추출된 특징(Feature)들은, 입력문의 언어 모델값, 제1,2 번역문의 언어 모델값, 상기 제1 번역문의 번역 모델의 번역 확률값을 포함하고,
상기 제1,2 번역문의 번역 신뢰도 값은 SVM(Support Vector machine) 알고리즘을 이용하여 계산하며,
상기 번역 신뢰도 값은, 제1,2 번역문의 언어 모델 값, 제1 번역문의 번역 모델의 번역 확률값을 포함하는 것인 하이브리드 번역 방법.Performing statistical-based machine translation and rule-based machine translation on the input statement to generate first and second translated versions, respectively;
Extracting features that are translation reliability values of the translation log of the first translation, the second translation and the translation process using a translation log and a translation model for translating the generated first and second translation and first translation step; And
Calculating a reliability of each of the first translation and the second translation using the features of the extracted reliability reliability value and then selecting and outputting a translation having a high reliability value according to the calculated reliability reliability values of the first and second translation , ≪ / RTI >
Wherein the extracted features include a language model value of an input query, a language model value of the first and second translated texts, and a translation probability value of a translation model of the first translated text,
The translation reliability values of the first and second translations are calculated using an SVM (Support Vector Machine) algorithm,
Wherein the translation reliability value comprises a language model value of the first and second translation and a translation probability value of the translation model of the first translation.
상기 제1 번역문은 코퍼스내 기 구축된 통계 기반 번역 지식을 이용하여 입력문과 대역문간의 통계 관계 정보를 수집하고, 수집된 통계 관계 정보에 따라 입력 단위에 대한 변환 정보를 구축한 후, 구축된 변환 정보에 따라 통계 기반 번역된 번역문이고, 제2 번역문은 언어의 문법 구조 분석을 통한 번역 규칙을 이용하여 입력문에 대한 규칙 기반 번역이 수행된 번역문인 것인 하이브리드 번역 방법.
The method according to claim 6,
In the first translation, statistical relationship information between the input statement and the band sentence is collected using the statistical-based translation knowledge constructed in the corpus, the conversion information for the input unit is constructed according to the collected statistical relationship information, Wherein the first translation is a statistical translation based on information and the second translation is a translation in which rule-based translation of an input sentence is performed using a translation rule through grammatical structure analysis of the language.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150002051A KR101735314B1 (en) | 2015-01-07 | 2015-01-07 | Apparatus and method for Hybride Translation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150002051A KR101735314B1 (en) | 2015-01-07 | 2015-01-07 | Apparatus and method for Hybride Translation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160085100A KR20160085100A (en) | 2016-07-15 |
KR101735314B1 true KR101735314B1 (en) | 2017-05-16 |
Family
ID=56505996
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150002051A KR101735314B1 (en) | 2015-01-07 | 2015-01-07 | Apparatus and method for Hybride Translation |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101735314B1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102424540B1 (en) | 2017-10-16 | 2022-07-25 | 삼성전자주식회사 | Updating method of sentence generation model and sentence generation apparatus |
CN109271521B (en) * | 2018-11-16 | 2021-03-30 | 北京九狐时代智能科技有限公司 | Text classification method and device |
-
2015
- 2015-01-07 KR KR1020150002051A patent/KR101735314B1/en active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR20160085100A (en) | 2016-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101694286B1 (en) | Apparatus and method for providing two-way automatic interpretation and tranlating service | |
US10748528B2 (en) | Language model generating device, language model generating method, and recording medium | |
US10303775B2 (en) | Statistical machine translation method using dependency forest | |
KR20180078318A (en) | Methods and Apparatus for Determining the Agents | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
KR20160060247A (en) | System and Method for Question and answer of Natural Language and Paraphrase Module | |
WO2003056450A1 (en) | Syntax analysis method and apparatus | |
JP6946842B2 (en) | Model learners, converters, methods, and programs | |
Pal et al. | Automatic building and using parallel resources for SMT from comparable corpora | |
KR20080069077A (en) | Automatic speech interpretation system based on statistical automatic translation mode, translation processing method and training method thereof | |
KR20090061158A (en) | Method and apparatus for correcting of translation error by using error-correction pattern in a translation system | |
KR20080052282A (en) | Apparatus and method for unsupervised learning translation relationships among words and phrases in the statistical machine translation system | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
KR101735314B1 (en) | Apparatus and method for Hybride Translation | |
Saloot et al. | Toward tweets normalization using maximum entropy | |
JP2007317000A (en) | Machine translation device, its method, and program | |
US20230028376A1 (en) | Abstract learning method, abstract learning apparatus and program | |
Novák | Pronoun prediction with linguistic features and example weighing | |
Mathew et al. | Paraphrase identification of Malayalam sentences-an experience | |
Khenglawt | Machine translation and its approaches | |
Nidhi et al. | English-maithili machine translation and divergence | |
WO2022123716A1 (en) | Predicate argument structure modification program, predicate argument structure modification method, and information processing device | |
JP4039205B2 (en) | Natural language processing system, natural language processing method, and computer program | |
Huu et al. | Dependency-based pre-ordering of preposition phrases in Chinese-Vietnamese machine translation | |
JP6730710B2 (en) | Syntax evaluation device, translation device, syntax evaluation method, and syntax evaluation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
GRNT | Written decision to grant |