KR20130014106A - 다중 번역 엔진을 사용한 번역 장치 및 방법 - Google Patents

다중 번역 엔진을 사용한 번역 장치 및 방법 Download PDF

Info

Publication number
KR20130014106A
KR20130014106A KR1020110076035A KR20110076035A KR20130014106A KR 20130014106 A KR20130014106 A KR 20130014106A KR 1020110076035 A KR1020110076035 A KR 1020110076035A KR 20110076035 A KR20110076035 A KR 20110076035A KR 20130014106 A KR20130014106 A KR 20130014106A
Authority
KR
South Korea
Prior art keywords
translation
sentences
sentence
sample
engine
Prior art date
Application number
KR1020110076035A
Other languages
English (en)
Inventor
양성일
김창현
서영애
신종훈
황금하
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020110076035A priority Critical patent/KR20130014106A/ko
Priority to US13/560,151 priority patent/US20130030790A1/en
Publication of KR20130014106A publication Critical patent/KR20130014106A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

다중 번역 엔진을 사용하는 번역 하는 장치 및 방법이 개시된다.
다중 번역 엔진을 사용한 번역 장치는 원본 문장의 구조를 분석하는 구조 분석부; 적어도 하나의 번역 엔진으로부터 원본 문장을 번역한 번역 문장들을 수신하는 문장 수신부; 및 원본 문장의 구조에 따른 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 문장 결정부를 포함할 수 있다.

Description

다중 번역 엔진을 사용한 번역 장치 및 방법{APPARATUS AND METHOD FOR TRANSLATING USING MULTIPLE TRANSLATION ENGINE}
본 발명은 다중 번역 엔진을 사용하는 번역 하는 장치 및 방법에 관한 것으로, 보다 상세하게는 번역 엔진 별로 문장의 특징이나 구조에 따른 번역 성능을 판별하여 저장함으로써, 복수의 번역 엔진이 각각 원문 문장에 따라 번역한 번역 문장의 번역율을 예측하고, 예측 결과에 기초하여 번역 문장을 선택함으로써 복수의 번역 엔진이 번역한 번역 문장 중에서 원본 문장에 최적화된 번역 문장을 선택하는 번역 장치 및 방법에 관한 것이다.
번역 엔진은 제1 언어로 작성된 문서를 자동으로 번역하여 제2 언어로 작성된 문서를 생성하는 구성이다. 이때, 언어는 문장의 표현 방법이나 길이 등과 같은 문장의 특성에 따라 번역하는 방법이 다를 수 있으며 각각의 번역 엔진은 번역하고자 하는 문장의 특성에 최적화하여 개발하므로 동일한 문서도 번역 엔진에 따라 다르게 번역될 수 있다.
그러나, 문서에 따라서는 특성이 각각 다른 문장들을 포함할 수도 있고, 제1 특성의 문장이 대부분인 문서에 제2 특성의 문장이 일부 포함될 수도 있다. 이 경우, 하나의 특성에 최적화 된 번역 엔진을 사용하면 다른 특성의 문장 번역에 오역이 발생할 수 있다.
따라서, 다중 번역 엔진을 사용하여 번역 성능을 향상 시키는 방법이 개발되고 있다. 다중 번역 엔진을 사용하는 종래의 방법에는 목적 언어 모델(LM: Language Model)에 의해 미리 학습된 값을 기초로 다중 번역 엔진에 의해 생성된 복수의 번역 문장 중에서, 최적화된 목적 언어의 형태와 가장 유사한 문장으로 생성된 번역 문장을 번역 결과 문장으로 선택하는 방법과 다중 번역 엔진에 의하여 생성된 복수의 번역 문장 중에서 중복된 번역 문장을 번역 결과 문장으로 선택하는 방법이 있었다.
그러나, 목적 언어 모델을 사용하는 방법은 번역 문장에 목적 언어가 포함되지 않을 가능성이 있고, 중복된 번역 문장을 선택하는 방법은 번역 엔진에 따라 중복된 번역 문장이 없을 가능성이 있었다.
따라서, 특정 단어나 문장, 또는 중복 여부에 제한을 받지 않고 다중 번역 엔진의 번역 문장 중에 원본 문장에 최적화된 번역 문장을 선택할 수 있는 방법이 요청되고 있다.
본 발명은 번역 엔진 별로 문장의 특징이나 구조에 따른 번역 성능을 판별하여 저장함으로써, 복수의 번역 엔진이 각각 원문 문장에 따라 번역한 번역 문장의 번역율을 예측하는 장치 및 방법을 제공한다.
또한, 본 발명은 번역율 예측 결과에 기초하여 번역 문장을 선택함으로써 복수의 번역 엔진이 번역한 번역 문장 중에서 원본 문장에 최적화된 번역 문장을 선택하는 장치 및 방법을 제공한다.
본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 장치는 원본 문장의 구조를 분석하는 구조 분석부; 적어도 하나의 번역 엔진으로부터 원본 문장을 번역한 번역 문장들을 수신하는 문장 수신부; 및 원본 문장의 구조에 따른 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 문장 결정부를 포함할 수 있다.
본 발명의 일실시예에 따른 번역 엔진의 성능 정보 생성 장치는 샘플 문장의 구조를 분석하는 구조 분석부; 적어도 하나의 번역 엔진으로부터 샘플 문장을 번역한 번역 문장들을 수신하는 문장 수신부; 및 상기 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 성능 정보 생성부를 포함할 수 있다.
본 발명의 일실시예에 따른 번역 방법은 원본 문장의 구조를 분석하는 단계; 적어도 하나의 번역 엔진으로부터 원본 문장을 번역한 번역 문장들을 수신하는 단계; 및 원본 문장의 구조에 따른 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 단계를 포함할 수 잇다.
본 발명의 일실시예에 따른 번역 엔진의 성능 정보 생성 방법은 샘플 문장의 구조를 분석하는 단계; 적어도 하나의 번역 엔진으로부터 샘플 문장을 번역한 번역 문장들을 수신하는 단계; 및 상기 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 단계를 포함할 수 있다.
본 발명의 일실시예에 의하면, 번역 엔진 별로 문장의 특징이나 구조에 따른 번역 성능을 판별하여 저장함으로써, 복수의 번역 엔진이 각각 원문 문장에 따라 번역한 번역 문장의 번역율을 예측할 수 있다.
또한, 본 발명의 일실시예에 의하면, 번역율 예측 결과에 기초하여 번역 문장을 선택함으로써 복수의 번역 엔진이 번역한 번역 문장 중에서 원본 문장에 최적화된 번역 문장을 선택할 수 있다.
도 1은 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 장치를 도시한 블록 다이어그램이다.
도 2는 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 과정의 일례이다.
도 3은 본 발명의 일실시예에 따른 번역 엔진의 성능 정보 생성 방법을 도시한 플로우차트이다.
도 4는 본 발명의 일실시예에 따른 번역 방법을 도시한 플로우차트이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 방법은 다중 번역 엔진을 사용한 번역 장치에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 장치(110)를 도시한 블록 다이어그램이다.
도 1을 참고하면, 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 장치(110)는 구조 분석부(111), 문장 수신부(112), 성능 정보 생성부(113), 데이터베이스(114) 및 문장 결정부(115)를 포함할 수 있다.
본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 장치(110)는 서로 다른 특성을 갖는 불특정 다수의 번역 엔진이 동일한 원본 문장에 따라 생성하는 서로 다른 번역 문장을 비교하고, 번역 문장 중에서 가장 우수한 번역 문장을 선택함으로써 단일 번역 엔진보다 번역 성능이 향상 시킬 수 있다.
구조 분석부(111)는 원본 문장이나 샘플 문장의 구조를 분석할 수 있다. 이때, 원본 문장은 번역하고자 하는 문장이고, 샘플 문장은 문장의 구조나 특징에 따른 번역 엔진의 성능을 판별하여 데이터베이스화하는 용도로 사용하는 문장일 수 있다.
이때, 구조 분석부(111)는 원본 문장을 형태소 단위로 분석하고, 분석된 형태소의 개수나 종류에 기초하여 원본 문장의 특징을 추출할 수 있다. 이때, 문장의 특징은 해당 문장의 양태, 길이, 존칭, 의문사에 대한 정보를 포함할 수 있다. 일례로, 원본 문장이 "예약 확인은 어디서 하죠"인 경우, 원본 문장의 특징에서 양태는 의문형이고, 길이는 3어절이며, 존칭은 일반 높임이고, 의문사는 위치일 수 있다.
문장 수신부(112)는 다중 번역 엔진(120)으로부터 원본 문장, 또는 샘플 문장을 번역한 번역 문장들을 수신할 수 있다. 구체적으로, 문장 수신부(112)는 다중 번역 엔진(120)에 원본 문장, 또는 샘플 문장을 전송하여 번역을 요청하고, 요청에 따라 다중 번역 엔진(120)의 각 번역 엔진에서 번역된 번역 문장들을 수신할 수 있다.
이때, 다중 번역 엔진(120)는 제1 번역 엔진(121), 제2 번역 엔진(122) 내지 제n 번역 엔진(123)이라는 n개의 번역 엔진으로 구성되며 번역 장치(110)로부터 수신한 문장을 번역 엔진들에서 번역하고, 번역된 번역 문장들을 수집하여 번역 장치(110)로 전송할 수 있다. 이때, 다중 번역 엔진(120)는 수집한 번역 문장들이 각각 어떤 번역 엔진에서 번역된 문장인지에 대한 정보를 해당 번역 문장에 매칭할 수 있다.
또한, 다중 번역 엔진(120)에 포함된 각각의 번역 엔진은 다른 번역 정보를 사용하여 원본 문장 또는 샘플 문장을 번역함으로써 문장의 구조나 특징 및 분야에 따라 번역율이 다를 수 있다. 구체적으로 "AAA"라는 샘플 문장을 제1 번역 엔진(121)은 [A''AA]로 번역하고 제2 번역 엔진(122)는 [AA'A]로 번역할 수 있다. 이때, 번역율은 정답 문장과 번역 문장을 비교하여 번역 문장이 정확하게 번역된 비율일 수 있다.
성능 정보 생성부(113)는 다중 번역 엔진(120)의 번역 엔진들이 각각 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성할 수 있다.
이때, 성능 정보 생성부(113)는 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 비교하여 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 샘플 문장의 구조에 매칭하여 번역 엔진의 성능 정보를 생성할 수 있다. 구체적으로, 성능 정보 생성부(113)는 샘플 문장을 번역한 번역 문장들과 샘플 문장의 정답 문장 간의 유사도를 기초로 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 샘플 문장의 구조에 매칭함으로써, 문장의 구조에 따른 번역 엔진의 성능 정보를 생성할 수 있다. 이때, 정답 문장은 사용자가 샘플 문장을 번역한 문장일 수 있다. 또한, 번역 엔진의 번역 성능은 번역 엔진이 번역한 번역 문장의 번역율을 포함할 수 있다.
또한, 성능 정보 생성부(113)는 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 기초로 문장의 특징에 따른 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 문장의 특징에 매칭하여 번역 엔진의 성능 정보를 생성할 수 있다. 구체적으로, 성능 정보 생성부(113)는 샘플 문장을 번역한 번역 문장들과 샘플 문장의 정답 문장 간의 유사도를 기초로 샘플 문장의 특징에 해당하는 각 번역 엔진의 번역 성능을 판별할 수 있다.
이때, 성능 정보 생성부(113)는 각 번역 엔진의 번역 성능을 특징 별로 통계화하여 특징 별 각 번역 엔진의 번역 성능을 추정하고, 추정 결과에 따라 각각의 번역 엔진에 특징 별 가중치를 설정할 수 있다. 이때, 번역 엔진의 성능 정보는 번역 엔진 별로 설정된 특징 별 가중치일 수 있다.
데이터베이스(114)는 성능 정보 생성부(113)가 생성한 번역 엔진의 성능 정보를 저장할 수 있다. 또한, 데이터베이스(114)는 목적 언어 모델(LM: Language Model) 확률 값 정보를 더 저장할 수 있다.
문장 결정부(115)는 데이터베이스(114)에 저장된 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정할 수 있다.
이때, 문장 결정부(115)는 번역 엔진의 성능 정보 중에서 원본 문장의 구조와 가장 유사한 샘플 문장의 구조를 검색하고, 검색한 샘플 문장에 매칭된 각 번역 엔진의 번역 성능을 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정할 수 있다.
예를 들어, 영어의 5형식 문장에 대한 제1 번역 엔진(121)의 번역율이 0.7이고, 제2 번역 엔진(122)의 번역율이 0.9이며, 원본 문장이 영어의 5형식 문장인 경우, 인 경우, 문장 결정부(115)는 제2 번역 엔진(122)가 번역한 번역 문장을 번역 결과 문장으로 결정할 수 있다. 또한, 영어의 4형식 문장에 대한 제1 번역 엔진(121)의 번역율이 0.9이고, 제2 번역 엔진(122)의 번역율이 0.5이며 원본 문장이 영어의 4형식 문장인 경우, 문장 결정부(115)는 제1 번역 엔진(121)이 번역한 번역 문장을 번역 결과 문장으로 결정할 수 있다.
또한, 문장 결정부(115)는 번역 엔진의 성능 정보 중에서 원본 문장의 특징에 매칭된 각 번역 엔진의 번역 성능을 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정할 수 있다.
구체적으로 문장 결정부(115)는 구조 분석부(111)가 분석한 원본 문장의 특징에 따라 각 번역 엔진의 특징 별 가중치 중에서 적어도 하나의 가중치를 선택하여 번역 문장의 번역율을 예측할 수 있다. 예를 들어, 제1 번역 엔진(121)의 의문형 문장에 대한 가중치가 0.32이고, 명령형 문장에 대한 가중치가 0.52이며, 존칭이 없는 문장에 대한 가중치가 0.9이고, 존칭이 있는 문장에 대한 가중치가 0.8이며, 원본 문장의 특징이 명령형이고 존칭이 없는 경우, 문장 결정부(115)는 명령형 문장에 대한 가중치인 0.52와 존칭이 없는 문장에 대한 가중치인 0.9를 기초로 제1 번역 엔진(121)이 생성한 번역 문장의 번역율을 예측할 수 있다. 이때, 문장 결정부(115)는 예측한 번역율이 가장 높은 번역 문장을 번역 결과 문장으로 결정할 수 있다.
본원 발명은 번역 엔진 별로 문장의 특징이나 구조에 따른 번역 성능을 판별하여 저장함으로써, 원문 문장에 따른 번역 문장의 번역율을 예측하고, 가장 번역율이 높은 번역 문장을 선택할 수 있다.
즉, 본원 발명은 번역하고자 하는 원본 문장의 구조나 특징에 최적화된 번역 엔진을 예측하고, 예측한 번역 엔진이 번역한 번역 문장을 선택함으로써 복수의 번역 엔진이 번역한 번역 문장 중에서 원본 문장에 최적화된 번역 문장을 선택할 수 있다.
도 2는 본 발명의 일실시예에 따른 다중 번역 엔진을 사용한 번역 과정의 일례이다.
먼저, 구조 분석부(111)는 도 2에 도시된 바와 같은 원본 문장(210)를 입력 받으면 원본 문장을 명사(n), 조사(j), 대명사(p), 용언(v), 어미(e)와 같은 형태소 단위로 분석할 수 있다. 이때, 구조 분석부(111)는 형태소 단위의 분석 결과(220)에 포함된 형태소의 개수나 종류에 기초하여 원본 문장의 특징(230)을 추출할 수 있다. 일례로, 도 2에서 구조 분석부(111)는 양태는 의문형이고, 길이는 3어절이며, 존칭은 일반 높임이고, 의문사는 위치라는 원본 문장의 특징(230)을 추출할 수 있다.
이때, 문장 수신부(112)는 원본 문장(210)을 다중 번역 엔진(120)에 전송하고, 다중 번역 엔진으로부터 각각의 번역 엔진이 원본 문장을 번역하여 생성한 번역 문장들(240)를 수신할 수 있다.
다음으로, 문장 결정부(225)는 데이터베이스(114)에서 각 번역 엔진의 특징 별 가중치(250)를 추출할 수 있다. 또한, 문장 결정부(225)는 원본 문장(210)의 구조에 따라 데이터베이스(114)에서 목적 언어 모델 확률 값 정보(260)를 추출할 수 있다.
그 다음으로 문장 결정부(225)는 각 번역 엔진의 특징 별 가중치(250) 및 목적 언어 모델 확률 값 정보(260)에 기초하여 번역 문장의 번역율(270)을 예측할 수 있다. 구체적으로 문장 결정부(225)는 각 번역 엔진의 특징 별 가중치(250)에서 원본 문장의 특징(230)에 해당하는 값과 목적 언어 모델 확률 값 정보(260)에서 번역 문장에 포함된 문장의 확률을 기초로 번역 문장의 번역율을 예측할 수 있다.
마지막으로 문장 결정부(225)는 예측한 번역율이 가장 높은 번역 문장을 번역 결과 문장(280)으로 결정함으로써 원본 문장(210)에 최적화된 번역 문장을 번역 결과 문장(280)로 결정할 수 있다.
도 3은 본 발명의 일실시예에 따른 번역 엔진의 성능 정보 생성 방법을 도시한 플로우차트이다.
단계(S310)에서 구조 분석부(111)는 샘플 문장의 구조를 분석할 수 있다. 이때, 구조 분석부(111)는 샘플 문장을 형태소 단위로 분석하고, 분석된 형태소의 개수나 종류에 기초하여 샘플 문장의 특징을 추출할 수 있다. 또한, 구조 분석부(111)는 샘플 문장의 구조나 특징에 따라 샘플 문장의 유형을 분류할 수 있다.
단계(S320)에서 문장 수신부(112)는 다중 번역 엔진(120)에 샘플 문장을 전송하여 번역을 요청하고, 다중 번역 엔진(120)은 요청에 따라 다중 번역 엔진(120)의 각 번역 엔진에서 샘플 문장을 번역하여 번역 문장들을 생성하도록 할 수 있다. 이때, 문장 수신부(112)는 다중 번역 엔진(120)에서 생성된 번역 문장들을 수신할 수 있다.
단계(S330)에서 성능 정보 생성부(113)는 단계(S320)에서 생성된 번역 문장과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능을 평가할 수 있다. 이때, 성능 정보 생성부(113)는 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 비교하여 각 번역 엔진의 성능을 평가할 수 있다.
단계(S340)에서 성능 정보 생성부(113)는 단계(S330)의 평가 결과를 기초로 각 번역 엔진의 평가 정보를 생성하여 데이터베이스(114)에 저장할 수 있다.
일례로, 성능 정보 생성부(113)는 샘플 문장을 번역한 번역 문장들과 샘플 문장의 정답 문장 간의 유사도를 기초로 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 단계(S310)에서 분석한 샘플 문장의 구조에 매칭함으로써, 문장의 구조에 따른 번역 엔진의 성능 정보를 생성할 수 있다.
다른 일례로, 성능 정보 생성부(113)는 샘플 문장을 번역한 번역 문장들과 샘플 문장의 정답 문장 간의 유사도를 기초로 단계(S310)에서 분석한 샘플 문장의 특징에 해당하는 각 번역 엔진의 번역 성능을 판별할 수 있다. 이때, 성능 정보 생성부(113)는 각 번역 엔진의 번역 성능을 특징 별로 통계화하여 특징 별 각 번역 엔진의 번역 성능을 추정하고, 추정 결과에 따라 각각의 번역 엔진에 특징 별 가중치를 설정할 수 있다. 이때, 번역 엔진의 성능 정보는 번역 엔진 별로 설정된 특징 별 가중치일 수 있다.
도 4는 본 발명의 일실시예에 따른 번역 방법을 도시한 플로우차트이다.
단계(S410)에서 구조 분석부(111)는 원본 문장의 구조를 분석할 수 있다. 이때, 구조 분석부(111)는 원본 문장을 형태소 단위로 분석하고, 분석된 형태소의 개수나 종류에 기초하여 원본 문장의 특징을 추출할 수 있다. 또한, 구조 분석부(111)는 원본 문장의 구조나 특징에 따라 원본 문장의 유형을 분류할 수 있다.
단계(S420)에서 문장 수신부(112)는 다중 번역 엔진(120)에 원본 문장을 전송하여 번역을 요청하고, 다중 번역 엔진(120)은 요청에 따라 다중 번역 엔진(120)의 각 번역 엔진에서 원본 문장을 번역하여 번역 문장들을 생성하도록 할 수 있다. 이때, 문장 수신부(112)는 다중 번역 엔진(120)에서 생성된 번역 문장들을 수신할 수 있다.
단계(S430)에서 문장 결정부(115)는 데이터베이스(114)에 저장된 번역 엔진의 성능 정보에 기초하여 단계(S420)에서 생성된 번역 문장들의 번역율을 예측할 수 있다. 이때, 문장 결정부(115)는 번역 엔진의 성능 정보 중에서 단계(S410)에서 분석한 원본 문장의 구조와 가장 유사한 샘플 문장의 구조를 검색하고, 검색한 샘플 문장에 매칭된 각 번역 엔진의 번역율을 단계(S420)에서 생성한 번역 문장의 번역율로 예측할 수 있다. 또한, 문장 결정부(115)는 단계(S410)에서 분석한 원본 문장의 특징에 따라 각 번역 엔진의 특징 별 가중치 중에서 적어도 하나의 가중치를 선택하여 단계(S420)에서 생성한 번역 문장의 번역율을 예측할 수 있다.
단계(S440)에서 문장 결정부(115)는 단계(S430)에서 예측한 번역 문장의 번역율을 기초로 단계(S420)에서 생성한 번역 문장 중 하나를 번역 결과 문장으로 결정할 수 있다. 일례로, 문장 결정부(115)는 단계(S430)에서 예측한 번역 문장의 번역율이 가장 높은 번역 문장을 번역 결과 문장으로 결정할 수 있다.
본 발명은 문장의 특징에 따른 각 번역 엔진의 성능을 측정하고, 측정 결과를 저장함으로써, 복수의 번역 엔진이 각각 원문 문장에 따라 번역한 번역 문장의 번역율을 예측할 수 있다.
또한, 번역율 예측 결과에 기초하여 번역 문장을 선택함으로써 복수의 번역 엔진이 번역한 번역 문장 중에서 원본 문장에 최적화된 번역 문장을 선택할 수 있다. 구체적으로, 예측 결과에 따른 가중치를 번역 문장에 부여함으로써 원본 문장과 같은 특징이나 구조의 문장 번역에 최적화된 번역 엔진의 번역 문장이 번역 결과로서 선택되도록 할 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
110: 번역 장치
111: 구조 분석부
112: 문장 수신부부
113: 성능 정보 생성부
115: 문장 결정부
120: 다중 번역 엔진

Claims (19)

  1. 원본 문장의 구조를 분석하는 구조 분석부;
    적어도 하나의 번역 엔진으로부터 원본 문장을 번역한 번역 문장들을 수신하는 문장 수신부; 및
    원본 문장의 구조에 따른 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 문장 결정부
    를 포함하는 번역 장치.
  2. 제1항에 있어서,
    복수의 번역 엔진이 각각 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 성능 정보 생성부
    를 더 포함하는 번역 장치.
  3. 제2항에 있어서,
    상기 성능 정보 생성부는,
    샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 비교하여 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 샘플 문장의 구조에 매칭하여 번역 엔진의 성능 정보를 생성하는 것을 특징으로 하는 번역 장치.
  4. 제2항에 있어서,
    상기 문장 결정부는,
    번역 엔진의 성능 정보 중에서 원본 문장의 구조와 가장 유사한 샘플 문장의 구조를 검색하고, 검색한 샘플 문장에 매칭된 각 번역 엔진의 번역 성능을 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 것을 특징으로 하는 번역 장치.
  5. 제2항에 있어서,
    상기 구조 분석부는,
    원본 문장을 형태소 단위로 분석하고, 분석된 형태소의 개수나 종류에 기초하여 원본 문장의 특징을 추출하는 것을 특징으로 하는 번역 장치.
  6. 제5항에 있어서,
    상기 성능 정보 생성부는,
    샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 기초로 문장의 특징에 따른 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 문장의 특징에 매칭하여 번역 엔진의 성능 정보를 생성하는 것을 특징으로 하는 번역 장치.
  7. 제5항에 있어서,
    상기 문장 결정부는,
    번역 엔진의 성능 정보 중에서 원본 문장의 특징에 매칭된 각 번역 엔진의 번역 성능을 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 것을 특징으로 하는 번역 장치.
  8. 샘플 문장의 구조를 분석하는 구조 분석부;
    적어도 하나의 번역 엔진으로부터 샘플 문장을 번역한 번역 문장들을 수신하는 문장 수신부; 및
    상기 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 성능 정보 생성부
    를 포함하는 번역 엔진의 성능 정보 생성 장치.
  9. 제8항에 있어서,
    상기 성능 정보 생성부는,
    상기 번역 문장들과 샘플 문장의 정답 문장을 비교하여 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 샘플 문장의 구조에 매칭하여 번역 엔진의 성능 정보를 생성하는 것을 특징으로 하는 번역 엔진의 성능 정보 생성 장치.
  10. 제8항에 있어서,
    상기 구조 분석부는,
    원본 문장을 형태소 단위로 분석하고, 분석된 형태소의 개수나 종류에 기초하여 원본 문장의 특징을 추출하는 것을 특징으로 하는 번역 엔진의 성능 정보 생성 장치.
  11. 제10항에 있어서,
    상기 성능 정보 생성부는,
    상기 번역 문장들과 샘플 문장의 정답 문장을 기초로 문장의 특징에 따른 각 번역 엔진의 번역 성능을 판별하고, 판별 결과를 문장의 특징에 매칭하여 번역 엔진의 성능 정보를 생성하는 것을 특징으로 하는 번역 엔진의 성능 정보 생성 장치.
  12. 원본 문장의 구조를 분석하는 단계;
    적어도 하나의 번역 엔진으로부터 원본 문장을 번역한 번역 문장들을 수신하는 단계; 및
    원본 문장의 구조에 따른 번역 엔진의 성능 정보에 기초하여 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 단계
    를 포함하는 번역 방법.
  13. 제12항에 있어서,
    복수의 번역 엔진이 각각 샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 단계
    를 더 포함하는 번역 방법.
  14. 제13항에 있어서,
    상기 생성하는 단계는,
    샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 비교하여 각 번역 엔진의 번역 성능을 판별하는 단계; 및
    판별 결과를 샘플 문장의 구조에 매칭하여 번역 엔진의 성능 정보를 생성하는 단계
    를 포함하는 번역 방법.
  15. 제13항에 있어서,
    상기 결정하는 단계는,
    번역 엔진의 성능 정보 중에서 원본 문장의 구조와 가장 유사한 샘플 문장의 구조를 검색하는 단계; 및
    검색한 샘플 문장에 매칭된 각 번역 엔진의 번역 성능을 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 단계
    를 포함하는 번역 방법.
  16. 제13항에 있어서,
    상기 분석하는 단계는,
    원본 문장을 형태소 단위로 분석하는 단계; 및
    분석된 형태소의 개수나 종류에 기초하여 원본 문장의 특징을 추출하는 단계
    를 포함하는 번역 방법.
  17. 제16항에 있어서,
    상기 생성하는 단계는,
    샘플 문장을 번역하여 생성한 번역 문장들과 샘플 문장의 정답 문장을 기초로 문장의 특징에 따른 각 번역 엔진의 번역 성능을 판별하는 단계; 및
    판별 결과를 문장의 특징에 매칭하여 번역 엔진의 성능 정보를 생성하는 단계
    를 포함하는 번역 방법.
  18. 제16항에 있어서,
    상기 결정하는 단계는,
    원본 문장의 특징에 매칭된 각 번역 엔진의 번역 성능을 검색하는 단계; 및
    검색 결과를 기초로 수신한 번역 문장들 중 하나를 번역 결과 문장으로 결정하는 단계
    를 포함하는 번역 방법.
  19. 샘플 문장의 구조를 분석하는 단계;
    적어도 하나의 번역 엔진으로부터 샘플 문장을 번역한 번역 문장들을 수신하는 단계; 및
    상기 번역 문장들과 샘플 문장의 정답 문장 및 샘플 문장의 구조를 기초로 번역 엔진의 성능 정보를 생성하는 단계
    를 포함하는 번역 엔진의 성능 정보 생성 방법.
KR1020110076035A 2011-07-29 2011-07-29 다중 번역 엔진을 사용한 번역 장치 및 방법 KR20130014106A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110076035A KR20130014106A (ko) 2011-07-29 2011-07-29 다중 번역 엔진을 사용한 번역 장치 및 방법
US13/560,151 US20130030790A1 (en) 2011-07-29 2012-07-27 Translation apparatus and method using multiple translation engines

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110076035A KR20130014106A (ko) 2011-07-29 2011-07-29 다중 번역 엔진을 사용한 번역 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20130014106A true KR20130014106A (ko) 2013-02-07

Family

ID=47597956

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110076035A KR20130014106A (ko) 2011-07-29 2011-07-29 다중 번역 엔진을 사용한 번역 장치 및 방법

Country Status (2)

Country Link
US (1) US20130030790A1 (ko)
KR (1) KR20130014106A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170063167A (ko) * 2015-11-30 2017-06-08 삼성전자주식회사 번역 서비스를 제공하는 방법 및 이를 위한 전자 장치
KR20180005850A (ko) * 2016-07-07 2018-01-17 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015060458A (ja) * 2013-09-19 2015-03-30 株式会社東芝 機械翻訳装置、方法、及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0672989A3 (en) * 1994-03-15 1998-10-28 Toppan Printing Co., Ltd. Machine translation system
JP3906356B2 (ja) * 2001-12-27 2007-04-18 独立行政法人情報通信研究機構 構文解析方法及び装置
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
EP1754169A4 (en) * 2004-04-06 2008-03-05 Dept Of Information Technology MULTILINGUAL ENGINE TRANSLATION SYSTEM FROM THE ENGLISH IN HINDI AND OTHER INDIAN LANGUAGES USING A PSEUDO INTERLINGUA AND HYBRIDIZED APPROACH
US20070016401A1 (en) * 2004-08-12 2007-01-18 Farzad Ehsani Speech-to-speech translation system with user-modifiable paraphrasing grammars
US7505894B2 (en) * 2004-11-04 2009-03-17 Microsoft Corporation Order model for dependency structure
JP2007122509A (ja) * 2005-10-28 2007-05-17 Rozetta Corp 語句配列の自然度判定装置、方法及びプログラム
JP2008065395A (ja) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd 翻訳装置、翻訳方法および翻訳プログラム
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US20080177531A1 (en) * 2007-01-19 2008-07-24 Oki Electric Industry Co., Ltd. Language processing apparatus, language processing method, and computer program
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
US8265923B2 (en) * 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170063167A (ko) * 2015-11-30 2017-06-08 삼성전자주식회사 번역 서비스를 제공하는 방법 및 이를 위한 전자 장치
KR20180005850A (ko) * 2016-07-07 2018-01-17 삼성전자주식회사 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치

Also Published As

Publication number Publication date
US20130030790A1 (en) 2013-01-31

Similar Documents

Publication Publication Date Title
US10810372B2 (en) Antecedent determining method and apparatus
Blodgett et al. Demographic dialectal variation in social media: A case study of African-American English
US9009134B2 (en) Named entity recognition in query
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
KR20160008480A (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
CN108595629B (zh) 用于答案选择系统的数据处理方法及应用
KR20180005850A (ko) 자동 통역 방법 및 장치, 및 기계 번역 방법 및 장치
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
KR20160124742A (ko) 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
KR101664258B1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
KR101763407B1 (ko) 음성 대화 시스템 및 그 시스템에서의 음성 대화 방법
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2010109594A1 (ja) 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法
KR20130014106A (ko) 다중 번역 엔진을 사용한 번역 장치 및 방법
CN110287487B (zh) 主谓语识别方法、装置、设备及计算机可读存储介质
Croce et al. Enabling deep learning for large scale question answering in Italian
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
US11314794B2 (en) System and method for adaptively adjusting related search words
Li et al. Confidence estimation for knowledge base population
EP3103029A1 (en) A query expansion system and method using language and language variants
US11842165B2 (en) Context-based image tag translation
Sheikh et al. Improved neural bag-of-words model to retrieve out-of-vocabulary words in speech recognition
WO2015148410A1 (en) Image interface for extracting patent features

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid