KR20170053527A - 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 - Google Patents

자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 Download PDF

Info

Publication number
KR20170053527A
KR20170053527A KR1020150156154A KR20150156154A KR20170053527A KR 20170053527 A KR20170053527 A KR 20170053527A KR 1020150156154 A KR1020150156154 A KR 1020150156154A KR 20150156154 A KR20150156154 A KR 20150156154A KR 20170053527 A KR20170053527 A KR 20170053527A
Authority
KR
South Korea
Prior art keywords
neural network
translation
distributed expression
distributed
automatic translation
Prior art date
Application number
KR1020150156154A
Other languages
English (en)
Other versions
KR102449614B1 (ko
Inventor
나휘동
송인철
이호식
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150156154A priority Critical patent/KR102449614B1/ko
Priority to US15/254,347 priority patent/US10599781B2/en
Publication of KR20170053527A publication Critical patent/KR20170053527A/ko
Application granted granted Critical
Publication of KR102449614B1 publication Critical patent/KR102449614B1/ko

Links

Images

Classifications

    • G06F17/2854
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • G06F17/2818
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multi Processors (AREA)
  • Investigating Materials By The Use Of Optical Means Adapted For Particular Applications (AREA)

Abstract

자동 번역의 품질 평가 장치가 개시된다. 일 양상에 따르면, 자동 번역 품질 평가 장치는 원문에 대한 자동 번역문 및 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현 및 제2 분산 표현으로 변환하는 변환부 및 제1 분산 표현 및 제2 분산 표현 간의 유사도를 기초로 자동 번역 데이터의 품질을 평가하는 품질 평가부를 포함할 수 있다.

Description

자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치{APPARATUS AND METHOD FOR EVALUATING MACHINE TRANSLATION QUALITY USING DISTRIBUTED REPRESENTATION, MACHINE TRANSLATION APPARATUS, AND APPARATUS FOR CONSTRUCTING DISTRIBUTED REPRESENTATION MODEL}
분산 표현을 이용하여 자동 번역의 품질을 평가하는 기술에 관한 것이다.
일반적으로 자동 번역기에 의해 번역된 자동 번역의 품질을 평가하는 방법은 수작업 평가와 자동 평가 방법으로 나눌 수 있다. 수작업으로 자동 번역을 평가하기 위해서는 입력어(source language)와 번역어(target language)를 모두 알고 있는 전문가가 필요하다. 예를 들어, 전문가가 자동 번역 결과에 대하여 유창성(fluency)과 적절성(adequacy)의 두 가지 기준으로 점수를 매긴다. 이때, 유창성은 번역문이 자연스러운 문장으로 구성되어 있는지를 나타내고, 적절성은 원문의 의미가 번역문에 제대로 표현되었는지를 나타낸다. 자동 평가 방법은 원문에 대한 번역문을 수작업으로 생성하고, 자동 번역 결과와 수작업으로 생성한 번역문(reference)의 유사도를 측정하여 평가한다.
자동 평가 방법으로서 일반적으로 BLEU(Bilingual Evaluation Understudy)가 널리 사용되며, BLEU는 자동 번역 결과에 존재하는 인접한 n개의 단어(n-gram)가 수작업으로 생성한 번역문에 얼마나 많이 등장하는지를 나타내어 평가하는 방식이다. 이러한 일반적인 자동 평가 방법은 수작업으로 평가하는 것에 비하여 장점을 가지나 자동 번역 결과와 수작업 번역 결과가 정확한 형태로 일치하는 경우만 고려하기 때문에 우수한 번역 결과에 대한 점수가 낮거나 잘못된 번역에 대하여 높은 점수를 부여하는 경우가 발생한다.
분산 표현을 이용하여 자동 번역 결과를 자동으로 평가하는 장치 및 방법과, 그 자동 평가 방법을 이용한 자동 번역 장치 및 그 분산 표현 모델을 구축하는 장치가 제시된다.
일 양상에 따르면, 자동 번역의 품질 평가 장치는 원문에 대한 자동 번역문 및 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현 및 제2 분산 표현으로 변환하는 변환부 및, 제1 분산 표현 및 제2 분산 표현 간의 유사도를 기초로 자동 번역 데이터의 품질을 평가하는 품질 평가부를 포함할 수 있다.
이때, 분산 표현 모델은 신경망(Neural Network)을 통해 학습될 수 있다.
이때, 신경망은 Deep Neural Network, Recurrent Neural Network, Rcursive Neural Network 및 Spike Neural Network 중의 적어도 하나를 포함할 수 있다.
이때, 기준 번역문은 원문을 수작업으로 번역한 수동 번역문을 포함할 수 있다.
품질 평가부는 유클리드 거리(Euclidean distance)를 포함하는 벡터 사이의 거리 계산 기법을 이용하여 제1 분산 표현 및 제2 분산 표현 간의 거리를 산출하고, 산출된 거리를 기초로 유사도를 계산할 수 있다.
품질 평가부는 유사도를 산출된 거리에 반비례하도록 계산할 수 있다.
일 양상에 따르면, 자동 번역의 품질 평가 방법은 원문에 대한 자동 번역문 및 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현 및 제2 분산 표현으로 변환하는 단계, 제1 분산 표현 및 제2 분산 표현 간의 유사도를 계산하는 단계 및 계산된 유사도를 기초로 자동 번역 데이터의 품질을 평가하는 단계를 포함할 수 있다.
이때, 분산 표현 모델은 신경망(Neural Network)을 통해 학습될 수 있다.
이때, 신경망은 Deep Neural Network, Recurrent Neural Network, Rcursive Neural Network 및 Spike Neural Network 중의 하나 이상을 포함할 수 있다.
이때, 기준 번역문은 원문을 수작업으로 번역한 수동 번역문을 포함할 수 있다.
이때, 유사도를 계산하는 단계는 유클리드 거리(Euclidean distance)를 포함하는 벡터 사이의 거리 계산 기법을 이용하여 제1 분산 표현 및 제2 분산 표현 간의 거리를 산출하는 단계를 포함하고, 산출된 거리를 기초로 유사도를 계산할 수 있다.
또한, 유사도를 계산하는 단계는 유사도를 산출된 거리에 반비례하도록 계산할 수 있다.
일 양상에 따르면, 자동 번역 장치는 원문을 입력받는 입력부, 입력된 원문을 자동으로 번역하는 번역부, 번역 결과 생성된 자동 번역문을 분산 표현 모델을 이용하여 분산 표현으로 변환하고, 변환된 분산 표현을 이용하여 자동 번역문의 품질을 평가하는 평가부 및 평가 결과에 기초하여 자동 번역문을 출력하는 출력부를 포함할 수 있다.
이때, 분산 표현 모델은 자동 번역문이 다차원 공간상에 배치된 임베딩 벡터 형식을 갖는 분산 표현으로 변환되도록 신경망을 통해 학습될 수 있다.
평가부는 원문에 대한 기준 번역문을 분산 표현으로 변환하고, 자동 번역문 및 기준 번역문에 대한 분산 표현 간의 유사도를 기초로 자동 번역문의 품질을 평가할 수 있다.
처리부는 품질 평가 결과가 소정 기준을 만족하지 않으면 번역부로 하여금 원문을 다시 번역하도록 하고, 소정 기준을 만족하면 자동 번역문을 출력할 수 있다.
일 양상에 따르면 분산 표현 모델 구축 장치는 원문, 그 원문에 대한 수동 번역문, 분산 표현 및 원문에 대한 유사 번역문을 학습데이터로 수집하는 학습데이터 수집부 및 수집된 학습 데이터를 기초로 신경망을 학습시켜, 자동 번역문의 품질 평가에 이용되는 분산 표현 모델을 구축하는 모델 구축부를 포함할 수 있다.
이때, 신경망은 수동 번역문을 입력으로 분산 표현을 출력하도록 하는 제1 신경망, 분산 표현을 입력으로 원문을 출력하도록 하는 제2 신경망 및 분산 표현을 입력으로 유사 번역문을 출력하도록 하는 제3 신경망을 포함할 수 있다.
모델 구축부는 제1 신경망, 제2 신경망 및 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시킬 수 있다.
모델 구축부는 학습데이터를 이용하여 제1 신경망, 제2 신경망 및 제3 신경망의 학습이 완료되면, 제1 신경망을 기초로 분산 표현 모델을 구축할 수 있다.
분산 표현을 이용하여 자동 번역 결과의 품질을 평가함으로써 번역 품질 평가 및 번역의 정확성을 향상시킬 수 있다.
도 1은 일 실시예에 따른 자동 번역 품질 평가 장치의 블록도이다.
도 2a는 일반적인 자동 평가 방법을 설명하기 위한 도면이다.
도 2b는 일 실시예에 따른 자동 평가 방법을 설명하기 위한 도면이다.
도 2c는 일 실시예에 따른 분산 표현을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 자동 번역 품질 평가 방법의 흐름도이다.
도 4는 일 실시예에 따른 분산 표현 모델 구축 장치의 블록도이다.
도 5는 일 실시예에 따른 분산 표현 모델 구축 방법의 흐름도이다.
도 6은 분산 표현 모델 구축을 위한 신경망 학습을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 자동 번역 장치의 블록도이다.
도 8은 일 실시예에 따른 자동 번역 방법의 흐름도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 자동 번역의 품질 평가 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.
도 1은 일 실시예에 따른 자동 번역 품질 평가 장치의 블록도이다. 도 2a는 일반적인 자동 평가 방법을 설명하기 위한 도면이다. 도 2b는 일 실시예에 따른 자동 평가 방법을 설명하기 위한 도면이다. 도 2c는 일 실시예에 따른 분산 표현을 설명하기 위한 도면이다.
도 1을 참조하면, 자동 번역 품질 평가 장치(100)는 변환부(110) 및 품질 평가부(120)를 포함할 수 있다.
변환부(110)는 도 2b에 도시된 바와 같이 원문에 대한 자동 번역문과 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현과 제2 분산 표현으로 변환할 수 있다. 이때, 자동 번역문은 자동 번역 장치가 출력한 번역문일 수 있으며, 기준 번역문은 전문가가 원문을 수작업으로 번역한 수동 번역문일 수 있다. 다만, 이에 한정되지 않으며 기준 번역문은 원문에 대하여 미리 정의된 기준을 만족하는 자동 번역문이나 수동 번역문과 유사한 번역문을 포함할 수도 있다.
여기서, 분산 표현은 임베딩 벡터(Embedding vector)로 표현될 수 있으며, 임베딩 벡터는 입력 값, 예컨대 특정 단어를 다차원 벡터 공간상에 각각의 차원이 실수 값을 갖는 다차원 벡터 형태로 나타낸 것을 의미한다. 벡터의 특정 차원은 하나 이상의 다양한 속성이 대응될 수 있으며, 특정 속성은 하나 이상의 차원으로 나뉘어 표현될 수 있다. 임베딩 벡터는 단어들 간의 거리 행렬에 다중 차원 스케일링 기법(Multi-Dimensional Scaling, MDS)을 적용하여 다차원 임베딩 벡터 공간상에 하나의 점으로 배치될 수 있다.
도 2c는 특정 단어 예컨대 국가, 도시와 관련된 단어에 대하여 얻어진 분산 표현을 2차원으로 축소시켜 놓은 것으로서, 도시된 바와 같이 국가별로 하나의 군집을 형성하고 각 국가에 속하는 도시가 또 하나의 군집을 형성하며, 국가와 그 국가에 속하는 도시의 배치 순서가 대체로 일치하는 것을 알 수 있다. 이와 같이 분산 표현은 입력된 값들 간의 의미적 유사성을 잘 표현한다고 할 수 있다.
변환부(110)는 자동 번역문과 수동 번역문을 임베딩 벡터로 표현되는 분산 표현으로 변환하기 위해 분산 표현 모델을 이용할 수 있으며, 이때 분산 표현 모델은 신경망 학습을 통하여 미리 구축될 수 있다. 여기서, 신경망은 Deep Neural Network, 시간 축에 따른 정보를 제공하는 Recurrent Neural Network, 재귀적으로 구성되는 Recursive Neural Network 및 Spiking Neural Network 등과 같은 인공 신경망을 포함할 수 있다. 학습데이터는 하나의 문장에 대하여 의미적으로 유사한 하나 이상의 문장일 수 있으며, 분산 표현 모델은 이 학습데이터를 이용하여 특정 문장에 대하여 분산 표현을 거쳐 의미적으로 유사한 문장으로 대응되도록 반복 학습을 통해 구축될 수 있다.
자동 번역 품질 평가 장치(100)는 도 4를 참조하여 후술하는 바와 같이 다양한 학습 데이터를 이용하여 분산 표현 모델을 구축하는 분산 표현 모델 구축 장치(400)로부터 분산 표현 모델을 수신할 수 있으며, 수신된 분산 표현 모델을 도시되지 않은 메모리나 데이터베이스에 저장할 수 있다. 또한, 자동 번역 품질 평가 장치(100)는 분산 표현 모델 구축 장치(400)로부터 주기적 또는 분산 표현 모델이 구축될 때마다 구축된 분산 표현 모델을 수신하여 갱신할 수 있다.
품질 평가부(120)는 자동 번역문과 기준 번역문이 이와 같이 의미적 유사성을 잘 표현하는 분산 표현으로 변환되면, 자동 번역문에 대한 제1 분산 표현과 기준 번역문에 대한 제2 분산 표현을 비교하여 자동 번역문의 품질을 평가할 수 있다.
품질 평가부(120)는 도 2b에 도시된 바와 같이 제1 분산 표현과 제2 분산 표현 간의 유사도를 계산하고, 그 유사도를 이용하여 품질을 평가할 수 있다. 이때, 품질 평가부(120)는 계산된 유사도를 직접 품질 평가 점수로 사용할 수 있으며, 또는 유사도 값을 품질 평가의 목적에 부합하도록 가공하여 품질 평가 점수로 사용할 수 있다. 또는, 품질 평가부(120)는 유사도에 따른 복수의 품질 구간(예: 상,중,하)로 나누고, 계산된 유사도가 속한 구간의 품질을 자동 번역문의 품질 평가 결과로 출력할 수도 있다.
예를 들어, 품질 평가부(120)는 벡터 거리 계산 기법, 예컨대 유클리드 거리(Euclidean distance)를 이용하여 제1 분산 표현의 벡터와 제2 분산 표현의 벡터 사이의 거리를 계산하고, 계산된 거리를 기초로 유사도를 계산할 수 있다. 품질 평가부(120)는 거리가 계산되면, 계산된 거리에 반비례하도록 기준값(예: 1)에서 계산된 거리를 뺀 값을 유사도로 사용할 수 있으며 그 유사도 또는 유사도를 가공한 값을 품질 평가 점수로 할 수 있다. 여기서, 벡터 거리 계산 기법은 유클리드 거리 이외에도 해밍 거리(Hamming distance), 맨해튼 거리(Manhattan distance), 코사인 거리(Cosine distance) 등을 포함할 수 있다.
본 실시예에 따르면, 신경망 학습을 통해 구축된 분산 표현 모델을 이용하여 변환한 분산 표현 간의 유사도를 계산하여 품질을 평가하기 때문에 입력 값 즉, 자동 번역문과 기준 번역문 간의 의미적 유사성을 잘 반영할 수 있다. 이에 반해, 도 2a에 도시된 바와 같이, 일반적인 자동 평가 방법은 원문에 대한 자동 번역문과 전문가가 수작업으로 번역한 번역문을 서로 비교하여 유사도를 계산하므로 자동 번역문과 수작업으로 번역한 번역문이 정확한 형태가 아닌 경우 평가의 정확성이 떨어질 수 있다.
도 3은 일 실시예에 따른 자동 번역 품질 평가 방법의 흐름도이다.
도 3을 참조하면, 자동 번역 품질 평가 장치(100)는 자동 번역 장치에 의해 번역된 원문에 대한 자동 번역문과 그 원문에 대한 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현과 제2 분산 표현으로 변환할 수 있다(310). 여기서, 제1 분산 표현 및 제2 분산 표현은 각각 자동 번역문과 기준 번역문을 다차원 벡터 공간상에 각 차원이 실수 값을 갖는 벡터 형태로 표현한 것을 의미한다.
그 다음, 자동 번역 품질 평가 장치(100)는 변환된 제1 분산 표현과 제2 분산 표현 간의 유사도를 계산할 수 있다(320). 예를 들어, 자동 번역 품질 평가 장치(100)는 제1 분산 표현의 벡터와 제2 분산 표현의 벡터 사이의 거리를 계산하고, 계산된 거리를 기초로 유사도를 계산할 수 있다. 여기서, 벡터 사이의 거리는 전술한 다양한 벡터 계산 기법 중의 어느 하나일 수 있다.
그 다음, 자동 번역 품질 평가 장치(100)는 계산된 유사도를 이용하여 자동 번역문의 품질을 평가할 수 있다(330). 이때, 자동 번역 품질 평가 장치(100)는 계산된 유사도를 품질 평가 점수로 환산하여 품질 평가 점수를 출력할 수 있다. 또는 유사도에 따른 복수의 품질 수준의 구간을 미리 정의하고, 계산된 유사도가 속한 구간의 품질을 평가 결과로서 출력할 수 있다.
이하, 자동 번역의 품질 평가를 위한 분산 표현 모델 구축 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.
도 4는 일 실시예에 따른 분산 표현 모델 구축 장치의 블록도이다. 분산 표현 모델 구축 장치(400)는 도 1의 실시예에 따른 자동 번역 품질 평가 장치(100)에서 사용될 분산 표현 모델을 구축하는 장치이다. 도 6은 분산 표현 모델 구축 장치(400)가 분산 표현 모델 구축을 위하여 신경망을 학습하는 것을 설명하기 위한 도면이다.
도 4를 참조하면, 분산 표현 모델 구축 장치(400)는 학습 데이터 수집부(410) 및 모델 구축부(420)를 포함할 수 있다.
학습 데이터 수집부(410)는 원문과, 그 원문에 대하여 전문가가 수작업으로 번역한 수동 번역문, 분산 표현 및 원문에 대한 유사 번역문을 학습데이터로 수집할 수 있다.
예를 들어, 영어를 한국어로 번역하는데 이용되는 분산 표현 모델을 구축하는 경우, 학습 데이터 수집부(410)는 도 6에 도시된 바와 같이 원문으로 "Please find a bank"와 같은 영어 문장, 그 원문을 수작업으로 번역한 수동 번역문으로 "은행 좀 찾아줘", 그 유사 번역문들로서 "제발 은행 찾아", "은행 좀 찾아 주세요.", "은행 하나 찾아줘" 등의 한국어 문장 등을 학습 데이터로 수집할 수 있다. 또한, 수동 번역문 "은행 좀 찾아줘"에서 단어들을 다차원 벡터 공간상에 임베딩 벡터로 표현하는 분산 표현을 더 수집할 수 있다.
모델 구축부(420)는 수집된 학습 데이터로 신경망을 학습시켜 분산 표현 모델을 구축할 수 있다.
예를 들어, 도 6에 도시된 바와 같이 신경망은 제1 신경망, 제2 신경망 및 제3 신경망을 포함할 수 있다. 이때, 제1 신경망은 수집된 학습 데이터 중에서 전문가가 수작업으로 번역한 수동 번역문을 입력으로 하여 정답으로 제공된 분산 표현을 출력하도록 구성되는 네트워크이고, 제2 신경망은 분산 표현을 입력으로, 원문을 출력하도록 구성된 네트워크이며, 제3 신경망은 분산 표현을 입력으로 유사 번역문을 출력하도록 하는 네트워크일 수 있다.
이때, 제1 신경망, 제2 신경망, 제3 신경망은 제1 신경망의 출력 노드가 제2 신경망 및 제3 신경망의 입력 노드와 연결되도록 구성되어 하나의 DNN을 구성할 수 있다. 모델 구축부(420)는 이와 같이 세 개의 신경망을 하나의 네트워크로 구성함으로써 하나의 학습 과정으로 제1 신경망, 제2 신경망 및 제3 신경망을 학습시킬 수 있다. 다만, 이는 일 예에 불과하므로 특별히 이에 한정되지 않으며, 제1 신경망과 제2 신경망이 연결되고, 제1 신경망과 제3 신경망이 연결되어 각각 별도의 네트워크를 구성할 수 있으며, 이 경우 제1 신경망과 제2 신경망이 연결된 네트워크와, 제1 신경망과 제3 신경망이 연결된 네트워크를 각각 별도로 학습시켜 하나로 통합할 수도 있다.
모델 구축부(420)는 이와 같이 수동 번역문이 분산 표현을 거쳐 원문이나 유사 번역문에 근접하도록 반복적으로 학습할 수 있으며, 최종적으로 학습이 완료되면 그 결과를 기초로 분산 표현 모델을 구축할 수 있다. 예를 들어, 모델 구축부(420)는 학습이 완료된 세 개의 신경망 중에서 수동 번역문을 분산 표현으로 변환하는 제1 신경망의 학습 결과 즉, 변환 정보(emedding matrix)를 분산 표현 모델로 구축할 수 있다.
일 실시예에 따르면, 분산 표현 모델 구축 장치(400)는 독립적인 하드웨어 장치에 구현되어 자동 번역 품질 평가 장치(100) 또는 후술하는 자동 번역 장치(700)와 유무선 네트워크로 연결될 수 있다. 분산 표현 모델 구축 장치(400)는 도시되지는 않았지만 자동 번역 품질 평가 장치(100)나 자동 번역 장치(700)로부터 분산 표현 모델 제공 요청을 수신하는 경우 또는 미리 설정된 정책에 따라 구축된 분산 표현 모델을 자동 번역 품질 평가 장치(100)나 자동 번역 장치(700)에 전송하여 갱신하도록 할 수 있다.
도 5는 일 실시예에 따른 분산 표현 모델 구축 방법의 흐름도이다.
도 5를 참조하여 자동 번역의 품질 평가를 위한 분산 표현 모델 구축 방법은, 먼저 분산 표현 모델 구축 장치(400)가 신경망 학습을 위한 학습 데이터를 수집한다(510). 이때, 수집되는 학습 데이터는 번역할 원문과, 그 원문에 대하여 전문가가 수작업으로 번역한 수동 번역문, 그 수동 번역문에 대한 분산 표현 및 수동 번역문과 유사한 번역문을 포함할 수 있다.
그 다음, 분산 표현 모델 구축 장치(400)는 학습 데이터가 수집되면 그 학습 데이터를 이용하여 신경망을 학습시키고, 학습이 완료되면 그 결과를 이용하여 자동 번역에 필요한 분산 표현 모델을 구축할 수 있다(520).
이때, 신경망은 도 6을 참조하여 설명하였듯이 복수의 신경망을 연결한 DNN으로 구성될 수 있다. 여기서, 복수의 신경망은 예컨대 수집된 학습 데이터 중에서 전문가가 수작업으로 번역한 수동 번역문을 입력으로 하여, 정답으로 제공된 분산 표현을 출력하도록 구성되는 제1 신경망과, 분산 표현을 입력으로 원문을 출력하도록 구성된 제2 신경망 및, 분산 표현을 입력으로 유사 번역문을 출력하도록 하는 제3 신경망일 수 있다. 분산 표현 모델 구축 장치(400)는 이와 같이 DNN으로 구성된 신경망은 하나의 학습 과정으로 학습시킬 수 있다.
또한, 분산 표현 모델 구축 장치(400)는 신경망의 학습이 완료되면 수동 번역문을 분산 표현으로 변환하는 제1 신경망의 학습 결과를 이용하여 분산 표현 모델을 구축할 수 있다.
이하, 자동 번역 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.
도 7은 일 실시예에 따른 자동 번역 장치의 블록도이다. 일 실시예에 따른 자동 번역 장치(700)는 사용자의 요청에 따라 제1 언어를 제2 언어로 자동으로 번역하는 장치로서 도 1의 자동 번역 품질 평가 장치(100)를 탑재할 수 있다. 또한, 자동 번역 장치(700)는 그 자체가 휴대용 번역기로 제작될 수 있으나, 그 밖의 스마트폰, 태블릿 PC 등의 모바일 단말, 데스크탑 PC, 노트북 PC 등의 정보 처리 장치에 탑재될 수 있다.
도 7을 참조하면, 자동 번역 장치(700)는 입력부(710), 번역부(720), 평가부(730) 및 출력부(740)를 포함할 수 있다.
입력부(710)는 사용자로부터 번역할 원문을 입력받는다. 이때, 사용자로부터 입력되는 번역할 원문 데이터의 형식은 어느 하나로 제한되지 않으며, 사용자의 음성 데이터이거나 텍스트 데이터일 수 있다. 사용자가 스마트 폰에 탑재된 자동 번역 장치(700)를 이용하여 번역하고자 하는 경우, 일 예로, 사용자는 스마트 폰의 마이크로폰을 이용하여 음성 신호를 입력할 수 있다. 다른 예로, 사용자가 다른 언어를 사용하는 사용자에게 메시지를 보내고자 하는 경우 제1 언어로 작성된 텍스트를 원문으로 입력할 수 있다. 그 밖에 자동 번역을 위한 다양한 상황이 존재할 수 있으며 그러한 다양한 상황에 적합하게 음성 또는 텍스트 형태의 원문 데이터가 입력될 수 있다.
이때, 입력부(710)는 사용자로부터 번역 대상 언어인 제2 언어 정보를 더 입력받을 수 있다. 다만, 사용자는 자신이 주로 이용하는 상황에 따라 적절한 제2 언어 정보를 미리 설정해 놓을 수 있으며, 이 경우 사용자는 제2 언어 정보를 입력하는 것을 생략할 수 있다.
일 실시예에 따르면, 입력부(710)는 사용자로부터 원문 데이터가 음성으로 입력되는 경우, 음성 인식 엔진에 그 원문을 전달하여 음성 인식을 수행하도록 하고, 음성 인식 엔진으로부터 음성 인식 결과인 텍스트를 수신할 수 있다.
번역부(720)는 사용자로부터 번역할 원문이 입력되면 자동 번역 엔진을 통해 번역할 수 있다. 이때, 번역부(720)는 입력부(710)가 사용자로부터 제2 언어 정보를 수신한 경우 수신된 제2 언어 정보로 번역을 하며, 그렇지 않은 경우 미리 설정된 제2 언어 정보를 확인하여 미리 설정된 제2 언어 정보로 번역할 수 있다.
평가부(730)는 번역부(720)에 의해 자동 번역문이 생성되면, 자동 번역문의 품질을 평가할 수 있다. 평가부(730)는 미리 구축되어 있는 분산 표현 모델을 이용하여 자동 번역문을 분산 표현으로 변환하고, 변환된 분산 표현을 이용하여 품질을 평가할 수 있다.
한편, 평가부(730)는 기준 번역문 또는 그 기준 번역문의 분산 표현을 관리할 수 있으며, 기준 번역문의 분산 표현과 자동 번역문의 분산 표현을 비교하여 자동 번역문의 품질을 평가할 수 있다. 이때, 평가부(730)는 기준 번역문이 존재하는 경우에는 기준 번역문을 자동 번역문의 변환에 이용된 분산 표현 모델을 이용하여 미리 분산 표현으로 변환할 수 있다. 평가부(730)는 기준 번역문의 분산 표현과 자동 번역문의 분산 표현 간의 벡터 거리(예: 유클리드 거리)를 계산하여 그 거리를 이용하여 양 분산 표현 간의 유사도를 계산하고, 그 유사도를 기초로 자동 번역문의 품질을 평가할 수 있다.
평가부(730)는 자동 번역문의 품질 평가 결과를 품질 레벨(예: 상중하), 품질 점수(예: 100점 기준의 점수)와 같은 다양한 지표로서 출력할 수 있다.
처리부(740)는 평가부(730)에 의해 출력된 품질 평가 결과를 이용하여 다양한 동작을 처리할 수 있다.
일 예로, 처리부(740)는 품질 평가 결과가 미리 설정된 기준을 만족하지 않는 경우, 번역부(720)로 하여금 원문을 다시 번역하도록 할 수 있다. 이때, 처리부(740)는 원문의 평가 결과가 반복적으로 미리 설정된 기준을 만족하지 못한 경우 자동 번역 엔진의 갱신 또는 교체에 대해 사용자에게 안내할 수 있으며, 사용자의 요청이나 미리 설정된 정책에 따라 연계된 시스템을 통해 자동 번역 엔진의 교체나 갱신을 수행할 수 있다. 여기서, 미리 설정된 기준은 번역의 목적이나 번역을 요청한 애플리케이션 등 사용자의 다양한 조건이나 상황에 따라 다르게 설정될 수 있다.
다른 예로, 처리부(740)는 품질 평가 결과가 미리 설정된 기준을 만족하면, 사용자가 자동 번역을 요청한 상황에 맞는 각종 동작을 처리할 수 있다. 예컨대, 디스플레이에 자동 번역문을 출력할 수 있다. 또한, 자동 번역 장치(700)가 유무선으로 연결된 사용자의 모바일 단말로부터 번역을 요청받은 경우 자동 번역문을 그 모바일 단말에 전송할 수 있다. 또한, 자동 번역 장치(700)가 사용자의 모바일 단말에 탑재되어 있고, 사용자가 음성으로 입력하여 번역을 요청한 경우 자동 번역문을 음성으로 변환하여 스피커를 통해 음성으로 출력할 수 있다. 또한, 사용자가 메시지 애플리케이션에서 입력한 텍스트에 대하여 자동 번역을 요청한 경우, 그 텍스트 입력창에 자동 번역문을 삽입하는 형식으로 출력할 수 있다. 다만, 이러한 예시들은 이해의 편의를 위한 것으로 예시된 바에 한정되지 않는다.
또 다른 예로, 처리부(740)는 품질 평가 결과를 기초로 현재의 분산 표현 모델의 갱신 여부를 결정할 수 있고, 갱신이 필요한 경우 분산 표현 모델 구축 장치로부터 새로운 분산 표현 모델을 수신하여 현재의 분산 표현 모델을 구축할 수 있다. 예를 들어, 사용자가 외국 공항에 있는 상황에서 요청한 원문들이 적절한 번역 엔진을 통해 번역이 되었다 하더라도, 외국 공항에 있는 상황에 맞는 학습 데이터를 이용하여 분산 표현 모델이 학습되지 않은 경우에는 정확한 분산 표현으로 변환되지 않을 수 있으며 그 결과 품질 평가 결과가 정확하지 않을 수 있다. 처리부(740)는 이와 같이 어느 특정 상황에 대하여 자동 번역문들의 품질 평가 결과가 소정 횟수 이상 만족하지 않으면 현재의 분산 표현 모델이 사용자의 현재 상황을 충분히 지원하지 못한다고 판단할 수 있으며, 분산 표현 모델 구축 장치로부터 사용자의 현재 상황에 맞는 분산 표현 모델을 수신하여 갱신할 수 있다.
도 8은 일 실시예에 따른 자동 번역 방법의 흐름도이다. 도 8의 자동 번역 방법은 도 7의 자동 번역 장치(700)에 의해 수행되므로 이하 간단하게 설명한다.
먼저, 자동 번역 장치(700)는 번역하고자 하는 제1 언어의 원문을 사용자로부터 입력받는다(810). 이때, 입력되는 원문 데이터의 형식은 특별히 제한되지 않으며, 음성이나 텍스트 형태 등 다양한 형태로 입력될 수 있다.
그 다음, 자동 번역 장치(700)는 입력된 원문을 자동 번역 엔진을 통해 사용자가 원하는 제2 언어로 번역할 수 있다(820).
그 다음, 자동 번역 장치(700)는 자동 번역문을 분산 표현 모델을 이용하여 분산 표현으로 변환할 수 있다(830). 이때, 분산 표현 모델은 신경망을 통해 학습되어 구축될 수 있다.
그 다음, 자동 번역 장치(700)는 변환된 자동 번역문의 분산 표현을 이용하여 자동 번역문의 품질을 평가할 수 있다(840). 이때, 기준 번역문이 존재하는 경우 기준 번역문을 분산 표현 모델을 이용하여 분산 표현으로 변환할 수 있으며, 기준 번역문의 분산 표현과 자동 번역문의 분산 표현을 비교하여 자동 번역문의 품질을 평가할 수 있다. 예를 들어, 평가부(730)는 기준 번역문의 분산 표현과 자동 번역문의 분산 표현 간의 벡터 거리(예: 유클리드 거리)를 계산하여 그 거리를 이용하여 양 분산 표현 간의 유사도를 계산하고, 그 유사도를 기초로 자동 번역문의 품질을 평가할 수 있다.
그 다음, 자동 번역 장치(700)는 품질 평가 결과가 기준을 만족하는지 판단하고(850), 판단 결과 만족하지 않으면 입력된 원문을 번역하는 단계(820) 이하를 다시 수행할 수 있다. 판단 결과 기준을 만족하는 경우에는 자동 번역문을 출력할 수 있다(860). 이때, 자동 번역 장치(700)는 자동 번역문을 출력하는 단계(860)에서 자동 번역문을 디스플레이에 출력하는 것 이외에도 전술한 바와 같은 다양한 동작을 처리할 수 있다.
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 자동 번역 품질 평가 장치 110: 변환부
120: 품질 평가부 400: 분산 표현 모델 구축 장치
410: 학습 데이터 수집부 420: 모델 구축부
700: 자동 번역 장치 710: 입력부
720: 번역부 730: 평가부
740: 처리부

Claims (20)

  1. 원문에 대한 자동 번역문 및 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현 및 제2 분산 표현으로 변환하는 변환부; 및
    상기 제1 분산 표현 및 제2 분산 표현 간의 유사도를 기초로 상기 자동 번역 데이터의 품질을 평가하는 품질 평가부를 포함하는 자동 번역의 품질 평가 장치.
  2. 제1항에 있어서,
    상기 분산 표현 모델은 신경망(Neural Network)을 통해 학습되는 자동 번역의 품질 평가 장치.
  3. 제2항에 있어서,
    상기 신경망은 Deep Neural Network, Recurrent Neural Network, Rcursive Neural Network 및 Spike Neural Network 중의 적어도 하나를 포함하는 자동 번역의 품질 평가 장치.
  4. 제1항에 있어서,
    상기 기준 번역문은 상기 원문을 수작업으로 번역한 수동 번역문을 포함하는 자동 번역의 품질 평가 장치.
  5. 제1항에 있어서,
    상기 품질 평가부는
    유클리드 거리(Euclidean distance)를 포함하는 벡터 사이의 거리 계산 기법을 이용하여 상기 제1 분산 표현 및 제2 분산 표현 간의 거리를 산출하고, 상기 산출된 거리를 기초로 상기 유사도를 계산하는 자동 번역의 품질 평가 장치.
  6. 제5항에 있어서,
    상기 품질 평가부는
    상기 유사도를 상기 산출된 거리에 반비례하도록 계산하는 자동 번역의 품질 평가 장치.
  7. 원문에 대한 자동 번역문 및 기준 번역문을 분산 표현 모델을 이용하여 각각 제1 분산 표현 및 제2 분산 표현으로 변환하는 단계;
    상기 제1 분산 표현 및 제2 분산 표현 간의 유사도를 계산하는 단계; 및
    상기 계산된 유사도를 기초로 상기 자동 번역 데이터의 품질을 평가하는 단계를 포함하는 자동 번역의 품질 평가 방법.
  8. 제7항에 있어서,
    상기 분산 표현 모델은 신경망(Neural Network)을 통해 학습되는 자동 번역의 품질 평가 방법.
  9. 제8항에 있어서,
    상기 신경망은 Deep Neural Network, Recurrent Neural Network, Rcursive Neural Network 및 Spike Neural Network 중의 하나 이상을 포함하는 자동 번역의 품질 평가 방법.
  10. 제7항에 있어서,
    상기 기준 번역문은 상기 원문을 수작업으로 번역한 수동 번역문을 포함하는 자동 번역의 품질 평가 방법.
  11. 제7항에 있어서,
    상기 유사도를 계산하는 단계는
    유클리드 거리(Euclidean distance)를 포함하는 벡터 사이의 거리 계산 기법을 이용하여 상기 제1 분산 표현 및 제2 분산 표현 간의 거리를 산출하는 단계를 포함하고, 상기 산출된 거리를 기초로 상기 유사도를 계산하는 자동 번역의 품질 평가 방법.
  12. 제11항에 있어서,
    상기 유사도를 계산하는 단계는
    상기 유사도를 상기 산출된 거리에 반비례하도록 계산하는 자동 번역의 품질 평가 방법.
  13. 원문을 입력받는 입력부;
    상기 입력된 원문을 자동으로 번역하는 번역부;
    상기 번역 결과 생성된 자동 번역문을 분산 표현 모델을 이용하여 분산 표현으로 변환하고, 변환된 분산 표현을 이용하여 상기 자동 번역문의 품질을 평가하는 평가부; 및
    상기 평가 결과에 기초하여 상기 원문의 재번역 또는 상기 자동 번역문의 출력을 처리하는 처리부를 포함하는 자동 번역 장치.
  14. 제13항에 있어서,
    상기 분산 표현 모델은 자동 번역문이 다차원 벡터 공간상에 배치된 임베딩 벡터 형식을 갖는 분산 표현으로 변환되도록 신경망을 통해 학습되는 자동 번역 장치.
  15. 제13항에 있어서,
    상기 평가부는
    상기 원문에 대한 기준 번역문을 분산 표현으로 변환하고, 상기 자동 번역문 및 기준 번역문에 대한 분산 표현 간의 유사도를 기초로 상기 자동 번역문의 품질을 평가하는 자동 번역 장치.
  16. 제14항에 있어서,
    상기 처리부는
    상기 품질 평가 결과가 소정 기준을 만족하지 않으면 상기 번역부로 하여금 원문을 다시 번역하도록 하고, 상기 소정 기준을 만족하면 상기 자동 번역문을 출력하는 자동 번역 장치.
  17. 원문, 상기 원문에 대한 수동 번역문, 분산 표현 및 상기 원문에 대한 유사 번역문을 학습데이터로 수집하는 학습데이터 수집부; 및
    상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 자동 번역문의 품질 평가에 이용되는 분산 표현 모델을 구축하는 모델 구축부를 포함하는 분산 표현 모델 구축 장치.
  18. 제17항에 있어서,
    상기 신경망은
    상기 수동 번역문을 입력으로 상기 분산 표현을 출력하도록 하는 제1 신경망, 상기 분산 표현을 입력으로 상기 원문을 출력하도록 하는 제2 신경망 및 상기 분산 표현을 입력으로 상기 유사 번역문을 출력하도록 하는 제3 신경망을 포함하는 분산 표현 모델 구축 장치.
  19. 제18항에 있어서,
    상기 모델 구축부는
    상기 제1 신경망, 제2 신경망 및 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시키는 분산 표현 모델 구축 장치.
  20. 제19항에 있어서,
    상기 모델 구축부는
    상기 학습데이터를 이용하여 상기 제1 신경망, 제2 신경망 및 제3 신경망의 학습이 완료되면, 상기 제1 신경망을 기초로 상기 분산 표현 모델을 구축하는 분산 표현 모델 구축 장치.
KR1020150156154A 2015-11-06 2015-11-06 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치 KR102449614B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150156154A KR102449614B1 (ko) 2015-11-06 2015-11-06 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
US15/254,347 US10599781B2 (en) 2015-11-06 2016-09-01 Apparatus and method for evaluating quality of automatic translation and for constructing distributed representation model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150156154A KR102449614B1 (ko) 2015-11-06 2015-11-06 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치

Publications (2)

Publication Number Publication Date
KR20170053527A true KR20170053527A (ko) 2017-05-16
KR102449614B1 KR102449614B1 (ko) 2022-09-29

Family

ID=58667742

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150156154A KR102449614B1 (ko) 2015-11-06 2015-11-06 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치

Country Status (2)

Country Link
US (1) US10599781B2 (ko)
KR (1) KR102449614B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
CN111126063A (zh) * 2019-12-26 2020-05-08 北京百度网讯科技有限公司 文本质量评估方法及装置
KR20210030238A (ko) * 2019-09-09 2021-03-17 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법
KR20210070891A (ko) * 2019-12-05 2021-06-15 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 번역품질 평가 방법 및 장치
KR20220033652A (ko) 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20230034468A (ko) 2021-09-02 2023-03-10 고려대학교 산학협력단 기계 번역 품질 예측을 이용한 최적의 번역 자막 생성 장치 및 방법
KR20230071825A (ko) 2021-11-15 2023-05-24 고려대학교 산학협력단 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180070103A (ko) * 2016-12-16 2018-06-26 삼성전자주식회사 인식 방법 및 인식 장치
US10958422B2 (en) * 2017-06-01 2021-03-23 Cotiviti, Inc. Methods for disseminating reasoning supporting insights without disclosing uniquely identifiable data, and systems for the same
WO2019225154A1 (ja) * 2018-05-23 2019-11-28 株式会社Nttドコモ 作成文章評価装置
CN109144986A (zh) * 2018-07-30 2019-01-04 上海电气集团股份有限公司 一种工业设备数据的重要性评估方法
CN109710948A (zh) * 2018-11-27 2019-05-03 语联网(武汉)信息技术有限公司 机器翻译引擎推荐方法及装置
CN109558597B (zh) * 2018-12-17 2022-05-24 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质
KR102138663B1 (ko) * 2019-03-29 2020-07-28 이승진 다국어 번역 지원이 가능한 채팅시스템 및 번역 제공방법
US11429795B2 (en) * 2020-01-13 2022-08-30 International Business Machines Corporation Machine translation integrated with user analysis
CN112734205A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 模型置信度分析方法、装置、电子设备及计算机存储介质
CN114997188A (zh) * 2022-06-01 2022-09-02 阿里巴巴(中国)有限公司 翻译评估方法、翻译评估模型训练方法及电子设备
EP4290509A1 (en) * 2022-06-07 2023-12-13 Interprefy AG Computer implemented method for evaluating one or more speech recognition systems

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US20140006003A1 (en) * 2005-06-17 2014-01-02 Radu Soricut Trust scoring for language translation systems
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07334477A (ja) 1994-06-10 1995-12-22 Matsushita Electric Ind Co Ltd 統合型学習システム
US7209875B2 (en) 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
DE102004013924B3 (de) 2004-03-22 2005-09-01 Siemens Ag Vorrichtung zur kontextabhängigen Datenanalyse
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
KR101014726B1 (ko) 2004-06-21 2011-02-16 엘지전자 주식회사 펄세이터를 구비한 경사형 건조겸용 드럼세탁기
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7765098B2 (en) * 2005-04-26 2010-07-27 Content Analyst Company, Llc Machine translation using vector space representations
US7779396B2 (en) 2005-08-10 2010-08-17 Microsoft Corporation Syntactic program language translation
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US7912843B2 (en) 2007-10-29 2011-03-22 Yahoo! Inc. Method for selecting electronic advertisements using machine translation techniques
US8229729B2 (en) * 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8527521B2 (en) * 2010-06-09 2013-09-03 One Hour Translation, Inc. System and method for evaluating the quality of human translation through the use of a group of human reviewers
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US8977537B2 (en) * 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
PT2639749T (pt) 2012-03-15 2017-01-18 Cortical Io Gmbh Métodos, aparelhos e produtos para processamento semântico de texto
US9916306B2 (en) * 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US20140249799A1 (en) 2013-03-04 2014-09-04 Microsoft Corporation Relational similarity measurement
JP2014235599A (ja) * 2013-06-03 2014-12-15 独立行政法人情報通信研究機構 翻訳装置、学習装置、翻訳方法、およびプログラム
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
US10083167B2 (en) * 2014-10-03 2018-09-25 At&T Intellectual Property I, L.P. System and method for unsupervised text normalization using distributed representation of words
US9606988B2 (en) * 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN106484681B (zh) * 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140006003A1 (en) * 2005-06-17 2014-01-02 Radu Soricut Trust scoring for language translation systems
US20130204885A1 (en) * 2012-02-02 2013-08-08 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US20150286632A1 (en) * 2014-04-03 2015-10-08 Xerox Corporation Predicting the quality of automatic translation of an entire document

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377918A (zh) * 2019-07-15 2019-10-25 昆明理工大学 融合句法解析树的汉-越神经机器翻译方法
KR20210030238A (ko) * 2019-09-09 2021-03-17 포항공과대학교 산학협력단 번역문 품질 예측 모델 학습 장치 및 방법
KR20210070891A (ko) * 2019-12-05 2021-06-15 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 번역품질 평가 방법 및 장치
US11481562B2 (en) 2019-12-05 2022-10-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for evaluating translation quality
CN111126063A (zh) * 2019-12-26 2020-05-08 北京百度网讯科技有限公司 文本质量评估方法及装置
CN111126063B (zh) * 2019-12-26 2023-06-20 北京百度网讯科技有限公司 文本质量评估方法及装置
KR20220033652A (ko) 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
WO2022055244A1 (ko) * 2020-09-09 2022-03-17 고려대학교 산학협력단 기계 번역의 학습 데이터 구축을 위한 방법
KR20230034468A (ko) 2021-09-02 2023-03-10 고려대학교 산학협력단 기계 번역 품질 예측을 이용한 최적의 번역 자막 생성 장치 및 방법
KR20230071825A (ko) 2021-11-15 2023-05-24 고려대학교 산학협력단 기계 번역 품질 예측을 위한 학습 데이터 생성 장치 및 방법

Also Published As

Publication number Publication date
US10599781B2 (en) 2020-03-24
KR102449614B1 (ko) 2022-09-29
US20170132217A1 (en) 2017-05-11

Similar Documents

Publication Publication Date Title
KR102449614B1 (ko) 자동 번역의 품질 평가 장치 및 방법, 자동 번역 장치, 분산 표현 모델 구축 장치
US11481562B2 (en) Method and apparatus for evaluating translation quality
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN107193807B (zh) 基于人工智能的语言转换处理方法、装置及终端
CN107729322B (zh) 分词方法及装置、建立句子向量生成模型方法及装置
WO2019052261A1 (zh) 用于问答服务的方法、问答服务系统以及存储介质
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
Wu et al. Research on business English translation framework based on speech recognition and wireless communication
KR20150085145A (ko) 사용자 반응 기반 통역 시스템 및 그 방법
KR102339149B1 (ko) 기계 번역 모델 트레이닝 방법, 장치 및 기록 매체
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN112579760A (zh) 人机对话方法、装置、计算机设备及可读存储介质
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN117271736A (zh) 一种问答对的生成方法和系统、电子设备及存储介质
CN113849623A (zh) 文本视觉问答方法和装置
CN112100355A (zh) 一种智能交互方法、装置及设备
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN117009456A (zh) 医疗查询文本的处理方法、装置、设备、介质和电子产品
CN115116444A (zh) 一种语音识别文本的处理方法、装置、设备及存储介质
CN114462428A (zh) 翻译评测方法和系统、电子设备及可读存储介质
CN111723188A (zh) 用于问答系统的基于人工智能的语句显示方法、电子设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
US11984113B2 (en) Method and server for training a neural network to generate a textual output sequence
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN116959419A (zh) 音频识别方法、装置和存储介质及电子设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant