KR102195627B1 - 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 - Google Patents

통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 Download PDF

Info

Publication number
KR102195627B1
KR102195627B1 KR1020150161411A KR20150161411A KR102195627B1 KR 102195627 B1 KR102195627 B1 KR 102195627B1 KR 1020150161411 A KR1020150161411 A KR 1020150161411A KR 20150161411 A KR20150161411 A KR 20150161411A KR 102195627 B1 KR102195627 B1 KR 102195627B1
Authority
KR
South Korea
Prior art keywords
neural network
original text
speech recognition
interpretation model
text
Prior art date
Application number
KR1020150161411A
Other languages
English (en)
Other versions
KR20170057792A (ko
Inventor
나휘동
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150161411A priority Critical patent/KR102195627B1/ko
Priority to US15/245,474 priority patent/US10198435B2/en
Publication of KR20170057792A publication Critical patent/KR20170057792A/ko
Application granted granted Critical
Publication of KR102195627B1 publication Critical patent/KR102195627B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법이 개시된다. 일 양상에 따른 음성 인식 오류에 강건한 통역 모델 생성 장치는, 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 학습데이터로 수집하는 학습데이터 수집부와, 상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 오류 교정과 번역문 생성을 동시에 수행하는데 이용되는 통역 모델을 생성하는 모델 생성부를 포함할 수 있다.

Description

통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법{Apparatus and method for generating translation model, apparatus and method for automatic translation}
자동 통역 기술에 관한 것으로 특히, 음성 인식 오류에 강건한 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법과 관련된다.
자동 통역은 크게 음성 인식, 자동 번역 및 음성 합성 세 부분으로 구분될 수 있다. 각 부분은 순차적으로 수행되기 때문에 이전 단계에서 오류가 발행하면 다음 단계에 영향을 미친다. 음성 인식의 경우에는 사용자마다 발화의 형태가 다양하게 나타날 수 있고 음성 입력 시의 주변 환경에 따라 노이즈 수준이 달라질 수 있기 때문에, 이러한 음성 신호의 변이에 효과적으로 대응할 수 있는 방안이 필요하다.
한편, 최근 기계 학습을 이용한 음성 인식은 음성 신호의 다양한 변화에 효과적으로 대응할 수 있어 음성 인식 기술을 비약적으로 발전시켰다. 그러나, 노이즈의 정도가 크거나 전혀 다른 단어이지만 발음이 비슷한 경우 여전히 음성 인식 오류가 발생할 가능성이 크며, 이러한 오류는 자동 번역의 품질을 저하시키는 원인이 된다.
음성 인식 오류에 강건한 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법을 제공하는 것을 목적으로 한다.
일 양상에 따른 음성 인식 오류에 강건한 통역 모델 생성 장치는, 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 학습데이터로 수집하는 학습데이터 수집부와, 상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 오류 교정과 번역문 생성을 동시에 수행하는데 이용되는 통역 모델을 생성하는 모델 생성부를 포함할 수 있다.
상기 신경망은, 상기 오류가 삽입된 원문을 추상 정보로 변환하는 제1 신경망, 상기 추상 정보에서 상기 원문에 대한 번역문을 생성하는 제2 신경망, 및 상기 추상 정보에서 상기 원문을 생성하는 제3 신경망을 포함할 수 있다.
상기 모델 생성부는, 상기 제1 신경망, 상기 제2 신경망 및 상기 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시킬 수 있다.
상기 추상 정보는, 다차원 벡터 공간상에 배치된 임베딩 벡터로 표현될 수 있다.
상기 모델 생성부는, 멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시킬 수 있다.
상기 모델 생성부는, 상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시킬 수 있다.
다른 양상에 따른 음성 인식 오류에 강건한 통역 모델 생성 방법은, 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 학습데이터로 수집하는 단계와, 상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 오류 교정과 번역문 생성을 동시에 수행하는데 이용되는 통역 모델을 생성하는 단계를 포함할 수 있다.
상기 신경망은, 상기 오류가 삽입된 원문을 추상 정보로 변환하는 제1 신경망, 상기 추상 정보에서 상기 원문에 대한 번역문을 생성하는 제2 신경망, 및 상기 추상 정보에서 상기 원문을 생성하는 제3 신경망을 포함할 수 있다.
상기 통역 모델을 생성하는 단계는, 상기 제1 신경망, 상기 제2 신경망 및 상기 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시킬 수 있다.
상기 추상 정보는, 다차원 벡터 공간상에 배치된 임베딩 벡터로 표현될 수 있다.
상기 통역 모델을 생성하는 단계는, 멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시킬 수 있다.
상기 통역 모델을 생성하는 단계는, 상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시킬 수 있다.
또 다른 양상에 따른 음성 인식 오류에 강건한 자동 통역 장치는, 입력된 음성을 인식하는 음성 인식부와, 통역 모델을 이용하여 음성 인식 결과에 대한 음성 인식 오류 교정과 번역을 동시에 수행하는 번역부와, 음성 인식 오류 교정 결과 및 번역 결과를 출력하는 출력부를 포함할 수 있다.
상기 통역 모델은, 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 기초로 신경망을 학습시켜 생성될 수 있다.
상기 통역 모델은, 멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시켜 생성될 수 있다.
상기 통역 모델은, 상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시켜 생성될 수 있다.
또 다른 양상에 따른 음성 인식 오류에 강건한 자동 통역 방법은, 입력된 음성을 인식하는 단계와, 통역 모델을 이용하여 음성 인식 결과에 대한 음성 인식 오류 교정과 번역을 동시에 수행하는 단계와, 음성 인식 오류 교정 결과 및 번역 결과를 출력하는 단계를 포함할 수 있다.
상기 통역 모델은, 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 기초로 신경망을 학습시켜 생성될 수 있다.
상기 통역 모델은, 멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시켜 생성될 수 있다.
상기 통역 모델은, 상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시켜 생성될 수 있다.
음성 인식 오류의 교정 및 번역을 동시에 수행할 수 있는 통역 모델을 생성 및 이용함으로써 자동 통역의 정확성을 향상시킬 수 있다.
도 1은 음성 인식 오류에 강건한 통역 모델 생성 장치의 일 실시예를 도시한 블록도이다.
도 2는 통역 모델을 생성하기 위한 신경망 학습을 설명하기 위한 도면이다.
도 3은 음성 인식 오류에 강건한 자동 통역 장치의 일 실시예를 도시한 블록도이다.
도 4는 음성 인식 오류에 강건한 통역 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 5는 음성 인식 오류에 강건한 자동 통역 방법의 일 실시예를 도시한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 음성 인식 오류에 강건한 통역 모델 생성 장치의 일 실시예를 도시한 블록도이다. 통역 모델 생성 장치(100)는 자동 통역 과정에서 음성 인식 오류가 발생한 경우, 인식 오류를 교정하여 올바른 음성 인식 결과를 출력함과 동시에 올바른 번역 결과를 출력하는데 이용되는 통역 모델을 생성하는 장치이다.
도 1을 참조하면, 통역 모델 생성 장치(100)는 학습 데이터 수집부(110) 및 모델 생성부(120)를 포함할 수 있다.
학습 데이터 수집부(110)는 원문, 오류 원문, 및 원문에 대한 번역문을 학습 데이터로 수집할 수 있다. 여기서, 오류 원문은 오류가 삽입된 원문을 의미할 수 있다.
수집된 학습 데이터는 원문과 원문에 대한 변역문의 쌍으로 구성된 다국어 말뭉치(bilingual corpus)와, 오류 원문과 원문의 쌍으로 구성된 단일어 말뭉치(monolingual corpus)일 수 있다.
한편, 학습 데이터 수집부(110)가 학습 데이터를 수집하는 방법에 대해서는 특별한 제한이 없다. 즉, 학습 데이터 수십부(110)는 외부 장치로부터 원문, 오류 원문, 및 원문에 대한 변역문을 단순히 수신하여 수집하는 것도 가능하며, 원문 및 원문에 대한 번역문은 외부로부터 수신하고, 오류 원문은 수신된 원문에 오류를 인위적으로 삽입하여 생성하는 것도 가능하다.
오류 원문을 생성하는 경우, 학습 데이터 수십부(110)는 음성 인식 과정에서 자주 발생하는 인식 오류를 인위적으로 원문에 삽입시켜 오류 원문을 생성할 수 있다. 예컨대, 학습 데이터 수집부(110)는 원문을 구성하는 단어를 유사 발음의 단어로 변경하여 오류 원문을 생성할 수 있다. 다만, 이는 일 실시예에 불과하므로 이에 한정되지 않으며 학습 데이터 수십부(110)는 다양한 방법으로 오류 원문을 생성할 수 있다.
모델 생성부(120)는 수집된 학습 데이터로 신경망을 학습시켜 통역 모델을 생성할 수 있다.
일 실시예에 따르면, 신경망은 제1 신경망, 제2 신경망 및 제3 신경망을 포함할 수 있다. 여기서, 제1 신경망은 오류 원문을 추상 정보로 변환하는 네트워크이고, 제2 신경망은 추상 정보를 기반으로 원문에 대한 변역문을 생성하는 네트워크이고, 제3 신경망은 추상 정보를 기반으로 오류를 교정하여 원문을 생성하는 네트워크일 수 있다.
여기서, 추상 정보는 임베딩 벡터(Embedding vector)로 표현될 수 있다. 임베딩 벡터는 입력 값, 예컨대 특정 단어를 다차원 벡터 공간상에 각각의 차원이 실수 값을 갖는 다차원 벡터 형태로 나타낸 것을 의미한다. 벡터의 특정 차원은 하나 이상의 다양한 속성이 대응될 수 있으며, 특정 속성은 하나 이상의 차원으로 나뉘어 표현될 수 있다. 임베딩 벡터는 단어들 간의 거리 행렬에 다중 차원 스케일링 기법(Multi-Dimensional Scaling, MDS)을 적용하여 다차원 임베딩 벡터 공간상에 하나의 점으로 배치될 수 있다.
일 실시예에 따르면, 제1 신경망, 제2 신경망, 제3 신경망은 제1 신경망의 출력 노드가 제2 신경망 및 제3 신경망의 입력 노드와 연결되어 하나의 심층 신경망(Deep Neural Network, DNN)을 구성할 수 있다. 모델 생성부(120)는 이러한 3 개의 신경망(제1 신경망 내지 제3 신경망)을 하나의 네트워크로 구성함으로써 하나의 학습 과정으로 제1 신경망, 제2 신경망 및 제3 신경망을 학습시킬 수 있다. 이때, 모델 생성부(120)는 멀티 태스크 러닝(Multi-task learning) 기법을 이용하여 신경망을 학습시킬 수 있다. 멀티 태스크 러닝 기법은 하나의 입력에 대하여 여러 종류의 출력이 나오도록 학습하는 방법이다. 예컨대, 모델 생성부(120)는 오류 원문을 입력으로 하고, 원문 및 원문에 대한 번역문을 정답(target)으로 하여, 번역문 생성과 오류 수정이 동시에 수행될 수 있도록 신경망을 학습시킬 수 있다.
다만, 이는 일 실시예에 불과하므로 이에 한정되지 않는다. 즉, 제1 신경망과 제2 신경망이 연결되고, 제1 신경망과 제3 신경망이 연결되어 각각 별도의 네트워크를 구성할 수 있으며, 이 경우 제1 신경망과 제2 신경망이 연결된 네트워크와 제1 신경망과 제3 신경망이 연결된 네트워크를 각각 별도로 학습시켜 하나로 통합할 수도 있다.
모델 생성부(120)는 오류 원문이 추상 정보를 거쳐 원문이나 원문에 대한 번역문에 근접하도록 반복적으로 학습할 수 있다. 예컨대, 모델 생성부(120)는 전형적인 전형적인 역전파(back propagation) 기법(예컨대, gradient descent algorithm, stochastic gradient descent algorithm 등)을 이용하여 신경망을 학습시킬 수 있다.
도 2는 통역 모델을 생성하기 위한 신경망 학습을 설명하기 위한 도면이다.
도 2를 참조하면, 신경망은 제1 신경망, 제2 신경망, 제3 신경망을 포함할 수 있다. 이때, 제1 신경망은 오류 원문을 추상 정보로 변환하는 네트워크이고, 제2 신경망은 추상 정보를 기반으로 원문에 대한 변역문을 생성하는 네트워크이고, 제3 신경망은 추상 정보를 기반으로 오류를 교정하여 원문을 생성하는 네트워크일 수 있다.
학습 데이터 수집부(110)는 원문 "The queen is protected by two knights", 원문에 대한 번역문 "왕비는 두 기사에게 보호받는다", 및 오류 원문 "The queen is protected by tonight"을 수집한다.
모델 생성부(120)는 멀티 태스크 러닝(Multi-task learning) 기법을 이용하여, 오류 원문 "The queen is protected by tonight"에서 번역문 "왕비는 두 기사에게 보호받는다"을 생성하도록 제1 신경망 및 제2 신경망을 학습시키고, 오류 원문 "The queen is protected by tonight"에서 원문 "The queen is protected by two knights"을 생성하도록 제1 신경망 및 제3 신경망을 학습시킨다.
이러한 과정에서, 제1 신경망은 오류 원문을 기반으로 오류를 교정하여 올바른 원문으로 복원하는 동시에 올바른 번역 결과를 생성하는 추상 정보를 학습하게 된다.
도 3은 음성 인식 오류에 강건한 자동 통역 장치의 일 실시예를 도시한 블록도이다. 일 실시예에 따른 자동 통역 장치(300)는 사용자의 요청에 따라 제1 언어를 제2 언어로 통역하는 장치로서, 도 1의 통역 모델 생성 장치(100)에서 생성된 통역 모델을 이용하여 통역 과정에서 발생하는 음성 인식 오류의 교정과 번역을 동시에 수행하는 장치일 수 있다. 또한, 자동 통역 장치(300)는 소프트웨어 모듈로 구현되거나 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 이때 전자 장치는 TV, 내비게이션, 자동차 전자 장치, 스마트폰, 태블릿 PC, 스마트 와치, 데스크탑 컴퓨터, 노트북 PC, 웨어러블 기기 등을 포함하나 이에 제한되는 것은 아니다.
도 3을 참조하면, 자동 통역 장치(300)는 음성 입력부(310), 음성 인식부(320), 번역부(330), 출력부(340) 및 저장부(350)를 포함할 수 있다.
음성 입력부(310)는 제1 언어의 사용자의 음성을 입력 받을 수 있다. 이를 위해, 음성 입력부(310)는 마이크를 포함할 수 있다.
음성 인식부(320)는 입력된 제1 언어의 음성에 대하여 음성 인식을 수행할 수 있다. 예컨대, 음성 인식부(320)는 음향 모델, 언어 모델 및 발음 사전을 기반으로 입력된 제1 언어의 음성을 인식하고, 음성 인식 결과인 제1 언어의 텍스트를 생성할 수 있다.
번역부(330)는 미리 생성된 통역 모델을 이용하여, 음성 인식 결과 생성된 제1 언어의 텍스트를 제2 언어로 번역하여 제2 언어의 번역문을 생성하고, 이와 동시에 음성 인식 오류를 교정할 수 있다.
이때, 통역 모델은 학습 데이터(원문, 오류 원문, 및 원문에 대한 번역문)을 기반으로 신경망을 학습시켜 생성될 수 있다.
이때, 신경망은 오류 원문을 추상 정보로 변환하는 제1 신경망, 추상 정보를 기반으로 원문에 대한 변역문을 생성하는 제2 신경망 및 추상 정보를 기반으로 오류를 교정하여 원문을 생성하는 제3 신경망을 포함할 수 있다. 추상 정보는 임베딩 벡터(Embedding vector)로 표현될 수 있다.
일 실시예에 따르면, 제1 신경망, 제2 신경망, 제3 신경망은 제1 신경망의 출력 노드가 제2 신경망 및 제3 신경망의 입력 노드와 연결되어 하나의 심층 신경망(Deep Neural Network, DNN)을 구성할 수 있고, 통역 모델은 이러한 하나의 심층 신경망을 하나의 학습 과정으로 학습시켜 생성될 수 있다.
통역 모델은 멀티 태스크 러닝(Multi-task learning) 기법을 이용하여 신경망을 학습시켜 생성될 수 있다. 예컨대, 통역 모델은 오류 원문을 입력으로 하고, 원문 및 원문에 대한 번역문을 정답(target)으로 하여, 번역문 생성과 오류 수정이 동시에 수행될 수 있도록 신경망을 학습시켜 생성될 수 있다.
통역 모델은 오류 원문이 추상 정보를 거쳐 원문이나 원문에 대한 번역문에 근접하도록 반복적으로 신경망을 학습 시켜 생성될 수 있다. 예컨대, 통역 모델은 전형적인 전형적인 역전파(back propagation) 기법(예컨대, gradient descent algorithm, stochastic gradient descent algorithm 등)을 이용하여 신경망을 학습시켜 생성될 수 있다.
출력부(340)는 번역 결과 및/또는 음성 인식 오류 교정 결과를 출력할 수 있다. 일 실시예에 따르면, 출력부(340)는 번역 결과 및/또는 음성 인식 오류 교정 결과를 청각적 방법, 시각적 방법 및 촉각적 방법 중 적어도 하나의 방법으로 출력할 수 있다. 예컨대, 출력부(340)는 음성, 텍스트, 진동 등을 이용하여 번역 결과 및/또는 음성 인식 오류 교정 결과를 출력할 수 있다.
저장부(350)는 자동 통역 장치(300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들이 저장할 수 있다. 예를 들어, 저장부(350)는 음성 인식에 사용되는 음향 모델, 언어 모델 및 발음 사전을 저장할 수 있고, 음성 인식 오류 교정 및 번역에 사용되는 통역 모델을 저장할 수 있다. 또한, 저장부(350)는 음성 인식 결과, 음성 인식 오류 교정 결과 및 번역 결과 등을 저장할 수 있다.
저장부(350)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어, SD 또는 XD 메모리 등), 램(Random Access Memory: RAM) SRAM(Static Random Access Memory), 롬(Read-Only Memory: ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
도 4는 음성 인식 오류에 강건한 통역 모델 생성 방법의 일 실시예를 도시한 흐름도이다.
도 1 및 도 4를 참조하면, 통역 모델 생성 장치(100)는 원문, 오류 원문, 및 원문에 대한 번역문을 학습 데이터로 수집할 수 있다(410). 여기서, 오류 원문은 오류가 삽입된 원문을 의미할 수 있다.
수집된 학습 데이터는 원문과 원문에 대한 변역문의 쌍으로 구성된 다국어 말뭉치(bilingual corpus)와, 오류 원문과 원문의 쌍으로 구성된 단일어 말뭉치(monolingual corpus)일 수 있다.
한편, 통역 모델 생성 장치(100)가 학습 데이터를 수집하는 방법에 대해서는 특별한 제한이 없다. 즉, 통역 모델 생성 장치(100)는 외부 장치로부터 원문, 오류 원문, 및 원문에 대한 변역문을 단순히 수신하여 수집하는 것도 가능하며, 원문 및 원문에 대한 번역문은 외부로부터 수신하고, 오류 원문은 수신된 원문에 오류를 인위적으로 삽입하여 생성하는 것도 가능하다.
오류 원문을 생성하는 경우, 통역 모델 생성 장치(100)는 음성 인식 과정에서 자주 발생하는 인식 오류를 인위적으로 원문에 삽입시켜 오류 원문을 생성할 수 있다. 예컨대, 통역 모델 생성 장치(100)는 원문을 구성하는 단어를 유사 발음의 단어로 변경하여 오류 원문을 생성할 수 있다.
통역 모델 생성 장치(100)는 수집된 학습 데이터로 신경망을 학습시켜 통역 모델을 생성할 수 있다(420).
신경망은 오류 원문을 추상 정보로 변환하는 제1 신경망, 추상 정보를 기반으로 원문에 대한 변역문을 생성하는 제2 신경망 및 추상 정보를 기반으로 오류를 교정하여 원문을 생성하는 제3 신경망을 포함할 수 있다. 이때, 추상 정보는 임베딩 벡터(Embedding vector)로 표현될 수 있다.
일 실시예에 따르면, 제1 신경망, 제2 신경망, 제3 신경망은 제1 신경망의 출력 노드가 제2 신경망 및 제3 신경망의 입력 노드와 연결되어 하나의 심층 신경망(Deep Neural Network, DNN)을 구성할 수 있다. 통역 모델 생성 장치(100)는 이러한 3 개의 신경망(제1 신경망 내지 제3 신경망)을 하나의 네트워크로 구성함으로써 하나의 학습 과정으로 제1 신경망, 제2 신경망 및 제3 신경망을 학습시킬 수 있다. 이때, 통역 모델 생성 장치(100)는 멀티 태스크 러닝(Multi-task learning) 기법을 이용하여 신경망을 학습시킬 수 있다. 예컨대, 통역 모델 생성 장치(100)는 오류 원문을 입력으로 하고, 원문 및 원문에 대한 번역문을 정답(target)으로 하여, 번역문 생성과 오류 수정이 동시에 수행될 수 있도록 신경망을 학습시킬 수 있다.
통역 모델 생성 장치(100)는 오류 원문이 추상 정보를 거쳐 원문이나 원문에 대한 번역문에 근접하도록 반복적으로 학습할 수 있다. 예컨대, 통역 모델 생성 장치(100)는 전형적인 전형적인 역전파(back propagation) 기법(예컨대, gradient descent algorithm, stochastic gradient descent algorithm 등)을 이용하여 신경망을 학습시킬 수 있다.
도 5는 음성 인식 오류에 강건한 자동 통역 방법의 일 실시예를 도시한 흐름도이다.
도 3 및 도 5를 참조하면, 자동 통역 장치(300)는 제1 언어의 사용자의 음성을 입력 받을 수 있다(510).
자동 통역 장치(300)는 입력된 제1 언어의 음성에 대하여 음성 인식을 수행할 수 있다(520). 예컨대, 자동 통역 장치(300)는 음향 모델, 언어 모델 및 발음 사전을 기반으로 입력된 제1 언어의 음성을 인식하고, 음성 인식 결과인 제1 언어의 텍스트를 생성할 수 있다.
자동 통역 장치(300)는 미리 생성된 통역 모델을 이용하여, 음성 인식 결과 생성된 제1 언어의 텍스트를 제2 언어로 번역하여 제2 언어의 번역문을 생성하고, 이와 동시에 음성 인식 오류를 교정할 수 있다(530).
통역 모델은 학습 데이터(원문, 오류 원문, 및 원문에 대한 번역문)을 기반으로 신경망을 학습시켜 생성될 수 있다.
이때, 신경망은 오류 원문을 추상 정보로 변환하는 제1 신경망, 추상 정보를 기반으로 원문에 대한 변역문을 생성하는 제2 신경망 및 추상 정보를 기반으로 오류를 교정하여 원문을 생성하는 제3 신경망을 포함할 수 있다. 추상 정보는 임베딩 벡터(Embedding vector)로 표현될 수 있다.
일 실시예에 따르면, 제1 신경망, 제2 신경망, 제3 신경망은 제1 신경망의 출력 노드가 제2 신경망 및 제3 신경망의 입력 노드와 연결되어 하나의 심층 신경망(Deep Neural Network, DNN)을 구성할 수 있고, 통역 모델은 이러한 하나의 심층 신경망을 하나의 학습 과정으로 학습시켜 생성될 수 있다.
통역 모델은 멀티 태스크 러닝(Multi-task learning) 기법을 이용하여 신경망을 학습시켜 생성될 수 있다. 예컨대, 통역 모델은 오류 원문을 입력으로 하고, 원문 및 원문에 대한 번역문을 정답(target)으로 하여, 번역문 생성과 오류 수정이 동시에 수행될 수 있도록 신경망을 학습시켜 생성될 수 있다.
통역 모델은 오류 원문이 추상 정보를 거쳐 원문이나 원문에 대한 번역문에 근접하도록 반복적으로 신경망을 학습 시켜 생성될 수 있다. 예컨대, 통역 모델은 전형적인 전형적인 역전파(back propagation) 기법(예컨대, gradient descent algorithm, stochastic gradient descent algorithm 등)을 이용하여 신경망을 학습시켜 생성될 수 있다.
자동 통역 장치(300)는 번역 결과 및/또는 음성 인식 오류 교정 결과를 출력할 수 있다(540). 일 실시예에 따르면, 자동 통역 장치(300)는 번역 결과 및/또는 음성 인식 오류 교정 결과를 청각적 방법, 시각적 방법 및 촉각적 방법 중 적어도 하나의 방법으로 출력할 수 있다. 예컨대, 자동 통역 장치(300)는 음성, 텍스트, 진동 등을 이용하여 번역 결과 및/또는 음성 인식 오류 교정 결과를 출력할 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
100: 통역 모델 생성 장치
110: 학습 데이터 수집부
120: 모델 생성부
300: 자동 통역 장치
310: 음성 입력부
320: 음성 인식부
330: 번역부
340: 출력부
350: 저장부

Claims (20)

  1. 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 학습데이터로 수집하는 학습데이터 수집부; 및
    상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 음성 인식 결과에 대한 음성 인식 오류 교정과 번역문 생성을 동시에 수행하는데 이용되는 통역 모델을 생성하는 모델 생성부; 를 포함하는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  2. 제1항에 있어서,
    상기 신경망은,
    상기 오류가 삽입된 원문을 추상 정보로 변환하는 제1 신경망, 상기 추상 정보에서 상기 원문에 대한 번역문을 생성하는 제2 신경망, 및 상기 추상 정보에서 상기 원문을 생성하는 제3 신경망을 포함하는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  3. 제2항에 있어서,
    상기 모델 생성부는,
    상기 제1 신경망, 상기 제2 신경망 및 상기 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  4. 제2항에 있어서,
    상기 추상 정보는,
    다차원 벡터 공간상에 배치된 임베딩 벡터로 표현되는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  5. 제1항에 있어서,
    상기 모델 생성부는,
    멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  6. 제5항에 있어서,
    상기 모델 생성부는,
    상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 장치.
  7. 원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 학습데이터로 수집하는 단계; 및
    상기 수집된 학습 데이터를 기초로 신경망을 학습시켜, 음성 인식 결과에 대한 음성 인식 오류 교정과 번역문 생성을 동시에 수행하는데 이용되는 통역 모델을 생성하는 단계; 를 포함하는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  8. 제7항에 있어서,
    상기 신경망은,
    상기 오류가 삽입된 원문을 추상 정보로 변환하는 제1 신경망, 상기 추상 정보에서 상기 원문에 대한 번역문을 생성하는 제2 신경망, 및 상기 추상 정보에서 상기 원문을 생성하는 제3 신경망을 포함하는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  9. 제8항에 있어서,
    상기 통역 모델을 생성하는 단계는,
    상기 제1 신경망, 상기 제2 신경망 및 상기 제3 신경망을 하나의 심층 신경망(Deep Neural Network)으로 구성하여 하나의 학습 과정으로 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  10. 제8항에 있어서,
    상기 추상 정보는,
    다차원 벡터 공간상에 배치된 임베딩 벡터로 표현되는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  11. 제7항에 있어서,
    상기 통역 모델을 생성하는 단계는,
    멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  12. 제11항에 있어서,
    상기 통역 모델을 생성하는 단계는,
    상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시키는,
    음성 인식 오류에 강건한 통역 모델 생성 방법.
  13. 입력된 음성을 인식하는 음성 인식부;
    통역 모델을 이용하여 음성 인식 결과에 대한 음성 인식 오류 교정과 번역을 동시에 수행하는 번역부; 및
    음성 인식 오류 교정 결과 및 번역 결과를 출력하는 출력부; 를 포함하고,
    상기 통역 모델은,
    원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 기초로 신경망을 학습시켜 생성되는, 음성 인식 오류에 강건한 자동 통역 장치.
  14. 삭제
  15. 제13항에 있어서,
    상기 통역 모델은,
    멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시켜 생성되는,
    음성 인식 오류에 강건한 자동 통역 장치.
  16. 제15항에 있어서,
    상기 통역 모델은,
    상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시켜 생성되는,
    음성 인식 오류에 강건한 자동 통역 장치.
  17. 입력된 음성을 인식하는 단계;
    통역 모델을 이용하여 음성 인식 결과에 대한 음성 인식 오류 교정과 번역을 동시에 수행하는 단계; 및
    음성 인식 오류 교정 결과 및 번역 결과를 출력하는 단계; 를 포함하고,
    상기 통역 모델은,
    원문, 오류가 삽입된 원문, 및 상기 원문에 대한 번역문을 기초로 신경망을 학습시켜 생성되는,
    음성 인식 오류에 강건한 자동 통역 방법.
  18. 삭제
  19. 제17항에 있어서,
    상기 통역 모델은,
    멀티 태스크 러닝 기법을 이용하여 상기 신경망을 학습시켜 생성되는,
    음성 인식 오류에 강건한 자동 통역 방법.
  20. 제19항에 있어서,
    상기 통역 모델은,
    상기 오류가 삽입된 원문을 입력으로 하고, 상기 원문 및 상기 원문에 대한 번역문을 정답(target)으로 하여 상기 신경망을 학습시켜 생성되는,
    음성 인식 오류에 강건한 자동 통역 방법.
KR1020150161411A 2015-11-17 2015-11-17 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 KR102195627B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020150161411A KR102195627B1 (ko) 2015-11-17 2015-11-17 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
US15/245,474 US10198435B2 (en) 2015-11-17 2016-08-24 Apparatus and method for generating translation model, apparatus and method for automatic translation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150161411A KR102195627B1 (ko) 2015-11-17 2015-11-17 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170057792A KR20170057792A (ko) 2017-05-25
KR102195627B1 true KR102195627B1 (ko) 2020-12-28

Family

ID=58691081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150161411A KR102195627B1 (ko) 2015-11-17 2015-11-17 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법

Country Status (2)

Country Link
US (1) US10198435B2 (ko)
KR (1) KR102195627B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12019997B2 (en) 2020-10-28 2024-06-25 Electronics And Telecommunications Research Institute Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107451106A (zh) * 2017-07-26 2017-12-08 阿里巴巴集团控股有限公司 文本纠正方法及装置、电子设备
CN107632981B (zh) * 2017-09-06 2020-11-03 沈阳雅译网络技术有限公司 一种引入源语组块信息编码的神经机器翻译方法
US20190095299A1 (en) * 2017-09-28 2019-03-28 Cnex Labs, Inc. Storage system with machine learning mechanism and method of operation thereof
KR102069692B1 (ko) * 2017-10-26 2020-01-23 한국전자통신연구원 신경망 기계번역 방법 및 장치
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
KR102450816B1 (ko) 2017-11-28 2022-10-05 한국전자통신연구원 실시간 자동 통역 시스템 및 이의 발화 검증 방법
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN108388549B (zh) * 2018-02-26 2021-02-19 腾讯科技(深圳)有限公司 信息转换方法、装置、存储介质和电子装置
CN108595432B (zh) * 2018-04-28 2022-02-08 江苏医像信息技术有限公司 医疗文书纠错方法
CN110444196B (zh) * 2018-05-10 2023-04-07 腾讯科技(北京)有限公司 基于同声传译的数据处理方法、装置、系统和存储介质
KR102107021B1 (ko) * 2018-08-10 2020-05-07 주식회사 딥핑소스 데이터를 식별 처리하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US10937413B2 (en) 2018-09-24 2021-03-02 Amazon Technologies, Inc. Techniques for model training for voice features
US10854189B2 (en) * 2018-09-24 2020-12-01 Amazon Technologies, Inc. Techniques for model training for voice features
CN109558597B (zh) * 2018-12-17 2022-05-24 北京百度网讯科技有限公司 文本翻译方法及装置、设备及存储介质
CN109992773B (zh) * 2019-03-20 2020-10-27 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110457483B (zh) * 2019-06-21 2022-02-18 浙江大学 一种基于神经主题模型的长文本生成方法
JPWO2021125101A1 (ko) * 2019-12-17 2021-06-24
US11449518B2 (en) * 2020-04-08 2022-09-20 Capital One Services, Llc Neural network-based document searching system
CN112016303B (zh) * 2020-09-07 2024-01-19 平安科技(深圳)有限公司 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN113515960B (zh) * 2021-07-14 2024-04-02 厦门大学 一种融合句法信息的翻译质量自动评估方法
WO2023101695A1 (en) 2021-12-02 2023-06-08 Google Llc Phrase extraction for asr models
CN114822498B (zh) * 2022-03-29 2024-06-07 北京有竹居网络技术有限公司 语音翻译模型的训练方法、语音翻译方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122383A (ja) * 2005-10-27 2007-05-17 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
KR100930715B1 (ko) 2007-10-25 2009-12-09 한국전자통신연구원 음성 인식 방법
US20100228548A1 (en) 2009-03-09 2010-09-09 Microsoft Corporation Techniques for enhanced automatic speech recognition
US20110313762A1 (en) 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08101837A (ja) 1994-09-30 1996-04-16 Toshiba Corp 機械翻訳装置における翻訳規則学習方法
JP4886244B2 (ja) 2005-08-19 2012-02-29 株式会社東芝 機械翻訳装置および機械翻訳プログラム
KR100750886B1 (ko) 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8615388B2 (en) 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
HUE030528T2 (en) * 2012-03-15 2017-05-29 Cortical Io Gmbh Process, equipment and product for semantic processing of texts
KR101626109B1 (ko) * 2012-04-04 2016-06-13 한국전자통신연구원 통역 장치 및 방법
KR101892734B1 (ko) 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
KR102191425B1 (ko) 2013-07-29 2020-12-15 한국전자통신연구원 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
CN104049755B (zh) * 2014-06-18 2017-01-18 中国科学院自动化研究所 信息处理方法及装置
JP6334354B2 (ja) * 2014-09-30 2018-05-30 株式会社東芝 機械翻訳装置、方法およびプログラム
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
JP2017058865A (ja) * 2015-09-15 2017-03-23 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122383A (ja) * 2005-10-27 2007-05-17 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
KR100930715B1 (ko) 2007-10-25 2009-12-09 한국전자통신연구원 음성 인식 방법
US20100228548A1 (en) 2009-03-09 2010-09-09 Microsoft Corporation Techniques for enhanced automatic speech recognition
US20110313762A1 (en) 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12019997B2 (en) 2020-10-28 2024-06-25 Electronics And Telecommunications Research Institute Method of training real-time simultaneous interpretation model based on external alignment information, and method and system for simultaneous interpretation based on external alignment information

Also Published As

Publication number Publication date
US20170139905A1 (en) 2017-05-18
US10198435B2 (en) 2019-02-05
KR20170057792A (ko) 2017-05-25

Similar Documents

Publication Publication Date Title
KR102195627B1 (ko) 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
KR102494139B1 (ko) 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
US10176804B2 (en) Analyzing textual data
KR102101044B1 (ko) 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법
WO2017067206A1 (zh) 个性化多声学模型的训练方法、语音合成方法及装置
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
CN106354716B (zh) 转换文本的方法和设备
JP6806662B2 (ja) 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法
KR101986288B1 (ko) 전자문서 내 표 데이터의 음성 변환 장치 및 방법
KR20140094919A (ko) 문장 형식별 구성요소 배열 및 확장에 따른 언어 교육 시스템 및 방법과 기록 매체: 팩토리얼 언어 교육법
KR20160133349A (ko) 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
KR102072162B1 (ko) 인공 지능 기반 외국어 음성 합성 방법 및 장치
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Lekshmy et al. English-malayalam vision aid with multi modal machine learning technologies
Bharti et al. Automated speech to sign language conversion using Google API and NLP
KR20180062859A (ko) 음성 인식 장치 및 방법
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
EP3185132B1 (en) Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
JP2016143218A (ja) 構文解析装置、学習装置、機械翻訳装置、およびプログラム
JP2007026347A (ja) テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법
KR101472029B1 (ko) 색인요소를 이용한 자연어 분석 방법 및 시스템
US20210142010A1 (en) Learning method, translation method, information processing apparatus, and recording medium

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant