KR102580904B1 - 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 - Google Patents

음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 Download PDF

Info

Publication number
KR102580904B1
KR102580904B1 KR1020160123385A KR20160123385A KR102580904B1 KR 102580904 B1 KR102580904 B1 KR 102580904B1 KR 1020160123385 A KR1020160123385 A KR 1020160123385A KR 20160123385 A KR20160123385 A KR 20160123385A KR 102580904 B1 KR102580904 B1 KR 102580904B1
Authority
KR
South Korea
Prior art keywords
language
information
text
section
probability
Prior art date
Application number
KR1020160123385A
Other languages
English (en)
Other versions
KR20180033875A (ko
Inventor
김상하
김은경
유지상
류종엽
박치연
이진식
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020160123385A priority Critical patent/KR102580904B1/ko
Priority to US15/714,249 priority patent/US10614170B2/en
Priority to PCT/KR2017/010557 priority patent/WO2018056779A1/en
Priority to EP17853493.9A priority patent/EP3507711A4/en
Publication of KR20180033875A publication Critical patent/KR20180033875A/ko
Application granted granted Critical
Publication of KR102580904B1 publication Critical patent/KR102580904B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

제1 언어 기반의 음성 신호를 수신하고, 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환하고, 비언어 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역하는, 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법이 개시된다.

Description

음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 {Method for translating speech signal and electronic device thereof}
본 개시는 제1 언어 기반의 음성 신호를 제2 언어로 번역하고, 그 결과를 출력하는 방법 및 그에 따른 전자 디바이스에 관한 것이다.
음성 번역(speech translation) 기술은 입력된 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 기술에 관한 것으로, 음성 인식 단계, 번역 단계 및 음성 합성 단계로 구성될 수 있다. 음성 번역 기술이 채용된 전자 디바이스로 음성 신호가 입력되면, 입력된 음성 신호에 대하여 음성 인식이 수행되고, 음성 인식 결과로써 제1 언어 기반의 텍스트가 생성된다. 전자 디바이스는, 번역 단계에서 제1 언어 기반의 텍스트를 제2 언어로 번역함으로써, 제2 언어 기반의 텍스트를 생성한다. 또한, 전자 디바이스는, 음성 합성 단계에서 제2 언어 기반의 텍스트를 제2 언어의 음성으로 변환한다. 제2 언어의 음성은 스피커를 통해 출력됨으로써, 입력된 음성 신호에 대한 번역 결과가 출력된다.
그러나, 음성 번역 과정에서, 음성 신호가 여러 변환 과정을 거침에 따라 발화자의 의도와는 다른 번역 결과가 음성 번역의 결과로 출력될 수 있는 문제점이 존재한다.
개시된 실시예들은, 제1 언어 기반의 음성 신호를 제2 언어로 번역하고, 그 결과를 출력하는 방법 및 그에 따른 전자 디바이스에 관한 것으로, 보다 자세하게는 음성 신호에 포함된 텍스트 이외의 비언어적인(non-verbal) 정보를 이용하여 번역하는 방법에 관한 것이다.
일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법은, 상기 제1 언어 기반의 음성 신호를 수신하는 단계; 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계; 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 단계를 포함한다.
일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스는 상기 제1 언어 기반의 음성 신호를 수신하는 수신부; 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하고, 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 프로세서; 및 상기 제2 언어로 번역된 결과를 출력하는 출력부를 포함한다.
도 1은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스를 나타낸 도면이다.
도 2는 일 실시 예에 의한 프로세서를 나타낸 블록도이다.
도 3 및 도 4는 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다.
도 5는 일 실시 예에 의한 음성 인식을 수행하는 방법의 일 예를 나타낸 도면이다.
도 6은 일 실시 예에 의한 포즈 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타낸 순서도이다.
도 7은 일 실시 예에 의한 간투어 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 제1 언어 기반의 텍스트에 대하여 번역을 수행하는 방법을 나타낸 예시 도면이다.
도 9는 일 실시 예에 따른 포즈 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.
도 10은 일 실시 예에 따른 간투어 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스를 나타낸 도면이다.
도 1을 참조하면, 전자 디바이스(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 일 실시예에서, 전자 디바이스(100)는 입력된 제1 언어의 음성 신호를 제2 언어의 음성 신호로 변환하고, 제2 언어의 음성 신호를 외부로 출력할 수 있다. 일 실시예에서, 수신부(110)는 마이크이며, 출력부(130)는 스피커일 수 있다.
수신부(110)는 제1 언어 기반의 음성 신호를 수신할 수 있다. 예를 들면, 수신부(110)의 마이크를 통해 발화자의 음성을 포함하는 제1 언어의 음성 신호가 수신될 수 있다. 또 다른 예로, 외부 장치에 의해 수신된 제1 언어의 음성 신호가 수신부(110)로 수신될 수 있다.
프로세서(120)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어(non-verbal) 정보가 포함된 제1 언어 기반의 텍스트로 변환하고, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에서, 프로세서(120)는 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하고, 분할된 각 구간에 대한 확률 정보를 결정할 수 있고, 결정된 확률 정보에 기초하여, 제1 언어 기반 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에서, 프로세서(120)는, 번역 결과로서, 제1 언어 기반 텍스트와 대응되는 제2 언어 기반 텍스트를 출력할 수 있다.
일 실시 예에서, 각 구간에 대한 확률 정보는, 번역 모델에 기초하여 획득될 수 있다. 또한, 각 구간의 확률 정보는, 번역 모델뿐만 아니라, 제2 언어의 언어 모델에 기초하여, 획득될 수 있다. 일 실시 예에 의하면, 프로세서(120)는 번역 모델 및 언어 모델 등에 의해 획득된 확률 정보를 비언어 정보에 기초하여 결정할 수 있다.
번역 모델은 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 번역 모델에서, 제2 언어 기반 텍스트에 대한 확률 값이 클수록, 제2 언어 기반 텍스트가 제1 언어 기반 텍스트의 번역 결과에 해당될 가능성이 높다. 프로세서(120)는 번역 모델을 이용하여, 제1 언어 기반 텍스트와 대응되는 제2 언어 기반 텍스트 및 이에 대한 확률 값을 구할 수 있다.
제2 언어의 언어 모델은 각각의 제2 언어 기반 텍스트가 현재 위치에서 출현할 확률 값을 포함할 수 있다. 예를 들면, 텍스트 A에 대한 언어 모델은, 텍스트 A에 인접한 텍스트 B가 소정 위치에 존재하는 것을 조건으로, 텍스트 A가 현재 위치에서 출현할 확률 값을 포함할 수 있다. 프로세서(120)는 번역 모델뿐만 아니라 제2 언어의 언어 모델을 더 이용하여, 문맥 상 자연스러운 정도가 반영된 제2 언어 기반 텍스트의 확률 값을 구할 수 있다.
일 실시 예에서, 제1 언어 기반 텍스트에서 분할된 각 구간의 확률 정보는, 제2 언어 기반 텍스트가 각 구간에 대한 번역 결과일 확률 값을 포함할 수 있다. 제1 언어 기반의 텍스트와 대응되는 제2 언어 기반의 텍스트는 복수 개 존재할 수 있다. 따라서, 각 구간의 확률 정보는, 각 구간과 대응되는 제2 언어 기반 텍스트의 개수만큼의 확률 값을 포함할 수 있다.
일 실시 예에서, 프로세서(120)는 어휘, 구절, 문장 등 다양한 단위로 제1 언어 기반의 텍스트를 분할할 수 있다. 프로세서(120)는 번역 모델에 제1 언어 텍스트의 일부 구간에 대한 확률 정보가 존재하는지 여부에 따라, 제1 언어 기반의 텍스트를 분할할 수 있다. 예를 들어, 제1 언어 기반의 텍스트에서, 번역 모델에 확률 정보가 존재하는 구간은 하나의 구간으로 분할될 수 있다. 프로세서(120)는 번역 모델의 확률 값을 이용하여, 각 구간과 대응되는 적어도 하나의 제2 언어 기반의 텍스트 및 이에 대한 확률 값을 획득할 수 있다.
일 실시 예에서, 프로세서(120)는 제1 언어 기반의 텍스트를 적어도 하나의 구간으로 분할하고, 분할된 구간들을 다양한 조합 및 순서로 결합할 수 있다. 각 구간들이 서로 결합됨에 따라, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트가 획득될 수 있다. 프로세서(120)는 각 구간과, 각 구간에 인접한 적어도 하나의 구간을 서로 결합하여, 적어도 하나의 결합 구간을 획득할 수 있다. 프로세서(120)는 서로 결합된 적어도 하나의 구간에 대한 각각의 확률 정보에 기초하여, 결합된 구간에 대한 확률 정보를 획득할 수 있다. 결합된 구간에 대한 확률 정보는, 결합된 구간과 대응될 수 있는 적어도 하나의 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 결합된 구간의 제2 언어 기반 텍스트는, 서로 결합된 적어도 하나의 구간과 각각 대응되는 제2 언어 기반 텍스트들의 조합에 기초하여 결정될 수 있다.
예를 들어, 구간 A 및 B와 대응되는 제2 언어 기반 텍스트가 각각 a1, a2 및 b1, b2인 경우, 구간 A 및 B가 서로 결합된 구간에 대한 확률 정보는, 제2 언어 기반 텍스트들 간 조합인 (a1, b1), (a1, b2), (a2, b1) 및 (a2, b2) 중 적어도 하나에 대한 확률 값을 포함할 수 있다. 일 예로, 결합 구간에 대한 확률 정보는, 모든 조합의 확률 값을 포함하는 대신, n-베스트 방식에 따라 선택된 n 개의 확률 값을 포함할 수 있다.
각 조합의 확률 값은, 각 조합을 구성하는 제2 언어 기반 텍스트들의 확률 값에 기초하여, 획득될 수 있다. 또한, 각 조합의 확률 값은 결합된 구간에 포함된 비언어 정보에 기초하여, 결정될 수 있다.
예를 들어, 구간 A 및 B 사이에 비언어 정보 중 포즈(pause) 정보가 존재하는 경우, 프로세서(120)는 포즈 정보에 기초하여, 포즈 정보를 포함한 결합 구간의 확률 정보를 결정할 수 있다. 구간 A 및 B에 대한 각각의 확률 정보는 구간 A 및 B가 비언어 정보를 포함하지 않으므로, 구간 A 및 B에 대한 확률 값은 비언어 정보에 의해 조정되지 않을 수 있다. 그러나, 두 구간이 결합된 구간은 비언어 정보를 포함하므로, 두 구간이 결합된 구간의 확률 값은 비언어 정보에 기초하여 조정될 수 있다. 구간 A 및 B가 결합된 구간이 포즈 정보를 포함하는 경우, 프로세서(120)는 구간 A 및 B의 의미가 구분되도록 발화하고자 하는 발화자의 의도를 고려하여, 결합 구간의 확률 값을 원래 값보다 낮은 값으로 결정할 수 있다. 따라서, 두 구간이 결합된 구간과 대응되는 제2 언어 기반 텍스트는 다른 조합의 결합 구간과 대응되는 제2 언어 기반 텍스트에 비해 번역 결과로 출력될 가능성이 낮아질 수 있다.
또한, 프로세서(120)는 번역 과정에서, 결합된 각 구간과, 결합된 각 구간에 인접한 구간을 결합하여, 새로운 결합 구간을 획득할 수 있다. 예를 들어, 구간 A 및 B가 결합된 구간과 인접한 구간 C(구간 C와 대응되는 제2 언어 기반 텍스트는 c1, c2)가 결합된 구간에 대한 확률 정보는, 제2 언어 기반 텍스트들 간 조합인 ((a1, b1), c1), ((a1, b1), c2), ((a1, b2), c1), ((a1, b2), c2), ((a2, b1), c1), ((a2, b1), c2), ((a2, b2), c1) 및 ((a2, b2), c2)에 대한 확률 값 중 적어도 하나를 포함할 수 있다. 각 조합에 대한 확률 값은, 구간 A 및 B의 결합 구간에 대한 적어도 하나의 확률 값 및 구간 C에 대한 적어도 하나의 확률 값에 기초하여 결정될 수 있다. 새로운 결합 구간에 대한 확률 정보는, 상술된 조합 모두에 대한 확률 값을 포함하는 대신, n-베스트 방식에 따라 선택된 n 개의 확률 값을 포함할 수 있다.
일 실시 예에서, 프로세서(120)는 제1 언어 기반 텍스트에서 분할된 모든 구간이 결합될 때까지, 결합 구간 및 결합 구간에 인접한 구간들의 결합을 단계적으로 수행할 수 있다. 구간들 간에 결합이 수행되는 순서에 따라, 다양한 조합의 결합 구간이 획득될 수 있다. 구간이 결합될 때마다 대응되는 제2 언어 기반 텍스트 및 이에 대한 확률 값이 결정될 수 있다. 따라서, 서로 다른 결합 순서 및 조합을 가진 구간들은 각각 서로 다른 제2 언어 기반 텍스트 및 이에 대한 확률 값을 가질 수 있다.
일 실시 예에 의하면, 음성 번역 과정에서, 음성 신호에 포함된 텍스트 외의 비언어적인 정보가 유실될 수 있다. 동일한 텍스트의 음성인 경우에도, 발화자의 의도에 따라 음성의 높낮이, 강도, 공백 등의 음성 신호의 비언어적인 정보가 서로 다를 수 있다. 따라서, 음성 신호의 비언어적 정보에 대한 고려 없이, 음성 번역이 수행되는 경우, 발화자의 의도와는 다른 번역 결과가 음성 번역의 결과로 출력될 수 있다.
일 실시 예에 의한 전자 디바이스(100)는 제1 언어의 음성 신호에 포함된 텍스트 이외의 비언어 정보를 이용하여 음성 번역을 수행할 수 있다. 전자 디바이스(100)는 비언어 정보를 이용하여 음성 번역을 수행함으로써, 비언어 정보에 포함된 발화자의 의도를 고려한 음성 번역이 가능해진다. 이에 따라, 전자 디바이스(100)의 음성 번역 성능이 향상될 수 있다.
일 실시예에서, 비언어 정보는 포즈 및 간투어(hesitation words) 중 적어도 하나에 관한 정보를 포함할 수 있다. 예를 들어, 비언어 정보가 포즈가 발생된 지점에 관한 정보를 포함하는 경우, 프로세서(120)는 포즈가 포함된 구간의 확률 값을 조정할 수 있다. 확률 값이 조정됨으로써, 제1 언어 기반 텍스트를 제2 언어로 번역한 결과가 달라질 수 있다.
일 실시예에서, 비언어 정보가 간투어에 관한 정보를 포함하는 경우, 프로세서(120)는 간투어에 관한 정보에 기초하여, 확률 값을 조정할 수 있다. 예를 들어, 프로세서(120)는 간투어가 제2 언어의 간투어로 번역되도록, 간투어를 포함하는 구간에 대해 획득된 확률 값을 조정할 수 있다. 프로세서(120)는 간투어에 관한 정보에 기초하여, 간투어가 포함된 구간의 확률 값을 조정하고, 조정된 확률 값을 포함한 확률 정보에 기초하여 번역이 수행될 수 있다.
또한, 프로세서(120)는 간투어를 포함하는 구간에서, 간투어를 배제하고, 간투어가 배제된 구간에 대해 확률 정보를 구함으로써, 번역을 수행할 수 있다. 예를 들면, 프로세서(120)는 간투어로 판단된 제1 언어 기반 텍스트를 배제하고, 제1 언어 기반 텍스트에 대한 번역을 수행할 수 있다.
출력부(130)는 프로세서(120)에 의해 제2 언어로 번역된 결과를 출력할 수 있다. 예를 들면, 제2 언어로 번역된 결과인 제2 언어 기반의 텍스트는 음성으로 변환되어 스피커를 통해 출력될 수 있다.
일 실시 예에 의한 전자 디바이스(100)는, 스마트폰, 태블릿 PC, 노트북 컴퓨터(laptop computer), 전자책 단말기, 웨어러블 디바이스(wearable device) 등을 포함할 수 있으나, 이에 제한되지 않는다.
일 실시 예에 의한 전자 디바이스(100)는 수신부(110)에 의해 수신된 제1 언어 기반의 음성 신호를 서버(미도시)로 전송할 수 있다. 일 실시 예에서, 전자 디바이스(100)로부터 제1 언어 기반의 음성 신호를 수신한 서버는 제1 언어 기반의 음성 신호를 제2 언어로 번역할 수 있다. 예를 들면, 서버는, 상술된 전자 디바이스(100)의 프로세서(120)와 같이, 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 동작을 수행할 수 있다.
일 실시 예에 의한 서버는 제1 언어 기반의 음성 신호의 번역 결과로서, 제2 언어 기반의 음성 신호를 전자 디바이스(100)로 전송할 수 있다. 전자 디바이스(100)는 출력부(130)를 통해 서버로부터 수신한 제2 언어 기반의 음성 신호를 출력할 수 있다.
또는, 일 실시 예에 의한 서버는 제1 언어 기반의 음성 신호의 번역 결과로서, 제2 언어 기반의 텍스트를 전자 디바이스(100)로 전송할 수 있다. 전자 디바이스(100)는 서버로부터 수신된 제2 언어 기반의 텍스트를 제2 언어 기반의 음성 신호로 변환하고, 제2 언어 기반의 음성 신호를 출력부(130)를 통해 출력할 수 있다.
일 실시 예에 있어서, 발화자에 의한 제1 언어의 음성 신호가 전자 디바이스(100)에 입력되면, 제1 언어의 음성 신호가 번역된 결과인 제2 언어의 음성 신호가 전자 디바이스(100)에 의해 출력될 수 있다. 따라서, 발화자는 전자 디바이스(100)를 통해, 발화자가 사용하는 언어와는 다른 언어를 사용하는 대화 상대방과 원활한 의사 소통이 가능하다.
일 실시 예에 의한 비언어 정보(non-verbal)는 입력된 음성 신호의 비언어적인 특성 정보, 예를 들면, 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등에 관한 정보 등에 기초하여 획득될 수 있다. 일 실시 예에서, 비언어 정보는, 상술된 음성 신호의 비언어적인 특성 정보에 기초하여 획득될 수 있는 강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈 및 간투어(hesitation word)에 관한 정보 등을 포함할 수 있다.
일 실시 예에 의하면, 강조된 어휘에 관한 정보는 제1 언어 기반의 텍스트에서 강조된 구간에 대한 정보를 포함할 수 있다. 예를 들면, 다른 구간보다 음성의 크기가 큰 구간은 강조된 구간으로 판단될 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 강조 어휘에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에 강조 어휘를 나타내는 태그를 추가할 수 있다.
일 실시 예에 의하면, 강조된 어휘가 일차적 의미의 제2 언어로 번역되도록, 강조된 어휘를 포함하는 구간에 대한 확률 값을 조정할 수 있다.
예를 들어, 제1 언어 및 제2 언어가 각각 영어 및 한국어이고, 입력 문장이 "I have plans to leave"일 때, "plans"가 강조된 경우, 전자 디바이스(100)는 "plans"의 일차적 의미인 "계획"이 번역 문장에 포함될 수 있도록, "plans"를 포함하는 구간에 대한 확률 값을 조정할 수 있다. 일 예로, 전자 디바이스(100)는 "plans"를 포함하는 구간의 확률 정보 중, "계획"을 포함하는 제2 언어 기반 텍스트에 대한 확률 값을 더 큰 값으로 조정할 수 있다.
일 실시 예에 의하면, 문형에 관한 정보는 제1 언어 기반의 텍스트의 문장 유형, 예를 들면, 의문문, 평서문, 명령문 등에 관한 정보를 포함할 수 있다. 일 예로, 문형에 관한 정보는 음성의 높낮이에 기초하여 결정될 수 있다. 문형이 달라도 문장의 어순 및 어미가 바뀌지 않는 경우가 다수 존재할 수 있다. 예를 들면, 문장 말미에서 발화자가 음높이를 높게 함으로써, 평서문에서 의문문으로 문형이 변경될 수 있다. 따라서, 음성 신호의 비언어적 특성으로부터 획득될 수 있는 문형에 관한 정보의 고려없이 음성 인식된 제1 언어의 텍스트만 고려하여 번역이 수행되는 경우, 발화자의 의도와는 다르게, 음성 신호가 잘못된 문형의 문장으로 오역될 가능성이 존재한다.
일 실시 예에 의한 전자 디바이스(100)는 음성 신호의 비언어적인 특성 정보에 기초하여, 문형에 관한 정보를 획득할 수 있다. 음성 신호로부터 문형에 관한 정보를 검출한 경우, 전자 디바이스(100)는 음성 인식 결과인 제1 언어 기반 텍스트에 문형을 나타내는 태그를 추가할 수 있다.
일 실시 예에 의하면, 전자 디바이스(100)는 제1 언어 기반 텍스트의 문형에 관한 정보에 기초하여, 번역 시 이용되는 확률 값을 조정할 수 있다. 예를 들면, 제1 언어 및 제2 언어가 각각 한국어 및 영어이고, 입력 문장이 "정말 그렇게 생각해"일 때, 음성 신호의 높낮이에 기초하여 입력 문장의 문형이 결정될 수 있다. 입력 문장 중 "해"와 대응되는 음성 신호의 높낮이가 높은 경우, 전자 디바이스(100)는 입력 문장의 문형이 의문문인 것으로 결정할 수 있다.
일 실시 예에 의하면, 전자 디바이스(100)는 수신된 음성 신호가, 의문문에서 사용될 수 있는 어휘를 포함한 문장으로 번역되도록, 구간에 대한 확률 값을 조정할 수 있다. 예를 들면, 음성 신호가 의문 대명사를 포함하지 않는 문장 대신 'who', 'do' 등과 같은 의문 대명사를 포함하는 문장으로 번역되도록, 확률 값이 조정될 수 있다. "정말 그렇게 생각해"가 의문문일 때, "I really think so" 대신 "Do you really think so"의 문장이 음성 신호의 번역문으로 출력될 수 있도록 확률 값이 조정될 수 있다. 일 예로, 전자 디바이스(100)는 의문 대명사인 "Do"를 포함하는 제2 언어 기반 텍스트의 확률 값을 더 큰 값으로 조정할 수 있다.
일 실시 예에 의하면, 비표준어에 관한 정보는 제1 언어 기반의 텍스트 중 비표준어를 나타내는 어휘에 관한 정보를 포함할 수 있다. 비표준어가, 발화자의 의도와 다른 의미를 가진 제2 언어의 어휘로 번역되지 않도록, 전자 디바이스(100)는 비표준어에 관한 정보에 기초하여, 번역을 수행할 수 있다.
예를 들면, 비표준어는 사투리, 비속어, 은어 등을 포함할 수 있으며, 발화자의 언어 습관에 따라 각 비표준어에 대한 사용 빈도수, 억양, 강도 등이 서로 다를 수 있다. 비표준어는 발화자에 따라 사용 빈도수, 억양, 강도 등이 서로 다를 수 있으므로, 발화자에 따라 서로 다른 정보가 비표준어 검출을 위해 이용될 수 있다. 전자 디바이스(100)는 비표준어에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에, 비표준어를 나타내는 태그 또는 검출된 비표준어와 의미가 동일한 표준어를 나타내는 태그를 추가할 수 있다. 전자 디바이스(100)는 비표준어로 검출된 어휘가 발화자의 의도에 맞게 번역되도록, 비표준어를 포함하는 구간에 대한 확률 값을 조정할 수 있다. 일 예로, 전자 디바이스(100)는 비표준어에 관한 정보에 기초하여, 비표준어를 포함하는 제2 언어 기반 텍스트의 확률 값을 더 큰 값으로 조정할 수 있다.
일 실시 예에 의하면, 포즈 및 간투어 정보는 비언어 정보로서, 제1 언어 기반의 텍스트에서, 포즈 또는 간투어가 발생된 구간에 관한 정보를 포함할 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 포즈 또는 간투어에 관한 정보에 기초하여 포즈 또는 간투어가 발생된 구간에 대한 확률 정보를 획득할 수 있다.
일 실시 예에 의하면, 발화자의 의도적인 포즈는 의미 구분을 위한 것인 점을 고려하여, 전자 디바이스(100)는 번역 시 포즈를 포함하는 구간이 우선적으로 결합된 구간의 확률 값을 원래 값보다 낮은 값으로 결정할 수 있다.
또한, 간투어는 발화자가 의미를 가지도록 발화한 어휘가 아닌 점을 고려하여, 전자 디바이스(100)는 간투어가 다른 어휘의 번역에 영향을 주지 않도록 각 구간에 대한 확률 정보를 결정할 수 있다. 확률 정보는 번역 모델뿐만 아니라 제2 언어의 언어 모델에 더 기초하여 획득될 수 있으므로, 간투어는 인접한 다른 어휘의 번역에 영향을 줄 수 있기 때문이다. 따라서, 일 실시 예에 의한 전자 디바이스(100)는 제1 언어 기반 텍스트의 간투어가 제2 언어의 간투어로 번역되도록 확률 정보를 결정하거나, 제1 언어 기반 텍스트에서 간투어인 구간을 배제한 후, 각 구간에 대한 확률 정보를 결정할 수 있다.
일 실시 예에 의하면, 전자 디바이스(100)는 포즈 또는 간투어에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에 포즈가 발생된 지점임을 나타내는 태그 또는 간투어를 나타내는 태그를 추가할 수 있다.
비언어 정보는 상술된 예에 한하지 않고, 전자 디바이스(100)로 입력된 음성 신호의 비언어적인 특성에 기초하여 결정될 수 있는 다양한 종류의 정보를 포함할 수 있다.
도 2는 일 실시 예에 의한 프로세서를 나타낸 블록도이다.
도 2를 참조하면, 전자 디바이스(100)의 프로세서(120)는 음성 인식부(121), 비언어 정보 검출부(122), 번역부(124), 가중치 제어부(123) 및 음성 합성부(125)를 포함할 수 있다. 도 2에 도시된 프로세서(120)는 일 실시 예에 불과하고, 다양한 구성 요소를 포함할 수 있다.
음성 인식부(121)는 발화자의 음성을 포함하는 제1 언어의 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식부(121)는 음성 인식 결과로서 제1 언어 기반의 텍스트를 생성할 수 있다. 제1 언어 기반의 텍스트는 제1 언어 음성 신호에 포함된 발화자의 발화 내용과 대응될 수 있다. 음성 인식부(121)는 발화자에 따라 서로 다른 음향 모델, 언어 모델 등을 이용하여 음성 인식을 수행할 수 있다. 음성 인식부(121)에 의해 생성된 제1 언어 기반의 텍스트는, 비언어 정보 검출부(122)에 의하여 검출된 비언어 정보를 더 포함할 수 있다.
비언어 정보 검출부(122)는 전자 디바이스(100)로 입력된 제1 언어 기반의 음성 신호를 분석하여, 제1 언어 기반의 음성 신호에 대한 비언어 정보를 검출할 수 있다. 예를 들면, 비언어 정보 검출부(122)는 제1 언어 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등을 분석하여, 제1 언어 음성 신호로부터 비언어 정보를 검출할 수 있다. 비언어 정보가 검출되면, 제1 언어 기반의 텍스트 중 비언어 정보가 발생된 구간에 대하여, 비언어 정보를 나타내는 태그가 추가될 수 있다. 비언어 정보 검출부(122)는 음성 인식부(121)에 의해 음성 인식된 결과 및 발화자 정보 등을 더 이용하여 제1 언어 음성 신호로부터 비언어 정보를 검출할 수 있다. 발화자 정보는, 발화자를 식별하기 위한 정보를 포함할 수 있다.
발화자의 언어 습관 또는 주변 환경에 따라, 발화자의 음성 신호에서 나타날 수 있는 비언어 정보는 각각 다를 수 있다. 따라서, 비언어 정보 검출부(122)는 발화자에 따라, 예를 들면, 포즈, 간투어, 비표준어, 강조 어휘 등의 비언어 정보에 따라 확률 정보에 적용될 수 있는 가중치 또는 비언어 정보를 검출하기 위한 조건 정보를 다르게 둘 수 있다. 전자 디바이스(100)는 가중치 값을 확률 정보에 적용시킴으로써, 소정 구간의 확률 정보에 포함된 적어도 하나의 확률 값을 조정할 수 있다. 비언어 정보 검출부(122)는 발화자에 따라 비언어 정보를 검출하기 위한 조건이나, 비언어 정보에 따라 확률 정보에 적용될 수 있는 가중치를 다르게 둠으로써, 비언어 정보의 검출 성능 및 음성 번역의 성능이 향상될 수 있다.
일 실시 예에 의하면, 비언어 정보는 음성 인식 단계에서, 언어 모델, 음향 모델, 발음 사전 등을 이용하여 음성 인식을 수행하는 방식과 동일한 방식으로 검출될 수 있다. 예를 들면, 음성 인식 시 이용될 수 있는 언어 모델, 음향 모델, 발음 사전 등의 데이터 베이스에, 각각의 비언어 정보가 출현할 확률 정보, 발음 정보 등이 포함될 수 있다. 음성 인식 시 비언어 정보를 함께 검출할 수 있는 데이터 베이스를 이용함으로써, 음성 인식된 결과에 비언어 정보가 포함될 수 있다. 일 실시 예에 의한 비언어 정보 검출부(122)는 음성 인식 단계에서 검출된 비언어 정보에 대해 추가적으로, 비언어 정보에 대한 검출 조건에 기초하여 비언어 정보를 음성 인식된 제1 언어 기반 텍스트에 삽입할지 여부를 결정할 수 있다.
비언어 정보 검출부(122)에서 검출된 비언어 정보는 가중치 제어부(123)로 전달될 수 있다.
가중치 제어부(123)는 비언어 정보에 기초하여, 소정의 텍스트 구간에 대한 확률 값을 조정할 수 있다. 가중치 제어부(123)는 확률 정보에 적용될 가중치를 획득하고, 비언어 정보에 기초하여, 획득된 가중치를 확률 정보의 확률 값에 적용시킬 수 있다. 가중치 값은 미리 설정된 값일 수 있다. 예를 들면, 가중치 값은, 번역 모델, 언어 모델 등의 데이터 베이스를 구축하는데 이용될 수 있는 텍스트 코퍼스에 기초하여, 최적의 번역 성능이 기대될 수 있는 값으로 결정될 수 있다. 또한, 가중치 값은 번역 결과에 대한 사용자의 피드백에 기초하여 결정될 수 있다. 또한, 가중치 값은 발화자에 따라 서로 다른 값이 결정될 수 있다. 예를 들면, 발화자에 따라 서로 다른 텍스트 코퍼스에 기초하여 결정된 가중치 값이 이용될 수 있다.
번역부(124)는 비언어 정보를 포함한 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 의한 번역부(124)는 비언어 정보에 기초하여 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다.
예를 들면, 번역부(124)는 비언어 정보를 포함하는 구간에 대한 확률 정보를 비언어 정보에 기초하여 결정할 수 있다. 번역부(124)는 각 구간의 확률 정보에 기초하여, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 구할 수 있다. 적어도 하나의 제2 언어 기반 텍스트는, 각 구간의 확률 정보에 기초하여 결정된 확률 값을 가질 수 있다. 확률 값에 기초하여, 적어도 하나의 제2 언어 기반 텍스트의 우선 순위가 결정될 수 있고, 번역부(124)는 우선 순위에 따라, 적어도 하나의 제2 언어 기반 텍스트를 번역 결과로 출력할 수 있다.
확률 정보에 따라 각 구간과 대응되는 제2 언어 기반 텍스트의 확률 값이 달라지므로, 서로 다른 번역 결과가 출력될 수 있다. 따라서, 확률 정보가 결정되는 것은, 번역 성능에 상당한 영향을 줄 수 있다. 일 실시 예에 의하면, 비언어 정보에 기초하여, 발화자의 발화 의도에 맞게 확률 값이 조정됨에 따라 번역 성능이 향상될 수 있다.
번역부(124)는 결정된 확률 정보에 따라 번역을 수행함으로써, 제2 언어 기반의 텍스트를 생성할 수 있다.
음성 합성부(125)는 번역부(124)에 의해 생성된 제2 언어 기반 텍스트를 음성으로 변환하고, 변환된 음성 신호를 출력할 수 있다. 음성 신호는 전자 디바이스(100)에 구비된 스피커 또는 전자 디바이스(100) 외부에 존재하는 스피커 장치를 통해 출력될 수 있다. 일 실시 예에 의하면, 음성 합성부(125)는 TTS(text-to-speech) 기술을 이용하여 제2 언어 기반 텍스트를 음성 신호로 변환할 수 있다. 음성 합성부(125)는 제1 언어 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등의 비언어적인 특성을 고려하여, 제1 언어 음성 신호와 대응되도록 제2 언어 기반 텍스트의 음성 신호를 생성할 수 있다.
도 3은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다.
일 실시 예에 의하면, 도 3에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.
도 3을 참조하면, 단계 S310에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호를 수신할 수 있다. 일 실시 예에서 제1 언어 기반의 음성 신호는 전자 디바이스(100)에서 다른 언어로 번역하고자 하는 음성 신호이며, 마이크를 통해 전자 디바이스(100)로 수신될 수 있다.
단계 S320에서, 전자 디바이스(100)는 단계 S310에서 수신한 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환할 수 있다. 전자 디바이스(100)는 음성 인식의 결과로서 제1 언어 기반의 음성 신호와 대응되는 제1 언어 기반의 텍스트를 생성할 수 있다. 일 실시 예에서 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 포함된 비언어 정보를 검출하고, 검출된 비언어 정보를 제1 언어 기반의 텍스트에 추가할 수 있다. 예를 들면, 제1 언어 기반 텍스트 중 비언어 정보가 검출된 구간에 비언어 정보를 나타내는 태그가 추가될 수 있다.
단계 S330에서, 전자 디바이스(100)는 제1 언어 기반의 텍스트에 포함된 비언어 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 비언어 정보에 기초하여 제1 언어 기반의 텍스트의 각 구간에 대한 확률 정보를 결정하고, 결정된 확률 정보를 이용하여, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 획득할 수 있다.
일 실시 예에서, 번역 결과로 출력된 제2 언어 기반의 텍스트는 음성 신호로 변환된 후, 스피커를 통해 출력될 수 있다.
도 4는 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다. 도 4에 도시된 번역 방법은, 비언어 정보에 기초하여, 제1 언어 기반 텍스트의 적어도 하나의 구간에 대한 확률 정보가 결정되는 단계를 더 포함할 수 있다. 도 4의 단계 S410 및 S420은 도 3의 단계 S310 및 S320과 각각 대응될 수 있다.
일 실시 예에 의하면, 도 4에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.
도 4를 참조하면, 단계 S410에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호를 수신할 수 있다.
단계 S420에서, 전자 디바이스(100)는 단계 S410에서 수신한 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환할 수 있다.
단계 S430에서, 전자 디바이스(100)는 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득할 수 있다. 예를 들면, 전자 디바이스(100)는 번역 모델에 확률 정보가 존재하는 텍스트인지에 따라, 제1 언어 기반의 텍스트를 적어도 하나의 구간으로 분할할 수 있다.
일 실시 예에 의하면, 동일한 경우의 수에서는, 제1 언어 기반 텍스트에서 분할된 구간은 다른 분할된 구간과 겹치지 않도록 분할될 수 있다. 예를 들면, 제1 언어 기반의 텍스트가 "나는 너를 사랑해"라는 텍스트를 포함하고, 번역 모델에 "나는 너를 사랑해", "나는", "너를" 및 "사랑해"에 대한 확률 정보가 존재하는 경우, 제1의 경우의 수에서, "나는 너를 사랑해"가 하나의 구간으로 분할된 후, 번역이 수행될 수 있다. 또한, 제2의 경우의 수에서, "나는", "너를" 및 "사랑해"가 각각 다른 구간으로 분할된 후, 번역이 수행될 수 있다. 각각의 경우의 수에서, 번역이 수행된 결과, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트가 획득될 수 있다.
단계 S440에서, 전자 디바이스(100)는 비언어 정보에 기초하여, 적어도 하나의 구간에 대한 확률 정보를 결정할 수 있다. 일 실시 예에 의하면, 비언어 정보에 기초하여, 전자 디바이스(100)는 번역 모델에 기초하여 획득된 확률 값을 다른 값으로 결정할 수 있다. 예를 들면, 전자 디바이스(100)는 비언어 정보에 기초하여, 확률 값에 가중치를 적용시킬 수 있다.
전자 디바이스(100)는 비언어 정보에 기초하여, 각 구간의 확률 정보를 결정함에 따라, 발화자의 의도에 가까운 번역 결과를 출력할 수 있으므로, 보다 향상된 성능으로 음성 번역을 수행할 수 있다.
단계 S450에서, 전자 디바이스(100)는 단계 S440에서 결정된 확률 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 비언어 정보에 기초하여 결정된 확률 정보에 따라서, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 획득할 수 있다.
적어도 하나의 제2 언어 기반 텍스트는, 단계 S440에서 결정된 확률 값을 가질 수 있다. 전자 디바이스(100)는 제2 언어 기반 텍스트의 확률 값에 따라 번역 결과로 출력할 제2 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 가장 큰 확률 값을 가진 제2 언어 기반의 텍스트가 번역 결과로 출력될 수 있다. 일 실시 예에서, 번역 결과로 출력된 제2 언어 기반의 텍스트는 음성 신호로 변환된 후, 스피커를 통해 출력될 수 있다.
도 5는 일 실시 예에 의한 음성 인식을 수행하는 방법의 일 예를 나타낸 도면이다.
일 실시 예에 의하면, 도 5에 도시된 음성 인식을 수행하는 방법은 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.
도 5를 참조하면, 특징 추출 단계(510)에서는, 입력된 발화자의 음성 신호로부터 특징 정보가 추출될 수 있다. 입력된 음성 신호 중 실제 발화자가 발성한 음성 신호 부분만이 검출되어, 음성 신호의 특징을 나타낼 수 있는 정보가 추출될 수 있다. 음성 신호의 특징을 나타내는 정보는, 예를 들면, 음성 신호가 속하는 파형(waveform)에 따라 입 모양 또는 혀의 위치를 나타낼 수 있는 정보를 포함할 수 있다.
일 실시 예에 의하면, 비언어 정보는 음성 인식 과정 중 특징 추출 단계(510)에서 검출될 수도 있다. 예를 들면, 비언어 정보와 대응되는 음성 신호의 특징이 검출됨에 따라, 비언어 정보가 검출될 수 있다.
또한, 비언어 정보를 검출하기 위한 발음 사전(550) 및 언어 모델(560) 등과 같은 리소스 없이도, 비언어 정보는 비언어 정보를 검출하기 위한 조건 정보에 기초하여 검출될 수 있다. 비언어 정보를 검출하기 위한 조건 정보는, 예를 들면, 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 발화 속도, 주파수 등을 나타내는 음성 신호의 비언어적인 특성에 대한 조건 정보를 포함할 수 있다. 따라서, 일 실시 예에 의하면, 비언어 정보를 검출하기 위한 발음 사전(550) 및 언어 모델(560) 등과 같은 리소스 없이도, 포즈, 간투어, 강조 어휘 등의 비언어 정보가 검출될 수 있다.
검출된 비언어 정보는 비언어 정보를 나타내는 태그로 음성 인식 결과인 후보 시퀀스에 포함될 수 있다. 비언어 정보를 나타내는 태그는, 비언어 정보를 검출하기 위한 조건에 기초하여, 후보 시퀀스 중에서 결정된 제1 언어의 텍스트에 삽입될 수 있다.
검색 단계(520)에서는, 음향 모델(540), 발음 사전(550) 및 언어 모델(560) 중 적어도 하나에 기초하여, 특징 추출 단계(510)에서 추출된 특징 정보로부터 음성 신호와 대응되는 후보 시퀀스가 검색될 수 있다. 후보 시퀀스는 음성 신호의 발화 내용과 대응되는 텍스트로 구성될 수 있다. 일 실시 예에 의한 후보 시퀀스는, 텍스트뿐만 아니라 비언어 정보를 나타내는 태그를 더 포함할 수 있다.
음향 모델(540)은 음성 신호의 특징 정보로부터 발음열, 문자열, 단어열 등을 검출하기 위한 확률 정보들을 포함할 수 있다. 일 예로, 음향 모델(540)은 특징 정보와 대응될 수 있는 발음열, 문자열, 단어열 등에 관한 확률 정보들을 포함할 수 있다. 음향 모델(540)에 포함된 확률 정보는, 음성 신호 및 발음열, 문자열, 단어열 등이 서로 대응되는 정도를 나타낼 수 있다. 확률 정보에 따라 적어도 하나의 발음열, 문자열, 단어열 등은, 음성 신호와 대응되는 후보열로 결정될 수 있다.
음향 모델(540)은 도 4에 도시된 바와 같이 많은 양의 음성 데이터를 포함하는 음성 DB(database, 541)로부터 통계적인 방법, 예를 들면, HMM(hidden markov model) 추정(estimation) 과정(542)을 통해 생성될 수 있다. 음향 모델(540)은 불특정 다수의 발화 데이터로부터 생성될 수도 있고, 특정 발화자로부터 수집된 발화 데이터로부터 생성될 수도 있다. 따라서, 발화자에 따라 개별적으로 적용될 수 있는 음향 모델(540)이 이용될 수 있다.
음향 모델(540)은 특징 정보와 대응될 수 있는 적어도 하나의 문자열이나 단어열을 직접 검출하기 위한 확률 정보를 포함할 수 있다. 이 경우, 음향 모델(540)은 HMM을 이용한 추정 과정(542) 대신, 많은 양의 음성 DB(541)를 바탕으로 신경망(neural network)이 훈련(training)됨으로써 생성된, 문자열 또는 단어열에 대한 확률 정보를 포함할 수 있다. 일 실시 예에서, 전자 디바이스(100)가 음향 모델(540)을 통해 발음열이 아닌 문자열이나 단어열을 직접 검출하는 경우, 후술될 발음 사전(550)을 명시적으로 이용하지 않을 수 있다.
발음 사전(550)은 음향 모델(540)을 통해 검출된 후보열과 대응되는 단어를 획득하기 위한 정보들을 포함할 수 있다. 일 실시예에서, 발음 사전(550)은 각 단어에 대한 음운변화 현상을 고려하여 획득된 발음열들로부터 구축될 수 있다. 발음 사전(550)은 각각의 발음열과 대응되는 단어들의 쌍으로 구성될 수 있다. 단어의 발음은 단어의 앞뒤 단어 또는 문장 상 위치, 발화자의 특성 등에 따라 변경될 수 있어 일관적이지 않을 수 있다. 따라서, 발음 사전(550)에서, 하나의 단어에 대하여 대응되는 발음열, 또는 하나의 발음열에 대하여 대응되는 단어는 각각 복수 개 존재할 수 있다. 또한, 음성 신호와 대응되는 발음열 및 발음 사전(550)에 따라 발음열로부터 변환된 단어열들은 복수 개 존재할 수 있다. 발음 사전(550) 역시, 음향 모델(540)과 마찬가지로, 발화자에 따라 구축된 데이터가 서로 다를 수 있으므로, 발화자에 따라 개별적으로 구축되고 사용될 수 있다.
일 실시 예에 의한 발음 사전(550)은 비언어 정보를 포함하는 단어에 대한 정보를 더 포함할 수 있다. 도 3에 도시된 발음 사전의 데이터(552)를 참조하면, 단어 '어'와 대응되는 발음열 'AA', 'AX' 뿐만 아니라, 단어 '어/[간투어]', 예를 들어, 간투어로서의 '어'와 대응되는 발음열 정보가 존재할 수 있다. 또한, 발음 사전의 데이터(552)에는, 포즈 발생 구간을 나타내는 태그인 '[포즈]'와 대응되는 발음열 정보가 존재할 수 있다. 음향 모델(540)로부터 추출된 음성 신호의 발음열은, 발음 사전(550)에 기초하여 단어 또는 비언어 정보를 포함하는 단어열로 변환될 수 있다. 따라서, 비언어 정보를 검출할 수 있는 발음 사전(550)이 이용됨으로써, 음성 인식 결과, 비언어 정보를 포함하는 후보 시퀀스가 생성될 수 있다.
일 실시 예에서, 음향 모델(540)을 통해 발음열이 아닌 문자열이나 단어열이 직접 검출되는 경우, 음향 모델(540)은 비언어 정보를 포함한 단어열 또는 문자열을 포함할 수 있다. 따라서, 음향 모델(540)에 기초하여 획득된 문자열 또는 단어열은 비언어 정보를 더 포함할 수 있다.
언어 모델(560)은 앞 뒤 문맥에 따른 단어의 확률 정보를 포함할 수 있다.
예를 들어, 언어 모델(560)은, 단어 B에 대한 확률 정보로써, 단어 A가 출현한 경우를 조건으로, 단어 B가 출현할 확률에 관한 정보인 P(B|A)를 포함할 수 있다. 또 다른 예로, 언어 모델(560)은 단어 B에 대한 확률 정보로서, 단어 A 및 C가 출현한 경우를 조건으로, 예를 들어, 복수 개의 단어가 출현하는 것을 조건으로 하는 단어 B에 대한 확률 정보인 P(B|A C)를 포함할 수 있다. 또 다른 예로, 언어 모델(560)은 단어 B에 대한 출현 확률 정보 P(B)를 포함할 수도 있다. P(B)는 단어 B가 음성 인식 시 출현할 확률을 나타낼 수 있다.
언어 모델(560)의 데이터의 일 예(563)를 참조하면, 공백(<s>)이나, '전화' 등의 단어들이 출현한 경우를 조건으로, '전화', '음', '어' 등이 각각 출현할 확률에 관한 정보들이 존재할 수 있다. 단어열들에 대한 언어 모델(560)의 확률 정보는 각 단어열을 구성하는 어휘에 대한 언어 모델(560)의 확률 정보에 기초하여 결정될 수 있다. 또한, 단어열에 대한 확률 정보에 따라 각 단어열에 대한 순위가 결정될 수 있고, 단어열의 순위에 따라 후보 시퀀스가 결정될 수 있다. 예를 들면, 단어열의 순위에 따라 적어도 하나의 단어열이 후보 시퀀스로 결정될 수 있다. 또한, 후보 시퀀스 중에서, 비언어 정보의 검출 조건에 따라 비언어 정보가 포함된 제1 언어의 텍스트가 최종 획득될 수 있다.
언어 모델(560)은 텍스트들의 말뭉치들인 텍스트 코퍼스(561)로부터 N-그램(gram) 추정(estimation, 562) 방식을 통해 구축될 수 있다. N-그램 추정 방식에 한하지 않고, 언어 모델(560)은 다양한 방식으로 구축될 수 있다.
언어 모델(560) 구축시 이용되는 텍스트 코퍼스(561)는 개별 사용자에 따라 다른 데이터를 포함할 수 있다. 예를 들면, 개별 사용자에 의해 선택되거나 사용된 적이 있는 텍스트 코퍼스(561)가 언어 모델(560)의 구축에 이용될 수 있다. 따라서, 일 실시 예에 의하면, 발화자 정보에 따라 서로 다른 언어 모델(560)이 이용될 수도 있다. 이에 한하지 않고, 언어 모델(560)은 사용자 또는 발화자의 구분없이 텍스트 코퍼스(561)에 기초하여 구축되고, 음성 인식을 위해 사용될 수 있다.
추가로, 후보 시퀀스에 기초하여, 발음 사전(550)에 대한 업데이트(551)가 수행될 수 있다. 예를 들어, 후보 시퀀스에 포함된 단어 및 각 단어와 대응되는 발음열 쌍 중 발음 사전(550)에 포함되어 있지 않은 쌍이 존재하는 경우, 발음 사전(550)이 업데이트될 수 있다. 예를 들면, 특징 추출 단계(510)에서 추출된 특징 정보에 기초하여 검출되었거나, 이외 다른 방법으로 검출된 비언어 정보 중 발음 사전(550)에 포함되어 있지 않은 비언어 정보가 후보 시퀀스에 포함되어 있을 수 있다. 따라서, 발음 사전(550)에 포함되어 있지 않은 비언어 정보는 발음 사전(550)에 새롭게 추가될 수 있다.
이하 도 6 및 도 7을 참조하여, 음성 인식 단계에서, 제1 언어 기반의 텍스트에 비언어 정보로서 포즈 또는 간투어 정보를 추가하는 방법에 대하여 더 자세히 설명하기로 한다. 일 실시 예에 의하면, 도 6 및 도 7에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.
도 6은 일 실시 예에 의한 포즈 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타내는 순서도이다.
도 6을 참조하면, 단계 S610에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써 적어도 하나의 후보 시퀀스를 획득할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 음성 인식 수행 시 비언어 정보를 검출할 수 있는 발음 사전(550) 및 언어 모델(560) 등을 이용할 수 있다. 따라서, 전자 디바이스(100)는 음성 인식 결과로 비언어 정보를 포함하는 후보 시퀀스를 획득할 수 있다.
예를 들어, 도 6의 단계 S610에 도시된 바와 같이, 후보 시퀀스에서 포즈가 발생한 지점에 포즈를 나타내는 태그가 포함될 수 있다. 포즈 태그를 포함한 어휘가 발음 사전(550) 또는 언어 모델(560)에 포함됨으로써, 포즈 태그를 포함한 후보 시퀀스가 획득될 수 있다. 또는, 특징 추출 단계(510)에서, 포즈와 대응되는 특징이 추출된 경우, 후보 시퀀스에 포즈가 발생한 지점을 나타내는 태그가 삽입될 수 있다.
일 예로, 도 6에 도시된 바와 같이 동일한 음성 신호 구간에 대한 후보 시퀀스로서, "Bob [포즈] [포즈] and ...", "Bobo and [포즈] ..." 및 "Bobby ..." 가 획득될 수 있다.
단계 S620에서, 전자 디바이스(100)는 후보 시퀀스가 포즈 태그를 포함하는지 여부를 판단할 수 있다. 후보 시퀀스가 포즈 태그를 포함하는 경우, 단계 S630에서, 전자 디바이스(100)는 포즈 태그가 배제된 후보 시퀀스에 대한 언어 모델(560)에 따른 확률 값을 구하기 위해, 후보 시퀀스에서 포즈 태그를 배제시킬 수 있다. 예를 들어, 포즈 태그가 배제된 후보 시퀀스로 "Bob and ... ", "Bobo and ..."가 획득될 수 있다.
단계 S640에서, 전자 디바이스(100)는 포즈 태그가 배제된 후보 시퀀스에 대하여, 언어 모델(560)에 기초한 리스코링(rescoring)을 수행할 수 있다. 전자 디바이스(100)는 언어 모델(560)을 이용하여, 포즈 태그가 배제된 후보 시퀀스의 확률 값을 다시 구할 수 있다. 예를 들면, 포즈 태그가 배제된 "Bob and ... ", "Bobo and ..."에 대하여, 언어 모델(560)에 기초한 확률 값이 다시 획득될 수 있다. 전자 디바이스(100)는 다시 구한 후보 시퀀스에 대한 확률 정보와, 다른 후보 시퀀스의 확률 값을 비교하여, 언어 모델(560)에 기초한 리스코링을 수행할 수 있다. 리스코링 결과, 확률 값에 기초하여, 각 후보 시퀀스에 대한 우선 순위가 결정될 수 있다.
포즈 태그와 같은 비언어 정보는 텍스트로 표현되지 않는 정보이므로, 텍스트 코퍼스(561)로 수집되기 어려울 수 있다. 따라서, 언어 모델(560)에 포함된 비언어 정보를 포함한 텍스트의 확률 값의 정확도는 다른 텍스트의 확률 값의 정확도에 비해 낮을 수 있다. 음성 인식 단계(S610)에서 획득된 후보 시퀀스의 확률 값은, 포즈 태그를 포함한 후보 시퀀스의 확률 값이므로, 전자 디바이스(100)는 포즈 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구할 수 있다. 전자 디바이스(100)는 다시 구한 확률 값에 기초하여, 후보 시퀀스 중 제1 언어 기반의 텍스트를 결정할 수 있다.
단계 S650에서, 전자 디바이스(100)는 리스코링을 통해 결정된 우선 순위에 기초하여, 단계 S610에서 획득된 후보 시퀀스 중에서 제1 언어 기반의 텍스트를 결정할 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 리스코링 결과인 각 후보 시퀀스의 우선 순위에 기초하여, 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 우선 순위가 가장 높은 후보 시퀀스인 "Bob and"가 제1 언어 기반의 텍스트로 결정될 수 있다.
단계 S660에서, 전자 디바이스(100)는 단계 S650에서 결정된 제1 언어 기반의 텍스트 및 음성 신호에 대하여, 포즈 검출 조건을 만족하는지 여부를 판단할 수 있다. 단계 S650에서 결정된 제1 언어 기반 텍스트 중 포즈 검출 조건을 만족하는 지점이 존재하는지 판단될 수 있다. 예를 들면, 단계 S630에서, 포즈 태그가 배제된 후보 시퀀스인 "Bob and"가 제1 언어 기반의 텍스트로 결정된 경우, 포즈 태그가 배제된 지점이 포즈 검출 조건을 만족하는지 여부가 판단될 수 있다. 단계 S610에서 검출된 포즈 태그는 단계 S630에서 배제되었으나, 전자 디바이스(100)는 포즈 검출 조건에 기초하여, 배제되었던 포즈 태그를 제1 언어 기반의 텍스트에 추가할 수 있다.
포즈 검출 조건은 예를 들면, 포즈가 발생된 구간의 길이, 포즈가 발생된 횟수 등을 포함할 수 있다. 포즈가 발생된 것으로 판단된 구간이 충분히 길지 않은 경우, 발화자에 의해 의도된 포즈가 아닌 것으로 판단될 수 있다. 또한, 소정 구간에서 반복적으로 발생된 포즈는 발화자가 의미 구분을 위하여 의도한 포즈가 아닌 발화 습관에 의한 것으로, 의도된 포즈는 아닌 것으로 판단될 수 있다.
단계 S670에서, 전자 디바이스(100)는 상술된 포즈 검출 조건을 고려하여, 단계 S650에서 결정된 제1 언어 기반의 텍스트에 포즈 태그를 추가할 수 있다. 예를 들면, 음성 신호 및 각 제1 언어 기반의 텍스트가 포즈 검출 조건을 만족하는 경우에, 전자 디바이스(100)는 제1 언어 기반의 텍스트에 포즈 태그를 추가할 수 있다.
단계 S670에서 포즈 태그가 추가된 제1 언어 기반의 텍스트 또는 포즈 검출 조건을 만족하지 않음에 따라 포즈 태그가 추가되지 않은 제1 언어 기반의 텍스트는 음성 인식 결과로써 출력될 수 있다.
예를 들어, 단계 S650에서 결정된 제1 언어 기반의 텍스트가 "Bob and ..." 인 경우, 전자 디바이스(100)는 제1 언어 기반의 텍스트가 포즈 검출 조건을 만족하는지를 판단할 수 있다. 전자 디바이스(100)는 판단 결과에 따라, 제1 언어 기반의 텍스트로 "Bob [포즈] and ..." 또는 "Bob and ..."을 획득할 수 있다.
제1 언어 기반의 텍스트는 하나만 결정되지 않고, n-베스트(best) 결과로써 복수 개의 제1 언어 기반의 텍스트가 음성 인식 결과로 출력될 수 있다. 각 제1 언어 기반의 텍스트는 언어 모델(560)에 기초한 확률 값을 가질 수 있다. 제1 언어 기반의 텍스트들은 번역 단계에서 각각 제2 언어로 번역될 수 있고, 각 제1 언어 기반의 텍스트와 대응되는 제2 언어 기반의 텍스트가 번역 결과로서 생성될 수 있다. 음성 인식 결과로서 n-베스트로 출력된 각 제1 언어 기반의 텍스트들에 대한 번역 결과인 제2 언어 기반의 텍스트에 대하여, 최종 스코어가 결정될 수 있다. 제2 언어 기반의 텍스트의 최종 스코어는 언어 모델에 기초한 확률 값 및 번역 모델에 기초한 확률 값에 기초하여 결정될 수 있다. 최종 스코어는 번역 결과로 생성된 텍스트가 음성 신호의 번역 결과로서 일치하는 정도를 나타낼 수 있다. 일 실시 예에 의하면, 최종 스코어가 가장 높은 제2 언어 기반의 텍스트가 음성 번역의 결과로서 음성 변환된 후 출력될 수 있다.
도 7은 일 실시 예에 의한 간투어 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타내는 순서도이다.
단계 S710에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써 적어도 하나의 후보 시퀀스를 획득할 수 있다.
예를 들어, 비언어 정보가 간투어 정보를 포함하는 경우, 도 6에 도시된 바와 같이, 후보 시퀀스는 간투어를 나타내는 태그를 포함할 수 있다. 일 실시 예에 의하면, 간투어 태그를 포함한 어휘가 발음 사전(550) 또는 언어 모델(560)에 포함됨으로써 음성 인식 단계에서 간투어 태그를 포함한 후보 시퀀스가 획득될 수 있다.
예를 들면, 도 7에 도시된 바와 같이, 동일한 음성 신호 구간에 대한 후보 시퀀스로서, "어 그러니까" 및 "어:[간투어] 그러니까" 가 획득될 수 있다. "어:[간투어]"는 "어"라는 어휘가 간투어인 것으로 판단되었음을 나타낸다.
단계 S720에서, 전자 디바이스(100)는 후보 시퀀스가 간투어 태그를 포함하는지 여부를 판단할 수 있다. 후보 시퀀스가 간투어 태그를 포함하는 경우, 단계 S730에서, 전자 디바이스(100)는 간투어가 포함되지 않은 후보 시퀀스에 대해 언어 모델(560)에 기초한 확률 값을 구하기 위해, 후보 시퀀스에서 간투어를 배제시킬 수 있다. 간투어 태그도 간투어와 함께 배제될 수 있다.
단계 S740에서, 전자 디바이스(100)는 간투어가 배제된 후보 시퀀스에 대하여, 언어 모델(560)에 기초한 리스코링(rescoring)을 수행할 수 있다. 전자 디바이스(100)는 언어 모델(560)을 이용하여 간투어가 배제된 후보 시퀀스의 확률 값을 다시 구할 수 있다. 예를 들면, 간투어 및 간투어 태그가 포함되지 않은 "그러니까"에 대한 확률 값이 다시 획득될 수 있다. 전자 디바이스(100)는 다시 구한 후보 시퀀스의 확률 값과, 다른 후보 시퀀스의 확률 값을 비교하여, 언어 모델(560)에 기초한 리스코링을 수행할 수 있다. 리스코링 결과, 확률 값에 기초하여, 각 후보 시퀀스에 대한 우선 순위가 결정될 수 있다.
간투어 태그를 포함한 비언어 정보는 텍스트로 표현되지 않는 정보이므로, 텍스트 코퍼스(561)로 수집되기 어려울 수 있다. 따라서, 언어 모델(560)의 비언어 정보를 포함한 텍스트의 확률 값의 정확도는 다른 텍스트의 확률 값에 비해 낮을 수 있다. 음성 인식 단계(S710)에서 획득된 후보 시퀀스의 확률 값은, 간투어 태그를 포함한 후보 시퀀스의 확률 값이므로, 전자 디바이스(100)는 간투어 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구할 수 있다. 전자 디바이스(100)는 후보 시퀀스 중 간투어 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구하고, 다시 구한 확률 값에 기초하여, 후보 시퀀스 중 제1 언어 기반의 텍스트를 결정할 수 있다.
단계 S750에서, 전자 디바이스(100)는 리스코링을 통해 결정된 우선 순위에 기초하여, 단계 S710에서 획득된 후보 시퀀스 중에서 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 전자 디바이스(100)는 리스코링 결과인 각 후보 시퀀스의 우선 순위에 기초하여, 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 우선 순위가 가장 높은 후보 시퀀스인 "그러니까"가 제1 언어 기반의 텍스트로 결정될 수 있다.
단계 S760에서, 전자 디바이스(100)는 단계 S750에서 결정된 제1 언어 기반의 텍스트 및 음성 신호에 대하여, 간투어 검출 조건을 만족하는 구간이 존재하는지 여부를 판단할 수 있다. 예를 들면, 단계 S730에서, 간투어 및 간투어 태그가 배제된 후보 시퀀스가 제1 언어 기반의 텍스트로 결정된 경우, 간투어 및 간투어 태그가 배제된 구간이 간투어 검출 조건을 만족하는지 여부가 판단될 수 있다. 단계 S710에서 검출된 간투어 태그 및 간투어는 단계 S730에서 배제됨에 따라, 전자 디바이스(100)는 간투어 검출 조건에 기초하여, 단계 S780에서 간투어 및 간투어 태그를 제1 언어 기반 텍스트에 추가할 수 있다.
간투어 검출 조건은, 예를 들면, 발성의 높낮이, 발성의 길이 등을 포함할 수 있다. 일 예로, 간투어로 판단된 구간의 발성이 낮거나 긴 경우, 간투어 검출 조건을 만족하는 것으로 판단될 수 있다. 상술된 예에 한하지 않고, 간투어 검출 조건은 다양한 조건을 포함할 수 있다.
제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는 경우, 단계 S780에서, 전자 디바이스(100)는 간투어 및 간투어 태그를 제1 언어 기반의 텍스트에 추가할 수 있다. 간투어가 추가된 제1 언어 기반의 텍스트는 음성 인식 결과로서 출력될 수 있다.
한편, 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하지 않는 경우, 단계 S770에서, 전자 디바이스(100)는 음성 인식 단계(S710)에서 간투어가 검출된 빈도수가 기준값을 초과하는지 여부를 판단할 수 있다. 전자 디바이스(100)는 단계 음성 인식 단계(S710)에서 간투어 태그가 포함된 후보 시퀀스가 획득된 횟수가 기준값을 초과하는지 여부를 판단할 수 있다. 간투어가 검출된 빈도수가 기준값을 초과하는 경우, 단계 S790에서 전자 디바이스(100)는 발음 사전(550)에 간투어를 새로 등록할 수 있다. 발음 사전(550)에 새로 등록될 수 있는 간투어는 발음 사전(550) 대신 특징 추출 단계 등에서 검출될 수 있는 간투어가 포함될 수 있다. 추가적으로, 단계 S790에서 발음 사전(550)에 등록된 간투어가 단계 S760에서 간투어로 판단될 수 있도록, 전자 디바이스(100)는 단게 S760의 간투어 검출 조건을 갱신할 수 있다. 간투어는 발화자에 따라 다양한 형태로 발음될 수 있는 점을 고려하여, 전자 디바이스(100)는 반복적으로 검출되나 간투어 검출 조건은 만족하지 않는 간투어를 발음 사전(550)에 등록해 둘 수 있다.
간투어 검출 조건을 만족하는 구간을 포함하지 않는 제1 언어 기반 텍스트는, 간투어 태그가 추가되지 않고 음성 인식 결과로 출력될 수 있다. 예를 들어, 단계 S730에서, 간투어가 배제된 제1 언어 기반 텍스트의 경우, 제1 언어 기반 텍스트에 음성 인식 단계(S710)에서 간투어로 검출되었던 텍스트만 추가되고, 간투어 태그는 추가되지 않을 수 있다.
예를 들어, 단계 S750에서 결정된 제1 언어 기반의 텍스트가 단계 S730에서 간투어 '어'가 배제된 "그러니까" 인 경우, 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는지 여부를 판단할 수 있다. 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는 경우, 제1 언어 기반의 텍스트로 "어:[간투어] 그러니까"를 획득할 수 있다. 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하지 않는 경우, 간투어 '어'가 단계 S730에서 배제되기 전의 텍스트인 "어 그러니까"를 획득할 수 있다. 도 5 및 도 6에서 설명한 실시예들은 제1 언어 기반의 텍스트에 포함된 비언어 정보가 포즈 또는 간투어 정보를 포함하는 경우에 한하지 않고, 다양한 형태의 비언어 정보를 포함하는 경우에도 적용될 수 있다. 예를 들면, 비언어 정보가 강조 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보 등을 포함하는 경우에도 도 6 및 도 7의 실시예가 적용될 수 있다.
도 8은 일 실시 예에 의한 제1 언어 기반의 텍스트에 대하여 번역을 수행하는 방법을 나타낸 예시 도면이다.
도 8에 도시된 번역부(124) 및 가중치 제어부(123)는 도 1의 번역부(124) 및 가중치 제어부(123)와 대응될 수 있다.
도 8을 참조하면, 제1 언어 기반의 텍스트 f는 번역부(124)에 의해 제2 언어로 번역될 수 있고, 번역 결과로서 제2 언어 기반 텍스트 e가 출력될 수 있다.
번역부(124)는 번역 모델(141) 및 언어 모델(142)의 확률 값에 기초하여, 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역할 수 있다. 번역 모델(141)에 기초하여 제1 언어 f가 제2 언어 e로 번역될 확률인 P(e|f)가 획득될 수 있다. 언어 모델(142)은 e에 인접한 단어를 조건으로, 제2 언어 e가 출현할 확률인 P(e)를 포함할 수 있다. 도 5에 도시된 언어 모델(560)은 제1 언어에 대한 확률 정보를 포함하나, 도 8의 언어 모델(142)은 제2 언어에 대한 확률 정보를 포함할 수 있다.
제2 언어의 언어 모델(142)은 제1 언어의 언어 모델(560)과 마찬가지로, 제2 언어의 텍스트 코퍼스에 기초하여 구축될 수 있다. 또한, 번역 모델(141)은 제1 언어와 제2 언어에 대한 병렬 코퍼스에 기초하여 구축될 수 있다.
번역부(124)는 번역 모델(141) 및 언어 모델(142)에 기초하여 아래 수학식 1에 따라 제2 언어 기반 텍스트 e 를 적어도 하나 획득할 수 있다.
수학식 1에서, pLM(e)는 언어 모델(142)로부터 획득된 확률 값을 나타낸다. p(f|e)는 번역 모델(141)로부터 획득될 수 있는 확률 값을 나타낸다.
수학식 1에서, i 값은 제2 언어 기반 텍스트 또는 제1 언어 기반 텍스트를 구성하는 텍스트들의 인덱스 값을 나타낸다. 어휘, 구절, 문장 등에 대하여 서로 다른 인덱스 값이 부여될 수 있다. 일 실시 예에서, 인덱스 값은 번역 모델(141)에 존재하는 어휘, 구절 등에 대해 부여될 수 있다.
수학식 1에 의하면, 소정 구간에 대한 적어도 하나의 p(e|f) 값 중 최대값인 p(e|f)의 제2 언어 기반 텍스트 e 가 번역 결과로 출력될 수 있다.
일 실시 예에 의하면, 제1 언어 기반 텍스트가 분할된 구간과 대응되는 적어도 하나의 제2 언어 기반 텍스트에 대하여, 수학식 1의 p(e|f)에 기초한 확률 값이 획득될 수 있다. 획득된 확률 값은, 비언어 정보에 기초하여, 조정될 수 있다. 그리고, 조정된 확률 값에 기초하여, 번역 결과로 출력될 제2 언어 기반 텍스트 e가 결정될 수 있다.
가중치 제어부(123)는 비언어 정보에 기초하여, 수학식 1에 의한 확률 값에 가중치를 적용할 수 있다. 예를 들어, 가중치 제어부(123)는 포즈를 포함한 구간에 대한 적어도 하나의 p(e|f) 값에 미리 저장된 가중치 값을 적용시킬 수 있다. 가중치 값이 확률 값에 적용됨으로써, 비언어 정보에 기초하여 확률 값이 조정될 수 있다.
발화자에 의해 의도된 포즈는 의미를 구분하기 위한 것인 점에서, 포즈를 포함하는 구간은 우선적으로 번역되지 않도록 함이 바람직하다. 일 실시 예에 의하면, 포즈를 포함하는 구간에 대한 확률 값에 가중치 값이 적용됨으로써, 포즈를 포함하는 구간의 확률 값은 낮은 값으로 조정될 수 있다. 포즈를 포함하는 구간의 확률 값이 조정됨에 따라, 번역 결과로 출력되는 제2 언어 기반 텍스트 e가 변경될 수 있다.
일 실시 예에서, 번역 모델(141) 또는 언어 모델(142)은, 비언어 정보를 포함한 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 예를 들면, 번역 모델(141) 또는 언어 모델(142)에, 포즈 태그 또는 간투어 태그가 포함된 제2 언어 기반 텍스트에 대한 확률 값이 존재할 수 있다. 비언어 정보를 포함한 제2 언어 기반 텍스트의 확률 값에는 비언어 정보에 기초한 확률 값의 조정이 이미 반영되어 있는 것으로 취급될 수 있다. 따라서, 획득된 확률 값이, 비언어 정보를 포함한 제2 언어 기반 텍스트에 대한 값인 경우, 비언어 정보에 기초한 확률 값의 조정은 수행되지 않을 수 있다.
도 9는 일 실시 예에 따른 포즈 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.
도 9를 참조하면, 음성 인식 결과로 생성된 영문 텍스트인 "They invited Bob [pause] and Bill and Al got rejected"를 한국어로 번역할 수 있다. 영문 텍스트는, Bob과 and 사이 또는 and에 대하여, 포즈 태그인 [pause]를 포함할 수 있다.
단계 910 내지 913은 및 단계 914 내지 917은 각각 서로 다른 경우의 수로 번역된 결과를 나타낸 것이다. 전자 디바이스(100)는 단계 910 내지 917을 포함한 다양한 방법으로 번역을 수행할 수 있다. 각각의 경우의 수에 대한 번역 결과로, 제2 언어 기반 텍스트 및 이에 대한 확률 값이 획득될 수 있다.
도 9를 참조하면, 아래 방향으로 인접한 어휘들이 하나씩 결합되면서, 번역이 수행될 수 있다. 영문 텍스트 중에서, "Bob and Bill" 또는 "invieted Bob"이 먼저 번역되는 경우, 도 9에 도시된 바와 같이 번역이 수행될 수 있다. 도 9에 도시된 방법 외에도 제1 언어 기반 텍스트들의 각 구간들이 서로 다른 순서 또는 조합으로 결합됨에 따라 번역이 수행될 수 있다. 예를 들어, 전자 디바이스(100)는 영문 텍스트 중 "They invited"를 먼저 번역할 수도 있다.
일 실시 예에 의한 전자 디바이스(100)는, 다양한 번역 방법에 따라 획득된 적어도 하나의 제2 언어 기반 텍스트 중 확률 값이 가장 높은 제2 언어 기반 텍스트를 번역 결과로 출력할 수 있다.
단계 910 내지 917에서, 각 구간에 대한 확률 정보가 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 획득될 수 있다. 각 구간에 대한 확률 정보는 상술된 수학식 1을 통해 획득될 수 있다. 일 실시 예에 의하면, 각 구간에 대해 획득된 적어도 하나의 확률 값은, 비언어 정보에 기초하여 조정된 값으로 결정될 수 있다.
단계 910은 "Bob and Bill"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. "Bob and Bill"과 대응되는 제2 언어 기반 텍스트인 "밥과 빌"과, "밥과 빌"에 대한 확률 값이 획득될 수 있다. "밥과 빌" 말고도, "Bob and Bill"과 대응되는 다른 제2 언어 기반 텍스트가 더 획득될 수도 있다.
일 실시 예에 의하면, "Bob and Bill"의 구간은 [pause] 태그를 포함하므로, "Bob and Bill"의 구간과 대응되는 제2 언어 기반 텍스트인 "밥과 빌"에 대한 확률 값이 조정될 수 있다. 예를 들면, "밥과 빌"에 대한 확률 값은 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다.
단계 911는, 제1 언어 기반 텍스트 중 "Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "Bob and Bill"이 먼저 번역된 경우, "Bob and Bill"에 인접한 구간인 "invited" 또는 "and"와, "Bob and Bill"이 결합될 수 있다. 따라서, "invited" 및 "Bob and Bill"이 결합된 구간과, "Bob and Bill" 및 "and"가 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "invited Bob and Bill" 및 "Bob and Bill and"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.
결합된 구간의 제2 언어 기반 텍스트는 각 구간과 대응되는 제2 언어 기반 텍스트의 결합으로 획득될 수 있다. 예를 들면, "을 초대하"와 "밥과 빌"의 결합인 "밥과 빌을 초대하"는, "invited" 및 "Bob and Bill"이 결합된 구간에 대한 제2 언어 기반 텍스트로 획득될 수 있다. "밥과 빌을 초대하"에 대한 확률 값은, "을 초대하" 및 "밥과 빌"의 확률 값에 기초하여 결정될 수 있다. 예를 들면, "을 초대하" 및 "밥과 빌"의 확률 값을 곱한 값이 "밥과 빌을 초대하"의 확률 값으로 결정될 수 있다. 그러나, 일 실시예에서, "밥과 빌"의 확률 값은 [pause] 태그로 인해 [pause] 태그가 없는 경우보다 더 낮은 값으로 조정됨에 따라, "밥과 빌을 초대하"의 확률 값도, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.
단계 912는, 제1 언어 기반 텍스트 중 "invited Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "invited Bob and Bill"이 먼저 번역된 경우, 인접한 구간인 "They" 또는 "and"가 "invited Bob and Bill"과 결합될 수 있다. 결합 구간 중 하나인, "They invited Bob and Bill"의 제2 언어 기반 텍스트로 "그들은 밥과 빌을 초대하"가 획득될 수 있다.
"그들은 밥과 빌을 초대하"의 확률 값은, "그들은" 및 "밥과 빌을 초대하"의 확률 값에 기초하여 결정될 수 있다. "그들은"의 확률 값은 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 각각 획득될 수 있다. "밥과 빌을 초대하"의 확률 값은, 상술된 단계 911에서 결정된 값이다. 그러나, 일 실시예에서, "밥과 빌을 초대하"의 확률 값이, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정됨에 따라, "밥과 빌을 초대하"의 확률 값에 기초한, "그들은 밥과 빌을 초대하"의 확률 값은, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.
이하 단계에서도, "Bob and Bill"이 먼저 결합되어 번역이 수행되는 경우에 대한 확률 값들은, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다. 따라서, "Bob and Bill"이 먼저 결합되지 않은 경우에 대한 확률 값은 "Bob and Bill"이 먼저 결합되어 번역이 수행되는 경우에 대한 확률 값보다 더 높은 값을 가질 수 있다. 또한, "Bob and Bill"이 먼저 결합되지 않은 경우에 대한 제2 언어 기반 텍스트가 번역 결과로 최종 선택될 가능성이 높아질 수 있다.
단계 913는, 제1 언어 기반 텍스트 중 "They invited Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "They invited Bob and Bill"이 먼저 번역된 경우, 인접한 구간인 "and"가 "They invited Bob and Bill"과 결합될 수 있다. 결합된 구간인, "They invited Bob and Bill and"의 제2 언어 기반 텍스트로 "그들은 밥과 빌을 초대하고"가 획득될 수 있다.
단계 910 내지 913에서 설명한 번역 방법에 따라, 제1 언어 기반 텍스트인, "They invited Bob and Bill and"와 대응되는 적어도 하나의 제2 언어 기반 텍스트와, 각 제2 언어 기반 텍스트의 확률 값이 획득될 수 있다. "그들은 밥과 빌을 초대하고"의 확률 값은, 상술한 바와 마찬가지로, "밥과 빌"의 확률 값에 기초하므로, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.
한편, 단계 914는 "Bob and Bill" 대신 "invited Bob"에 대한 결합이 먼저 수행된 경우를 나타낸 것이다. "invited Bob"과 대응되는 제2 언어 기반 텍스트인 "밥을 초대하"와, "밥을 초대하"에 대한 확률 값이 획득될 수 있다. "밥을 초대하" 말고도, "invited Bob"과 대응되는 제2 언어 기반 텍스트(예를 들면, "밥을 초청해", "밥을 부르" 등)가 더 획득할 수도 있다.
일 실시 예에 의하면, "invited Bob"은 "Bob and Bill"과는 달리 [pause] 태그를 포함하지 않으므로, 번역 모델(141)에 기초하여 획득된 확률 값은 조정되지 않을 수 있다. 따라서, 일 실시 예에 의하면, "밥과 빌"에 대한 확률 값보다 "밥을 초대하"에 대한 확률 값이 더 클 수 있다.
단계 915는, "invited Bob"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "invited Bob"이 먼저 번역된 경우, 인접한 구간인 "They" 또는 "and"가 결합될 수 있다. 따라서, "They" 및 "invited Bob"이 결합된 구간과, "invited Bob" 및 "and"가 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "They invited Bob" 및 "invited Bob and"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.
일 실시 예에 의하면, "invited Bob and" 구간은 [pause] 태그를 포함하므로, "invited Bob and"의 구간과 대응되는 제2 언어 기반 텍스트인 "밥을 초대하고"에 대한 확률 값이 조정될 수 있다. 예를 들면, "밥을 초대하고"에 대한 확률 값은 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다. "invited Bob and" 구간의 확률 값들은 [pause] 태그에 의해 조정되므로, "invited Bob and"와 결합된 구간의 확률 값도 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다.
단계 916은, "They invited Bob"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "They invited Bob"이 먼저 번역된 경우, 인접한 구간인 "and"가 결합될 수 있다.
일 실시 예에 의하면, "They invited Bob and" 구간은 [pause] 태그를 포함하므로, "They invited Bob and"의 구간과 대응되는 제2 언어 기반 텍스트인 "그들은 밥을 초대하고"에 대한 확률 값이 조정될 수 있다. 다만, "Bob and Bill"과 같이 [pause] 태그를 포함한 구간이 먼저 번역되는 경우의 확률 값보다, "They invited Bob and" 구간에 대한 확률 값이 더 높아지도록 조정됨이 바람직하다.
일 실시 예에 의하면, [pause] 태그를 포함한 구간이 먼저 번역된 경우의 확률 값보다, [pause] 태그를 포함한 구간이 나중에 번역된 경우의 확률 값이 상대적으로 더 높아질 수 있다. 따라서, [pause] 태그를 포함한 구간이 나중에 번역된 경우의 제2 언어 기반 텍스트가 최종 번역 결과로 출력될 수 있다.
일 실시 예에 의하면, 결합된 구간이 [pause] 태그가 포함하는 경우, 결합된 구간의 제2 언어 기반 텍스트에 대한 확률 값이 조정될 수 있다. 따라서, 의미를 구분하고자 하는 발화자의 의도에 따라 번역문이 생성될 수 있다.
도 10은 일 실시 예에 따른 간투어 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.
도 10을 참조하면, 음성 인식 결과로 생성된 한국어 텍스트인 "어:[간투어] 그러니까:[간투어] 내가 음:[간투어] 널 좋아하는 것 같아"가 영어로 번역될 수 있다. 간투어 태그는 [간투어]로 표시될 수 있고, 간투어로 판단된 어휘에 대하여 태깅될 수 있다. 텍스트 중 ":[간투어]" 표시는 대응되는 어휘가 간투어에 해당됨을 나타낸다. 도 9에 도시된 바와 같이, 간투어 태그는 "어", "그러니까", "음"에 대하여 태깅될 수 있다.
단계 1010 내지 1012 및 단계 1021 내지 1023는 각각 서로 다른 경우의 수로 번역된 결과를 나타낸 것이다. 전자 디바이스(100)는 도 10에 도시된 예에 한하지 않고, 다양한 방법으로 번역을 수행할 수 있다. 각각의 경우의 수에 대한 번역 결과로, 제2 언어 기반 텍스트 및 이에 대한 확률 값이 획득될 수 있다.
도 10를 참조하면, 아래 방향으로 인접한 어휘들이 하나씩 결합되면서, 번역이 수행될 수 있다. 한국어 텍스트 중에서, "내가 음:[간투어] 널 좋아하는"이 먼저 번역되는 경우, 도 10에 도시된 바와 같이 번역이 수행될 수 있다. 도 10에 도시된 방법 외에도 제1 언어 기반 텍스트들의 각 구간들이 서로 다른 순서 또는 조합으로 결합됨에 따라 번역이 수행될 수 있다. 예를 들어, 전자 디바이스(100)는 한국어 텍스트 중 "것 같아"를 먼저 번역할 수도 있다.
일 실시 예에 의한 전자 디바이스(100)는, 다양한 번역 방법에 따라 획득된 적어도 하나의 제2 언어 기반 텍스트 중 확률 값이 가장 높은 제2 언어 기반 텍스트를 번역 결과로 출력할 수 있다.
단계 1010 내지 1012 및 단계 1021 내지 1023에서, 각 구간에 대한 확률 정보가 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 획득될 수 있다. 각 구간에 대한 확률 정보는 상술된 수학식 1을 통해 획득될 수 있다. 일 실시 예에 의하면, 각 구간에 대해 획득된 확률 정보는, 비언어 정보에 기초하여 조정된 확률 값으로 결정될 수 있다.
단계 1010는, "내가 음 널 좋아하는"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트인 "I like you well"과, "I like you well"에 대한 확률 값이 획득될 수 있다. "I like you well" 말고도, "내가 음 널 좋아하는"과 대응되는 다른 제2 언어 기반 텍스트가 더 획득될 수도 있다.
일 실시 예에 의하면, "내가 음 널 좋아하는"의 구간은 [간투어] 태그를 포함하므로, "내가 음 널 좋아하는"의 구간과 대응되는 제2 언어 기반 텍스트인 "I like you well"에 대한 확률 값이 조정될 수 있다. 간투어인 "음"이 다른 어휘의 의미 분석에 영향을 주지 않는 제2 언어의 간투어로 번역될 수 있도록, 확률 값이 조정될 수 있다.
예를 들면, "I like you well"에서, 간투어인 "음"이 다른 어휘의 의미 분석에 영향을 줄 수 있는 간투어가 아닌 "well"로 번역되어 있으므로, "I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 텍스트의 확률 값에 비해 더 낮은 값으로 결정될 수 있다. "내가 음 널 좋아하는"과 대응되는, 다른 제2 언어 기반 텍스트로 "I uh like you"가 획득된 경우, 간투어인 "음"이 제2 언어의 간투어인 "uh"로 번역되어 있으므로, "I uh like you"의 확률 값은, 상술된 "I like you well"의 확률 값에 비해 더 높은 값으로 결정될 수 있다.
단계 1011은, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는"이 먼저 번역된 경우, "내가 음 널 좋아하는"에 인접한 구간인 "것 같아" 또는 "어 그러니까"가, "내가 음 널 좋아하는"과 결합될 수 있다. 따라서, "내가 음 널 좋아하는" 및 "것 같아"가 결합된 구간과, "어 그러니까" 및 "내가 음 널 좋아하는"이 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "어 그러니까 내가 음 널 좋아하는" 및 "내가 음 널 좋아하는 것 같아"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.
결합된 구간의 제2 언어 기반 텍스트는 각 구간과 대응되는 제2 언어 기반 텍스트의 결합으로 획득될 수 있다. 예를 들면, "I like you well"과 "I think"의 결합인 "I think I like you well"은, "내가 음 널 좋아하는" 및 "것 같아"가 결합된 구간에 대한 제2 언어 기반 텍스트로 획득될 수 있다. "I think I like you well"에 대한 확률 값은, "I think" 및 "I like you well"의 확률 값에 기초하여 결정될 수 있다. 예를 들면, "I think" 및 "I like you well"의 확률 값을 곱한 값이 "I think I like you well"의 확률 값으로 결정될 수 있다. 그러나, 일 실시예에서, "I think I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정됨에 따라, "I think I like you well"의 확률 값도, "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다.
단계 1012는, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 인접한 구간인 "어 그러니까"가 "내가 음 널 좋아하는 것 같아"와 결합될 수 있다. 결합 구간인, "어 그러니까 내가 음 널 좋아하는 것 같아"의 제2 언어 기반 텍스트로 "uh so I think I like you well"이 획득될 수 있다.
"uh so I think I like you well"의 확률 값은, "uh so" 및 "I think I like you well"의 확률 값에 기초하여 결정될 수 있다. "I think I like you well"의 확률 값은 상술된 단계 1011에서 결정된 값이다. 그러나, 일 실시 예에서, "I think I like you well"의 확률 값이 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정됨에 따라, "I think I like you well"에 기초한, "uh so I think I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다.
"uh so"의 확률 값은 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 각각 획득될 수 있다. 그러나, "어 그러니까"는 [간투어] 태그를 포함하므로, "어 그러니까"와 대응되는 제2 언어 기반 텍스트인 "uh so"의 확률 값이 조정될 수 있다. 예를 들면, "uh so"에서, 간투어인 "그러니까"가 다른 어휘의 의미 분석에 영향을 줄 수 있는 "so"로 번역되어 있으므로, "uh so"의 확률 값은 "so" 대신 간투어를 포함하는 제2 언어 기반 텍스트의 확률 값에 비해 더 낮은 값으로 결정될 수 있다.
일 실시예에 의하면, "음:[간투어]"이 "well"로 번역되었거나, "그러니까:[간투어]"가 "so"로 번역된 제2 언어 기반 텍스트에 대한 확률 값들은, "so" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다. 따라서, "음:[간투어]"이 "well"로 번역되었거나, "그러니까:[간투어]"가 "so"로 번역된 경우에 대한 확률 값은 "음:[간투어]"이 제2 언어의 간투어인 "uh"로 번역되었거나, "그러니까:[간투어]"가 제2 언어의 간투어인 "uh"로 번역된 경우에 대한 확률 값보다 더 낮은 값을 가질 수 있다. 또한, "음:[간투어]"이 제2 언어의 간투어인 "uh"로 번역되었거나, "그러니까:[간투어]"가 제2 언어의 간투어인 "uh"로 번역된 제2 언어 기반 텍스트가 번역 결과로 최종 선택될 가능성이 높아질 수 있다.
간투어는 발화자에 의해 의미 없이 발성된 단어로 간주함이 바람직하다. 그러나, 간투어로 판단되는 단어는 번역문에서 의미를 가지는 단어인 "so" 또는 "well"로 번역될 수 있다. 간투어가 제2 언어 중 의미를 가지는 단어로 번역되면, 번역된 단어가 다른 어휘에 대한 번역에 영향을 줄 수 있다. 수학식 1에 의한 확률 값은 제2 언어에 대한 언어 모델에 기초하여 획득될 수 있으므로, 번역된 단어는 인접한 다른 어휘의 번역에 영향을 줄 수 있다. 따라서, 간투어를 무의미하게 번역하고자 하는 발화자의 의도와는 다른 번역 결과가 생성될 수 있다. 일 실시 예에 의하면, 간투어로 판단된 어휘는 다른 어휘의 번역에 영향이 없도록 각 구간에 대한 확률 값을 조정함으로써, 번역 성능이 보다 향상될 수 있다.
단계 1021 내지 1023은, 제1 언어 기반 텍스트에서 간투어인 구간을 배제하고, 번역을 수행하는 방법을 나타낸 것이다.
단계 1021은, "내가 음 널 좋아하는"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. 간투어인 "음"이 배제된 "내가 널 좋아하는"에 대한 제2 언어 기반 텍스트가 번역 모델(141) 및 언어 모델(142) 등에 기초하여 획득될 수 있다. 예를 들어, "내가 널 좋아하는"에 대한 제2 언어 기반 텍스트로 "I like you" 및 이에 대한 확률 값이 획득될 수 있다. 제2 언어 기반 텍스트로 획득된 "I like you"에, 배제된 간투어와 대응되는 제2 언어의 간투어가 추가될 수 있다. 따라서, "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트로, "I uh like you"가 획득될 수 있다.
단계 1010 내지 1012와는 달리, 단계 1021 내지 1023에서는, 간투어를 배제하고 번역이 수행됨에 따라, 간투어 태그에 의한 제2 언어 기반 텍스트의 확률 값이 조정되지 않을 수 있다.
단계 1022는 "내가 음 널 좋아하는 것 같아"를 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. 간투어인 "음"이 배제된 "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트가 획득될 수 있다. 예를 들어, "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트로 "I think I like you" 및 이에 대한 확률 값이 획득될 수 있다. "I think I like you"의 확률 값은, 단계 1021에서 획득된 "I like you"에 대한 확률 값 및 "I think"에 대한 확률 값에 기초하여 결정될 수 있다.
제2 언어 기반 텍스트로 획득된 "I think I like you"에, 배제된 간투어와 대응되는 제2 언어의 간투어가 추가될 수 있다. 따라서, "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트로, "I think I uh like you"가 획득될 수 있다.
단계 1023은, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 인접한 구간인 "어 그러니까"가 "내가 음 널 좋아하는 것 같아"와 결합될 수 있다. 간투어인 "어 그러니까"와 "음"이 배제된 "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트가 획득될 수 있다. 그러나, "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트는 단계 1022에서 이미 획득된 상태이다. 따라서, "어 그러니까 내가 음 널 좋아하는 것 같아"의 제2 언어 기반 텍스트는 단계 1022에서 획득된 제2 언어 기반 텍스트에 제2 언어의 간투어인 "uh"가 추가됨에 따라 "uh uh I think I uh like you"이 획득될 수 있다.
"uh uh I think I uh like you"에 대한 확률 값은, 제1 언어 기반 텍스트에서 간투어가 배제된 채로 확률 정보가 결정됨에 따라 단계 1022에서 이미 획득된 제2 언어 기반 텍스트의 확률 정보와 동일하게 결정될 수 있다.
상술된 단계 1021 내지 1023과 같이, 전자 디바이스(100)가 제1 언어 기반 텍스트에서 간투어를 배제하고 번역을 수행하는 경우, 간투어로 인한 오역을 최소화하면서 번역을 수행할 수 있다.
일 실시 예에 의하면, 입력된 음성 신호에 포함된 비언어 정보를 고려하여 음성 번역이 수행됨으로써, 음성 번역 성능이 향상될 수 있다.
한편, 상술한 실시예는, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터에 의해 판독 가능한 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시예에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 또한, 상술한 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 컴퓨터가 읽고 실행할 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.
컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 기록 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 마그네틱 저장매체, 예를 들면, 롬, 플로피 디스크, 하드 디스크 등을 포함하고, 광학적 판독 매체, 예를 들면, 시디롬, DVD 등과 같은 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
또한, 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램 명령어 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.
본 개시에서 설명된 특정 실행들은 일 실시예 일 뿐이며, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 및 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.
본 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
"부", "모듈"은 어드레싱될 수 있는 저장 매체에 저장되며 프로세서에 의해 실행될 수 있는 프로그램에 의해 구현될 수도 있다.
예를 들어, "부", "모듈" 은 소프트웨어 구성 요소들, 객체 지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들에 의해 구현될 수 있다.

Claims (15)

  1. 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법에 있어서,
    상기 제1 언어 기반의 음성 신호를 수신하는 단계;
    상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계; 및
    상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는 단계를 포함하고,
    상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계는,
    상기 비언어 정보를 배제하고 상기 음성 인식을 수행함으로써 상기 제1 언어 기반의 텍스트를 획득하는 단계; 및
    상기 음성 신호로부터 상기 비언어 정보를 검출하기 위한 조건 정보를 기초로 상기 배제된 비언어 정보를 상기 제1 언어 기반의 텍스트에 부가하는 단계를 포함하고,
    상기 비언어 정보를 포함하는 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 방법.
  2. 제1항에 있어서, 상기 비언어 정보는
    강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈에 관한 정보 및 간투어에 관한 정보 중 적어도 하나를 포함하는, 방법.
  3. 제1항에 있어서, 상기 번역하는 단계는
    상기 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하는 단계;
    상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에 대한 확률 정보를 결정하는 단계; 및
    상기 확률 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는 단계를 포함하는, 방법.
  4. 제3항에 있어서, 상기 확률 정보를 결정하는 단계는
    상기 적어도 하나의 구간과, 상기 적어도 하나의 구간에 인접한 구간을 결합하는 단계; 및
    상기 결합된 구간이 상기 비언어 정보를 포함하는지 여부에 기초하여, 상기 결합된 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
  5. 제3항에 있어서, 상기 확률 정보를 결정하는 단계는
    상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간 중 간투어(hesitation word)를 포함하는 구간을 식별하는 단계; 및
    상기 간투어가 상기 제2 언어의 간투어로 번역되도록, 상기 간투어를 포함하는 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
  6. 제3항에 있어서, 상기 확률 정보를 결정하는 단계는
    상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에서 간투어를 포함한 구간을 배제하는 단계; 및
    상기 간투어를 포함한 구간이 배제된 적어도 하나의 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
  7. 제1항에 있어서, 상기 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를, 상기 비언어 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계는
    상기 음성 신호와 대응되는 적어도 하나의 제1 언어 기반의 후보 시퀀스를 획득하는 단계;
    상기 획득된 적어도 하나의 후보 시퀀스에 포함된 비언어 정보를 배제하는 단계;
    상기 비언어 정보가 배제된 적어도 하나의 후보 시퀀스 각각에 대하여, 언어 모델에 기초한 확률 정보를 획득하는 단계; 및
    상기 획득된 확률 정보에 기초하여, 상기 적어도 하나의 후보 시퀀스 중 적어도 하나의 후보 시퀀스를 상기 제1 언어 기반의 텍스트로 결정하는 단계를 포함하는, 방법.
  8. 삭제
  9. 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스에 있어서,
    상기 제1 언어 기반의 음성 신호를 수신하는 수신부;
    상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어(non-verbal) 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하고, 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 프로세서; 및
    상기 제2 언어로 번역된 결과를 출력하는 출력부를 포함하고,
    상기 프로세서는 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하기 위하여, 상기 비언어 정보를 배제하고 상기 음성 인식을 수행함으로써 상기 제1 언어 기반의 텍스트를 획득하고, 상기 음성 신호로부터 상기 비언어 정보를 검출하기 위한 조건 정보를 기초로 상기 배제된 비언어 정보를 상기 제1 언어 기반의 텍스트에 부가하고,
    상기 프로세서는 상기 비언어 정보를 포함하는 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 전자 디바이스.
  10. 제9항에 있어서, 상기 비언어 정보는
    강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈에 관한 정보 및 간투어에 관한 정보 중 적어도 하나를 포함하는, 전자 디바이스.
  11. 제9항에 있어서, 상기 프로세서는
    상기 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하고, 상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에 대한 확률 정보를 결정하고, 상기 확률 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 전자 디바이스.
  12. 제11항에 있어서, 상기 프로세서는
    상기 적어도 하나의 구간과, 상기 적어도 하나의 구간에 인접한 구간을 결합하고, 상기 결합된 구간이 상기 비언어 정보를 포함하는지 여부에 기초하여, 상기 결합된 구간에 대한 확률 정보를 결정하는, 전자 디바이스.
  13. 제11항에 있어서, 상기 프로세서는
    상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간 중 간투어(hesitation word)를 포함하는 구간을 식별하고, 상기 간투어가 상기 제2 언어의 간투어로 번역되도록, 상기 간투어를 포함하는 구간에 대한 확률 정보를 결정하는, 전자 디바이스.
  14. 제9항에 있어서, 상기 프로세서는
    상기 음성 신호와 대응되는 적어도 하나의 제1 언어 기반의 후보 시퀀스를 획득하고, 상기 획득된 적어도 하나의 후보 시퀀스에 포함된 비언어 정보를 배제하고, 상기 비언어 정보가 배제된 적어도 하나의 후보 시퀀스 각각에 대하여, 언어 모델에 기초한 확률 정보를 획득하고, 상기 획득된 확률 정보에 기초하여, 상기 적어도 하나의 후보 시퀀스 중 적어도 하나의 후보 시퀀스를 상기 제1 언어 기반의 텍스트로 결정하는, 전자 디바이스.
  15. 제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020160123385A 2016-09-26 2016-09-26 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 KR102580904B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020160123385A KR102580904B1 (ko) 2016-09-26 2016-09-26 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
US15/714,249 US10614170B2 (en) 2016-09-26 2017-09-25 Method of translating speech signal and electronic device employing the same
PCT/KR2017/010557 WO2018056779A1 (en) 2016-09-26 2017-09-25 Method of translating speech signal and electronic device employing the same
EP17853493.9A EP3507711A4 (en) 2016-09-26 2017-09-25 METHOD FOR TRANSLATION OF VOICE SIGNAL AND ELECTRONIC DEVICE USING THE SAME

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160123385A KR102580904B1 (ko) 2016-09-26 2016-09-26 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스

Publications (2)

Publication Number Publication Date
KR20180033875A KR20180033875A (ko) 2018-04-04
KR102580904B1 true KR102580904B1 (ko) 2023-09-20

Family

ID=61686298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160123385A KR102580904B1 (ko) 2016-09-26 2016-09-26 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스

Country Status (4)

Country Link
US (1) US10614170B2 (ko)
EP (1) EP3507711A4 (ko)
KR (1) KR102580904B1 (ko)
WO (1) WO2018056779A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3779971A4 (en) * 2018-04-27 2021-11-24 Llsollu Co., Ltd. PROCESS FOR RECORDING AND EXIT OF A CONVERSATION BETWEEN MULTIPLE PARTIES USING VOICE RECOGNITION TECHNOLOGY, AND ASSOCIATED DEVICE
EP3685374B1 (en) 2018-12-14 2021-04-07 Google LLC Generation of a voice-based interface
KR20210120286A (ko) * 2020-03-26 2021-10-07 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 대화 시스템의 제어 방법
CN112102833B (zh) * 2020-09-22 2023-12-12 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124133A1 (en) * 2005-10-09 2007-05-31 Kabushiki Kaisha Toshiba Method and apparatus for training transliteration model and parsing statistic model, method and apparatus for transliteration
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
US20160078020A1 (en) * 2014-09-11 2016-03-17 Kabushiki Kaisha Toshiba Speech translation apparatus and method

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW347503B (en) * 1995-11-15 1998-12-11 Hitachi Ltd Character recognition translation system and voice recognition translation system
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
CA2226233C (en) * 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
JP5118280B2 (ja) * 1999-10-19 2013-01-16 ソニー エレクトロニクス インク 自然言語インターフェースコントロールシステム
WO2005057425A2 (en) * 2005-03-07 2005-06-23 Linguatec Sprachtechnologien Gmbh Hybrid machine translation system
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US20070192107A1 (en) * 2006-01-10 2007-08-16 Leonard Sitomer Self-improving approximator in media editing method and apparatus
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
US8032356B2 (en) * 2006-05-25 2011-10-04 University Of Southern California Spoken translation system using meta information strings
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US8145473B2 (en) * 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8082149B2 (en) * 2006-10-26 2011-12-20 Biosensic, Llc Methods and apparatuses for myoelectric-based speech processing
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
KR100911621B1 (ko) * 2007-12-18 2009-08-12 한국전자통신연구원 한영 자동번역 방법 및 장치
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
KR20100068965A (ko) 2008-12-15 2010-06-24 한국전자통신연구원 자동 통역 장치 및 그 방법
US20110238407A1 (en) * 2009-08-31 2011-09-29 O3 Technologies, Llc Systems and methods for speech-to-speech translation
KR101295642B1 (ko) 2009-12-07 2013-08-13 한국전자통신연구원 음성인식결과 문장에 대한 문형분류장치 및 방법
US10204625B2 (en) * 2010-06-07 2019-02-12 Affectiva, Inc. Audio analysis learning using video data
US10592757B2 (en) * 2010-06-07 2020-03-17 Affectiva, Inc. Vehicular cognitive data collection using multiple devices
US9002696B2 (en) * 2010-11-30 2015-04-07 International Business Machines Corporation Data security system for natural language translation
JP5478478B2 (ja) 2010-12-15 2014-04-23 日本放送協会 テキスト修正装置およびプログラム
US9098488B2 (en) * 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US9576593B2 (en) * 2012-03-15 2017-02-21 Regents Of The University Of Minnesota Automated verbal fluency assessment
KR101709188B1 (ko) 2012-11-16 2017-03-08 한국전자통신연구원 비문형적 어휘 모델 기반 음성 인식 방법
JP2014123072A (ja) 2012-12-21 2014-07-03 Nec Corp 音声合成システム及び音声合成方法
US9418655B2 (en) * 2013-01-17 2016-08-16 Speech Morphing Systems, Inc. Method and apparatus to model and transfer the prosody of tags across languages
US9031829B2 (en) * 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) * 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
KR101747873B1 (ko) * 2013-09-12 2017-06-27 한국전자통신연구원 음성인식을 위한 언어모델 생성 장치 및 방법
US9613027B2 (en) * 2013-11-07 2017-04-04 Microsoft Technology Licensing, Llc Filled translation for bootstrapping language understanding of low-resourced languages
US9600474B2 (en) * 2013-11-08 2017-03-21 Google Inc. User interface for realtime language translation
US9836457B2 (en) * 2015-05-25 2017-12-05 Panasonic Intellectual Property Corporation Of America Machine translation method for performing translation between languages
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
CN108140384A (zh) * 2015-10-15 2018-06-08 雅马哈株式会社 信息管理系统和信息管理方法
US20170206904A1 (en) * 2016-01-19 2017-07-20 Knuedge Incorporated Classifying signals using feature trajectories
US10403268B2 (en) * 2016-09-08 2019-09-03 Intel IP Corporation Method and system of automatic speech recognition using posterior confidence scores

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124133A1 (en) * 2005-10-09 2007-05-31 Kabushiki Kaisha Toshiba Method and apparatus for training transliteration model and parsing statistic model, method and apparatus for transliteration
US20120078607A1 (en) * 2010-09-29 2012-03-29 Kabushiki Kaisha Toshiba Speech translation apparatus, method and program
US20160078020A1 (en) * 2014-09-11 2016-03-17 Kabushiki Kaisha Toshiba Speech translation apparatus and method

Also Published As

Publication number Publication date
WO2018056779A1 (en) 2018-03-29
US10614170B2 (en) 2020-04-07
EP3507711A4 (en) 2019-09-11
KR20180033875A (ko) 2018-04-04
EP3507711A1 (en) 2019-07-10
US20180089176A1 (en) 2018-03-29

Similar Documents

Publication Publication Date Title
US11062694B2 (en) Text-to-speech processing with emphasized output audio
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US7974844B2 (en) Apparatus, method and computer program product for recognizing speech
US10134388B1 (en) Word generation for speech recognition
US7937262B2 (en) Method, apparatus, and computer program product for machine translation
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
KR102191425B1 (ko) 인터랙티브 캐릭터 기반 외국어 학습 장치 및 방법
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
KR102580904B1 (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
CN105210147B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2016062069A (ja) 音声認識方法、及び音声認識装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP5696638B2 (ja) 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
US20220138420A1 (en) Difference extraction device, method and program
Biczysko Automatic Annotation of Speech: Exploring Boundaries within Forced Alignment for Swedish and Norwegian
CN113421587B (zh) 语音评测的方法、装置、计算设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right