KR102580904B1

KR102580904B1 - 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스

Info

Publication number: KR102580904B1
Application number: KR1020160123385A
Authority: KR
Inventors: 김상하; 김은경; 유지상; 류종엽; 박치연; 이진식; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2016-09-26
Filing date: 2016-09-26
Publication date: 2023-09-20
Also published as: WO2018056779A1; US10614170B2; EP3507711A4; KR20180033875A; EP3507711A1; US20180089176A1

Abstract

제1 언어 기반의 음성 신호를 수신하고, 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환하고, 비언어 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역하는, 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법이 개시된다.

Description

음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 {Method for translating speech signal and electronic device thereof}

본 개시는 제1 언어 기반의 음성 신호를 제2 언어로 번역하고, 그 결과를 출력하는 방법 및 그에 따른 전자 디바이스에 관한 것이다.

음성 번역(speech translation) 기술은 입력된 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 기술에 관한 것으로, 음성 인식 단계, 번역 단계 및 음성 합성 단계로 구성될 수 있다. 음성 번역 기술이 채용된 전자 디바이스로 음성 신호가 입력되면, 입력된 음성 신호에 대하여 음성 인식이 수행되고, 음성 인식 결과로써 제1 언어 기반의 텍스트가 생성된다. 전자 디바이스는, 번역 단계에서 제1 언어 기반의 텍스트를 제2 언어로 번역함으로써, 제2 언어 기반의 텍스트를 생성한다. 또한, 전자 디바이스는, 음성 합성 단계에서 제2 언어 기반의 텍스트를 제2 언어의 음성으로 변환한다. 제2 언어의 음성은 스피커를 통해 출력됨으로써, 입력된 음성 신호에 대한 번역 결과가 출력된다.

그러나, 음성 번역 과정에서, 음성 신호가 여러 변환 과정을 거침에 따라 발화자의 의도와는 다른 번역 결과가 음성 번역의 결과로 출력될 수 있는 문제점이 존재한다.

개시된 실시예들은, 제1 언어 기반의 음성 신호를 제2 언어로 번역하고, 그 결과를 출력하는 방법 및 그에 따른 전자 디바이스에 관한 것으로, 보다 자세하게는 음성 신호에 포함된 텍스트 이외의 비언어적인(non-verbal) 정보를 이용하여 번역하는 방법에 관한 것이다.

일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법은, 상기 제1 언어 기반의 음성 신호를 수신하는 단계; 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계; 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 단계를 포함한다.

일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스는 상기 제1 언어 기반의 음성 신호를 수신하는 수신부; 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하고, 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 프로세서; 및 상기 제2 언어로 번역된 결과를 출력하는 출력부를 포함한다.

도 1은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스를 나타낸 도면이다.
도 2는 일 실시 예에 의한 프로세서를 나타낸 블록도이다.
도 3 및 도 4는 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다.
도 5는 일 실시 예에 의한 음성 인식을 수행하는 방법의 일 예를 나타낸 도면이다.
도 6은 일 실시 예에 의한 포즈 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타낸 순서도이다.
도 7은 일 실시 예에 의한 간투어 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타낸 순서도이다.
도 8은 일 실시 예에 의한 제1 언어 기반의 텍스트에 대하여 번역을 수행하는 방법을 나타낸 예시 도면이다.
도 9는 일 실시 예에 따른 포즈 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.
도 10은 일 실시 예에 따른 간투어 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 개시의 일부 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단” 및 “구성”등과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다.

또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어질 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.

도 1은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스를 나타낸 도면이다.

도 1을 참조하면, 전자 디바이스(100)는 수신부(110), 프로세서(120) 및 출력부(130)를 포함할 수 있다. 일 실시예에서, 전자 디바이스(100)는 입력된 제1 언어의 음성 신호를 제2 언어의 음성 신호로 변환하고, 제2 언어의 음성 신호를 외부로 출력할 수 있다. 일 실시예에서, 수신부(110)는 마이크이며, 출력부(130)는 스피커일 수 있다.

수신부(110)는 제1 언어 기반의 음성 신호를 수신할 수 있다. 예를 들면, 수신부(110)의 마이크를 통해 발화자의 음성을 포함하는 제1 언어의 음성 신호가 수신될 수 있다. 또 다른 예로, 외부 장치에 의해 수신된 제1 언어의 음성 신호가 수신부(110)로 수신될 수 있다.

프로세서(120)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어(non-verbal) 정보가 포함된 제1 언어 기반의 텍스트로 변환하고, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에서, 프로세서(120)는 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하고, 분할된 각 구간에 대한 확률 정보를 결정할 수 있고, 결정된 확률 정보에 기초하여, 제1 언어 기반 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에서, 프로세서(120)는, 번역 결과로서, 제1 언어 기반 텍스트와 대응되는 제2 언어 기반 텍스트를 출력할 수 있다.

일 실시 예에서, 각 구간에 대한 확률 정보는, 번역 모델에 기초하여 획득될 수 있다. 또한, 각 구간의 확률 정보는, 번역 모델뿐만 아니라, 제2 언어의 언어 모델에 기초하여, 획득될 수 있다. 일 실시 예에 의하면, 프로세서(120)는 번역 모델 및 언어 모델 등에 의해 획득된 확률 정보를 비언어 정보에 기초하여 결정할 수 있다.

번역 모델은 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 번역 모델에서, 제2 언어 기반 텍스트에 대한 확률 값이 클수록, 제2 언어 기반 텍스트가 제1 언어 기반 텍스트의 번역 결과에 해당될 가능성이 높다. 프로세서(120)는 번역 모델을 이용하여, 제1 언어 기반 텍스트와 대응되는 제2 언어 기반 텍스트 및 이에 대한 확률 값을 구할 수 있다.

제2 언어의 언어 모델은 각각의 제2 언어 기반 텍스트가 현재 위치에서 출현할 확률 값을 포함할 수 있다. 예를 들면, 텍스트 A에 대한 언어 모델은, 텍스트 A에 인접한 텍스트 B가 소정 위치에 존재하는 것을 조건으로, 텍스트 A가 현재 위치에서 출현할 확률 값을 포함할 수 있다. 프로세서(120)는 번역 모델뿐만 아니라 제2 언어의 언어 모델을 더 이용하여, 문맥 상 자연스러운 정도가 반영된 제2 언어 기반 텍스트의 확률 값을 구할 수 있다.

일 실시 예에서, 제1 언어 기반 텍스트에서 분할된 각 구간의 확률 정보는, 제2 언어 기반 텍스트가 각 구간에 대한 번역 결과일 확률 값을 포함할 수 있다. 제1 언어 기반의 텍스트와 대응되는 제2 언어 기반의 텍스트는 복수 개 존재할 수 있다. 따라서, 각 구간의 확률 정보는, 각 구간과 대응되는 제2 언어 기반 텍스트의 개수만큼의 확률 값을 포함할 수 있다.

일 실시 예에서, 프로세서(120)는 어휘, 구절, 문장 등 다양한 단위로 제1 언어 기반의 텍스트를 분할할 수 있다. 프로세서(120)는 번역 모델에 제1 언어 텍스트의 일부 구간에 대한 확률 정보가 존재하는지 여부에 따라, 제1 언어 기반의 텍스트를 분할할 수 있다. 예를 들어, 제1 언어 기반의 텍스트에서, 번역 모델에 확률 정보가 존재하는 구간은 하나의 구간으로 분할될 수 있다. 프로세서(120)는 번역 모델의 확률 값을 이용하여, 각 구간과 대응되는 적어도 하나의 제2 언어 기반의 텍스트 및 이에 대한 확률 값을 획득할 수 있다.

일 실시 예에서, 프로세서(120)는 제1 언어 기반의 텍스트를 적어도 하나의 구간으로 분할하고, 분할된 구간들을 다양한 조합 및 순서로 결합할 수 있다. 각 구간들이 서로 결합됨에 따라, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트가 획득될 수 있다. 프로세서(120)는 각 구간과, 각 구간에 인접한 적어도 하나의 구간을 서로 결합하여, 적어도 하나의 결합 구간을 획득할 수 있다. 프로세서(120)는 서로 결합된 적어도 하나의 구간에 대한 각각의 확률 정보에 기초하여, 결합된 구간에 대한 확률 정보를 획득할 수 있다. 결합된 구간에 대한 확률 정보는, 결합된 구간과 대응될 수 있는 적어도 하나의 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 결합된 구간의 제2 언어 기반 텍스트는, 서로 결합된 적어도 하나의 구간과 각각 대응되는 제2 언어 기반 텍스트들의 조합에 기초하여 결정될 수 있다.

예를 들어, 구간 A 및 B와 대응되는 제2 언어 기반 텍스트가 각각 a1, a2 및 b1, b2인 경우, 구간 A 및 B가 서로 결합된 구간에 대한 확률 정보는, 제2 언어 기반 텍스트들 간 조합인 (a1, b1), (a1, b2), (a2, b1) 및 (a2, b2) 중 적어도 하나에 대한 확률 값을 포함할 수 있다. 일 예로, 결합 구간에 대한 확률 정보는, 모든 조합의 확률 값을 포함하는 대신, n-베스트 방식에 따라 선택된 n 개의 확률 값을 포함할 수 있다.

각 조합의 확률 값은, 각 조합을 구성하는 제2 언어 기반 텍스트들의 확률 값에 기초하여, 획득될 수 있다. 또한, 각 조합의 확률 값은 결합된 구간에 포함된 비언어 정보에 기초하여, 결정될 수 있다.

예를 들어, 구간 A 및 B 사이에 비언어 정보 중 포즈(pause) 정보가 존재하는 경우, 프로세서(120)는 포즈 정보에 기초하여, 포즈 정보를 포함한 결합 구간의 확률 정보를 결정할 수 있다. 구간 A 및 B에 대한 각각의 확률 정보는 구간 A 및 B가 비언어 정보를 포함하지 않으므로, 구간 A 및 B에 대한 확률 값은 비언어 정보에 의해 조정되지 않을 수 있다. 그러나, 두 구간이 결합된 구간은 비언어 정보를 포함하므로, 두 구간이 결합된 구간의 확률 값은 비언어 정보에 기초하여 조정될 수 있다. 구간 A 및 B가 결합된 구간이 포즈 정보를 포함하는 경우, 프로세서(120)는 구간 A 및 B의 의미가 구분되도록 발화하고자 하는 발화자의 의도를 고려하여, 결합 구간의 확률 값을 원래 값보다 낮은 값으로 결정할 수 있다. 따라서, 두 구간이 결합된 구간과 대응되는 제2 언어 기반 텍스트는 다른 조합의 결합 구간과 대응되는 제2 언어 기반 텍스트에 비해 번역 결과로 출력될 가능성이 낮아질 수 있다.

또한, 프로세서(120)는 번역 과정에서, 결합된 각 구간과, 결합된 각 구간에 인접한 구간을 결합하여, 새로운 결합 구간을 획득할 수 있다. 예를 들어, 구간 A 및 B가 결합된 구간과 인접한 구간 C(구간 C와 대응되는 제2 언어 기반 텍스트는 c1, c2)가 결합된 구간에 대한 확률 정보는, 제2 언어 기반 텍스트들 간 조합인 ((a1, b1), c1), ((a1, b1), c2), ((a1, b2), c1), ((a1, b2), c2), ((a2, b1), c1), ((a2, b1), c2), ((a2, b2), c1) 및 ((a2, b2), c2)에 대한 확률 값 중 적어도 하나를 포함할 수 있다. 각 조합에 대한 확률 값은, 구간 A 및 B의 결합 구간에 대한 적어도 하나의 확률 값 및 구간 C에 대한 적어도 하나의 확률 값에 기초하여 결정될 수 있다. 새로운 결합 구간에 대한 확률 정보는, 상술된 조합 모두에 대한 확률 값을 포함하는 대신, n-베스트 방식에 따라 선택된 n 개의 확률 값을 포함할 수 있다.

일 실시 예에서, 프로세서(120)는 제1 언어 기반 텍스트에서 분할된 모든 구간이 결합될 때까지, 결합 구간 및 결합 구간에 인접한 구간들의 결합을 단계적으로 수행할 수 있다. 구간들 간에 결합이 수행되는 순서에 따라, 다양한 조합의 결합 구간이 획득될 수 있다. 구간이 결합될 때마다 대응되는 제2 언어 기반 텍스트 및 이에 대한 확률 값이 결정될 수 있다. 따라서, 서로 다른 결합 순서 및 조합을 가진 구간들은 각각 서로 다른 제2 언어 기반 텍스트 및 이에 대한 확률 값을 가질 수 있다.

일 실시 예에 의하면, 음성 번역 과정에서, 음성 신호에 포함된 텍스트 외의 비언어적인 정보가 유실될 수 있다. 동일한 텍스트의 음성인 경우에도, 발화자의 의도에 따라 음성의 높낮이, 강도, 공백 등의 음성 신호의 비언어적인 정보가 서로 다를 수 있다. 따라서, 음성 신호의 비언어적 정보에 대한 고려 없이, 음성 번역이 수행되는 경우, 발화자의 의도와는 다른 번역 결과가 음성 번역의 결과로 출력될 수 있다.

일 실시 예에 의한 전자 디바이스(100)는 제1 언어의 음성 신호에 포함된 텍스트 이외의 비언어 정보를 이용하여 음성 번역을 수행할 수 있다. 전자 디바이스(100)는 비언어 정보를 이용하여 음성 번역을 수행함으로써, 비언어 정보에 포함된 발화자의 의도를 고려한 음성 번역이 가능해진다. 이에 따라, 전자 디바이스(100)의 음성 번역 성능이 향상될 수 있다.

일 실시예에서, 비언어 정보는 포즈 및 간투어(hesitation words) 중 적어도 하나에 관한 정보를 포함할 수 있다. 예를 들어, 비언어 정보가 포즈가 발생된 지점에 관한 정보를 포함하는 경우, 프로세서(120)는 포즈가 포함된 구간의 확률 값을 조정할 수 있다. 확률 값이 조정됨으로써, 제1 언어 기반 텍스트를 제2 언어로 번역한 결과가 달라질 수 있다.

일 실시예에서, 비언어 정보가 간투어에 관한 정보를 포함하는 경우, 프로세서(120)는 간투어에 관한 정보에 기초하여, 확률 값을 조정할 수 있다. 예를 들어, 프로세서(120)는 간투어가 제2 언어의 간투어로 번역되도록, 간투어를 포함하는 구간에 대해 획득된 확률 값을 조정할 수 있다. 프로세서(120)는 간투어에 관한 정보에 기초하여, 간투어가 포함된 구간의 확률 값을 조정하고, 조정된 확률 값을 포함한 확률 정보에 기초하여 번역이 수행될 수 있다.

또한, 프로세서(120)는 간투어를 포함하는 구간에서, 간투어를 배제하고, 간투어가 배제된 구간에 대해 확률 정보를 구함으로써, 번역을 수행할 수 있다. 예를 들면, 프로세서(120)는 간투어로 판단된 제1 언어 기반 텍스트를 배제하고, 제1 언어 기반 텍스트에 대한 번역을 수행할 수 있다.

출력부(130)는 프로세서(120)에 의해 제2 언어로 번역된 결과를 출력할 수 있다. 예를 들면, 제2 언어로 번역된 결과인 제2 언어 기반의 텍스트는 음성으로 변환되어 스피커를 통해 출력될 수 있다.

일 실시 예에 의한 전자 디바이스(100)는, 스마트폰, 태블릿 PC, 노트북 컴퓨터(laptop computer), 전자책 단말기, 웨어러블 디바이스(wearable device) 등을 포함할 수 있으나, 이에 제한되지 않는다.

일 실시 예에 의한 전자 디바이스(100)는 수신부(110)에 의해 수신된 제1 언어 기반의 음성 신호를 서버(미도시)로 전송할 수 있다. 일 실시 예에서, 전자 디바이스(100)로부터 제1 언어 기반의 음성 신호를 수신한 서버는 제1 언어 기반의 음성 신호를 제2 언어로 번역할 수 있다. 예를 들면, 서버는, 상술된 전자 디바이스(100)의 프로세서(120)와 같이, 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 동작을 수행할 수 있다.

일 실시 예에 의한 서버는 제1 언어 기반의 음성 신호의 번역 결과로서, 제2 언어 기반의 음성 신호를 전자 디바이스(100)로 전송할 수 있다. 전자 디바이스(100)는 출력부(130)를 통해 서버로부터 수신한 제2 언어 기반의 음성 신호를 출력할 수 있다.

또는, 일 실시 예에 의한 서버는 제1 언어 기반의 음성 신호의 번역 결과로서, 제2 언어 기반의 텍스트를 전자 디바이스(100)로 전송할 수 있다. 전자 디바이스(100)는 서버로부터 수신된 제2 언어 기반의 텍스트를 제2 언어 기반의 음성 신호로 변환하고, 제2 언어 기반의 음성 신호를 출력부(130)를 통해 출력할 수 있다.

일 실시 예에 있어서, 발화자에 의한 제1 언어의 음성 신호가 전자 디바이스(100)에 입력되면, 제1 언어의 음성 신호가 번역된 결과인 제2 언어의 음성 신호가 전자 디바이스(100)에 의해 출력될 수 있다. 따라서, 발화자는 전자 디바이스(100)를 통해, 발화자가 사용하는 언어와는 다른 언어를 사용하는 대화 상대방과 원활한 의사 소통이 가능하다.

일 실시 예에 의한 비언어 정보(non-verbal)는 입력된 음성 신호의 비언어적인 특성 정보, 예를 들면, 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등에 관한 정보 등에 기초하여 획득될 수 있다. 일 실시 예에서, 비언어 정보는, 상술된 음성 신호의 비언어적인 특성 정보에 기초하여 획득될 수 있는 강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈 및 간투어(hesitation word)에 관한 정보 등을 포함할 수 있다.

일 실시 예에 의하면, 강조된 어휘에 관한 정보는 제1 언어 기반의 텍스트에서 강조된 구간에 대한 정보를 포함할 수 있다. 예를 들면, 다른 구간보다 음성의 크기가 큰 구간은 강조된 구간으로 판단될 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 강조 어휘에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에 강조 어휘를 나타내는 태그를 추가할 수 있다.

일 실시 예에 의하면, 강조된 어휘가 일차적 의미의 제2 언어로 번역되도록, 강조된 어휘를 포함하는 구간에 대한 확률 값을 조정할 수 있다.

예를 들어, 제1 언어 및 제2 언어가 각각 영어 및 한국어이고, 입력 문장이 "I have plans to leave"일 때, "plans"가 강조된 경우, 전자 디바이스(100)는 "plans"의 일차적 의미인 "계획"이 번역 문장에 포함될 수 있도록, "plans"를 포함하는 구간에 대한 확률 값을 조정할 수 있다. 일 예로, 전자 디바이스(100)는 "plans"를 포함하는 구간의 확률 정보 중, "계획"을 포함하는 제2 언어 기반 텍스트에 대한 확률 값을 더 큰 값으로 조정할 수 있다.

일 실시 예에 의하면, 문형에 관한 정보는 제1 언어 기반의 텍스트의 문장 유형, 예를 들면, 의문문, 평서문, 명령문 등에 관한 정보를 포함할 수 있다. 일 예로, 문형에 관한 정보는 음성의 높낮이에 기초하여 결정될 수 있다. 문형이 달라도 문장의 어순 및 어미가 바뀌지 않는 경우가 다수 존재할 수 있다. 예를 들면, 문장 말미에서 발화자가 음높이를 높게 함으로써, 평서문에서 의문문으로 문형이 변경될 수 있다. 따라서, 음성 신호의 비언어적 특성으로부터 획득될 수 있는 문형에 관한 정보의 고려없이 음성 인식된 제1 언어의 텍스트만 고려하여 번역이 수행되는 경우, 발화자의 의도와는 다르게, 음성 신호가 잘못된 문형의 문장으로 오역될 가능성이 존재한다.

일 실시 예에 의한 전자 디바이스(100)는 음성 신호의 비언어적인 특성 정보에 기초하여, 문형에 관한 정보를 획득할 수 있다. 음성 신호로부터 문형에 관한 정보를 검출한 경우, 전자 디바이스(100)는 음성 인식 결과인 제1 언어 기반 텍스트에 문형을 나타내는 태그를 추가할 수 있다.

일 실시 예에 의하면, 전자 디바이스(100)는 제1 언어 기반 텍스트의 문형에 관한 정보에 기초하여, 번역 시 이용되는 확률 값을 조정할 수 있다. 예를 들면, 제1 언어 및 제2 언어가 각각 한국어 및 영어이고, 입력 문장이 "정말 그렇게 생각해"일 때, 음성 신호의 높낮이에 기초하여 입력 문장의 문형이 결정될 수 있다. 입력 문장 중 "해"와 대응되는 음성 신호의 높낮이가 높은 경우, 전자 디바이스(100)는 입력 문장의 문형이 의문문인 것으로 결정할 수 있다.

일 실시 예에 의하면, 전자 디바이스(100)는 수신된 음성 신호가, 의문문에서 사용될 수 있는 어휘를 포함한 문장으로 번역되도록, 구간에 대한 확률 값을 조정할 수 있다. 예를 들면, 음성 신호가 의문 대명사를 포함하지 않는 문장 대신 'who', 'do' 등과 같은 의문 대명사를 포함하는 문장으로 번역되도록, 확률 값이 조정될 수 있다. "정말 그렇게 생각해"가 의문문일 때, "I really think so" 대신 "Do you really think so"의 문장이 음성 신호의 번역문으로 출력될 수 있도록 확률 값이 조정될 수 있다. 일 예로, 전자 디바이스(100)는 의문 대명사인 "Do"를 포함하는 제2 언어 기반 텍스트의 확률 값을 더 큰 값으로 조정할 수 있다.

일 실시 예에 의하면, 비표준어에 관한 정보는 제1 언어 기반의 텍스트 중 비표준어를 나타내는 어휘에 관한 정보를 포함할 수 있다. 비표준어가, 발화자의 의도와 다른 의미를 가진 제2 언어의 어휘로 번역되지 않도록, 전자 디바이스(100)는 비표준어에 관한 정보에 기초하여, 번역을 수행할 수 있다.

예를 들면, 비표준어는 사투리, 비속어, 은어 등을 포함할 수 있으며, 발화자의 언어 습관에 따라 각 비표준어에 대한 사용 빈도수, 억양, 강도 등이 서로 다를 수 있다. 비표준어는 발화자에 따라 사용 빈도수, 억양, 강도 등이 서로 다를 수 있으므로, 발화자에 따라 서로 다른 정보가 비표준어 검출을 위해 이용될 수 있다. 전자 디바이스(100)는 비표준어에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에, 비표준어를 나타내는 태그 또는 검출된 비표준어와 의미가 동일한 표준어를 나타내는 태그를 추가할 수 있다. 전자 디바이스(100)는 비표준어로 검출된 어휘가 발화자의 의도에 맞게 번역되도록, 비표준어를 포함하는 구간에 대한 확률 값을 조정할 수 있다. 일 예로, 전자 디바이스(100)는 비표준어에 관한 정보에 기초하여, 비표준어를 포함하는 제2 언어 기반 텍스트의 확률 값을 더 큰 값으로 조정할 수 있다.

일 실시 예에 의하면, 포즈 및 간투어 정보는 비언어 정보로서, 제1 언어 기반의 텍스트에서, 포즈 또는 간투어가 발생된 구간에 관한 정보를 포함할 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 포즈 또는 간투어에 관한 정보에 기초하여 포즈 또는 간투어가 발생된 구간에 대한 확률 정보를 획득할 수 있다.

일 실시 예에 의하면, 발화자의 의도적인 포즈는 의미 구분을 위한 것인 점을 고려하여, 전자 디바이스(100)는 번역 시 포즈를 포함하는 구간이 우선적으로 결합된 구간의 확률 값을 원래 값보다 낮은 값으로 결정할 수 있다.

또한, 간투어는 발화자가 의미를 가지도록 발화한 어휘가 아닌 점을 고려하여, 전자 디바이스(100)는 간투어가 다른 어휘의 번역에 영향을 주지 않도록 각 구간에 대한 확률 정보를 결정할 수 있다. 확률 정보는 번역 모델뿐만 아니라 제2 언어의 언어 모델에 더 기초하여 획득될 수 있으므로, 간투어는 인접한 다른 어휘의 번역에 영향을 줄 수 있기 때문이다. 따라서, 일 실시 예에 의한 전자 디바이스(100)는 제1 언어 기반 텍스트의 간투어가 제2 언어의 간투어로 번역되도록 확률 정보를 결정하거나, 제1 언어 기반 텍스트에서 간투어인 구간을 배제한 후, 각 구간에 대한 확률 정보를 결정할 수 있다.

일 실시 예에 의하면, 전자 디바이스(100)는 포즈 또는 간투어에 관한 정보를 검출한 경우, 음성 인식 결과인 제1 언어 기반 텍스트에 포즈가 발생된 지점임을 나타내는 태그 또는 간투어를 나타내는 태그를 추가할 수 있다.

비언어 정보는 상술된 예에 한하지 않고, 전자 디바이스(100)로 입력된 음성 신호의 비언어적인 특성에 기초하여 결정될 수 있는 다양한 종류의 정보를 포함할 수 있다.

도 2는 일 실시 예에 의한 프로세서를 나타낸 블록도이다.

도 2를 참조하면, 전자 디바이스(100)의 프로세서(120)는 음성 인식부(121), 비언어 정보 검출부(122), 번역부(124), 가중치 제어부(123) 및 음성 합성부(125)를 포함할 수 있다. 도 2에 도시된 프로세서(120)는 일 실시 예에 불과하고, 다양한 구성 요소를 포함할 수 있다.

음성 인식부(121)는 발화자의 음성을 포함하는 제1 언어의 음성 신호에 대해 음성 인식을 수행할 수 있다. 음성 인식부(121)는 음성 인식 결과로서 제1 언어 기반의 텍스트를 생성할 수 있다. 제1 언어 기반의 텍스트는 제1 언어 음성 신호에 포함된 발화자의 발화 내용과 대응될 수 있다. 음성 인식부(121)는 발화자에 따라 서로 다른 음향 모델, 언어 모델 등을 이용하여 음성 인식을 수행할 수 있다. 음성 인식부(121)에 의해 생성된 제1 언어 기반의 텍스트는, 비언어 정보 검출부(122)에 의하여 검출된 비언어 정보를 더 포함할 수 있다.

비언어 정보 검출부(122)는 전자 디바이스(100)로 입력된 제1 언어 기반의 음성 신호를 분석하여, 제1 언어 기반의 음성 신호에 대한 비언어 정보를 검출할 수 있다. 예를 들면, 비언어 정보 검출부(122)는 제1 언어 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등을 분석하여, 제1 언어 음성 신호로부터 비언어 정보를 검출할 수 있다. 비언어 정보가 검출되면, 제1 언어 기반의 텍스트 중 비언어 정보가 발생된 구간에 대하여, 비언어 정보를 나타내는 태그가 추가될 수 있다. 비언어 정보 검출부(122)는 음성 인식부(121)에 의해 음성 인식된 결과 및 발화자 정보 등을 더 이용하여 제1 언어 음성 신호로부터 비언어 정보를 검출할 수 있다. 발화자 정보는, 발화자를 식별하기 위한 정보를 포함할 수 있다.

발화자의 언어 습관 또는 주변 환경에 따라, 발화자의 음성 신호에서 나타날 수 있는 비언어 정보는 각각 다를 수 있다. 따라서, 비언어 정보 검출부(122)는 발화자에 따라, 예를 들면, 포즈, 간투어, 비표준어, 강조 어휘 등의 비언어 정보에 따라 확률 정보에 적용될 수 있는 가중치 또는 비언어 정보를 검출하기 위한 조건 정보를 다르게 둘 수 있다. 전자 디바이스(100)는 가중치 값을 확률 정보에 적용시킴으로써, 소정 구간의 확률 정보에 포함된 적어도 하나의 확률 값을 조정할 수 있다. 비언어 정보 검출부(122)는 발화자에 따라 비언어 정보를 검출하기 위한 조건이나, 비언어 정보에 따라 확률 정보에 적용될 수 있는 가중치를 다르게 둠으로써, 비언어 정보의 검출 성능 및 음성 번역의 성능이 향상될 수 있다.

일 실시 예에 의하면, 비언어 정보는 음성 인식 단계에서, 언어 모델, 음향 모델, 발음 사전 등을 이용하여 음성 인식을 수행하는 방식과 동일한 방식으로 검출될 수 있다. 예를 들면, 음성 인식 시 이용될 수 있는 언어 모델, 음향 모델, 발음 사전 등의 데이터 베이스에, 각각의 비언어 정보가 출현할 확률 정보, 발음 정보 등이 포함될 수 있다. 음성 인식 시 비언어 정보를 함께 검출할 수 있는 데이터 베이스를 이용함으로써, 음성 인식된 결과에 비언어 정보가 포함될 수 있다. 일 실시 예에 의한 비언어 정보 검출부(122)는 음성 인식 단계에서 검출된 비언어 정보에 대해 추가적으로, 비언어 정보에 대한 검출 조건에 기초하여 비언어 정보를 음성 인식된 제1 언어 기반 텍스트에 삽입할지 여부를 결정할 수 있다.

비언어 정보 검출부(122)에서 검출된 비언어 정보는 가중치 제어부(123)로 전달될 수 있다.

가중치 제어부(123)는 비언어 정보에 기초하여, 소정의 텍스트 구간에 대한 확률 값을 조정할 수 있다. 가중치 제어부(123)는 확률 정보에 적용될 가중치를 획득하고, 비언어 정보에 기초하여, 획득된 가중치를 확률 정보의 확률 값에 적용시킬 수 있다. 가중치 값은 미리 설정된 값일 수 있다. 예를 들면, 가중치 값은, 번역 모델, 언어 모델 등의 데이터 베이스를 구축하는데 이용될 수 있는 텍스트 코퍼스에 기초하여, 최적의 번역 성능이 기대될 수 있는 값으로 결정될 수 있다. 또한, 가중치 값은 번역 결과에 대한 사용자의 피드백에 기초하여 결정될 수 있다. 또한, 가중치 값은 발화자에 따라 서로 다른 값이 결정될 수 있다. 예를 들면, 발화자에 따라 서로 다른 텍스트 코퍼스에 기초하여 결정된 가중치 값이 이용될 수 있다.

번역부(124)는 비언어 정보를 포함한 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 의한 번역부(124)는 비언어 정보에 기초하여 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다.

예를 들면, 번역부(124)는 비언어 정보를 포함하는 구간에 대한 확률 정보를 비언어 정보에 기초하여 결정할 수 있다. 번역부(124)는 각 구간의 확률 정보에 기초하여, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 구할 수 있다. 적어도 하나의 제2 언어 기반 텍스트는, 각 구간의 확률 정보에 기초하여 결정된 확률 값을 가질 수 있다. 확률 값에 기초하여, 적어도 하나의 제2 언어 기반 텍스트의 우선 순위가 결정될 수 있고, 번역부(124)는 우선 순위에 따라, 적어도 하나의 제2 언어 기반 텍스트를 번역 결과로 출력할 수 있다.

확률 정보에 따라 각 구간과 대응되는 제2 언어 기반 텍스트의 확률 값이 달라지므로, 서로 다른 번역 결과가 출력될 수 있다. 따라서, 확률 정보가 결정되는 것은, 번역 성능에 상당한 영향을 줄 수 있다. 일 실시 예에 의하면, 비언어 정보에 기초하여, 발화자의 발화 의도에 맞게 확률 값이 조정됨에 따라 번역 성능이 향상될 수 있다.

번역부(124)는 결정된 확률 정보에 따라 번역을 수행함으로써, 제2 언어 기반의 텍스트를 생성할 수 있다.

음성 합성부(125)는 번역부(124)에 의해 생성된 제2 언어 기반 텍스트를 음성으로 변환하고, 변환된 음성 신호를 출력할 수 있다. 음성 신호는 전자 디바이스(100)에 구비된 스피커 또는 전자 디바이스(100) 외부에 존재하는 스피커 장치를 통해 출력될 수 있다. 일 실시 예에 의하면, 음성 합성부(125)는 TTS(text-to-speech) 기술을 이용하여 제2 언어 기반 텍스트를 음성 신호로 변환할 수 있다. 음성 합성부(125)는 제1 언어 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 주파수, 발화 속도 등의 비언어적인 특성을 고려하여, 제1 언어 음성 신호와 대응되도록 제2 언어 기반 텍스트의 음성 신호를 생성할 수 있다.

도 3은 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다.

일 실시 예에 의하면, 도 3에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.

도 3을 참조하면, 단계 S310에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호를 수신할 수 있다. 일 실시 예에서 제1 언어 기반의 음성 신호는 전자 디바이스(100)에서 다른 언어로 번역하고자 하는 음성 신호이며, 마이크를 통해 전자 디바이스(100)로 수신될 수 있다.

단계 S320에서, 전자 디바이스(100)는 단계 S310에서 수신한 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환할 수 있다. 전자 디바이스(100)는 음성 인식의 결과로서 제1 언어 기반의 음성 신호와 대응되는 제1 언어 기반의 텍스트를 생성할 수 있다. 일 실시 예에서 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 포함된 비언어 정보를 검출하고, 검출된 비언어 정보를 제1 언어 기반의 텍스트에 추가할 수 있다. 예를 들면, 제1 언어 기반 텍스트 중 비언어 정보가 검출된 구간에 비언어 정보를 나타내는 태그가 추가될 수 있다.

단계 S330에서, 전자 디바이스(100)는 제1 언어 기반의 텍스트에 포함된 비언어 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 비언어 정보에 기초하여 제1 언어 기반의 텍스트의 각 구간에 대한 확률 정보를 결정하고, 결정된 확률 정보를 이용하여, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 획득할 수 있다.

일 실시 예에서, 번역 결과로 출력된 제2 언어 기반의 텍스트는 음성 신호로 변환된 후, 스피커를 통해 출력될 수 있다.

도 4는 일 실시 예에 의한 제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법을 나타낸 순서도이다. 도 4에 도시된 번역 방법은, 비언어 정보에 기초하여, 제1 언어 기반 텍스트의 적어도 하나의 구간에 대한 확률 정보가 결정되는 단계를 더 포함할 수 있다. 도 4의 단계 S410 및 S420은 도 3의 단계 S310 및 S320과 각각 대응될 수 있다.

일 실시 예에 의하면, 도 4에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.

도 4를 참조하면, 단계 S410에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호를 수신할 수 있다.

단계 S420에서, 전자 디바이스(100)는 단계 S410에서 수신한 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를 비언어 정보가 포함된 제1 언어 기반의 텍스트로 변환할 수 있다.

단계 S430에서, 전자 디바이스(100)는 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득할 수 있다. 예를 들면, 전자 디바이스(100)는 번역 모델에 확률 정보가 존재하는 텍스트인지에 따라, 제1 언어 기반의 텍스트를 적어도 하나의 구간으로 분할할 수 있다.

일 실시 예에 의하면, 동일한 경우의 수에서는, 제1 언어 기반 텍스트에서 분할된 구간은 다른 분할된 구간과 겹치지 않도록 분할될 수 있다. 예를 들면, 제1 언어 기반의 텍스트가 "나는 너를 사랑해"라는 텍스트를 포함하고, 번역 모델에 "나는 너를 사랑해", "나는", "너를" 및 "사랑해"에 대한 확률 정보가 존재하는 경우, 제1의 경우의 수에서, "나는 너를 사랑해"가 하나의 구간으로 분할된 후, 번역이 수행될 수 있다. 또한, 제2의 경우의 수에서, "나는", "너를" 및 "사랑해"가 각각 다른 구간으로 분할된 후, 번역이 수행될 수 있다. 각각의 경우의 수에서, 번역이 수행된 결과, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트가 획득될 수 있다.

단계 S440에서, 전자 디바이스(100)는 비언어 정보에 기초하여, 적어도 하나의 구간에 대한 확률 정보를 결정할 수 있다. 일 실시 예에 의하면, 비언어 정보에 기초하여, 전자 디바이스(100)는 번역 모델에 기초하여 획득된 확률 값을 다른 값으로 결정할 수 있다. 예를 들면, 전자 디바이스(100)는 비언어 정보에 기초하여, 확률 값에 가중치를 적용시킬 수 있다.

전자 디바이스(100)는 비언어 정보에 기초하여, 각 구간의 확률 정보를 결정함에 따라, 발화자의 의도에 가까운 번역 결과를 출력할 수 있으므로, 보다 향상된 성능으로 음성 번역을 수행할 수 있다.

단계 S450에서, 전자 디바이스(100)는 단계 S440에서 결정된 확률 정보에 기초하여, 제1 언어 기반의 텍스트를 제2 언어로 번역할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 비언어 정보에 기초하여 결정된 확률 정보에 따라서, 제1 언어 기반 텍스트와 대응되는 적어도 하나의 제2 언어 기반 텍스트를 획득할 수 있다.

적어도 하나의 제2 언어 기반 텍스트는, 단계 S440에서 결정된 확률 값을 가질 수 있다. 전자 디바이스(100)는 제2 언어 기반 텍스트의 확률 값에 따라 번역 결과로 출력할 제2 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 가장 큰 확률 값을 가진 제2 언어 기반의 텍스트가 번역 결과로 출력될 수 있다. 일 실시 예에서, 번역 결과로 출력된 제2 언어 기반의 텍스트는 음성 신호로 변환된 후, 스피커를 통해 출력될 수 있다.

도 5는 일 실시 예에 의한 음성 인식을 수행하는 방법의 일 예를 나타낸 도면이다.

일 실시 예에 의하면, 도 5에 도시된 음성 인식을 수행하는 방법은 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.

도 5를 참조하면, 특징 추출 단계(510)에서는, 입력된 발화자의 음성 신호로부터 특징 정보가 추출될 수 있다. 입력된 음성 신호 중 실제 발화자가 발성한 음성 신호 부분만이 검출되어, 음성 신호의 특징을 나타낼 수 있는 정보가 추출될 수 있다. 음성 신호의 특징을 나타내는 정보는, 예를 들면, 음성 신호가 속하는 파형(waveform)에 따라 입 모양 또는 혀의 위치를 나타낼 수 있는 정보를 포함할 수 있다.

일 실시 예에 의하면, 비언어 정보는 음성 인식 과정 중 특징 추출 단계(510)에서 검출될 수도 있다. 예를 들면, 비언어 정보와 대응되는 음성 신호의 특징이 검출됨에 따라, 비언어 정보가 검출될 수 있다.

또한, 비언어 정보를 검출하기 위한 발음 사전(550) 및 언어 모델(560) 등과 같은 리소스 없이도, 비언어 정보는 비언어 정보를 검출하기 위한 조건 정보에 기초하여 검출될 수 있다. 비언어 정보를 검출하기 위한 조건 정보는, 예를 들면, 음성 신호의 발성 구간, 묵음 구간, 음성 높낮이, 강도, 발화 속도, 주파수 등을 나타내는 음성 신호의 비언어적인 특성에 대한 조건 정보를 포함할 수 있다. 따라서, 일 실시 예에 의하면, 비언어 정보를 검출하기 위한 발음 사전(550) 및 언어 모델(560) 등과 같은 리소스 없이도, 포즈, 간투어, 강조 어휘 등의 비언어 정보가 검출될 수 있다.

검출된 비언어 정보는 비언어 정보를 나타내는 태그로 음성 인식 결과인 후보 시퀀스에 포함될 수 있다. 비언어 정보를 나타내는 태그는, 비언어 정보를 검출하기 위한 조건에 기초하여, 후보 시퀀스 중에서 결정된 제1 언어의 텍스트에 삽입될 수 있다.

검색 단계(520)에서는, 음향 모델(540), 발음 사전(550) 및 언어 모델(560) 중 적어도 하나에 기초하여, 특징 추출 단계(510)에서 추출된 특징 정보로부터 음성 신호와 대응되는 후보 시퀀스가 검색될 수 있다. 후보 시퀀스는 음성 신호의 발화 내용과 대응되는 텍스트로 구성될 수 있다. 일 실시 예에 의한 후보 시퀀스는, 텍스트뿐만 아니라 비언어 정보를 나타내는 태그를 더 포함할 수 있다.

음향 모델(540)은 음성 신호의 특징 정보로부터 발음열, 문자열, 단어열 등을 검출하기 위한 확률 정보들을 포함할 수 있다. 일 예로, 음향 모델(540)은 특징 정보와 대응될 수 있는 발음열, 문자열, 단어열 등에 관한 확률 정보들을 포함할 수 있다. 음향 모델(540)에 포함된 확률 정보는, 음성 신호 및 발음열, 문자열, 단어열 등이 서로 대응되는 정도를 나타낼 수 있다. 확률 정보에 따라 적어도 하나의 발음열, 문자열, 단어열 등은, 음성 신호와 대응되는 후보열로 결정될 수 있다.

음향 모델(540)은 도 4에 도시된 바와 같이 많은 양의 음성 데이터를 포함하는 음성 DB(database, 541)로부터 통계적인 방법, 예를 들면, HMM(hidden markov model) 추정(estimation) 과정(542)을 통해 생성될 수 있다. 음향 모델(540)은 불특정 다수의 발화 데이터로부터 생성될 수도 있고, 특정 발화자로부터 수집된 발화 데이터로부터 생성될 수도 있다. 따라서, 발화자에 따라 개별적으로 적용될 수 있는 음향 모델(540)이 이용될 수 있다.

음향 모델(540)은 특징 정보와 대응될 수 있는 적어도 하나의 문자열이나 단어열을 직접 검출하기 위한 확률 정보를 포함할 수 있다. 이 경우, 음향 모델(540)은 HMM을 이용한 추정 과정(542) 대신, 많은 양의 음성 DB(541)를 바탕으로 신경망(neural network)이 훈련(training)됨으로써 생성된, 문자열 또는 단어열에 대한 확률 정보를 포함할 수 있다. 일 실시 예에서, 전자 디바이스(100)가 음향 모델(540)을 통해 발음열이 아닌 문자열이나 단어열을 직접 검출하는 경우, 후술될 발음 사전(550)을 명시적으로 이용하지 않을 수 있다.

발음 사전(550)은 음향 모델(540)을 통해 검출된 후보열과 대응되는 단어를 획득하기 위한 정보들을 포함할 수 있다. 일 실시예에서, 발음 사전(550)은 각 단어에 대한 음운변화 현상을 고려하여 획득된 발음열들로부터 구축될 수 있다. 발음 사전(550)은 각각의 발음열과 대응되는 단어들의 쌍으로 구성될 수 있다. 단어의 발음은 단어의 앞뒤 단어 또는 문장 상 위치, 발화자의 특성 등에 따라 변경될 수 있어 일관적이지 않을 수 있다. 따라서, 발음 사전(550)에서, 하나의 단어에 대하여 대응되는 발음열, 또는 하나의 발음열에 대하여 대응되는 단어는 각각 복수 개 존재할 수 있다. 또한, 음성 신호와 대응되는 발음열 및 발음 사전(550)에 따라 발음열로부터 변환된 단어열들은 복수 개 존재할 수 있다. 발음 사전(550) 역시, 음향 모델(540)과 마찬가지로, 발화자에 따라 구축된 데이터가 서로 다를 수 있으므로, 발화자에 따라 개별적으로 구축되고 사용될 수 있다.

일 실시 예에 의한 발음 사전(550)은 비언어 정보를 포함하는 단어에 대한 정보를 더 포함할 수 있다. 도 3에 도시된 발음 사전의 데이터(552)를 참조하면, 단어 '어'와 대응되는 발음열 'AA', 'AX' 뿐만 아니라, 단어 '어/[간투어]', 예를 들어, 간투어로서의 '어'와 대응되는 발음열 정보가 존재할 수 있다. 또한, 발음 사전의 데이터(552)에는, 포즈 발생 구간을 나타내는 태그인 '[포즈]'와 대응되는 발음열 정보가 존재할 수 있다. 음향 모델(540)로부터 추출된 음성 신호의 발음열은, 발음 사전(550)에 기초하여 단어 또는 비언어 정보를 포함하는 단어열로 변환될 수 있다. 따라서, 비언어 정보를 검출할 수 있는 발음 사전(550)이 이용됨으로써, 음성 인식 결과, 비언어 정보를 포함하는 후보 시퀀스가 생성될 수 있다.

일 실시 예에서, 음향 모델(540)을 통해 발음열이 아닌 문자열이나 단어열이 직접 검출되는 경우, 음향 모델(540)은 비언어 정보를 포함한 단어열 또는 문자열을 포함할 수 있다. 따라서, 음향 모델(540)에 기초하여 획득된 문자열 또는 단어열은 비언어 정보를 더 포함할 수 있다.

언어 모델(560)은 앞 뒤 문맥에 따른 단어의 확률 정보를 포함할 수 있다.

예를 들어, 언어 모델(560)은, 단어 B에 대한 확률 정보로써, 단어 A가 출현한 경우를 조건으로, 단어 B가 출현할 확률에 관한 정보인 P(B|A)를 포함할 수 있다. 또 다른 예로, 언어 모델(560)은 단어 B에 대한 확률 정보로서, 단어 A 및 C가 출현한 경우를 조건으로, 예를 들어, 복수 개의 단어가 출현하는 것을 조건으로 하는 단어 B에 대한 확률 정보인 P(B|A C)를 포함할 수 있다. 또 다른 예로, 언어 모델(560)은 단어 B에 대한 출현 확률 정보 P(B)를 포함할 수도 있다. P(B)는 단어 B가 음성 인식 시 출현할 확률을 나타낼 수 있다.

언어 모델(560)의 데이터의 일 예(563)를 참조하면, 공백(<s>)이나, '전화' 등의 단어들이 출현한 경우를 조건으로, '전화', '음', '어' 등이 각각 출현할 확률에 관한 정보들이 존재할 수 있다. 단어열들에 대한 언어 모델(560)의 확률 정보는 각 단어열을 구성하는 어휘에 대한 언어 모델(560)의 확률 정보에 기초하여 결정될 수 있다. 또한, 단어열에 대한 확률 정보에 따라 각 단어열에 대한 순위가 결정될 수 있고, 단어열의 순위에 따라 후보 시퀀스가 결정될 수 있다. 예를 들면, 단어열의 순위에 따라 적어도 하나의 단어열이 후보 시퀀스로 결정될 수 있다. 또한, 후보 시퀀스 중에서, 비언어 정보의 검출 조건에 따라 비언어 정보가 포함된 제1 언어의 텍스트가 최종 획득될 수 있다.

언어 모델(560)은 텍스트들의 말뭉치들인 텍스트 코퍼스(561)로부터 N-그램(gram) 추정(estimation, 562) 방식을 통해 구축될 수 있다. N-그램 추정 방식에 한하지 않고, 언어 모델(560)은 다양한 방식으로 구축될 수 있다.

언어 모델(560) 구축시 이용되는 텍스트 코퍼스(561)는 개별 사용자에 따라 다른 데이터를 포함할 수 있다. 예를 들면, 개별 사용자에 의해 선택되거나 사용된 적이 있는 텍스트 코퍼스(561)가 언어 모델(560)의 구축에 이용될 수 있다. 따라서, 일 실시 예에 의하면, 발화자 정보에 따라 서로 다른 언어 모델(560)이 이용될 수도 있다. 이에 한하지 않고, 언어 모델(560)은 사용자 또는 발화자의 구분없이 텍스트 코퍼스(561)에 기초하여 구축되고, 음성 인식을 위해 사용될 수 있다.

추가로, 후보 시퀀스에 기초하여, 발음 사전(550)에 대한 업데이트(551)가 수행될 수 있다. 예를 들어, 후보 시퀀스에 포함된 단어 및 각 단어와 대응되는 발음열 쌍 중 발음 사전(550)에 포함되어 있지 않은 쌍이 존재하는 경우, 발음 사전(550)이 업데이트될 수 있다. 예를 들면, 특징 추출 단계(510)에서 추출된 특징 정보에 기초하여 검출되었거나, 이외 다른 방법으로 검출된 비언어 정보 중 발음 사전(550)에 포함되어 있지 않은 비언어 정보가 후보 시퀀스에 포함되어 있을 수 있다. 따라서, 발음 사전(550)에 포함되어 있지 않은 비언어 정보는 발음 사전(550)에 새롭게 추가될 수 있다.

이하 도 6 및 도 7을 참조하여, 음성 인식 단계에서, 제1 언어 기반의 텍스트에 비언어 정보로서 포즈 또는 간투어 정보를 추가하는 방법에 대하여 더 자세히 설명하기로 한다. 일 실시 예에 의하면, 도 6 및 도 7에 도시된 방법은, 도 1에 도시된 전자 디바이스(100)에 의해 수행될 수 있다.

도 6은 일 실시 예에 의한 포즈 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타내는 순서도이다.

도 6을 참조하면, 단계 S610에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써 적어도 하나의 후보 시퀀스를 획득할 수 있다. 일 실시 예에 있어서, 전자 디바이스(100)는 음성 인식 수행 시 비언어 정보를 검출할 수 있는 발음 사전(550) 및 언어 모델(560) 등을 이용할 수 있다. 따라서, 전자 디바이스(100)는 음성 인식 결과로 비언어 정보를 포함하는 후보 시퀀스를 획득할 수 있다.

예를 들어, 도 6의 단계 S610에 도시된 바와 같이, 후보 시퀀스에서 포즈가 발생한 지점에 포즈를 나타내는 태그가 포함될 수 있다. 포즈 태그를 포함한 어휘가 발음 사전(550) 또는 언어 모델(560)에 포함됨으로써, 포즈 태그를 포함한 후보 시퀀스가 획득될 수 있다. 또는, 특징 추출 단계(510)에서, 포즈와 대응되는 특징이 추출된 경우, 후보 시퀀스에 포즈가 발생한 지점을 나타내는 태그가 삽입될 수 있다.

일 예로, 도 6에 도시된 바와 같이 동일한 음성 신호 구간에 대한 후보 시퀀스로서, "Bob [포즈] [포즈] and ...", "Bobo and [포즈] ..." 및 "Bobby ..." 가 획득될 수 있다.

단계 S620에서, 전자 디바이스(100)는 후보 시퀀스가 포즈 태그를 포함하는지 여부를 판단할 수 있다. 후보 시퀀스가 포즈 태그를 포함하는 경우, 단계 S630에서, 전자 디바이스(100)는 포즈 태그가 배제된 후보 시퀀스에 대한 언어 모델(560)에 따른 확률 값을 구하기 위해, 후보 시퀀스에서 포즈 태그를 배제시킬 수 있다. 예를 들어, 포즈 태그가 배제된 후보 시퀀스로 "Bob and ... ", "Bobo and ..."가 획득될 수 있다.

단계 S640에서, 전자 디바이스(100)는 포즈 태그가 배제된 후보 시퀀스에 대하여, 언어 모델(560)에 기초한 리스코링(rescoring)을 수행할 수 있다. 전자 디바이스(100)는 언어 모델(560)을 이용하여, 포즈 태그가 배제된 후보 시퀀스의 확률 값을 다시 구할 수 있다. 예를 들면, 포즈 태그가 배제된 "Bob and ... ", "Bobo and ..."에 대하여, 언어 모델(560)에 기초한 확률 값이 다시 획득될 수 있다. 전자 디바이스(100)는 다시 구한 후보 시퀀스에 대한 확률 정보와, 다른 후보 시퀀스의 확률 값을 비교하여, 언어 모델(560)에 기초한 리스코링을 수행할 수 있다. 리스코링 결과, 확률 값에 기초하여, 각 후보 시퀀스에 대한 우선 순위가 결정될 수 있다.

포즈 태그와 같은 비언어 정보는 텍스트로 표현되지 않는 정보이므로, 텍스트 코퍼스(561)로 수집되기 어려울 수 있다. 따라서, 언어 모델(560)에 포함된 비언어 정보를 포함한 텍스트의 확률 값의 정확도는 다른 텍스트의 확률 값의 정확도에 비해 낮을 수 있다. 음성 인식 단계(S610)에서 획득된 후보 시퀀스의 확률 값은, 포즈 태그를 포함한 후보 시퀀스의 확률 값이므로, 전자 디바이스(100)는 포즈 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구할 수 있다. 전자 디바이스(100)는 다시 구한 확률 값에 기초하여, 후보 시퀀스 중 제1 언어 기반의 텍스트를 결정할 수 있다.

단계 S650에서, 전자 디바이스(100)는 리스코링을 통해 결정된 우선 순위에 기초하여, 단계 S610에서 획득된 후보 시퀀스 중에서 제1 언어 기반의 텍스트를 결정할 수 있다. 일 실시 예에 의하면, 전자 디바이스(100)는 리스코링 결과인 각 후보 시퀀스의 우선 순위에 기초하여, 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 우선 순위가 가장 높은 후보 시퀀스인 "Bob and"가 제1 언어 기반의 텍스트로 결정될 수 있다.

단계 S660에서, 전자 디바이스(100)는 단계 S650에서 결정된 제1 언어 기반의 텍스트 및 음성 신호에 대하여, 포즈 검출 조건을 만족하는지 여부를 판단할 수 있다. 단계 S650에서 결정된 제1 언어 기반 텍스트 중 포즈 검출 조건을 만족하는 지점이 존재하는지 판단될 수 있다. 예를 들면, 단계 S630에서, 포즈 태그가 배제된 후보 시퀀스인 "Bob and"가 제1 언어 기반의 텍스트로 결정된 경우, 포즈 태그가 배제된 지점이 포즈 검출 조건을 만족하는지 여부가 판단될 수 있다. 단계 S610에서 검출된 포즈 태그는 단계 S630에서 배제되었으나, 전자 디바이스(100)는 포즈 검출 조건에 기초하여, 배제되었던 포즈 태그를 제1 언어 기반의 텍스트에 추가할 수 있다.

포즈 검출 조건은 예를 들면, 포즈가 발생된 구간의 길이, 포즈가 발생된 횟수 등을 포함할 수 있다. 포즈가 발생된 것으로 판단된 구간이 충분히 길지 않은 경우, 발화자에 의해 의도된 포즈가 아닌 것으로 판단될 수 있다. 또한, 소정 구간에서 반복적으로 발생된 포즈는 발화자가 의미 구분을 위하여 의도한 포즈가 아닌 발화 습관에 의한 것으로, 의도된 포즈는 아닌 것으로 판단될 수 있다.

단계 S670에서, 전자 디바이스(100)는 상술된 포즈 검출 조건을 고려하여, 단계 S650에서 결정된 제1 언어 기반의 텍스트에 포즈 태그를 추가할 수 있다. 예를 들면, 음성 신호 및 각 제1 언어 기반의 텍스트가 포즈 검출 조건을 만족하는 경우에, 전자 디바이스(100)는 제1 언어 기반의 텍스트에 포즈 태그를 추가할 수 있다.

단계 S670에서 포즈 태그가 추가된 제1 언어 기반의 텍스트 또는 포즈 검출 조건을 만족하지 않음에 따라 포즈 태그가 추가되지 않은 제1 언어 기반의 텍스트는 음성 인식 결과로써 출력될 수 있다.

예를 들어, 단계 S650에서 결정된 제1 언어 기반의 텍스트가 "Bob and ..." 인 경우, 전자 디바이스(100)는 제1 언어 기반의 텍스트가 포즈 검출 조건을 만족하는지를 판단할 수 있다. 전자 디바이스(100)는 판단 결과에 따라, 제1 언어 기반의 텍스트로 "Bob [포즈] and ..." 또는 "Bob and ..."을 획득할 수 있다.

제1 언어 기반의 텍스트는 하나만 결정되지 않고, n-베스트(best) 결과로써 복수 개의 제1 언어 기반의 텍스트가 음성 인식 결과로 출력될 수 있다. 각 제1 언어 기반의 텍스트는 언어 모델(560)에 기초한 확률 값을 가질 수 있다. 제1 언어 기반의 텍스트들은 번역 단계에서 각각 제2 언어로 번역될 수 있고, 각 제1 언어 기반의 텍스트와 대응되는 제2 언어 기반의 텍스트가 번역 결과로서 생성될 수 있다. 음성 인식 결과로서 n-베스트로 출력된 각 제1 언어 기반의 텍스트들에 대한 번역 결과인 제2 언어 기반의 텍스트에 대하여, 최종 스코어가 결정될 수 있다. 제2 언어 기반의 텍스트의 최종 스코어는 언어 모델에 기초한 확률 값 및 번역 모델에 기초한 확률 값에 기초하여 결정될 수 있다. 최종 스코어는 번역 결과로 생성된 텍스트가 음성 신호의 번역 결과로서 일치하는 정도를 나타낼 수 있다. 일 실시 예에 의하면, 최종 스코어가 가장 높은 제2 언어 기반의 텍스트가 음성 번역의 결과로서 음성 변환된 후 출력될 수 있다.

도 7은 일 실시 예에 의한 간투어 정보를 제1 언어 기반의 텍스트에 추가하는 방법을 나타내는 순서도이다.

단계 S710에서, 전자 디바이스(100)는 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써 적어도 하나의 후보 시퀀스를 획득할 수 있다.

예를 들어, 비언어 정보가 간투어 정보를 포함하는 경우, 도 6에 도시된 바와 같이, 후보 시퀀스는 간투어를 나타내는 태그를 포함할 수 있다. 일 실시 예에 의하면, 간투어 태그를 포함한 어휘가 발음 사전(550) 또는 언어 모델(560)에 포함됨으로써 음성 인식 단계에서 간투어 태그를 포함한 후보 시퀀스가 획득될 수 있다.

예를 들면, 도 7에 도시된 바와 같이, 동일한 음성 신호 구간에 대한 후보 시퀀스로서, "어 그러니까" 및 "어:[간투어] 그러니까" 가 획득될 수 있다. "어:[간투어]"는 "어"라는 어휘가 간투어인 것으로 판단되었음을 나타낸다.

단계 S720에서, 전자 디바이스(100)는 후보 시퀀스가 간투어 태그를 포함하는지 여부를 판단할 수 있다. 후보 시퀀스가 간투어 태그를 포함하는 경우, 단계 S730에서, 전자 디바이스(100)는 간투어가 포함되지 않은 후보 시퀀스에 대해 언어 모델(560)에 기초한 확률 값을 구하기 위해, 후보 시퀀스에서 간투어를 배제시킬 수 있다. 간투어 태그도 간투어와 함께 배제될 수 있다.

단계 S740에서, 전자 디바이스(100)는 간투어가 배제된 후보 시퀀스에 대하여, 언어 모델(560)에 기초한 리스코링(rescoring)을 수행할 수 있다. 전자 디바이스(100)는 언어 모델(560)을 이용하여 간투어가 배제된 후보 시퀀스의 확률 값을 다시 구할 수 있다. 예를 들면, 간투어 및 간투어 태그가 포함되지 않은 "그러니까"에 대한 확률 값이 다시 획득될 수 있다. 전자 디바이스(100)는 다시 구한 후보 시퀀스의 확률 값과, 다른 후보 시퀀스의 확률 값을 비교하여, 언어 모델(560)에 기초한 리스코링을 수행할 수 있다. 리스코링 결과, 확률 값에 기초하여, 각 후보 시퀀스에 대한 우선 순위가 결정될 수 있다.

간투어 태그를 포함한 비언어 정보는 텍스트로 표현되지 않는 정보이므로, 텍스트 코퍼스(561)로 수집되기 어려울 수 있다. 따라서, 언어 모델(560)의 비언어 정보를 포함한 텍스트의 확률 값의 정확도는 다른 텍스트의 확률 값에 비해 낮을 수 있다. 음성 인식 단계(S710)에서 획득된 후보 시퀀스의 확률 값은, 간투어 태그를 포함한 후보 시퀀스의 확률 값이므로, 전자 디바이스(100)는 간투어 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구할 수 있다. 전자 디바이스(100)는 후보 시퀀스 중 간투어 태그를 포함하지 않은 후보 시퀀스의 확률 값을 다시 구하고, 다시 구한 확률 값에 기초하여, 후보 시퀀스 중 제1 언어 기반의 텍스트를 결정할 수 있다.

단계 S750에서, 전자 디바이스(100)는 리스코링을 통해 결정된 우선 순위에 기초하여, 단계 S710에서 획득된 후보 시퀀스 중에서 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 전자 디바이스(100)는 리스코링 결과인 각 후보 시퀀스의 우선 순위에 기초하여, 제1 언어 기반의 텍스트를 결정할 수 있다. 예를 들면, 우선 순위가 가장 높은 후보 시퀀스인 "그러니까"가 제1 언어 기반의 텍스트로 결정될 수 있다.

단계 S760에서, 전자 디바이스(100)는 단계 S750에서 결정된 제1 언어 기반의 텍스트 및 음성 신호에 대하여, 간투어 검출 조건을 만족하는 구간이 존재하는지 여부를 판단할 수 있다. 예를 들면, 단계 S730에서, 간투어 및 간투어 태그가 배제된 후보 시퀀스가 제1 언어 기반의 텍스트로 결정된 경우, 간투어 및 간투어 태그가 배제된 구간이 간투어 검출 조건을 만족하는지 여부가 판단될 수 있다. 단계 S710에서 검출된 간투어 태그 및 간투어는 단계 S730에서 배제됨에 따라, 전자 디바이스(100)는 간투어 검출 조건에 기초하여, 단계 S780에서 간투어 및 간투어 태그를 제1 언어 기반 텍스트에 추가할 수 있다.

간투어 검출 조건은, 예를 들면, 발성의 높낮이, 발성의 길이 등을 포함할 수 있다. 일 예로, 간투어로 판단된 구간의 발성이 낮거나 긴 경우, 간투어 검출 조건을 만족하는 것으로 판단될 수 있다. 상술된 예에 한하지 않고, 간투어 검출 조건은 다양한 조건을 포함할 수 있다.

제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는 경우, 단계 S780에서, 전자 디바이스(100)는 간투어 및 간투어 태그를 제1 언어 기반의 텍스트에 추가할 수 있다. 간투어가 추가된 제1 언어 기반의 텍스트는 음성 인식 결과로서 출력될 수 있다.

한편, 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하지 않는 경우, 단계 S770에서, 전자 디바이스(100)는 음성 인식 단계(S710)에서 간투어가 검출된 빈도수가 기준값을 초과하는지 여부를 판단할 수 있다. 전자 디바이스(100)는 단계 음성 인식 단계(S710)에서 간투어 태그가 포함된 후보 시퀀스가 획득된 횟수가 기준값을 초과하는지 여부를 판단할 수 있다. 간투어가 검출된 빈도수가 기준값을 초과하는 경우, 단계 S790에서 전자 디바이스(100)는 발음 사전(550)에 간투어를 새로 등록할 수 있다. 발음 사전(550)에 새로 등록될 수 있는 간투어는 발음 사전(550) 대신 특징 추출 단계 등에서 검출될 수 있는 간투어가 포함될 수 있다. 추가적으로, 단계 S790에서 발음 사전(550)에 등록된 간투어가 단계 S760에서 간투어로 판단될 수 있도록, 전자 디바이스(100)는 단게 S760의 간투어 검출 조건을 갱신할 수 있다. 간투어는 발화자에 따라 다양한 형태로 발음될 수 있는 점을 고려하여, 전자 디바이스(100)는 반복적으로 검출되나 간투어 검출 조건은 만족하지 않는 간투어를 발음 사전(550)에 등록해 둘 수 있다.

간투어 검출 조건을 만족하는 구간을 포함하지 않는 제1 언어 기반 텍스트는, 간투어 태그가 추가되지 않고 음성 인식 결과로 출력될 수 있다. 예를 들어, 단계 S730에서, 간투어가 배제된 제1 언어 기반 텍스트의 경우, 제1 언어 기반 텍스트에 음성 인식 단계(S710)에서 간투어로 검출되었던 텍스트만 추가되고, 간투어 태그는 추가되지 않을 수 있다.

예를 들어, 단계 S750에서 결정된 제1 언어 기반의 텍스트가 단계 S730에서 간투어 '어'가 배제된 "그러니까" 인 경우, 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는지 여부를 판단할 수 있다. 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하는 경우, 제1 언어 기반의 텍스트로 "어:[간투어] 그러니까"를 획득할 수 있다. 전자 디바이스(100)는 제1 언어 기반의 텍스트가 간투어 검출 조건을 만족하는 구간을 포함하지 않는 경우, 간투어 '어'가 단계 S730에서 배제되기 전의 텍스트인 "어 그러니까"를 획득할 수 있다. 도 5 및 도 6에서 설명한 실시예들은 제1 언어 기반의 텍스트에 포함된 비언어 정보가 포즈 또는 간투어 정보를 포함하는 경우에 한하지 않고, 다양한 형태의 비언어 정보를 포함하는 경우에도 적용될 수 있다. 예를 들면, 비언어 정보가 강조 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보 등을 포함하는 경우에도 도 6 및 도 7의 실시예가 적용될 수 있다.

도 8은 일 실시 예에 의한 제1 언어 기반의 텍스트에 대하여 번역을 수행하는 방법을 나타낸 예시 도면이다.

도 8에 도시된 번역부(124) 및 가중치 제어부(123)는 도 1의 번역부(124) 및 가중치 제어부(123)와 대응될 수 있다.

도 8을 참조하면, 제1 언어 기반의 텍스트 f는 번역부(124)에 의해 제2 언어로 번역될 수 있고, 번역 결과로서 제2 언어 기반 텍스트 e가 출력될 수 있다.

번역부(124)는 번역 모델(141) 및 언어 모델(142)의 확률 값에 기초하여, 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역할 수 있다. 번역 모델(141)에 기초하여 제1 언어 f가 제2 언어 e로 번역될 확률인 P(e|f)가 획득될 수 있다. 언어 모델(142)은 e에 인접한 단어를 조건으로, 제2 언어 e가 출현할 확률인 P(e)를 포함할 수 있다. 도 5에 도시된 언어 모델(560)은 제1 언어에 대한 확률 정보를 포함하나, 도 8의 언어 모델(142)은 제2 언어에 대한 확률 정보를 포함할 수 있다.

제2 언어의 언어 모델(142)은 제1 언어의 언어 모델(560)과 마찬가지로, 제2 언어의 텍스트 코퍼스에 기초하여 구축될 수 있다. 또한, 번역 모델(141)은 제1 언어와 제2 언어에 대한 병렬 코퍼스에 기초하여 구축될 수 있다.

번역부(124)는 번역 모델(141) 및 언어 모델(142)에 기초하여 아래 수학식 1에 따라 제2 언어 기반 텍스트 e 를 적어도 하나 획득할 수 있다.

수학식 1에서, pLM(e)는 언어 모델(142)로부터 획득된 확률 값을 나타낸다. p(f|e)는 번역 모델(141)로부터 획득될 수 있는 확률 값을 나타낸다.

수학식 1에서, i 값은 제2 언어 기반 텍스트 또는 제1 언어 기반 텍스트를 구성하는 텍스트들의 인덱스 값을 나타낸다. 어휘, 구절, 문장 등에 대하여 서로 다른 인덱스 값이 부여될 수 있다. 일 실시 예에서, 인덱스 값은 번역 모델(141)에 존재하는 어휘, 구절 등에 대해 부여될 수 있다.

수학식 1에 의하면, 소정 구간에 대한 적어도 하나의 p(e|f) 값 중 최대값인 p(e|f)의 제2 언어 기반 텍스트 e 가 번역 결과로 출력될 수 있다.

일 실시 예에 의하면, 제1 언어 기반 텍스트가 분할된 구간과 대응되는 적어도 하나의 제2 언어 기반 텍스트에 대하여, 수학식 1의 p(e|f)에 기초한 확률 값이 획득될 수 있다. 획득된 확률 값은, 비언어 정보에 기초하여, 조정될 수 있다. 그리고, 조정된 확률 값에 기초하여, 번역 결과로 출력될 제2 언어 기반 텍스트 e가 결정될 수 있다.

가중치 제어부(123)는 비언어 정보에 기초하여, 수학식 1에 의한 확률 값에 가중치를 적용할 수 있다. 예를 들어, 가중치 제어부(123)는 포즈를 포함한 구간에 대한 적어도 하나의 p(e|f) 값에 미리 저장된 가중치 값을 적용시킬 수 있다. 가중치 값이 확률 값에 적용됨으로써, 비언어 정보에 기초하여 확률 값이 조정될 수 있다.

발화자에 의해 의도된 포즈는 의미를 구분하기 위한 것인 점에서, 포즈를 포함하는 구간은 우선적으로 번역되지 않도록 함이 바람직하다. 일 실시 예에 의하면, 포즈를 포함하는 구간에 대한 확률 값에 가중치 값이 적용됨으로써, 포즈를 포함하는 구간의 확률 값은 낮은 값으로 조정될 수 있다. 포즈를 포함하는 구간의 확률 값이 조정됨에 따라, 번역 결과로 출력되는 제2 언어 기반 텍스트 e가 변경될 수 있다.

일 실시 예에서, 번역 모델(141) 또는 언어 모델(142)은, 비언어 정보를 포함한 제2 언어 기반 텍스트에 대한 확률 값을 포함할 수 있다. 예를 들면, 번역 모델(141) 또는 언어 모델(142)에, 포즈 태그 또는 간투어 태그가 포함된 제2 언어 기반 텍스트에 대한 확률 값이 존재할 수 있다. 비언어 정보를 포함한 제2 언어 기반 텍스트의 확률 값에는 비언어 정보에 기초한 확률 값의 조정이 이미 반영되어 있는 것으로 취급될 수 있다. 따라서, 획득된 확률 값이, 비언어 정보를 포함한 제2 언어 기반 텍스트에 대한 값인 경우, 비언어 정보에 기초한 확률 값의 조정은 수행되지 않을 수 있다.

도 9는 일 실시 예에 따른 포즈 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.

도 9를 참조하면, 음성 인식 결과로 생성된 영문 텍스트인 "They invited Bob [pause] and Bill and Al got rejected"를 한국어로 번역할 수 있다. 영문 텍스트는, Bob과 and 사이 또는 and에 대하여, 포즈 태그인 [pause]를 포함할 수 있다.

단계 910 내지 913은 및 단계 914 내지 917은 각각 서로 다른 경우의 수로 번역된 결과를 나타낸 것이다. 전자 디바이스(100)는 단계 910 내지 917을 포함한 다양한 방법으로 번역을 수행할 수 있다. 각각의 경우의 수에 대한 번역 결과로, 제2 언어 기반 텍스트 및 이에 대한 확률 값이 획득될 수 있다.

도 9를 참조하면, 아래 방향으로 인접한 어휘들이 하나씩 결합되면서, 번역이 수행될 수 있다. 영문 텍스트 중에서, "Bob and Bill" 또는 "invieted Bob"이 먼저 번역되는 경우, 도 9에 도시된 바와 같이 번역이 수행될 수 있다. 도 9에 도시된 방법 외에도 제1 언어 기반 텍스트들의 각 구간들이 서로 다른 순서 또는 조합으로 결합됨에 따라 번역이 수행될 수 있다. 예를 들어, 전자 디바이스(100)는 영문 텍스트 중 "They invited"를 먼저 번역할 수도 있다.

일 실시 예에 의한 전자 디바이스(100)는, 다양한 번역 방법에 따라 획득된 적어도 하나의 제2 언어 기반 텍스트 중 확률 값이 가장 높은 제2 언어 기반 텍스트를 번역 결과로 출력할 수 있다.

단계 910 내지 917에서, 각 구간에 대한 확률 정보가 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 획득될 수 있다. 각 구간에 대한 확률 정보는 상술된 수학식 1을 통해 획득될 수 있다. 일 실시 예에 의하면, 각 구간에 대해 획득된 적어도 하나의 확률 값은, 비언어 정보에 기초하여 조정된 값으로 결정될 수 있다.

단계 910은 "Bob and Bill"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. "Bob and Bill"과 대응되는 제2 언어 기반 텍스트인 "밥과 빌"과, "밥과 빌"에 대한 확률 값이 획득될 수 있다. "밥과 빌" 말고도, "Bob and Bill"과 대응되는 다른 제2 언어 기반 텍스트가 더 획득될 수도 있다.

일 실시 예에 의하면, "Bob and Bill"의 구간은 [pause] 태그를 포함하므로, "Bob and Bill"의 구간과 대응되는 제2 언어 기반 텍스트인 "밥과 빌"에 대한 확률 값이 조정될 수 있다. 예를 들면, "밥과 빌"에 대한 확률 값은 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다.

단계 911는, 제1 언어 기반 텍스트 중 "Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "Bob and Bill"이 먼저 번역된 경우, "Bob and Bill"에 인접한 구간인 "invited" 또는 "and"와, "Bob and Bill"이 결합될 수 있다. 따라서, "invited" 및 "Bob and Bill"이 결합된 구간과, "Bob and Bill" 및 "and"가 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "invited Bob and Bill" 및 "Bob and Bill and"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.

결합된 구간의 제2 언어 기반 텍스트는 각 구간과 대응되는 제2 언어 기반 텍스트의 결합으로 획득될 수 있다. 예를 들면, "을 초대하"와 "밥과 빌"의 결합인 "밥과 빌을 초대하"는, "invited" 및 "Bob and Bill"이 결합된 구간에 대한 제2 언어 기반 텍스트로 획득될 수 있다. "밥과 빌을 초대하"에 대한 확률 값은, "을 초대하" 및 "밥과 빌"의 확률 값에 기초하여 결정될 수 있다. 예를 들면, "을 초대하" 및 "밥과 빌"의 확률 값을 곱한 값이 "밥과 빌을 초대하"의 확률 값으로 결정될 수 있다. 그러나, 일 실시예에서, "밥과 빌"의 확률 값은 [pause] 태그로 인해 [pause] 태그가 없는 경우보다 더 낮은 값으로 조정됨에 따라, "밥과 빌을 초대하"의 확률 값도, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.

단계 912는, 제1 언어 기반 텍스트 중 "invited Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "invited Bob and Bill"이 먼저 번역된 경우, 인접한 구간인 "They" 또는 "and"가 "invited Bob and Bill"과 결합될 수 있다. 결합 구간 중 하나인, "They invited Bob and Bill"의 제2 언어 기반 텍스트로 "그들은 밥과 빌을 초대하"가 획득될 수 있다.

"그들은 밥과 빌을 초대하"의 확률 값은, "그들은" 및 "밥과 빌을 초대하"의 확률 값에 기초하여 결정될 수 있다. "그들은"의 확률 값은 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 각각 획득될 수 있다. "밥과 빌을 초대하"의 확률 값은, 상술된 단계 911에서 결정된 값이다. 그러나, 일 실시예에서, "밥과 빌을 초대하"의 확률 값이, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정됨에 따라, "밥과 빌을 초대하"의 확률 값에 기초한, "그들은 밥과 빌을 초대하"의 확률 값은, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.

이하 단계에서도, "Bob and Bill"이 먼저 결합되어 번역이 수행되는 경우에 대한 확률 값들은, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다. 따라서, "Bob and Bill"이 먼저 결합되지 않은 경우에 대한 확률 값은 "Bob and Bill"이 먼저 결합되어 번역이 수행되는 경우에 대한 확률 값보다 더 높은 값을 가질 수 있다. 또한, "Bob and Bill"이 먼저 결합되지 않은 경우에 대한 제2 언어 기반 텍스트가 번역 결과로 최종 선택될 가능성이 높아질 수 있다.

단계 913는, 제1 언어 기반 텍스트 중 "They invited Bob and Bill"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "They invited Bob and Bill"이 먼저 번역된 경우, 인접한 구간인 "and"가 "They invited Bob and Bill"과 결합될 수 있다. 결합된 구간인, "They invited Bob and Bill and"의 제2 언어 기반 텍스트로 "그들은 밥과 빌을 초대하고"가 획득될 수 있다.

단계 910 내지 913에서 설명한 번역 방법에 따라, 제1 언어 기반 텍스트인, "They invited Bob and Bill and"와 대응되는 적어도 하나의 제2 언어 기반 텍스트와, 각 제2 언어 기반 텍스트의 확률 값이 획득될 수 있다. "그들은 밥과 빌을 초대하고"의 확률 값은, 상술한 바와 마찬가지로, "밥과 빌"의 확률 값에 기초하므로, [pause] 태그가 없는 경우보다 더 낮은 값으로 결정될 수 있다.

한편, 단계 914는 "Bob and Bill" 대신 "invited Bob"에 대한 결합이 먼저 수행된 경우를 나타낸 것이다. "invited Bob"과 대응되는 제2 언어 기반 텍스트인 "밥을 초대하"와, "밥을 초대하"에 대한 확률 값이 획득될 수 있다. "밥을 초대하" 말고도, "invited Bob"과 대응되는 제2 언어 기반 텍스트(예를 들면, "밥을 초청해", "밥을 부르" 등)가 더 획득할 수도 있다.

일 실시 예에 의하면, "invited Bob"은 "Bob and Bill"과는 달리 [pause] 태그를 포함하지 않으므로, 번역 모델(141)에 기초하여 획득된 확률 값은 조정되지 않을 수 있다. 따라서, 일 실시 예에 의하면, "밥과 빌"에 대한 확률 값보다 "밥을 초대하"에 대한 확률 값이 더 클 수 있다.

단계 915는, "invited Bob"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "invited Bob"이 먼저 번역된 경우, 인접한 구간인 "They" 또는 "and"가 결합될 수 있다. 따라서, "They" 및 "invited Bob"이 결합된 구간과, "invited Bob" 및 "and"가 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "They invited Bob" 및 "invited Bob and"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.

일 실시 예에 의하면, "invited Bob and" 구간은 [pause] 태그를 포함하므로, "invited Bob and"의 구간과 대응되는 제2 언어 기반 텍스트인 "밥을 초대하고"에 대한 확률 값이 조정될 수 있다. 예를 들면, "밥을 초대하고"에 대한 확률 값은 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다. "invited Bob and" 구간의 확률 값들은 [pause] 태그에 의해 조정되므로, "invited Bob and"와 결합된 구간의 확률 값도 [pause] 태그를 포함하지 않는 경우에 비해 더 낮은 값으로 결정될 수 있다.

단계 916은, "They invited Bob"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "They invited Bob"이 먼저 번역된 경우, 인접한 구간인 "and"가 결합될 수 있다.

일 실시 예에 의하면, "They invited Bob and" 구간은 [pause] 태그를 포함하므로, "They invited Bob and"의 구간과 대응되는 제2 언어 기반 텍스트인 "그들은 밥을 초대하고"에 대한 확률 값이 조정될 수 있다. 다만, "Bob and Bill"과 같이 [pause] 태그를 포함한 구간이 먼저 번역되는 경우의 확률 값보다, "They invited Bob and" 구간에 대한 확률 값이 더 높아지도록 조정됨이 바람직하다.

일 실시 예에 의하면, [pause] 태그를 포함한 구간이 먼저 번역된 경우의 확률 값보다, [pause] 태그를 포함한 구간이 나중에 번역된 경우의 확률 값이 상대적으로 더 높아질 수 있다. 따라서, [pause] 태그를 포함한 구간이 나중에 번역된 경우의 제2 언어 기반 텍스트가 최종 번역 결과로 출력될 수 있다.

일 실시 예에 의하면, 결합된 구간이 [pause] 태그가 포함하는 경우, 결합된 구간의 제2 언어 기반 텍스트에 대한 확률 값이 조정될 수 있다. 따라서, 의미를 구분하고자 하는 발화자의 의도에 따라 번역문이 생성될 수 있다.

도 10은 일 실시 예에 따른 간투어 태그를 포함한 제1 언어 기반 텍스트를 제2 언어 기반 텍스트로 번역하는 일 예를 나타낸 도면이다.

도 10을 참조하면, 음성 인식 결과로 생성된 한국어 텍스트인 "어:[간투어] 그러니까:[간투어] 내가 음:[간투어] 널 좋아하는 것 같아"가 영어로 번역될 수 있다. 간투어 태그는 [간투어]로 표시될 수 있고, 간투어로 판단된 어휘에 대하여 태깅될 수 있다. 텍스트 중 ":[간투어]" 표시는 대응되는 어휘가 간투어에 해당됨을 나타낸다. 도 9에 도시된 바와 같이, 간투어 태그는 "어", "그러니까", "음"에 대하여 태깅될 수 있다.

단계 1010 내지 1012 및 단계 1021 내지 1023는 각각 서로 다른 경우의 수로 번역된 결과를 나타낸 것이다. 전자 디바이스(100)는 도 10에 도시된 예에 한하지 않고, 다양한 방법으로 번역을 수행할 수 있다. 각각의 경우의 수에 대한 번역 결과로, 제2 언어 기반 텍스트 및 이에 대한 확률 값이 획득될 수 있다.

도 10를 참조하면, 아래 방향으로 인접한 어휘들이 하나씩 결합되면서, 번역이 수행될 수 있다. 한국어 텍스트 중에서, "내가 음:[간투어] 널 좋아하는"이 먼저 번역되는 경우, 도 10에 도시된 바와 같이 번역이 수행될 수 있다. 도 10에 도시된 방법 외에도 제1 언어 기반 텍스트들의 각 구간들이 서로 다른 순서 또는 조합으로 결합됨에 따라 번역이 수행될 수 있다. 예를 들어, 전자 디바이스(100)는 한국어 텍스트 중 "것 같아"를 먼저 번역할 수도 있다.

단계 1010 내지 1012 및 단계 1021 내지 1023에서, 각 구간에 대한 확률 정보가 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 획득될 수 있다. 각 구간에 대한 확률 정보는 상술된 수학식 1을 통해 획득될 수 있다. 일 실시 예에 의하면, 각 구간에 대해 획득된 확률 정보는, 비언어 정보에 기초하여 조정된 확률 값으로 결정될 수 있다.

단계 1010는, "내가 음 널 좋아하는"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트인 "I like you well"과, "I like you well"에 대한 확률 값이 획득될 수 있다. "I like you well" 말고도, "내가 음 널 좋아하는"과 대응되는 다른 제2 언어 기반 텍스트가 더 획득될 수도 있다.

일 실시 예에 의하면, "내가 음 널 좋아하는"의 구간은 [간투어] 태그를 포함하므로, "내가 음 널 좋아하는"의 구간과 대응되는 제2 언어 기반 텍스트인 "I like you well"에 대한 확률 값이 조정될 수 있다. 간투어인 "음"이 다른 어휘의 의미 분석에 영향을 주지 않는 제2 언어의 간투어로 번역될 수 있도록, 확률 값이 조정될 수 있다.

예를 들면, "I like you well"에서, 간투어인 "음"이 다른 어휘의 의미 분석에 영향을 줄 수 있는 간투어가 아닌 "well"로 번역되어 있으므로, "I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 텍스트의 확률 값에 비해 더 낮은 값으로 결정될 수 있다. "내가 음 널 좋아하는"과 대응되는, 다른 제2 언어 기반 텍스트로 "I uh like you"가 획득된 경우, 간투어인 "음"이 제2 언어의 간투어인 "uh"로 번역되어 있으므로, "I uh like you"의 확률 값은, 상술된 "I like you well"의 확률 값에 비해 더 높은 값으로 결정될 수 있다.

단계 1011은, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는"이 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는"이 먼저 번역된 경우, "내가 음 널 좋아하는"에 인접한 구간인 "것 같아" 또는 "어 그러니까"가, "내가 음 널 좋아하는"과 결합될 수 있다. 따라서, "내가 음 널 좋아하는" 및 "것 같아"가 결합된 구간과, "어 그러니까" 및 "내가 음 널 좋아하는"이 결합된 구간의 제2 언어 기반 텍스트와 확률 값이 각각 획득될 수 있다. 결합 구간인 "어 그러니까 내가 음 널 좋아하는" 및 "내가 음 널 좋아하는 것 같아"는 각각 다른 경우의 수로 취급되어, 각 경우에 대한 번역이 별개로 수행될 수 있다.

결합된 구간의 제2 언어 기반 텍스트는 각 구간과 대응되는 제2 언어 기반 텍스트의 결합으로 획득될 수 있다. 예를 들면, "I like you well"과 "I think"의 결합인 "I think I like you well"은, "내가 음 널 좋아하는" 및 "것 같아"가 결합된 구간에 대한 제2 언어 기반 텍스트로 획득될 수 있다. "I think I like you well"에 대한 확률 값은, "I think" 및 "I like you well"의 확률 값에 기초하여 결정될 수 있다. 예를 들면, "I think" 및 "I like you well"의 확률 값을 곱한 값이 "I think I like you well"의 확률 값으로 결정될 수 있다. 그러나, 일 실시예에서, "I think I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정됨에 따라, "I think I like you well"의 확률 값도, "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다.

단계 1012는, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 인접한 구간인 "어 그러니까"가 "내가 음 널 좋아하는 것 같아"와 결합될 수 있다. 결합 구간인, "어 그러니까 내가 음 널 좋아하는 것 같아"의 제2 언어 기반 텍스트로 "uh so I think I like you well"이 획득될 수 있다.

"uh so I think I like you well"의 확률 값은, "uh so" 및 "I think I like you well"의 확률 값에 기초하여 결정될 수 있다. "I think I like you well"의 확률 값은 상술된 단계 1011에서 결정된 값이다. 그러나, 일 실시 예에서, "I think I like you well"의 확률 값이 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정됨에 따라, "I think I like you well"에 기초한, "uh so I think I like you well"의 확률 값은 "well" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다.

"uh so"의 확률 값은 번역 모델(141) 및 언어 모델(142) 중 적어도 하나에 기초하여 각각 획득될 수 있다. 그러나, "어 그러니까"는 [간투어] 태그를 포함하므로, "어 그러니까"와 대응되는 제2 언어 기반 텍스트인 "uh so"의 확률 값이 조정될 수 있다. 예를 들면, "uh so"에서, 간투어인 "그러니까"가 다른 어휘의 의미 분석에 영향을 줄 수 있는 "so"로 번역되어 있으므로, "uh so"의 확률 값은 "so" 대신 간투어를 포함하는 제2 언어 기반 텍스트의 확률 값에 비해 더 낮은 값으로 결정될 수 있다.

일 실시예에 의하면, "음:[간투어]"이 "well"로 번역되었거나, "그러니까:[간투어]"가 "so"로 번역된 제2 언어 기반 텍스트에 대한 확률 값들은, "so" 대신 간투어가 포함된 다른 제2 언어 기반 텍스트의 확률 값보다 더 낮은 값으로 결정될 수 있다. 따라서, "음:[간투어]"이 "well"로 번역되었거나, "그러니까:[간투어]"가 "so"로 번역된 경우에 대한 확률 값은 "음:[간투어]"이 제2 언어의 간투어인 "uh"로 번역되었거나, "그러니까:[간투어]"가 제2 언어의 간투어인 "uh"로 번역된 경우에 대한 확률 값보다 더 낮은 값을 가질 수 있다. 또한, "음:[간투어]"이 제2 언어의 간투어인 "uh"로 번역되었거나, "그러니까:[간투어]"가 제2 언어의 간투어인 "uh"로 번역된 제2 언어 기반 텍스트가 번역 결과로 최종 선택될 가능성이 높아질 수 있다.

간투어는 발화자에 의해 의미 없이 발성된 단어로 간주함이 바람직하다. 그러나, 간투어로 판단되는 단어는 번역문에서 의미를 가지는 단어인 "so" 또는 "well"로 번역될 수 있다. 간투어가 제2 언어 중 의미를 가지는 단어로 번역되면, 번역된 단어가 다른 어휘에 대한 번역에 영향을 줄 수 있다. 수학식 1에 의한 확률 값은 제2 언어에 대한 언어 모델에 기초하여 획득될 수 있으므로, 번역된 단어는 인접한 다른 어휘의 번역에 영향을 줄 수 있다. 따라서, 간투어를 무의미하게 번역하고자 하는 발화자의 의도와는 다른 번역 결과가 생성될 수 있다. 일 실시 예에 의하면, 간투어로 판단된 어휘는 다른 어휘의 번역에 영향이 없도록 각 구간에 대한 확률 값을 조정함으로써, 번역 성능이 보다 향상될 수 있다.

단계 1021 내지 1023은, 제1 언어 기반 텍스트에서 간투어인 구간을 배제하고, 번역을 수행하는 방법을 나타낸 것이다.

단계 1021은, "내가 음 널 좋아하는"을 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. 간투어인 "음"이 배제된 "내가 널 좋아하는"에 대한 제2 언어 기반 텍스트가 번역 모델(141) 및 언어 모델(142) 등에 기초하여 획득될 수 있다. 예를 들어, "내가 널 좋아하는"에 대한 제2 언어 기반 텍스트로 "I like you" 및 이에 대한 확률 값이 획득될 수 있다. 제2 언어 기반 텍스트로 획득된 "I like you"에, 배제된 간투어와 대응되는 제2 언어의 간투어가 추가될 수 있다. 따라서, "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트로, "I uh like you"가 획득될 수 있다.

단계 1010 내지 1012와는 달리, 단계 1021 내지 1023에서는, 간투어를 배제하고 번역이 수행됨에 따라, 간투어 태그에 의한 제2 언어 기반 텍스트의 확률 값이 조정되지 않을 수 있다.

단계 1022는 "내가 음 널 좋아하는 것 같아"를 포함하는 구간이 먼저 번역되는 경우를 나타낸 것이다. 간투어인 "음"이 배제된 "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트가 획득될 수 있다. 예를 들어, "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트로 "I think I like you" 및 이에 대한 확률 값이 획득될 수 있다. "I think I like you"의 확률 값은, 단계 1021에서 획득된 "I like you"에 대한 확률 값 및 "I think"에 대한 확률 값에 기초하여 결정될 수 있다.

제2 언어 기반 텍스트로 획득된 "I think I like you"에, 배제된 간투어와 대응되는 제2 언어의 간투어가 추가될 수 있다. 따라서, "내가 음 널 좋아하는"과 대응되는 제2 언어 기반 텍스트로, "I think I uh like you"가 획득될 수 있다.

단계 1023은, 제1 언어 기반 텍스트 중 "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 다음 단계에서의 번역을 나타낸 것이다. "내가 음 널 좋아하는 것 같아"가 먼저 번역된 경우, 인접한 구간인 "어 그러니까"가 "내가 음 널 좋아하는 것 같아"와 결합될 수 있다. 간투어인 "어 그러니까"와 "음"이 배제된 "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트가 획득될 수 있다. 그러나, "내가 널 좋아하는 것 같아"에 대한 제2 언어 기반 텍스트는 단계 1022에서 이미 획득된 상태이다. 따라서, "어 그러니까 내가 음 널 좋아하는 것 같아"의 제2 언어 기반 텍스트는 단계 1022에서 획득된 제2 언어 기반 텍스트에 제2 언어의 간투어인 "uh"가 추가됨에 따라 "uh uh I think I uh like you"이 획득될 수 있다.

"uh uh I think I uh like you"에 대한 확률 값은, 제1 언어 기반 텍스트에서 간투어가 배제된 채로 확률 정보가 결정됨에 따라 단계 1022에서 이미 획득된 제2 언어 기반 텍스트의 확률 정보와 동일하게 결정될 수 있다.

상술된 단계 1021 내지 1023과 같이, 전자 디바이스(100)가 제1 언어 기반 텍스트에서 간투어를 배제하고 번역을 수행하는 경우, 간투어로 인한 오역을 최소화하면서 번역을 수행할 수 있다.

일 실시 예에 의하면, 입력된 음성 신호에 포함된 비언어 정보를 고려하여 음성 번역이 수행됨으로써, 음성 번역 성능이 향상될 수 있다.

한편, 상술한 실시예는, 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터에 의해 판독 가능한 매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 실시예에서 사용된 데이터의 구조는 컴퓨터 판독 가능 매체에 여러 수단을 통하여 기록될 수 있다. 또한, 상술한 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로 구현될 수 있다. 예를 들어, 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 컴퓨터가 읽고 실행할 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체에 저장될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 기록 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체는 마그네틱 저장매체, 예를 들면, 롬, 플로피 디스크, 하드 디스크 등을 포함하고, 광학적 판독 매체, 예를 들면, 시디롬, DVD 등과 같은 저장 매체를 포함할 수 있으나, 이에 제한되지 않는다. 또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.

또한, 컴퓨터가 읽을 수 있는 복수의 기록 매체가 네트워크로 연결된 컴퓨터 시스템들에 분산되어 있을 수 있으며, 분산된 기록 매체들에 저장된 데이터, 예를 들면 프로그램 명령어 및 코드가 적어도 하나의 컴퓨터에 의해 실행될 수 있다.

본 개시에서 설명된 특정 실행들은 일 실시예 일 뿐이며, 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 및 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다.

본 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

"부", "모듈"은 어드레싱될 수 있는 저장 매체에 저장되며 프로세서에 의해 실행될 수 있는 프로그램에 의해 구현될 수도 있다.

예를 들어, "부", "모듈" 은 소프트웨어 구성 요소들, 객체 지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들에 의해 구현될 수 있다.

Claims

제1 언어 기반의 음성 신호를 제2 언어로 번역하는 방법에 있어서,
상기 제1 언어 기반의 음성 신호를 수신하는 단계;
상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계; 및
상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는 단계를 포함하고,
상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보(non-verbal)가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계는,
상기 비언어 정보를 배제하고 상기 음성 인식을 수행함으로써 상기 제1 언어 기반의 텍스트를 획득하는 단계; 및
상기 음성 신호로부터 상기 비언어 정보를 검출하기 위한 조건 정보를 기초로 상기 배제된 비언어 정보를 상기 제1 언어 기반의 텍스트에 부가하는 단계를 포함하고,
상기 비언어 정보를 포함하는 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 방법.
제1항에 있어서, 상기 비언어 정보는
강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈에 관한 정보 및 간투어에 관한 정보 중 적어도 하나를 포함하는, 방법.
제1항에 있어서, 상기 번역하는 단계는
상기 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하는 단계;
상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에 대한 확률 정보를 결정하는 단계; 및
상기 확률 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는 단계를 포함하는, 방법.
제3항에 있어서, 상기 확률 정보를 결정하는 단계는
상기 적어도 하나의 구간과, 상기 적어도 하나의 구간에 인접한 구간을 결합하는 단계; 및
상기 결합된 구간이 상기 비언어 정보를 포함하는지 여부에 기초하여, 상기 결합된 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
제3항에 있어서, 상기 확률 정보를 결정하는 단계는
상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간 중 간투어(hesitation word)를 포함하는 구간을 식별하는 단계; 및
상기 간투어가 상기 제2 언어의 간투어로 번역되도록, 상기 간투어를 포함하는 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
제3항에 있어서, 상기 확률 정보를 결정하는 단계는
상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에서 간투어를 포함한 구간을 배제하는 단계; 및
상기 간투어를 포함한 구간이 배제된 적어도 하나의 구간에 대한 확률 정보를 결정하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 음성 인식을 수행함으로써, 제1 언어 기반의 음성 신호를, 상기 비언어 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하는 단계는
상기 음성 신호와 대응되는 적어도 하나의 제1 언어 기반의 후보 시퀀스를 획득하는 단계;
상기 획득된 적어도 하나의 후보 시퀀스에 포함된 비언어 정보를 배제하는 단계;
상기 비언어 정보가 배제된 적어도 하나의 후보 시퀀스 각각에 대하여, 언어 모델에 기초한 확률 정보를 획득하는 단계; 및
상기 획득된 확률 정보에 기초하여, 상기 적어도 하나의 후보 시퀀스 중 적어도 하나의 후보 시퀀스를 상기 제1 언어 기반의 텍스트로 결정하는 단계를 포함하는, 방법.
삭제
제1 언어 기반의 음성 신호를 제2 언어로 번역하는 전자 디바이스에 있어서,
상기 제1 언어 기반의 음성 신호를 수신하는 수신부;
상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어(non-verbal) 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하고, 상기 비언어 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 제2 언어로 번역하는 프로세서; 및
상기 제2 언어로 번역된 결과를 출력하는 출력부를 포함하고,
상기 프로세서는 상기 제1 언어 기반의 음성 신호에 대하여 음성 인식을 수행함으로써, 상기 제1 언어 기반의 음성 신호를, 비언어 정보가 포함된 상기 제1 언어 기반의 텍스트로 변환하기 위하여, 상기 비언어 정보를 배제하고 상기 음성 인식을 수행함으로써 상기 제1 언어 기반의 텍스트를 획득하고, 상기 음성 신호로부터 상기 비언어 정보를 검출하기 위한 조건 정보를 기초로 상기 배제된 비언어 정보를 상기 제1 언어 기반의 텍스트에 부가하고,
상기 프로세서는 상기 비언어 정보를 포함하는 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 전자 디바이스.
제9항에 있어서, 상기 비언어 정보는
강조된 어휘에 관한 정보, 문형에 관한 정보, 비표준어에 관한 정보, 포즈에 관한 정보 및 간투어에 관한 정보 중 적어도 하나를 포함하는, 전자 디바이스.
제9항에 있어서, 상기 프로세서는
상기 제1 언어 기반의 텍스트에서 분할된 적어도 하나의 구간을 획득하고, 상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간에 대한 확률 정보를 결정하고, 상기 확률 정보에 기초하여, 상기 제1 언어 기반의 텍스트를 상기 제2 언어로 번역하는, 전자 디바이스.
제11항에 있어서, 상기 프로세서는
상기 적어도 하나의 구간과, 상기 적어도 하나의 구간에 인접한 구간을 결합하고, 상기 결합된 구간이 상기 비언어 정보를 포함하는지 여부에 기초하여, 상기 결합된 구간에 대한 확률 정보를 결정하는, 전자 디바이스.
제11항에 있어서, 상기 프로세서는
상기 비언어 정보에 기초하여, 상기 적어도 하나의 구간 중 간투어(hesitation word)를 포함하는 구간을 식별하고, 상기 간투어가 상기 제2 언어의 간투어로 번역되도록, 상기 간투어를 포함하는 구간에 대한 확률 정보를 결정하는, 전자 디바이스.
제9항에 있어서, 상기 프로세서는
상기 음성 신호와 대응되는 적어도 하나의 제1 언어 기반의 후보 시퀀스를 획득하고, 상기 획득된 적어도 하나의 후보 시퀀스에 포함된 비언어 정보를 배제하고, 상기 비언어 정보가 배제된 적어도 하나의 후보 시퀀스 각각에 대하여, 언어 모델에 기초한 확률 정보를 획득하고, 상기 획득된 확률 정보에 기초하여, 상기 적어도 하나의 후보 시퀀스 중 적어도 하나의 후보 시퀀스를 상기 제1 언어 기반의 텍스트로 결정하는, 전자 디바이스.
제1항 내지 제7항 중 어느 한 항에 따른 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.