KR20180020368A

KR20180020368A - 통역 장치 및 방법

Info

Publication number: KR20180020368A
Application number: KR1020160104579A
Authority: KR
Inventors: 안상일; 정강식; 용현택; 최혁
Original assignee: 주식회사 하이퍼커넥트
Priority date: 2016-08-18
Filing date: 2016-08-18
Publication date: 2018-02-28
Also published as: US11227129B2; US20180052831A1; EP3500947A1; US10643036B2; JP6790234B2; KR101861006B1; JP2019534492A; US20200265197A1; EP3500947A4; WO2018034552A1

Abstract

기재된 실시예는 보다 부드럽고 반응성이 향상된 사용자 경험을 제공할 수 있는 통역 장치 및 방법에 관한 것으로서, 제1단말로부터 제1언어로 된 음성 데이터 및 적어도 하나 이상의 제2언어의 단어를 연속적으로 수신하는 단계, 음성 데이터의 재생과 함께 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 단계, 음성 데이터에 대한 음성 인식 결과에 포함된 종결된 문장의 제2언어로의 번역문을 획득하는 단계, 및 표시된 적어도 하나 이상의 제2언어의 단어 중에서 종결된 문장에 대응하는 적어도 하나 이상의 단어를 획득된 번역문으로 치환하는 단계를 포함하고, 각각의 적어도 하나 이상의 제2언어의 단어는 음성 데이터에 대한 음성 인식 결과에 포함된 각각의 단어에 대응하는 통역 방법이 제공될 수 있다.

Description

통역 장치 및 방법{DEVICE AND METHOD OF TRANSLATING A LANGUAGE INTO ANOTHER LANGUAGE}

기재된 실시예는 보다 부드럽고 반응성이 향상된 사용자 경험을 제공할 수 있는 통역 장치 및 방법에 관한 것이다.

통신 기술이 발전되고 전자 장치가 소형화됨에 따라 개인용 단말이 일반 소비자에게 널리 보급되고 있다. 특히 최근에는 스마트폰 또는 스마트 태블릿과 같은 휴대용 개인 단말이 널리 보급되고 있다. 상기 단말의 대부분은 통신 기능을 포함하고 있다. 사용자는 단말을 이용하여 인터넷에서 검색을 수행하거나 다른 사용자와 메시지를 주고받을 수 있다.

또한, 소형 카메라 기술, 소형 마이크 기술, 소형 디스플레이 기술 및 소형 스피커 기술의 발전에 따라 스마트폰과 같은 대부분의 단말에는 카메라, 마이크, 디스플레이 및 스피커가 포함되어 있다. 사용자는 단말을 이용하여 음성을 녹음하거나 음성이 포함된 동영상을 촬영할 수 있다. 사용자는 단말에 포함된 스피커를 통해 상기 녹음된 음성을 확인하거나 디스플레이를 통해 상기 촬영된 동영상을 확인할 수 있다.

또한, 사용자는 단말의 통신 기능을 이용하여 상기 녹음된 음성 또는 상기 촬영된 동영상을 다른 사용자와 공유할 수 있다. 사용자는 이전에 녹음된 음성 또는 이전에 촬영된 동영상을 다른 사용자에게 전송할 수 있다. 또한, 사용자는 단말에 의해 현재 녹음되고 있는 음성 또는 현재 촬영되고 있는 동영상을 실시간으로 다른 사용자에게 전송할 수 있다.

또한, 동시에, 상기 다른 사용자는 자신의 단말에 의해 현재 녹음되고 있는 음성 또는 현재 촬영되고 있는 동영상을 실시간으로 상기 사용자에게 전송할 수 있다. 사용자의 단말에 포함된 디스플레이는 사용자의 단말에 의해 현재 촬영되고 있는 동영상 및 다른 사용자의 단말에 의해 현재 촬영되고 있는 동영상을 동시에 표시할 수 있다. 또한, 사용자의 단말에 포함된 스피커는 다른 사용자의 단말에 의해 현재 녹음되고 있는 음성을 동시에 재생할 수 있다. 다시 말해서, 사용자 및 다른 사용자는 각자의 단말을 이용하여 서로 영상통화(video call)를 할 수 있다.

상기 사용자 및 다른 사용자는 서로 이미 아는 관계일 수도 있고, 서로 모르는 관계일 수도 있다. 상기 사용자의 단말 및 상기 다른 사용자의 단말을 포함한 복수의 단말은 서버에 연결될 수 있다. 서버는 상기 사용자의 단말 및 상기 다른 사용자의 단말 사이를 중개할 수 있다. 따라서, 상기 사용자 및 다른 사용자는 서로 모르는 관계였다고 하더라도 서버의 중개를 통해 서로 영상통화를 할 수 있다.

상기 사용자가 사용하는 언어는 상기 다른 사용자가 사용하는 언어와 서로 다를 수 있다. 영상통화를 하는 사용자들이 사용하는 언어가 서로 다를 경우, 상대방의 음성이 사용자의 단말의 스피커를 통해 재생되더라도 사용자는 상대방의 이야기를 알아듣지 못할 수 있다.

기재된 실시예에 따르면 영상통화를 하는 사용자들이 사용하는 언어가 서로 다르더라도 각자가 상대방의 이야기를 알아듣도록 할 수 있는 통역 장치 및 방법이 제공될 수 있다.

또한, 실시예에 따르면 보다 부드러운 사용자 경험을 제공할 수 있는 통역 장치 및 방법이 제공될 수 있다.

또한, 실시예에 따르면 반응성이 향상된 사용자 경험을 제공할 수 있는 통역 장치 및 방법이 제공될 수 있다.

또한, 실시예에 따르면 개선된 사용자 경험을 제공할 수 있는 통역 장치 및 방법이 제공될 수 있다.

실시예에 따른 통역 방법은, 제1단말로부터 제1언어로 된 음성 데이터 및 적어도 하나 이상의 제2언어의 단어를 연속적으로 수신하는 단계, 상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 단계, 상기 음성 데이터에 대한 음성 인식 결과에 포함된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계, 및 상기 표시된 적어도 하나 이상의 제2언어의 단어 중에서 상기 종결된 문장에 대응하는 적어도 하나 이상의 단어를 상기 획득된 번역문으로 치환하는 단계를 포함하고, 각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어에 대응할 수 있다.

또한, 상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 단계는, 상기 음성 데이터를 수신하는 도중에 현재까지 수신된 상기 음성 데이터의 적어도 일부를 연속적으로 재생하는 단계, 및 상기 적어도 하나 이상의 제2언어의 단어를 수신하는 도중에 현재까지 수신된 상기 적어도 하나 이상의 제2언어의 단어 중에서 적어도 일부를 연속적으로 표시하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 상기 번역문을 상기 제1단말 또는 제1서버로부터 수신하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계, 상기 검출된 종결된 문장을 제1서버에 전송하는 단계, 및 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계, 및 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문을 상기 제1데이터베이스로부터 획득하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계, 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하지 않는 경우, 상기 종결된 문장을 제1서버에 전송하는 단계, 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계, 및 상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스 내에 캐시(cache)하는 단계를 포함할 수 있다.

또한, 각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어의 의미와 서로 동일하거나 유사한 의미를 가질 수 있다.

다른 실시예에 따른 통역 방법은, 제1언어로 된 음성을 연속적으로 수신하는 단계, 상기 수신된 음성을 연속적으로 인코딩하는 단계, 상기 인코딩된 음성에 대한 음성 인식 결과를 연속적으로 획득하는 단계, 상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어에 대응하는 제2언어의 단어로 연속적으로 변환하는 단계, 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말에 연속적으로 전송하는 단계, 상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계, 상기 검출된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계, 및 상기 획득된 번역문을 상기 제2단말에 전송하는 단계를 포함할 수 있다.

또한, 상기 제2언어의 단어로 연속적으로 변환하는 단계는, 상기 제1언어의 어순 및 상기 제2언어의 어순 사이의 유사도를 산출하는 단계, 및 상기 산출된 유사도가 기준값보다 크면 상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어로 연속적으로 변환하는 단계를 포함하고, 상기 제2단말에 연속적으로 전송하는 단계는, 상기 산출된 유사도가 상기 기준값보다 크면 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 상기 제2단말에 연속적으로 전송하는 단계를 포함할 수 있다.

또한, 상기 제2언어의 단어로 연속적으로 변환하는 단계는, 상기 음성 인식 결과에 포함된 각각의 상기 단어를 제2서버에 전송하는 단계, 및 상기 전송된 각각의 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버로부터 수신하는 단계를 포함할 수 있다.

또한, 상기 제2언어의 단어로 연속적으로 변환하는 단계는, 제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계, 및 만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 조회된 단어에 대응하는 상기 제2언어의 단어를 상기 제2데이터베이스로부터 획득하는 단계를 포함할 수 있다.

또한, 상기 제2언어의 단어로 연속적으로 변환하는 단계는, 제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계, 만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하지 않는 경우, 상기 조회된 단어를 제2서버에 전송하는 단계, 상기 전송된 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버로부터 수신하는 단계, 및 상기 전송된 단어 및 상기 수신된 제2언어의 단어를 상기 제2데이터베이스 내에 캐시(cache)하는 단계를 포함할 수 있다.

또한, 상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계는, 상기 수신된 음성에 포함된 억양, 상기 수신된 음성에 포함된 공백 구간, 또는 상기 음성 인식 결과에 포함된 단어의 문장 성분(constituent)을 이용하여 종결점을 검출하는 단계, 및 상기 음성 인식 결과에서 이전의 종결점에 대응하는 부분의 다음 부분부터 상기 검출된 종결점에 대응하는 부분까지를 상기 종결된 문장으로 정의하는 단계를 포함할 수 있다.

또한, 상기 종결점을 검출하는 단계는, 상기 수신된 음성에서 문장의 종결에 대응하는 억양을 검출하거나, 상기 수신된 음성에서 특정한 시간을 초과하는 공백 구간을 검출하거나, 또는 상기 음성 인식 결과가 완전한 문장(full sentence)이 되기 위해 필요한 모든 문장 성분에 대응하는 단어를 포함하는지 여부를 검출함으로써 상기 종결점을 검출하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 상기 검출된 종결된 문장을 제1서버에 전송하는 단계, 및 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계, 및 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문을 상기 제1데이터베이스로부터 획득하는 단계를 포함할 수 있다.

또한, 상기 제2언어로의 번역문을 획득하는 단계는, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계, 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하지 않는 경우, 상기 종결된 문장을 제1서버에 전송하는 단계, 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계, 및 상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스 내에 캐시(cache)하는 단계를 포함할 수 있다.

또 다른 실시예에 따른 통역 방법은, 제1단말이 제1언어로 된 음성을 연속적으로 수신하는 단계, 상기 제1단말이 상기 수신된 음성을 연속적으로 인코딩하는 단계, 상기 제1단말이 상기 인코딩된 음성에 대한 음성 인식 결과를 연속적으로 획득하는 단계, 상기 제1단말이 상기 음성 인식 결과에 포함된 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계, 상기 제1단말이 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말에 연속적으로 전송하는 단계, 상기 제2단말이 상기 인코딩된 음성의 재생과 함께 상기 제2언어의 단어를 연속적으로 표시하는 단계, 상기 제1단말이 상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계, 상기 제1단말이 상기 검출된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계, 상기 제1단말이 상기 획득된 번역문을 상기 제2단말에 전송하는 단계, 및 상기 제2단말이 상기 표시된 제2언어의 단어 중에서 상기 번역문에 대응하는 단어를 상기 번역문으로 치환하는 단계를 포함할 수 있다.

실시예에 따른 통역 장치는, 제1단말로부터 제1언어로 된 음성 데이터 및 적어도 하나 이상의 제2언어의 단어를 연속적으로 수신하는 통신부, 및 상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 출력부를 포함하고, 상기 통신부는 상기 음성 데이터에 대한 음성 인식 결과에 포함된 종결된 문장의 상기 제2언어로의 번역문을 획득하고, 상기 출력부는 상기 표시된 적어도 하나 이상의 제2언어의 단어 중에서 상기 종결된 문장에 대응하는 적어도 하나 이상의 단어를 상기 획득된 번역문으로 치환하고, 각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어에 대응할 수 있다.

기재된 실시예에 따르면 영상통화를 하는 사용자들이 사용하는 언어가 서로 다르더라도 각자가 상대방의 이야기를 알아들을 수 있다.

또한, 실시예에 따르면 보다 부드러운 사용자 경험이 제공될 수 있다.

또한, 실시예에 따르면 반응성이 향상된 사용자 경험이 제공될 수 있다.

또한, 실시예에 따르면 개선된 사용자 경험이 제공될 수 있다.

도 1은 실시예에 따른 통역 장치가 동작하는 환경을 나타내는 네트워크 구성도이다.
도 2는 실시예에 따른 통역 장치의 구성을 나타내는 블록도이다.
도 3은 실시예에 따른 통역 장치에 의해 통역 방법이 수행되는 과정을 나타내는 순서도이다.
도 4는 실시예에 따른 제1단말이 제1언어로 된 음성을 연속적으로 수신하는 단계를 설명하기 위한 참고도이다.
도 5는 실시예에 따른 제1단말이 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 6은 다른 실시예에 따른 제1단말이 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 7은 또 다른 실시예에 따른 제1단말이 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 8은 또 다른 실시예에 따른 제1단말이 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 9는 실시예에 따른 제2단말이 제2언어의 단어를 연속적으로 표시하는 단계를 설명하기 위한 참고도이다.
도 10은 실시예에 따른 제2단말이 제2언어의 단어를 연속적으로 표시하는 단계를 설명하기 위한 다른 참고도이다.
도 11은 실시예에 따른 제2단말이 제2언어의 단어를 연속적으로 표시하는 단계를 설명하기 위한 또 다른 참고도이다.
도 12는 실시예에 따른 제1단말이 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 13은 실시예에 따른 제1단말이 종결된 문장의 제2언어로의 번역문을 획득하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 14는 다른 실시예에 따른 제1단말이 종결된 문장의 제2언어로의 번역문을 획득하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 15는 또 다른 실시예에 따른 제1단말이 종결된 문장의 제2언어로의 번역문을 획득하는 단계가 수행되는 과정을 나타내는 순서도이다.
도 16은 실시예에 따른 제2단말이 표시된 제2언어의 단어를 번역문으로 치환하는 단계를 설명하기 위한 참고도이다.
도 17은 실시예에 따른 제2단말이 표시된 제2언어의 단어를 번역문으로 치환하는 단계를 설명하기 위한 다른 참고도이다.
도 18은 실시예에 따른 제2단말이 표시된 제2언어의 단어를 번역문으로 치환하는 단계를 설명하기 위한 또 다른 참고도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1구성요소는 본 발명의 기술적 사상 내에서 제2구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하에서는, 도 1 내지 도 18을 참조하여 실시예에 따른 통역 장치(100, 150) 및 방법에 대해 상세히 설명하기로 한다.

도 1은 실시예에 따른 통역 장치(100, 150)가 동작하는 환경을 나타내는 네트워크 구성도이다. 도 1을 참조하면, 통역 장치(100, 150)가 동작하는 환경은 제1 통역 장치(100), 및 상기 제1 통역 장치(100)와 서로 연결된 제2 통역 장치(150)를 포함할 수 있다.

다른 실시예에 따르면, 상기 통역 장치(100, 150)가 동작하는 환경은 상기 제1 통역 장치(100) 또는 상기 제2 통역 장치(150)와 서로 연결된 제1서버(200)를 더 포함할 수 있다. 또 다른 실시예에 따르면, 상기 통역 장치(100, 150)가 동작하는 환경은 상기 제1 통역 장치(100) 또는 상기 제2 통역 장치(150)와 서로 연결된 제2서버(300)를 더 포함할 수 있다. 또 다른 실시예에 따르면, 상기 통역 장치(100, 150)가 동작하는 환경은 상기 제1 통역 장치(100) 또는 상기 제2 통역 장치(150)와 서로 연결된 제3서버(400)를 더 포함할 수 있다.

상기 통역 장치(100, 150)가 동작하는 환경은 상기 제1서버(200) 내지 제3서버(400) 중에서 어느 하나도 포함하지 않을 수 있다. 다른 실시예에 따르면, 상기 통역 장치(100, 150)가 동작하는 환경은 상기 제1서버(200) 내지 제3서버(400) 중에서 적어도 일부를 포함할 수 있다.

제1 통역 장치(100)는 단말일 수 있다. 이하에서는 설명의 편의를 위해 제1 통역 장치(100)를 가리키는 용어로서 제1 통역 장치(100) 및 제1단말(100)을 혼용하기로 한다. 제1단말(100)은 예를 들어, 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 스마트 태블릿, 스마트 워치, 이동 단말, 디지털 카메라, 웨어러블 디바이스(wearable device), 또는 휴대용 전자기기 등일 수 있다. 제1단말(100)은 프로그램 또는 애플리케이션을 실행할 수 있다.

제1단말(100)은 통신망에 연결될 수 있다. 제1단말(100)은 상기 통신망을 통해 외부의 다른 장치와 서로 연결될 수 있다. 제1단말(100)은 서로 연결된 다른 장치에 데이터를 전송하거나 상기 다른 장치로부터 데이터를 수신할 수 있다.

제1단말(100)과 연결된 통신망은 유선 통신망, 무선 통신망, 또는 복합 통신망을 포함할 수 있다. 통신망은 3G, LTE, 또는 LTE-A 등과 같은 이동 통신망을 포함할 수 있다. 통신망은 와이파이(Wi-Fi), UMTS/GPRS, 또는 이더넷(Ethernet) 등과 같은 유선 또는 무선 통신망을 포함할 수 있다. 통신망은 마그네틱 보안 전송(MST, Magnetic Secure Transmission), RFID(Radio Frequency IDentification), NFC(Near Field Communication), 지그비(ZigBee), Z-Wave, 블루투스(Bluetooth), 저전력 블루투스(BLE, Bluetooth Low Energy), 또는 적외선 통신(IR, InfraRed communication) 등과 같은 근거리 통신망을 포함할 수 있다. 통신망은 근거리 네트워크(LAN, Local Area Network), 도시권 네트워크(MAN, Metropolitan Area Network), 또는 광역 네트워크(WAN, Wide Area Network) 등을 포함할 수 있다.

도 2는 실시예에 따른 통역 장치(100, 150)의 구성을 나타내는 블록도이다. 도 2를 참조하면, 실시예에 따른 통역 장치(100, 150)는 입력부(101), 제어부(102), 저장부(103), 통신부(104), 및 출력부(105)를 포함할 수 있다.

입력부(101)는 외부로부터 신호를 수신할 수 있다. 입력부(101)는 통역 장치(100, 150)의 사용자로부터 신호를 수신할 수 있다. 또한, 입력부(101)는 외부 장치로부터 신호를 수신할 수 있다.

입력부(101)는 예를 들어, 마이크, 카메라, 키보드, 마우스, 트랙볼, 터치스크린, 버튼, 스위치, 센서, 네트워크 인터페이스, 또는 기타 입력 장치를 포함할 수 있다. 입력부(101)는 입력부(101)에 포함된 마이크를 통해 외부로부터 음성을 수신할 수 있다. 입력부(101)는 통역 장치(100, 150)의 사용자로부터 음성을 수신할 수 있다. 또한, 입력부(101)는 외부의 음성 재생 장치로부터 음성을 수신할 수 있다.

제어부(102)는 통역 장치(100, 150)의 동작을 제어할 수 있다. 제어부(102)는 통역 장치(100, 150)에 포함된 각각의 구성요소와 서로 연결될 수 있다. 제어부(102)는 통역 장치(100, 150)에 포함된 각각의 구성요소의 동작을 제어할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호에 대한 응답으로, 통역 장치(100, 150)의 동작을 제어할 수 있다.

또한, 제어부(102)는 신호를 처리할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호를 처리할 수 있다. 예를 들어, 제어부(102)는 입력부(101)에 포함된 마이크를 통해 수신된 음성을 처리할 수 있다.

또한, 제어부(102)는 연산을 수행할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호에 따라 연산을 수행할 수 있다. 제어부(102)는 입력부(101)에 의해 수신된 신호 또는 저장부(103)에 저장된 데이터를 이용하여 연산을 수행할 수 있다. 예를 들어, 제어부(102)는 입력부(101)에 포함된 마이크를 통해 수신된 음성을 인코딩할 수 있다. 제어부(102)는 연산 결과가 저장부(103)에 저장되도록 제어할 수 있다. 제어부(102)는 연산 결과가 출력부(105)에 의해 표시되도록 제어할 수 있다.

제어부(102)는 예를 들어, 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphic Processing Unit, GPU), 마이크로컨트롤러유닛(Micro Controller Unit, MCU), 또는 마이크로프로세서(microprocessor)를 포함할 수 있다.

저장부(103)는 데이터를 저장할 수 있다. 저장부(103)는 제어부(102)에 의해 수행된 연산 결과를 저장할 수 있다. 예를 들어, 저장부(103)는 제어부(102)에 의해 인코딩된 음성을 저장할 수 있다. 저장부(103)는 통신부(104)를 통해 외부로 전송할 데이터를 저장하거나 통신부(104)를 통해 외부로부터 수신된 데이터를 저장할 수 있다.

저장부(103)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 저장부(103)는 예를 들어, 플래시(flash) 메모리, ROM, RAM, EEROM, EPROM, EEPROM, 하드디스크 드라이브(HDD, Hard Disk Drive), 또는 레지스터(register) 등을 포함할 수 있다. 저장부(103)는 예를 들어, 파일 시스템, 데이터베이스, 또는 임베디드 데이터베이스 등을 포함할 수 있다.

통신부(104)는 외부에 데이터를 전송하거나 외부로부터 데이터를 수신할 수 있다. 통신부(104)는 다른 통역 장치(100, 150), 제1서버(200), 제2서버(300), 또는 제3서버(400)에 데이터를 전송할 수 있다. 통신부(104)는 다른 통역 장치(100, 150), 제1서버(200), 제2서버(300), 또는 제3서버(400)로부터 데이터를 수신할 수 있다. 통신부(104)는 제어부(102)에 의해 수행된 연산 결과를 외부에 전송할 수 있다. 또한, 통신부(104)는 저장부(103)에 저장된 데이터를 외부에 전송할 수 있다.

통신부(104)에 의해 전송될 데이터 또는 통신부(104)에 의해 수신된 데이터는 저장부(103)에 저장될 수 있다. 예를 들어, 통신부(104)는 저장부(103)에 저장된 인코딩된 음성을 제3서버(400)에 전송할 수 있다. 또한, 통신부(104)는 상기 전송에 대한 응답으로서, 상기 제3서버(400)로부터 상기 인코딩된 음성에 대한 음성 인식 결과를 수신할 수 있다.

통신부(104)는 예를 들어, 3G 모듈, LTE 모듈, LTE-A 모듈, Wi-Fi 모듈, 와이기그(WiGig) 모듈, UWB(Ultra Wide Band) 모듈, 또는 랜카드 등과 같은 원거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신부(104)는 마그네틱 보안 전송(MST, Magnetic Secure Transmission) 모듈, 블루투스 모듈, NFC 모듈, RFID 모듈, 지그비(ZigBee) 모듈, Z-Wave 모듈, 또는 적외선 모듈 등과 같은 근거리용 네트워크 인터페이스를 포함할 수 있다. 또한, 통신부(104)는 기타 네트워크 인터페이스를 포함할 수 있다.

출력부(105)는 외부에 신호를 출력할 수 있다. 출력부(105)는 예를 들어, 화면을 표시하거나, 소리를 재생하거나, 또는 진동을 출력할 수 있다. 출력부(105)는 디스플레이, 스피커, 바이브레이터, 오실레이터, 또는 기타 출력 장치를 포함할 수 있다.

출력부(105)는 화면을 표시할 수 있다. 제어부(102)는 출력부(105)가 화면을 표시하도록 출력부(105)를 제어할 수 있다. 출력부(105)는 사용자 인터페이스를 표시할 수 있다. 출력부(105)는 사용자로부터의 입력에 대한 응답으로 다른 화면을 표시할 수 있다.

출력부(105)는 데이터를 표시할 수 있다. 출력부(105)는 제어부(102)에 의해 수행된 연산 결과를 표시할 수 있다. 출력부(105)는 저장부(103)에 저장된 데이터를 표시할 수 있다. 출력부(105)는 통신부(104)에 의해 수신된 데이터를 표시할 수 있다. 예를 들어, 출력부(105)는 제3서버(400)로부터 수신된 음성 인식 결과를 표시할 수 있다.

출력부(105)는 예를 들어, LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 또는 PDP(Plasma Display Panel) 등의 평판 표시 장치를 포함할 수 있다. 출력부(105)는 곡면 디스플레이 또는 플렉서블 디스플레이(flexible display)를 포함할 수 있다. 출력부(105)는 터치스크린을 포함할 수 있다.

제2 통역 장치(150)는 단말일 수 있다. 이하에서는 설명의 편의를 위해 제2 통역 장치(150)를 가리키는 용어로서 제2 통역 장치(150) 및 제2단말(150)을 혼용하기로 한다. 제2단말(150)은 제1단말(100)과 서로 동일한 종류의 단말일 수도 있고, 서로 다른 종류의 단말일 수도 있다. 제2단말(150)은 프로그램 또는 애플리케이션을 실행할 수 있다.

제2단말(150)은 통신망에 연결될 수 있다. 제2단말(150)은 상기 통신망을 통해 외부의 다른 장치와 서로 연결될 수 있다. 제2단말(150)은 서로 연결된 다른 장치에 데이터를 전송하거나 상기 다른 장치로부터 데이터를 수신할 수 있다.

제2단말(150)은 상기 제1단말(100)과 서로 연결될 수 있다. 제2단말(150)은 상기 통신망을 통해 상기 제1단말(100)과 서로 연결될 수 있다. 제2단말(150)은 제1단말(100)에 데이터를 전송하거나 제1단말(100)로부터 데이터를 수신할 수 있다.

서로 연결된 제1단말(100) 및 제2단말(150)은 서로 메시지, 파일, 음성 데이터, 영상, 또는 동영상 등을 주고 받을 수 있다. 또한, 제1단말(100) 및 제2단말(150)은 서로 음성통화 또는 영상통화(video call)를 할 수 있다.

제1단말(100) 및 제2단말(150)은 서로 직접 데이터를 주고 받을 수 있다. 또한, 제1단말(100) 및 제2단말(150)은 제1서버(200), 제2서버(300), 제3서버(400), 또는 다른 중개 장치를 경유하여 서로 데이터를 주고 받을 수 있다.

제1단말(100)의 사용자가 사용하는 언어 및 제2단말(150)의 사용자가 사용하는 언어는 서로 동일하거나 서로 다를 수 있다. 제1단말(100)의 사용자가 사용하는 언어는 제1언어일 수 있다. 제1언어는 예를 들어, 한국어, 영어, 일본어, 중국어, 독일어, 프랑스어, 스페인어, 또는 이탈리아어 등일 수 있다. 제2단말(150)의 사용자가 사용하는 언어는 제2언어일 수 있다. 제2언어는 예를 들어, 한국어, 영어, 일본어, 중국어, 독일어, 프랑스어, 스페인어, 또는 이탈리아어 등일 수 있다. 제1언어 및 제2언어는 서로 동일하거나 서로 다를 수 있다.

제1서버(200)는 제1단말(100) 또는 제2단말(150)과 서로 연결될 수 있다. 제1서버(200)가 제1단말(100)과 서로 연결된 경우, 제1서버(200)는 제1단말(100)과 통신망을 통해 서로 데이터를 주고 받을 수 있다. 제1서버(200)가 제2단말(150)과 서로 연결된 경우, 제1서버(200)는 제2단말(150)과 통신망을 통해 서로 데이터를 주고 받을 수 있다.

제1서버(200)는 사전(dictionary) 서버일 수 있다. 제1서버(200)는 사전 서비스를 제공할 수 있다. 제1서버(200)는 제1단말(100) 또는 제2단말(150)로부터 제1언어의 단어를 수신할 수 있다. 제1서버(200)는 상기 수신된 제1언어의 단어를 이용하여 상기 제1언어의 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 제2언어의 단어를 획득할 수 있다. 제1서버(200)는 상기 획득된 제2언어의 단어를 제1단말(100) 또는 제2단말(150)에 전송할 수 있다.

제2서버(300)는 제1단말(100) 또는 제2단말(150)과 서로 연결될 수 있다. 제2서버(300)가 제1단말(100)과 서로 연결된 경우, 제2서버(300)는 제1단말(100)과 통신망을 통해 서로 데이터를 주고 받을 수 있다. 제2서버(300)가 제2단말(150)과 서로 연결된 경우, 제2서버(300)는 제2단말(150)과 통신망을 통해 서로 데이터를 주고 받을 수 있다.

제2서버(300)는 번역 서버일 수 있다. 제2서버(300)는 번역 서비스를 제공할 수 있다. 제2서버(300)는 제1단말(100) 또는 제2단말(150)로부터 제1언어로 된 문장을 수신할 수 있다. 제2서버(300)는 상기 수신된 제1언어로 된 문장을 이용하여 상기 문장의 제2언어로의 번역문을 획득할 수 있다. 제2서버(300)는 상기 획득된 번역문을 제1단말(100) 또는 제2단말(150)에 전송할 수 있다.

제3서버(400)는 제1단말(100) 또는 제2단말(150)과 서로 연결될 수 있다. 제3서버(400)가 제1단말(100)과 서로 연결된 경우, 제3서버(400)는 제1단말(100)과 통신망을 통해 서로 데이터를 주고 받을 수 있다. 제3서버(400)가 제2단말(150)과 서로 연결된 경우, 제3서버(400)는 제2단말(150)과 통신망을 통해 서로 데이터를 주고 받을 수 있다.

제3서버(400)는 음성 인식 서버일 수 있다. 제3서버(400)는 음성 인식 서비스를 제공할 수 있다. 제3서버(400)는 제1단말(100) 또는 제2단말(150)로부터 인코딩된 음성을 수신할 수 있다. 제3서버(400)는 상기 인코딩된 음성을 이용하여 음성 인식을 수행할 수 있다. 제3서버(400)는 상기 음성 인식의 결과로서 상기 인코딩된 음성을 텍스트로 변환할 수 있다. 제3서버(400)는 상기 변환된 텍스트를 제1단말(100) 또는 제2단말(150)에 전송할 수 있다.

이하에서는, 도 3 내지 도 18을 참조하여 실시예에 따른 통역 방법 내에서의 통역 장치(100, 150)의 보다 구체적인 동작에 대하여 상세히 설명하기로 한다.

도 3은 실시예에 따른 통역 장치(100, 150)에 의해 통역 방법이 수행되는 과정을 나타내는 순서도이다. 도 3을 참조하면, 실시예에 따른 통역 방법에서는, 먼저, 제1단말이 제1언어로 된 음성을 연속적으로 수신하는 단계(S100)가 수행될 수 있다.

제1단말(100)의 사용자는 제1단말(100)을 향해 제1언어로 말을 할 수 있다. 또한, 외부의 재생 장치는 제1단말(100)을 향해 제1언어로 된 음성을 재생할 수 있다. 상기 제1언어는 예를 들어, 한국어, 영어, 일본어, 중국어, 독일어, 프랑스어, 스페인어, 또는 이탈리아어 등일 수 있다.

도 4는 실시예에 따른 제1단말(100)이 제1언어로 된 음성을 연속적으로 수신하는 단계(S100)를 설명하기 위한 참고도이다. 도 4에 도시된 바와 같이, 제1단말(100)의 사용자는 제1단말(100)을 향해 영어로 말을 할 수 있다. 다시 말해서, 상기 제1언어는 영어일 수 있다. 사용자는 "I love you. Do you love me?"와 같이 영어로 된 2개의 문장을 말할 수 있다.

제1단말(100)은 제1단말(100)의 입력부(101)에 포함된 마이크를 통해 상기 제1언어로 된 음성을 연속적으로 수신할 수 있다. 제1단말(100)은 사용자가 말함과 동시에 상기 음성을 수신할 수 있다. 사용자가 말을 하면 제1단말(100)은 상기 음성을 실시간으로 수신할 수 있다. 사용자가 계속하여 말을 하는 경우, 제1단말(100)은 상기 음성을 계속하여 수신할 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제1단말(100)이 상기 수신된 음성을 연속적으로 인코딩하는 단계(S110)가 수행될 수 있다. 제1단말(100)의 제어부(102)는 입력부(101)에 의해 연속적으로 수신되고 있는 상기 음성을 인코딩할 수 있다. 상기 음성이 수신되고 있는 도중에, 제1단말(100)의 제어부(102)는 현재까지 수신된 상기 음성 중에서 적어도 일부를 연속적으로 인코딩할 수 있다.

제어부(102)는 상기 음성을 인코딩함으로써 아날로그 신호인 상기 음성을 디지털 신호인 인코딩된 음성으로 변환할 수 있다. 상기 인코딩된 음성은 저장부(103)에 저장될 수 있다. 제어부(102)는 어쿠스틱 에코 캔슬레이션(acoustic echo cancellation)을 수행함으로써 에코 현상을 줄일 수 있다.

제어부(102)는 상기 수신되고 있는 음성을 연속적으로 인코딩할 수 있다. 제어부(102)는 상기 음성이 수신됨과 동시에 상기 음성을 인코딩할 수 있다. 상기 음성이 수신되면 제어부(102)는 상기 음성을 실시간으로 인코딩할 수 있다. 상기 음성이 계속하여 수신되고 있는 경우, 제어부(102)는 상기 음성을 계속하여 인코딩할 수 있다.

다음으로, 상기 제1단말(100)이 상기 인코딩된 음성에 대한 음성 인식 결과를 연속적으로 획득하는 단계(S120)가 수행될 수 있다. 제1단말(100)의 제어부(102)는 상기 인코딩된 음성을 이용하여 음성 인식을 연속적으로 수행할 수 있다. 제어부(102)는 상기 음성 인식의 결과로서 상기 인코딩된 음성을 제1언어로 된 텍스트로 연속적으로 변환할 수 있다.

다른 실시예에 따르면, 제1단말(100)은 상기 인코딩된 음성에 대한 음성 인식 결과를 제3서버(400)로부터 연속적으로 획득할 수 있다. 제1단말(100)은 상기 인코딩된 음성을 제3서버(400)에 연속적으로 전송할 수 있다. 제3서버(400)는 음성 인식 서비스를 제공하는 서버일 수 있다. 상기 음성이 수신되고 있는 도중에, 제1단말(100)의 통신부(104)는 현재까지 인코딩된 상기 음성 중에서 적어도 일부를 상기 제3서버(400)에 연속적으로 전송할 수 있다.

제1단말(100)의 통신부(104)는 상기 인코딩된 음성을 제3서버(400)에 연속적으로 전송할 수 있다. 통신부(104)는 상기 음성이 인코딩됨과 동시에 상기 인코딩된 음성을 제3서버(400)에 전송할 수 있다. 상기 음성이 인코딩되면 통신부(104)는 상기 인코딩된 음성을 실시간으로 전송할 수 있다. 상기 음성이 계속하여 인코딩되고 있는 경우, 통신부(104)는 상기 인코딩된 음성을 계속하여 전송할 수 있다. 예를 들어, 통신부(104)는 사용자가 영어로 말한 "I love you. Do you love me?"의 2개의 문장을 순차적으로 인코딩하고 순차적으로 전송할 수 있다.

상기 인코딩된 음성의 전송에 대한 응답으로, 제1단말(100)의 통신부(104)는 제3서버(400)로부터 상기 인코딩된 음성에 대한 음성 인식 결과를 수신할 수 있다. 상기 음성이 수신되고 있는 도중에, 제1단말(100)의 통신부(104)는 제3서버(400)로부터 상기 음성 인식 결과를 연속적으로 수신할 수 있다.

통신부(104)는 상기 음성 인식 결과를 제1언어로 된 텍스트로서 수신할 수 있다. 제1언어가 영어인 경우, 통신부(104)는 상기 음성 인식 결과로서 영어로 된 텍스트를 수신할 수 있다.

제3서버(400)는 상기 인코딩된 음성이 인식됨과 동시에 상기 음성 인식 결과를 제1단말(100)에 전송할 수 있다. 상기 인코딩된 음성이 인식되면 제3서버(400)는 상기 음성 인식 결과를 실시간으로 전송할 수 있다. 상기 인코딩된 음성이 계속하여 인식되고 있는 경우, 제3서버(400)는 상기 음성 인식 결과를 계속하여 전송할 수 있다. 제1단말(100)의 통신부(104)는 상기 음성 인식 결과를 상기 제3서버(400)로부터 연속적으로 수신할 수 있다.

예를 들어, 제1단말(100)은 음성 인식 결과로서 "I love you do you love me"를 순차적으로 수신할 수 있다. 제1단말(100)은 "I"에서부터 "me"까지의 단어를 한 개씩 또는 두 개 이상씩 순차적으로 수신할 수 있다.

다음으로, 상기 제1단말(100)이 상기 음성 인식 결과에 포함된 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계(S130)가 수행될 수 있다. 예를 들어, 상기 제2언어는 한국어라고 가정하기로 한다. "I love you do you love me"에 포함된 단어 중에서 "I"는 "나는"으로 변환될 수 있다. "love"는 "애정"으로 변환될 수 있다. "you"는 "너"로 변환될 수 있다. "do"는 "하다"로 변환될 수 있다. "me"는 "나를"로 변환될 수 있다. 다시 말해서, "I love you do you love me"에 포함된 각각의 단어는 순차적으로 "나는 애정 너 하다 너 애정 나를"과 같이 변환될 수 있다.

제1단말(100)은 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 관계 없이 상기 음성 인식 결과에 포함된 각각의 단어를 상기 제2언어의 단어로 변환할 수 있다. 다른 실시예에 따르면, 제1단말(100)은 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 따라 각각의 단어를 상기 제2언어의 단어로 변환할 수 있다.

도 5는 상기 유사도에 따라 제1단말(100)이 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 방법이 수행되는 과정을 나타내는 순서도이다. 도 5를 참조하면, 먼저, 상기 제1언어의 어순 및 상기 제2언어의 어순 사이의 유사도를 산출하는 단계(S131)가 수행될 수 있다. 제1단말(100)의 제어부(102)는 상기 제1언어의 어순 및 상기 제2언어의 어순 사이의 유사도를 산출할 수 있다.

각각의 언어는 하나의 문장 내에서 주어, 목적어, 및 타동사가 배열되는 특정한 순서를 가질 수 있다. 예를 들어, 영어 또는 중국어로 된 문장 내에서 주어, 목적어, 및 타동사는 주어, 타동사, 및 목적어 순으로 배열될 수 있다. 다른 예로서, 한국어 또는 일본어로 된 문장 내에서 주어, 목적어, 및 타동사는 주어, 목적어, 및 타동사 순으로 배열될 수 있다.

제1단말(100)의 제어부(102)는 제1언어로 된 문장 내에서 주어, 목적어, 및 타동사가 배열되는 순서 및 제2언어로 된 문장 내에서 주어, 목적어, 및 타동사가 배열되는 순서를 이용하여 상기 유사도를 산출할 수 있다. 제1단말(100)의 저장부(103)는 각각의 언어로 된 문장 내에서 주어, 목적어, 및 타동사가 배열되는 순서에 대한 정보를 미리 저장할 수 있다. 제어부(102)는 상기 저장된 정보를 이용하여 상기 유사도를 산출할 수 있다.

예를 들어, 제1언어가 영어이고 제2언어가 중국어인 경우에 산출된 유사도는, 제1언어가 영어이고 제2언어가 한국어인 경우에 산출된 유사도에 비하여 높을 수 있다.

다음으로, 상기 산출된 유사도가 기준값보다 크면 상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어로 연속적으로 변환하는 단계(S132)가 수행될 수 있다. 반대로, 상기 산출된 유사도가 기준값보다 크지 않으면, 각각의 상기 단어를 상기 제2언어의 단어로 변환하는 단계(S132)는 수행되지 않을 수 있다. 제1단말(100)은 상기 산출된 유사도에 따라 각각의 상기 단어를 상기 제2언어의 단어로 변환하거나 변환하지 않을 수 있다.

상기 기준값은 예를 들어, 제1언어가 영어이고 제2언어가 한국어인 경우에 산출된 유사도와 서로 동일할 수 있다. 따라서, 만약 제1언어가 영어이고 제2언어가 중국어라면, 제1단말(100)은 상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어로 연속적으로 변환할 수 있다.

제1단말(100)은 상기 음성 인식 결과에 포함된 각각의 단어를 직접 변환할 수 있다. 다른 실시예에 따르면, 제1단말(100)은 외부의 서버를 이용하여 상기 각각의 단어를 변환할 수 있다. 도 6은 제1단말(100)이 외부의 서버를 이용하여 상기 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 방법이 수행되는 과정을 나타내는 순서도이다.

도 6을 참조하면, 먼저, 상기 음성 인식 결과에 포함된 각각의 상기 단어를 제2서버(300)에 전송하는 단계(S231)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 음성 인식 결과에 포함된 각각의 단어를 제2서버(300)에 전송할 수 있다. 제2서버(300)는 제1단말(100)로부터 상기 각각의 단어를 수신할 수 있다.

다음으로, 상기 전송된 각각의 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버(300)로부터 수신하는 단계(S232)가 수행될 수 있다. 제2서버(300)는 수신된 각각의 단어를 상기 단어에 대응하는 제2언어의 단어로 변환할 수 있다. 제1단말(100)로부터 수신된 단어의 의미는 상기 단어로부터 변환된 제2언어의 단어의 의미와 서로 동일하거나 유사할 수 있다. 제2서버(300)는 상기 변환된 제2언어의 단어를 제1단말(100)에 전송할 수 있다. 제1단말(100)은 상기 변환된 제2언어의 단어를 수신할 수 있다.

도 7은 다른 실시예에 따라 제1단말(100)이 상기 음성 인식 결과에 포함된 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계(S130)가 수행되는 과정을 나타내는 순서도이다.

도 7을 참조하면, 먼저, 제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계(S331)가 수행될 수 있다. 제1단말(100)의 저장부(103)는 상기 제2데이터베이스를 포함할 수 있다. 다른 실시예에 따르면, 상기 제2데이터베이스는 제1단말(100)의 외부에 배치될 수 있다.

상기 제2데이터베이스는 사전 데이터베이스일 수 있다. 상기 제2데이터베이스는 제1언어의 단어 및 상기 단어에 대응하는 제2언어의 단어가 저장된 관계형 데이터베이스일 수 있다. 상기 제1언어의 단어의 의미 및 상기 단어에 대응하는 제2언어의 단어의 의미는 서로 동일하거나 유사할 수 있다. 상기 제2데이터베이스에 포함된 각각의 레코드는 제1언어의 단어 및 상기 단어에 대응하는 제2언어의 단어를 포함할 수 있다.

제1단말(100)의 제어부(102)는 상기 제2데이터베이스에서 상기 음성 인식 결과에 포함된 제1언어의 단어를 조회할 수 있다. 이로써, 제어부(102)는 상기 제1언어의 단어에 대응하는 제2언어의 단어가 상기 제2데이터베이스 내에 존재하는지 여부를 판정할 수 있다.

다음으로, 만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 조회된 단어에 대응하는 상기 제2언어의 단어를 상기 제2데이터베이스로부터 획득하는 단계(S332)가 수행될 수 있다. 만약 상기 제1언어의 단어에 대응하는 레코드가 상기 제2데이터베이스에 포함된 경우, 제1단말(100)의 제어부(102)는 제2데이터베이스로부터 상기 제2언어의 단어를 획득할 수 있다.

만약 상기 제2데이터베이스가 상기 제1언어의 단어에 대응하는 레코드를 포함하지 않는 경우, 제1단말(100)은 제2서버(300)로부터 상기 제1언어의 단어에 대응하는 제2언어의 단어를 수신할 수 있다. 도 8은 또 다른 실시예에 따라 제1단말(100)이 상기 음성 인식 결과에 포함된 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계(S130)가 수행되는 과정을 나타내는 순서도이다.

도 8을 참조하면, 먼저, 제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계(S431)가 수행될 수 있다. 다음으로, 만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하지 않는 경우, 상기 조회된 단어를 제2서버(300)에 전송하는 단계(S432)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 제1언어의 단어를 제2서버(300)에 전송할 수 있다.

제2서버(300)는 제1단말(100)로부터 상기 제1언어의 단어를 수신할 수 있다. 제2서버(300)는 상기 단어를 상기 단어에 대응하는 제2언어의 단어로 변환할 수 있다. 제2서버(300)는 상기 변환된 제2언어의 단어를 제1단말(100)에 전송할 수 있다.

다음으로, 상기 전송된 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버(300)로부터 수신하는 단계(S433)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 제2서버(300)로부터 상기 제2언어의 단어를 수신할 수 있다.

다음으로, 상기 전송된 단어 및 상기 수신된 제2언어의 단어를 상기 제2데이터베이스 내에 캐시(cache)하는 단계(S434)가 수행될 수 있다. 제1단말(100)은 상기 제1언어의 단어 및 상기 수신된 제2언어의 단어를 상기 제2데이터베이스에 저장할 수 있다. 제2데이터베이스는 상기 제1언어의 단어 및 상기 수신된 제2언어의 단어를 포함하는 레코드를 새로이 생성할 수 있다. 이로써, 다음번에 제2데이터베이스에서 상기 제1언어의 단어가 조회되면 제1단말(100)이 상기 조회의 결과로서 상기 제2언어의 단어를 획득할 수 있도록 준비될 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제1단말(100)이 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말(150)에 연속적으로 전송하는 단계(S140)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말(150)에 연속적으로 전송할 수 있다. 상기 음성이 수신되고 있거나 상기 음성이 인코딩되고 있는 도중에, 통신부(104)는 현재까지 인코딩된 음성 중에서 적어도 일부를 연속적으로 전송할 수 있다. 또한, 상기 음성이 수신되고 있거나 상기 음성 인식 결과에 포함된 단어가 변환되고 있는 도중에, 통신부(104)는 현재까지 변환된 제2언어의 단어를 연속적으로 전송할 수 있다.

예를 들어, 제1단말(100)의 통신부(104)는 "I love you do you love me"에 포함된 각각의 단어에 대응하는 제2언어의 단어를 순차적으로 전송할 수 있다. 다시 말해서, 제1단말(100)은 상기 제2언어의 단어로서 "나는", "애정", "너", "하다", "너", "애정", 및 "나를"을 순차적으로 제2단말(150)에 전송할 수 있다.

상기 제1단말(100)이 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말(150)에 연속적으로 전송하는 단계(S140)는 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 관계 없이 수행될 수 있다. 예를 들어, 제1언어의 어순 및 제2언어의 어순 사이의 유사도가 상기 기준값보다 크지 않더라도, 제1단말(100)은 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말(150)에 연속적으로 전송할 수 있다.

다른 실시예에 따르면, 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 연속적으로 전송하는 단계(S140)는 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 따라 수행될 수 있다. 도 5를 참조하면, 상기 산출된 유사도가 상기 기준값보다 크면 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 상기 제2단말에 연속적으로 전송하는 단계(S141)가 수행될 수 있다. 제1단말(100)은 상기 산출된 유사도에 따라 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말(150)에 연속적으로 전송할 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제2단말(150)이 상기 인코딩된 음성의 재생과 함께 상기 제2언어의 단어를 연속적으로 표시하는 단계(S150)가 수행될 수 있다. 제2단말(150)은 제1단말(100)로부터 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 연속적으로 수신할 수 있다.

제2단말(150)은 상기 수신된 인코딩된 음성을 연속적으로 디코딩할 수 있다. 제2단말(150)의 출력부(105)는 상기 디코딩된 음성을 연속적으로 재생할 수 있다. 상기 수신된 인코딩된 음성이 디코딩되는 도중에, 제2단말(150)의 출력부(105)는 현재까지 디코딩된 음성 중에서 적어도 일부를 재생할 수 있다.

또한, 제2단말(150)은 상기 수신된 제2언어의 단어를 연속적으로 표시할 수 있다. 제2단말(150)의 출력부(105)는 상기 음성의 재생과 동시에 상기 제2언어의 단어를 표시할 수 있다. 상기 제2언어의 단어가 수신되면 제2단말(150)의 출력부(105)는 상기 제2언어의 단어를 실시간으로 표시할 수 있다. 상기 제2언어의 단어가 계속하여 수신되고 있는 경우, 출력부(105)는 상기 수신된 제2언어의 단어를 계속하여 표시할 수 있다. 상기 제2언어의 단어가 수신되는 도중에, 제2단말(150)의 출력부(105)는 현재까지 수신된 제2언어의 단어 중에서 적어도 일부를 연속적으로 표시할 수 있다.

도 9 내지 도 11은 실시예에 따른 제2단말(150)이 제2언어의 단어를 연속적으로 표시하는 단계(S150)를 설명하기 위한 참고도이다. 제2단말(150)은 제1단말(100)로부터 현재까지 상기 제2언어의 단어로서 "나는"만을 수신하였다고 가정하기로 한다. 제2단말(150)의 출력부(105)는 도 9에 도시된 바와 같이, "나는"을 표시할 수 있다.

제2단말(150)은 이후에 추가적으로 상기 제2언어의 단어로서 "애정"을 수신할 수 있다. 제2단말(150)의 출력부(105)는 도 10에 도시된 바와 같이, "애정"을 추가적으로 표시할 수 있다. 제2단말(150)은 이후에 추가적으로 "너", "하다", 및 "너"를 수신할 수 있다. 제2단말(150)의 출력부(105)는 도 11에 도시된 바와 같이, "너", "하다", 및 "너"를 추가적으로 표시할 수 있다.

제2단말(150)이 제2언어의 단어를 연속적으로 표시하는 단계(S150)는 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 관계 없이 수행될 수 있다. 다른 실시예에 따르면, 제2단말(150)이 제2언어의 단어를 연속적으로 표시하는 단계(S150)는 제1언어의 어순 및 제2언어의 어순 사이의 유사도에 따라 수행될 수 있다. 예를 들어, 제1언어의 어순 및 제2언어의 어순 사이의 유사도가 상기 기준값보다 크지 않으면, 제2단말(150)은 상기 제2언어의 단어를 표시하지 않을 수 있다.

만약 제1언어의 어순과 제2언어의 어순이 충분히 유사하지 않음에도 불구하고 상기 음성 인식 결과에 포함된 단어의 연속적인 변환 및 표시가 수행된다면, 제2단말(150)의 사용자가 경험하는 가독성이 충분하지 않을 수 있다. 반대로, 만약 제1언어의 어순과 제2언어의 어순이 충분히 유사하고 상기 음성 인식 결과에 포함된 단어의 연속적인 변환 및 표시가 수행된다면, 제2단말(150)의 사용자가 경험하는 가독성이 충분히 확보될 수 있다.

따라서, 실시예에 따르면 보다 부드러운 사용자 경험이 제공될 수 있다. 또한, 실시예에 따르면 반응성이 향상된 사용자 경험이 제공될 수 있다. 또한, 실시예에 따르면 개선된 사용자 경험이 제공될 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제1단말(100)이 상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계(S160)가 수행될 수 있다. 도 12는 실시예에 따른 제1단말(100)이 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계(S160)가 수행되는 과정을 나타내는 순서도이다.

도 12를 참조하면, 먼저, 상기 수신된 음성에 포함된 억양, 상기 수신된 음성에 포함된 공백 구간, 또는 상기 음성 인식 결과에 포함된 단어의 문장 성분(constituent)을 이용하여 종결점을 검출하는 단계(S161)가 수행될 수 있다. 예를 들어, 제1단말(100)의 제어부(102)는 음성 인식 결과인 "I love you do you love me"에서 첫번째 "you"가 끝나는 지점을 상기 종결점으로 정의할 수 있다.

제1단말(100)의 제어부(102)는 상기 수신된 음성에서 문장의 종결에 대응하는 억양을 검출함으로써 상기 종결점을 검출할 수 있다. 제1단말(100)의 제어부(102)는 상기 수신된 음성의 시간의 흐름에 따른 주파수의 변화에 대한 정보를 검출할 수 있다. 제1단말(100)의 저장부(103)는 문장의 종결에 대응하는 음성 주파수의 변화 정보를 미리 저장할 수 있다. 제1단말(100)의 제어부(102)는 상기 검출된 주파수의 변화에 대한 정보 및 상기 저장된 음성 주파수의 변화 정보를 비교함으로써 상기 수신된 음성에서 문장의 종결에 대응하는 억양을 검출할 수 있다.

다른 실시예에 따르면, 제어부(102)는 상기 수신된 음성에서 특정한 시간을 초과하는 공백 구간을 검출함으로써 상기 종결점을 검출할 수 있다. 예를 들어, 사용자는 하나의 문장을 말하기를 끝내고 내서 다음 문장을 말하기를 시작하기 전까지 0.5초를 초과하여 쉴 수 있다. 제1단말(100)의 제어부(102)는 상기 수신된 음성에서 0.5초를 초과하는 공백 구간을 검출함으로써 상기 종결점을 검출할 수 있다.

또 다른 실시예에 따르면, 제어부(102)는 상기 음성 인식 결과가 완전한 문장(full sentence)이 되기 위해 필요한 모든 문장 성분에 대응하는 단어를 포함하는지 여부를 검출함으로써 상기 종결점을 검출할 수 있다. 제1단말(100)의 제어부(102)는 예를 들어, 상기 음성 인식 결과가 주어에 대응하는 단어, 타동사에 대응하는 단어, 및 목적어에 대응하는 단어를 포함하는지 여부를 검출할 수 있다. 예를 들어, 현재까지의 음성 인식 결과는 주어에 대응하는 단어 및 타동사에 대응하는 단어만을 포함한다고 가정하기로 한다. 만약 이후에 추가된 음성 인식 결과가 목적어에 대응하는 단어를 포함한다면, 제어부(102)는 상기 음성 인식 결과에서 상기 목적어에 대응하는 단어가 끝나는 지점을 상기 종결점으로 정의할 수 있다.

다음으로, 상기 음성 인식 결과에서 이전의 종결점에 대응하는 부분의 다음 부분부터 상기 검출된 종결점에 대응하는 부분까지를 상기 종결된 문장으로 정의하는 단계(S162)가 수행될 수 있다. 상기 음성 인식 결과에서 종결된 문장을 검출하는 단계(S160)가 반복하여 수행된 경우에는, 바로 이전의 수행에 의해 검출된 이전의 종결점이 존재할 수 있다. 만약 상기 음성 인식 결과에서 종결된 문장을 검출하는 단계(S160)가 처음으로 수행된 경우에는 상기 이전의 종결점은 상기 음성 인식 결과의 시작점으로 정의될 수 있다.

제어부(102)는 상기 음성 인식 결과에서 이전의 종결점에 대응하는 부분의 다음 부분부터 상기 검출된 종결점에 대응하는 부분까지를 상기 종결된 문장으로 정의할 수 있다. 예를 들어, 제어부(102)는 음성 인식 결과인 "I love you do you love me"에서 "I love you"를 상기 종결된 문장으로 정의할 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제1단말(100)이 상기 검출된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계(S170)가 수행될 수 있다. 제1단말(100)은 상기 종결된 문장을 상기 제2언어의 번역문으로 직접 변환할 수 있다. 다른 실시예에 따르면, 제1단말(100)은 외부의 서버를 이용하여 상기 종결된 문장을 상기 제2언어의 번역문으로 변환할 수 있다.

도 13은 실시예에 따른 제1단말(100)이 외부의 서버를 이용하여 상기 종결된 문장을 제2언어의 번역문으로 변환하는 방법이 수행되는 과정을 나타내는 순서도이다. 도 13을 참조하면, 먼저, 상기 검출된 종결된 문장을 제1서버(200)에 전송하는 단계(S171)가 수행될 수 있다. 제1서버(200)는 번역 서비스를 제공하는 서버일 수 있다. 제1단말(100)의 통신부(104)는 상기 종결된 문장을 제1서버(200)에 전송할 수 있다. 예를 들어, 통신부(104)는 영어로 된 텍스트 "I love you"를 제1서버(200)에 전송할 수 있다.

다음으로, 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버(200)로부터 수신하는 단계(S172)가 수행될 수 있다. 제1서버(200)는 제1언어로 된 문장을 상기 문장의 제2언어로의 번역문으로 변환할 수 있다. 제1서버(200)는 상기 변환된 번역문을 제1단말(100)에 전송할 수 있다.

상기 종결된 문장의 전송에 대한 응답으로, 제1단말(100)의 통신부(104)는 제1서버(200)로부터 상기 종결된 문장의 제2언어로의 번역문을 수신할 수 있다. 통신부(104)는 상기 제2언어로의 번역문으로서 제2언어로 된 텍스트를 수신할 수 있다. 예를 들어, 통신부(104)는 "I love you"의 제2언어로의 번역문으로서 "나는 당신을 사랑합니다."를 수신할 수 있다.

도 14는 다른 실시예에 따른 제1단말(100)이 종결된 문장의 제2언어로의 번역문을 획득하는 단계(S170)가 수행되는 과정을 나타내는 순서도이다. 도 14를 참조하면, 먼저, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계(S271)가 수행될 수 있다. 제1단말(100)의 저장부(103)는 상기 제1데이터베이스를 포함할 수 있다. 다른 실시예에 따르면, 상기 제1데이터베이스는 제1단말(100)의 외부에 배치될 수 있다.

상기 제1데이터베이스는 번역문 데이터베이스일 수 있다. 상기 제1데이터베이스는 제1언어로 된 문장 및 상기 문장의 제2언어로의 번역문이 저장된 관계형 데이터베이스일 수 있다. 상기 제1데이터베이스에 포함된 각각의 레코드는 제1언어로 된 문장 및 상기 문장의 제2언어로의 번역문을 포함할 수 있다.

제1단말(100)의 제어부(102)는 상기 제1데이터베이스에서 제1언어로 된 상기 종결된 문장을 조회할 수 있다. 이로써, 제어부(102)는 상기 종결된 문장에 대응하는 번역문이 상기 제1데이터베이스 내에 존재하는지 여부를 판정할 수 있다.

다음으로, 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 번역문을 상기 제1데이터베이스로부터 획득하는 단계(S272)가 수행될 수 있다. 만약 상기 종결된 문장에 대응하는 레코드가 상기 제1데이터베이스에 포함된 경우, 제1단말(100)의 제어부(102)는 제1데이터베이스로부터 상기 번역문을 획득할 수 있다.

만약 상기 제1데이터베이스가 상기 종결된 문장에 대응하는 레코드를 포함하지 않는 경우, 제1단말(100)은 제1서버(200)로부터 상기 번역문을 수신함으로써 상기 번역문을 획득할 수 있다. 도 15는 또 다른 실시예에 따른 제1단말(100)이 종결된 문장의 제2언어로의 번역문을 획득하는 단계(S170)가 수행되는 과정을 나타내는 순서도이다.

도 15를 참조하면, 먼저, 제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계(S371)가 수행될 수 있다. 다음으로, 만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하지 않는 경우, 상기 종결된 문장을 제1서버(200)에 전송하는 단계(S372)가 수행될 수 있다.

제1단말(100)의 통신부(104)는 상기 종결된 문장을 제1서버(200)에 전송할 수 있다. 제1서버(200)는 상기 종결된 문장을 수신할 수 있다. 제1서버(200)는 상기 종결된 문장을 제2언어로 번역할 수 있다. 제1서버(200)는 상기 제2언어로의 번역문을 제1단말(100)에 전송할 수 있다.

다음으로, 상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버(200)로부터 수신하는 단계(S373)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 번역문을 제1서버(200)로부터 수신할 수 있다.

다음으로, 상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스 내에 캐시(cache)하는 단계(S374)가 수행될 수 있다. 제1단말(100)은 상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스에 저장할 수 있다. 제1데이터베이스는 상기 종결된 문장 및 상기 수신된 번역문을 포함하는 레코드를 새로이 생성할 수 있다. 이로써, 다음번에 제1데이터베이스에서 상기 종결된 문장이 조회되면 제1단말(100)이 상기 조회의 결과로서 상기 번역문을 획득할 수 있도록 준비될 수 있다.

다시 도 3을 참조하면, 다음으로, 상기 제1단말(100)이 상기 획득된 번역문을 상기 제2단말(150)에 전송하는 단계(S180)가 수행될 수 있다. 제1단말(100)의 통신부(104)는 상기 수신된 번역문을 제2단말(150)에 전송할 수 있다. 상기 음성이 수신되고 있는 도중에, 제1단말(100)의 통신부(104)는 상기 수신된 번역문을 제2단말(150)에 전송할 수 있다. 제2단말(150)은 상기 제2언어로의 번역문을 수신할 수 있다. 예를 들어, 제2단말(150)은 제1단말(100)로부터 "나는 당신을 사랑합니다."를 수신할 수 있다.

다음으로, 상기 제2단말(150)이 상기 표시된 제2언어의 단어 중에서 상기 번역문에 대응하는 단어를 상기 번역문으로 치환하는 단계(S190)가 수행될 수 있다. 제2단말(150)의 출력부(105)는 표시된 제2언어의 단어 중에서 상기 번역문에 대응하는 단어를 상기 수신된 번역문으로 치환할 수 있다. 상기 수신된 인코딩된 음성을 연속적으로 재생하는 도중에, 제2단말(150)의 출력부(105)는 상기 수신된 번역문을 표시할 수 있다. 상기 수신된 제2언어의 단어를 연속적으로 표시하는 도중에, 제2단말(150)의 출력부(105)는 상기 표시된 제2언어의 단어 중에서 적어도 일부를 상기 수신된 번역문으로 치환할 수 있다.

도 16 내지 도 18은 실시예에 따른 제2단말(150)이 표시된 제2언어의 단어를 번역문으로 치환하는 단계(S190)를 설명하기 위한 참고도이다. 예를 들어, 제2단말(150)의 출력부(105)는 도 11에 도시된 바와 같이 제2언어의 단어로서 "나는", "애정", 너", "하다", 및 "너"를 표시할 수 있다. 이후에 제2단말(150)의 제어부(102)는 제2언어의 단어로서 제1단말(100)로부터 "애정"을 추가적으로 수신할 수 있다. 제2단말(150)의 출력부(105)는 "애정"을 추가적으로 표시할 수 있다. 다시 말해서, 출력부(105)는 "나는 애정 너 하다 너 애정"을 표시할 수 있다.

동시에, 제2단말(150)은 제1단말(100)로부터 상기 번역문으로서 "나는 당신을 사랑합니다."를 수신할 수 있다. 제2단말(150)의 출력부(105)는 상기 번역문에 대응하는 단어인 "나는", "애정", 및 "너"를 상기 번역문으로 치환할 수 있다. 다시 말해서, 출력부(105)는 도 16에 도시된 바와 같이 "나는 당신을 사랑합니다. 하다 너 애정"을 표시할 수 있다.

제2단말(150)의 통신부(104)는 이후로도 계속하여 제1단말(100)로부터 제2언어의 단어를 수신할 수 있다. 제2단말(150)의 출력부(105)는 이후로도 계속하여 상기 수신된 제2언어의 단어를 추가적으로 표시할 수 있다. 예를 들어, 제2단말(150)의 통신부(104)는 상기 제2언어의 단어로서 "나를"을 추가적으로 수신할 수 있다. 제2단말(150)의 출력부(105)는 도 17에 도시된 바와 같이, "나를"을 추가적으로 표시할 수 있다. 다시 말해서, 출력부(105)는 "나는 당신을 사랑합니다. 하다 너 애정 나를"을 표시할 수 있다.

또한, 제1단말(100)의 제어부(102)는 이후로도 계속하여, 상기 음성 인식 결과 내에서 종결된 문장을 검출할 수 있다. 예를 들어, 제1단말(100)은 음성 인식 결과인 "I love you do you love me"에서 종결된 문장인 "do you love me"를 추가적으로 검출할 수 있다. 제1단말(100)은 상기 종결된 문장의 번역문으로서 "당신은 나를 사랑합니까?"를 획득할 수 있다.

제2단말(150)은 제1단말(100)로부터 상기 번역문을 수신할 수 있다. 제2단말(150)의 출력부(105)는 상기 번역문에 대응하는 제2언어의 단어를 상기 번역문으로 치환할 수 있다. 다시 말해서, 제2단말(150)의 출력부(105)는 상기 번역문에 대응하는 단어인 "하다", "너", "애정", 및 "나를"을 상기 번역문으로 치환할 수 있다. 출력부(105)는 도 18에 도시된 바와 같이 "나는 당신을 사랑합니다. 당신은 나를 사랑합니까?"를 표시할 수 있다.

이로써, 제2단말(150)은 상기 음성 인식 결과에 포함된 각각의 단어에 대응하는 제2언어의 단어를 먼저 표시할 수 있다. 이후에 번역문이 수신되면, 제2단말(150)은 상기 표시된 제2언어의 단어 중에서 상기 번역문에 대응하는 적어도 하나 이상의 단어를 상기 번역문으로 치환할 수 있다. 다시 말해서,

제2단말(150)이 상기 음성 인식 결과에 포함된 종결된 문장의 제2언어로의 번역문을 획득하기 전이라도, 제2단말(150)의 사용자가 의미를 이해할 수 있는 단어가 먼저 표시될 수 있다. 따라서, 제1단말(100)의 사용자가 한 말의 의미를 제2단말(150)의 사용자가 이해할 수 있기까지 제2단말(150)의 사용자가 기다려야 하는 시간이 단축될 수 있다.

이상에서 설명된 실시예에 따르면, 영상통화를 하는 사용자들이 사용하는 언어가 서로 다르더라도 각자가 상대방의 이야기를 알아들을 수 있다. 또한, 보다 부드러운 사용자 경험이 제공될 수 있다. 또한, 반응성이 향상된 사용자 경험이 제공될 수 있다. 또한, 개선된 사용자 경험이 제공될 수 있다.

이상에서 설명된 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함할 수 있다.

또한, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 또는 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 통신 매체는 전형적으로 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100: 제1 통역 장치, 제1단말
101: 입력부
102: 제어부
103: 저장부
104: 통신부
105: 출력부
150: 제2 통역 장치, 제2단말
200: 제1서버
300: 제2서버
400: 제3서버

Claims

제1단말로부터 제1언어로 된 음성 데이터 및 적어도 하나 이상의 제2언어의 단어를 연속적으로 수신하는 단계;
상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 단계;
상기 음성 데이터에 대한 음성 인식 결과에 포함된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계; 및
상기 표시된 적어도 하나 이상의 제2언어의 단어 중에서 상기 종결된 문장에 대응하는 적어도 하나 이상의 단어를 상기 획득된 번역문으로 치환하는 단계
를 포함하고,
각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어에 대응하는 통역 방법.
제1항에 있어서,
상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 단계는,
상기 음성 데이터를 수신하는 도중에 현재까지 수신된 상기 음성 데이터의 적어도 일부를 연속적으로 재생하는 단계; 및
상기 적어도 하나 이상의 제2언어의 단어를 수신하는 도중에 현재까지 수신된 상기 적어도 하나 이상의 제2언어의 단어 중에서 적어도 일부를 연속적으로 표시하는 단계
를 포함하는 통역 방법.
제1항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
상기 번역문을 상기 제1단말 또는 제1서버로부터 수신하는 단계
를 포함하는 통역 방법.
제1항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계;
상기 검출된 종결된 문장을 제1서버에 전송하는 단계; 및
상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계
를 포함하는 통역 방법.
제1항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계;
제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계; 및
만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문을 상기 제1데이터베이스로부터 획득하는 단계
를 포함하는 통역 방법.
제1항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
상기 음성 데이터에 대한 음성 인식 결과 내에서 상기 종결된 문장을 검출하는 단계;
제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계;
만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하지 않는 경우, 상기 종결된 문장을 제1서버에 전송하는 단계;
상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계; 및
상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스 내에 캐시(cache)하는 단계
를 포함하는 통역 방법.
제1항에 있어서,
각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 통역 방법.
제1항의 통역 방법을 컴퓨터에서 실행시키는 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
제1언어로 된 음성을 연속적으로 수신하는 단계;
상기 수신된 음성을 연속적으로 인코딩하는 단계;
상기 인코딩된 음성에 대한 음성 인식 결과를 연속적으로 획득하는 단계;
상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어에 대응하는 제2언어의 단어로 연속적으로 변환하는 단계;
상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말에 연속적으로 전송하는 단계;
상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계;
상기 검출된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계; 및
상기 획득된 번역문을 상기 제2단말에 전송하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어의 단어로 연속적으로 변환하는 단계는,
상기 제1언어의 어순 및 상기 제2언어의 어순 사이의 유사도를 산출하는 단계; 및
상기 산출된 유사도가 기준값보다 크면 상기 음성 인식 결과에 포함된 각각의 단어를 상기 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어로 연속적으로 변환하는 단계
를 포함하고,
상기 제2단말에 연속적으로 전송하는 단계는,
상기 산출된 유사도가 상기 기준값보다 크면 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 상기 제2단말에 연속적으로 전송하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어의 단어로 연속적으로 변환하는 단계는,
상기 음성 인식 결과에 포함된 각각의 상기 단어를 제2서버에 전송하는 단계; 및
상기 전송된 각각의 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버로부터 수신하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어의 단어로 연속적으로 변환하는 단계는,
제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계; 및
만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 조회된 단어에 대응하는 상기 제2언어의 단어를 상기 제2데이터베이스로부터 획득하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어의 단어로 연속적으로 변환하는 단계는,
제2데이터베이스에서 상기 음성 인식 결과에 포함된 각각의 상기 단어를 조회하는 단계;
만약 상기 조회된 단어에 대응하는 상기 제2언어의 단어가 상기 제2데이터베이스 내에 존재하지 않는 경우, 상기 조회된 단어를 제2서버에 전송하는 단계;
상기 전송된 단어의 의미와 서로 동일하거나 유사한 의미를 갖는 상기 제2언어의 단어를 상기 제2서버로부터 수신하는 단계; 및
상기 전송된 단어 및 상기 수신된 제2언어의 단어를 상기 제2데이터베이스 내에 캐시(cache)하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계는,
상기 수신된 음성에 포함된 억양, 상기 수신된 음성에 포함된 공백 구간, 또는 상기 음성 인식 결과에 포함된 단어의 문장 성분(constituent)을 이용하여 종결점을 검출하는 단계; 및
상기 음성 인식 결과에서 이전의 종결점에 대응하는 부분의 다음 부분부터 상기 검출된 종결점에 대응하는 부분까지를 상기 종결된 문장으로 정의하는 단계
를 포함하는 통역 방법.
제14항에 있어서,
상기 종결점을 검출하는 단계는,
상기 수신된 음성에서 문장의 종결에 대응하는 억양을 검출하거나, 상기 수신된 음성에서 특정한 시간을 초과하는 공백 구간을 검출하거나, 또는 상기 음성 인식 결과가 완전한 문장(full sentence)이 되기 위해 필요한 모든 문장 성분에 대응하는 단어를 포함하는지 여부를 검출함으로써 상기 종결점을 검출하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
상기 검출된 종결된 문장을 제1서버에 전송하는 단계; 및
상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계; 및
만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하는 경우, 상기 조회의 결과로서 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문을 상기 제1데이터베이스로부터 획득하는 단계
를 포함하는 통역 방법.
제9항에 있어서,
상기 제2언어로의 번역문을 획득하는 단계는,
제1데이터베이스에서 상기 검출된 종결된 문장을 조회하는 단계;
만약 상기 종결된 문장에 대응하는 상기 제2언어로의 번역문이 상기 제1데이터베이스 내에 존재하지 않는 경우, 상기 종결된 문장을 제1서버에 전송하는 단계;
상기 종결된 문장의 상기 제2언어로의 번역문을 상기 제1서버로부터 수신하는 단계; 및
상기 종결된 문장 및 상기 수신된 제2언어로의 번역문을 상기 제1데이터베이스 내에 캐시(cache)하는 단계
를 포함하는 통역 방법.
제1단말이 제1언어로 된 음성을 연속적으로 수신하는 단계;
상기 제1단말이 상기 수신된 음성을 연속적으로 인코딩하는 단계;
상기 제1단말이 상기 인코딩된 음성에 대한 음성 인식 결과를 연속적으로 획득하는 단계;
상기 제1단말이 상기 음성 인식 결과에 포함된 각각의 단어를 제2언어의 단어로 연속적으로 변환하는 단계;
상기 제1단말이 상기 인코딩된 음성 및 상기 변환된 제2언어의 단어를 제2단말에 연속적으로 전송하는 단계;
상기 제2단말이 상기 인코딩된 음성의 재생과 함께 상기 제2언어의 단어를 연속적으로 표시하는 단계;
상기 제1단말이 상기 음성 인식 결과에 포함된 종결된 문장을 검출하는 단계;
상기 제1단말이 상기 검출된 종결된 문장의 상기 제2언어로의 번역문을 획득하는 단계;
상기 제1단말이 상기 획득된 번역문을 상기 제2단말에 전송하는 단계; 및
상기 제2단말이 상기 표시된 제2언어의 단어 중에서 상기 번역문에 대응하는 단어를 상기 번역문으로 치환하는 단계
를 포함하는 통역 방법.
제1단말로부터 제1언어로 된 음성 데이터 및 적어도 하나 이상의 제2언어의 단어를 연속적으로 수신하는 통신부; 및
상기 음성 데이터의 재생과 함께 상기 적어도 하나 이상의 제2언어의 단어를 연속적으로 표시하는 출력부
를 포함하고,
상기 통신부는 상기 음성 데이터에 대한 음성 인식 결과에 포함된 종결된 문장의 상기 제2언어로의 번역문을 획득하고, 상기 출력부는 상기 표시된 적어도 하나 이상의 제2언어의 단어 중에서 상기 종결된 문장에 대응하는 적어도 하나 이상의 단어를 상기 획득된 번역문으로 치환하고, 각각의 상기 적어도 하나 이상의 제2언어의 단어는 상기 음성 데이터에 대한 상기 음성 인식 결과에 포함된 각각의 단어에 대응하는 통역 장치.