KR20190029236A

KR20190029236A - 통역방법

Info

Publication number: KR20190029236A
Application number: KR1020170116566A
Authority: KR
Inventors: 김상철; 김경율
Original assignee: (주)한컴인터프리
Priority date: 2017-09-12
Filing date: 2017-09-12
Publication date: 2019-03-20
Also published as: KR102056329B1

Abstract

본 발명은 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계; 상기 웨어러블 기기에 내장된 마이크로폰을 통해 입력된 제1 발화자의 음성 신호가 상기 사용자 단말 및 통역 서버의 통역 과정을 거치고, 다시 상기 사용자 단말의 스피커를 통해 제2 발화자에게 출력되는 단계; 및 상기 사용자 단말에 내장된 마이크로폰을 통해 입력된 상기 제2 발화자의 음성 신호가 통역 서버의 통역 과정을 거치고, 다시 상기 사용자 단말에 연결된 상기 웨어러블 기기의 스피커를 통해 출력되는 단계를 포함하는 통역방법을 개시한다. 본 발명에 의하면, 웨어러블 기기와 사용자 단말을 이용하여 양방향 동시통역이 가능하다.

Description

통역방법{METHOD FOR INTERPRETING}

본 발명은 통역방법에 관한 것으로, 더욱 상세하게는 웨어러블 기기를 이용하여 발화자 사이에 동시통역을 실행하는 방법에 관한 것이다.

교통, 통신수단의 발달에 따라 국가 간의 인적, 물적 교류가 활발해져 왔다. 이러한 인적, 물적 교류의 확대에도 불구하고 국가 사이의 이종 언어는 의사소통에 있어서 장벽으로 작용하고 있다.

이종 언어로 인한 불편함을 덜어 주기 위해 이종 언어로 된 문자 간의 변환을 번역이라 한다. 그리고 spoken language translation system은 이종 언어의 음성 간의 변환을 의미하는데, 방송뉴스 통역이 이에 해당한다.

특히 국가 간의 각종 컨퍼런스에서 이종 언어로 인한 대화자 사이의 불편함은 동시통역을 통해 해결되고 있다. 특히 자동통역은 양방향에서 제1 언어의 음성을 제2 언어의 음성으로 변환하는 것이다.

과거 동시 통역사들의 전유물이었던 동시통역이 음성인식, 자동번역 및 음성합성의 기술의 발전으로 인해 기계에 의한 자동통역이 이루어지고 있다.

자동통역은 제1 언어의 발화를 음성인식, 자동번역 등의 과정을 거쳐서 제2 언어로 변환하고, 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려주는 과정 및 기술을 의미한다.

도 1은 번역 서버를 이용하는 종래의 기술에 따른 통역 시스템(10)에 관한 예시도이다.

도 1을 참조하면, 종래의 기술에 따른 일반적인 통역 시스템(10)은 사용자 단말 형식의 통역장치(11)와, 음성인식을 위한 음성인식 엔진과 번역을 위한 번역 연진을 제공하는 통역 서버(12)와 이에 대한 소스인 데이터베이스(13)와 이들을 연결시키는 유선 또는 무선의 통신망(14), 예를 들어 셀룰러 무선전화 통신망에 연결된 통역 서버(12)와 음성인식 DB 및 번역 DB(13)를 포함한다.

또한, 종래의 기술에 따른 사용자 단말(11) 형식의 단일의 통역장치를 이용하는 경우, 대화자 중에서 한 사람만이 사용자 단말기를 가지고 있는 경우가 대부분이고, 상대방도 사용자 단말기를 소지하고 있다고 해도, 통역장치로 기능하기에는 준비가 되지 않은 경우가 많다. 따라서 하나의 통역장치를 이용하여 대화자 쌍방이 이를 입력/출력의 도구로 사용해야 해서 불편함이 존재한다.

도 2는 하나의 사용자 단말에 의한 종래의 기술에 따른 통역 상황의 예시도이다.

도 2를 참조하면, 양 대화자 사이에 번호 순서에 따라,①발화-②통역, ③발화-④통역이 이루어진다. 이 경우 양 발화자는 하나의 통역장치를 이용하여 번갈아 가면서 음성을 입력시키고 이를 출력해야 하는 번거로움이 있다. 그리고 동시 대화는 불가능하거나 처리가 어렵고, 일정 시간 간격을 두고 통역장치에 음성을 입력시켜야 한다.

먼저 선행기술 1, 한국등록특허 제10-1626109호(2016.05.25.)는 통역 장치 및 방법에 관한 기술을 개시한다.

상기 선행기술 1은, 음성 입력부, 제어부, 통신부, 디스플레이부, 및 사용자로부터 이전에 번역된 문장들에 대한 조작입력을 수신하는 사용자 입력부를 포함한다.

또한, 선행기술 2, 한국등록특허 제10-1747874호(2017.06.09.)는 자동 통역 시스템을 개시하고 있다.

상기 선행기술 2는, PC, 또는 핸드폰, 스마트폰, PDA, Laptop 등 휴대가 가능한 기기와 통신하거나 직접 자동통역 단말기에 활용되는 자동 통역 시스템에 관한 것으로서, 상기 자동 통역 시스템은, 발화자의 음성 인식용 마이크신호, 골도 마이크 신호 및 발화자의 제스처 신호를 네트워크를 통해 전송하고, 네트워크를 통해 수신된 통역 결과신호를 출력하는 웨어러블 자동 통역 입출력 장치; 및 상기 웨어러블 자동 통역 입출력 장치로부터 네트워크를 통해 전송된 골도 마이크 신호 또는 제스처 신호를 이용하여 상기 음성 인식용 마이크 신호에서 음성 데이터 구간을 검출하고, 검출된 구간내의 음성 데이터의 음성 인식 및 통역을 수행한 후, 통역 결과신호를 네트워크를 통해 상기 웨어러블 자동 통역 입출력 장치로 전송하는 서버를 포함한다.

또한, 선행기술 3, 한국등록특허 제10-1589433호(2016.01.22.)는 동시통역 시스템을 개시하고 있다.

상기 선행기술 3은, 동시통역 시스템에 있어서, 음성을 입력 및 출력시키는 적어도 둘 이상의 헤드셋 및 해당 헤드셋으로부터 출력된 피통역 음성 언어를 입력받아 상기 피통역 음성 언어가 통역된 통역 음성 언어를 지정된 타 헤드셋으로 출력하는 휴대용 단말기를 포함하는 동시통역 시스템을 사용함으로써, 하나의 휴대용 단말기를 매개로한 사용자들 간의 근거리 통신을 이용하여 동시통역을 수행하게 하여 보다 효율적이고 자유로운 대화를 가능하게 한다.

그런데 상기 선행기술 1은 제1 언어로 번역할 문장을 번역 서버로 전송하고, 번역 서버로부터 제2 언어의 번역된 문장을 수신하는 통신부를 포함하고 있는데, 이를 근거로 서버가 번역을 담당하고 있는 것을 알 수 있다.

또한 상기 선행기술 2는 상기 음성 마이크로부터 제공되는 사용자 음성 신호와, 골도 마이크로부터 제공되는 사용자 골도 신호 및 모션 센서로부터 제공되는 사용자 행동(제스처) 감지 신호를 수신하여, 상기 제1 서버로 음성 인식을 위한 신호로서 전송하고, 상기 제1 서버로부터 전송되는 음성 인식 결과 정보를 상기 다수의 제2~n 서버로 전송하거나, 상기 제2~n 서버로부터 전송되는 통역 결과 정보를 출력 제어하는 통신 모듈을 포함하고 있는데, 이를 근거로 서버가 음성인식 및 통역을 수행함을 알 수 있다.

또한, 선행기술 3의 제어부는 제1 언어의 음성을 제2 언어의 음성으로 변환하는 통역 서버를 이용하여, 제1 언어의 음성을 기반으로 변환된 제2 언어의 음성을 획득하는데, 이를 근거로 통역 서버를 이용함을 알 수 있다.

본 발명의 실시 예에 따른 통역장치 및 그 방법은, 운항중인 항공기 기내 및 외국 현지 여행지와 같이 인터넷 환경이 조성되어 있지 상황에서 네트워크상의 통역 서버의 이용 없이 동시통역이 가능하게 하는 기술에 관한 것으로 상기 살펴본 선행기술과 구별되는 기술로서 상기 문제점을 해결하기 위한 것이다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 휴대용 서버를 이용하는 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.

또한, 원격의 네트워크 환경이 조성되지 않은 환경에서 통역이 가능한 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.

또한, 사용자 단말이 구비되지 않은 발화자의 상대방에게 입력장치 및/또는 출력장치를 제공하여 불편을 줄일 수 있게 하는 통역장치 및 그 방법을 제공하는 하는 것을 목적으로 한다.

또한, 고용량의 메모리에 상대적으로 저용량의 음성인식 및 번역에 관한 데이터를 저장하는 휴대용 서버를 이용하여 신뢰도 높은 결과를 신속히 출력할 수 있는 통역장치 및 그 방법을 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예에 따른 통역장치는, 양방향의 번역을 수행하는 자체 내부에 포함된 번역 모듈; 및 음성인식 DB와 번역 DB가 저장된 저장 모듈을 포함하는 휴대용 서버로서 양방향의 동시통역을 수행하고, 동시통역의 당사자들의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 것을 특징으로 한다.

또한, 상기 통역장치는, 발화자의 음성을 녹음하고, 이 녹음 데이터 및/또는 사용자 단말에서 수신한 녹음 데이터를 이용하여 양방향의 음성인식을 수행하는 음성인식 모듈을 더 포함하는 것을 특징으로 한다.

또한, 상기 음성인식 DB와 번역 DB는, 언어의 종류에 따라 출현 빈도수가 낮은 순으로 인식 범위를 축소시켜 결정된 데이터베이스에 해당하고, 상기 음성인식 모듈과 번역 모듈은, 소형화된 음성인식 DB와 번역 DB를 이용하는 엔진을 포함하는 것을 특징으로 한다.

또한, 상기 통역장치는, 상기 발화자 및/또는 상대방의 음성 입력 을 판단하기 위한 입력 버튼을 더 포함하는 것을 특징으로 한다.

또한, 상기 통역장치는, 사용자 단말과 유선 또는 무선으로 통신하는 통신부를 더 포함하고, 상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능하는 것을 특징으로 한다.

또한, 상기 통역장치는, 완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 이를 생성하는 장치제어모듈을 더 포함하는 것을 특징으로 한다.

또한, 상기 재생 모듈은, 상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 그 결과를 상기 스피커로 출력하는 것을 특징으로 한다.

또한, 상기 통역장치는, 상기 휴대용 서버를 제어하는 단말제어모듈이 구비된 상기 사용자 단말을 더 포함하는 것을 특징으로 한다.

또한, 상기 단말제어모듈은, 상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 전송, 상기 확인 메시지 전송을 제어하는 것을 특징으로 한다.

또한, 상기 사용자 단말은 단말저장모듈을 더 포함하고, 상기 단말저장모듈은 상기 단말제어모듈과 상기 장치제어모듈을 연동시키기 위해 인스톨된 서버 프로그램을 저장하고, 상기 장치저장모듈은 상기 단말제어모듈과 상기 장치제어모듈을 연동시키기 위해 인스톨된 클라이언트 프로그램을 저장하는 것을 특징으로 한다.

또한, 상기 휴대용 서버는, 상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, Power On 상태와 Power Off 상태 사이를 전환하기 위한 전원 버튼을 더 포함하는 것을 특징으로 한다.

또한, 상기 휴대용 서버는, 상기 Standby 상태에서, 상기 통신모듈이 On 상태이고, 상기 장치제어모듈이 슬립 상태이고, 상기 Ready 상태에서, 상기 장치제어모듈이 On 상태로 전환되는 것을 특징으로 한다.

또한, 상기 제어 모듈은, 발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 것을 특징으로 한다.

또한, 상기 제어 모듈은, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어의 종류를 구별하는 것을 특징으로 한다.

본 발명의 일 실시 예에 따른 통역방법은, 동시통역의 당사자들과의 관계에서 적어도 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 휴대용 서버가 동시통역을 수행하기 위해, 자체 내부에 포함하고 있는 음성인식 모듈 및 음성인식 DB를 이용하여 음성을 인식하는 단계; 및 자체 내부에 포함하고 있는 번역 모듈 및 번역 DB를 이용하여 상기 인식된 텍스트를 번역하는 단계를 포함하는 것을 특징으로 한다.

또한, 상기 음성을 인식하는 단계는, 마이크로폰을 통해 상기 적어도 어느 한 발화자의 음성을 입력받고, 상기 음성인식 모듈을 통해 상기 음성을 녹음하고 녹음 데이터를 이용하여 음성인식을 수행하는 것을 특징으로 한다.

또한, 상기 통역방법은, 스피커가 구비된 재생 모듈을 통해 상기 번역 모듈의 번역에 따라 상기 어느 한 발화자의 음성에 대응하는 합성 음성을 출력하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 음성을 인식하는 단계는, 상기 사용자 및/또는 상대방의 음성 입력 시점을 판단하기 위해 입력 버튼이 사용되는 것을 특징으로 한다.

또한, 상기 통역방법은, 상기 휴대용 서버와 사용자 단말이 유선 또는 무선으로 통신하는 단계를 더 포함하고, 상기 사용자 단말이 상기 어느 한 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 상기 휴대용 서버는 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능하는 것을 특징으로 한다.

또한, 상기 통역방법은, 완료된 동작을 확인시키기 위한 확인 메시지를 상기 사용자 단말에 전송하게 하기 위해 장치제어모듈이 메시지를 생성하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 합성 음성을 출력하는 단계는, 상기 사용자 단말로부터 전송된 TTS 데이터를 재생하고 그 결과를 상기 스피커로 출력하는 것을 특징으로 한다.

또한, 상기 통역방법은, 단말제어모듈이 구비된 사용자 단말이 상기 휴대용 서버를 제어하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 제어하는 단계는, 상기 휴대용 서버의 구동, 음성 녹음, 녹음 데이터의 상기 휴대용 서버로의 전송, 상기 확인 메시지의 디스플레이를 제어하는 것을 특징으로 한다.

또한, 상기 휴대용 서버는, 상기 사용자 단말과의 관계에서 Standby, Ready 및 Run 상태 사이를 전환하고, 전원 버튼을 통해 Power On 상태와 Power Off 상태 사이를 전환하는 것을 특징으로 한다.

또한, 상기 음성을 인식하는 단계는, 발화자 음성의 사운드 스펙트럼을 이용하여 음색을 결정하고, 결정된 음색에 따라 동시 발화된 이종 언어 음성의 발화자를 구별하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 음성을 인식하는 단계는, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어 음성의 종류를 구별하는 단계를 더 포함하는 것을 특징으로 한다.

본 발명에 의하면, 휴대용 서버를 이용함으로써 인터넷에 연결되지 않은 환경에서도 양방향 동시통역이 가능하다.

또한, 단말기를 소지하지 않은 상대방에게도 통역에 관한 음성 입력 및/또는 출력이 가능한 단말을 제공할 수 있다.

또한, 음성인식 및 번역에 관한 DB가 저장된 고용량의 메모리를 포함하는 휴대용 서버를 이용하여 신뢰도 높은 결과를 신속히 출력할 수 있다.

도 1은 번역 서버를 이용하는 종래의 기술에 따른 통역 시스템에 관한 예시도이다.
도 2는 하나의 사용자 단말을 이용하여 발화자 간에 수행되는 통역방법의 예시도이다.
도 3은 본 발명의 일 실시 예에 따른 웨어러블 지지의 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 사용자 단말 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 통역 서버의 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 도 6의 통역방법의 순서도이다.
도 8은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.
도 9는 본 발명의 일 실시 예에 따른 도 8의 통역방법의 순서도이다.
도 10은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.
도 11은 본 발명의 일 실시 예에 따른 도 10의 통역방법의 순서도이다.

이하, 첨부한 도면을 참조하여 본 발명의 통역장치 및 그 방법에 대한 바람직한 실시 예를 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 또한 본 발명의 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는 것이 바람직하다.

이하 본 발명의 실시 예에 따른 통역방법에 대해 설명하기 전에 통역 시스템의 구성요소에 대해 설명하기로 한다.

도 3은 본 발명의 일 실시 예에 따른 웨어러블 기기의 블록도이다.

도 3을 참조하면, 상기 웨어러블 기기(100)는 통신 유닛(110), 디스플레이 유닛(120), 저장 유닛(130), 입력 유닛(140), 출력 유닛(150), 전원 유닛(160) 및 제어 유닛(170)을 포함한다.

통신 유닛(110)은 사용자 단말(200)과 통신을 수행한다. 통신 유닛(110)은 예로서, 근거리 무선통신에 해당하는 지그비 유닛, 블루투스 유닛, WiFi 유닛을 포함할 수 있다.

디스플레이 유닛(120)은 웨어러블 기기(100)의 동작 및 상태를 표시하는 LED 표시창을 포함할 수 있다.

저장 유닛(130)은 웨어러블 기기(100)가 독립적인 출력장치로 사용되는 것을 상정하여 음원파일 등을 저장할 수 있다.

입력 유닛(140)은 마이크로폰을 포함할 수 있다, 그 밖에 파라미터 입력을 위한 각종 버튼이 구성요소로 포함될 수 있다. 여기서 마이크로폰은 귓속에 구비되는 것이 바람직하다.

출력 유닛(150)은 스피커를 포함할 수 있다.

전원 유닛(160)은 전원 회로 및 배터리를 포함한다. 배터리는 충전이 가능한 리튬이온 전지 및 그 밖의 2차 전지를 포함할 수 있다.

제어 유닛(170)은 웨어러블 기기(100)의 각종 구성요소를 제어함과 동시에, 사용자 단말(200)의 프로그램에 의해 제어 유닛(170)을 통해 웨어러블 기기(100)가 제어될 수 있다.

도 4는 본 발명의 일 실시 예에 따른 사용자 단말 블록도이다.

도 4를 참조하면, 사용자 단말(200)은 통신부(210), 디스플레이부(220), 음성합성부(230), 저장부(240), 입력부(250), 출력부(260), 재생부(270), 전원부(280) 및 제어부(290)를 포함한다.

사용자 단말(200)의 다양한 실시 예들은 셀룰러 전화기, 무선 통신 기능을 가지는 스마트 폰, 무선 통신 기능을 가지는 개인 휴대용 단말기(PDA), 무선 모뎀, 무선 통신 기능을 가지는 휴대용 컴퓨터, 무선 통신 기능을 가지는 디지털 카메라와 같은 촬영장치, 무선 통신 기능을 가지는 게이밍 (gaming) 장치, 무선 통신 기능을 가지는 음악저장 및 재생 가전제품, 무선 인터넷 접속 및 브라우징이 가능한 인터넷 가전제품뿐만 아니라 그러한 기능들의 조합들을 통합하고 있는 휴대형 유닛 또는 단말기들을 포함할 수 있으나, 이에 한정되는 것은 아니다.

통신부(210)는, 통신망(400)의 각종 통신망에 대응하는 통신 모듈, 예를 들어 블루투스 모듈, WiFi 모듈, 이더넷, USB 모듈, 셀룰러 무선통신 모듈을 포함할 수 있으나, 본 발명에 따른 실시 예에서는 USB 모듈과 같은 유선통신부와 블루투스 모듈, 지그비 모듈, NFC 모듈과 같은 근거리 통신 모듈을 포함하는 것이 가장 바람직하다.

디스플레이(220)는 LCD 디스플레이, LED 디스플레이와 같이 화소로 이루어진 화면을 보여주는 장치에 해당한다.

저장부(240)는 제어 모듈(370)과 제어부(290)를 연동시키기 위한 클라이언트 프로그램을 저장한다. 여기서 저장부(240)는 휘발성의 RAM 및 비휘발성의 ROM, 플래시 메모리를 포함하고, 그 기능에 따라 각종 디지털 파일을 저장한다. 특히 저장부(240)는 TTS 엔진을 저장함으로써, 통역 서버(300) 측에 저장하지 않고 사용자 단말 측에 저장할 수도 있다.

입력부(250)는 각종 파라미터 설정을 위한 키보드, 터치스크린 및 마우스를 포함한다.

출력부(260)는 스피커를 포함한다.

전원부(280)는 전력 소스 및 전력 소스의 충전 및/또는 방전을 위한 충방전 장치를 포함한다. 전력 소스로는 배터리가 사용될 수 있다. 그리고 배터리는 충방전 장치에 의해 충전 및 방전이 되고, 방전된 전력은 사용자 단말(200)의 구동에 에너지원으로 작용한다.

제어부(290)는 하드웨어적으로는 중앙처리장치에 해당하는 CPU(Central Processing Unit)로 구현될 수 있으며, 구체적으로는 통역 서버(300)의 제어 모듈(370)과 연동을 위해 저장부(240)에 로딩된 클라이언트 프로그램 및 이 상태에서 연산 작용을 하는 상기 CPU를 통합하는 개념이다.

제어부(290)는 제어 모듈(370)을 조작하여 통역 서버(300)의 각종 기능을 수행하도록 할 수 있다.

특히 통신부(210)는 웨어러블 기기(100)와 유선 또는 무선으로 통신한다. 이 경우, 웨어러블 기기(100)가 대화자 양측 중에서 어느 한 측의 발화자에 대해 입력장치 및/또는 출력장치로 기능하는 경우, 사용자 단말(200)은 그 상대방에 대해 입력장치 및/또는 출력 장치로 기능함을 특징으로 한다. 즉, 상대방은 전용의 입력 및 출력 장치를 통해 자신의 음성을 입력하고, 상대방 발화자의 번역된 음성을 출력에 의해 청취할 수 있다.

또한, 제어부(290)는 입력 및 출력 채널을 조정하는 것을 특징으로 한다. 예를 들어, 사용자 단말에 연결된 웨어러블 기기(100)에 의해 입력 및 출력되는 신호와 사용자 단말에 내장된 마이크로폰 및 스피커를 통해 입력 및 출력되는 신호를 분리하여 처리할 수 있고, 채널을 조정함으써 제1 발화자에 발화에 의한 입력과 제2 발화자의 발화에 입력을 구별하고, 그 출력도 구별하여 출력한다.

또한, 복수의 웨어러블 기기(100)가 사용자 단말(200)에 페어링되어 있는 경우에도 웨어러블 기기(100)의 발화자 별로 입력 및 출력을 분리하여 처리하도록 하고 채널 별로 이를 구별하여 처리한다.

재생부(270)는 번역 모듈(320)의 번역에 따라 발화자의 음성에 대응하는 합성 음성을 출력한다. 이를 위해 통역 서버(300)는 사용자 단말(200)로 TTS데이터를 전송한다. 이 경우 통역 서버(300)가 음성합성 모듈을 포함하게 된다. 재생부(270)는 통역 서버(300)로부터 전송된 TTS 데이터를 재생하고, 그 결과는 자체 스피커 또는 연결된 웨어러블 내장 스피커로 출력된다.

다른 한편으로 음성합성부가 사용자 단말(200)에 내장된 경우에, 사용자 단말은 TTS데이터 대신 번역 결과를 전송받아 이를 음성합성부(TTS 엔진)를 이용하여 통역된 음성을 출력한다.

반대로 사용자 단말(200)이 음성합성부(230)를 포함하는 경우, 사용자 단말(200) 스스로 TTS데이터를 생성하고, 이를 재생한다.

음성합성은 TTS(Text-to-speech) 또는 Voice Synthesis라고 불린다. 음성합성의 방법으로 음편조합방식이 사용될 수 있다. 음편조합방식은, 문장 분석, 분석 결과에 따른 음편을 음편 DB에서 추출, 이를 이어 붙인다. 여러 후보들의 합성음이 생성되고, 운율 및 매끄러움을 고려하여 가장 적합한 것이 채택된다. 더욱이 발화자 음성의 사운드 스펙트럼을 이용하여 발화자의 음색을 결정하고, 합성음을 음색에 맞도록 후처리함으로써 원발화자의 음색에 가까운 합성음이 출력될 수 있다. 또한, 발화자의 감정이 인지되고, 인지된 감정이 합성음에 실릴 수도 있다.

전원부(280)는 전력 소스 및 전력 소스의 충전 및/또는 방전을 위한 충방전 장치를 포함한다. 전력 소스로는 배터리가 사용될 수 있다. 그리고 배터리는 충방전 장치에 의해 충전 및 방전이 되고, 방전된 전력은 에너지원으로 작용한다.

도 5는 본 발명의 일 실시 예에 따른 통역 서버의 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 통역 서버(300)는 음성인식 모듈(310), 번역 모듈(320), 저장 모듈(330), 입력 모듈(340), 출력 모듈(350), 통신 모듈(360) 및 제어 모듈(370)을 포함한다. 통역 서버(300)는 음성인식 모듈(310)과 음성인식 DB를 이용하여 발화자의 음성을 인식하고, 인식된 텍스트를 기초로 번역 모듈과 번역 DB를 이용하여 다른 언어로 번역한다.

음성인식 모듈(310)은, 발화자의 음성을 녹음하고, 그 녹음된 데이터를 이용하여 음성인식을 수행한다. 음성인식 모듈(310)은 발화자의 입으로부터 나온 음성신호를 자동으로 인식하여 문자열로 변환해 주는 과정을 수행한다. 음서인식 모듈의 다른 명칭은 ASR(Automatic Speech Recognition), Voice Recognition 또는 STT(Speech-to-Text)이다.

음성인식 모듈(310)은 확률통계 방식에 기반할 수 있다. 즉 음성인식 모듈(310)은 음성인식 과정에서 사용되는 음향모델(Acoustic Model, AM), 언어모델(Language Model, LM)로서 확률통계에 기반한 모델을 사용한다. 그리고 핵심 알고리즘인 HMM(Hidden Markov Model)도 역시 확률통계에 기반할 수 있다. 상기의 모델들은 예시에 해당되며, 본 발명을 한정하려는 것은 아니다.

음향모델로서 GMM(Gaussian Mixture Model)이, 언어모델로서 N-gram이 사용될 수 있다. 더 나아가, GMM 대신에 딥 러닝(Deep Learning) 아키텍처 중의 하나인 DNN(Deep Neural Network)이 사용되는 것도 바람직하다. 그리고 음성인식의 성능을 높이기 위해 양질의 음성모델 및 언어모델이 설정되고, 설정된 모델들은 딥 러닝 알고리즘에 의해 학습될 수 있다. 학습에 필요한 학습 DB는 구어체, 대화체의 음성 및 언어 DB를 포함하고 있을 것이 바람직하다.

번역 모듈(320)은 음성인식 모듈(110)에 의해 인식된 출발어(Source Language)로 발화된 발화자의 음성이 텍스트로 출력되면, 출력된 텍스트를 도착어(Target Language)의 문자로 번역한다.

번역 모듈(320)이 수행하는 번역의 방식은 규칙에 기반한 방법, 말뭉치에 기반한 방법 및 인공신경망번역(Neural Machine Translation, NMT) 중에서 적어도 하나를 포함한다. 규칙에 기반한 방법은 분석 깊이에 따라 다시 직접 번역방식이나 간접 변환방식, 중간 언어방식으로 나뉜다. 말뭉치에 기반한 방법으로 예제 기반 방법과 통계기반 방법이 있다.

통계 기반 자동번역(Stochastic Machine Translation, SMT) 기술은 통계적 분석을 통해 이중언어 말뭉치로부터 모델 파라미터를 학습하여 문장을 번역하는 기술이다. 문법이나 의미표상을 개발할 때 수작업으로 하지 않고 번역하고자 하는 언어 쌍에 대한 말뭉치로부터 번역에 필요한 모델을 만든다. 그래서 말뭉치만 확보할 수 있다면 비교적 용이하게 언어 확장을 할 수 있다.

통계 기반 자동번역 기술의 단점은, 대규모의 이중언어 말뭉치가 필요하고, 다수의 언어들을 연결하는 공통된 의미표상이 없다는 것이다.

이러한 단점을 보완하기 위한 기술이 인공신경망 번역(Neural Machine Translation, NMT)이다.

SMT는 문장을 단어 또는 몇 개의 단어가 모인 구 단위로 쪼갠 뒤 통계적 모델에 기반해 번역하는 방식이다. 방대한 학습 데이터를 바탕으로 통계적 번역 규칙을 모델링하는 게 핵심이다.

이와 달리 NMT는 인공지능(AI)이 문장을 통째로 번역한다. 문장 단위 번역이 가능한 이유는 인공신경망이 문장 정보를 가상공간의 특정 지점을 의미하는 벡터(좌표값)로 변환하기 때문이다.

가령 '사람'이란 단어를 '[a, b, c, …, x, z]' 형태로 인식한다. 벡터에는 단어, 구절, 어순 등의 정보가 전부 들어있기 때문에 문맥을 이해한 문장 단위 번역이 가능하다. 인공신경망은 비슷한 의미를 담은 문장들을 서로 가까운 공간에 배치한다.

NMT 기술에서 고차원의 벡터가 활용된다. 출발어의 문장과 도착어의 문장으로 이루어진 학습 데이터를 활용하여 인공신경망을 학습시키고, 학습된 인공신경망은 문장 정보를 벡터로 인식하게 된다.

도 5를 다시 참조하면, 저장 모듈(330)은 기본적으로 음성인식 DB 및 번역 DB를 저장하고 추가적으로 TTS 엔진을 저장할 수 있다. 또한 저장 모듈(300)은 사용자 단말(200)과 통역 서버(300)의 연동을 위해 사용자 단말(200)이 저장하고 있는 클라이언트 프로그램에 대응하는 서버 프로그램을 저장한다.

본 발명의 일 실시 예에 따른, 음성인식 DB는, 딥 러닝의 알고리즘을 이용하여 다양한 발화로 인한 음성을 학습시키고 발화 내용의 빈도수에 따라 인식 범위를 축소 또는 확대시켜 구축된 DB인 것을 특징으로 한다. 즉 빈도수가 높은 발화 내용을 인식시키기 위해서는 DB 양을 상대적으로 늘리고, 빈도수가 낮은 발화 내용을 인식시키기 위해서는 DB 양을 대폭 줄이는 것이다.

완성도 높은 음성인식률을 얻기 위해서는 음성인식 DB의 양이 많을수록 유리하나, 시간의 지연 및 과부하의 문제점이 있기 마련인데, 상기 방법에 따르면 DB 전체량을 줄임으로써 저용량의 DB를 구축하는 것이 가능하다.

또한, 번역 DB에 대해서도, 상기 방법과 마찬가지로, 딥 러닝의 알고리즘을 이용하여 다양한 번역 예를 학습시키고, 번역 예의 빈도수에 따라 구어체 표현을 확대하고, 문어체 표현을 축소시켜 DB를 구축할 수 있다.

따라서 본 발명에 따른 음성인식 모듈(310)과 번역 모듈(320)은, 빈도수를 고려하지 않고 구축된 DB 대비, 저용량의 음성인식 DB 또는 번역 DB를 이용할 수 있다.

여기서, 저장 모듈(330)은 휘발성의 RAM 및 비휘발성의 ROM, 플래시 메모리를 포함하고, 그 기능에 따라 각종 디지털 파일을 저장한다.

발화자 사이에서 어느 한 측의 발화가 끝나고 상대방의 발화가 있다는 보장은 없다. 따라서 동시에 발생할 수 있는 발화에 있어서, 동시에 입력되는 이종의 음성을 구별할 필요가 있다. 이를 해결하기 위해, 제어 모듈(370)은, 발화자 음성의 사운드 스펙트럼을 이용하여 음색의 특징을 결정하고, 결정된 음색의 특징을 이용하여 동시 발화된 이종 언어의 음성을 필터를 이용하여 필터링한다. 이에 따라 이종 언어 음성의 발화자가 구별되고, 필터링에 의해 이종 언어의 음성이 서로 분리 될 수 있다.

더 나아가, 제어 모듈(370)은, 동시 발화된 이종 언어의 음성에 대해, 샘플 음성의 번역 결과에 따른 점수(scoring)를 이용하여 이종 언어들이 어느 나라의 언어에 해당하는지 구별하는 것을 특징으로 한다.

구체적으로 영어과 국어의 음성이 혼재되어 입력되는 경우에, 영어 발화자의 음색과 국어 발화자의 음색의 특징에 따른 필터링된 음성 신호에 대해 하나의 음성 신호에 대해 영어 및 국어로, 다른 하나의 음성 신호에 대해 국어 및 영어로 번역을 시도하여 이를 점수로 환산하여 가장 높은 점수를 획득한 번역을 채택함으로써 해당 언어가 어느 나라 언어인지를 결정한다.

본 발명의 일 실시 예에 따라, 클라이언트 프로그램을 이용하여 통역장치(100)와 사용자 단말(200)이 담당하게 될 언어 설정이 자동으로 수행될 수 있다. 즉, 제어 모듈(109)을 포함하여, 제어부(207)는 사용자 단말(200)의 설정 언어를 참조하여 출발어를 한국어를 자동 설정할 수 있다.

추가적으로 이종 언어로 설정된 사용자 단말(200)이 일정 거리 내에 있는 경우, 각각의 사용자 단말의 언어 설정을 참조하여 출발어와 목적어가 자동 설정될 수 있다.

또한, 제어부(207)는 통역장치(100)를 통해 발화되는 음성의 샘플을 이용하여 번역의 완성도에 대한 점수를 매겨서 가장 높은 점수를 받은 언어를 도착어로 자동 설정한다.

이하 본 발명의 일 실시 예에 따른 통역방법에 대해 설명하기로 한다.

도 6은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.

도 6을 참조하면, 상기 통역 시스템은 웨어러블 기기(100), 사용자 단말(200), 통역 서버(300), 데이터베이스(350) 및 통신망(400)을 포함한다.

도 6에서 동시통역을 수행하고 있는 2명의 대화자 사이에서, 웨어러블 기기(100)는 제1 발화자의 입력 및 출력장치로 사용되고, 사용자 단말은 제2 발화자의 입력 및 출력장치로 사용될 수 있다. 입력은 당해 발화자에 의해 발화된 음성의 입력을 의미하고, 출력은 상대 발화자에 의해 발화된 음성이 통역되어 당해 발화자에 들리는 것을 의미한다.

도 7은 본 발명의 일 실시 예에 따른 도 6의 통역방법의 순서도이다.

도 7을 참조하면, 상기 통역방법은, 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계(S110); 웨어러블 기기(100)에 내장된 마이크로폰을 통해 입력된 제1 발화자의 음성 신호가 사용자 단말(200) 및 통역 서버(300)의 통역 과정을 거치고, 다시 사용자 단말(200)의 스피커를 통해 제2 발화자에게 출력되는 단계(S120); 및 사용자 단말(200)에 내장된 마이크로폰을 통해 입력된 제2 발화자의 음성 신호가 통역 서버(300)의 통역 과정을 거치고, 다시 사용자 단말(200)에 연결된 웨어러블 기기(100)의 스피커를 통해 출력되는 단계(S130)를 포함하는 것을 특징으로 한다.

여기서, 웨어러블 기기(100)에 내장된 마이크로폰은, 귓속 마이크로폰 및 골도 마이크로폰 중에서 적어도 하나를 포함한다.

또한, 사용자 단말(200)은, 웨어러블 기기(100)를 통한 입력과 자체에 내장된 마이크로폰을 통한 입력을 분리하여 처리하는 것을 특징으로 한다.

또한, 제1 발화자와 제2 발화자의 음성 신호의 입력 및 합성 음성의 출력에 따라 사용자 단말(200)의 입력 채널 및 출력 채널이 조정되는 것을 특징으로 한다. 따라서 사용자 단말(200)은 단일의 입력 및 출력 채널을 사용하는 경우라면, 단일의 채널을 제1 발화자의 입력 및 출력과 제2 발화자의 입력 및 출력에 따라 웨어러블 기기(100)에 내장된 마이크로폰과 스피커와 사용자 단말에 내장된 마이크로폰과 스피커 사이를 전환시켜야 한다.

도 7을 다시 참조하면, S110 및 S120에서 번역정보는 번역된 텍스트 또는 TTS 정보를 포함할 수 있다. 번역된 텍스트를 수신하는 경우 사용자 단말(200)은 내장된 TTS 엔진을 이용하여 번역된 텍스트를 통역된 음성으로 변환하여 출력한다. 반대로 TTS 정보를 수신하는 경우 사용자 단말(200)은 재생장치를 이용하여 TTS 정보를 음성으로 출력한다. 상기 과정은 이하 번역 정보를 출력 과정에 동일하게 적용될 수 있다.

도 8은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.

도 8을 참조하면, 상기 통역 시스템은 제1 웨어러블 기기(110), 제2 웨어러블 기기(120), 사용자 단말(200), 통역 서버(300), 데이터베이스(350) 및 통신망(400)을 포함한다.

여기서, 제1 웨어러블 기기(110)는 제1 발화자의 입력 및 출력장치로 사용되고, 제2 웨어러블 기기(120)는 제2 발화자의 입력 및 출력장치로 사용될 수 있다. 사용자 단말은(200) 웨어러블 기기(110, 120)와 통역 서버(300) 사이에서 중계 역할을 한다.

도 9는 본 발명의 일 실시 예에 따른 도 8의 통역방법의 순서도이다.

도 9를 참조하면, 상기 통역방법은, 제1 및 제2 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계(S210); 제1 웨어러블 기기가 제1 발화자의 음성 신호를 사용자 단말에 전송하는 단계(S220); 상기 사용자 단말 및 통역 서버를 거쳐 통역된 상기 제1 발화자의 음성 신호에 대응되는 합성 음성을 제2 웨어러블 기기가 제2 발화자에 출력하는 단계(S230); 제2 웨어러블 기기가 제2 발화자의 음성 신호를 사용자 단말에 전송하는 단계(S240); 및 상기 사용자 단말 및 통역 서버를 거쳐 통역된 상기 제2 발화자의 음성 신호에 대응하는 합성 음성을 제1 웨어러블 기기가 제1 발화자에 출력하는 단계(S250)를 포함하는 것을 특징으로 한다.

여기서, 제1 웨어러블 기기(110) 및 제2 웨어러블 기기(120)에 내장된 마이크로폰은, 귓속 마이크로폰 및 골도 마이크로폰 중에서 적어도 하나를 포함한다.

또한, 사용자 단말(200)은, 제1 웨어러블 기기(110) 및 제2 웨어러블 기기(120)를 통한 입력 및 출력을 분리하여 처리하는 것을 특징으로 한다.

또한, 제1 발화자의 음성 신호의 입력 및 합성 음성의 출력과 제2 발화자의 음성 신호의 입력 및 합성 음성의 출력은, 사용자 단말(100)과의 관계에서 서로 다른 채널을 통해 처리되는 것을 특징으로 한다.

따라서 사용자 단말(200)은 단일의 입력 및 출력 채널을 사용하는 경우라면, 단일의 채널을 제1 발화자의 입력 및 출력과 제2 발화자의 입력 및 출력에 따라 제1 웨어러블 기기(110)에 내장된 마이크로폰과 스피커와 제2 웨어러블 기기(120)에 내장된 마이크로폰과 스피커 사이를 전환시켜야 한다.

도 10은 본 발명의 일 실시 예에 따른 통역 시스템의 예시도이다.

도 10을 참조하면, 상기 통역 시스템은 제1 웨어러블 기기(110), 제1 사용자 단말(210), 제2 웨어러블 기기(120), 제2 사용자 단말(220), 통역 서버(300), 데이터베이스(350) 및 통신망(400)을 포함한다. 상기 도 8과 비교하여 제2 사용자 단말(220)이 추가된 통역 시스템이다.

도 11은 본 발명의 일 실시 예에 따른 도 10의 통역방법의 순서도이다.

도 11을 참조하면, 상기 통역방법은, 제1 사용자 단말(210)과 제2 사용자 단말(220)이 페어링을 수행하는 단계(S205)를 더 포함한다. S205 단계는 S210 단계에 와도 무관한다.

여기서, 제1 및 제2 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계는, 제1 웨어러블 기기(110)가 제1 사용자 단말(210)에 페어링을 수행하고(S211), 제2 웨어러블 기기(120)가 제2 사용자 단말(220)에 페어링을 수행하는(S212) 것을 특징으로 한다. 도 8의 통역 시스템과의 참이점은, 한 대의 사용자 단말(200)과 두 대의 사용자 단말(210, 220)이 사용되는 것이다. 따라서 도 10에서는 하나의 사용자 단말(210, 220)에 한 대의 웨어러블 기기(110, 120)가 페어링 되므로 채널에 관한 제약이 없다.

종합적으로, 본 발명의 일 실시 예에 따른 통역방법은, 다양한 실시 예에 따라 상대방을 위한 입력/출력 장치를 마련하고, 출발어와 도착어를 분리하여 입력함으로써 음성인식의 품질이 높일 수 있고, 만일을 대비해 동시에 발화된 이종 언어의 발화자를 사운드 스펙트럼을 이용하여 발화자의 음색에 따라 구별하고, 통역 품질에 해당하는 통역 만족도에 관한 점수를 이용하여 언어의 종류를 구별할 수 있는 통역방법에 관한 것이다.

이상으로 본 발명은 도면에 도시된 실시 예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 판단되어야 할 것이다.

11, 200: 사용자 단말 12, 300: 통역 서버
13: 데이터베이스 14: 통신망
100: 웨어러블 기기 110: 통신 유닛
120: 디스플레이 유닛 130: 저장 유닛
140: 입력 유닛 150: 출력 유닛
160: 전원 유닛 170: 제어 유닛
210: 통신부 220: 디스플레이부
230: 저장부 240: 입력부
250: 출력부 260: 전원부
270: 제어부 310: 음성인식 모듈
320: 번역 모듈 330: 재생 모듈
340: 저장 모듈 350: 입력 모듈
360: 출력 모듈 370: 전원 모듈
380: 통신 모듈 390: 제어 모듈

Claims

웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계;
상기 웨어러블 기기에 내장된 마이크로폰을 통해 입력된 제1 발화자의 음성 신호가 상기 사용자 단말 및 통역 서버의 통역 과정을 거치고, 다시 상기 사용자 단말의 스피커를 통해 제2 발화자에게 출력되는 단계; 및
상기 사용자 단말에 내장된 마이크로폰을 통해 입력된 상기 제2 발화자의 음성 신호가 통역 서버의 통역 과정을 거치고, 다시 상기 사용자 단말에 연결된 상기 웨어러블 기기의 스피커를 통해 출력되는 단계를 포함하는 것을 특징으로 하는, 통역방법.
제1 및 제2 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계;
제1 웨어러블 기기가 제1 발화자의 음성 신호를 사용자 단말에 전송하는 단계;
상기 사용자 단말 및 통역 서버를 거쳐 통역된 상기 제1 발화자의 음성 신호에 대응되는 합성 음성을 제2 웨어러블 기기가 제2 발화자에 출력하는 단계;
제2 웨어러블 기기가 제2 발화자의 음성 신호를 사용자 단말에 전송하는 단계; 및
상기 사용자 단말 및 통역 서버를 거쳐 통역된 상기 제2 발화자의 음성 신호에 대응하는 합성 음성을 제1 웨어러블 기기가 제1 발화자에 출력하는 단계를 포함하는 것을 특징으로 하는, 통역방법.
청구항 2에 있어서,
상기 통역방법은,
제1 사용자 단말과 제2 사용자 단말이 페어링을 수행하는 단계를 더 포함하고,
제1 및 제2 웨어러블 기기가 사용자 단말에 페어링을 수행하는 단계는,
제1 웨어러블 기기가 제1 사용자 단말에 페어링을 수행하고,
제2 웨어러블 기기가 제2 사용자 단말에 페어링을 수행하는 것을 특징으로 하는 것을 포함하는, 통역방법.
청구항 1에 있어서,
상기 웨어러블 기기에 내장된 마이크로폰은,
귓속 마이크로폰 및 골도 마이크로폰 중에서 적어도 하나를 포함하고,
상기 사용자 단말은, 상기 웨어러블 기기를 통한 입력과 자체에 내장된 마이크로폰을 통한 입력을 분리하여 처리하는 것을 특징으로 하는, 통역방법.
청구항 2에 있어서,
상기 제1 및 제2 웨어러블 기기에 내장된 마이크로폰은,
귓속 마이크로폰 및 골도 마이크로폰 중에서 적어도 하나를 포함하고,
상기 사용자 단말은, 상기 제1 및 제2 웨어러블 기기를 통한 입력 및 출력을 분리하여 처리하는 것을 특징으로 하는, 통역방법.
청구항 4에 있어서,
제1 발화자와 제2 발화자의 음성 신호의 입력 및 합성 음성의 출력에 따라 상기 사용자 단말의 입력 채널 및 출력 채널이 조정되는 것을 특징으로 하는, 통역방법.
청구항 5에 있어서,
제1 발화자의 음성 신호의 입력 및 합성 음성의 출력과 제2 발화자의 음성 신호의 입력 및 합성 음성의 출력은, 상기 사용자 단말과의 관계에서 서로 다른 채널을 통해 처리되는 것을 특징으로 하는, 통역방법.