KR20210124050A

KR20210124050A - 자동 통역 서버 및 그 방법

Info

Publication number: KR20210124050A
Application number: KR1020210039602A
Authority: KR
Inventors: 윤승; 김상훈; 이민규
Original assignee: 한국전자통신연구원
Priority date: 2020-04-03
Filing date: 2021-03-26
Publication date: 2021-10-14
Also published as: KR102592613B1

Abstract

본 발명의 제로 유아이(zero UI) 기반의 자동 통역 방법은, 복수의 단말 장치들로부터 복수의 사용자들이 발성한 복수의 음성 신호들을 수신하는 단계; 상기 수신한 복수의 음성 신호들로부터 복수의 음성 에너지들을 획득하는 단계; 상기 획득한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 현재의 발화 차례에서 발화된 메인 음성 신호를 결정하는 단계; 및 상기 결정된 메인 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계를 포함한다.

Description

자동 통역 서버 및 그 방법{AUTOMATIC INTERPRETATION SERVER AND METHOD THEREOF}

본 발명은 자동 통역 서버 및 방법에 관한 것으로, 특히, 표시 화면과 같은 사용자 인터페이스(User Interface: UI)가 필요하지 않은 제로 유아이(Zero UI) 기반의 자동 통역 서버 및 그 방법에 관한 기술이다.

음성 인식, 자동 번역 및 음성 합성 기술의 발달에 따라, 자동 통역 기술이 널리 확산되고 있다. 자동 통역 기술은 일반적으로 스마트폰 또는 자동 통역을 위한 전용 단말기에 의해 수행된다.

사용자는 스마트폰 또는 전용 단말기에서 제공하는 화면을 터치하거나 버튼을 클릭한 후, 스마트폰 또는 전용 단말기를 입 근처에 가까이 대고 통역하고자 하는 문장을 발성한다.

이후 스마트폰 또는 전용 단말기는 음성 인식 및 자동 번역 등을 통해 사용자의 발화 문장으로부터 번역문을 생성하고, 그 번역문을 화면에 출력하거나 음성 합성을 통해 그 번역문에 대응하는 통역된 음성을 출력하는 방식으로 통역 결과를 상대방에게 제공한다.

이처럼 스마트폰 또는 전용 단말기에 의해 수행되는 일반적인 자동 통역 과정은 통역하고자 하는 문장을 발성할 때마다 스마트폰 또는 전용 단말기의 터치 동작 또는 클릭 동작을 요구한다.

또한 스마트폰 또는 전용 단말기에 수행되는 일반적인 자동 통역 과정은 사용자가 통역하고자 하는 문장을 발성할 때마다 스마트폰 또는 전용 단말기를 입 근처로 가져오는 동작을 반복적으로 요구한다.

이러한 동작들은 사용자에게 매우 불편한 동작들이며, 자연스러운 대화를 방해하는 요소들이다.

상술한 문제점을 해결하기 위한 본 발명의 목적은, 사용자가 통역하고자 하는 문장을 발성할 때마다 수행하는 불필요한 동작 없이, 상대방과의 자연스러운 대화를 수행할 수 있는 자동 통역 시스템 및 그 방법을 제공하는 데 있다.

본 발명의 다른 목적은, 사용자의 음성이 상대방의 자동 통역 단말 장치로 입력되거나 반대로 상대방의 음성이 사용자의 자동 통역 단말 장치로 입력되는 상황에서 사용자의 자동 통역 단말 장치 및/또는 상대방측 사용자의 자동 통역 단말 장치가 오동작하는 문제를 해결할 수 있는 자동 통역 시스템 및 그 방법을 제공하는 데 있다.

본 발명의 전술한 목적 및 그 이외의 목적과 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부된 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다.

상술한 목적을 달성하기 위한 본 발명의 일면에 따른 제로 유아이(zero UI) 기반의 자동 통역 방법은, 마이크 기능, 스피커 기능, 통신 기능 및 웨어러블 기능을 갖는 복수의 단말 장치들과 통신하는 서버에서 수행되는 자동 통역 방법으로서, 복수의 단말 장치들로부터 복수의 사용자들이 발성한 복수의 음성 신호들을 수신하는 단계; 상기 수신한 복수의 음성 신호들로부터 복수의 음성 에너지들을 획득하는 단계; 상기 획득한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 현재의 발화 차례에서 발화된 메인 음성 신호를 결정하는 단계; 및 상기 결정된 메인 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계를 포함한다.

본 발명의 다른 일면에 따른 제로 유아이(zero UI) 기반의 자동 통역 서버는, 복수의 단말 장치들 및 상기 복수의 단말 장치들과 통신하는 자동 통역 서버로서, 상기 자동 통역 서버는 적어도 하나의 프로세서, 메모리 및 이들을 연결하는 시스템 버스를 포함하는 컴퓨팅 장치로 구현되고, 상기 프로세서의 제어에 따라, 각 단말 장치의 사용자 단말로부터 복수의 음성 신호들을 수신하는 통신부; 상기 프로세서의 제어에 따라, 상기 수신한 복수의 음성 신호들로부터 복수의 음성 에너지들을 계산하는 음성 에너지 계산부; 상기 프로세서의 제어에 따라, 상기 획득한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 현재의 발화 차례에서 발화자의 음성 신호를 결정하는 발화자 판단부; 및 상기 프로세서의 제어에 따라, 상기 발화자의 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 통신부를 통해 상기 복수의 단말 장치들로 전송하는 자동 통역부를 포함한다.

본 발명의 자동 통역 단말 장치는 웨어러블 기기의 형태로 구현되어, 자동 통역을 수행하기 위한 화면 또는 버튼과 같은 사용자 인터페이스가 필요하지 않기 때문에, 사용자가 단말기의 화면을 터치하거나 버튼을 클릭하는 불필요한 동작없이, 자동 통역을 처리함으로써, 사용자와 상대방 간의 자연스러운 대화가 가능하다.

또한, 제1 사용자와 제2 사용자 사이의 대화 과정에서, 각 사용자가 발화한 음성 신호의 에너지 세기를 이용하여 자동 통역이 필요한 음성을 실제 발화한 사용자를 결정하고, 결정된 사용자의 음성 신호에 대해 자동 통역을 수행함으로써, 제1 사용자의 음성이 제2 사용자의 단말기로 입력되어, 제2 사용자의 단말기가 제1 사용자의 음성에 대한 자동 통역을 수행하는 오동작을 방지할 수 있다.

이러한 효과를 통해 본 발명은 면대면 상황에서 제로(zero) UI 기반의 자연스러운 자동 통역 대화를 가능하게 한다.

도 1은 본 발명의 실시 예에 따른 자동 통역 시스템의 전체 구성도이다.
도 2a 및 2b는 본 발명의 실시 예에 따른 자동 통역 방법을 나타내는 흐름도이다.
도 3은 본 발명의 실시 예에 따른 잡음 제거 과정(도 2b의 S229)을 나타내는 흐름도이다.
도 4는 본 발명의 실시 예에 따른 자동 통역 서버의 전체 구성도이다.

본 발명에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명은, 웨어러블 기기 형태로 구현된 자동 통역 단말 장치와 그 방법을 제공함으로써, 사용자가 통역하고자 하는 문장을 발성할 때 마다, 단말기의 화면을 터치하거나 버튼을 클릭해야 하는 불필요한 동작없이, 사용자들은 자동 통역 기반의 자연스러운 대화를 나눌 수 있다.

또한, 본 발명은 다수의 사용자들이 자동 통역 기반의 대화를 수행하는 과정에서, 각 사용자가 발화한 음성의 에너지 세기를 분석하여, 자동 통역을 필요로 하는 음성을 발화한 사용자를 결정하고, 그 결정된 사용자의 음성에 대해 자동 통역을 수행한다.

이렇게 함으로써, 사용자의 음성이 다른 사용자의 단말기로 입력되어, 다른 사용자의 자동 통역 단말기가 상기 사용자의 음성에 대해 자동 통역을 수행하거나, 반대로 사용자의 단말기가 다른 사용자의 음성에 대해 자동 통역을 수행하는 오동작을 방지할 수 있다.

도 1은 본 발명의 실시 예에 따른 자동 통역 시스템의 전체 구성도이다.

도 1에서는, 2명의 사용자들이 자동 통역 기반의 대화를 하는 상황을 도시한 것으로, 이를 한정하는 것은 아니다. 따라서, 본 발명은 3명 이상의 사용자들이 자동 통역 기반의 대화를 나는 상황에서도 적용될 수 있다.

도 1을 참조하면, 본 발명의 실시 예에 따른 자동 통역 시스템(500)은 제1 사용자의 제1 자동 통역 단말 장치(100), 자동 통역 서버(200), 및 제2 사용자의 제2 자동 통역 단말 장치(300)를 포함한다. 본 명세서에 첨부된 특허 청구범위애서는 자동 통역 단말 장치가 '단말 장치'로 표기되고, 자동 통역 서버가 '서버'로 표기될 수 있다.

제1 및 제2 사용자는 자동 통역 기반의 대화를 나누는 사용자들로서, 제1 사용자는 제1 언어를 사용할 수 있는 사용자이고, 제2 사용자는 상기 제1 언어와 다른 제2 언어를 사용할 수 있는 사용자로 가정한다.

제1 자동 통역 단말 장치(100)는 유선 또는 무선 통신으로 연결된 제1 웨어러블 기기(110)와 제1 사용자 단말(120)을 포함한다.

제1 웨어러블 기기(110)는 제1 음성 수집기(112), 제1 통신부(114) 및 제1 음성 출력기(116)를 포함한다.

제1 음성 수집기(112)는 제1 언어를 사용하는 제1 사용자의 음성을 수집하는 구성으로, 예를 들면, 고성능 소형 마이크 기능을 구비한 장치일 수 있다. 제1 음성 수집기(112)는 제1 사용자의 음성을 음성 신호로 변환하여 제1 통신부(116)로 전달한다.

제1 통신부(114)는 제1 음성 수집기(112)로부터 전달된 제1 사용자의 음성 신호를 유선 또는 무선 통신 방식에 따라 제1 사용자 단말(120)로 송신한다.

제1 통신부(114)와 제1 사용자 단말(120)을 연결하는 무선 통신의 종류는, 예를 들면, 블루투스 통신, 블루투스 저에너지 통신(Bluetooth Low Energy: BLE)과 같은 근거리 무선 통신일 수 있다.

제1 통신부(114)는 통신을 위한 로직 이외에, 웨어러블 기기(110)의 전반적인 동작을 제어 및 관리하는 적어도 하나의 프로세서를 포함할 수 있다.

제1 사용자 단말(120)은 제1 통신부(116)로부터 송신된 제1 사용자의 음성 신호를 무선 통신 방식에 따라 자동 통역 서버(200)로 송신한다. 제1 사용자 단말(120)은, 예를 들면, 스마트 폰, PDA(Personal Digital Assistant), 핸드 헬드(Hand-Held) 컴퓨터 등의 휴대용 단말일 수 있다.

제1 사용자 단말(120)과 자동 통역 서버(200)를 연결하기 위한 무선 통신의 종류는, 예를 들면, 3세대(3G) 무선 통신, 4세대(4G) 무선 통신 또는 5세대(5G) 무선 통신일 수 있다.

자동 통역 서버(200)는 제1 사용자 단말(120)로부터 송신된 제1 사용자의 음성 신호에 대해 자동 통역 과정을 수행한다. 여기서, 자동 통역 과정은, 음성 검출 과정, 음성 인식 과정, 자동 번역 과정 및 음성 합성 과정을 포함한다.

음성 검출(Voice Activity Detection) 과정은, 제1 사용자의 음성 신호에서 실제 음성이 존재하는 음성 구간을 검출하는 과정으로, 실제 음성의 시작점(start point)과 끝점(end point)을 검출하는 과정이다.

음성 인식(speech recognition) 과정은 제1 언어를 사용하는 제1 사용자의 음성 신호를 분석하여 제1 언어로 된 문자 데이터로 변환하는 처리 과정이다.

자동 번역(automatic translation) 과정은 제1 언어로 된 문자 데이터를 분석하여 제2 사용자가 사용하는 제2 언어로 된 문자 데이터(이하, '자동 번역된 번역문'이라 함)로 변환하는 처리 과정이다.

음성 합성(speech synthesis) 과정은 제2 언어로 된 문자 데이터를 음성(자동 통역된 음성 신호 또는 합성음)으로 변환하는 처리 과정이다.

음성 검출 과정, 음성 인식 과정, 자동 번역 과정 및 음성 합성 과정은 도시하지는 않았으나, 자동 통역 서버(200)에 탑재된 음성 검출기, 음성 인식기, 자동 번역기 및 음성 합성기에 의해 구현될 수 있다.

음성 검출기, 음성 인식기, 자동 번역기 및 음성 합성기 각각은 적어도 하나의 프로세서에 의해 실행되거나 제어되는 소프트웨어 모듈, 하드웨어 모듈 또는 이들의 조합으로 구현될 수 있다.

음성 검출기, 음성 인식기, 자동 번역기 및 음성 합성기가 소프트웨어 모듈로 구현된 경우, 소프트웨어 모듈은, 기계학습 방법으로 학습된 인공 신경망 모델로 지칭할 수도 있다.

한편, 상기 음성 인식기는 언어 식별이 가능한 종단형(end-to-end) 구조를 갖는 음성 인식기일 수 있다.

일반적인 음성 인식기는 기능에 따라 구분되는 언어 모델, 음향 모델 및 발음 사전 등과 같은 구성들을 포함하지만, 언어 식별이 가능한 종단형 음성 인식기는 음성 인식에 필요한 모든 기능들을 하나의 신경망으로 훈련시킨 것이다.

즉, 언어 식별이 가능한 종단형 음성 인식기는 서로 다른 A 언어와 B 언어가 혼재된 훈련 데이터를 이용하여 음성 인식이 가능하도록 훈련된 신경망이다.

이러한 언어 식별이 가능한 종단형 음성 인식기는, A언어로된 음성 신호가 입력되면, A 언어로 된 텍스트를 출력하고, B언어로 된 음성 신호가 입력되면, B언어로된 텍스트를 출력하게 된다.

음성 인식기가 종단형 구조로 갖지 않더라도 본 발명의 따른 자동 통역 방법의 수행 및 자동 통역 시스템의 동작에는 큰 문제가 없다. 다만, 종단형 구조의 음성 인식기의 경우, 언어 식별 기능을 효과적으로 제공하기 때문에, 종단형 음성 인식기를 사용하는 것이 바람직하다.

또한, 음성 검출기, 음성 인식기, 자동 번역기 및 음성 합성기는 통합된 하나의 모듈로 구현될 수 있으며, 이 경우, 통합된 하나의 모듈은 종단형 자동 통역기로 지칭될 수 있다.

본 발명은 음성 검출, 음성 인식, 자동 번역 및 음성 합성과 관련된 구체적인 알고리즘에 특징이 있는 것이 아니므로, 이들 처리 과정에 대한 설명은 공지 기술로 대신한다.

다만, 음성 검출 과정은, 제1 사용자 단말(120)에서 수행될 수 있고, 이 경우, 자동 통역 서버(200)에서 수행되는 자동 통역 과정에서 음성 검출 과정은 생략될 수 있다.

자동 통역 서버(200)는 제1 사용자의 음성 신호에 대해 수행된 자동 통역 과정에 따라 생성된 자동 통역 결과를 제2 자동 통역 단말 장치(300)로 송신한다.

자동 통역 결과는 음성 인식 과정에 의해 생성된 음성 인식 결과, 자동 번역 과정에 의해 생성된 자동 번역된 번역문 및 음성 합성 과정에 의해 생성된 자동 통역된 음성 신호를 포함한다. 여기서, 음성 인식 결과는 제1 사용자가 사용하는 제1 언어로 된 문자 데이터이고, 자동 번역된 번역문은 제2 사용자가 사용하는 제2 언어로 된 문자 데이터이고, 자동 통역된 음성 신호는 제2 사용자가 사용하는 제2 언어로 된 음성 신호이다.

자동 통역 서버(200)는 자동 번역된 번역문 및/또는 자동 통역된 음성 신호를 제2 자동 통역 단말 장치(300)로 송신한다. 추가적으로, 자동 통역 서버(200)는 음성 인식 결과를 제1 사용자 단말(120)로 송신할 수도 있다.

자동 통역 서버(200)는 자동 통역 과정을 수행하고, 자동 통역 과정에 따라 생성된 자동 통역 결과를 제2 자동 통역 단말 장치(300)로 송신하기 위해, 도 1에서는 도시하지 않았으나, 적어도 하나의 프로세서, 메모리 및 통신부를 포함하는 컴퓨팅 장치로 구현될 수 있다.

적어도 하나의 프로세서는, 음성 검출, 음성 인식, 자동 번역 및 음성 합성과 관련된 연산을 수행하거나, 이들과 관련된 알고리즘을 실행하는 것일 수 있다.

메모리는, 적어도 하나의 프로세서에 의해 처리된 중간 결과 및 최종 결과를 일시적으로 또는 영구적으로 저장하는 구성으로, 휘발성 메모리 및 비휘발성 메모리를 포함한다.

통신부는 사용자 단말들(120, 310)과 자동 통역 서버(200) 사이의 정보 교환을 위한 무선 통신을 지원한다. 여기서, 무선 통신은, 3G 통신, 4G 통신, 5G통신 중에서 적어도 하나의 통신일 수 있다.

제2 자동 통역 단말 장치(300)는 유선 또는 무선 통신으로 연결된 제2 사용자 단말(310)과 제2 웨어러블 기기(320)를 포함한다.

제2 사용자 단말(310)은, 자동 통역 서버(200)로부터 자동 번역된 번역문 및/또는 자동 통역된 음성 신호를 수신하고, 이중에서 자동 통역된 음성 신호를 제2 웨어러블 기기(320)로 송신한다. 제2 사용자 단말(310)은, 예를 들면, 스마트 폰, PDA(Personal Digital Assistant), 핸드 헬드(Hand-Held) 컴퓨터 등의 휴대용 단말일 수 있다.

한편, 자동 통역 기반의 대화에 참여하는 제1 사용자 단말과 제2 사용자 단말 사이의 통신 연결을 구성한다.

통신 연결을 구성하기 위해, 제2 사용자 단말(310)은, 예를 들면, 무선 통신에 따라 제1 사용자 단말(120)과 연결(페어링)되거나, 서버를 통해 제1 및 제2 사용자 단말은 연결될 수 있다.

서버를 통해 제1 및 제2 사용자 단말이 연결되는 경우, 한쪽 사용자 단말은 상대방측 사용자 단말에 대한 사용자 정보 및 단말 정보 등을 수신하고, 반대로, 상대방측 사용자 단말이 한쪽 사용자 단말에 대한 사용자 정보 및 단말 정보를 등을 수신하여 연결을 시도하는 방식으로 통신 연결을 구성할 수 있다.

제1 및 제2 사용자 단말(120 및 310) 사이의 통신 연결(페어링)은 각 단말에 설치된 자동 통역 앱의 실행 또는 각 사용자 단말과 연동하는 웨어러블 기기의 특정 부위를 터치하는 동작에 따라 시작될 수 있다.

다른 예로, 제1 및 제2 사용자 단말(120 및 310) 사이의 통신 연결(페어링)은 사용자 단말과 연동하는 웨어러블 기기 내의 음성 수집기를 이용하여 음성 명령어(wake-up word)을 발성하는 방식으로 시작될 수도 있다.

제1 및 제2 사용자 단말(120 및 310) 사이의 통신 연결(페어링)은, 예를 들면, BLE 통신 규약에 기초한다. BLE 통신 규약에 따른 통신 연결의 경우, 제1 및 제2 사용자 단말(120 및 310) 중 어느 하나의 사용자 단말은 애드버타이저(advertiser)로 역할을 하고, 다른 하나의 사용자 단말은 옵저버(observer)로 역할을 한다.

제1 사용자 단말(120)이 애드버타이저로 역할을 하고, 제2 사용자 단말(310)이 옵저버(observer)로 역할을 할 때, 제1 사용자 단말(120)은 일정한 주기로 애드버타이징 신호를 브로드캐스팅하고, 제2 사용 단말(310)이 상기 애드버타이징 신호에 대한 스캔에 성공한 경우, 제1 사용자 단말(120)과 제2 사용 단말(310)은 페어링(pairing)된다.

제1 사용자 단말(120)과 제2 사용 단말(310)가 페어링 되어 통신 연결이 완료되면, 제1 사용자 단말(120)과 제2 사용 단말(310)은 1대1 통신을 수행할 있게 된다.

한편, 이러한 통신 연결 과정에서, 제1 및 제2 사용자 단말(120 및 310)은 자동 통역에 필요한 언어 정보 및 사용자 정보 등을 교환할 수 있다.

언어 정보는 한쪽 통역 단말 장치의 사용자가 상대방측 통역 단말 장치의 사용자가 사용하는 언어를 식별하기 위한 정보일 수 있다. 이 경우, 언어 정보는, 예를 들면, 상대방측 사용자가 사용하는 언어의 종류를 나타내는 정보일 수 있다.

이러한 정보들은, 제1 사용자 단말(120)과 제2 사용자 단말(310)이 페어링된 이후에 교환될 수 있다.

언어 정보의 교환에 따라, 상대방측 사용자가 사용하는 언어에 대한 자동 통역이 불가능한 경우, 양측 사용자 단말들은 표시 화면을 통해 연결 실패 메시지를 출력한다.

상대방측 사용자가 사용하는 언어에 대한 자동 통역이 가능한 경우, 사용자 단말들(120, 310)과 자동 통역 서버(200)가 모두 연결되어, 모든 참여자들이 대화에 참여할 수 있된다.

제2 웨어러블 기기(320)는 제2 통신부(322), 제2 음성 출력기(322), 제2 음성 수집기(324)를 포함한다.

제2 통신부(322)는 유선 또는 무선 통신 방식에 따라 제2 사용자 단말(310)로부터 자동 통역된 음성 신호를 수신하고, 이를 제2 음성 출력기(324)로 전달한다.

제2 통신부(322)와 제2 사용자 단말(310)을 연결하는 무선 통신의 종류는, 예를 들면, 블루투스 통신, 블루투스 저에너지 통신(Bluetooth Low Energy: BLE)과 같은 근거리 무선 통신일 수 있다.

제2 음성 출력기(324)는 제2 사용자 단말(310)로부터 전달된 자동 통역된 음성 신호를 출력한다. 제2 음성 출력기(324)는, 제2 사용자의 귀에 착용할 수 있는 이어폰 형태 또는 머리에 착용할 수 있는 헤드셋 형태로 구현된 고성능 스피커 기능을 구비한 장치일 수 있다.

제2 사용자는 이어폰 또는 헤드셋으로 구현된 제2 음성 출력기(324)를 착용함으로써, 제1사용자가 발화한 음성에 대해 자동 통역된 음성 신호를 편리하게 들을 수 있게 된다.

한편, 제2 음성 수집기(324)는 제2 사용자가 제2 언어로 발화한 음성을 수집하는 구성으로, 고성능 마이크 기능을 구비한 장치일 수 있다.

제2 음성 수집기(324)는 제2 사용자의 음성을 음성 신호로 변환하여, 제2 통신부(322)로 전달하고, 제2 통신부(322)는 제2 사용자의 음성 신호를 제2 사용자 단말(310)로 송신한다.

제2 사용자 단말(310)은 제2 사용자의 음성 신호를 자동 통역 서버(200)로 송신하고, 자동 통역 서버(200)는 제2 사용자의 음성 신호에 대해 자동 통역 과정을 수행하여 자동 번역된 번역문 및/또는 자동 통역된 음성 신호를 생성하여 이를 제1 자동 통역 단말 장치(100)의 제1 사용자 단말(120)로 송신한다.

제1 사용자 단말(120)은 자동 통역 서버(200)로부터 송신된 자동 번역된 번역문을 표시하고, 동시에 자동 통역된 음성 신호를 제1 통신부(114)를 통해 제1 음성 출력기(116)로 전달한다.

제1 음성 출력기(116)는 제2 음성 출력기(324)와 동일한 이어폰 또는 헤드셋 형태로 구현될 수 있으며, 동일한 방식으로 자동 통역된 음성 신호를 출력한다. 이처럼, 제1 사용자 역시, 제2 사용자가 제2 언어로 발화한 음성으로부터 통역된 제1 언어의 음성 신호를 편리하게 들을 수 있게 된다.

한편, 제1 사용자와 제2 사용자가 가까운 거리에서 자동 통역 기반의 대화를 나누는 상황에서, 제1 사용자의 음성이 제2 사용자의 제2 자동 통역 단말 장치(300)의 제2 음성 수집기(326)에 의해 수집되거나 반대로 제2 사용자의 음성이 제1 사용자의 제1 자동 통역 단말 장치(100)의 제1 음성 수집기(112)에 의해 수집되는 경우가 발생할 수 있다.

이 경우, 자동 통역 서버(300)는 제1 자동 통역 단말 장치(100)를 통해 수신된 제2 사용자의 음성 신호에 대한 자동 통역 과정을 수행하거나 제2 자동 통역 단말 장치(200)를 통해 수신된 제1 사용자의 음성 신호에 대한 자동 통역 과정을 수행하는 문제가 발생할 수 있다.

또한, 자동 통역 서버(300)가 동일한 시간대에서 제1 및 제2 자동 통역 단말 장치(100, 200)로부터 제1 사용자의 음성 신호와 제2 사용자의 음성 신호를 각각 수신하는 경우, 현재 발화 차례(turn)에서는 제1 사용자의 음성 신호에 대해 자동 통역 과정을 수행해야함에도 불구하고 제2 사용자의 음성 신호에 대해 자동 통역을 수행하거나 반대로 제2 사용자의 음성 신호에 대해 자동 통역 과정을 수행해야함에도 불구하고 제1 사용자의 음성 신호에 대해 자동 통역 과정을 수행하는 문제가 발생할 수 있다.

이러한 문제를 해결하기 위해, 자동 통역 서버(300)는 동일한 시간대에서 제1 및 제2 자동 통역 단말 장치(100, 200)로부터 제1 사용자의 음성 신호와 제2 사용자의 음성 신호를 각각 수신하는 경우, 현재 발화 차례(turn)에서 실제로 음성을 발화한 사용자, 즉, 우선 처리 대상에 해당하는 음성 신호를 결정하고, 그 결정된 음성 신호에 대해서 우선적으로 자동 통역 과정을 수행한다.

우선 처리 대상에 해당하는 음성 신호를 결정하기 위해, 제1 사용자의 음성 신호에 대한 에너지 세기와 제2 사용자의 음성 신호에 대한 에너지 세기를 비교하여, 더 높은 에너지 세기를 갖는 음성 신호를 우선 처리 대상에 해당하는 메인 음성 신호로서 결정한다.

자동 통역 서버(300)는 결정된 메인 음성 신호에 대해서 자동 통역 과정을 수행하고, 다른 음성 신호에 대해서는 자동 통역 과정을 수행하지 않거나 메인 음성 신호에 대한 자동 통역 과정을 수행한 이후에 자동 통역 과정을 수행할 수 있다.

이하, 도 1에 도시한 자동 통역 시스템을 기반으로 하는 자동 통역 방법에 대해 더욱 상세하게 설명하기로 한다.

도 2a 및 2b는 본 발명의 일 실시 예에 따른 자동 통역 방법을 나타내는 순서도이다.

먼저, 도 1에 도시된 제로(zero) 유아이(UI) 기반의 자동 통역 단말 장치(사용자 단말과 웨어러블 기기를 포함)를 소지한 복수의 사용자들이 대화를 나누는 상황을 가정한다. 또한, 복수의 사용자들은 서로 다른 언어를 사용하는 것으로 가정한다.

제로(zero) UI는 본 발명에 따른 자동 통역 단말 장치에서는 자연스러운 대화를 방해하는 동작을 요구하는 사용자 인터페이스가 없음을 의미한다.

먼저, 도 2a를 참조하면, 단계 S211에서, 복수의 사용자들이 구비한 자동 통역 단말 장치들 간의 통신 연결을 구성하는 과정이 수행된다. 여기서, 자동 통역 단말 장치들 간의 통신 연결은 한쪽 사용자가 소지한 자동 통역 단말 장치에 포함된 사용자 단말과 상대방측 사용자가 소지한 자동 통역 단말 장치에 포함된 사용자 단말 간의 통신 연결을 의미한다.

사용자가 3명 이상인 경우, 제3자가 소지한 자동 통역 단말 장치에 포함된 사용자 단말이 상기 통신 연결에 참여한다.

통신 연결은, 블루투스 로우 에너지(BLE) 등의 통신 규약에 따라 수행될 수 있다. 또는 통신 연결은 자동 통역 서버(200)에 사전 등록된 사용자 정보를 이용하여 수행될 수도 있다.

통신 연결은, 장비의 구현 방법에 따라, 상대방측 사용자와 거리가 가까워지면 자동으로 수행될 수 있다. 또한 통신 연결은 사용자 단말(스마트폰)에 설치된 자동 통역 앱을 실행하는 방법, 이어폰을 터치하는 방법, 또는 음성 명령어(wake-up word)를 발성하는 방법 등을 통해 수행될 수 있다.

이어, 단계 S213에서, 통신 연결이 완료되면, 사용자 단말들(120, 310)은 자동 통역에 필요한 정보를 교환한다. 여기서, 자동 통역에 필요한 정보는, 예를 들면, 언어의 종류를 식별 언어 정보, 사용자 정보 및 규격 등을 포함한다.

이어, 단계 S215에서, 한쪽 사용자가 소지한 사용자 단말(120)이 상대방측 사용자 단말(310)로부터 수신한 언어 정보를 확인하여, 한쪽 사용자가 사용하는 제1 언어를 상대방측 사용자가 사용하는 제2 언어로 자동 통역이 가능한지를 판단하는 과정이 수행된다.

제1 언어를 제2 언어로 자동 통역이 불가능한 경우, 단계 S217로 이동하여, 양측 사용자 단말(120, 310)은 연결 실패 메시지를 출력한다. 이때, 자동 통역 과정은 그대로 종료된다. 연결 실패를 자동 통역 서버(200)에게 통보하기 위해, 양측 사용자 단말(120, 310) 또는 어는 하나의 사용자 단말은 연결 실패 메시지를 자동 통역 서버(200)에게 송신할 수도 있다.

반대로 자동 통역이 가능한 경우, 단계 S219로 이동하고, 단계 S219에서, 자동 통역 단말 장치들(100, 300)은 연결 성공 메시지를 자동 통역 서버(200)로 송신하여, 자동 통역 서버(200) 및 자동 통역 단말 장치들(100, 300) 간의 통신 연결이 구성된다. 이렇게 함으로써, 자동 통역 서버(200)와 대화에 참여한 모든 사용자들은 연결된다.

이어, 단계 S221에서, 각 자동 통역 단말 장치에 포함된 사용자 단말이 음성 수집기를 통해 수집한 사용자의 음성 신호를 계속해서 자동 통역 서버(200)로 송신한다. 이때, 각 사용자 단말은 필요에 따라 시간 정보도 함께 자동 통역 서버(200)로 송신한다. 시간 정보는 자동 통역 서버(200)에서 사용자 단말들(100, 300)로부터 수신된 음성 신호들을 동기화시키는데 사용된다.

이어, 단계 S223에서, 자동 통역 서버(200)는 동기화된 음성 신호들에 대해 음성 검출을 수행하여 각 음성 신호에서 실제 음성이 존재하는 음성 구간을 검출한다. 음성 구간은 시작점과 끝점으로 정의된다. 따라서, 음성 검출은 세부적으로 음성 구간의 시작점을 검출하는 과정과 음성 구간의 끝점을 검출하는 과정을 포함할 수 있다.

본 명세서에 시작점 검출 과정과 끝점 검출 과정을 구분하는 경우, 시작점 검출 과정은 편의상 'VAD(Voice Activity Detection)'로 지칭하고, 끝점 검출 과정은 편의상 'EPD(End Point Detection) '로 지칭한다.

음성 신호로부터 음성 구간의 검출을 실패한 경우, 자동 통역의 시도는 종료된다. 음성 수집기(112, 326)에 사람의 음성이 아닌 돌발 잡음(sporadic noise)이 입력된 경우, 음성 구간은 검출되지 않기 때문에, 이 경우 역시 자동 통역의 시도는 종료된다.

이어, 도 2b를 참조하면, 단계 S225에서, 음성 신호들 각각의 음성 구간이 검출되면, 자동 통역 서버(200)는 각 음성 구간에 대한 음성 에너지를 계산한다. 여기서, 음성 에너지는, 예를 들면, 주파수 영역에서의 파워 스펙트럼 밀도(Power Spectrum Density)일 수 있다.

이어, 단계 S227에서, 자동 통역 서버(200)는 상기 계산된 음성 에너지들의 크기를 비교하여 메인 음성 신호와 레퍼런스 음성 신호를 결정한다.

메인 음성 신호를 결정하는 방법은, 예를 들면, 상기 계산된 음성 에너지들의 크기를 비교하여, 가장 큰 음성 에너지를 갖는 음성 구간을 선택하고, 그 선택된 음성 구간에 대응하는 음성 신호를 메인 음성 신호로 결정하는 것일 수 있다.

구체적으로, 단계 S225에서, 제1 음성 신호로부터 검출된 제1 음성 구간에서 제1 파워 스펙트럼 밀도를 계산하고, 제2 음성 신호로부터 검출된 제2 음성 구간에서 제2 파워 스펙트럼 밀도를 계산하는 과정이 수행된다.

이어, 단계 S227에서, 상기 계산된 제1 및 제2 파워 스펙트럼 밀도를 기반으로 제1 음성 구간에서의 파워 레벨과 제2 음성 구간에서의 파워 레벨 사이의 차이(Power Lever Difference)를 계산하는 방식으로 상기 계산된 음성 에너지들의 크기를 비교하는 과정이 수행된다. 즉, 파워 레벨이 가장 높은 음성 신호가 메인 음성 신호로 결정될 수 있다.

비교 과정은 동기화된 음성 구간 내에서 정의된 프레임 단위로 수행되며, 음성 구간의 끝점까지 수행된다. 각 음성 구간에서 계산된 파워 스펙트럼 밀도의 평균값을 비교하여 메인 음성 신호가 결정될 수도 있다.

또는 각 음성 구간 내에서 프레임 단위로 이동하면서, 에너지 크기 차이가 누적 평균 임계값에 도달하면, 이를 기준으로 메인 음성 신호가 결정될 수도 있다.

메인 음성 신호가 결정되면, 잡음 제거에 활용되는 레퍼런스 음성 신호가 결정된다.

일 예로, 자동 통역 서버(200)가 제1 사용자 단말(120)로부터 제1 사용자의 음성 신호를 수신하고, 제2 사용자 단말(310)로부터 제2 사용자의 음성 신호를 수신한 경우, 제1 사용자의 음성 신호가 메인 음성 신호로 결정되면, 제2 음성 신호를 레퍼런스 음성 신호로 결정할 수 있다.

다른 예로, 3인 이상의 복수의 사용자들이 대화에 참여하는 경우, 자동 통역 서버(200)가 3개 이상의 사용자 단말들로부터 수신한 3개 이상의 음성 신호들을 비교하여 음성 에너지의 크기가 가장 작은 음성 신호를 레퍼런스 음성 신호로 결정할 수 있다.

특정한 잡음이 존재하는 공간에서 3인 이상의 복수의 사용자들이 대화에 참여하는 경우, 자동 통역 서버(200)는 수신한 음성 신호들 중에서 음성 에너지의 크기가 중간 크기에 해당하는 음성 신호를 레퍼런스 음성 신호로 결정할 수도 있다.

여기서, 중간 크기는, 모든 음성 신호들로부터 계산된 음성 에너지들의 평균 크기일 수도 있다. 즉, 모든 음성 신호들로부터 계산된 음성 에너지들에 대한 평균 크기를 계산한 후, 그 평균 크기에 가장 가까운 크기의 음성 에너지를 갖는 음성 신호가 레퍼런스 음성 신호가 된다.

이어, 단계 S229에서, 전 단계에서 메인 음성 신호와 레퍼런스 음성 신호가 결정되면, 자동 통역 서버(200)가 레퍼런스 음성 신호를 이용하여 메인 음성 신호의 잡음을 제거한다.

메인 음성 신호와 레퍼런스 음성 신호가 결정되면, 메인 음성 신호가 잡음을 포함하고 있는지를 판단한다. 메인 음성 신호의 특징을 분석하면, 잡음을 포함하고 있는 지를 쉽게 구별할 수 있다.

메인 음성 신호가 잡음을 포함하지 않는 경우, 단계 S233으로 진행하고, 메인 음성 신호가 잡음을 포함하는 경우, 2채널 이상의 신호 처리를 통한 잡음 제거를 수행한다.

이러한 잡음 제거는 음성 검출(VAD 및 EPD)에 이어서 바로 수행될 수 있다. 이 경우, 단계 S225는 잡음이 제거된 음성 구간들로부터 음성 에너지들을 각각 계산하는 과정일 수 있고, 단계 S227은 잡음이 제거된 음성 구간들로부터 각각 계산된 음성 에너지들의 크기를 비교하여 메인 음성 신호를 결정하는 과정일 수 있다.

잡음 제거 과정에 대해서는 도 3을 참조하여 아래에서 상세히 설명하기로 한다.

이어, 단계 S231에서, 자동 통역 서버(200)가 잡음이 제거된 메인 음성 신호에 대한 자동 통역을 수행하는 과정이 수행된다. 자동 통역 과정은, 예를 들면, 음성 인식 과정, 자동 번역 과정 및 음성 합성 과정을 포함한다.

음성 인식 과정에서는 제1 언어로 구성된 메인 음성 신호로부터 제1 언어로 구성된 제1 텍스트 데이터(또는 음성 인식 결과)를 생성하는 과정이 수행된다.

자동 번역 과정에서는 제1 언어로 구성된 제1 텍스트 데이터로부터 자동 번역된 제2 언어로 구성된 제2 텍스트 데이터(자동 번역 결과 또는 자동 번역된 번역문)를 생성하는 과정이 수행된다.

음성 합성 과정에서는 제2 언어로 구성된 제2 텍스트 데이터로부터 음성 합성된 제2 언어로 구성된 음성 신호(합성음 또는 자동 통역된 음성 신호)를 생성하는 과정이 수행된다.

각 과정에 의해 생성된 제1 텍스트 데이터, 제2 텍스트 데이터(자동 번역된 번역문) 및 제2 언어로 구성된 음성 신호는 자동 통역 결과로 구성된다.

음성 인식 과정은, 전술한 바와 같이, 언어 식별이 가능한 종단형 음성 인식기에 의해 수행될 수 있다.

A 언어를 사용하는 제1 사용자가 발성하는 동안에, 제1 사용자의 음성 수집기(112)로 B 언어를 사용하는 제2 사용자의 음성 신호가 입력되고, 제1 사용자의 음성 수집기(112)로 입력된 제2 사용자의 음성 신호가 메인 음성 신호로 결정된 경우, A 언어를 사용하는 제1 사용자의 음성 신호에 대해 음성 인식을 수행해야함에도 불구하고, B 언어를 사용하는 제2 사용자의 음성 신호에 대해 음성 인식을 수행하는 오동작이 일어날 수 있다.

이러한 문제는 언어 식별이 가능하도록 훈련된 종단형 음성 인식기를 사용함으로써, 해결될 수 있다. 즉, 언어 식별이 가능한 음성 인식기는 제1사용자 단말을 통해 입력된 음성 신호가 A언어임을 알 수 있으므로, 제1사용자 단말을 통한 입력된 음성 신호가 B 언어인 것으로 인식한다면, 음성 인식을 더 이상 수행하지 않고, 중단할 수 있다.

또한 자동 통역 서버(200)의 종단형 음성 인식기는 언어 식별이 가능하기 때문에, 제2 사용자의 음성 신호가 제1 사용자의 자동 통역 단말 장치(100)의 음성 수집기(112)로부터 입력될지라도 그대로 음성 인식을 수행하고, 그에 따른 음성 인식 결과에 기초한 자동 통역 결과를 제2 사용자의 자동 통역 단말 장치(300)로 제공하는 것이 아니라 다시 제1 사용자의 자동 통역 단말 장치(100)로 제공할 수도 있다.

이처럼 본 발명의 자동 통역 과정에서는 언어 식별이 가능한 종단형 음성 인식기를 사용함으로써, 자동 통역의 오동작에 강건하게 동작할 수 있다.

이어, 단계 S233에서, 전단계 S231에서 자동통역이 완료되면, 자동 통역 서버(200)가 자동 통역 결과를 자동 통역 단말 장치들(예, 100, 300)로 피드백한다. 여기서, 자동 통역 결과는, 전술한 바와 같이, 제1 언어의 메인 음성 신호로부터 변환된 제1 언어의 제1 텍스트 데이터, 제1 언어의 제1 텍스트 데이터로부터 번역된 제2 언어의 제2 텍스트 데이터(번역문) 및 제2 텍스트 데이터로부터 합성된 제2 언어의 합성음을 포함한다.

자동 통역 서버(200)는 발화자가 자신이 발성한 음성에 대한 음성 인식 결과가 정확한지를 확인할 수 있도록 제1 언어의 제1 텍스트 데이터를 상기 발화자의 자동 통역 단말 장치로 송신한다.

추가적으로, 자동 통역 서버(200)는 상기 음성 인식 결과에 해당하는 제1 언어의 제1 텍스트 데이터에 대해 음성 합성을 수행할 수 있으며, 제1 언어의 제1 텍스트 데이터의 합성음을 상기 발화자의 자동 통역 단말 장치로 송신할 수도 있다.

그리고, 자동 통역 서버(200)는 제2 언어의 제2 텍스트 데이터(번역문) 및 제2 텍스트 데이터로부터 합성된 제2 언어의 합성음을 선택적으로 또는 동시에 상대방측 사용자의 자동 통역 단말 장치로 송신하다.

한편, 도 2A 및 2B에서는 음성 검출 과정을 자동 통역 서버(200)에서 수행되는 실시 예를 도시하고 있지만, 사용자의 자동 통역 단말 장치의 사용자 단말에서 수행될 수도 있다.

사용자 단말에서 음성 검출 과정을 수행하는 경우, 사용자 단말은 사용자의 음성을 녹음한 후, 녹음된 음성으로부터 음성 구간을 검출하는 음성 검출 과정을 수행한다.

어느 하나의 사용자 단말에서 음성 구간의 검출이 완료되면, 그 검출된 음성 구간에 대한 시간 정보를 상대방측 사용자 단말들과 자동 통역 서버로 전송한다.

이렇게 함으로써, 대화에 참여한 나머지 모든 사용자들의 사용자 단말들은 각자의 음성 신호로부터 상기 어느 하나의 사용자 단말로부터 제공된 시간 정보에 동기화된 음성 구간을 검출하고, 이를 자동 통역 서버(200)로 전송한다.

이후의 과정들, 예를 들면, 각 음성 구간의 음성 에너지 계산, 메일 음성 신호 및 레퍼런스 음성 신호의 결정, 잡음 제거 및 자동 통역 등의 처리 과정들은 도 2A 및 2B에서 설명한 과정들과 동일하다.

한편, 사용자 단말이 각자의 음성 신호로부터 음성 구간을 검출하지 못한 경우, 자동 통역은 종료되며, 이때, 음성 검출을 실패한 사용자 단말들은 수집한 음성 신호들을 자동 통역 서버로 전송하지 않는다.

참고로, 자동 통역 서버(200)는 제1 사용자의 음성 신호에 대한 자동 통역 과정을 수행하는 동안, 다른 사용자의 사용자 단말에서 다른 사용자의 음성 신호에 대한 음성 구간을 검출하고, 그 검출된 음성 구간에 대응하는 음성 신호를 수신한 경우, 다른 사용자의 음성 신호에 대한 자동 통역 과정을 시도한다.

이것은 제1 및 제2 사용자가 서로 대화를 나누는 과정에서 대화에 갑자기 참여한 제3 사용자의 음성 신호에 대한 자동 통역이 자연스럽게 수행될 수 있음을 의미한다.

제1 및 제2 사용자가 대화를 나누는 과정에서 제3 사용자가 대화에 갑자기 참여하는 경우, 제1 및 제2 사용자는 대화를 멈추지만, 제1 및 제2 사용자의 음성과 제3 사용자의 음성은 전체 음성 구간 중에서 매우 작은 일부 음성 구간에서 중첩될 것이다.

비록 제1 및 제2 사용자의 음성과 제3 사용자의 음성이 중첩되는 음성 구간이 존재하더라도, 그 중첩되는 음성 구간은 전체 음성 구간에서 매우 일부 구간에 해당하기 때문에, 메인 음성 신호를 결정하기 위해 전체 음성 구간에서 제1 내지 제3 사용자들의 음성 에너지를 비교하는 과정에서 오류가 발생할 확률은 극히 적다.

더욱이 사용자들 사이의 물리적인 거리에 의한 음성 에너지들의 차이를 더 고려한다면, 제1 및 제2 사용자 사이의 대화에 제3 자가 끼어드는 상황은 메인 음성 신호의 결정에 장애 요소가 전혀 아니다.

한편, 도 2a 및 2b에서는 순차적으로 수행되는 단계들을 발명의 이해를 돕기 위해 예시적으로 나타낸 것이며, 다양하게 변경될 수 있다. 예를 들면, 일부 단계들은 병렬적으로 수행되거나 순서가 바뀔 수도 있다.

또한 특정 단계들은 하나의 단계로 통합될 수 있다. 예를 들면, 단계 S211 내지 S219는 하나의 단계로 통합될 수 있고, S223 내지 S229 역시 하나의 단계로 통합될 수 있다.

도 3은 본 발명의 실시 예에 따른 잡음 제거 과정(도 2b의 S229)을 나타내는 흐름도이다.

도 3을 참조하면, 잡음 제거 과정은 도시하지는 않았으나, 잡음 제거 처리 모듈로 지칭될 수 있는 소프트웨어 모듈 또는 하드웨어 모듈일 수 있다. 이들은 자동 통역 서버(200)에 구비된 적어도 하나의 프로세서에 실행되거나 제어될 수 있다.

먼저, 단계 S310에서, 잡음이 포함된 메인 음성 신호가 입력되다.

이어, 단계 S320에서, 사용자들 사이의 물리적 거리 및 통신 망의 속도 차이 등으로 인해 발생하는 메인 음성 신호와 레퍼런스 음성 신호 사이의 음정 지연을 보상하기 위해 음성 신호들 사이의 동기화 과정이 수행된다.

이어, 단계 S330에서, 잡음 특성에 따라 파워 레벨 차이(Power Level Difference) 또는 파워 레벨 비율(Power Level Difference Ratio) 등을 이용하여 잡음을 제거하는 과정이 수행된다.

예를 들면, 메인 음성 신호에서 음성 구간에 해당하는 음성 신호 M의 파워 레벨과 잡음 구간에 해당하는 잡음 신호 M의 파워 레벨을 추정하고, 동일하게 레퍼런스 음성 신호에서 음성 구간에 해당하는 음성 신호 R의 파워 레벨과 잡음 구간에 해당하는 잡음 신호 R의 파워 레벨을 추정한다.

이후, 추정된 음성 신호 M과 음성 신호 R의 파워 레벨 차이와 추정된 잠음 신호 M와 잡음 신호 R의 파워 레벨 차이의 비율을 이용하여 메인 음성 신호의 잡음을 제거한다.

한편, 사용자들이 밀폐된 공간과 같이 조용한 공간에서 대화를 나누는 경우, 즉, 잡음이 없는 환경에서 사용자들이 대화를 나누는 경우, 잡음 제거 과정(도 2b의 S229 및 도 3)은 자동 통역 과정의 처리 시간을 오히려 증가시키는 요인으로 작용할 것이다.

잡음이 없는 환경에서 사용자들이 대화를 나누는 경우에는 자동 통역 서버(200)에서 잡음 제거를 위한 처리 과정(도 2b의 S229 및 도 3)을 중지시키는 것이 바람직할 것이다.

이에, 대화 장소가 잡음이 없는 환경인 경우, 사용자는 사용자 단말에 설치된 자동 통역 앱을 이용하여 잡음 제거 중지 명령을 자동 통역 서버(200)로 송신함으로써, 자동 통역 서버(200)에 포함된 잡음 제거 처리 모듈의 동작을 중지시킬 수 있다.

반대로, 대화 장소가 잡음이 존재하는 환경인 경우, 사용자는 사용자 단말에 설치된 자동 통역 앱을 이용하여 잡음 제거 동작 명령을 자동 통역 서버(200)로 송신함으로써, 자동 통역 서버(200)에 포함된 잡음 제거 처리 모듈의 동작 개시를 제어할 수 있다.

도 1 내지 도 3에서 설명한 자동 통역 시스템 및 방법은 대화 그룹에 속하지 않은 제3자의 음성에 대해서도 자동 통역을 수행한다. 대화 그룹에 속한 사용자들이 대화하는 상황에서, 사용자들이 전혀 모르는 제3자의 음성을 듣는 상황은 매우 자연스러운 상황이다.

따라서, 도 1 내지 도 3에서 설명한 자동 통역 시스템 및 방법은, 실생활과 같은 자연스러운 상황을 연출하기 위해, 대화 그룹에 속하지 않은 제3자의 음성에 대해서도 자동 통역을 수행하여, 그 자동 통역 결과를 대화 그룹에 속한 사용자들에게 제공한다.

구체적으로, 본 발명에 따른 자동 통역 시스템 및 방법은, 도 2a 및 2b에서 설명한 바와 같이, 제3자의 음성을 수집하여 음성 신호를 획득하고, 제3자의 음성 신호로부터 음성 구간을 검출한다.

여기서, 제3자는 본 발명의 자동 통역 단말 장치를 소지하지 않은 사용자일 수 있으며, 이 경우, 제3자의 음성을 수집하는 대상은 제3자와 가까운 거리에 위치한 사용자들이 착용한 웨어러블 기기(음성 수집기 또는 마이크)일 것이다. 이것은 제3자 위치에 따라 메인 음성 신호를 수집하는 메인 마이크 위치가 달라질 수 있음을 의미한다.

각 음성 수집기(예, 마이크)에 의해 수집되는 음성 신호의 에너지 크기를 비교하여 메인 음성 수집기가 결정되고, 그 결정된 메인 음성 수집기에 의해 수집된 음성 신호가 메인 음성 신호로 결정될 것이다. 대개의 경우 제3자와 가장 가까운 거리에 위치한 사용자의 음성 수집기가 메인 음성 수집기로 결정될 확률이 높다.

잡음 환경에서는 자동 통역 서버(200)의 잡음 처리 모듈이 도 3에서 설명한 바와 같이 잡음을 제거하지만, 잡음이 없는 환경에서는, 사용자의 선택에 의해 잡음 제거 과정은 수행되지 않을 수도 있다.

잡음이 제거된 메인 음성 신호는 종단형 음성 인식기로 입력되고, 종단형 음성 인식기는 음성 인식 결과를 출력하고, 음성 인식 결과는 자동 번역기로 입력되고, 자동 번역기는 자동 번역결과를 출력한다. 자동 번역 결과는 음성 합성기로 입력되고, 음성 합성기는 통역된 합성음을 출력한다.

제3자의 언어와 대화 그룹에 속한 사용자들 중에서 일부 사용자들이 제3자의 언어와 동일한 언어를 사용하는 경우, 상기 일부 사용자들은 제3자의 음성을 인식할 수 있으므로, 자동 통역 서버(200)가 제3자의 음성 인식 결과를 상기 일부 사용자들의 사용자 단말로 전송하지 않을 수도 있다.

다만, 시스템 정책에 따라, 자동 통역 서버(200)가 제3자의 음성 인식 결과를 상기 일부 사용자들의 사용자 단말로 전송할 수 있으며, 이 경우, 텍스트 형태가 아니라 합성음 형태의 음성 인식 결과를 상기 일부 사용자들의 사용자 단말들로 송신할 수 있다.

그리고 자동 통역 서버(200)는 상기 대화 그룹에 속한 사용자들 중에서 제3자의 언어와 다른 언어를 사용하는 나머지 사용자들에게는 상기 나머지 사용자들의 언어로 자동 번역된 번역문 및/또는 자동 통역된 합성음을 송신한다.

도 1 내지 도 3에서 설명한 자동 통역 시스템 및 방법은 다자간 회의 시스템에서 발화자 별로 자동 음성 인식 회의록의 작성에서 유용하게 활용될 수 있다.

이는 회의록 작성 서버와 회의에 참여한 모든 사용자들을 연결한 이후, 도 2a 및 2b에서 수행되는 단계들을 수행하고, 다만, 마지막 단계에서 음성 인식 결과 또는 자동 번역 결과를 사용자들에게 피드백하지 않고, 시간대 및 화자 별로 저장한다.

도 4는 본 발명의 실시 예에 따른 자동 통역 서버의 전체 구성도이다.

도 4를 참조하면, 본 발명의 실시 예에 따른 자동 통역 서버(200)는 제1 사용자의 제1 자동 통역 단말 장치(100)와 제2 사용자의 제2 자동 통역 단말 장치(300)를 포함하는 복수의 단말 장치들과 통신한다.

이때, 제1 및 제2 단말 장치 각각은, 사용자의 음성 신호를 수집하는 마이크 기능과 상기 제1 사용자의 언어와 다른 상기 제2 사용자의 언어로 구성된 합성음을 출력하는 스피커 기능을 갖는 웨어러블 기기(110, 320)와 상기 웨어러블 기기와 통신하는 사용자 단말(120, 310)을 포함한다.

상기 자동 통역 서버(200)는, 적어도 하나의 프로세서(210), 메모리(220), 통신부(230) 및 이들을 연결하는 시스템 버스(205)를 포함하는 컴퓨팅 장치일 수 있다. 이때, 상기 통신부(230)는 상기 적어도 하나의 프로세서(210)의 제어에 따라, 각 단말 장치의 사용자 단말(120, 310)로부터 복수의 음성 신호들을 수신한다.

자동 통역 서버(200)는 상기 적어도 하나의 프로세서(210)에 의해 제어 또는 실행되는 음성 검출부(240), 음성 에너지 계산부(250), 발화자 판단부(260), 잡음 제거 처리부(270) 및 자동 통역부(280)를 포함한다.

음성 검출부(240)는 음성 검출 알고리즘의 실행에 따라, 각 사용자 단말로부터 수신한 음성 신호의 음성 구간을 검출한다. 음성 구간의 검출은 시작점 검출 과정과 끝점 검출 과정을 포함한다.

설계에 따라, 음성 검출부(240)는 사용자 단말에 설치될 수 있다. 이 경우, 서버(200)는 음성 구간에 대응하는 음성 신호를 수신한다.

다르게, 시작점 검출을 위한 로직은 사용자 단말에 설치되고, 끝점 검출을 위한 로직은 서버(200)에 설치될 수 있다. 이 경우, 서버(200)는 시작점이 마킹된 음성 신호를 수신한다.

음성 에너지 계산부(250)는, 상기 적어도 하나의 프로세서(210)의 제어에 따라, 상기 검출된 음성 구간에 대응하는 복수의 음성 신호들로부터 복수의 음성 에너지들을 계산한다.

발화자 판단부(260)는, 상기 적어도 하나의 프로세서(210)의 제어에 따라, 상기 계산한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 발화자의 음성 신호를 결정한다.

잡음 제거 처리부(270)는 상기 적어도 하나의 프로세서(210)의 제어에 따라, 상기 메인 음성 신호의 잡음을 제거한다.

자동 통역부(280)는 상기 적어도 하나의 프로세서(210)의 제어에 따라, 상기 결정된 메인 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 통신부(230)를 통해 상기 복수의 단말 장치들로 전송한다.

실시 예에서, 상기 제1 사용자 단말(120), 상기 제2 사용자 단말(310) 및 상기 서버(200)는 자동 통역을 위한 통신 연결을 구성하기 위해, 상기 제1 사용자 단말(120)과 상기 제2 사용자 단말(310)은 근거리 무선 통신 규약에 따라 페어링된 후, 상기 제1 사용자의 언어를 나타내는 제1 언어 정보와 상기 제2 사용자의 언어를 나타내는 제2 언어 정보를 교환할 수 있다.

실시 예에서, 상기 제1 사용자 단말(120)은, 상기 제2 사용자 단말(310)로부터 송신된 상기 제2 언어 정보를 확인하여, 자동 통역이 가능한지를 확인하고, 자동 통역이 불가능한 것으로 확인된 경우, 연결 실패 메시지를 표시 화면을 통해 출력할 수 있다.

실시 예에서, 음성 에너지 계산부(250)는, 각 음성 신호로부터 검출된 음성 구간에 대응하는 파워 스펙트럼 밀도(Power Spectrum Density)를 계산하여 상기 복수의 음성 에너지들을 계산할 수 있다.

실시 예에서, 상기 발화자 판단부(260)는, 상기 복수의 음성 신호들 중에서 가장 큰 음성 에너지를 갖는 음성 신호를 상기 발화자의 음성 신호로서 결정할 수 있다.

실시 예에서, 상기 잡음 제거 처리부(270)는, 2채널 이상의 신호 처리 기법을 이용하여 상기 발화자의 음성 신호의 잡음을 제거할 수 있다.

실시 예에서, 상기 잡음 제거 처리부(270)는, 상기 사용자 단말(120 및/또는 310)로부터의 동작 제어 명령에 따라 선택적으로 동작할 수 있다.

실시 예에서, 상기 자동 통역부(280)는, 음성 인식 알고리즘에 따라, 상기 발화자의 음성 신호를 제1 언어의 제1 텍스트 데이터로 변환하는 음성 인식기(282), 자동 번역 알고리즘에 따라, 상기 제1 텍스트 데이터를 제2 언어의 제2 텍스트 데이터로 변환하는 자동 번역기(284) 및 음성 합성 알고리즘에 따라, 상기 제1 텍스트 데이터를 상기 제1 언어의 합성음으로 변환하고, 상기 제2 텍스트 데이터를 상기 제2 언어의 합성음으로 변환하는 음성 합성부(286)를 포함한다.

자동 통역부(280)는 상기 제1 텍스트 데이터, 상기 제2 텍스트 데이터, 상기 제1 언어의 합성음 및 상기 제2 언어의 합성음을 포함하는 상기 자동 통역 결과를 상기 통신부(230)를 통해 상기 복수의 단말 장치들로 전송할 수 있다.

실시 예에서, 상기 음성 인식기(262)는, 언어 식별이 가능한 종단형 음성 인식기일 수 있다.

실시 예에서, 음성 인식기(282), 자동 번역기(284) 및 음성 합성기(286)는 하나의 모델로 통합될 수 있다. 이 경우, 하나의 모델은 기계 학습에 사전에 훈련된 인공 신경망 모델일 수 있다.

본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니며, 다양하게 변경될 수 있다. 예를 들면, 본 명세서에서는 음성 에너지의 계산 과정, 발화자 판단 과정(메인 음성 신호의 결정), 잡음 제거 처리 과정 및 자동 통역 과정이 자동 통역 서버(200)에서 수행되는 것으로 설명하고 있으나, 이에 한정되지 않고, 상기 처리 과정들 중에서 적어도 하나의 처리 과정은 사용자 단말의 하드웨어 자원을 고려하여 설계에 따라 사용자 단말에서 수행될 수 있다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한번 첨언한다.

Claims

마이크 기능, 스피커 기능, 통신 기능 및 웨어러블 기능을 갖는 복수의 단말 장치들과 통신하는 서버에서 수행되는 자동 통역 방법으로서,
복수의 단말 장치들로부터 복수의 사용자들이 발성한 복수의 음성 신호들을 수신하는 단계;
상기 수신한 복수의 음성 신호들로부터 복수의 음성 에너지들을 획득하는 단계;
상기 획득한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 현재의 발화 차례에서 발화된 메인 음성 신호를 결정하는 단계; 및
상기 결정된 메인 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계
를 포함하는 자동 통역 방법.
제1항에서,
상기 복수의 음성 에너지들을 획득하는 단계는,
각 음성 신호로부터 음성 구간을 검출하는 단계; 및
각 음성 구간에 대응하는 파워 스펙트럼 밀도(Power Spectrum Density)를 계산하여 상기 복수의 음성 에너지들을 계산하는 단계
를 포함하는 자동 통역 방법.
제1항에서,
상기 메인 음성 신호를 결정하는 단계는,
상기 복수의 음성 신호들 중에서 가장 큰 음성 에너지를 갖는 음성 신호를 상기 메인 음성 신호로서 결정하는 단계
인 것인 자동 통역 방법.
제1항에서,
상기 메인 음성 신호를 결정하는 단계는,
상기 복수의 음성 신호들 중에서 가장 큰 음성 에너지를 갖는 음성 신호를 상기 메인 음성 신호로서 결정하는 단계;
나머지 음성 신호들 중에서 레퍼런스 음성 신호를 결정하는 단계; 및
상기 레퍼런스 음성 신호를 이용하여 상기 메인 음성 신호의 잡음을 제거하는 단계
를 포함하는 자동 통역 방법.
제4항에서,
상기 레퍼런스 음성 신호를 결정하는 단계는,
상기 복수의 음성 신호들 중에서 가장 낮은 음성 에너지 또는 중간 크기의 음성 에너지를 갖는 음성 신호를 상기 레퍼런스 음성 신호로서 결정하는 단계인 것인 자동 통역 방법.
제5항에서,
상기 메인 음성 신호의 잡음을 제거하는 단계는,
상기 복수의 단말 장치들로부터의 동작 명령에 따라 선택적으로 수행되는 단계인 것인 자동 통역 방법.
제1항에서,
상기 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계는,
음성 인식기를 이용하여, 상기 메인 음성 신호로부터 제1 언어의 제1 텍스트 데이터를 획득하는 단계;
자동 번역기를 이용하여, 상기 제1 텍스트 데이터로부터 제2 언어로 자동 번역된 제2 텍스트 데이터를 획득하는 단계;
음성 합성기를 이용하여, 상기 제1 텍스트 데이터로부터 상기 제1 언어의 합성음을 획득하고, 상기 제2 텍스트 데이터로부터 상기 제2 언어의 합성음을 획득하는 단계; 및
제1 텍스트 데이터, 상기 제2 텍스트 데이터, 상기 제1 언어의 합성음 및 상기 제2 언어의 합성음을 포함하는 상기 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계
를 포함하는 자동 통역 방법.
제7항에서,
상기 제1 텍스트 데이터를 획득하는 단계는,
언어 식별이 가능한 종단형 음성 인식기를 이용하여 상기 제1 텍스트 데이터를 획득하는 단계인 것인 자동 통역 방법.
제7항에서,
제1 텍스트 데이터, 상기 제2 텍스트 데이터 및 상기 합성음을 포함하는 상기 자동 통역 결과를 상기 복수의 단말 장치들로 전송하는 단계는,
상기 제1 텍스트 데이터 및 상기 제1 언어의 합성음 중에서 적어도 하나를 상기 제1언어를 사용하는 사용자의 단말 장치들로 전송하는 단계;
상기 제2 텍스트 데이터 및 상기 제2 언어의 합성음 중에서 적어도 하나를 상기 제2 언어를 사용하는 사용자의 단말 장치들로 전송하는 단계
를 포함하는 자동 통역 방법.
제1항에서,
상기 복수의 음성 신호들을 수신하는 단계에서,
각 음성 신호는
복수의 단말 장치들에서 수행한 음성 검출 과정에 따라 검출한 음성 구간에 대응하는 음성 신호인 것인 자동 통역 방법.
제1 사용자의 제1 단말 장치와 제2 사용자의 제2 단말 장치를 포함하는 복수의 단말 장치들과 통신하는 자동 통역 서버로서,
적어도 하나의 프로세서, 메모리 및 이들을 연결하는 시스템 버스를 포함하는 컴퓨팅 장치로 구현되고,
상기 적어도 하나의 프로세서의 제어에 따라, 각 단말 장치의 사용자 단말로부터 복수의 음성 신호들을 수신하는 통신부;
상기 적어도 하나의 프로세서의 제어에 따라, 상기 수신한 복수의 음성 신호들로부터 복수의 음성 에너지들을 계산하는 음성 에너지 계산부;
상기 적어도 하나의 프로세서의 제어에 따라, 상기 획득한 복수의 음성 에너지들을 비교하여, 상기 복수의 음성 신호들 중에서 발화자의 음성 신호를 결정하는 발화자 판단부;
상기 적어도 하나의 프로세서의 제어에 따라, 상기 발화자의 음성 신호의 잡음을 제거하는 잡음 제거 처리부; 및
상기 적어도 하나의 프로세서의 제어에 따라, 상기 잡음이 제거된 발화자의 음성 신호에 대한 자동 통역을 수행하여 획득한 자동 통역 결과를 상기 통신부를 통해 상기 복수의 단말 장치들로 전송하는 자동 통역부
를 포함하는 자동 통역 서버.
제11항에서,
상기 음성 에너지 계산부는,
각 음성 신호로부터 검출된 음성 구간에 대응하는 파워 스펙트럼 밀도(Power Spectrum Density)를 계산하여 상기 복수의 음성 에너지들을 계산하는 것인 자동 통역 서버.
제11항에서,
상기 발화자 판단부는,
상기 복수의 음성 신호들 중에서 가장 큰 음성 에너지를 갖는 음성 신호를 상기 발화자의 음성 신호로서 결정하는 것인 자동 통역 서버.
제11항에서,
상기 잡음 제거 처리부는,
2채널 이상의 신호 처리 기법을 이용하여 상기 발화자의 음성 신호의 잡음을 제거하는 것인 자동 통역 서버.
제11항에서,
상기 잡음 제거 처리부는,
상기 사용자 단말로부터의 동작 제어 명령에 따라 선택적으로 동작하는 것인 자동 통역 서버.
제11항에서,
상기 자동 통역부는,
음성 인식 알고리즘에 따라, 상기 발화자의 음성 신호를 제1 언어의 제1 텍스트 데이터로 변환하는 음성 인식기;
자동 번역 알고리즘에 따라, 상기 제1 텍스트 데이터를 제2 언어의 제2 텍스트 데이터로 변환하는 자동 번역기; 및
음성 합성 알고리즘에 따라, 상기 제1 텍스트 데이터를 상기 제1 언어의 합성음으로 변환하고, 상기 제2 텍스트 데이터를 상기 제2 언어의 합성음으로 변환하는 음성 합성부를 포함하고,
제1 텍스트 데이터, 상기 제2 텍스트 데이터, 상기 제1 언어의 합성음 및 상기 제2 언어의 합성음을 포함하는 상기 자동 통역 결과를 상기 통신부를 통해 상기 복수의 단말 장치들로 전송하는 것인 자동 통역 서버.
제16항에서,
상기 음성 인식기는,
언어 식별이 가능한 종단형 음성 인식기인 것인 자동 통역 서버.