KR102584436B1

KR102584436B1 - 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법

Info

Publication number: KR102584436B1
Application number: KR1020210106300A
Authority: KR
Inventors: 방정욱; 윤승; 김상훈; 이민규; 맹준규
Original assignee: 한국전자통신연구원
Priority date: 2021-01-05
Filing date: 2021-08-11
Publication date: 2023-10-05
Also published as: KR20220099083A

Abstract

사용자 단말에서의 화자분리 기반 자동통역 방법이 제공된다. 상기 방법은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계; 상기 제1 음성신호를 화자별 음성신호로 분리하는 단계; 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함한다.

Description

화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법{SYSTEM, USER DEVICE AND METHOD FOR PROVIDING AUTOMATIC INTERPRETATION SERVICE BASED ON SPEAKER SEPARATION}

본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법에 관한 것이다.

일반적으로 자동통역(또는 자동번역)은 사용자의 제1 언어를 인식하여 제2 언어로 통역한 후 상대방 단말로 송신하거나, 상대방 단말로부터 수신된 통역 결과를 합성하여 사용자에게 들려주는 구조로 되어 있다.

이러한 접근은 기본적으로 사용자와 상대방이 존재하는 면대면 대화를 목적으로 한다. 그러나 자동통역이 필요한 대부분의 상황은 사용자가 외국에 갔을 때 외국인과 대화(관광, 식당, 쇼핑, 호텔, 비즈니스 등)를 하거나 또는 공항 안내 음성, 여행지역 TV 뉴스, 주변 외국인 음성 등 상황 판단을 위해 주변에서 들리는 외국인의 음성을 이해하기 위함에 있다.

즉, 면대면 대화뿐만 아니라 주변에서 들리는 외국인 음성을 통역하여 사용자에게 제공하는 것이 필요하나 이러한 기술이 부재한 실정이다.

공개특허공보 제10-2019-0015081호(2019.02.13.)

본 발명이 해결하고자 하는 개별 장치에 입력되는 복수의 화자의 음성을 화자별로 구분하고 이를 사용자가 원하는 언어 음성으로 모두 변환하여 통역 결과를 제공하는, 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 사용자 단말에서의 화자분리 기반 자동통역 방법은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계; 상기 제1 음성신호를 화자별 음성신호로 분리하는 단계; 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함한다.

본 발명의 일부 실시예에서, 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는, 상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계; 상기 추출된 상황정보를 버퍼 상에 저장하는 단계; 및 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함할 수 있다.

본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는, 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

또한, 본 발명의 제2 측면에 따른 화자분리 기반 자동통역 서비스를 제공하는 사용자 단말은 자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈, 자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공한다.

본 발명의 일부 실시예에서, 상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받을 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하고, 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하여 상기 메모리의 버퍼 상에 저장하고, 상기 추출한 상황정보에 기초하여 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역할 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

본 발명의 일부 실시예에서, 상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공할 수 있다.

또한, 본 발명의 제3 측면에 따른 화자분리 기반 자동통역 서비스 제공 시스템은 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말, 상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및 상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함한다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

전술한 본 발명의 일 실시예에 의하면, 종래 면대면 자동통역 방법 대비 사용자는 주변의 복수의 화자의 음성을 모두 모국어로 변환하여 편리하게 정보 습득이 가능하다는 장점이 있다.

또한, 본 발명의 일 실시예는 종래의 면대면 방법과 혼합하여 대화 모드 및 듣기 모드가 모두 제공되는 자동통역 방식을 제공할 수 있다.

이와 더불어, 본 발명의 일 실시예는 언어 학습을 위한 보조 도구로 활용할 수 있으며, 사용자는 주변의 모국어 음성들을 원하는 언어로 통역하여 청취함으로써 외국어 회화 학습에도 응용할 수 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템을 개략적으로 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 사용자 단말을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다.
도 4는 사용자 주변 음성을 설명하기 위한 도면이다.
도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다.
도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다.
도 10은 수집된 상황정보를 기반으로 제2 음성신호를 제공하는 내용을 종합하여 도시한 도면이다.
도 11은 자동통역 서비스 제공 단말에서 수행되는 각 과정을 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명은 화자분리 기반 자동통역 서비스를 제공하는 시스템(1), 사용자 단말(100) 및 방법에 관한 것이다.

본 발명은 자동통역에 있어 면대면(face-to-face) 대화를 목적으로 하는 종래방법과는 달리, 개별 장치에 입력되는 다수의 혼합된 화자들의 음성을 구분하여 사용자가 원하는 언어 음성으로 모두 변환하고, 복수의 화자들의 음성을 각 화자의 특성을 고려하여 사용자 단말(100)로 제공하는 것을 특징으로 한다. 여기에서 사용자가 원하는 언어는 모국어임이 일반적일 것이나 반드시 이에 한정되는 것은 아니다.

이를 통해 본 발명의 일 실시예는 사용자가 외국에 있는 등 이종 언어 환경(예를 들어, 해외여행 등)에 노출되어 있는 상태에서 주변 상황을 손쉽게 파악할 수 있도록 돕고, 사용자 주변 정보를 면대면 자동 통역 시스템에 활용하여 자동통역 성능 및 사용자 편의성을 개선할 수 있다.

뿐만 아니라, 본 발명의 일 실시예는 모국어 환경에서도 적용이 가능하며, 가령 모국어 환경에서 사용자 주변 음성을 수신하여 영어로 통역된 결과를 제공받아, 외국어 학습에 이용할 수 있는 장점이 있다. 특히, 본 발명에서는 사용자 주변 음성에 대한 통역 결과 제공시 상황정보를 추가적으로 추출하여 합성된 음성신호에 반영하는 것을 특징으로 하고 있는바, 사용자 주변 음성에 포함된 복수의 화자들의 음성 각각에 대한 통역 결과뿐만 아니라, 이들의 통역 결과에 위치 정보가 더 반영되어 제공됨으로써 보다 생동감있는 외국어 학습이 가능하다는 효과가 있다.

한편, 본 발명의 일 실시예에서는 발화자와 청자가 모두 상이한 언어를 사용하는 환경에서의 동시통역을 대상으로 하고 있으나, 반드시 이에 한정되는 것은 아니다.

이하에서는 도 1 내지 도 2를 참조하여 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1) 및 사용자 단말(100)에 대해 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)을 개략적으로 설명하기 위한 도면이다. 도 2는 본 발명의 일 실시예에 따른 사용자 단말(100)을 설명하기 위한 블록도이다.

본 발명의 일 실시예에 따른 화자분리 기반 자동통역 서비스 제공 시스템(1)은 사용자 단말(100), 자동통역 서비스 제공 단말(200) 상대방 단말(300)을 포함한다.

먼저, 자동통역 서비스 제공 단말(200)은 사용자의 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 다채널 마이크(210)를 통해 수신한다. 또한, 자동통역 서비스 제공 단말(200)은 제1 음성 신호에 대한 통역 결과를 사용자 단말(100)로부터 수신하거나 상대방 음성에 대한 통역 결과를 상대방 단말(300)로부터 수신하여 스피커(230)를 통해 제공한다.

이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(220)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.

일 실시예로 자동통역 서비스 제공 단말(200)은 스피커(230)와 마이크(210)를 구비하는 핸즈프리 단말의 형태로 제공될 수 있으나 반드시 이에 한정되는 것은 아니며, 스피커(230)와 마이크(210)를 구비하는 모든 단말은 자동통역 서비스 제공 단말(200)일 수 있다. 이에 따라, 자동통역 서비스 제공 단말(200)은 마이크(210) 및 스피커(230)를 구비하는 사용자 단말(100) 또는 상대방 단말(300)과 일체형으로 구성되어 제공될 수도 있음은 물론이다.

도 2를 참조하면, 사용자 단말(100)은 통신모듈(110), 메모리(120) 및 프로세서(130)를 포함한다.

통신모듈(110)은 자동통역 서비스 제공 단말(200) 및 상대방 단말(300)과 데이터를 송수신한다. 즉, 통신모듈(110)은 실시간으로 사용자 음성의 통역 결과를 상대방 단말(300)로 제공해줄 수 있으며, 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여 자동통역 서비스 제공 단말(200)로 제공할 수 있다.

이때, 통신 모듈(110)은 무선 통신모듈로 구성됨이 바람직하나 반드시 유선 통신 모듈을 배제하는 개념은 아니다. 유선 통신 모듈은 전력선 통신 장치, 전화선 통신 장치, 케이블 홈(MoCA), 이더넷(Ethernet), IEEE1294, 통합 유선 홈 네트워크 및 RS-485 제어 장치로 구현될 수 있다. 또한, 무선 통신 모듈은 WLAN(wireless LAN), Bluetooth, HDR WPAN, UWB, ZigBee, Impulse Radio, 60GHz WPAN, Binary-CDMA, 무선 USB 기술 및 무선 HDMI 기술 등으로 구현될 수 있다.

메모리(120)에는 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성 신호를 수신하면 이를 기반으로 통역 결과인 제2 음성 신호를 생성하기 위한 프로그램이 저장된다.

이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다. 예를 들어, 메모리는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.

프로세서(130)는 메모리(120)에 저장된 프로그램을 실행시킴에 따라, 자동통역 서비스 제공 단말(200)로부터 수신한 제1 음성 신호를 화자별 음성 신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300)이나 자동통역 서비스 제공 단말(200)로 제공한다.

상대방 단말(300)은 사용자 단말(100)과 동일하게 음성 신호를 수신하여 통역 결과를 사용자 단말(100)이나 상대방 단말(300)과 페어링된 자동통역 서비스 제공 단말(200)로 제공한다. 즉, 본 발명의 일 실시예에서 사용자 단말(100)과 상대방 단말(300)은 사용하는 주체에 따라 그 명칭을 구분한 것으로, 그 구성 및 기능은 서로 동일하다.

한편, 본 발명에서의 사용자 단말(100) 및 상대방 단말(300)은 서버 시스템, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop) 등이나, 휴대용 디바이스기에 인터넷 통신과 정보 검색 등 컴퓨터 지원 기능을 추가한 지능형 디바이스기일 수 있으며, 또한 사용자가 원하는 다수의 응용 프로그램(즉, 애플리케이션)을 설치하여 실행할 수 있는 휴대폰, 스마트 폰(smart phone), 패드(Pad), 스마트 워치(Smart watch), 웨어러블(wearable) 디바이스, 기타 이동통신 디바이스 등일 수 있다.

이하에서는 도 3 내지 도 11을 참조하여 본 발명의 일 실시예에 따른 사용자 단말(100)에서 수행되는 화자분리 기반 자동통역 방법에 대해 보다 구체적으로 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 화자분리 기반 자동통역 방법의 순서도이다. 도 4는 사용자 주변 음성을 설명하기 위한 도면이다. 도 5a 및 도 5b는 제1 음성신호를 화자별 음성신호로 분리하는 내용을 설명하기 위한 도면이다.

먼저, 자동통역 서비스 제공 단말(200) 또는 사용자 단말(100)의 요청에 따라 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링을 수행한다(S110). 이때, 사용자 단말(100)은 자동통역 서비스 제공 단말(200)과 페어링됨에 따라 통역 환경을 초기화시킨다. 통역 환경 초기화의 일 예로는 기 수행된 통역 결과에서의 상황정보(화자정보, 문맥정보, 잡음정보)를 초기화시키는 것일 수 있다. 다만, 동일한 환경에서 주변 음성을 수신하는 것이거나, 동일 상대방을 대상으로 연속하여 대화를 진행하는 경우가 있을 수 있으므로, 통역 환경 초기화 과정은 사용자의 입력에 따라 선택적으로 수행될 수도 있음은 물론이다.

다음으로, 자동통역 서비스 제공 단말(200)로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신한다(S120).

이때, 사용자 음성은 사용자 단말(100)을 사용하는 주체인 사용자의 발화에 해당하며, 사용자 주변 음성은 다채널 마이크(210)를 통해 수신되는 사용자 음성을 제외한 나머지 음성에 해당한다. 즉, 본 발명의 일 실시예는 사용자 음성인 발화를 대상으로 통역을 수행하여 상대방 단말(300)로 제공하고, 상대방 단말(300)로부터 상대방 음성에 대한 통역 결과를 수신하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공하는 면대면 통역 서비스를 기본적으로 제공한다.

본 발명의 일 실시예는 이에 더 나아가, 면대면 대화가 아닌 다양한 발화자에 의한 주변 음성을 다채널 마이크(210)가 수신하고, 이를 대상으로 통역을 수행하여 사용자 단말(100) 및 자동통역 서비스 제공 단말(200)로 제공할 수도 있다. 여기에서, 다양한 발화자는 사람에 의한 직접 발화뿐만 아니라 스피커(230)를 통해 출력되는 안내 음성 등 그 대상을 특별히 한정하지 않는다.

예를 들어 도 4를 참조하면, 사용자 주변 음성(P1)은 '주변 잡음', '주변 사람 1의 음성', '주변 사람 2'의 음성을 포함할 수 있으며, 이때 주변사람 1, 2는 사용자와 직접 대화하고 있지 않는 불특정인에 해당한다.

이와 같은 상황에서 본 발명의 일 실시예는 자동통역 서비스 제공 단말(200)의 다채널 마이크(210)를 통해 사용자 주변 음성을 수신하면, 자동통역 서비스 제공 단말(200)은 이를 사용자 주변 음성을 사용자 단말(100)로 제공하고, 사용자 단말(100)은 후술하는 바와 같이 주변사람 1, 주변사람 2의 각 음성 언어(영어, 한국어)에 상응하는 통역 결과(한국어)를 생성하여 자동통역 서비스 제공 단말(200)의 스피커(230)를 통해 출력되도록 제공할 수 있다.

이때, 자동통역 서비스 제공 단말(200)에는 통역 모드 선택 버튼(230)이 구비될 수도 있으며, 사용자에 의해 선택된 통역 모드에 따라 음성 수신 및 통역 결과를 제공한다.

다음으로, 사용자 단말(100)은 제1 음성신호를 화자별 음성신호로 분리한다(S130).

본 발명의 일 실시예는 먼저 사용자 음성과 사용자 주변 음성을 화자별 음성신호로 분리한다.

사용자 음성과 사용자 주변 음성을 구분하는 것은 도 5a 및 도 5b에 도시된 바와 같이 통역 모드에 따라 용이하게 구분할 수 있다. 즉, 면대면 대화 모드인 경우 마이크(210)를 통해 수신되는 음성은 사용자 음성으로 인식할 수 있으며, 대화 모드가 아닌 듣기 모드인 경우 사용자 음성이 아닌 사용자 주변음성으로 인식할 수 있다. 이는 자동통역 서비스 제공 단말(200)에 의해서도 미리 구분되어 제공될 수도 있다.

화자별 음성신호를 분리하는 과정에서 사용자의 음성은 화자별 소스 분리 모델(P2)에 의해 화자가 1명이므로 사용자 발화 음성과 잡음 신호로 분리된다. 그리고 사용자 주변 음성의 경우에는 화자별 소스 분리 모델(P2)에 의해 복수의 화자 발화 음성과 잡음 신호로 분리될 수 있다.

다시 도 3을 참조하면, 다음으로 사용자 단말(100)은 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한다(S140). 그리고 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말(300) 및 자동통역 서비스 제공 단말(200) 중 적어도 하나에 제공한다(S150).

도 6은 본 발명의 일 실시예에서 제공하는 대화 모드를 설명하기 위한 도면이고, 도 7은 본 발명의 일 실시예에서 제공하는 듣기 모드를 설명하기 위한 도면이다. 도 8 및 도 9는 본 발명의 일 실시예에서 상황정보를 추출 및 반영하는 내용을 설명하기 위한 도면이다. 도 10은 수집된 상황정보를 기반으로 제2 음성신호를 제공하는 내용을 종합하여 도시한 도면이다.

일 실시예로 본 발명은 통역 모드로 대화 모드 및 듣기 모드를 제공한다.

먼저, 도 6을 참조하면 대화 모드는 사용자와 상대방이 면대면 대화를 하는 경우로, 사용자 단말(100)은 대화 모드인 경우 분리된 화자별 음성신호 중 사용자 음성을 선택하고(S141), 사용자 음성을 대상으로 통역을 수행한 후(S142), 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말(300)로 제공한다(S143). 또한, 상대방 역시 이에 대한 답변 등 대화를 하는 경우 상대방 단말(300)로부터 수신한 상대방 음성의 통역 결과를 수신하여(S144) 자동통역 서비스 제공 단말(200)로 제공한다(S145).

다음으로 도 7을 참조하면, 듣기 모드는 면대면 대화가 아닌 사용자 주변 상황의 음성을 수신하여 통역하기 위한 경우로, 사용자 단말(100)은 듣기 모드인 경우 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하고(S146), 사용자 주변 음성을 대상으로 통역을 수행한다(S147). 그리고 사용자 단말(100)은 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여(S148), 자동통역 서비스 제공 단말(200)로 제공할 수 있다(S149).

이때, 사용자 단말(100)은 듣기 모드인 경우 사용자 주변 음성으로부터 상황정보를 추출하는 과정을 더 수행할 수 있다. 도 8을 참조하면, 사용자 단말(100)은 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더(A1)에 입력시킴과 더불어, 각 화자별로 분리된 사용자 주변 음성으로부터 화자정보, 문맥정보 및 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하고, 추출된 상황정보를 버퍼 상에 저장한다.

그리고 추출된 상황정보를 상황정보 인코더(A2)에 입력시킨 후, 음성 인코더의 출력 정보와 합산하여 번역 디코더(A3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역시 상황정보가 반영된 통역 결과를 제공할 수 있다.

이때, 사용자 단말(100)은 도 9와 같이 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 상황정보를 통해 화자별로 구분된 음성신호의 세기 정보 및 반향 정보를 더 반영하여 통역결과를 자동통역 서비스 제공 단말(200)로 제공할 수 있다. 즉, 사용자 단말(100)은 세기 정보 및 반향 정보를 토대로 화자의 위치 정보를 추정하고(B1), 버퍼 상에 해당 화자정보가 존재하는지 여부를 확인한 후(B2), 자동통역 결과를 출력함에 있어 화자별 위치정보를 더 반영하여 제공할 수 있다.

이에 따라, 자동통역 서비스 제공 단말(200)에서 출력되는 화자별 음성신호는 실제 화자들의 발화와 유사한 특성을 갖도록 출력될 수 있다.

기존의 일반적인 자동통역 시스템에서는 대화 화자의 특성을 고려하지 않고 자동통역 결과를 미리 설정된 단일 화자 음성으로 사용자에게 제공한다. 반면, 본 발명의 일 실시예에서는 화자별 음성신호를 분리하는 과정과 상황정보를 추출 및 적용하는 과정을 통해, 다중 화자의 자동통역 결과를 실제 발화하는 화자의 음성과 유사한 특성을 갖도록 합성할 수 있어, 사용자에게 보다 자연스러운 자동통역 결과를 제공할 수 있다.

한편, 화자정보는 남녀, 또는 컴퓨터 음성인지 여부, 연령, 국적, 감정상태 등의 정보를 포함할 수 있고, 문맥정보는 실시간 통역 결과를 통해 전후 단어나 문장의 의미를 통해 확인할 수 있으며, 잡음정보는 위치, 시간, 공간 등의 정보를 포함하는 개념이다.

도 10은 도 9에서의 위치정보를 반영하여 통역결과를 제2 음성신호로 제공하는 내용을 도시한 것으로, 사용자 주변 음성으로부터 추출된 화자별 음성신호와, 상황정보로부터 추출된 화자정보 및 위치정보를 각각 텍스트 인코더(C1) 및 상황정보 인코더(C2)에 입력시킨다. 그 다음 텍스트 인코더(C1)의 출력 정보와 상황정보 인코더(C2)의 출력 정보를 합산하여 음성 합성 디코더(C3)로 입력시킴에 따라, 사용자 주변 음성에 대한 통역 결과는 복수의 화자별로 구분되고(C4) 복수의 화자의 위치 정보가 반영된 제2 음성신호로 합성되어(C5) 사용자 단말(100)을 통해 자동통역 서비스 제공 단말(200)로 제공될 수 있다.

또한, 본 발명의 일 실시예는 제1 및 제2 음성신호와 사용자 주변 음성을 통해 추출된 상황정보를 기반으로 화자별 소스 분리 모델, 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신할 수 있다. 즉, 제1 및 제2 음성신호 및 상황정보를 입력 데이터로 설정하고, 각 모델에서의 기존 출력된 정보를 출력 데이터로 설정하여 신경망 모델, 딥러닝 모델 등 인공지능 모델 학습 방법에 기초하여 각 모델의 성능을 자동으로 갱신할 수 있다. 이를 통해 본 발명의 일 실시예는 자동통역 서비스를 지속적으로 이용함에 따라 사용자에게 보다 향상된 자동통역 결과를 제공할 수 있다는 장점이 있다.

도 11은 자동통역 서비스 제공 단말(200)에서 수행되는 각 과정을 설명하기 위한 도면이다.

자동통역 서비스 제공 단말(200)은 사용자의 자동통역 요청을 수신하면(S210), 사용자 단말(100)과 페어링됨에 따라 사용자 단말(100)에 통역 초기화를 요청한다(S220).

다음으로, 통역 모드를 구분하여(S230), 대화 모드인 경우 다채널 마이크(210)를 통해 사용자 음성을 수신하고(S231), 듣기 모드인 경우 다채널 마이크(210)를 통해 사용자 주변 음성을 수신한다(S232).

다음으로, 수신한 사용자 음성 또는 사용자 주변 음성을 사용자 단말(100)로 전송하고(S240), 사용자 단말(100)로부터 통역 결과에 따른 제2 음성신호 또는 사용자 단말(100)을 통해 상대방 단말(300)의 통역 결과에 따른 제2 음성신호를 수신하면(S250), 제2 음성신호를 스피커(230)를 통해 사용자에게 출력한다(S260).

한편, 상술한 설명에서, 단계 S110 내지 S260은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 2의 내용은 도 3 내지 도11의 화자분리 기반 자동통역 방법에도 적용될 수 있다.

이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

1: 자동통역 서비스 제공 시스템
100: 사용자 단말
110: 통신모듈
120: 메모리
130: 프로세서
200: 자동통역 서비스 제공 단말
210: 다채널 마이크
220: 통역 모드 선택 버튼
230: 스피커
300: 상대방 단말

Claims

사용자 단말에서의 화자분리 기반 자동통역 방법에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계;
상기 제1 음성신호를 화자별 음성신호로 분리하는 단계;
통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계; 및
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계를 포함하는,
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는, 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하되,
상기 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더에 입력시키는 단계;
상기 사용자 주변 음성으로부터 남녀, 컴퓨터 음성 여부, 연령, 국적 및 감정 상태를 포함하는 화자정보, 실시간 통역 결과를 통해 전후 단어 또는 문장의 의미를 통해 제공되는 문맥정보 및 위치, 시간 및 공간 정보를 포함하는 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하는 단계;
상기 추출된 상황정보를 버퍼 상에 저장하는 단계;
상기 추출한 상황정보를 상황정보 인코더에 입력하는 단계; 및
상기 음성 인코더의 출력과 상기 상황정보 인코더의 출력을 합산하여 번역 디코더에 입력하여, 상기 상황정보가 반영된 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 단계를 포함하는,
화자분리 기반 자동통역 방법.
제1항에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하는 단계는,
상기 통역 모드에 기초하여 상기 제1 음성신호를 자동통역 서비스 제공 단말로부터 수신하되,
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 방법.
제1항에 있어서,
상기 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역하는 단계는,
상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
제1항에 있어서,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
삭제
제4항에 있어서,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보로부터 추정된 위치 정보를 반영하여 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
제4항에 있어서,
상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 단계는,
상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 방법.
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말에 있어서,
자동통역 서비스 제공 단말 및 상대방 단말과 데이터를 송수신하는 통신모듈,
자동통역 서비스 제공 단말로부터 사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 수신하면 이를 기반으로 통역 결과인 제2 음성신호를 생성하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하고,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 음성신호를 화자별 음성신호로 분리하고, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통신모듈을 통해 통역 결과 생성된 제2 음성신호를 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하고,
상기 프로세서는 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하되,
상기 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더에 입력시키고, 상기 사용자 주변 음성으로부터 남녀, 컴퓨터 음성 여부, 연령, 국적 및 감정 상태를 포함하는 화자정보, 실시간 통역 결과를 통해 전후 단어 또는 문장의 의미를 통해 제공되는 문맥정보 및 위치, 시간 및 공간 중 적어도 하나의 정보를 포함하는 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하고, 상기 추출된 상황정보를 버퍼 상에 저장하고, 상기 추출한 상황정보를 상황정보 인코더에 입력한 후, 상기 음성 인코더의 출력과 상기 상황정보 인코더의 출력을 합산하여 번역 디코더에 입력하여, 상기 상황정보가 반영된 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
제8항에 있어서,
상기 자동통역 서비스 제공 단말은 상기 통역 모드가 대화 모드인 경우 마이크를 통해 사용자 음성을 입력받고, 듣기 모드인 경우 마이크를 통해 사용자 주변 음성을 입력받는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
제8항에 있어서,
상기 프로세서는 상기 통역 모드가 대화 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 음성을 선택하여 통역을 수행하고, 상기 통신모듈을 통해 상기 사용자 음성의 통역 결과인 제2 음성신호를 상대방 단말로 제공하고, 상기 상대방 단말로부터 수신한 상대방 음성의 통역 결과를 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
제8항에 있어서,
상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과를 화자별로 구분하여 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
삭제
제11항에 있어서,
상기 프로세서는 상기 제1 및 제2 음성신호와 상기 추출된 상황정보를 기반으로, 상기 제1 음성신호를 화자별 음성신호로 분리하기 위한 화자별 소스분리 모델, 상기 제1 음성신호를 인식하기 위한 음성인식 모델, 제1 음성신호를 번역하기 위한 기계번역 모델 및 이들이 결합된 자동통역 모델의 성능을 자동으로 갱신하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
제11항에 있어서,
상기 프로세서는 상기 추출한 상황정보로부터 화자별로 음성신호를 구분하고, 화자별로 구분된 음성신호의 세기 정보 및 반향 정보로부터 추정된 위치 정보를 반영하여 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
제11항에 있어서,
상기 프로세서는 상기 사용자 주변 음성에 대한 통역 결과 중 사용자에 의해 선택된 적어도 하나의 화자에 상응하는 통역 결과를 상기 통신모듈을 통해 상기 자동통역 서비스 제공 단말로 제공하는 것인,
화자분리 기반 자동통역 서비스를 제공하는 사용자 단말.
화자분리 기반 자동통역 서비스 제공 시스템에 있어서,
사용자 음성 및 사용자 주변 음성 중 적어도 하나를 포함하는 제1 음성신호를 다채널 마이크를 통해 수신하고, 제1 음성신호에 대한 통역 결과 및 상대방 음성에 대한 통역 결과를 스피커를 통해 제공하는 자동통역 서비스 제공 단말,
상기 제1 음성신호를 수신하여 화자별 음성신호로 분리한 후, 통역 모드에 기초하여 화자별 음성신호를 사용자에 의해 선택된 언어로 통역한 후, 상기 통역 결과 생성된 제2 음성신호를 상기 통역 모드에 따라 상대방 단말 및 자동통역 서비스 제공 단말 중 적어도 하나에 제공하는 사용자 단말 및
상기 제2 음성신호를 사용자 단말로부터 수신하여 제공하고, 상기 통역 모드에 따라 상대방 음성을 통역하여 사용자 단말로 제공하는 상대방 단말을 포함하고,
상기 사용자 단말은 상기 통역 모드가 듣기 모드인 경우 상기 분리된 화자별 음성신호 중 사용자 주변 음성을 선택하여 통역을 수행하되,
상기 사용자 주변 음성으로부터 구분된 화자별 음성 신호를 음성 인코더에 입력시키고, 상기 사용자 주변 음성으로부터 남녀, 컴퓨터 음성 여부, 연령, 국적 및 감정 상태를 포함하는 화자정보, 실시간 통역 결과를 통해 전후 단어 또는 문장의 의미를 통해 제공되는 문맥정보 및 위치, 시간 및 공간 중 적어도 하나의 정보를 포함하는 잡음정보 중 적어도 하나를 포함하는 상황정보를 추출하고, 상기 추출된 상황정보를 버퍼 상에 저장하고, 상기 추출한 상황정보를 상황정보 인코더에 입력한 후, 상기 음성 인코더의 출력과 상기 상황정보 인코더의 출력을 합산하여 번역 디코더에 입력하여, 상기 상황정보가 반영된 상기 사용자 주변 음성에 포함된 화자별 음성신호를 통역하는 것인,
화자분리 기반 자동통역 서비스 제공 시스템.