KR102088216B1

KR102088216B1 - 자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치

Info

Publication number: KR102088216B1
Application number: KR1020180132328A
Authority: KR
Inventors: 김정근
Original assignee: 김정근
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-03-12
Also published as: WO2020091482A1; US11763833B2; US20210407530A1

Abstract

적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법, 장치, 컴퓨터 판독가능 매체가 개시된다. 크로스토크를 감소시키는 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하는 단계; 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.

Description

자동 통역 시스템에서 크로스토크를 감소시키는 방법 및 장치{METHOD AND DEVICE FOR REDUCING CROSSTALK IN AUTOMATIC SPEECH TRANSLATION SYSTEM}

본 발명은 크로스토크를 감소시키는 방법 및 장치에 관한 것이다. 구체적으로는, 자동 통역 시스템에서 본인의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치에 관한 것이다.

교통, 통신수단이 발달함에 따라 각국 간의 인적, 물적 교류가 활발해지고, 서로 다른 언어를 사용하는 개인이나 집단 간에 번역 및 통역에 대한 요구는 점차적으로 증가해 왔다. 그러나, 전문 통역사에 대한 수요가 증가하는 데 반해, 통역사의 공급의 부족 및 비용 문제로 인해 일반인이 활용하기는 어려운 점이 있다.

1990년대부터는 여러 기초 기술이 진화함에 따라 이를 기반으로 자동 통역을 위한 연구가 활발해져 왔다.

자동 통역은 언어 A로 된 사람의 발화를 음성인식, 자동번역 등의 과정을 거쳐서 다른 언어 B로 변환하고, 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려주는 과정 및 기술을 의미한다. 다시 말해, 자동 통역은 음성인식, 자동번역 및 음성합성의 세 가지 요소기술로 구성된다.

이중, 자동 통역을 위한 음성인식은, 여러 해결해야 할 요소들이 있다. 먼저, 음성인식의 정확도가 매우 높아야 한다는 점이다. 음성인식 모듈의 출력이 자동번역 모듈의 입력이 되는데, 자동번역 모듈이 음성인식 오류에 대해 검색 등의 언어처리 모듈보다 더 민감하기 때문이다. 또한, 자동통역이 처리대상으로 하는 음성들이 대체로 대화체의 음성이라는 점도 자동 통역을 위한 음성인식의 난이도를 높이는 요소이다.

또한, 자동 통역은 항상 조용한 곳에서만 사용되는 것이 아니라는 점이다. 자동 통역은 다른 사람들의 소리가 입력될 수 있는 길거리, 여러 명이 회의하고 있는 회의실, 등 다양한 잡음, 특히 다른 화자의 목소리가 존재하는 상황에서 사용될 수 있다. 따라서, 자동 통역에 사용되는 음성인식은 다른 응용 분야에 사용되는 음성인식보다 잡음 제거 면에서 더 고도의 기술을 요한다.

방송뉴스 통역과 같이 언어 A에서 언어 B로의 통역만이 이루어지는 형태의 자동통역을 단방향(one-way) 자동통역이라고 한다. 회의실 내에서 또는 컨퍼런스 콜에서 서로 다른 언어를 사용하는 2인 이상이 대화화는 경우 A→B, B→A의 방향으로 자동통역이 이루어지게 된다. 이런 형태를 양방향(two-way) 자동통역이라고 한다.

양방향 자동통역에서는, 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음이 혼재한다. 본 명세서에서는 잡음의 종류를 다른 사람의 목소리로 인한 잡음과 사람 이외의 환경에 의한 잡음으로 구분하고, 전자를 크로스토크, 후자를 환경 잡음이라고 칭한다.

음성인식 과정에서는 환경 잡음이 크로스토크보다 영향이 훨씬 크고 제거하기에 어렵다고 인식되어 왔다. 음성(크로스토크)과 환경 잡음의 주파수 영역이 크게 차이가 나므로, 환경 잡음을 음성으로부터 분리하는 것은 비교적 용이하다. 그러나, 화자 A의 음성과 화자 B의 음성이 혼재하는 경우, 두 음성은 주파수 영역이 유사하여, 이를 서로 분리하는 것이 대단히 어렵다.

상기한 문제점으로 인해 서로 다른 언어를 사용하는 두 명 이상의 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시킬 개선된 방법이 필요하다.

일본 공개특허공보 2001-251429 A (2001.09.14)

본원 발명의 목적은 자동 통역 시스템의 음성인식 과정에서 통역의 대상이 되는 화자 A의 음성 이외의 음성 신호에 의한 크로스토크를 감소시키는 방법 및 장치를 제공하는 것이다.

본 발명의 제1 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키는 방법을 제공한다. 상기 방법은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계, 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계를 포함한다.

본 발명의 제2 실시예에서, 상기 방법은 상기 제거하는 단계 이전에, 음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함할 수 있고, 상기 제거하는 단계는 상기 음성 구간에 대해서만 실행될 수 있다.

본 발명의 제3 실시예에서, 상기 제거하는 단계가, 음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 추출하는 단계, 및 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계를 포함할 수 있다.

본 발명의 제4 실시예에서, 상기 방법은 상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계, 및 상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함할 수 있다.

본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 장치로서, 적어도 하나의 프로세서 및 상기 적어도 하나의 프로세서에 결합된 메모리를 포함한다.

상기 적어도 하나의 프로세서는 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된다.

본 발명의 제5 실시예는 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체를 제공한다. 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금: 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고; 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하게 하고; 그리고 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 한다.

본원 발명의 실시예들에 따르면, 아웃이어 마이크의 고주파 성분으로 이루어진 음성신호를 기초로, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크에 입력되는 노이즈 적은 신호를 이용하여 제거할 수 있다. 따라서, 상대방 음성에 의한 크로스토크가 현저하게 감소되는 동시에 고주파 성분이 포함된 음성 신호를 획득할 수 있고 이를 자동번역을 위해 사용할 수 있다.

도 1은 본원 발명의 일 실시예에 따른 자동통역 장치의 구성 모듈들을 도시한다.
도 2는 본원 발명의 일 실시예에 따른 인이어 마이크를 구비한 헤드셋을 도시한다.
도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.
도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈을 포함하는 음성인식 모듈을 도시한다.
도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.
도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법의 흐름도이다.

다양한 양상들이 도면을 참조하여 설명되는데, 동일한 도면부호는 도면 전체에서 동일한 요소들을 나타내는데 사용된다. 이하의 설명에서, 설명의 목적을 위해, 다양한 구체적 사항들이 하나 이상의 양상들의 전체적인 이해를 제공하기 위해 설명된다. 그러나, 이러한 양상은 이러한 구체적 사항들 없이도 실행될 수 있음이 당업자에게 명백할 것이다.

도 1을 참조하면, 본원 발명의 일 실시예에 따른 자동통역 장치(100)는 음성인식 모듈(101), 자동번역 모듈(103) 및 음성합성 모듈(105)을 포함한다.

음성 인식 모듈(101)은 언어 A로 된 제 1 사용자의 발화를 음성인식한다. 음성 인식은 ASR(Automatic Speech Recognition) 또는 STT(Speech-to-Text)라고도 알려져 있다. 음성 인식 모듈의 출력물은 문자열이다.

자동번역 모듈(103)은 언어 A로 된 문자열을 언어 B의 문자열로 번역한다.

음성합성 모듈(105)은 번역된 문장을 이를 자막으로 출력하거나 혹은 음성합성 후 스피커를 통해 들려준다. 음성 합성은 TTS(Text-to-Speech)라고도 알려져 있다.

도 2를 참조하면, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)이 도시된다.

헤드셋(200)은 종래의 헤드셋과 유사하게 사용자가 착용할 경우 귀의 내부에 위치하게 되는 스피커(230)와, 귀의 외부로 노출되어 사용자의 음성을 입력받는 아웃이어 마이크(out ear microphone: 210)를 포함한다.

또한, 헤드셋(200)은 사용자가 헤드셋을 착용할 경우 귀의 내부에 위치되며, 사용자의 음성 진동을 수신하도록 구성된 인이어 마이크(in ear microphone: 220)를 더 포함한다.

따라서, 본 발명의 자동통역을 위해 사용자가 착용하는 헤드셋(200)은 인이어 마이크(220) 및 아웃이어 마이크(210)의 두 개의 마이크를 포함한다.

아웃이어 마이크(210)에 입력되는 신호는 노이즈가 많지만 음질이 우수한 특성이 있다. 반면, 인이어 마이크(220)는 귀 내부에 위치하여 외부에 덜 노출되므로, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의한 인식 및 처리가 어렵다.

본원 발명의 일 실시예에 따르면, 도 3을 참조하여 후술하는 것처럼 인이어 마이크(220b)는 아웃이어 마이크(210)를 통해 입력된 사용자의 음성 신호로부터 크로스토크를 감소시키기 위해 사용될 수 있다.

헤드셋(200)은 입력된 음성 신호를 송신하거나 다른 신호를 수신하도록 유선 또는 무선으로 자동 통역 장치에 연결될 수 있다. 또한 헤드셋(200)은 본원 발명의 일 실시예에 따른 모듈들, 특히 크로스토크 감소 모듈을 헤드셋 내부에 실장하도록 구성될 수 있다. 또한, 도 2에 도시된 헤드셋(200)은 일 예시에 불과하고, 헤드셋이 인이어 마이크, 아웃이어 마이크, 및 스피커를 포함하기만 하면 그 형상 또는 기능에 제한되지 않고 사용될 수 있다. 예를 들어, 아웃이어 마이크(210)는 사용자의 음성을 수신할 수 있다면 도 2에 도시된 것처럼 헤드셋의 헤드부로부터 길게 연장될 필요가 없이 다양한 구조와 형상을 가져도 좋다.

도 3은 본원 발명의 일 실시예에 따른 자동통역 장치와 2명의 서로 다른 언어를 사용하는 사용자가 착용한 2개의 헤드셋 사이의 음성 신호 및 크로스토크의 흐름을 보여주는 도면이다.

본원 발명의 일 실시예에 따른 자동통역 장치(300)는 음성인식 모듈(302) 및 자동번역 모듈(304)을 포함한다. 음성인식 모듈(302)은 크로스토크 감소 모듈(408)을 포함할 수 있다. 본 실시예에 따르면, 자동통역 장치(300)는 헤드셋과는 별도의 장치에 탑재되어 있다. 그러나, 자동통역 장치(300)는 각각의 헤드셋(200)에 내장될 수도 있다. 자동통역 장치(300)는 휴대폰과 같은 데이터 송수신이 가능한 휴대용 전자장치에 프로그램의 형태로 내장될 수도 있다. 자동통역 장치(300)는 어느 경우에나, 제 1 사용자 및 제 2 사용자의 헤드셋과 신호를 송수신할 수 있도록 통신가능하여야 한다.

제 1 사용자가 통역을 원하는 음성 신호를 발화하는 경우, 제 1 사용자의 헤드셋 중 아웃이어 마이크(210)에는 제 1 사용자의 음성 신호 A가 입력된다. 또한, 제 1 사용자의 헤드셋 중 인이어 마이크(220)에는 음성 신호 A_inear가 입력된다. 도 3에는 설명 및 도시의 편의를 위해 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 분리된 별도의 디바이스로 도시되어 있다. 그러나, 아웃이어 마이크(210, 210b)가 사용자의 헤드셋과 일체형으로 이루어지는 것이 바람직하다.

한편, 제 1 사용자가 음성 신호를 발화하는 동시에, 제 2 사용자도 음성 신호를 발화할 수 있다. 제 2 사용자의 음성 신호는 통역을 원하는 언어일 수도 있고 단지 잡음일 수도 있다. 제 2 사용자의 헤드셋 중 아웃이어 마이크(210b)에는 제 2 사용자의 음성 신호 B가 입력된다. 또한, 제 2 사용자의 헤드셋 중 인이어 마이크(220b)에는 음성 신호 B_inear가 입력된다. 또한, 제 2 사용자의 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에도 입력되게 된다. 상기 음성 신호 b는 제 1 사용자의 아웃이어 마이크(210)에서는 크로스토크에 해당한다.

결국, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 제 1 사용자의 음성 신호 A 및 제 2 사용자의 음성 신호 b를 포함한다. 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다.

이하에서는 도 4를 도 3과 함께 참조하여 음성 인식 모듈(302)에 대해 더 설명한다. 도 4는 본원 발명의 일 실시예에 따른 크로스토크 감소 모듈(408)을 포함하는 음성인식 모듈(302)을 도시한다.

음성인식 모듈(302)은 음성 활동 감지(voice activity detection: VAD) 모듈(404)을 더 포함할 수 있다. 음성 활동 감지 모듈(404)은 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 여부를 결정할 수 있도록 구성된다. 본 발명의 일 실시예에 따르면, 음성 구간이라고 결정된 구간에서 수신된 신호만이 크로스토크 감소모듈(408)에서의 처리를 통해 자동번역 모듈(304)로 전송될 수 있다.

제 1 사용자의 아웃이어 마이크(210)에 입력된 신호(A+b+환경잡음)는 이제 음성인식 모듈(302)에서, 특히 수신 모듈(402)에 의해 수신된다. 음성인식 모듈(302), 특히 수신 모듈(402)은 또한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신한다.

크로스토크 감소 모듈(408)은 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제 2 사용자의 음성 신호(b)를 제거한다.

보다 구체적으로는, 음성인식 모듈(302)은 음성 패턴 매칭(voice pattern matching) 모듈(406)을 더 포함하고, 이 음성 패턴 매칭 모듈(406)은 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 추출한다.

크로스토크 감소 모듈(408)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거한다. 이상에서는 음성 패턴 매칭 모듈(406) 및 크로스토크 감소 모듈(408)을 별개의 모듈로 설명하였지만, 이들 모두가 다른 실시예에서는 크로스토크 감소 모듈로 지칭될 수 있다.

전술한 바와 같이, 인이어 마이크(220)에 입력되는 신호는 노이즈가 상당히 감소되지만, 사람 음성의 고주파 대역 성분을 충분히 담고 있지 않기 때문에 프로그램 또는 프로세서에 의해 음성을 인식하고, 인식된 음성을 번역을 위해 이용하기 어렵다. 본원 발명의 일 실시예에 따르면, 아웃이어 마이크(210)의 고주파 성분을 이용하되, 상대방의 음성 신호에 따른 크로스토크를 상대방의 인이어 마이크(220)에 입력되는 노이즈 적은 신호를 이용하여 제거하였다.

전술한 바에 따르면, 제 1 사용자의 아웃이어 마이크(210)에 입력된 신호는 환경 잡음 N을 더 포함할 수 있다. 음성인식 모듈(302)은 환경 잡음 N을 더 제거하도록 구성될 수 있다. 예를 들어, 음성 활동 감지 모듈이 사용자의 음성이 입력되는 음성 구간과, 사용자의 음성이 입력되지 않는 비음성 구간을 구분한다. 비음성 구간의 신호는 환경 잡음 N에 해당하므로, 비음성 구간의 신호를 노이즈 게이팅(noise gating)을 통해 제거할 수 있다. 또한, 음성 구간에서는 주파수 대역이 음성 대역인 부분만 필터링 하는 방식으로 환경 잡음 N을 제거할 수 있다.

이제, 이와 같이 크로스토크 및 환경 잡음이 제거된 신호, 즉 제 1 사용자의 음성 신호 A 또는 제 2 사용자의 음성 신호 B는 자동번역 모듈(304)로 보내진다. 자동번역 모듈(304)은 음성 신호 A 또는 음성 신호 B를 다른 언어로 번역하고, 상기 번역된 문장은 음성합성 모듈(106)을 통해 음성으로 합성하여 출력된다.

도 5는 본원 발명의 일 실시예에 따른 크로스토크 감소를 위한 방법(500)의 흐름도이다.

크로스토크 감소를 위한 방법(500)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(502)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.

크로스토크 감소를 위한 방법(500)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하는 단계(504)를 포함한다.

크로스토크 감소를 위한 방법(500)은 또한 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(506)를 포함한다.

도 6은 본원 발명의 다른 실시예에 따른 크로스토크 감소를 위한 방법(600)의 흐름도이다.

크로스토크 감소를 위한 방법(600)은 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호를 수신하는 단계(602)를 포함한다. 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함하고 있다.

크로스토크 감소를 위한 방법(600)은 또한 인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하는 단계(604)를 포함한다.

크로스토크 감소를 위한 방법(600)은 또한 음성 활동 감지 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계(606)를 포함한다.

크로스토크 감소를 위한 방법(600)은 또한 음성 패턴 매칭 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 추출하는 단계(608)를 포함한다.

크로스토크 감소를 위한 방법(600)은 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계(610)를 포함한다.

본 명세서에 기재된 실시예들은 하드웨어, 소프트웨어, 펌웨어, 미들웨어, 마이크로코드, 또는 이들의 임의의 조합으로 구현될 수 있음이 이해되어야 한다. 하드웨어 구현을 위하여, 처리 유닛들은 하나 이상의 주문형 반도체(ASICs), 디지털 신호 프로세서(DSPs), 디지털 신호 처리 디바이스(DSPDs), 프로그래머블 로직 디바이스(PLDs), 필드 프로그래머블 게이트 어레이(FPGAs), 프로세서, 제어기, 마이크로 제어기, 마이크로프로세서, 본원에 기재된 기능들을 수행하도록 고안된 다른 전자 유닛들, 또는 이들의 조합에 의해 구현될 수 있다.

소프트웨어 구현을 위해서, 본원에 기재된 기술들이 본원에 기재된 기능들을 수행하는 모듈들(예, 프로시져, 함수 등)로 구현될 수 있다. 소프트웨어 코드는 메모리 유닛들에 저장되고 프로세서들에 의해 실행될 수 있다. 메모리 유닛은 프로세서 내부에서 또는 프로세서 외부에서 구현될 수 있고, 후자의 경우 기술분야에서 공지된 대로 다양한 수단을 통해 프로세서에 통신가능하게 결합될 수 있다.

본원에 기재된 메모리는 휘발성 메모리 또는 비휘발성 메모리 중 하나일 수 있거나, 휘발성 및 비휘발성 메모리 모두를 포함할 수 있음이 인식될 것이다. 비휘발성 메모리는 리드 온리 메모리(ROM), 프로그래머블 ROM (PROM), 전기적 프로그래머블 ROM (EPROM), 전기적 소거가능 PROM (EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 외부 캐시 메모리로써 동작하는 랜덤 액세스 메모리(RAM)를 포함할 수 있다. RAM은 동기 RAM (SRAM), 다이나믹 RAM (DRAM), 동기 DRAM (SDRAM), 더블 데이터 레이트 SDRAM (DDR SDRAM), 인핸스드 SDRAM (ESDRAM), 싱크링크 DRAM (SLDRAM), 및 디렉트 램버스 RAM (DRRAM)과 같은 많은 형태로 이용가능하다. 본원 발명의 메모리는 이들 및 다른 적절한 형태의 메모리를 포함하나 이에 제한되지 않는다.

위에서 기재된 것은 하나 이상의 실시예들을 포함한다. 물론, 전술한 실시예들을 기재하는 목적을 위한 모듈들 또는 방법들의 모든 도출가능한 조합을 기재하는 것은 가능하지 않지만, 당업자라면 다양한 실시예들의 많은 추가적인 조합이 가능함을 인식할 수 있을 것이다. 따라서, 기재된 실시예들은 첨부된 청구범위의 사상과 범위내에 드는 모든 변경을 포함하기 위한 의도이다. 또한, 본 발명은 본원에 개시된 실시예들로 한정되는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 최광의의 범위를 부여받아야 할 것이다.

100, 300 : 자동통역 장치
102, 302 : 음성인식 모듈
104, 304 : 자동번역 모듈
106 : 음성합성 모듈
200 : 헤드셋
210, 210b : 아웃이어 마이크
220, 220b : 인이어 마이크
230 : 스피커
408 : 크로스토크 감소 모듈

Claims

적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법으로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하는 단계;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하는 단계; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하는 단계
를 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
제 1 항에 있어서,
상기 제거하는 단계 이전에,
음성 활동 감지(voice activity detection: VAD) 모듈을 이용하여 사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 단계를 더 포함하고,
상기 제거하는 단계는 상기 음성 구간에 대해서만 실행되는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
제 1 항에 있어서,
상기 제거하는 단계는,
음성 패턴 매칭(voice pattern matching) 모듈을 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 추출하는 단계; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 제거하는 단계
를 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
제 1 항에 있어서,
상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 단계; 및
상기 번역된 문장을 음성으로 합성하여 출력하는 단계를 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키는 방법.
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고; 그리고
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하도록 구성된
수신 모듈; 및
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록 구성된 크로스토크 감소 모듈
을 포함하는, 적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
제 5 항에 있어서,
사용자의 음성이 입력되는 음성 구간인지 사용자의 음성이 입력되지 않는 비음성 구간인지 결정하는 음성 활동 감지(voice activity detection: VAD) 모듈을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
제 5 항에 있어서,
상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b) 중 상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)와 매칭되는 신호 성분을 추출하는 음성 패턴 매칭(voice pattern matching) 모듈을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
제 5 항에 있어서,
상기 제 2 사용자의 음성 신호(b)가 제거된 제 1 사용자의 음성 신호를 다른 언어로 번역하는 자동 번역 모듈; 및
상기 번역된 문장을 음성으로 합성하여 출력하는 음성 합성 모듈
을 더 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치로서,
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하고;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하고; 그리고
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하도록
구성된 적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서에 결합된 메모리
를 포함하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 장치.
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 컴퓨터에 의해 실행될 때 컴퓨터로 하여금:
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 1 사용자의 아웃이어 마이크에 입력된 신호 ― 상기 신호는 제 1 사용자의 음성 신호(A) 및 제 2 사용자의 음성 신호(b)를 포함함 ― 를 수신하게 하고;
인이어 마이크 및 아웃이어 마이크를 구비한 헤드셋을 착용한 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 수신하게 하고; 그리고
상기 제 2 사용자의 인이어 마이크에 입력된 음성 신호(B_inear)를 이용하여 상기 제 1 사용자의 아웃이어 마이크에 입력된 신호(A+b)로부터 상기 제 2 사용자의 음성 신호(b)를 제거하게 하는,
적어도 2명의 서로 다른 언어를 사용하는 사용자 사이의 자동 통역을 수행할 때 다른 사용자의 음성 신호에 의한 크로스토크를 감소시키기 위한 프로그램이 저장된 컴퓨터 판독가능 저장 매체.