KR20220043279A

KR20220043279A - 음성 처리 장치 및 이를 포함하는 음성 처리 시스템

Info

Publication number: KR20220043279A
Application number: KR1020200126504A
Authority: KR
Inventors: 김정민
Original assignee: 주식회사 아모센스
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-04-05

Abstract

복수의 코드리스 이어폰들 및 음성 처리 장치를 포함하는 음성 처리 시스템이 개시된다. 복수의 코드리스 이어폰들 각각은 화자들로부터 발화된 음성들과 연관된 음성 신호를 생성하도록 구성되는 마이크 유닛, 음성 신호를 전송하도록 구성되는 통신 유닛 및 음성을 재생하도록 구성되는 스피커 유닛을 포함하고, 음성 처리 장치는, 복수의 코드리스 이어폰들로부터 전송된 음성 신호들을 수신하도록 구성되는 통신 회로, 복수의 코드리스 이어폰들 중 제1코드리스 이어폰으로부터 전송된 제1음성 신호들로부터 화자들 중 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고, 제1분리 음성 신호를 번역하여 제1번역 음성 신호를 생성하도록 구성되는 음성 처리 회로, 메모리 및 제1번역 음성 신호를 복수의 코드리스 이어폰들 중 제1코드리스 이어폰을 제외한 나머지 코드리스 이어폰으로 전송하도록 구성되는 통신 회로를 포함한다.

Description

음성 처리 장치 및 이를 포함하는 음성 처리 시스템{VOICE PROCESSING DEVICE AND VOICE PROCESSING SYSTEM INCLUDING THE SAME}

본 발명의 실시 예들은 음성 처리 장치 및 이를 포함하는 음성 처리 시스템에 관한 것이다.

마이크(microphone)는 음성을 인식하고, 인식된 음성을 전기적인 신호인 음성 신호로 변환하는 장치이다. 회의실이나 교실과 같이 복수의 화자(speaker)들이 위치하는 공간 내에 마이크가 배치되는 경우, 상기 마이크는 복수의 화자들로부터 나온 음성들을 모두 수신하고, 복수의 화자들의 음성에 연관된 음성 신호들을 생성한다.

복수의 화자들이 동시에 발화하는 경우, 개별 화자들의 음성만을 나타내는 음성 신호를 분리하는 것이 필요하다. 또한, 복수의 화자들이 서로 다른 언어로 발화하는 경우, 복수의 화자들의 음성을 쉽게 번역하기 위해서는, 복수의 화자들의 음성의 원래 언어(즉, 출발 언어)를 파악해야 하는데, 음성 자체의 특징만으로 해당 음성의 언어를 파악하는 것은 시간이 많이 소요되고, 많은 리소스가 소요되는 문제가 있다.

한국공개특허공보 제10-2017-0112713호 (2017.10.12.)

본 발명이 해결하고자 하는 과제는 복수의 코드리스 이어폰들로부터 전송된 음성 신호로부터 화자들의 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있는 음성 처리 장치 및 이를 포함하는 음성 처리 시스템을 제공하는 것에 있다.

본 발명이 해결하고자 하는 과제는 화자들의 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들 각각의 음성에 대한 번역 결과를 생성하고, 생성된 번역 결과를 해당하는 코드리스 이어폰으로 전송할 수 있는 음성 처리 장치 및 이를 포함하는 음성 처리 시스템을 제공하는 것에 있다.

본 발명의 실시 예들에 따른 음성 처리 시스템은 복수의 코드리스 이어폰들 및 음성 처리 장치를 포함한다. 복수의 코드리스 이어폰들 각각은 화자들로부터 발화된 음성들과 연관된 음성 신호를 생성하도록 구성되는 마이크 유닛, 음성 신호를 전송하도록 구성되는 통신 유닛 및 음성을 재생하도록 구성되는 스피커 유닛을 포함하고, 음성 처리 장치는, 복수의 코드리스 이어폰들로부터 전송된 음성 신호들을 수신하도록 구성되는 통신 회로, 복수의 코드리스 이어폰들 중 제1코드리스 이어폰으로부터 전송된 제1음성 신호들로부터 화자들 중 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고, 제1분리 음성 신호를 번역하여 제1번역 음성 신호를 생성하도록 구성되는 음성 처리 회로, 메모리 및 제1번역 음성 신호를 복수의 코드리스 이어폰들 중 제1코드리스 이어폰을 제외한 나머지 코드리스 이어폰으로 전송하도록 구성되는 통신 회로를 포함한다.

본 발명의 실시 예들에 따른 음성 처리 장치 및 음성 처리 시스템은 음성의 음원 위치에 기초하여 특정 음원 위치로부터의 음성과 연관된 분리 음성 신호를 생성할 수 있으므로, 주변 소음의 영향을 최소화된 음성 신호를 생성할 수 있는 효과가 있다.

본 발명의 실시 예들에 따른 음성 처리 장치 및 음성 처리 시스템은 코드리스 이어폰들로부터 전송된 음성 신호로부터 화자들 각각의 음성을 추출할 수 있을 뿐만 아니라, 화자들의 음성을 번역하여 번역 결과를 생성하고, 번역 결과를 해당하는 코드리스 이어폰으로 전송할 수 있으므로, 화자들은 코드리스 이어폰을 통해 별도의 통역 없이 서로 대화할 수 있는 효과가 있다.

도 1은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타내는 도면이다.
도 2는 본 발명의 실시 예들에 따른 코드리스 이어폰을 나타낸다.
도 3은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다.
도 4는 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다.
도 5 내지 도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.
도 9는 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시 예들을 설명한다.

도 1은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타내는 도면이다. 도 1을 참조하면, 음성 처리 장치(200)는 공간(예컨대, 회의실, 차량, 강의실 등)에 위치한 화자들(SPK1~SPK4)의 음성들과 연관된 음성 신호를 코드리스 이어폰들(100-1~100-4)로부터 수신하고, 음성 신호를 처리함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 음성 처리를 수행할 수 있다.

화자들(SPK1~SPK4) 각각은 자신의 위치에서 특정 음성을 발화(pronounce)할 수 있다. 실시 예들에 따라, 제1화자(SPK1)는 제1위치(P1)에 위치할 수 있고, 제2화자(SPK2)는 제2위치(P2)에 위치할 수 있고, 제3화자(SPK3)는 제3위치(P3)에 위치할 수 있고, 제4화자(SPK4)는 제4위치(P4)에 위치할 수 있다.

코드리스 이어폰들(100-1~100-4)은 화자들의 음성을 수신하고, 화자들의 음성과 연관된 음성 신호를 음성 처리 장치(200)로 전송할 수 있다. 또한, 코드리스 이어폰들(100-1~100-4)은 음성 처리 장치(200)로부터 전송된 음성 신호를 재생할 수 있다.

코드리스 이어폰들(100-1~100-4)은 무선 방식의 이어폰(earphone)으로서, 음성 처리 장치(200)와 무선 방식으로 연동 또는 연결될 수 있다. 실시 예들에 따라, 코드리스 이어폰들(100-1~100-4)은 Bluetooth, WiFi, ZigBee, RFID, NFC 등과 같은 무선 통신 방식에 따라 음성 처리 장치(200)와 신호를 주고받을 수 있다. 예컨대, 코드리스 이어폰들(100-1~100-4)은 완전 무선(true wireless stereo (TWS)) 이어폰일 수 있다.

코드리스 이어폰들(100-1~100-4) 각각은 왼쪽 이어폰 및 오른쪽 이어폰을 포함할 수 있다.

실시 예들에 따라, 코드리스 이어폰들(100-1~100-4) 각각은 화자들(SPK1~SPK4)에 의해 착용된 장치일 수 있다. 예컨대, 제1코드리스 이어폰(100-1)은 제1화자(SPK1)에 의해 착용되고, 제2코드리스 이어폰(100-2)은 제2화자(SPK2)에 의해 착용되고, 제3코드리스 이어폰(100-3)은 제3화자(SPK3)에 의해 착용되고, 제4코드리스 이어폰(100-4)은 제4화자(SPK4)에 의해 착용될 수 있다.

한편, 도 1에는 코드리스 이어폰들(100-1~100-4)이 두 개의 이어폰 유닛으로 구성된 것으로 도시되어 있으나, 본 발명의 실시 예들이 이에 한정되는 것은 아니다.

코드리스 이어폰들(100-1~100-4)은 공간 내에서 발생한 음성에 응답하여, 음성 신호를 생성하며, 생성된 음성 신호를 음성 처리 장치(200)로 전송할 수 있다. 실시 예들에 따라, 코드리스 이어폰들(100-1~100-4)은 화자들(SPK1~SPK4)의 음성에 응답하여, 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성하고, 음성 신호를 음성 처리 장치(200)로 전송할 수 있다.

예컨대, 코드리스 이어폰들(100-1~100-4)은 복수의 마이크로폰(microphone)들을 포함할 수 있다.

코드리스 이어폰들(100-1~100-4)은 음성 처리 장치(200)로부터 전송된 음성 신호를 청각적인 방식에 따라 출력할 수 있다. 실시 예들에 따라, 코드리스 이어폰들(100-1~100-4)은 전송된 음성 신호에 해당하는 음성을 재생할 수 있다.

음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 화자들(SPK1~SPK4)에 의해 발화된 음성과 연관된 음성 신호를 수신할 수 있다. 음성 신호는 특정 시간동안 발화된 음성들과 연관된 신호로서, 복수의 화자들의 음성을 나타내는 신호일 수 있다.

음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)으로부터 전송된 음성 신호의 음원 위치를 판단하고, 음원 위치에 기초하여 음원 분리를 수행함으로써, 코드리스 이어폰들(100-1~100-4)으로부터 전송된 음성 신호로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여, 음성의 음원 위치(예컨대, 코드리스 이어폰들 각각에 대한 상대적인 음원 위치)를 결정하고, 특정 위치의 음원과 연관된 분리 음성 신호를 생성할 수 있다.

예컨대, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들에 대응하는 음성들의 음원 위치에 기초하여, 코드리스 이어폰들(100-1~100-4) 각각을 착용한 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 즉, 음성 처리 장치(200)는 제1코드리스 이어폰(100-1)으로부터 전송된 제1음성 신호에 기초하여, 제1코드리스 이어폰(100-1)을 착용한 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.

이 때, 제1분리 음성 신호는 화자들의 음성들 중 제1화자의 음성과 가장 높은 연관도를 가질 수 있다. 다시 말하면, 제1분리 음성 신호에 포함된 음성 성분 중에서 제1화자의 음성 성분의 비중이 가장 높을 수 있다.

따라서, 본 발명의 실시 예들에 따른 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들에 기초하여, 코드리스 이어폰들(100-1~100-4) 각각의 착용자의 음성과 연관된 분리 음성 신호를 생성할 수 있는 효과가 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 예컨대, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어(source language; 번역 대상 언어)와 도착 언어(target language; 번역 후 언어)를 결정하고, 분리 음성 신호를 이용하여 화자들 각각의 언어에 대한 번역을 제공할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 음성들 각각에 대한 번역 결과를 코드리스 이어폰들(100-1~100-4) 각각으로 전송할 수 있다. 상기 번역 결과는 번역된 음성과 연관된 번역 음성 신호일 수 있다.

도 2는 본 발명의 실시 예들에 따른 코드리스 이어폰을 나타낸다. 도 2를 참조하면, 코드리스 이어폰(100)은 도 1에 도시된 코드리스 이어폰들(100-1~100-4)을 대표적으로 나타낸다.

코드리스 이어폰(100)은 마이크 유닛(110), 스피커 유닛(120), 제어 유닛(130), 통신 유닛(140) 및 배터리(150)를 포함할 수 있다.

마이크 유닛(110)은 음성을 수신하고, 음성에 응답하여 음성 신호를 생성할 수 있다. 실시 예들에 따라, 마이크 유닛(110)은 음성으로 인한 공기의 진동을 검출하고, 검출 결과에 따라 진동에 대응하는 전기적인 신호인 음성 신호를 생성할 수 있다.

실시 예들에 따라, 마이크 유닛(110)은 복수의 마이크들을 포함할 수 있고, 복수의 마이크들 각각은 음성에 응답하여 음성 신호를 생성할 수 있다. 예컨대, 코드리스 이어폰(100)은 하나의 음성에 응답하여 복수의 음성 신호를 생성할 수 있다. 이 때, 마이크들이 배치된 위치는 서로 다를 수 있으므로, 마이크들 각각에 의해 생성된 음성 신호들은 서로 위상 차(또는 시간 지연)을 가질 수 있다.

스피커 유닛(120)은 음성 신호에 해당하는 음성을 출력할 수 있다. 실시 예들에 따라, 스피커 유닛(120)은 음성 신호에 대응하는 진동을 형성함으로써, 상기 음성 신호와 연관된 음성을 재생할 수 있다.

제어 유닛(130)은 코드리스 이어폰(100)의 전반적인 동작을 제어할 수 있다. 실시 예들에 따라, 제어 유닛(130)은 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 제어 유닛(130)은 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), ADC 컨버터(analog to digital converter) 또는 DAC 컨버터(digital to analog converter)를 포함할 수 있으나, 이에 한정되는 것은 아니다.

제어 유닛(130)은 마이크 유닛(120)에 의해 생성된 음성 신호들을 아날로그-디지털 변환할 수 있다. 디지털로 변환된 음성 신호는 통신 유닛(140)을 통해 출력될 수 있다. 또한, 제어 유닛(130)은 통신 유닛(140)에 의해 수신된 디지털 형태의 번역 음성 신호를 디지털-아날로그 변환하고, 아날로그로 변환된 번역 음성 신호를 스피커 유닛(120)으로 전송할 수 있다.

통신 유닛(140)은 무선 통신 방식에 따라 음성 처리 장치(200)와 데이터를 주고받을 수 있다. 실시 예들에 따라, 통신 유닛(140)은 WiFi, ZigBee, RFID, NFC 등과 같은 무선 통신 방식에 따라 음성 처리 장치(200)와 신호를 주고받을 수 있다

통신 유닛(140)은 음성 처리 장치(200)로 음성 신호를 전송할 수 있고, 음성 처리 장치(200)로부터 번역 음성 신호를 수신할 수 있다.

배터리(150)는 코드리스 이어폰(100)의 동작에 필요한 전력을 공급할 수 있다. 실시 예들에 따라, 배터리(150)는 코드리스 이어폰(100)에 포함된 마이크 유닛(110), 스피커 유닛(120), 제어 유닛(130) 및 통신 유닛(140)으로 전력을 공급할 수 있다.

도 3은 본 발명의 실시 예들에 따른 음성 처리 장치를 나타낸다. 도 3을 참조하면, 음성 처리 장치(200)는 통신 회로(210), 음성 처리 회로(220) 및 메모리(230)를 포함할 수 있다.

통신 회로(210)는 외부 장치와 무선 통신을 수행할 수 있다. 실시 예들에 따라, 통신 회로(210)는 코드리스 이어폰들(100-1~100-4)과 데이터 또는 신호를 주고받을 수 있다. 통신 회로(210)는 코드리스 이어폰들(100-1~100-4)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다. 예컨대, 음성 신호는 디지털 타입의 데이터일 수 있으나, 이에 한정되는 것은 아니다.

실시 예들에 따라, 통신 회로(210)는 복수의 통신 모듈들을 포함할 수 있고, 복수의 통신 모듈들 각각은 코드리스 이어폰들(100-1~100-4)와 페어링(pairing)을 수행할 수 있다.

코드리스 이어폰들(100-1~100-4)은 공간 내의 음성을 수신할 수 있으므로, 착용한 화자를 제외한 나머지 화자의 음성 또한 수신할 수 있다. 따라서, 코드리스 이어폰들(100-1~100-4) 각각으로부터 전송된 음성 신호는 복수의 화자들의 음성들과 연관된 신호일 수 있다. 예컨대, 제1코드리스 이어폰(100-1)으로부터 전송되는 제1음성 신호는 제1화자(SPK1)의 음성 및 다른 화자들(SPK2~SPK4)의 음성들과 연관된 신호일 수 있다.

통신 회로(210)는 코드리스 이어폰들(100-1~100-4) 각각의 식별자를 수신할 수 있다. 상기 식별자는 코드리스 이어폰들(100-1~100-4)의 단말 ID 또는 MAC 주소일 수 있으나, 이에 한정되는 것은 아니다.

통신 회로(210)는 코드리스 이어폰들(100-1~100-4)로 번역 결과를 전송할 수 있다. 이에 대해서는 후술한다.

음성 처리 회로(220)는 음성 신호를 처리할 수 있다. 실시 예들에 따라, 음성 처리 회로(220)는 음성 신호를 처리할 수 있는 연산 처리 기능을 갖는 프로세서를 포함할 수 있다. 예컨대, 상기 프로세서는 CPU(central processing unit), MCU(micro controller unit), DSP(digital signal processor), ADC 컨버터(analog to digital converter) 또는 DAC 컨버터(digital to analog converter)를 포함할 수 있으나, 이에 한정되는 것은 아니다.

음성 처리 회로(220)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 추출(또는 생성)할 수 있다. 실시 예들에 따라, 음성 처리 회로(220)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호를 이용하여, 코드리스 이어폰들(100-1~100-4)을 착용한 각 화자의 음성과 연관된 분리 음성 신호를 생성할 수 있다.

음성 처리 회로(220)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들 사이의 시간 지연(또는 위상 지연)을 이용하여 음성들의 음원 위치(즉, 화자들(SPK1~SPK4)의 위치)를 결정할 수 있다. 예컨대, 음성 처리 회로(220)는 코드리스 이어폰들(100-1~100-4) 각각에 대한 음원의 상대적인 위치를 결정할 수 있다.

음성 처리 회로(220)는 음성들의 음원 위치에 기초하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 회로(220)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.

예컨대, 제1화자(SPK1)가 제1코드리스 이어폰(100-1)을 착용하므로, 제1화자(SPK1)의 음성의 음원 위치가 제1코드리스 이어폰(100-1)과 가장 가까울 수 있다. 즉, 제1코드리스 이어폰(100-1)으로부터 전송된 제1음성 신호와 연관된 음성들 중에서, 음원 위치가 제1코드리스 이어폰(100-1)과 가장 가까운 음성이 제1화자(SPK1)의 음성이 된다. 따라서, 음성 처리 회로(220)는 음성들의 음원 위치에 기초하여, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호를 생성할 수 있다.

실시 예들에 따라, 음성 처리 회로(220)는 분리 음성 신호와 코드리스 이어폰(100-1~100-4)의 식별자를 매칭하여 저장할 수 있다. 예컨대, 음성 처리 회로(220)는 제1분리 음성 신호와 제1코드리스 이어폰(100-1)의 제1식별자를 매칭하여 저장할 수 있다.

또한, 실시 예들에 따라, 음성 처리 회로(220)는 음원의 위치를 나타내는 음원 위치 정보를 분리 음성 신호와 매칭하여 저장할 수 있다. 예컨대, 음성 처리 회로(220)는 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호 및 제1화자(SPK1)의 음성의 음원 위치를 나타내는 제1음원 위치 정보를 매칭하여 저장할 수 있다.

음성 처리 회로(220)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 수행하고, 번역 결과를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어(source language; 번역 대상 언어)와 도착 언어(target language; 번역 후 언어)를 결정하고, 화자들 각각의 언어에 대한 번역을 제공할 수 있다.

상기 번역 결과는 도착 언어로 표현된 화자들(SPK1~SPK4) 각각의 음성과 연관된 텍스트 데이터 또는 음성 신호일 수 있다.

메모리(230)는 음성 처리 장치(200)의 동작에 필요한 데이터를 저장할 수 있다.

도 4는 본 발명의 실시 예들에 따른 음성 처리 장치의 동작을 설명하기 위한 도면이다. 도 4를 참조하면, 각 위치(P1~P4)에 위치한 화자들(SPK1~SPK4) 각각이 발화할 수 있다. 예컨대, 제1화자(SPK1)는 음성 “AAA”를 발화할 수 있고, 제2화자(SPK2)는 음성 “BBB”를 발화할 수 있고, 제3화자(SPK3)는 음성 “CCC”를 발화할 수 있고, 제4화자(SPK4)는 음성 “DDD”를 발화할 수 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호들(VS1~VS4)을 수신하고, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.

예컨대, 음성 처리 장치(200)는 제1코드리스 이어폰(100-1)로부터 제1음성 신호들(VS1)을 수신하고, 제1음성 신호들(VS1)로부터 음성 “AAA”와 연관된 제1분리 음성 신호를 생성 및 저장할 수 있다. 마찬가지로, 음성 처리 장치(200)는 코드리스 이어폰들(100-2~100-4)로부터 전송된 음성 신호들(VS2~VS4) 각각으로부터 음성 “BBB”, “CCC” 및 “DDD”와 연관된 제2분리 음성 신호 내지 제4분리 음성 신호를 생성할 수 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호와, 상기 각 음성을 발화한 화자가 착용한 코드리스 이어폰(100-1~100-4)의 식별자를 매칭하여 저장할 수 있다.

예컨대, 음성 처리 장치(200)는 제1코드리스 이어폰(100-1)로부터 전송된 제1음성 신호들(VS1)을 이용하여 제1화자(SPK1)의 음성 “AAA”과 연관된 제1분리 음성 신호를 생성하고, 제1분리 음성 신호와 제1코드리스 이어폰(100-1)의 식별자 “EID1”를 매칭하여 저장할 수 있다.

이를 통해, 특정 음성이 코드리스 이어폰들(100-1~100-4) 중 어느 코드리스 이어폰을 착용한 화자로부터 발화된 것인지 파악할 수 있게 한다. 예컨대, 제1화자(SPK1)의 음성과 연관된 제1분리 음성 신호와 제1코드리스 이어폰(100-1)의 제1식별자가 매칭되어 저장되므로, 제1화자(SPK1)는 제1코드리스 이어폰(100-1)을 착용했음을 알 수 있다.

따라서, 결과적으로, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호는 코드리스 이어폰들(100-1~100-4)의 식별자에 의해 식별될 수 있다

실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치를 나타내는 음원 위치 정보를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성의 제1음원 위치인 “P1”을 나타내는 제1음원 위치 정보를 생성 및 저장할 수 있다.

도 5 내지 도 8은 본 발명의 실시 예들에 따른 음성 처리 장치의 번역 기능을 설명하기 위한 도면이다.

도 5를 참조하면, 제1화자(SPK1)는 음성 “AAA”를 한국어(KR)로 발화하고, 제2화자(SPK2)는 음성 “BBB”를 영어(EN)로 발화하고, 제3화자(SPK3)는 음성 “CCC”를 중국어(CN)로 발화하고, 제4화자(SPK4)는 음성 “DDD”를 일본어(JP)로 발화한다. 이 경우, 제1화자(SPK1)의 음성 “AAA”의 출발 언어는 한국어(KR)이고, 제2화자(SPK2)의 음성 “BBB”의 출발 언어는 영어(EN)이고, 제3화자(SPK3)의 음성 “CCC”의 출발 언어는 중국어(CN)이고, 제4화자(SPK4)의 음성 “DDD”의 출발 언어는 일본어(JP)이다.

상술한 바와 같이, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들(VS1~VS4)를 이용하여, 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)의 음성 ”AAA(KR)”과 연관된 제1분리 음성 신호를 생성할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 분리 음성 신호와, 상기 각 음성을 발화한 화자가 착용한 코드리스 이어폰(100-1~100-4)의 식별자를 매칭하여 저장할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성의 음원 위치를 나타내는 음원 위치 정보를 생성 및 저장할 수 있다.

본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역을 제공할 수 있다. 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)에 의해 발화된 음성 “AAA (KR)”에 대한 번역을 제공할 수 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성의 언어에 대한 출발 언어로부터 도착 언어로의 번역을 제공할 수 있다.

실시 예들에 따라, 출발 언어와 도착 언어는 코드리스 이어폰들(100-1~100-4) 별로 결정될 수 있다. 즉, 코드리스 이어폰들(100-1~100-4)의 각각의 착용자의 음성에 대한 출발 언어와 도착 언어가 결정될 수 있다.

도 6을 참조하면, 코드리스 이어폰들(100-1~100-4) 각각에 대해서, 출발 언어가 설정될 수 있다. 예컨대, 음성 처리 장치(200)와 연동 가능한 단말기를 이용하여, 각 코드리스 이어폰들(100-1~100-4)을 착용한 화자의 언어를 번역하기 위한 출발 언어를 설정할 수 있다. 설정된 값은 음성 처리 장치(200)로 전송될 수 있다. 음성 처리 장치(200)는 각 코드리스 이어폰들(100-1~100-4)을 착용한 화자의 언어를 번역하기 위한 출발 언어를 나타내는 출발 언어 정보를 저장할 수 있다.

예컨대, 도 6에 도시된 바와 같이, 음성 처리 장치(200)의 사용자는 단말기를 이용하여 제1코드리스 이어폰(100-1)에 대한 출발 언어를 한국어(KR)로 설정하고, 제2코드리스 이어폰(100-2)에 대한 출발 언어를 영어(EN)로 설정하고, 제3코드리스 이어폰(100-3)에 대한 출발 언어를 중국어(CN)로 설정하고, 제4코드리스 이어폰(100-4)에 대한 출발 언어를 일본어(JP)로 설정할 수 있다.

단말기는 코드리스 이어폰들(100-1~100-4)들에 대한 출발 언어를 나타내는 출발 언어 정보를 음성 처리 장치(200)로 전송할 수 있고, 음성 처리 장치는 출발 언어 정보를 코드리스 이어폰들(100-1~100-4)의 식별자와 매칭하여 저장할 수 있다.

또한, 실시 예들에 따라, 코드리스 이어폰들(100-1~100-4) 각각에 대한 출발 언어 정보는 음성 처리 장치(200)에 미리 저장되어 있을 수 있다.

도 7을 참조하면, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4) 각각에 대응하는 출발 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성하고, 번역 결과를 출력할 수 있다.

음성 처리 장치(200)는 분리 음성 신호들 각각에 대응하는 코드리스 이어폰들(100-1~100-4)의 식별자를 이용하여, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어와 도착 언어를 결정할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)의 식별자를 이용하여, 각 코드리스 이어폰들(100-1~100-4)에 대응하는 출발 언어 정보를 리드함으로써, 화자들(SPK1~SPK4) 각각의 음성을 번역하기 위한 출발 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200)는 제1코드리스 이어폰(100-1)의 제1식별자(EID1)를 이용하여, 메모리(230)로부터 제1식별자(EID1)에 대응하는 제1출발 언어 정보를 리드할 수 있다. 리드 된 제1출발 언어 정보는 제1화자(SPK1)(즉, 제1코드리스 이어폰(100-1)의 착용자)의 음성 “AAA'의 출발 언어가 한국어(KR)임을 지시한다.

실시 예들에 따라, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4) 중 번역 대상이 아닌 나머지 코드리스 이어폰들에 대한 출발 언어에 기초하여, 번역 대상의 코드리스 이어폰에 대한 도착 언어를 결정할 수 있다. 예컨대, 음성 처리 장치(200) 제1코드리스 이어폰(100-1)을 제외한 나머지 코드리스 이어폰들(100-2~100-4)의 출발 언어를 제1코드리스 이어폰(100-1)의 도착 언어로서 결정할 수 있다. 즉, 제1도착 언어 정보는 제1화자(SPK1)(즉, 제1코드리스 이어폰(100-1)의 착용자)의 음성 “AAA'의 도착 언어가 나머지 언어들인 영어(EN), 중국어(CN) 및 일본어(JP)임을 지시할 수 있다.

즉, 본 발명의 실시 예들에 따른 음성 처리 장치(200)는 복수의 코드리스 이어폰들(100-1~100-4) 중 제1코드리스 이어폰(100-1)의 착용자(즉, 제1화자(SPK1))의 음성의 언어를, 나머지 코드리스 이어폰들(100-2~100-4)의 착용자들(즉, 제2화자(SPK2) 내지 제4화자(SPK4))의 언어로 번역할 수 있다.

음성 처리 장치(200)는 결정된 출발 언어 및 도착 언어에 기초하여, 화자들(SPK1~SPK4)의 음성들에 대한 번역을 제공할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4)의 음성들 각각의 번역 결과를 생성할 수 있다.

본 명세서에서, 음성 처리 장치(200)에 의해 출력되는 번역 결과는 도착 언어로 표현된 텍스트 데이터이거나 혹은 도착 언어로 발화된 음성과 연관된 음성 신호일 수 있으나, 이에 한정되는 것은 아니다.

본 명세서에서, 음성 처리 장치(200)가 번역 결과를 생성한다는 것은, 음성 처리 장치(200)의 음성 처리 회로(220) 자체의 연산을 통해 언어를 번역함으로써 번역 결과를 생성하는 것뿐만 아니라, 음성 처리 장치(200)가 번역 기능을 갖는 서버와의 통신을 통해, 상기 서버로부터 번역 결과를 수신함으로써 번역 결과를 생성하는 것을 포함한다.

예컨대, 음성 처리 회로(220)는 메모리(230)에 저장된 번역 애플리케이션을 실행함으로써, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다.

예컨대, 음성 처리 장치(200)는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 번역기(translator)로 전송하고, 번역기로부터 분리 음성 신호에 대한 번역 결과를 수신할 수 있다. 번역기는 언어에 대한 번역을 제공하는 환경 또는 시스템을 의미할 수 있다. 실시 예들에 따라, 번역기는 분리 음성 신호, 출발 언어 정보 및 도착 언어 정보를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 출력할 수 있다.

도 7에 도시된 바와 같이, 예컨대, 음성 처리 장치(200)는 한국어(KR)로 표현되는 제1화자(SPK1)의 음성 “AAA (KR)”과 연관된 분리 음성 신호를 이용하여, 영어(EN)로 표현되는 제1화자(SPK1)의 음성에 대한 번역 결과 “AAA (EN)”를 생성할 수 있다. 또한, 예컨대, 음성 처리 장치(200)는 중국어(CN) 및 일본어(JP)로 표현되는 제1화자(SPK1)의 음성에 대한 번역 결과 “AAA (CN)” 및 “AAA (JP)”를 생성할 수 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 코드리스 이어폰들(100-1~100-4)로 전송할 수 있다. 실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를, 번역된 언어(즉, 도착 언어)에 대응하는 코드리스 이어폰 각각으로 전송할 수 있다.

실시 예들에 따라, 음성 처리 장치(200)는 메모리(230)를 참조하여, 번역 결과의 도착 언어와 동일한 언어를 나타내는 출발 언어 정보와 매칭되는 코드리스 이어폰의 식별자를 리드하고, 리드된 식별자를 이용하여 해당하는 코드리스 이어폰으로 번역 결과를 전송할 수 있다.

예컨대, 도 7에 도시된 바와 같이, 음성 처리 장치(200)는 제1화자(SPK1)의 음성에 대한 번역 결과를 코드리스 이어폰들(100-2~100-4)로 전송할 수 있으며, 구체적으로, 영어(EN)로 번역된 제1화자(SPK1)의 음성 “AAA (KR)”의 번역 결과 “AAA (EN)”을 제2코드리스 이어폰(100-2)으로 전송할 수 있고, 번역 결과 “AAA (CN)”을 제3코드리스 이어폰(100-3)으로 전송할 수 있고, 번역 결과 “AAA (JP)”를 제4코드리스 이어폰(100-4)으로 전송할 수 있다.

따라서, 본 발명의 실시 예들에 따른 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성을 번역하여 번역 결과를 생성하고, 생성된 번역 결과를 화자들(SPK1~SPK4) 각각이 착용한 코드리스 이어폰들(100-1~100-4)로 전송할 수 있다. 이에 따라, 화자들(SPK1~SPK4)의 언어가 서로 다르더라도, 음성 처리 시스템(10)을 통해 서로의 언어로 소통할 수 있는 효과가 있다.

예컨대, 또한, 도 8에 도시된 바와 같이, 음성 처리 장치(200)는 제2화자(SPK2)의 음성에 대한 번역 결과를 코드리스 이어폰들(100-1, 100-3 및 100-4)로 전송할 수 있으며, 구체적으로, 한국어(KR)로 번역된 제2화자(SPK2)의 음성 “BBB (EN)”의 번역 결과 “BBB (KR)”을 제1코드리스 이어폰(100-1)으로 전송할 수 있고, 번역 결과 “BBB (CN)”을 제3코드리스 이어폰(100-3)으로 전송할 수 있고, 번역 결과 “BBB (JP)”를 제4코드리스 이어폰(100-4)으로 전송할 수 있다.

도 9는 본 발명의 실시 예들에 따른 음성 처리 장치의 작동을 나타내는 플로우 차트이다. 도 9를 참조하면, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 수신할 수 있다(S110). 예컨대, 음성 처리 장치(200)는 제1화자(SPK1)에 의해 착용된 제1코드리스 이어폰(100-1)로부터 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호들(VS1)을 수신할 수 있다.

음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들로부터 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다(S120). 실시 예들에 따라, 음성 처리 장치(200)는 코드리스 이어폰들(100-1~100-4)로부터 전송된 음성 신호들에 대응하는 음성들의 음원 위치에 기초하여, 코드리스 이어폰들(100-1~100-4) 각각을 착용한 화자들(SPK1~SPK4)의 음성과 연관된 분리 음성 신호를 생성할 수 있다.

음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성의 번역을 위한 출발 언어와 도착 언어를 결정할 수 있다(S130). 실시 예들에 따라, 음성 처리 장치(200)는 메모리(230)를 참조하여, 코드리스 이어폰들(100-1~100-4) 각각의 식별자와 매칭되어 저장된 출발 언어 정보를 이용하여 출발 언어를 결정할 수 있고, 결정된 출발 언어에 따라 도착 언어 또한 결정할 수 있다.

음성 처리 장치(200)는 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를 생성할 수 있다(S140). 실시 예들에 따라, 음성 처리 장치(200)는 음성 처리 장치(200) 내에 저장된 자체 번역 알고리즘을 통해 번역 결과를 생성하거나, 또는, 통신 가능한 번역기로 분리 음성 신호, 도착 언어 및 출발 언어 정보를 전송하고, 번역기로부터 번역 결과를 수신할 수 있다.

음성 처리 장치(200)는 생성된 번역 결과를 코드리스 이어폰들(100-1~100-4)로 전송할 수 있다(S150). 실시 예들에 따라, 음성 처리 장치(200)는 화자들(SPK1~SPK4) 각각의 음성에 대한 번역 결과를, 번역된 언어(즉, 도착 언어)에 대응하는 코드리스 이어폰 각각으로 전송할 수 있다.

본 발명의 실시 예들에 따른 음성 처리 시스템은 코드리스 이어폰들(100-1~100-4)을 이용하여 화자들(SPK1~SPK4)의 음성과 연관된 음성 신호를 생성하고, 음성 신호들을 처리함으로써 화자들(SPK1~SPK4) 각각의 음성과 연관된 분리 음성 신호를 생성할 수 있다.

또한, 음성 처리 시스템은 분리 음성 신호를 이용하여, 화자들(SPK1~SPK4)의 음성을 번역하고, 번역 결과를 해당하는 코드리스 이어폰들로 출력할 수 있다. 이에 따라, 화자들(SPK1~SPK4)의 사용 언어가 다르더라도, 화자들(SPK1~SPK4) 각각은 자신이 사용하는 언어로 발화할 수 있고, 다른 언어를 사용하는 화자들의 음성을 자신이 사용하는 언어로 번역하여 들을 수 있는 효과가 있다.

이상과 같이 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

10: 음성 처리 시스템 100-1~100-4: 코드리스 이어폰들
110: 마이크 유닛 120: 스피커 유닛
130: 제어 유닛 140: 통신 유닛
150: 배터리 200: 음성 처리 장치
210: 통신 회로 220: 음성 처리 회로
230: 메모리

Claims

복수의 코드리스 이어폰들 및 음성 처리 장치를 포함하는 음성 처리 시스템에 있어서,
상기 복수의 코드리스 이어폰들 각각은,
화자들로부터 발화된 음성들과 연관된 음성 신호를 생성하도록 구성되는 마이크 유닛, 음성 신호를 전송하도록 구성되는 통신 유닛 및 음성을 재생하도록 구성되는 스피커 유닛을 포함하고,
상기 음성 처리 장치는,
상기 복수의 코드리스 이어폰들로부터 전송된 음성 신호들을 수신하도록 구성되는 통신 회로;
상기 복수의 코드리스 이어폰들 중 제1코드리스 이어폰으로부터 전송된 제1음성 신호들로부터 상기 화자들 중 제1화자의 음성과 연관된 제1분리 음성 신호를 생성하고, 상기 제1분리 음성 신호를 번역하여 제1번역 음성 신호를 생성하도록 구성되는 음성 처리 회로;
메모리; 및
상기 제1번역 음성 신호를 상기 복수의 코드리스 이어폰들 중 제1코드리스 이어폰을 제외한 나머지 코드리스 이어폰으로 전송하도록 구성되는 통신 회로를 포함하는,
음성 처리 시스템.
제1항에 있어서,
상기 제1번역 음성 신호는 상기 제1화자의 음성을 번역한 음성과 연관된 음성 신호인,
음성 처리 시스템.
제1항에 있어서,
상기 복수의 코드리스 이어폰들의 상기 마이크 유닛은 복수의 마이크들을 포함하고,
상기 복수의 마이크들은 상기 화자들의 음성들에 응답하여 상기 음성 신호를 생성하도록 구성되는,
음성 처리 시스템.
제1항에 있어서, 상기 음성 처리 회로는,
상기 제1코드리스 이어폰으로부터 전송된 제1음성 신호들 사이의 시간 지연에 기초하여, 상기 화자들의 음성들 각각의 음원 위치를 판단하고,
판단된 음원 위치에 기초하여 상기 제1화자의 음성과 연관된 상기 제1분리 음성 신호를 생성하는,
음성 처리 시스템.
제4항에 있어서,
상기 제1분리 음성 신호는 상기 화자들의 음성들 중에서 상기 제1코드리스 이어폰과 가장 가까운 위치의 음원 위치를 갖는 음성과 연관된 신호인,
음성 처리 시스템.
제1항에 있어서,
상기 통신 회로는 상기 복수의 코드리스 이어폰들로부터 상기 복수의 코드리스 이어폰들 각각의 식별자들을 수신하고,
상기 음성 처리 회로는 상기 복수의 코드리스 이어폰들의 식별자들과 상기 코드리스 이어폰들을 착용한 화자의 음성의 언어를 나타내는 출발 언어 정보를 서로 매칭하여 상기 메모리에 저장하는,
음성 처리 시스템.
제6항에 있어서, 상기 음성 처리 회로는,
상기 식별자들 및 상기 출발 언어 정보를 이용하여, 상기 복수의 코드리스 이어폰들 중 제2코드리스 이어폰을 착용한 화자의 음성의 언어로 상기 제1분리 음성 신호의 언어를 번역하고, 상기 제1번역 음성 신호를 생성하는,
음성 처리 시스템.
제7항에 있어서, 상기 음성 처리 회로는,
상기 제1번역 음성 신호를 상기 제2코드리스 이어폰으로 전송하는,
음성 처리 시스템.