WO2018070639A1

WO2018070639A1 - 전자 장치 및 전자 장치의 오디오 신호 처리 방법

Info

Publication number: WO2018070639A1
Application number: PCT/KR2017/006793
Authority: WO
Inventors: 신기훈; 송명석; 유종욱
Original assignee: 삼성전자 주식회사
Priority date: 2016-10-14
Filing date: 2017-06-27
Publication date: 2018-04-19
Also published as: KR20180041355A; EP3480820B1; EP3480820A4; KR102562287B1; US11094323B2; EP3480820A1; US20190214011A1

Abstract

전자 장치가 개시된다. 본 전자 장치는 복수의 음원에서 발생되는 오디오 신호를 수신하는 복수의 마이크, 음성 인식 서버와 통신하는 통신부 및 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 전자 장치를 기준으로 복수의 음원 각각이 존재하는 방향을 판단하고, 판단된 음원의 방향의 유지 시간에 기초하여 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하고, 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하도록 통신부를 제어하는 프로세서를 포함한다.

Description

전자 장치 및 전자 장치의 오디오 신호 처리 방법

본 개시는 전자 장치 전자 및 전자 장치의 오디오 신호 처리 방법에 관한 것으로, 보다 상세하게는 음성 인식을 위해 오디오 신호를 처리하는 전자 장치 및 전자 장치의 오디오 신호 처리 방법에 관한 것이다.

최근 사물 인터넷 등이 발달함에 따라 사용자의 음성을 통해 각종 전자 기기들을 제어하는 기술이 중요해지고 있다.

일반적으로, 사용자가 특정 기기를 제어하기 위한 음성을 발화하면, 발화된 음성은 마이크를 통해 수신되어 음성 인식기를 통해 인식되고, 이에 따라, 대상 기기가 제어될 수 있다.

이때, 신호대 잡음 비(signal to noise ratio: SNR)가 낮은 잡음 환경에서는 음성 인식기의 성능이 크게 저하되게 되는데, 음성 인식기의 잡음에 대한 저항력을 향상시키기 위해 마이크-어레이 기술 등과 같은 다양한 신호 처리(혹은 전처리) 기술이 사용될 수 있다.

마이크-어레이 기술은 다수의 마이크를 사용하여 목적 방향의 음원(사용자의 음성)을 강화하고 그 외의 방향에서 입사하는 음원(잡음)을 제거하는 기술이다. 이와 같은, 마이크-어레이 기반의 전처리에 의해 잡음이 제거되고 음성이 강화된 오디오 신호가 음성 인식기로 전달되므로, 잡음 환경에서도 향상된 음성 인식이 가능해 질 수 있다.

그 밖에, 카메라를 통해 사용자의 얼굴을 인식하고, 그 결과를 활용하는 멀티 모달(multi-modal) 음성 전처리 기법이 사용되기도 하지만, 이는 영상 노출에 의한 프라이버시 침해 문제나 추가적인 장비 사용으로 인한 가격 상승 등의 이유로 카메라없이 마이크만으로 목적하는 음원을 선별하는 기술이 보다 강조되고 있다.

한편, 사용자가 음성을 통해 각종 전자 기기들을 제어할 때, 마이크-어레이 및 음성 인식 기능을 탑재한 별도의 전자 장치를 이용하여 전자 기기들을 원격 제어하는 시나리오가 있을 수 있다. 이때, 제어되는 전자 기기가 TV나 블루투스 오디오 장치 등과 같은 오디오 재생 기기일 경우, 그 오디오 출력은 일반적인 배경 잡음에 비해 레벨이 높고 방향성이 강하기 때문에 전자 장치의 음성 인식 성능을 크게 저하시킬 수 있다.

또한, 일반적으로 사람이 상대방을 부를 때의 음성이 상대방의 주목을 끈 상태에서 말하는 음성보다 에너지가 크고 피치가 높은 특성이 있다. 이를 음성 인식의 관점에서 보면, 트리거 인식기로 유입되는 사용자 발화는 에너지가 충분히 크고 피치가 높지만, 트리거 인식 이후 단어/문장 인식기가 인식해야 하는 사용자 발화는 상대적으로 에너지가 작을 수 있음을 의미한다. 따라서, 트리거 인식 이후 전자 기기 제어를 위한 명령어의 인식이 실패하는 문제가 잡음 환경에서 쉽게 일어나게 된다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 복수의 외부 음원 중 음성 인식을 위한 타겟 음원을 정확히 판단하여 효과적으로 음성을 인식할 수 있는 전자 장치 및 전자 장치의 오디오 신호 처리 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 전자 장치는 복수의 음원에서 발생되는 오디오 신호를 수신하는 복수의 마이크, 음성 인식 서버와 통신하는 통신부 및 상기 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 상기 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하고, 상기 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하고, 상기 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 상기 음성 인식 서버로 전송하도록 상기 통신부를 제어하는 프로세서를 포함한다.

또한, 상기 프로세서는, 상기 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단할 수 있다.

또한, 상기 프로세서는, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고, 상기 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다.

또한, 상기 프로세서는, 상기 기설정된 음성이 발생된 타겟 음원이 판단된 이후 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터, 상기 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 상기 음성 인식 서버로 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 프로세서는, 타겟 음원이 하나인 경우, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 상기 타겟 음원의 오디오 신호만을 분리하고, 상기 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성의 발생 여부를 판단할 수 있다.

또한, 상기 프로세서는, 상기 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하고, 상기 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다.

또한, 상기 프로세서는, 상기 복수의 마이크의 개수보다 적은 수의 상기 복수의 음원 각각이 존재하는 방향을 판단할 수 있다.

또한, 상기 전자 장치를 기준으로 상기 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시하는 표시부를 더 포함할 수 있다.

한편, 본 개시의 일 실시 예에 따른 전자 장치의 오디오 신호 처리 방법은, 복수의 음원에서 발생되는 오디오 신호를 복수의 마이크를 통해 수신하는 단계, 상기 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 상기 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하는 단계, 상기 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하는 단계 및 상기 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하는 단계를 포함한다.

또한, 상기 적어도 하나의 타겟 음원을 판단하는 단계는, 상기 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단할 수 있다.

또한, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하는 단계 및 상기 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 단계를 포함할 수 있다.

또한, 상기 음성 인식 서버로 전송하는 단계는, 상기 기설정된 음성이 발생된 타겟 음원이 판단된 이후 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터, 상기 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 상기 음성 인식 서버로 전송할 수 있다.

또한, 타겟 음원이 하나인 경우, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 상기 타겟 음원의 오디오 신호만을 분리하는 단계 및 상기 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성의 발생 여부를 판단하는 단계를 포함할 수 있다.

또한, 상기 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하는 단계 및 상기 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 단계를 포함할 수 있다.

또한, 상기 방향을 판단하는 단계는, 상기 복수의 마이크의 개수보다 적은 수의 상기 복수의 음원 각각이 존재하는 방향을 판단할 수 있다.

또한, 상기 전자 장치를 기준으로 상기 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시하는 단계를 포함할 수 있다.

한편, 본 개시의 일 실시 예에 따른 컴퓨터 판독가능 기록매체는, 복수의 음원에서 발생되는 오디오 신호를 복수의 마이크를 통해 수신하는 단계, 상기 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 상기 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하는 단계, 상기 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하는 단계 및 상기 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하는 단계를 포함하는 전자 장치의 오디오 신호 처리 방법을 수행하는 프로그램이 저장될 수 있다.

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 복수의 외부 음원 중 음성 인식을 위한 타겟 음원을 정확히 판단하여 효과적으로 음성을 인식함으로써, 다양한 잡음 환경에서도 안정적인 음성 인식이 가능해 진다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치를 통한 음성 인식 환경을 나타내는 예시도,

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,

도 3은 본 개시의 다른 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도,

도 4는 본 개시의 일 실시 예에 따른 전자 장치의 동작을 위한 각종 모듈의 예시도,

도 5a 및 도 5b는 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 도면,

도 6a 및 도 6b는 본 개시의 다른 일 실시 예에 따른 전자 장치의 동작을 설명하기 위한 도면, 및

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 오디오 신호 처리 방법을 나타내는 흐름도이다.

본 개시를 설명함에 있어, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 개시의 실시 예에서 "모듈", "유닛", "부(part)" 등과 같은 용어는 적어도 하나의 기능이나 동작을 수행하는 구성요소를 지칭하기 위한 용어이며, 이러한 구성요소는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈", "유닛", "부(part)" 등은 각각이 개별적인 특정한 하드웨어로 구현될 필요가 있는 경우를 제외하고는, 적어도 하나의 모듈이나 칩으로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수도 있다.

이하에서 첨부된 도면을 참조하여 본 개시의 다양한 실시 예를 상세히 설명한다.

본 개시의 일 실시 예에 따른 음성 인식 환경은, 사용자를 포함한 복수의 외부 음원에서 발생되는 오디오 신호를 수신하여 타겟 음원(예를 들어, 사용자)을 판단하고 판단된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하는 전자 장치, 전자 장치로부터 수신된 오디오 신호에 음성 인식을 수행하는 음성 인식 서버 및 인식된 음성에 대응되는 동작을 수행하는 외부 기기를 포함할 수 있다. 따라서, 사용자는 전자 장치를 통해 외부 기기를 제어할 수 있다.

여기서, 외부 기기는 사용자의 음성을 통해 제어될 수 있는 각종 전자 기기로서, TV, 전자 액자, 블루투스 오디오, 사운드 바 등과 같은 각종 오디오 재생 장치일 수 있으나, 이에 한정되는 것은 아니며, 냉장고, 세탁기, 에어컨 등과 같은 각종 가전 제품을 포함할 수 있다.

도 1은 본 개시의 일 실시 예에 따른 전자 장치(100)를 통한 음성 인식 환경을 나타내는 예시도이다. 도 1을 참조하면, 음성 인식 환경(10)은 복수의 마이크(110-1 내지 110-4)를 통해 사용자(1)가 발화한 음성 명령을 수신하여 클라우드 서버(3)로 전송하는 전자 장치(100), 전자 장치(100)로부터 수신된 오디오 신호에 대한 음성 인식을 수행하는 클라우드 서버(3) 및 클라우드 서버(3)에서 인식된 음성에 대응되는 동작을 수행하는 TV(5)를 포함할 수 있다.

예를 들어, 사용자(1)는 TV(5)를 시청 중에 "볼륨을 올려"라는 음성 명령을 발화할 수 있다. 이때, 전자 장치(100)는 TV(5)에서 발생되는 오디오 신호 및 사용자가 발화한 음성에 대응되는 오디오 신호를 복수의 마이크(110-1 내지 110-4)를 통해 수신할 수 있다. 전자 장치(100)는 수신된 오디오 신호에 기초하여 두 음원(TV 및 사용자) 중 타겟 음원(사용자)을 판단하고, 판단된 타겟 음원에서 발생된 오디오 신호를 클라우드 서버(3)로 전송할 수 있다.

이때, 전자 장치(100)는 수신된 오디오 신호에 기초하여, 전자 장치(100)를 기준으로 두 음원이 각각 존재하는 방향을 판단하고, 판단된 음원의 방향의 유지 시간에 기초하여 사용자 방향의 타겟 음원을 판단할 수 있다. 이에 관한 구체적인 내용은 후술하기로 한다.

이에 따라, 클라우드 서버(3)는 전자 장치(100)에서 수신한 오디오 신호에 음성 인식을 수행하여 "볼륨을 올려"라는 음성 인식 결과를 TV(5)로 전송하거나, 인식된 음성에 대응되는 제어 신호를 TV(5)로 전송할 수 있으며, TV(5)는 수신된 음성 인식 결과 또는 제어 신호에 따라 볼륨을 높이는 동작을 수행할 수 있다.

다른 실시 예로, 클라우드 서버(3)는 음성 인식 결과나 인식된 음성에 대응되는 제어 신호를 TV(5)로 전송하지 않고 전자 장치(100)로 전송할 수 있으며, 이 경우, TV(5)는 전자 장치(100)를 통해 음성 인식 결과나 제어 신호를 수신하여 볼륨을 높이는 동작을 수행할 수도 있다.

한편, 본 개시의 일 실시 예에 따르면, 사용자는 TV(5)의 동작을 제어하기 위해, 기설정된 단어나 문장 즉, 트리거 단어 또는 문장을 발화한 후에 제어 명령을 발화할 수 있다. 여기서, 트리거 단어는 사용자가 음성을 통해 TV(5)와 같은 외부 기기를 제어할 것임을 전자 장치(100)에 알리는 단어로서, 전자 장치(100) 제조시 설계자에 의해 설정된 단어나 문장일 수 있으나, 이에 한정되는 것은 아니며, 실시 예에 따라 전자 장치(100) 사용자에 의해 설정될 수도 있다.

예를 들어, 트리거 단어가 "ABC"와 같은 전자 장치(100)를 부르는 단어인 경우, 사용자는 먼저 "ABC"라는 기설정된 음성을 발화한 후, "볼륨을 올려"와 같은 TV(5)에 대한 제어 명령을 발화하게 된다.

이 경우, 전자 장치(100)는 먼저 복수의 마이크(110-1 내지 110-4)를 통해 사용자가 발화한 "ABC"에 대응되는 오디오 신호 및 "ABC" 발화 당시 TV(5)에서 재생 중인 컨텐츠의 오디오 신호를 함께 수신하고, 수신된 오디오 신호에 기초하여 전자 장치(100)를 기준으로 두 음원(사용자 및 TV)이 각각 존재하는 방향을 판단할 수 있다.

이에 따라, 전자 장치(100)는 판단된 사용자 방향 및 TV 방향이 유지되는 시간에 기초하여 두 음원 중 타겟 음원(사용자)을 판단하고, 타겟 음원의 오디오 신호에 음성 인식을 수행할 수 있다.

음성 인식 결과 기설정된 음성 즉, "ABC"가 타겟 음원에서 발생된 것으로 판단되면, 전자 장치(100)는 그 이후에 복수의 마이크(110-1 내지 110-4)를 통해 수신한 오디오 신호 즉, 사용자의 "볼륨을 올려" 발화에 대응되는 오디오 신호 및 "볼륨을 올려" 발화 당시 TV(5)에서 재생 중인 컨텐츠의 오디오 신호로부터, 기설정된 음성이 발생된 타겟 음원의 오디오 신호 즉, 사용자 발화에 해당하는 "볼륨을 올려"에 대응되는 오디오 신호를 클라우드 서버(3)로 전송할 수 있다.

이후 클라우드 서버(3)를 통한 음성 인식 및 TV(3)의 동작은 전술한 바와 같다.

도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다. 도 2에 도시된 바와 같이, 전자 장치(100)는 복수의 마이크(110-1 내지 110-n), 프로세서(120) 및 통신부(130)를 포함할 수 있다.

복수의 마이크(110-1 내지 110-n)는 복수의 음원에서 발생되는 오디오 신호를 수신할 수 있다. 이때, 복수의 음원은 전자 장치(100)로부터 일정 범위 내에 존재하며 오디오 신호를 발생시키는 소스로서, 전자 장치(100)의 사용자, 전자 장치(100) 사용자 외의 제 3 자, 전자 장치(100) 주변의 TV, 전자 액자, 블루투스 오디오, 사운드 바 등과 같은 오디오 재생 장치 등을 포함할 수 있다.

복수의 마이크(110-1 내지 110-n)는 마이크-어레이, 어레이-마이크, 멀티채널 마이크, 다중 마이크 등과 같은 용어를 불문하고, 전자 장치(100)에 구비되어 외부 음원에서 발생되는 음파 형태의 오디오 신호를 수신하여 전기적 신호로 출력할 수 있는 복수의 마이크를 의미한다.

이때, 마이크의 개수는 4개일 수 있으나, 이에 한정되는 것은 아니며, 마이크의 개수 및 각 마이크가 전자 장치(100)에 배치되는 위치는 전자 장치(100) 제조 업체에서 실험적으로 정해질 수 있다.

한편, 복수의 마이크(110-1 내지 110-n)가 마이크-어레이를 구성하는 경우, 마이크-어레이는 지향성 마이크, 무지향성 마이크 또는 지향성 마이크와 무지향성 마이크가 믹스되어 구성될 수 있다.

통신부(130)는 음성 인식 서버(미도시)와 통신을 수행할 수 있다. 여기서, 음성 인식 서버(미도시)는 음성 인식 기능을 탑재한 네트워크상의 서버로서, 예를 들어, 도 1의 예에서와 같은 클라우드 서버(3)일 수 있으나, 이에 한정되는 것은 아니며, 일반적인 별개의 서버일 수도 있다. 또한, 통신부(130)는 실시 예에 따라, 전자 장치(100)를 통한 제어 대상인 외부 기기(예를 들어, 도 1의 예에서 TV(5))와 통신을 수행할 수도 있다.

이를 위해, 통신부(130)는 근거리 무선 통신 모듈(미도시) 및 무선랜 통신 모듈(미도시) 중 적어도 하나의 통신 모듈을 포함할 수 있다. 근거리 무선 통신 모듈(미도시)은 근거리에 위치한 외부 기기와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC 모듈 등이 될 수 있다. 또한, 무선랜 통신 모듈(미도시)은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 외부 서버와 통신을 수행하는 모듈이다.

이 밖에 통신부(130)는 실시 예에 따라 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있으며, HDMI(High-Definition Multimedia Interface), USB(Universal Serial Bus), IEEE(Institute of Electrical and Eletronics Engineers) 1394, RS-232 등의 유선 통신 모듈(미도시)을 더 포함할 수도 있다.

프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 특히, 프로세서(120)는 복수의 마이크(110-1 내지 110-n)를 통해 수신된 복수의 오디오 신호에 기초하여 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하고, 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단할 수 있다.

구체적으로, 프로세서(120)는 복수의 마이크(110-1 내지 110-n)를 통해 수신된 복수의 오디오 신호로부터 프레임별 각도 정보를 생성하고, 이를 정규화하여 복수의 음원 각각이 존재하는 방향을 판단할 수 있다. 또한, 본 개시의 다른 일 실시 예에 따르면, 프로세서(120)는 복수의 마이크(110-1 내지 110-n)를 통해 수신된 복수의 오디오 신호의 음원별 위상(phase) 정보를 분석하여 복수의 음원 각각이 존재하는 방향을 판단할 수도 있다. 이와 같이, 프로세서(120)는 전자 장치(100)를 기준으로, 오디오 신호를 발생시키는 각 음원이 존재하는 방향 즉, 각 음원에서 발생된 오디오 신호가 전자 장치(100)로 도래하는 방향을 판단할 수 있다.

또한, 프로세서(120)는 위와 같이 판단된 각 음원이 존재하는 방향이 유지되는 시간에 기초하여 적어도 하나의 타겟 음원을 판단할 수 있다.

일반적으로, TV나 사운드 바와 같은 외부 기기(미도시)는 그 위치가 고정적이며, 또한, 지속적으로 오디오 신호를 출력하므로, 외부 기기(미도시)의 오디오 출력에 의한 음원(예를 들어, 사운드 바에서 출력되는 음악이나 TV에서 재생되는 컨텐츠의 사운드)은 사용자의 음성 발화에 비해, 프로세서(120)에 의해 판단되는 음원이 존재하는 방향의 유지 시간이 길다. 따라서, 본 개시의 일 실시 예에 따르면, 프로세서(120)는 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단할 수 있다.

이때, 본 개시의 일 실시 예에 따르면, 음성 인식을 위한 트리거 단어가 기설정되어 있거나 외부 기기(미도시)의 동작을 제어하는 제어 명령어 리스트가 기설정되어 있는 경우, 프로세서(120)는 트리거 단어 또는 제어 명령어의 발화 길이 즉, 기설정된 음성의 길이를 타겟 음원을 판단하는 데 이용할 수도 있다. 예를 들어, 프로세서(120)는 각 방향에 존재하는 음원에서 발생되는 오디오 신호가 기설정된 음성이 일반적으로 발화되는 시간만큼 유지되는지 여부를 타겟 음원을 판단하는 데 이용할 수도 있을 것이다.

이와 같이, 본 개시의 다양한 실시 예들에서, 음원이 존재하는 방향이 유지된다고 함은, 음원에서 발생된 오디오 신호가 전자 장치(100)로 도래하는 방향이 기설정된 시간 동안 동일하게 유지된다는 것을 의미할 수도 있고, 음원에서 오디오 신호의 발생이 기설정된 시간 동안 유지된다는 것을 의미할 수도 있다.

한편, 본 개시의 일 실시 예에 따르면, 프로세서(120)는 복수의 음원 각각이 존재하는 방향을 판단할 때, 복수의 마이크(110-1 내지 110-n)의 개수보다 적은 개수의 음원이 존재하는 방향을 판단할 수 있다. 예를 들어, 복수의 마이크(110-1 내지 110-n)의 개수 즉, n이 4인 경우, 프로세서(120)는 3개 이하의 음원이 존재하는 방향을 판단할 수 있다. 그러나, 이는 하나의 예에 불과하며, 실시 예가 이에 한정되는 것은 아니다.

프로세서(120)는 전술한 바와 같이, 음원이 존재하는 방향의 유지 시간에 기초하여 타겟 음원을 판단하므로, 사용자의 음성 발화가 아닌 경우에도 타겟 음원으로 판단되는 경우가 있을 수 있다. 그러나, 후술할 바와 같이, 프로세서(120)는 트리거 단어 인식 결과를 이용하여 최종적으로 음성 인식 서버(미도시)로 전송할 오디오 신호가 발생되는 타겟 음원을 판단할 수 있으므로, 음성 인식의 정확도를 더욱 높일 수 있게 된다.

즉, 프로세서(120)는 위와 같이 판단된 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버(미도시)로 전송하도록 통신부(130)를 제어할 수 있다. 여기서, 기설정된 음성은 트리거 단어 또는 트리거 문장에 대응되는 음성을 의미한다.

구체적으로, 프로세서(120)는 적어도 타겟 음원 중 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다. 예를 들어, 프로세서(120)는 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고, 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하고, 음성 인식 결과에 기초하여 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다.

또한, 프로세서(120)는 전술한 바와 같이 타겟 음원을 판단한 결과 판단된 타겟 음원이 하나인 경우, 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 판단된 타겟 음원의 오디오 신호만을 분리하고, 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 기설정된 음성의 발생 여부를 판단할 수도 있다. 이 경우, 하나의 오디오 신호만 분리되어 음성 인식이 수행되므로, 프로세서(120)의 연산량을 줄일 수 있다. 이상에서 오디오 신호를 분리하는 구체적인 내용에 대하여는 도 4 및 도 5의 설명에서 자세히 설명하기로 한다.

위와 같이, 기설정된 음성 즉, 트리거 단어가 발생된 타겟 음원이 판단되면, 프로세서(120)는 기설정된 음성이 발생된 타겟 음원이 판단된 이후에 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터, 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 음성 인식 서버(미도시)로 전송하도록 통신부(130)를 제어할 수 있다.

이때, 프로세서(120)는 기설정된 음성이 발생된 타겟 음원이 판단된 이후에 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터, 기설정된 음성이 발생된 타겟 음원의 오디오 신호만을 분리하여 음성 인식 서버(미도시)로 전송할 수도 있고, 복수의 음원 각각의 오디오 신호를 분리한 후 그 중에 기설정된 음성이 발생된 타겟 음원의 오디오 신호만을 음성 인식 서버(미도시)로 전송할 수도 있다.

한편, 본 개시의 일 실시 예에 따르면, 프로세서(120)는 전술한 바와 같이 판단된 적어도 하나의 타겟 음원의 개수에 따라 상이한 방법으로 동작할 수도 있다. 예를 들어, 타겟 음원이 복수인 경우에는, 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 기설정된 음성이 발생된 타겟 음원을 판단하고, 타겟 음원이 하나인 경우에는, 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 타겟 음원의 오디오 신호만을 분리하고 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 기설정된 음성의 발생 여부를 판단할 수도 있다.

한편, 본 개시의 또 다른 일 실시 예에 따르면, 프로세서(120)는 전술한 바와 같이 판단된 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하고, 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 기설정된 음성이 발생된 타겟 음원을 판단할 수도 있다.

구체적으로, 프로세서(120)는 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고, 분리된 각 오디오 신호로부터 MFCC(Mel-Frequency Cepstral Coefficient), LFCC(Linear-Frequency Cepstral Coefficient), LPC(Linear Prediction Coefficient), 주파수 envelope, ZCR(Zero-Crossing Rate) 중 적어도 하나의 특징 추출하고, 추출된 적어도 하나의 특징을 기학습된 음성 신호 템플릿의 특징과 비교하여 분리된 각 오디오 신호가 음성인지 여부를 판단할 수 있다.

또한, 실시 예에 따라, 프로세서(120)는 복수의 마이크(110-1 내지 110-n) 각각에서 수신한 오디오 신호로부터 타겟 음원으로 판단된 음원의 오디오 신호를 분리하고, 분리된 오디오 신호로부터 상기 MFCC, LFCC, LPC, 주파수 envelope, ZCR 중 적어도 하나의 특징을 추출하고, 추출된 적어도 하나의 특징을 기학습된 음성 신호 템플릿의 특징과 비교하여 분리된 타겟 음원의 오디오 신호가 음성인지 여부를 판단할 수도 있다.

이에 따라, 프로세서(120)는 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다.

프로세서(120)는 전술한 바와 같이, 음원이 존재하는 방향의 유지 시간에 기초하여 타겟 음원을 판단하므로, 사용자의 음성이 아닌 경우에도 일단 타겟 음원으로 판단될 수가 있다. 그러나, 위와 같이, 사람의 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행함으로써, 프로세서(120)의 연산량을 줄일 수 있게 된다.

이와 같이, 음원이 존재하는 방향의 유지 시간에 더하여 트리거 단어가 발화되었는지 여부를 함께 판단하여 트리거 단어가 발화된 음원의 오디오 신호만을 음성 인식 서버(미도시)로 전송함으로써, 잡음 환경에서 보다 효과적인 음성 인식이 가능해 진다.

도 3은 본 개시의 다른 일 실시 예에 따른 전자 장치의 구성을 나타내는 블럭도이다. 도 3에 도시된 바와 같이, 전자 장치(300)는 복수의 마이크(310), 프로세서(320), 통신부(330), 저장부(340) 및 표시부(350)를 포함할 수 있다. 도 3을 설명함에 있어, 도 2를 통해 전술한 것과 동일한 구성의 동일한 동작은 중복 설명을 생략한다.

표시부(350)는 전자 장치(300)의 위치를 기준으로, 트리거 단어 인식을 통해 사용자 방향으로 판단된 방향을 표시할 수 있다. 구체적으로, 표시부(350)는 도 2를 통해 전술한 바와 같이 판단된 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시할 수 있다.

본 개시의 일 실시 예에 따르면, 표시부(350)는 복수의 LED를 포함할 수 있다. 예를 들어, 복수의 LED는 전자 장치(300)의 외곽을 일정 간격을 가지며 둘러싸도록 배치될 수 있다. 이 경우, 프로세서(320)는 기설정된 음성이 발생된 타겟 음원이 존재하는 방향이 판단되면, 복수의 LED 중 해당 방향에 가장 가깝게 배치된 LED를 점등 또는 점멸하도록 표시부(350)를 제어하여 사용자 방향을 표시할 수 있다. 그러나, 이는 하나의 예에 불과하며, 복수의 LED가 배치되는 위치나 표시 방법은, 전자 장치(300)의 위치를 기준으로 특정 방향을 표시할 수 있도록 얼마든지 달라질 수 있다.

한편, 본 개시의 다른 일 실시 예에 따르면, 표시부(350)는 디스플레이를 포함할 수 있다. 이 경우, 프로세서(320)는 각종 GUI 나 텍스트를 디스플레이에 디스플레이하여 전자 장치(300)의 위치를 기준으로 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시할 수 있다. 이를 위해, 디스플레이는 유기발광 다이오드 OLED(Organic Light Emitting Diodes), 액정 디스플레이 패널(Liquid Crystal Display Panel: LCD Panel), 플라즈마 디스플레이 패널(Plasma Display Panel: PDP), VFD(Vacuum Fluorescent Display), FED(Field EmissionDisplay), ELD(Electro Luminescence Display)등 다양한 디스플레이 기술로 구현될 수 있으며, 실시 예에 따라, 터치 패널을 포함한 터치 스크린으로 구현될 수도 있을 것이다.

한편, 실시 예에 따라, 전자 장치(300)는 스피커(미도시)를 포함할 수도 있다. 이 경우, 프로세서(320)는 음성을 출력하여 전자 장치(300)를 기준으로 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 사용자에게 알릴 수 있을 것이다.

저장부(340)는 전자 장치(300)의 동작을 위한 O/S, 각종 프로그램, 및 데이터를 저장할 수 있다. 이를 위해, 저장부(340)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는, 휘발성 메모리 또는 비휘발성 메모리(non-volatile Memory) 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는, 예를 들어 DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등일 수 있다. 비휘발성 메모리는 예를 들어 OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAN flash memory, NOR flash memory 등일 수 있다. 또한, 내장 메모리는 Solid State Drive(SSD)일 수 있다.

외장 메모리는 flash drive, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치(300)와 기능적으로 연결될 수 있다. 또한, 전자 장치(300)는 하드 드라이브와 같은 저장 장치를 더 포함할 수도 있다.

특히, 저장부(340)는 도 4에 도시된 바와 같이, 본 개시의 다양한 실시 예들에 따른 전자 장치(100, 300)의 동작을 위한 각종 모듈을 포함할 수 있다. 도 4에 따르면, 저장부(340)는 다중 음원 위치 추적 모듈(Multiple Sound Source Localization module: MSSL, 341), 목적 방향 식별 모듈(Target Direction Identification module: TDI, 343), 음원 분리 모듈(Geometric Source Separation module: GSS, 345), 끝점 검출 모듈(End-Point Detection module: EPD, 347) 및 트리거 단어 인식 모듈(Wake-Up Word recognition module: WUW, 349)를 포함할 수 있다.

다중 음원 위치 추적 모듈(341)은 복수의 마이크(310), 예를 들어, N 채널 다중 마이크 어레이가 수신하여 출력하는 오디오 신호로부터, M 개의 음원에서 발생된 오디오 신호 각각이 전자 장치(300)로 도래하는 방향을 추정하여 M 개의 음원 방향 정보를 생성하고, 생성된 M 개의 음원 방향 정보를 목적 방향 식별 모듈(343)로 전달할 수 있다. 이때, N 은 M 보다 큰 자연수 일 수 있다.

본 개시의 일 실시 예에 따르면, 다중 음원 위치 추적 모듈(341)에는 마이크-어레이 기술이 적용될 수 있다. 구체적으로, 마이크-어레이 기술을 이용한 음원 위치 추적 모듈(341)은 복수의 마이크(310)로 입력된 오디오 신호들로부터 음원의 입력 방향을 추정하는 역할을 하며, 프레임별 각도 추정 모듈(미도시)과 정규화 모듈(미도시)로 구성될 수 있다.

프레임별 각도 추정 모듈(미도시)은 입력된 오디오 신호로부터 목적 방향 각도 정보를 프레임 단위로 생성한다. 정규화 모듈(미도시)은 프레임 단위의 목적 방향 각도 정보를 입력받아, 기설정된 검색 범위(search range) 내에서 가장 가능성이 높은 방향을 추정하여 하나의 음원에 대해 정규화된 각도 정보 즉, 음원 도래 방향 정보를 생성한다.

한편, 본 개시의 일 실시 예에 따른 마이크-어레이 기술을 이용한 다중 음원 위치 추적 모듈(341)은 M 개의 음원에 대한 위치를 추정하기 위해, 전술한 음원 위치 추적을 M 번 반복하는 방법으로 구성될 수 있다. 예를 들어, N 채널 다중 마이크 어레이를 통해 수신되는 N 채널 다중 오디오 입력 신호에 대해 전술한 음원 위치 추적 방법을 적용하여 첫 번째 음원의 방향을 생성하고, 동일한 N 채널 다중 오디오 입력 신호에 대해 재차 전술한 음원 위치 추적 방법을 적용하여 두 번째 음원의 방향을 생성하는 방법으로 M 개 음원의 도래 방향을 추정할 수 있다.

한편, 본 개시의 다른 일 실시 예에 따른 음원 위치 추적 모듈(341)은 복수의 마이크(310)를 통해 입력되는 오디오 신호의 전체 주파수를 몇 개의 대역으로 나누고 각 대역에 해당하는 다중 오디오 입력 신호를 분석하여 음원별 위상 정보를 생성하며, 생성된 음원별 위상 정보를 이용하여 각 음원의 도래 방향을 추정할 수 있다. 구체적으로, 음원 위치 추적 모듈(341)은 생성된 대역별 음원의 위상 정보를 축적해 히스토그램을 생성하고, 이러한 히스토그램을 구성할 수 있는 음원의 방향들을 역으로 조합하여 복수의 음원의 각 도래 방향을 추적할 수 있다.

목적 방향 식별 모듈(343)은 다중 음원 위치 추적 모듈(341)이 생성한 M 개 음원 방향 정보와 트리거 단어 인식 모듈(349)의 트리거 단어 인식 결과를 입력받아 타겟 음원(또는 목적 화자, Primary Target: PT)을 검출하고, 타겟 음원 방향 정보를 생성할 수 있다. 이때, 본 개시의 일 실시 예에 따르면, 타겟 음원 방향 정보는, 전술한 다중 음원 위치 추적 모듈(341)이 생성한 M 개의 음원 방향 정보에, 해당 음원 방향이 타겟 음원인지 잡음 음원인지 여부를 나타내는 색인 정보가 추가된 것일 수 있다.

또한, 본 개시의 다른 일 실시 예에 따르면, 타겟 음원 방향 정보는, 전술한 다중 음원 위치 추적 모듈(341)이 생성한 M 개의 음원 방향 정보에 해당 음원이 몇 번째 타겟 음원인지를 나타내는 색인 정보가 추가된 것일 수 있다.

예를 들어, M 개의 음원 중 1개만 음성일 경우, 해당 방향에 1번 색인을 부여할 수 있다. 만약, 2개 이상이 음성일 경우, 해당 방향을 방향 정보 리스트의 맨 위로 올리고 트리거 단어가 인식된 방향에 1번 색인을 부여할 수 있다. 이후 1번 색인이 부여된 음원의 오디오 신호만을 음성 인식 서버로 전송함으로써, 트리거 단어 인식 후 분리된 M 개 음원 중 사용자가 발화한 명령어(혹은 문장)가 선별되어 음성 인식 서버로 전송될 수 있다.

한편, 본 개시의 일 실시 예에 따르면, 목적 방향 식별 모듈(343)은 각 음원 방향 정보의 유지 시간(duration)에 기초하여 상기 타겟 음원 방향 정보를 생성할 수 있다. 구체적으로, 목적 방향 식별 모듈(343)은 다중 음원 위치 추적 모듈(341)로부터 입력받은 M 개 음원 방향 정보에 대해 일정 시간(sampling time 혹은 그의 배수)동안 방향(각도)의 변화를 모니터링 하고, 각도가 변하는 시점에 그동안 해당 음원의 각도가 유지된 시간을 계산할 수 있다. 일반적으로, 외부 기기의 오디오 출력에 의한 음원(음악, TV출력 등)은 그 유지 기간이 음성 발화에 비해 길기 때문에 상기 유지 시간이 일정 시간보다 짧은 음원을 타겟 음원이라고 판단하여 타겟 음원 방향 정보를 생성할 수 있다. 이때, 트리거 단어 또는 외부 기기 제어를 위한 특정 명령어 리스트가 정해져 있는 경우에는 해당 트리거 단어나 명령어의 음성의 길이를 고려하여 타겟 음원의 판단에 이용할 수 있다.

음원 분리 모듈(345)은 N 채널 다중 마이크 어레이를 통해 수신되는 N 채널 다중 오디오 입력 신호, 다중 음원 위치 추적 모듈(341)이 생성한 M 개 음원 방향 정보 및 목적 방향 식별 모듈(343)이 생성한 타겟 음원 방향 정보를 입력받아 M 개의 서로 다른 음원에 대한 분리된 오디오 신호를 생성한다.

구체적으로, M 개의 음원 방향을 알면, 각 음원으로부터 N 개의 마이크-어레이의 각 마이크까지의 응답을 원거리-음장(far-field)으로 가정한 선형 지연 및 합산(linear delay-and-sum) 빔포머 필터 계수로 모델링할 수 있고, 이를 기반으로 구성된 음원-마이크 간 응답 행렬의 역행렬을 추정하여 마이크-어레이 신호들로부터 각 방향의 소리를 분리하는 분리(separation) 필터 행렬을 구할 수 있다.

흔히 이러한 역행렬을 추정하는 방법으로, 일정 구간의 마이크 신호 간 covariance 또는 correlation 행렬의 diagonalization을 통한 second-order source separation 방법과 Infomax-ICA (independent component analysis)에 기반한 higher-order source separation 방법이 있다.

각 방법에 따라 구성된 목적 함수를 gradient descent 또는 ascent 적응 방식으로 최소화 또는 최대화할 때 상기 응답 행렬로 목적 함수 내 separation 필터 행렬을 초기화하거나 실시간 수렴을 위해 매 신호 프레임마다의 방향 정보에 기반한 상기 응답 행렬로 구성된 penalty term을 목적 함수에 추가할 수 있다.

상기 방법으로 분리된 각 음원 별 오디오 신호는 해당 방향의 소리를 강조하지만 분리 과정 중 일어나는 채널 간 누설(leakage)을 통해 타 방향의 소리와 주변 소음을 포함하게 된다. 따라서, 음원 분리 모듈(345)은 M 개의 분리 결과마다 post-filter를 적용하여 이러한 잡음을 추가로 제거한다.

먼저, MCRA(Minima-Controlled Recursive Average)와 같은 노이즈 추정 기법을 통해 stationary noise variance를 추정하고, 타 분리 결과에 일정량의 weight를 곱하여 leakage noise variance를 구한 후 둘을 더한 최종 noise variance를 기반으로 OM-LSA(Optimally Modified Log-spectral Amplitude)와 같은 decision directed speech estimation 기법을 통해 각 분리된 채널에서 해당 방향의 소리만을 추출하는 최종 gain 함수를 산출할 수 있다.

끝점 검출 모듈(347)은 음원 분리 모듈(345)이 생성한 M 개의 분리된 오디오 신호를 입력받아 M 개의 분리된 음성 신호를 생성하여 트리거 단어 인식 모듈(349)에 전달한다. 끝점 검출 모듈(347)은 각각의 분리된 음성 신호를 생성하기 위해 상기 분리된 M 개의 오디오 신호에 대해 잡음 구간(프레임)과 음성 구간(프레임)을 검출하고, 이를 기반으로 음성이 시작되는 시점부터 음성이 끝나는 시점까지의 오디오 신호를 음성 신호로 출력한다.

구체적으로, 음성은 발성되기 시작하면 신호의 에너지 혹은 엔트로피가 증가하는 특징이 있으므로, 끝점 검출 모듈(347)은 이러한 특징을 이용하여 임계값 이상의 에너지 혹은 엔트로피를 가지는 지점을 음성 신호의 시작점으로 판별하고 반대의 경우를 음성 신호의 종료점으로 판별할 수 있다.

또한, 끝점 검출 모듈(347)은 음성 주파수 대역에 대한 변화 등을 고려하여 음성이 존재하는 주파수 대역의 에너지나 다른 음성특징을 이용하여 음성 끝점 검출을 수행할 수도 있다.

한편, 본 개시의 일 실시 예에 따른 끝점 검출 모듈(347)은 음원 분리 모듈(345)이 생성한 M 개의 분리된 오디오 신호를 입력받아 K 개(K≤M)의 음성신호를 생성하여 트리거 단어 인식 모듈(349)에 전달할 수 있다. 즉, 입력받은 분리된 오디오 신호의 특성을 분석하여 음성으로 식별되는 K 개의 음원만을 트리거 단어 인식 모듈(349)에 전달하여 연산량을 절약하는 동시에 잡음 대응력을 높일 수 있다.

구체적으로, 끝점 검출 모듈(347)은 입력받은 분리된 오디오 신호로부터 특징들을 추출하고 추출된 특징 벡터를 미리 학습한 음성 신호의 템플릿의 특징 벡터와 비교하여 그 유사 정도에 따라 음성 혹은 비음성으로 판별할 수 있다. 이때 이용될 수 있는 오디오 신호의 특징은 MFCC(mel-frequency cepstral coefficient), LFCC(linear-frequency cepstral coefficient), LPC(linear prediction coefficient), 주파수 envelope, ZCR(zero-crossing rate) 등일 수 있다.

트리거 단어 인식 모듈(349)는 끝점 검출 모듈(347)이 생성한 M 개의 분리된 음성 신호로부터 트리거 단어 인식 결과를 생성하여 목적 방향 식별 모듈(343)로 전달한다. 이때, 트리거 단어 인식 결과는 해당 음성 신호가 트리거 단어를 발화한 오디오 신호인지 아닌지 여부 혹은 해당 음성 신호가 트리거 단어를 발화한 오디오 신호일 확률(가능성)이 얼마인지를 나타내는 스코어일 수 있다. 또한 트리거 단어 인식 결과는 트리거 인식 결과가 생성될 당시의 채널 번호(또는 해당 분리된 음원의 방향 정보)를 포함할 수도 있다.

프로세서(320)는 전자 장치(300)의 전반적인 동작을 제어한다. 특히, 프로세서(320)는 전술한 저장부(340)에 저장된 모듈을 읽어 각 모듈이 수행하는 동작을 수행할 수 있다. 한편, 실시 예에 따라, 전술한 도 4에 도시된 각 모듈 또는 각 모듈들의 조합은 프로세서(320)와는 별도의 다른 프로세서나 SoC 형태의 하드웨어로 구현될 수도 있을 것이다.

이하에서, 도 5 및 도 6을 참조하여 본 개시의 다양한 실시 예들에 따른 전자 장치(100, 300)의 설명한다.

도 5a는 본 개시의 일 실시 예에 따른 전자 장치(100, 300)의 동작을 나타낸다. 도 5a에 도시된 각 모듈들(341, 343, 345, 347, 349)은 도 4를 통해 전술한 모듈들(341, 343, 345, 347, 349)의 동작을 수행한다.

즉, 도 5a에 도시된 바와 같이, M 개의 음원에서 발생된 오디오 신호가 N 채널의 마이크 어레이를 통해 수신되면, N 채널의 마이크 어레이는 X₁내지 X_N과 같은 N 개의 오디오 신호를 다중 음원 위치 추적 모듈(341) 및 음원 분리 모듈(345)로 전달한다.

다중 음원 위치 추적 모듈(341)은 N 채널의 마이크 어레이가 출력하는 N 개의 오디오 신호로부터 음원들의 도래 방향을 추정하고, θ₁ 내지 θ_M과 같은 M 개의 음원 방향 정보를 생성하여 목적 방향 식별 모듈(343)로 전달한다.

목적 방향 식별 모듈(343)은 다중 음원 위치 추적 모듈(341)이 생성한 M 개의 음원 방향 정보의 유지 시간 및 트리거 단어 인식 모듈(343)로부터 전달되는 트리거 단어 인식 결과에 기초하여 타겟 음원을 검출하고, 음원 방향 정보에 색인 정보가 추가된 θ_σ ₍₁₎내지 θ_σ(M)과 같은 타겟 음원 방향 정보를 생성한다.

음원 분리 모듈(345)은 N 채널의 마이크 어레이에서 전달된 N 개의 오디오 신호와, 다중 음원 위치 추적 모듈(341) 및 목적 방향 식별 모듈(343)이 생성한 타겟 음원 방향 정보를 입력받아, M 개의 서로 다른 음원에 대해 분리된 S₁내지 S_M과 같은 M 개의 오디오 신호를 생성하여 끝점 검출 모듈(347)로 전달한다.

끝점 검출 모듈(347)은 음원 분리 모듈(345)이 생성한 M 개의 분리된 오디오 신호를 입력받아 S'₁ 내지 S'_M과 같은 M 개의 분리된 음성 신호를 생성하여 트리거 단어 인식 모듈(349)로 전달한다.

트리거 단어 인식 모듈(349)는 끝점 검출 모듈(347)이 생성한 M 개의 분리된 음성 신호로부터 트리거 단어 인식 결과를 생성하여 목적 방향 식별 모듈(343)로 전달한다.

트리거 단어 인식 결과, 1번 색인의 타겟 음원 방향에 대해 분리된 음성 신호가 트리거 단어인 것으로 판단되면, 분리된 S'₁ 내지 S'_M 신호 중 1번 색인의 분리된 음성 신호가 음성 인식 서버로 전송된다.

트리거 단어 인식 결과, 1번 색인의 타겟 음원 방향에 대해 분리된 음성 신호가 트리거 단어가 아닌 것으로 판단되면, 타겟 음원 식별 모듈(343)은 트리거 단어로 인식된 분리된 음성 신호에 대응되는 다른 타겟 음원 방향에 1번 색인을 부가하게 되며, 이에 따라, 트리거 단어가 인식된 방향 즉, 새롭게 1번 색인이 부가된 음원 방향의 분리된 음성 신호가 음성 인식 서버로 전송된다.

도 5b는 본 개시의 다른 일 실시 예에 따른 전자 장치(100, 300)의 동작을 나타내는 도면이다. 도 5a와 같은 전자 장치(100, 300)의 동작이 복수의 음성이 있는 경우에 대응하기 위한 것임에 반해, 도 5b와 같은 전자 장치(100, 300)의 동작은 음성이 1개일 경우에 대응하기 위한 것이다.

구체적으로, 도 5a와 같은 방법으로 동작시, 음원 분리 모듈(345), 끝점 검출 모듈(347) 및 트리거 단어 인식 모듈(349)은 multi-thread(또는 단일 thread의 반복 연산) 형태로 구동되어야 하므로, 연산량의 증가가 심각할 수 있다. 따라서, 이를 방지하기 위해, 전자 장치(100, 300)는 도 5b와 같은 방법으로 동작할 수 있다.

도 5b에 따르면, 목적 방향 식별 모듈(343)은 1개의 타겟 음원 방향을 판단하고, 음원 분리 모듈(345)은 판단된 1개의 타겟 음원 방향의 오디오 신호 S₁만을 분리하여 끝점 검출 모듈(347)로 전달하게 되며, 끝점 검출 모듈(347)은 S'₁과 같이 1개의 음성 신호만을 트리거 단어 인식 모듈(349)로 전달하게 되므로, 연산량을 줄일 수 있게 된다.

한편, 본 개시의 다른 일 실시 예에 따르면, 전자 장치(100, 300)는 목적 방향 식별 모듈(343)에 의해 판단된 타겟 음원이 1개일 경우에는 도 5b와 같이 동작하고, 판단된 타겟 음원이 2개 이상일 경우에만 도 5a와 같이 동작할 수도 있다. 이 경우, 목적 방향 식별 모듈(343)은 도 5a의 동작 방법과 도 5b의 동작 방법 중 어느 방법으로 동작할지 판단하는 역할을 하게 된다.

본 개시의 또 다른 실시 예에 따르면, 전자 장치(100, 300)는 초기 동작시에는 복수의 음성이 있다고 가정하여 도 5a의 방법으로 동작하다가, 목적 방향 식별 모듈(343)이 판단한 타겟 음원이 트리거 단어로 인식될 경우, 그 이후부터는 도 5b의 방법으로 동작할 수도 있다.

본 개시의 또 다른 실시 예에 따르면, 타겟 음원이 검출되지 않는 경우에는 직전의 트리거 인식 결과가 생성될 당시의 채널 번호(또는 해당 분리된 음원의 방향)를 타겟 음원 방향으로 판단하고, 도 5b의 방법으로 동작할 수도 있다. 이 경우, 타겟 음원 방향 근처 일정 범위 내 발생한 모든 이벤트는 타겟 음원으로 판단될 수 있다. 이후 일정 시간 이상 연속적으로 검출되는 발화가 없으면 타임 아웃되어 도 5a의 방법으로 동작할 수도 있다.

도 6a는 본 개시의 다른 일 실시 예에 따른 전자 장치(100, 300)의 동작을 나타내는 도면이다. 도 5a와 도 5b와 같은 동작 방법은 목적 방향 식별 모듈(343)이 M 개의 음원 방향 정보를 입력받는 것에 반해, 도 6a의 동작 방법은 목적 방향 식별 모듈(343)이 M 개의 분리된 오디오 신호를 입력받는 동작 방법이다.

이 경우, 음원 분리 모듈(345)은 다중 음원 위치 추적 모듈(341)이 생성한 M 개의 음원 방향 정보(θ₁ 내지 θ_M)를 입력받아 M 개의 서로 다른 음원에 대해 분리된 오디오 신호(S₁내지 S_M)를 생성한다. 생성된 M 개의 분리된 오디오 신호와 M 개의 음원 방향 정보는 목적 방향 식별 모듈(343)에 전달된다.

목적 방향 식별 모듈(343)은 입력받은 M 개의 분리된 오디오 신호와 M 개의 음원 방향 정보를 분석하여 타겟 음원을 검출하고, 타겟 음원 방향 정보가 부가된 분리된 오디오 신호(S_σ(1)내지 S_σ _(M))를 생성하여 끝점 검출 모듈(347)로 전달할 수 있다. 이때, 목적 방향 식별 모듈(343)은 각 음원 방향 정보의 유지 기간(duration)에 기초하여, 타겟 음원 방향 정보가 부가된 분리된 오디오 신호(S_σ(1)내지 S_σ _(M))를 생성할 수 있다. 이때 생성된 타겟 음원 방향 정보가 부가된 분리된 오디오 신호(S_σ(1)내지 S_σ _(M))는 분리된 오디오 신호가 음성인지 잡음인지 여부를 가리키는 색인 정보가 추가된 것이거나, 해당 음원 방향이 몇 번째 타겟 음원인지를 가리키는 색인 정보가 추가된 것이거나, 혹은 정해진 약속(예를 들어 음성1, 음성2, 잡음1, 잡음2)에 맞게 M 개의 분리된 오디오 신호의 음원 순서를 변경한 것일 수 있다.

한편, 끝점 검출 모듈(347)은 목적 방향 식별 모듈(343)이 생성한 타겟 음원 방향 정보가 부가된 M 개의 분리된 오디오 신호(S_σ(1)내지 S_σ _(M)) 입력받아 M 개의 분리된 음성 신호를 생성하여 트리거 단어 인식 모듈(349)에 전달한다. 이때 생성되는 분리된 음성 신호는 끝점 검출 모듈(347)이 입력받은 분리된 오디오 신호에서 잡음 구간(프레임)과 음성 구간(프레임)을 검출하고, 이를 기반으로 음성이 시작되는 시점부터 음성이 끝나는 시점까지의 오디오 신호를 음성 신호로 출력한 것일 수 있다.

이때, 본 개시의 일 실시 예에 따르면, 끝점 검출 모듈(347)은 입력받은 분리된 오디오 신호의 특성을 분석하여 음성으로 식별되는 K 개의 음원만을 트리거 단어 인식 모듈(349)에 전달할 수도 있다. 즉, 목적 방향 식별 모듈(343)이 1차적으로 음원의 방향 유지 시간에 기초하여 음성 음원을 골라낸 후, 끝점 검출 모듈(347)이 오디오 신호 특성 분석에 기반한 음성/비음성 구분 기법을 적용하여 최종적으로 타겟 음원 방향을 선별할 수 있다.

도 6b는 본 개시의 또 다른 일 실시 예에 따른 전자 장치(100, 300)의 동작을 나타내는 도면이다. 도 6a와 같은 동작 방법이 복수의 음성에 대응하기 위한 방법인 것에 반해, 도 6b의 동작 방법은 음성이 1개일 경우에 대응하기 위한 방법이다. 전자 장치(100, 300)가 도 6a와 같은 방법으로 동작시 연산량 증가가 심각할 수 있기 때문에 이를 방지하기 위해, 도 6b와 같은 방법으로 동작할 수 있다.

도 6b에 따르면, 전자 장치(100, 300)의 목적 방향 식별 모듈(343)은 음원 분리 모듈(345)이 분리한 오디오 신호(S₁내지 S_M) 및 다중 음원 위치 추적 모듈(341)이 생성한 음원 방향 정보(θ₁ 내지 θ_M)를 입력받아 그 중 가장 음성에 가깝다고 판단되는 하나의 오디오 신호만을 판단하여 타겟 음원의 오디오 신호(S_σ ₍₁₎)로 출력할 수 있다. 이때 타겟 음원을 판단하는 방법은 입력받은 각 분리된 음원 방향의 유지 시간(duration)에 기초한 방법이거나 입력받은 분리된 음원의 특성을 분석하여 음성으로 판단되는 음원을 타겟 음원으로 식별하는 방법일 수 있다. 이에 따라, 끝점 검출 모듈(347) 역시 하나의 음성 신호(S'_σ(1))만을 트리거 단어 인식 모듈(349)로 출력한다. 따라서, 연산량을 줄일 수 있게 된다.

이상에서는, 트리거 단어의 음성 인식은 전자 장치(100, 300)에서 이루어지나, 트리거 단어 인식 이후 외부 기기를 제어하기 위한 사용자 음성 명령에 대해서는 전자 장치(100, 300)가 해당 오디오 신호를 음성 인식 서버로 전송하여 음성 인식 서버에서 음성 인식을 수행하는 것을 예로 들었다.

그러나, 실시 예가 이에 한정되는 것은 아니며, 전자 장치(100, 300)에 고성능 음성 인식 모듈(미도시)이 탑재된 경우, 프로세서(120, 320)는 탑재된 음성 인식 모듈(미도시)을 이용하여 외부 기기 제어 명령에 대한 음성 인식을 수행하고, 음성 인식 결과 또는 인식된 음성에 대응되는 제어 신호를 외부 기기로 직접 전송하도록 통신부(130, 330)를 제어함으로써, 음성 인식 서버를 이용하지 않고 전자 장치(100, 300)가 직접 외부 기기의 동작을 제어할 수도 있음은 물론이다.

도 7은 본 개시의 일 실시 예에 따른 전자 장치의 오디오 신호 처리 방법을 나타내는 흐름도이다. 도 7을 설명함에 있어 전술한 내용과 중복되는 내용은 설명을 생략한다.

도 7에 도시된 바와 같이, 복수의 음원에서 발생되는 오디오 신호를 복수의 마이크를 통해 수신하면(S710), 전자 장치(100, 300)는 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 전자 장치(100, 300)를 기준으로 복수의 음원 각각이 존재하는 방향을 판단할 수 있다(S720). 이때, 본 개시의 일 실시 예에 따르면, 전자 장치(100, 300)는 복수의 마이크의 개수보다 적은 수의 복수의 음원 각각이 존재하는 방향을 판단할 수 있다.

이에 따라, 전자 장치(100, 300)는 상기 판단된 음원의 방향의 유지 시간에 기초하여 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단할 수 있다(S730). 구체적으로, 전자 장치(100, 300)는 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단할 수 있다.

이후, 전자 장치(100, 300)는 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송할 수 있다(S740).

구체적으로, 본 개시의 일 실시 예에 따르면, 전자 장치(100, 300)는 복수의 마이크 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고, 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 기설정된 음성이 발생된 타겟 음원을 판단할 수 있다.

또한, 본 개시의 다른 일 실시 예에 따르면, 전자 장치(100, 300)는 타겟 음원이 하나인 경우, 복수의 마이크 각각에서 수신한 오디오 신호로부터 타겟 음원의 오디오 신호만을 분리하고, 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성의 발생 여부를 판단할 수 있다.

본 개시의 다른 또 다른 일 실시 예에 따르면, 전자 장치(100, 300)는 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하고, 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 기설정된 음성이 발생된 타겟 음원을 판단할 수도 있다.

이에 따라, 전자 장치(100, 300)는 기설정된 음성이 발생된 타겟 음원이 판단된 이후 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터, 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 음성 인식 서버로 전송할 수 있다.

한편, 본 개시의 일 실시 예에 따르면, 전자 장치(100, 300)는 전자 장치(100, 300)를 기준으로 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시할 수도 있다.

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 복수의 외부 음원 중 음성 인식을 위한 타겟 음원을 정확히 판단할 수 있다. 이에 따라, 다양한 잡음 환경에서도 효과적이고, 안정적인 음성 인식이 가능해 진다.

구체적으로, 본 개시의 다양한 실시 예들에 따르면, 복수의 마이크로 입력된 오디오 신호를 음원의 도래 방향에 따라 분리하고, 분리된 음원들을 음성일 가능성이 높은 순서에 따라 음성 인식기에 전달하므로, 강력한 잡음이 존재하는 환경에서도 안정적인 음성 인식 성능을 확보할 수 있다.

또한, 분리된 음원들 중 음성 명령을 인식기에 전달하기 위해 음성의 도래 방향을 식별함에 있어, 음원의 도래 방향의 지속성에 기반하여 음성 방향을 예측할 수 있으므로, 적은 연산량으로 음성 명령을 판별할 수 있다.

또한, 음성의 도래 방향을 식별함에 있어 분리된 음원의 특성을 분석하여 음성 여부를 판별하는 방법에 의해 비음성 잡음에 대한 변별력을 높일 수 있다.

또한, 음성의 도래 방향을 식별함에 있어 음성 인식기가 생성한 이전의 트리거 단어 인식 결과를 이용할 수 있으므로, 트리거 발화 이후 발화 레벨이 낮아지는 사용자의 발화 음성을 보다 효과적으로 취득할 수 있다.

한편, 상술한 다양한 실시 예들에 따른 전자 장치의 프로세서의 동작이나 전자 장치의 오디오 신호 처리 방법들 소프트웨어로 생성되어 전자 장치에 탑재될 수 있다.

예를 들어, 복수의 음원에서 발생되는 오디오 신호를 복수의 마이크를 통해 수신하는 단계, 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 전자 장치를 기준으로 복수의 음원 각각이 존재하는 방향을 판단하는 단계, 판단된 음원의 방향의 유지 시간에 기초하여 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하는 단계 및 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하는 단계를 포함하는 전자 장치의 오디오 신호 처리 방법을 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 설치될 수 있다.

여기서, 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 미들웨어 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 따라서, 본 발명의 호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

전자 장치에 있어서,

복수의 음원에서 발생되는 오디오 신호를 수신하는 복수의 마이크;

음성 인식 서버와 통신하는 통신부; 및

상기 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 상기 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하고, 상기 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하고, 상기 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 상기 음성 인식 서버로 전송하도록 상기 통신부를 제어하는 프로세서;를 포함하는 전자 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하고, 상기 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 것을 특징으로 하는 전자 장치.
제 3 항에 있어서,

상기 프로세서는,

상기 기설정된 음성이 발생된 타겟 음원이 판단된 이후 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터, 상기 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 상기 음성 인식 서버로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,

상기 프로세서는,

타겟 음원이 하나인 경우, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 상기 타겟 음원의 오디오 신호만을 분리하고, 상기 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성의 발생 여부를 판단하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하고, 상기 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,

상기 프로세서는,

상기 복수의 마이크의 개수보다 적은 수의 상기 복수의 음원 각각이 존재하는 방향을 판단하는 것을 특징으로 하는 전자 장치.
제 1 항에 있어서,

상기 전자 장치를 기준으로 상기 기설정된 음성이 발생된 타겟 음원이 존재하는 방향을 표시하는 표시부;를 더 포함하는 것을 특징으로 하는 전자 장치.
전자 장치의 오디오 신호 처리 방법에 있어서,

복수의 음원에서 발생되는 오디오 신호를 복수의 마이크를 통해 수신하는 단계;

상기 복수의 마이크를 통해 수신된 복수의 오디오 신호에 기초하여 상기 전자 장치를 기준으로 상기 복수의 음원 각각이 존재하는 방향을 판단하는 단계;

상기 판단된 음원의 방향의 유지 시간에 기초하여 상기 복수의 음원 중에서 적어도 하나의 타겟 음원을 판단하는 단계; 및

상기 적어도 하나의 타겟 음원 중 기설정된 음성이 발생된 타겟 음원의 오디오 신호를 음성 인식 서버로 전송하는 단계;를 포함하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 적어도 하나의 타겟 음원을 판단하는 단계는,

상기 복수의 음원 중 기설정된 시간 미만으로 동일한 방향에서 오디오 신호를 발생하는 적어도 하나의 음원을 타겟 음원으로 판단하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 복수의 음원 각각의 오디오 신호를 분리하는 단계; 및

상기 분리된 복수의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 11 항에 있어서,

상기 음성 인식 서버로 전송하는 단계는,

상기 기설정된 음성이 발생된 타겟 음원이 판단된 이후 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터, 상기 기설정된 음성이 발생된 것으로 판단된 타겟 음원의 오디오 신호만을 상기 음성 인식 서버로 전송하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

타겟 음원이 하나인 경우, 상기 복수의 마이크 각각에서 수신한 오디오 신호로부터 상기 타겟 음원의 오디오 신호만을 분리하는 단계; 및

상기 분리된 타겟 음원의 오디오 신호에 대한 음성 인식을 수행하여 상기 기설정된 음성의 발생 여부를 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 적어도 하나의 타겟 음원 중에서 음성을 발생하는 타겟 음원을 판단하는 단계; 및

상기 음성을 발생하는 것으로 판단된 타겟 음원의 오디오 신호에 대해서만 음성 인식을 수행하여 상기 기설정된 음성이 발생된 타겟 음원을 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 방향을 판단하는 단계는,

상기 복수의 마이크의 개수보다 적은 수의 상기 복수의 음원 각각이 존재하는 방향을 판단하는 것을 특징으로 하는 오디오 신호 처리 방법.