WO2018038381A1

WO2018038381A1 - 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법

Info

Publication number: WO2018038381A1
Application number: PCT/KR2017/006822
Authority: WO
Inventors: 김동완
Original assignee: 삼성전자 주식회사
Priority date: 2016-08-26
Filing date: 2017-06-28
Publication date: 2018-03-01
Also published as: EP3480812B1; KR20180023617A; EP3480812A4; US11170767B2; US20190180738A1; EP3480812A1

Abstract

외부 기기를 제어하는 휴대 기기가 개시된다. 본 휴대 기기는, 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제 1 마이크, 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 사용자 음성을 포함하는 오디오 신호를 입력받는 제 2 마이크, 오디오 신호를 처리하는 신호 처리부, 외부 기기와 통신하는 통신부 및 제 1 및 제 2 마이크를 통해 입력받은 오디오 신호에 기초하여 휴대 기기와 사용자 간의 사용자 발화 거리를 판단하고, 사용자 발화 거리가 근거리 발화로 판단되면, 제 1 및 제 2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 신호 처리부를 제어하며, 처리된 오디오 신호를 외부 기기로 전송하도록 통신부를 제어하는 프로세서를 포함한다.

Description

외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법

본 개시는 휴대 기기 및 이의 오디오 신호 처리 방법에 관한 것으로, 보다 상세하게는, 사용자 음성을 통해 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법에 관한 것이다.

전자 기술의 발달에 힘입어 사용자 음성을 통해 전자 장치의 동작을 제어하는 기술이 개발 및 보급되고 있다. 이에 따라, 사용자들은 음성을 발화하는 것만으로 각종 전자 장치를 조작할 수 있게 되었다.

특히, 최근에는 TV 리모컨에 마이크를 내장하여 리모컨을 통해 TV의 동작을 제어하는 음성인식 서비스가 상용화되고 있다. 이러한 서비스를 위해서는 사용자의 음성신호를 운반하는 마이크가 필수적이며, 원활한 음성 인식을 위해 효과적인 음성처리 시스템이 필요하다.

상용화 초기에는 사용자가 리모컨을 입에 대고 음성을 발화하는 시나리오를 가정하여 리모컨에 하나의 마이크만을 내장하여 설계하는 것이 일반적이었다. 이러한 사용자의 근거리 발화시에는 복잡한 음성 처리가 필요 없기 때문이다.

최근에는 사용자가 리모컨을 파지하고 있는 일반적인 상태(예를 들어, 채널 재핑을 위해 TV를 향해 리모컨을 가리키는 정도로 리모컨과 사용자의 입 사이의 거리가 있는 상태)에서의 사용자 발화까지 고려하여, 2개의 마이크가 내장된 리모컨이 개발되고 있다. 이 경우, 전술한 근거리 발화보다 많은 주변 잡음이 마이크로 유입되므로, 원활한 음성 인식을 위해서는 마이크를 통해 유입된 오디오 신호에서 주변 잡음을 제거하는 등의 신호 처리가 필요하게 된다.

이때, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우, 경우에 따라 오히려 사용자의 음성이 왜곡되는 현상이 발생할 수 있으며, 이는 원활한 음성 인식을 저해하게 된다.

본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 사용자 발화 거리에 따라 유동적으로 오디오 신호를 처리하는 휴대 기기 및 이의 오디오 신호 처리 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 외부 기기를 제어하는 휴대 기기는, 상기 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제1 마이크, 상기 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 상기 사용자 음성을 포함하는 오디오 신호를 입력받는 제2 마이크, 상기 오디오 신호를 처리하는 신호 처리부, 상기 외부 기기와 통신하는 통신부 및 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하고, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 상기 신호 처리부를 제어하며, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 프로세서를 포함한다.

또한, 상기 신호 처리부는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행할 수 있다.

또한, 상기 프로세서는, 상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하도록 상기 신호 처리부를 제어할 수 있다.

또한, 상기 프로세서는, 상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하도록 상기 신호 처리부를 제어하고, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어할 수 있다.

또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리 검출 여부를 통해 상기 사용자 발화 거리를 판단할 수 있다.

또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.

또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.

또한, 상기 프로세서는, 상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.

한편, 본 개시의 일 실시 예에 따른, 외부 기기를 제어하는 휴대 기기의 오디오 신호 처리 방법은, 상기 휴대 기기의 일 면에 배치된 제1 마이크 및 상기 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계, 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하는 단계, 상기 입력받은 오디오 신호를 처리하는 단계 및 상기 처리된 오디오 신호를 상기 외부 기기로 전송하는 단계를 포함하며, 상기 오디오 신호를 처리하는 단계는, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리한다.

또한, 상기 오디오 신호를 처리하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행할 수 있다.

또한, 상기 오디오 신호를 처리하는 단계는, 상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행할 수 있다.

또한, 상기 오디오 신호를 처리하는 단계는, 상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행할 수 있다.

또한, 상기 판단하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리를 검출하는 단계 및 상기 숨소리 검출 여부에 따라 상기 사용자 발화 거리를 판단하는 단계를 포함할 수 있다.

또한, 상기 숨소리를 검출하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하는 단계를 포함하고, 상기 사용자 발화 거리를 판단하는 단계는, 상기 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 단계를 포함할 수 있다.

또한, 상기 판단하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.

또한, 상기 판단하는 단계는, 상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기를 비교하는 단계 및 상기 오디오 신호의 크기 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 근거리 발화로 판단하는 단계를 포함할 수 있다.

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 외부 기기를 제어하는 휴대 기기는 사용자의 발화 거리에 따라 유동적으로 오디오 신호를 처리할 수 있다. 이에 따라, 외부 기기는 사용자 발화 거리와 무관하게 원활한 음성 인식이 가능해 진다.

도 1은 휴대 기기를 통해 외부 기기를 제어하는 시스템의 일 예 및 종래 기술의 문제점을 설명하기 위한 도면이다.

도 2는 본 개시의 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다.

도 3은 본 개시의 일 실시 예에 따른 신호 처리부의 상세 구성을 나타내는 블럭도이다.

도 4는 본 개시의 다른 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다.

도 5는 본 개시의 다양한 실시 예에 따른 제1 마이크 및 제2 마이크의 배치를 나타내는 도면이다.

도 6은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 흐름도이다.

도 7은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 상세 흐름도이다.

본 개시를 설명함에 있어, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

'제1', '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있으며, 상술된 구성 요소들은 상술된 용어들에 의해 한정되지 않는다. 상술된 용어들은 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위에서 제1 구성 요소는 제2 구성 요소로 명명될 수 있다. 또한, 제2 구성 요소는 제1 구성 요소로 명명될 수도 있다.

본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하에서 첨부된 도면을 참조하여 본 개시의 다양한 실시 예를 상세히 설명한다. 도 1a는 휴대 기기를 통해 외부 기기를 제어하는 시스템의 일 예를 도시하고 있다. 도 1a의 예에 따르면, 사용자는 리모컨(10)을 통해 TV(20)를 제어할 수 있다. 특히, 사용자는 리모컨(10)을 통해 TV(20)를 제어하기 위한 사용자 명령을 발화하여 TV(20)을 제어할 수 있다.

구체적으로, 사용자가 TV(20)를 제어하기 위한 사용자 명령을 발화하면, 리모컨(10)은 사용자 명령에 대응되는 음성을 포함하는 오디오 신호를 수신하여 필요한 처리를 수행한 후, TV(20)로 전송할 수 있다.

리모컨(10)으로부터 오디오 신호가 수신되면, TV(20)는 수신된 오디오 신호에 포함된 사용자 명령을 인식하고, 인식된 사용자 명령에 대응되는 사용자 동작을 수행할 수 있다.

이와 같이 리모컨(10)을 통해 사용자 음성을 수신하여 TV(20)를 제어하기 위해서는 리모컨(10)에 마이크가 구비될 필요가 있다.

도 1b는 도 1a의 리모컨(10)을 보다 자세히 도시한 도면이다. 도 1b의 (a)는 리모컨(10)의 전면을 나타내고, 도 1b의 (b)는 리모컨(10)의 후면을 나타낸다. 도 1b에 도시된 바와 같이, 리모컨(10)은 사용자의 음성을 포함하는 오디오 신호를 획득하기 위해, 전면 및 후면에 마이크(11, 12)를 각각 구비할 수 있다.

이와 같이, 리모컨(10)에 2개의 마이크(11, 12)가 구비된 경우에는, 도 1a의 (a)와 같이 사용자가 리모컨(10)을 입에 가까이 대고 음성을 발화하는 경우(이하, "근거리 발화"라 한다.)뿐만 아니라, 도 1a의 (b)와 같이 근거리 발화가 아닌 경우에도 사용자 음성을 통해 TV(20)를 제어할 수 있다.

구체적으로, 도 1a의 (b)와 같이, 근거리 발화가 아닌 사용자 발화가 있는 경우에는 사용자의 음성 외에 다양한 잡음이 함께 마이크(11, 12)로 유입되므로, 정확한 사용자 음성 인식을 위해서는 잡음 제거 등의 처리가 필수적이다. 이때, 리모컨(10)은 2개의 마이크(11, 12) 사이의 거리만큼 위상 차이를 가지고 유입되는 오디오 신호에 빔포밍 등과 같은 신호 처리를 수행하여 TV(20)로 전송함으로써, 잡음을 제거할 수 있게 된다.

이와 같이, 2개의 마이크(11, 12)를 구비한 리모컨(10)의 경우, 근거리 발화가 아닌 사용자의 발화가 있는 경우에도 잡음을 제거하여 음성 인식이 가능함은 별론, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우, 경우에 따라 오히려 사용자의 음성이 왜곡되는 현상이 발생할 수 있다.

도 1c는 이러한 문제점을 설명하기 위한 도면이다. 도 1c의 (a) 및 (b)는 사용자의 근거리 발화가 있는 경우, 전면 마이크(11) 및 후면 마이크(12) 신호를 각각 나타낸다. 구체적으로, 도 1c의 (a) 및 (b)의 좌측 그림은 시간 도메인에서 마이크 신호 파형을 나타내며, 우측 그림은 주파수 도메인에서 스펙트럼을 도시하고 있다.

사용자의 근거리 발화가 있는 경우, 도 1c의 (a)에 도시된 바와 같이, 전면 마이크(11)는 음원(사용자 입)과의 거리가 매우 가깝고 또한 사용자의 숨소리가 유입될 가능성이 높아 신호가 포화하는 등 왜곡되는 것을 볼 수 있다(도 1c의 ①, ②). 이에 반해, 후면 마이크(12) 신호는, 도 1c의 (a)에 도시된 바와 같이 숨소리 유입이나 신호 왜곡이 없는 것을 볼 수 있다.

이때, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우 즉, 사용자가 근거리 발화를 한 경우에도 근거리 발화가 아닌 경우와 동일하게 잡음 제거 처리를 하는 경우, 도 1c의 (c)에 도시된 스펙트럼 신호와 같이, 왜곡이 없던 후면 마이크(12) 신호를 오히려 왜곡시키는 결과를 초래하게 되는 것을 볼 수 있다(도 1c의 ③).

이에 따라, 사용자 음성을 통해 외부 기기를 제어하는 휴대 기기에 있어서, 사용자 발화 거리를 고려하여 유동적으로 오디오 신호를 처리하는 기술에 대한 필요성이 대두된다.

도 2는 본 개시의 일 실시 예에 따른 외부 기기를 제어하는 휴대 기기의 구성을 나타내는 블럭도이다.

여기서, 휴대 기기(100)는 외부 기기를 제어할 수 있는 각종 기기로서, 도 1a와 같은 시스템에서 사용자 음성을 수신하여 외부 기기(20)로 전송하는 것을 통해 외부 기기(20)를 제어할 수 있는 전자 장치면 어느 것이든 될 수 있다. 특히, 2 이상의 마이크를 구비한 리모컨, 스마트폰, PDA 등과 같이 사용자가 파지할 수 있는 기기일 수 있으나, 이에 한정되는 것은 아니다.

또한, 외부 기기(20)는 휴대 기기(100)의 제어를 받아 동작을 수행하는 각종 기기로서, 도 1a의 예와 같이, 리모컨(10)의 제어를 받는 TV(20)일 수 있으나, 이에 한정되는 것은 아니며, 전술한 각종 휴대 기기(100)를 통해 수신한 오디오 신호에서 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 사용자 명령을 수행할 수 있는 전자 장치이면 어느 것이든 될 수 있다. 가령, 셋탑박스, 사운드 바, 전자 액자, 전자 칠판, 전자 테이블, LFD(Large Format Display), 데스크 탑 PC, 노트북, 각종 스마트 가전 기기 등일 수 있다.

도 2에 따르면, 외부 기기(20)를 제어하는 휴대 기기(100)는 제1 마이크(110-1), 제2 마이크(110-2), 신호처리부(120), 통신부(130) 및 프로세서(140)를 포함한다.

제1 마이크(110-1) 및 제2 마이크(110-2)는 외부의 소리를 전기적인 신호로 변환하여 출력한다. 특히, 제1 마이크(110-1) 및 제2 마이크(110-2)는 사용자가 발화한 사용자의 음성을 포함하는 오디오 신호를 입력받아 전기적 신호로 변환하여 신호 처리부(120) 및 프로세서(140)로 제공할 수 있다.

이때, 제1 마이크(110-1)는 휴대 기기(100)의 일 면에 배치될 수 있으며, 제2 마이크(110-2)는 제1 마이크(110-1)가 배치된 면에 대향하는 면에 배치될 수 있다.

신호 처리부(120)는 제1 마이크(110-1) 및 제2 마이크(110-2)로부터 제공되는 오디오 신호를 처리한다. 구체적으로, 신호 처리부(120)는 프로세서(140)의 제어를 받아, 제1 마이크(110-1) 및 제2 마이크(110-2)로부터 제공되는 오디오 신호에서 사용자 음성을 제외한 잡음을 제거하는 잡음 제거 처리 및 오디오 신호의 크기를 보정하는 크기 보정 처리 중 적어도 하나의 처리를 수행할 수 있다.

이때, 잡음 제거 처리는 도 3을 통해 후술할 바와 같이, 사용자 방향을 기준으로 일정 각도를 벗어나는 방향에서 마이크로 유입되는 소리를 제거하는 빔포밍 처리 또는 마이크로 유입되는 소리 중 음성과 비음성을 구분하여 비음성을 제거하는 비음성 제거 처리를 포함할 수 있다.

이를 위해, 신호 처리부(120)는 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices) 등과 같은 하드웨어로 구현될 수 있으나, 이에 한정되는 것은 아니다.

통신부(130)는 외부 기기(20)와 통신을 수행한다. 특히, 통신부(130)는 프로세서(140)의 제어를 받아 신호 처리부(120)에서 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다.

이에 따라, 외부 기기(20)는 휴대 기기(100)로부터 전송된 오디오 신호를 수신하여 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 제어 동작을 수행할 수 있다.

이를 위해, 통신부(130)는 근거리 무선 통신 모듈이나 무선 랜 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈은 근거리에 위치한 외부 기기(20)와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC 모듈, IR 송/수신 모듈 등이 될 수 있다. 또한, 무선랜 통신 모듈은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 통신부(130)는 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.

프로세서(140)는 휴대 기기(100)의 전반적인 동작을 제어한다.

특히, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호에 기초하여 사용자 발화 거리를 판단할 수 있다. 여기서, 사용자 발화 거리는 휴대 기기(100)와 사용자 간의 거리를 의미한다.

본 개시의 일 실시 예에 따르면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호에서 사용자의 숨소리 검출 여부를 통해 사용자 발화 거리를 판단할 수 있다.

구체적으로, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다. 이때, 기설정된 숨소리 템플릿은 휴대 기기(100)의 저장부(미도시)에 저장되어 있을 수 있다.

예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 MFCC 특징을 추출하고, 추출된 MFCC 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 구한 뒤 유사도의 값이 기설정된 임계치 이상이면 카운트 값을 증가시킬 수 있다.

이에 따라, 프로세서(140)는 카운트 값이 기준치보다 클 경우 숨소리가 포함된 프레임이라고 판단하고, 숨소리로 판단된 프레임의 개수가 기준치를 초과하는 경우 사용자의 발화를 근거리 발화로 판단할 수 있다.

본 개시의 다른 일 실시 예에 따르면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 포화 여부를 통해 사용자 발화 거리를 판단할 수 있다.

구체적으로, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.

예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 복수의 샘플 데이터의 크기(Amplitude)를 구한 뒤 각 샘플 데이터의 크기의 기준치를 초과 여부를 판단하여 샘플 데이터의 크기가 기준치를 초과하는 경우 카운트 값을 증가시킬 수 있다.

이에 따라, 프로세서(140)는 카운트 값이 기준치보다 클 경우 해당 프레임을 포화된 프레임으로 판단하고, 포화된 프레임의 개수가 기준치를 초과하는 경우 사용자의 발화를 근거리 발화로 판단할 수 있다.

본 개시의 또 다른 일 실시 예에 따르면, 프로세서(140)는 제1 마이크(110-1) 및 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기 차이를 비교하여 사용자 발화 거리를 판단할 수 있다.

구체적으로, 프로세서(140)는 제1 마이크(110-1)를 통해 입력받은 오디오 신호의 크기와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.

예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 샘플 데이터의 크기(Amplitude)를 구한 뒤 제1 마이크(110-1)를 통해 입력받은 오디오 신호와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기를 비교할 수 있다.

제1 마이크(110-1)와 제2 마이크(110-2)가 휴대 기기(100)의 대향하는 면(예를 들어, 전면과 후면)에 각각 배치되므로, 사용자의 근거리 발화의 경우 전술한 바와 같이, 제1 마이크(110-1)와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기 차이가 명확하다.

따라서, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 각 샘플 데이터의 크기 차이가 기준치 이상인 경우 해당 프레임을 근거리 발화 프레임으로 판단하고, 근거리 발화 프레임의 개수가 기준치 이상인 경우 사용자 발화를 근거리 발화로 판단할 수 있다.

또한, 프로세서(140)가 상술한 실시 예들을 조합하여 사용자 발화 거리를 판단할 수도 있음은 당연하다.

전술한 바와 같이, 사용자 발화 거리가 판단되면, 프로세서(140)는 판단된 사용자 발화 거리에 따라 오디오 신호를 처리하도록 신호 처리부(120)를 제어할 수 있다.

구체적으로, 프로세서(140)는 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만 처리하도록 신호 처리부(120)를 제어할 수 있다.

프로세서(140)는 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수 있다. 예를 들어, 사용자의 음성은 휴대 기기(100)상에 배치된 제1 마이크(110-1) 및 제2 마이크(110-2) 사이의 거리만큼 위상차를 가지고 각 마이크로 입력되므로, 프로세서(140)는 각 마이크(110-1, 110-2)로 입력되는 오디오 신호의 위상 차이를 통해 사용자(정확하게는 사용자의 입)로부터 어느 마이크가 상대적으로 더 먼 거리에 배치되어 있는지 판단할 수 있다. 그러나, 이에 한정되는 것은 아니며, 프로세서(140)는 제1 마이크(110-1) 및 제2 마이크(110-2)로 입력되는 오디오 신호의 크기를 비교하거나 각 마이크 신호의 포화 여부나 MFCC 특징을 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수도 있을 것이다.

이에 따라, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 크기 보정만을 수행하도록 신호 처리부(120)를 제어할 수 있다.

한편, 프로세서(140)는 사용자 발화 거리가 근거리 발화가 아닌 경우로 판단되면, 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 각 오디오 신호에 대해 잡음 제거 및 크기 보정을 모두 수행하도록 신호 처리부(120)를 제어할 수 있다.

프로세서(140)는 이와 같이 처리된 오디오 신호를 외부 기기(20)로 전송하도록 통신부(130)를 제어할 수 있다.

즉, 예를 들어, 사용자의 발화가 근거리 발화이고, 제2 마이크(110-2)가 사용자로부터 상대적으로 더 먼 거리에 배치된 것으로 판단되면, 프로세서(140)는 제2 마이크(110-2)를 통해 입력받은 오디오 신호에 대해서 크기 보정만을 수행하도록 신호 처리부(120)를 제어할 수 있다 이때, 제1 마이크(110-1)를 통해 입력받은 오디오 신호는 차단되거나 버려져 이용되지 않는다. 따라서, 이 경우에는 제2 마이크(110-2)를 통해 입력받은 오디오 신호만이 크기 보정 처리되어 통신부(130)를 통해 외부 기기(20)로 전송되게 된다.

만일, 사용자의 발화가 근거리 발화가 아닌 경우라면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호 각각에 대해 잡음 제거 및 크기 보정을 수행하도록 신호 처리부(120)를 제어하게 되며, 처리된 각 오디오 신호가 모두 통신부(130)를 통해 외부 기기(20)로 전송되게 된다.

이와 같이, 2개의 마이크를 구비한 휴대 기기(100)를 통한 외부 기기(20) 제어 음성 인식 시스템에서 사용자 발화 거리에 따라 유동적으로 오디오 신호를 처리함으로써, 종래 고정적인 잡음 제거 처리시 사용자의 근거리 발화의 경우 발생할 수 있는 음성 왜곡 현상을 막을 수 있다. 이에 따라, 사용자의 발화가 근거리 발화인지 아닌지와 무관하게 어느 경우에나 원활한 음성 인식이 가능해 진다.

이상에서는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호를 이용하여 사용자 발화 거리를 판단하는 것을 예로 들었으나, 사용자 발화 거리를 판단하는 예가 이에 한정되는 것은 아니다. 가령, 휴대 기기(100)가 온도 센서, 습도 센서, 진동 센서, 움직임 센서, IR 센서, 이미지 센서 등과 같은 별도의 센서를 구비하고, 이러한 각종 센서를 통해 획득되는 정보를 이용하여 사용자 발화 거리를 판단할 수도 있을 것이다.

이하에서는, 도 3을 통해 본 개시의 일 실시 예에 따른 신호 처리 과정을 보다 자세히 설명한다. 도 3에서는 설명의 편의를 위해 제1 마이크(110-1)가 휴대 기기(100)의 전면에 배치된 전면 마이크이고, 제2 마이크(110-2)가 휴대 기기(100)의 후면에 배치된 후면 마이크인 것으로 가정하여 설명한다.

전술한 바와 같이, 사용자의 발화가 근거리 발화가 아닌 경우, 신호 처리부(120)는 프로세서(140)의 제어를 받아 전면 마이크(110-1) 및 후면 마이크(110-2)를 통해 입력받은 오디오 신호에 대해 잡음 제거 처리 및 크기 보정을 수행할 수 있다. 이를 위해, 신호 처리부(120)는 도 3에 도시된 바와 같이, 잡음 제거부(121) 및 크기 보정부(122)를 포함할 수 있다.

잡음 제거부(121)는 사용자 음성을 제외한 잡음을 제거하는 구성으로써, 빔포밍부(121-1) 및 비음성 제거부(121-2)를 포함할 수 있다.

빔포밍부(121-1)는 전면 마이크(110-1) 및 후면 마이크(110-2)로 입력되는 스테레오 오디오 신호를 이용하여 빔포밍을 수행할 수 있다.

일반적으로, 사용자는 음성을 통해 외부 기기(20)를 제어하기 위해, 휴대 기기(100)를 파지한 상태에서 휴대 기기(100)의 전면을 향해 음성을 발화하므로, 전면 마이크(110-1)와 후면 마이크(110-2)로 각각 입력되는 사용자 음성에 대응되는 오디오 신호에는 위상 차이가 존재하게 된다. 이에 반해, 휴대 기기(100)의 측면 방향에서 전, 후면 마이크(110-1, 110-2)로 입력되는 오디오 신호들은 위상 차이가 거의 없게 된다.

빔포밍부(121-1)는 이러한 위상 차이를 이용하여 사용자 방향의 오디오 신호를 제외한 나머지 오디오 신호를 잡음으로 처리하여 제거함으로써, 사용자 방향 빔포밍을 수행할 수 있다. 이에 따라, 측면 방향에서 마이크(110-1, 110-2)로 입력되는 잡음에 대응되는 오디오 신호는 약화 또는 제거될 수 있다.

한편, 빔포밍부(121-1)는 상술한 바와 같이 빔포밍을 수행하여 측면 신호를 제거 또는 감쇄시킨 후 스테레오 신호를 모노 신호로 변환하여 비음성 제거부(121)로 제공할 수 있다.

비음성 제거부(121-2)는 마이크(110-1, 110-2)를 통해 입력되는 오디오 신호에서 사용자의 음성이 아닌 비음성 신호를 제거할 수 있다. 예를 들어, 비음성 제거부(121-2)는 빔포밍부(121-1)에서 빔포밍 처리된 오디오 신호에 대해 음성/비음성 구분 모듈을 이용하여 비음성 신호를 제거할 수 있다. 음성/비음성 모듈 및 이를 이용하여 비음성을 제거하는 구체적인 내용은 본 개시의 요지를 벗어나므로, 더 자세한 설명은 생략한다.

한편, 도 3에서는 빔포밍 처리가 수행된 오디오 신호에 대해 비음성 제거 처리를 수행하는 예를 도시하였으나, 실시 예에 따라, 먼저 비음성을 제거한 후, 빔포밍 처리를 수행하는 것도 가능할 것이다.

크기 보정부(122)는 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 크기를 보정한다. 구체적으로, 크기 보정부(122)는 외부 기기(20)에서 사용자 음성을 인식하기에 적합하도록 오디오 신호의 크기를 보정할 수 있다.

예를 들어, 크기 보정부(122)는 크기가 큰 신호는 감쇄하고, 크기가 작은 신호는 증폭할 수 있다. 이때, 크기 보정부(122)는 잡음 제거부(121)를 통해 잡음이 제거된 오디오 신호에 기설정된 게인 커브를 적용하여 신호 크기를 보정할 수 있으나, 이에 한정되는 것은 아니다.

이와 같이, 근거리 발화가 아닌 사용자의 발화가 있는 경우, 프로세서(140)는 전면 마이크(110-1) 및 후면 마이크(110-2)를 통해 입력받은 오디오 신호에 잡음 제거 및 크기 보정 처리를 수행하도록 신호 처리부(120)를 제어하고, 잡음 제거 및 크기 보정 처리된 오디오 신호를 외부 기기(20)로 전송하도록 통신부(130)를 제어할 수 있다.

한편, 사용자가 휴대 기기(100)의 전면을 입에 가까이 대고 발화하는 경우, 즉, 사용자의 근거리 발화의 경우에는, 프로세서(140)는 사용자의 입과의 거리가 상대적으로 더 먼 후면 마이크(110-2)를 통해 입력받은 오디오 신호만을 처리하도록 신호 처리부(120)를 제어할 수 있다. 이때, 전면 마이크(110-1)를 통해 입력받은 신호는 신호 처리부(120)로 전달되지 않는다. 구체적으로, 프로세서(140)는 후면 마이크(110-2)를 통해 입력받은 신호에 대해서 빔포밍이나 비음성 제거와 같은 잡음 제거 처리 없이, 크기 보정만을 수행하도록 신호 처리부(120)를 제어하게 된다.

도 1c를 통해 전술한 바와 같이, 사용자의 근거리 발화시, 전면 마이크(110-1)를 통해 입력받은 오디오 신호는 숨소리가 유입되거나 신호가 포화하여 왜곡이 있으므로, 본 개시의 다양한 실시 예들은 왜곡 없는 후면 마이크(110-2)를 통해 입력받은 오디오 신호만을 이용한다.

또한, 사용자의 근거리 발화시, 근거리 발화가 아닌 경우에 수행하는 잡음 제거 처리를 왜곡 없는 후면 마이크(110-2) 신호에 대해 수행하는 것은 오히려 신호를 왜곡시키는 결과를 낳으므로, 잡음 제거 처리 없이 크기 보정 처리만을 수행하여 종래 기술의 문제점을 해결할 수 있게 된다.

도 4는 본 개시의 다른 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다. 도 4에 따르면, 휴대 기기(400)는 제1 마이크(410-1), 제2 마이크(410-2), 통신부(430) 및 프로세서(440)를 포함할 수 있다. 휴대 기기(400)의 제1 및 제2 마이크(410-1, 410-2), 통신부(430)는 도 2에서 전술한 휴대 기기(100)의 제1 및 제2 마이크(110-1, 110-2), 통신부(130)와 동일한 구성이므로, 중복 설명은 생략한다.

한편, 휴대 기기(400)는 도 2에 개시된 휴대 기기(100)와 달리 신호 처리부(120)가 없는 것을 볼 수 있다. 이와 같은 구성의 휴대 기기(400)를 통해서는 아래 설명하는 바와 같이 본 개시의 기술적 사상이 적용될 수 있을 것이다.

본 개시의 일 실시 예에 따르면, 신호 처리부(120)의 구성은 소프트웨어로도 구현될 수도 있다. 즉, 도 3을 통해 설명한 빔포밍부(121-1), 비음성 제거부(121-2) 및 크기 보정부(122)의 기능은 빔포밍 모듈, 비음성 제거 모듈 및 크기 보정 모듈과 같이 프로그램 코드로 구현되어 저장부(미도시)에 저장될 수 있으며, 프로세서(440)는 저장부(미도시)에 저장된 상기 모듈을 실행시켜 전술한 신호 처리부의 동작을 수행할 수 있다.

한편, 본 개시의 다른 일 실시 예에 따르면, 신호 처리부(120)의 구성은 외부 기기(20)에 구현될 수 있다.

경우, 프로세서(440)는 제1 마이크(410-1) 및 제2 마이크(410-2)를 통해 입력받은 오디오 신호에 기초하여 휴대 기기(400)와 사용자 가의 사용자 발화 거리를 판단하고, 사용자 발화 거리가 근거리 발화로 판단되면, 제1 마이크(410-1) 및 제2 마이크(420-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치되 마이크를 통해 입력받은 오디오 신호만을 외부 기기(20)로 전송하도록 통신부(430)를 제어할 수 있다.

이에 따라, 외부 기기(20)는 휴대 기기(400)로부터 수신된 오디오 신호에 크기 보정만을 수행하고, 크기 보정이 수행된 오디오 신호를 분석하여 사용자 음성을 인식할 수 있다.

또한, 프로세서(440)는 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면, 제1 마이크(410-1) 및 제2 마이크(410-2)를 통해 입력받은 오디오 신호를 모두 외부 기기(20)로 전송하도록 통신부(430)를 제어할 수 있다.

이에 따라, 외부 기기(20)는 휴대 기기(400)로부터 수신된 스테레오 오디오 신호에 잡음 제거 처리 및 크기 보정 처리를 수행하고, 처리된 오디오 신호를 분석하여 사용자 음성을 인식할 수 있다.

한편, 도 2 내지 도 4의 예를 통해서는 사용자 음성 인식이 자체는 외부 기기(20)에서 이루어지는 것을 예로 들어 설명하였다. 이는 음성 인식 엔진은 보통 그 크기가 크므로, 휴대 기기(100, 400)보다는 외부 기기(20)에 구비되는 것이 바람직하기 때문이다.

그러나, 이에 한정되는 것은 아니며, 실시 예에 따라, 휴대 기기(100, 400)가 음성 인식 엔진 또는 모듈을 구비할 수도 있다. 이 경우에는 신호 처리부(120)를 통해 잡음 제거나 크기 보정 처리된 오디오 신호를 분석하여 휴대 기기(100, 400)가 직접 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 제어 신호를 외부 기기(20)로 바로 전송할 수도 있을 것이다.

도 5는 본 개시의 다양한 실시 예에 따른 제1 마이크 및 제2 마이크의 배치를 나타내는 도면이다. 도 5는 휴대 기기(100, 400)가 리모컨(500)인 경우를 예로 들고 있으며, 리모컨(500)은 전면(510), 후면(520), 좌측면(530), 우측면(540), 상면(550) 및 하면(560)과 같은 6개의 면을 포함한다.

사용자가 리모컨(500)을 파지하고 음성을 발화하는 경우, 마이크를 통해 입력되는 오디오 신호에 사용자 방향 빔포밍 등과 같은 잡음 제거 처리를 하기 위해서는 2개의 마이크가 필요하며, 이때, 각 마이크를 통해 획득되는 오디오 신호는 위상 차이가 나야한다.

이를 위해, 리모컨(500)은 도 5의 (b)에 도시된 바와 같이, 전면(510) 및 전면에 대향하는 후면(520)에 각각 마이크(510-1, 510-2)를 구비하는 것이 바람직할 수 있다. 한편, 마이크가 배치되는 위치는 도 5의 (b)와 같이 전, 후면(510, 520)의 상측에 한정되지는 않음은 물론이다. 가령, 하측이나 중앙부분 등 전, 후면(510, 520)의 다른 영역에 서로 대향하도록 배치될 수도 있다.

한편, 실시 예에 따라, 도 5의 (b)나 (c)와 같이, 좌측면(530)과 이에 대향하는 우측면(540)에 각각 마이크(510-1, 510-2)가 배치될 수도 있고, 상면(550) 및 이에 대향하는 하면(560)에 각각 마이크(510-1, 510-2)가 배치될 수도 있을 것이다.

도 6은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 흐름도이다. 도 6에 따르면, 외부 기기를 제어하는 휴대 기기(100, 400)는 휴대 기기(100, 400)의 일 면에 배치된 제1 마이크 및 휴대 기기(100, 400)의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는다(S610).

이에 따라, 휴대 기기(100, 400)는 사용자 발화 거리를 판단할 수 있다(S620). 이때, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 사용자 발화 거리를 판단할 수 있다.

예를 들어, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 사용자의 숨소리를 검출하고, 숨소리 검출 여부에 따라 사용자 발화 거리를 판단할 수 있다. 구체적으로, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하고, 판단된 유사도가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.

또한, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.

또한, 휴대 기기(100, 400)는 제1 마이크를 통해 입력받은 오디오 신호의 크기와 제2 마이크를 통해 입력받은 오디오 신호의 크기를 비교하고, 오디오 신호의 크기 차이가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수도 있다.

이와 같이, 사용자 발화 거리가 판단되면, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 오디오 신호를 처리한다(S630).

구체적으로, 휴대 기기(100, 400)는 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하고, 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면, 제1 및 제2 마이크를 통해 입력받은 오디오 신호를 모두 처리할 수 있다.

이때, 휴대 기기(100, 400)는 제1 및 제2 마이크로 입력되는 각 오디오 신호의 위상 차이를 비교하거나 오디오 신호의 크기를 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수 있다. 또한, 휴대 기기(100, 400)는 각 마이크 신호의 포화 여부나 MFCC 특징을 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수도 있을 것이다.

이에 따라, 휴대 기기(100, 400)는 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S640).

도 7은 본 개시의 일 실시 예에 따른 휴대 기기(100, 400)의 오디오 신호 처리 방법의 상세 흐름도이다.

도 7에 따르면, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 오디오 신호가 입력되면(S710), 전술한 바와 같이, 사용자 발화거리를 판단할 수 있다(S720).

이에 따라, 사용자 발화가 근거리 발화로 판단되면(S720, Y), 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크 중 사용자로부터의 거리가 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 모노 오디오 신호에 대해 신호 크기 보정만을 수행하고(S750), 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S760). 이때, 나머지 다른 마이크를 통해 입력받은 오디오 신호는 크기 보정되지 않으며, 외부 기기(20)로 전송되지도 않는다.

만일, 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면(S720, N), 휴대 기기(100, 400)는 제1 및 제2 마이크 마이크를 통해 입력받은 스테레오 오디오 신호에 대해 빔포밍을 수행한다(S730).

구체적으로, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 각 오디오 신호의 위상 차이를 이용하여 사용자 방향의 빔포밍을 수행할 수 있다. 이에 따라, 사용자 방향에서 소정의 각도를 벗어난 방향에서 마이크로 입력되는 오디오 신호(즉, 측면 신호)는 제거 또는 감쇄되며, 빔포밍 결과 모노 오디오 신호가 비음성 제거 처리를 위해 제공될 수 있다.

이에 따라, 휴대 기기(100, 400)는 빔포밍 처리된 모노 오디오 신호에서 비음성을 제거할 수 있다(S740). 이때, 휴대 기기(100, 400)는 음성/비음성 구분 모듈을 이용하여 비음성 신호를 제거할 수 있다.

이후, 휴대 기기(100, 400)는 비음성 제거 처리까지 수행된 모노 오디오 신호에 게인 커브를 적용하여 신호 크기 보정 처리를 수행한 후(S750), 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S760).

이상과 같은 본 개시의 다양한 실시 예들에 따르면, 외부 기기를 제어하는 휴대 기기는 사용자의 발화 거리에 따라 유동적으로 오디오 신호를 처리할 수 있게 된다. 이에 따라, 외부 기기는 사용자 발화 거리와 무관하게 원활한 음성 인식이 가능해 진다.

한편, 상술한 다양한 실시 예들에 따른 외부 기기(20)를 제어하는 휴대 기기(100, 400)의 프로세서(140, 440)의 동작이나 휴대 기기(100, 400)의 오디오 신호 처리 방법들은 소프트웨어로 생성되어 휴대 기기(100, 400)에 탑재될 수 있다.

예를 들어, 휴대 기기(100, 400)의 일 면에 배치된 제1 마이크 및 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계, 휴대 기기와 사용자 간의 사용자 발화 거리를 판단하는 단계, 입력받은 오디오 신호를 처리하는 단계 및 처리된 오디오 신호를 외부 기기로 전송하는 단계를 포함하며, 오디오 신호를 처리하는 단계는, 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하는 오디오 신호 처리 방법을 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 설치될 수 있다.

여기서, 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 미들웨어 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 따라서, 본 발명의 호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

외부 기기를 제어하는 휴대 기기에 있어서,

상기 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제1 마이크;

상기 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 상기 사용자 음성을 포함하는 오디오 신호를 입력받는 제2 마이크;

상기 오디오 신호를 처리하는 신호 처리부;

상기 외부 기기와 통신하는 통신부; 및

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하고, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 상기 신호 처리부를 제어하며, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 프로세서;를 포함하는 휴대 기기
제 1 항에 있어서,

상기 신호 처리부는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행하는 것을 특징으로 하는 휴대기기.
제 2 항에 있어서,

상기 프로세서는,

상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하도록 상기 신호 처리부를 제어하는 것을 특징으로 하는 휴대 기기.
제 2 항에 있어서,

상기 프로세서는,

상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하도록 상기 신호 처리부를 제어하고, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 휴대 기기.
제 1 항에 있어서,

상기 프로세서는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리 검출 여부를 통해 상기 사용자 발화 거리를 판단하는 것을 특징으로 하는 휴대 기기.
제 5 항에 있어서,

상기 프로세서는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
제 1 항에 있어서,

상기 프로세서는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
제 1 항에 있어서,

상기 프로세서는,

상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
외부 기기를 제어하는 휴대 기기의 오디오 신호 처리 방법에 있어서,

상기 휴대 기기의 일 면에 배치된 제1 마이크 및 상기 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계;

상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하는 단계;

상기 입력받은 오디오 신호를 처리하는 단계; 및

상기 처리된 오디오 신호를 상기 외부 기기로 전송하는 단계;를 포함하며,

상기 오디오 신호를 처리하는 단계는,

상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 오디오 신호를 처리하는 단계는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 10 항에 있어서,

상기 오디오 신호를 처리하는 단계는,

상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 10 항에 있어서,

상기 오디오 신호를 처리하는 단계는,

상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 판단하는 단계는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리를 검출하는 단계; 및

상기 숨소리 검출 여부에 따라 상기 사용자 발화 거리를 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 13 항에 있어서,

상기 숨소리를 검출하는 단계는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하는 단계;를 포함하고,

상기 사용자 발화 거리를 판단하는 단계는,

상기 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
제 9 항에 있어서,

상기 판단하는 단계는,

상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 오디오 신호 처리 방법.