WO2018038379A1

WO2018038379A1 - 음성 인식을 위한 전자 장치 및 이의 제어 방법

Info

Publication number: WO2018038379A1
Application number: PCT/KR2017/006800
Authority: WO
Inventors: 송명석
Original assignee: 삼성전자 주식회사
Priority date: 2016-08-26
Filing date: 2017-06-28
Publication date: 2018-03-01
Also published as: EP3480818A1; EP3480818A4; US11087755B2; US20190221210A1; KR102515996B1; EP3480818B1; KR20180023702A

Abstract

전자 장치 및 이의 제어 방법이 제공된다. 전자 장치는 음성 신호가 포함된 오디오 신호를 수신하는 복수 개의 마이크로폰, 상기 전자 장치와의 연결 정보에 따른 상태 정보를 수신하는 통신부 및 상기 복수 개의 마이크로폰을 통해 수신된 상기 외부 장치가 출력하는 오디오의 크기 정보 및 상기 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 상기 전자 장치 주변의 잡음 환경을 판단하고, 상기 판단된 잡음 환경을 바탕으로 상기 음성 신호를 처리하여 음성 인식을 수행하는 프로세서를 포함한다.

Description

음성 인식을 위한 전자 장치 및 이의 제어 방법

본 개시는 복수 개의 마이크로폰을 포함하는 음성 인식을 위한 전자 장치 및 이의 제어 방법에 관한 것이다. 더욱 구체적으로, 본 개시는 전자 장치와 통신하는 컨텐츠 재생 장치를 원격 제어하는 전자 장치의 음성 인식 성능 개선을 제공하는 전자 장치 및 이의 제어 방법에 관한 것이다.

최근 사물 인터넷의 사용이 증가됨에 따라 음성 인식 기술을 통한 사용자 단말을 조작에 대한 활용이 확대되고 있다.

예를 들어, 복수 개의 마이크로폰으로 이루어지는 마이크로폰 어레이(microphone array) 및 음성 인식 기능을 탑재한 전자 장치가 사용자의 음성인식을 통해 별도의 비디오 및/또는 오디오 콘텐츠를 포함하는 컨텐츠 재생 장치들(예를 들어, 텔레비전, 디스크 플레이어, 미디어 파일 플레이어, 스마트 폰 등)을 원격 제어할 수 있다.

이때, 전자 장치의 음성신호 전처리 방법은 복수 개의 마이크로폰에 입력된 음성 신호에서 음원을 분리하여 잡음을 제거하고 목적 방향의 음성 신호를 추출한다.

일반적으로, 복수 개의 마이크로폰으로 이루어진 마이크로폰 어레이는 음원(sound source) 방향 또는 위치를 감지하여 노이즈 감소(noise reduction) 또는/및 에코 위치(echo-position)를 위한 빔포밍을 제공할 수 있다.

이때, 빔포밍을 제공하는 빔포머는 목적 방향에 대해 강화된 오디오 신호를 생성한다.

그러나, 복수 개의 마이크로폰으로 이루어진 마이크로폰 어레이를 이용하는 음성 인식 기술에서, 전자 장치는 오디오 신호가 입력 가능한 모든 방향에 대해 동등한 비율로 목적방향으로 판단한다.

음성 인식 기능을 탑재한 전자 장치가 컨텐츠 재생 장치들을 제어할 때, 컨텐츠 재생 장치들의 출력 사운드는 일반적인 배경 잡음보다 에너지 레벨이 높고 방향성이 강하다. 따라서, 전자 장치에서는 컨텐츠 재생 장치에서 출력하는 사운드에 의해 목적 방향의 사용자 음성 제거되어 음성 왜곡이 발생될 수 있다. 이로 인하여, 전자 장치는 사용자가 원하는 음성 인식 성능이 저하되는 문제가 가진다.

따라서, 전자 장치가 제어하는 컨텐츠 재생 장치의 상태 정보를 바탕으로 전자 장치의 음성인식 성능을 향상시킬 수 있는 음성 인식 전처리 방법이 필요하다.

본 개시의 목적은 상술한 문제점을 해결하기 위해 안출된 것으로, 콘텐츠 재생 장치인 외부 장치를 원격 제어하는 복수 개의 마이크로폰을 포함하고 음성 인식 기능을 탑재한 전자 장치에 있어서, 외부 장치의 상태 정보를 바탕으로 외부 장치의 잡음 환경에 의한 전자 장치에서의 음성 인식 저하를 개선하는 전자 장치 및 이의 제어 방법을 제공하는 데 있다.

본 개시의 일 실시 예에 따른, 전자 장치는, 음성 신호가 포함된 오디오 신호를 수신하는 본 개시의 일 실시 예에 따른, 전자 장치는, 음성 신호가 포함된 오디오 신호를 수신하는 복수 개의 마이크로폰, 상기 전자 장치와의 연결 정보에 따른 외부 장치의 상태 정보를 수신하는 통신부 및 상기 복수 개의 마이크로폰을 통해 수신된 상기 외부 장치가 출력하는 오디오의 크기 정보 및 상기 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 상기 전자 장치 주변의 잡음 환경을 판단하고, 상기 판단된 잡음 환경을 바탕으로 상기 음성 신호를 처리하여 음성 인식을 수행하는 프로세서를 포함한다.

한편, 본 개시의 일 실시 예에 따른, 전자 장치에서 음성 신호 처리를 위한 제어 방법은, 음성 신호가 포함된 오디오 신호를 복수 개의 마이크로폰으로부터 수신하는 단계, 외부 장치와의 연결 정보에 따른 상태 정보를 수신하는 단계, 상기 수신하는 단계에서 수신된 외부 장치가 출력하는 오디오의 크기 정보 및 상기 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 상기 전자 장치 주변의 잡음 환경을 판단하는 단계, 상기 판단된 잡음 환경을 바탕으로 상기 음성 신호를 처리하는 단계, 및 상기 처리된 음성신호를 바탕으로 음성 인식을 수행하는 단계를 포함한다.

상술한 실시 예들을 바탕으로, 본 개시에 따른 전자 장치 및 이의 제어 방법은, 전자 장치와 통신하고 콘텐츠(비디오 및/또는 오디오)를 재생하는 외부 장치의 상태 정보를 바탕으로 전자 장치 주변의 잡음 환경을 판단하여 주변 잡음에 의한 음성 인식 저하를 개선시킬 수 있다.

본 개시의 실시 예들에 따른, 전자 장치는 외부 장치의 연결 여부 또는 외부 장치의 오디오 출력 재생 여부 등의 상태 정보에 따라 음성 인식 구간 및 음성 신호 입력 방향 등을 상이하게 설정함으로써 외부 장치의 상태정보에 의한 음성 인식 성능 저하를 방지할 수 있다.

본 개시의 실시 예들에 따른, 전자 장치는 사용자의 음성이 발화된 방향에 목적 방향을 고정하여 고정된 방향에 대해 음성신호를 증폭시키고, 컨텐츠 재생 장치로부터 입력된 출력 사운드를 노이즈로 제거하여 음성 인식 성능을 향상시킬 수 있다.

도 1은, 도 1은, 본 개시의 일 실시 예에 따른, 전자 장치의 음성인식 환경을 설명하기 위한 도면이다.

도 2는, 본 개시의 일 실시 예에 따른, 전자 장치를 구성하는 간단한 블록도이다.

도 3은, 본 개시의 일 실시 예에 따른, 프로세서를 구성하는 세부 모듈을 도시한 상세한 블록도이다.

도 4는, 본 개시의 일 실시 예에 따른, 음성 인식을 위한 신호 처리 방법을 설명하기 위한 순서도이다.

도 5는, 본 개시의 일 실시 예에 따른, 외부 장치의 상태 정보에 따른 잡음 환경 모드를 설명하기 위한 순서도이다.

도 6은, 본 개시의 일 실시 예에 따른, 외부 장치의 상태 정보에 따른 오디오 신호 전처리 방법을 설명하기 위한 순서도이다.

도 7a 및 도 7b는, 본 개시의 일 실시 예에 따른, 음성 구간 검출 방법을 설명하기 위한 순서도이다.

도 8a 및 도 8b는, 본 개시의 일 실시 예에 따른, 오디오 신호 입력 방향 판단 방법을 설명하기 위한 순서도이다.

도 9는, 본 개시의 일 실시 예에 따른, 잡음 개선 결과를 도시한 도면이다.

도 10은, 본 개시의 일 실시 예에 따른, 전자장치를 구성하는 상세한 블록도이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.　

본 개시에서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.　 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

도 1은, 본 개시의 일 실시 예에 따른, 전자 장치의 음성인식 환경을 설명하기 위한 도면이다.

도 1을 참조하면, 음성인식 환경(10)은 음성인식 장치인 전자 장치(100), 전자 장치(100)와 통신하는 외부 장치들(200-1, 200-2, 200-3)로 구성될 수 있다. 본 개시의 일 실시 예에 따라, 전자 장치(100)는 복수 개의 마이크로폰으로 이루어진 마이크로폰 어레이를 포함하는 음성 인식 장치일 수 있다. 여기서, 복수 개의 마이크로폰은 다중 마이크로폰(multiple microphones)과 동일한 의미이다. 전자 장치(100)는 사용자의 음성뿐 아니라 복수 개의 음원 신호들을 수신할 수 있다.

전자 장치(100)는 수신되는 복수 개의 음원 신호들 중 사용자(300)의 음성을 인식하여 외부 장치들(200-1, 200-2, 200-3)을 원격 제어할 수 있다. 예를 들어, 외부 장치들(200-1, 200-2, 200-3)은 오디오 및/또는 비디오 등을 포함하는 콘텐츠를 출력할 수 있는 영상 재생 장치일 수 있다. 예를 들어, 외부 장치들(200-1, 200-2, 200-3)은 알람 장치(200-1), 텔레비전(200-2), 또는 블루투스 스피커(200-3) 등일 수 있으나 이에 한정되지 않는다. 전자 장치(100)는 사용자가 휴대 가능할 수 있다.

도 2는, 본 개시의 일 실시 예에 따른, 전자 장치를 구성하는 간단한 블록도이다. 전자 장치(100)는 마이크로폰(110), 통신부(120), 메모리(130) 및 프로세서(140)를 포함한다.

마이크로폰(110)은 사용자의 음성 신호를 포함한 복수 개의 음원 (sound source)으로부터 오디오 신호를 수신 받을 수 있다. 오디오 신호에는 음성 신호가 포함될 수 있다. 예를 들어, 마이크로폰(110)은 도 1에 도시된 사용자(300)로부터 외부 장치를 원격 제어하기 위한 음성 신호를 사용자 음성을 통해 수신할 수 있고, 외부 장치들(200-1, 200-2, 200-3)가 출력하는 음원으로부터 오디오 신호를 수신할 수 있다.

본 개시의 일 실시 예에 따라, 마이크로폰(110)은 복수 개(예를 들어, 4개)의 마이크로폰으로 이루어진 마이크로폰 어레이 구성을 가질 수 있다. 본 개시에서는 4개의 마이크로폰을 포함하는 마이크로폰 어레이를 도시하였으나, 마이크로폰의 개수는 이에 한정되지 않는다.

복수 개의 마이크로폰으로 이루어진 마이크로폰 어레이는 각 마이크로폰 별 오디오 입력 신호의 이득 및 지연 정보를 이용하여 음원의 입력 방향 및 거리를 추정할 수 있다. 본 개시의 일 실시 예에 따라, 마이크로폰 어레이는 지향성 또는 무지향성 마이크로폰(directional or omnidirectional microphones)으로 이루어질 수 있고, 지향성 마이크로폰(directional microphones) 및 무지향성 마이크로폰(omnidirectional microphones)이 믹스된 구성일 수 있다.

통신부(120)는 도 1에 무선 또는 유선 통신을 통해서 네트워크에 연결되어 외부 장치들(200-1, 200-2, 200-3)과 통신을 수행할 수 있다. 통신부(120)는 전자 장치(100)와 연결 정보에 따른 외부 장치의 상태 정보를 수신할 수 있다.

무선 통신은 Wifi(wireless fidelity), BT(Bluetooth), NFC(near field communication), GPS(global positioning system) 또는 cellular 통신(예: LTE, LTE-A, CDMA, WCDMA, UMTS, Wibro 또는 GSM 등) 중 적어도 하나를 포함할 수 있다. 유선 통신은 USB(universal serial bus), HDMI(high definition multimedia interface), RS-232(recommended standard 232) 또는 POTS(plain old telephone service) 중 적어도 하나를 포함할 수 있다.

외부 장치의 상태 정보는, 외부 장치 및 전자 장치(100)의 연결 여부, 외부 장치가 출력하는 영상 콘텐츠로부터 오디오 크기 정보, 외부 장치의 종류, 외부 장치의 위치, 외부 장치의 각도, 외부 장치로부터 전자 장치(100)까지 거리, 외부 장치의 영상 콘텐츠 출력을 위한 스피커의 주파수 특성 중 적어도 하나일 수 있다. 여기서, 영상 콘텐츠는 비디오 및/또는 오디오를 포함할 수 있다.

외부 장치 및 전자 장치(100)의 연결 여부는 외부 장치가 전자 장치(100)와 유선 또는 무선 통신을 통해 연결되어 있지는, 연결되어 있지 않은 지를 나타낼 수 있다.

외부 장치가 출력하는 오디오 크기 정보는 전자 장치(100)에서 인식하는 사용자의 음성 신호의 에너지 크기를 바탕으로 외부 장치가 출력하는 오디오 크기가 잡음으로 인식될 수 있는 지 판단되는 오디오 크기 정보를 나타낼 수 있다.

도 1에서 상술한 바와 같이, 외부 장치의 종류는 영상 콘텐츠를 출력할 수 있는 외부 장치들일 수 있다. 예를 들어, 외부 장치가 텔레비전인 경우, 외부 장치의 종류는 영상기기이고, 텔레비전의 출력 데이터 정보는 텔레비전의 모델 명, 텔레비전의 출력 콘텐츠의 오디오 특성, 텔레비전의 출력 콘텐츠 중 출력 오디오의 주파수 특성 등을 포함할 수 있으나 이에 한정되지 않는다.

외부 장치의 각도는 전자 장치(100)를 기준으로 외부 장치의 출력 스피커와 전자 장치(100)의 마이크로폰(110)의 상대적 각도를 나타낼 수 있다. 예를 들어, 복수 개의 마이크로폰의 각 마이크로폰에 입력되는 신호간 지연 시간을 이용하여 전자 장치(100)로부터 외부 장치로의 각도를 예측(판단)할 수 있다. 그리고 전자 장치(100)는 예측한 각도로부터 외부 장치와 전자 장치(100)와의 상대적 위치 정보를 판단할 수 있다

외부 장치의 오디오 출력을 위한 스피커의 주파수 특성은 스피커의 특성을 나타내는 기본적인 특성으로 재생 대역, 음역 에너지의 밸런스, 대략적인 음질을 예측하는데 필요한 데이터일 수 있으나 이에 한정되지 않는다.

메모리(130)는 외부 장치의 상태 정보를 저장할 수 있다. 메모리(130)는 외부 장치의 종류에 따라 각각 상이한 출력 오디오 크기 등을 데이터로 저장할 수 있다.

외부 장치의 위치는 전자 장치(100)의 위치를 기준으로 외부 장치의 상대적 위치를 나타낼 수 있다. 예를 들어, 외부 장치의 위치는 음원의 위치 정보를 통해 판단할 수 있다. 음원의 위치 정보란 마이크로폰(110)을 기준점으로 외부 장치로부터 방사되는 음원이 위치한 방향을 의미할 수 있다.

즉, 복수 개의 마이크로폰의 배열의 방향에 따라 음원으로부터 각 마이크로폰에 도달하는 음원의 방향은 각각 다를 수 있다. 따라서, 복수 개의 마이크로폰의 배열의 중심을 기준점으로 하여 외부 장치의 위치 정보를 판단할 수 있다.메모리(130)는 도 3에 도시된 외부 장치의 상태 정보를 판단하는 모드 판단 모듈(310), 음성 신호를 전처리하는 음성 검출 모듈(320), 각도 추정 모듈(330), 빔포머 모듈(340), 그리고 전처리된 음성 신호를 음성 인식하여 음성인식 결과를 출력하는 음성 인식 모듈(350) 등의 프로그램 모듈을 저장할 수 있으나 이에 한정되지 않는다.

메모리(130)는 내장 메모리 또는 외장 메모리를 포함할 수 있다. 내장 메모리는, 휘발성 메모리 또는 비휘발성 메모리(non-volatile Memory) 중 적어도 하나를 포함할 수 있다. 휘발성 메모리는 예를 들어 DRAM(dynamic RAM), SRAM(static RAM), SDRAM(synchronous dynamic RAM) 등일 수 있다. 비휘발성 메모리는 예를 들어 OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, NAN flash memory, NOR flash memory 등일 수 있다. 또한, 내장 메모리는 Solid State Drive(SSD)일 수 있다.

외장 메모리는 flash drive, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital) 또는 Memory Stick 등을 포함할 수 있다. 외장 메모리는 다양한 인터페이스를 통하여 전자 장치(100)와 기능적으로 연결될 수 있다. 또한, 전자 장치(100)는 하드 드라이브와 같은 저장 장치를 더 포함할 수 있다.

프로세서(140)는 마이크로폰(110)을 통해 수신된 외부 장치가 출력하는 오디오 크기 정보 및 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 전자 장치(100) 주변의 잡음환경을 판단할 수 있다. 프로세서(140)는 판단된 잡음 환경을 바탕으로 음성 신호를 처리하여 음성인식을 수행할 수 있다.

프로세서(140)는 메모리에 저장된 프로그램 모듈 및 전자 장치(100)의 전반적인 동작을 제어하며, 프로세서(140)의 상세한 설명은 도 3에서 후술한다.

도 3을 참조하면, 프로세서(140)는 도 2에서 설명한 바와 같이 메모리(130)에 저장된 모드 판단 모듈(310), 음성 검출 모듈(320), 각도 추정 모듈(330), 빔포머 모듈(340), 및 음성인식모듈(350)을 처리할 수 있다.

일반적으로 복수 개의 마이크로폰을 포함하는 음성인식 장치는 음성 신호의 전처리부인 음성 검출 모듈(320), 각도 추정 모듈(330), 빔포머 모듈(340)과 전처리된 음성 신호를 인식하는 음성인식부인 음성인식 모듈(350)을 포함한다.

또한, 일반적으로 복수 개의 마이크로폰을 포함하는 음성인식 장치에서 전처리부는 오디오 신호로부터 잡음이 제거된 오디오 신호와 음원(음성 신호)의 방향, 음원(음성 신호)의 검출 결과(BOS: begin of speech, EOS: end of speech) 등을 생성하여 음성인식 모듈(350)로 전송할 수 있다.

즉, 복수 개의 마이크로폰을 포함하는 일반적인 음성인식 장치는 본 개시의 모드 판단 모듈(310)을 포함하지 않는다.

본 개시의 일 실시 예에 따른, 모드 판단 모듈(310)은, 외부 장치의 상태 정보를 바탕으로 외부 장치가 출력하는 오디오의 크기가 기정의된 값 이상인 경우, 전자 장치(100) 주변의 잡음 환경을 제1 모드로 판단할 수 있다. 또한, 모드 판단 모듈(310)은, 외부 장치의 상태 정보를 바탕으로 외부 장치가 출력하는 오디오의 크기가 기정의된 값 미만이거나, 외부 장치가 전자 장치(100)에 연결되지 않은 상태인 경우, 전자 장치(100) 주변의 잡음 환경은 제2 모드로 판단할 수 있다.

예를 들어, 외부 장치가 오디오 출력을 재생하고 있거나, 외부 장치가 재생 중인 출력 오디오의 크기가 사용자의 음성 신호 에너지보다 높은 값을 가질 경우, 모드 판단 모듈(310)은 전자 장치(100)의 주변 잡음 환경이 잡음 모드인 제1 모드로 판단할 수 있다. 이때, 사용자의 음성 신호 에너지 크기에 따른 외부 장치의 출력 오디오의 상대적 크기는 전자 장치(100)의 메모리에 기저장될 수 있다.

예를 들어, 사용자의 음성 신호 에너지 크기를 가장 낮은 음성 크기부터 가장 높은 음성 크기 순서대로 1부터 10으로 설정될 때, 모드 판단 모듈(310)은 외부 장치의 출력 오디오 크기가 음성 크기인 5 이상인 경우, 전자 장치(100) 주변의 잡음 환경은 잡음 모드인 제1 모드로 판단할 수 있다.

한편, 모드 판단 모듈(310)은 전자 장치(100)에 외부 장치가 연결되지 않았거나, 외부 장치의 출력 오디오의 크기가 음성 크기인 5 미만인 경우, 전자 장치(100)의 주변 잡음 환경은 유휴(idle) 모드인 제2 모드로 판단할 수 있다. 상술한 예들은 본 개시를 설명하기 위한 일 실시 예일 뿐, 이에 한정되지 않는다.

모드 판단 모듈(310)은 외부 장치가 최초로 전자 장치(100)에 연결된 시점에 외부 장치의 초기화된 상태 정보를 메모리(130)에 저장할 수 있다. 또한, 프로세서(140)는 외부 장치가 전자 장치(100)에 연결될 때마다 기저장된 외부 장치의 상태 정보를 바탕으로 전자 장치 주변의 잡음 환경을 업데이트하여 판단할 수 있다.

예를 들어, 모드 판단 모듈(310)은 외부 장치가 전자 장치(100)에 연결되는 순간 외부 장치의 상태 정보를 자동으로 감지할 수 있다. 모드 판단 모듈(310)은 외부 장치들이 전자 장치(100)에 최초 연결되는 시점에 초기화(initializing) 과정을 거쳐 각 외부 장치의 상태 정보를 측정하고 저장할 수 있다. 모드 판단 모듈(310)은 저장된 외부 장치의 상태 정보에 해당하는 외부 장치가 전자 장치(100)에 연결된 경우, 기 저장된 외부 장치의 상태 정보를 바탕으로 전자 장치(100)의 주변 잡음 환경(예: 잡음 모드인 제1 모드, 유휴 모드인 제2 모드)을 판단할 수 있다.

이때, 상태 정보를 저장하기 위한 초기화 방법은 측정용 신호(예: 스윕, 백색 잡음 등)를 외부 장치를 통해 출력하고, 전자 장치(100)의 마이크로폰으로 유입되는 신호를 분석하는 방법일 수 있다.

예를 들어, 외부 장치의 상태 정보로서, 모드 판단 모듈(310)은 외부 장치의 출력 신호와 전자 장치(100)의 마이크로폰 입력 신호의 시차 및 음원 감쇄 정도를 바탕으로 해당 외부 장치까지의 거리를 예측할 수 있다.

또한, 모드 판단 모듈(310)은 복수 개의 마이크로폰의 각 마이크로폰에 입력되는 신호간 지연 시간을 이용하여 전자 장치(100)로부터 외부 장치로의 각도를 예측(판단)할 수 있다. 그리고 모드 판단 모듈(310)은 예측한 각도 및 거리로부터 외부 장치와 전자 장치(100)와의 상대적 위치 정보를 판단할 수 있다.

또한, 모드 판단 모듈(310)은 측정용 신호와 전자 장치(100)의 마이크로폰에 입력된 신호를 비교하여 외부 장치의 스피커 출력 특성을 예측(판단)할 수 있다. 이때, 모드 판단 모듈(310)은 전자 장치(100)의 마이크로폰 주파수 특성은 미리 측정하여 메모리(130)에 저장할 수 있다.

음성 검출 모듈(320)은, 모드 판단 모듈(310)에 의해 판단된 모드에 따라, 오디오 신호로부터 연속되는 복수의 프레임들로 구성된 음성 신호 구간을 검출할 수 있다.

본 개시의 일 실시 예에 따라, 전자 장치(100)는 복수 개의 마이크로폰으로부터 오디오 신호를 수신할 수 있다. 각도 추정 모듈(330)은, 모드 판단 모듈(310)에 의해 판단된 모드에 따라, 음성 검출 모듈(320)에서 검출된 음성 구간을 바탕으로 복수 개의 마이크로폰 각각에서의 오디오 신호의 입력 방향을 판단할 수 있다.

빔포머 모듈(340)은, 모드 판단 모듈(310)에 의해 판단된 모드에 따라, 각도 추정 모듈(330)에서 판단된 오디오 신호의 입력 방향을 바탕으로 빔포밍을 수행하여 음성 신호를 처리할 수 있다. 프로세서(140)의 음성 인식 모듈(350)은 전처리된 오디오 신호를 디코딩하여 음성 인식 결과를 생성할 수 있다.

일반적으로, 음성 검출 모듈(320)은 오디오 신호로부터 잡음 구간(프레임)과 음성 구간(프레임)을 포함하는 이어지는 복수의 프레임을 검출할 수 있다. 음성 검출 모듈(320)은 음성 인식 기술에서 마이크로폰에 입력된 오디오 신호로부터 음성을 분리하는 다양한 알고리즘을 이용하여 음성 구간과 잡음 구간을 검출할 수 있다. 음성 검출 모듈(320)에서 생성된 음성 구간 정보는 각도 추정 모듈(330) 및 빔포머 모듈(340)로 입력될 수 있다.

일반적으로, 음성 검출 모듈(320)은 검출 결과의 안정성을 높이기 위해 행오버(hang-over) 구간을 지정한다. 행오버(hang-over)란 복수의 프레임에서 음성이 검출된 프레임 이후의 프레임에 대해서도 음성으로 판정하는 최소한의 기간을 의미한다. 예를 들어, 행오버 길이를 무한대로 설정한 경우, 한 번 음성으로 판정된 프레임 이후의 모든 프레임은 모두 음성으로 검출될 수 있다. 반면, 행오버 길이가 최소라면, 모든 프레임에 대해 독립적으로 음성 여부를 판정하게 된다. 따라서, 행오버 길이의 설정은 음성 검출 모듈(320)에서 검출한 음성 인식 구간의 결과에 대한 신뢰도에 중요한 역할을 한다.

본 개시의 일 실시 예에 따른, 음성 검출 모듈(320)은 외부 장치의 상태 정보를 바탕으로 행오버 길이를 조정할 수 있다. 음성 검출 모듈(320)은 전자 장치(100)의 주변의 잡음 환경이 제1 모드(잡음 모드)일 때, 행오버(hang-over) 길이를 제1 길이로 설정하고, 전자 장치(100)의 주변의 잡음 환경이 제2 모드(Idle 모드)일 때, 행오버 길이를 제1 길이보다 긴 제2 길이로 설정하여 음성 구간을 검출할 수 있다.

예를 들어, 모드 판단 모듈(310)에서 전자 장치(100) 주변 잡음 환경이 제1 모드로 판단된 경우, 음성 검출 모듈(320)은 행오버 길이를 상대적으로 줄임으로써 음성 구간 검출의 잡음에 대한 강인성을 높일 수 있다. 전자 장치(100)의 주변 잡음 환경이 제1 모드인 경우, 외부 장치에 의한 출력 오디오 크기 등의 주변 환경의 잡음이 큰 상태일 수 있다.

반면, 모드 판단 모듈(310)에서 전자 장치(100) 주변 잡음 환경이 제2 모드로 판단된 경우, 음성 검출 모듈(320)은 행오버 길이를 상대적으로 늘림으로써 음성 검출 성능을 높일 수 있다. 전자 장치(100)의 주변 잡음 환경이 제2 모드인 경우, 외부 장치가 전자 장치(100)에 연결되지 않았거나, 연결되었더라도 외부 장치의 출력이 없거나 작은 출력만 재생하는 상태일 수 있다.

본 개시의 일 실시 예에 따른, 음성 검출 모듈(320)은, 모드 판단 모듈(310)의 판단 결과에 따라 복수 개의 프레임에서 음성 구간으로 판단하는 프레임의 가중치를 조절할 수 있다. 음성 검출 모듈(320)은 전자 장치(100) 주변의 잡음 환경이 제1 모드일 때, 오디오 신호로부터 음성 구간이 아닌 구간으로 판단되는 프레임에 가중치를 높게 하고, 전자 장치(100)의 주변의 잡음 환경이 제2 모드일 때, 오디오 신호로부터 음성 구간으로 판단되는 프레임에 가중치를 높게 하여 음성 구간을 검출할 수 있다.

예를 들어, 잡음 모드인 제1 모드인 경우, 음성 구간이 아닌 구간으로 판정될 가중치를 높게 설정하고, 유휴(Idle) 모드인 제2 모드인 경우, 음성 구간으로 판정될 가중치를 높게 설정하여 음성 구간을 검출할 수 있다.

또한, 잡음 모드인 제1 모드인 경우, 전자 장치(100)의 주파수 특성과 같은 추가 정보를 이용하여 가중치를 조절할 수도 있다. 예를 들어, 전자 장치(100)에 연결된 외부 장치의 주파수 대역이 저주파 대역에서 이득이 낮고 고주파 대역의 이득이 높은 경우, 외부 장치에서 오디오 출력이 재생 중일 때, 저주파 대역에 높은 가중치를 부여하여 음성 검출 성능을 높일 수 있다.

일반적인 각도 추정 모듈(330)은 복수의 프레임 별 각도 추정 모듈(330-1)와 정규화 모듈(330-2)로 구성된다. 프레임 별 각도 추정 모듈(330-1)은 오디오 신호로부터 목적 방향 각도 정보를 프레임 단위로 생성할 수 있다. 오디오 신호에 음성 신호만 존재할 경우, 프레임 별 각도 추정 모듈(330-1)은 분산이 작고 실제 목적 방향에 가깝게 분포하는 프레임 별 각도 정보를 생성할 수 있다. 반면, 오디오 신호에 잡음이 많은 경우, 프레임 별 각도 추정 모듈(330-1)은 전 방향에 고르게 흩어져 분포하는 프레임 별 각도 정보를 생성할 수 있다. 이때, 각도 추정 모듈(330)은 입력 가능한 모든 방향에 대해 동등한 비율로 정규화 모듈(330-2)이 동작하므로 잡음 입력 신호에 대해 민감하게 반응하여 추정된 각도 정보의 변화가 극심한 문제점이 있다.

본 개시의 일 실시 예에 따른 각도 추정 모듈(330)은, 모드 판단 모듈(310)로부터 판단된 결과를 바탕으로 오디오 신호가 입력 가능한 각도별 가중치를 고려하여 검색 범위(range)를 설정할 수 있다. 따라서, 각도 추정 모듈(330)은 오디오 신호의 입력 방향에 따른 상황 별로 가장 가능성이 높은 방향을 추정하여 정규화된 각도 정보를 생성할 수 있다.

본 개시의 일 실시 예에 따른 각도 추정 모듈(330)은, 전자 장치(100)의 주변의 잡음 환경이 제1 모드일 때, 오디오 신호의 입력 가능한 방향의 입력 각도 검색 범위를 검출된 음성 구간의 이전 프레임에서 생성된 각도 좌우 방향으로 제1 범위로 설정하고, 전자 장치(100)의 주변의 잡음 환경이 제2 모드일 때, 오디오 신호의 입력 가능한 방향의 입력 각도의 검색 범위를 검출된 음성 구간의 이전 프레임에서 생성된 각도 좌우 방향으로 제1 범위보다 넓은 제2 범위로 설정하여 오디오 신호의 입력 방향을 판단할 수 있다.

예를 들어, 각도 추정 모듈(330)은, 잡음 모드인 제1 모드인 경우, 이전 프레임에서 생성된 각도 좌우로 좁은 범위를 검색 범위로 설정할 수 있다. 또한, 제1 모드인 경우, 각도 추정 모듈(330)은 모드 판단 모듈(310)에서 판단한 결과와 함께 추가 정보를 이용하여 검색 범위(search range)를 조정할 수 있다.

예를 들어, 각도 추정 모듈(330)은 전자 장치(100)에 연결된 외부 장치의 위치 정보를 함께 수신한 경우, 외부 장치의 방향을 제외한 영역만을 검색 범위로 설정하여 잡음 대응력을 향상할 수 있다. 반면, 제2 모드인 경우, 각도 추정 모듈(330)은 이전 프레임에서 생성된 각도 좌우로 넓은 범위를 검색 범위로 설정할 수 있다.

또한, 본 개시의 일 실시 예에 따른 각도 추정 모듈(330)은, 모드 판단 모듈(310)에서 판단된 결과를 바탕으로, 음성의 입사 방향을 추적 또는 음성의 입사 방향을 고정하도록 설정할 수 있다. 각도 추정 모듈(330)은, 전자 장치(100)의 주변의 잡음 환경이 제1 모드일 때, 오디오 신호의 입력 방향을 추정하기 위한 목적 방향을 고정하여 검출된 음성 구간 이후에 수신된 프레임의 오디오 신호는 고정된 목적 방향에 대해 증폭되고, 전자 장치(100)의 주변의 잡음 환경이 제2 모드일 때, 오디오 신호의 입력 방향을 추정하기 위한 목적 방향을 전 방향으로 설정하여 모든 입력 각도 범위에서 오디오 신호의 입력 방향을 판단할 수 있다.

예를 들어, 제1 모드인 경우, 각도 추정 모듈(330)은, 음성 인식 모듈(350)의 트리거 인식 모듈(350-1)에 의해 사용자의 트리거 발화가 인식되었을 때의 오디오 신호의 추적 방향으로 각도 추정 모듈(330)의 목적 방향을 고정하고, 이후 이어지는 사용자 발화는 고정된 목적 방향에 대해 증폭되어 음성 인식 모듈(350)의 단어 및/또는 문장 인식 모듈(350-2)에 전달할 수 있다. 반면, 제2 모드인 경우, 각도 추정 모듈(330)은 전 방향의 모든 각도가 음성 입력 방향의 예측 각도 범위에 포함되도록 설정할 수 있다.

일반적으로, 빔포머 모듈(340)은 고정된 빔포머(fixed beamformer)(미도시), 블록 매트릭스(blocking matrix)(미도시), 멀티플 입력 캔슬러(multiple-input canceller)(미도시), 및 포스트 필터(post-filter)(미도시)를 포함한다. 이때, 고정된 빔포머는 오디오 신호와 오디오 신호의 입력 각도 정보를 입력 받아 해당 각도 방향에서 입력되는 신호를 증폭하여 목적 방향에 대해 증폭된 오디오 신호를 생성할 수 있다.

이때, 일반적인 각도 추정 모듈(330)은 입력 가능한 모든 방향에 대해 동등한 비율로 정규화되어 입력 각도를 추정하고, 빔포머 모듈(340)은 각도 추정 모듈(330)에서 생성된 각도 정보를 고정된 빔포머와 블록 매트릭스의 입력으로 이용한다. 따라서, 일반적인 빔포머 모듈(340)은 목적 방향의 음성이 제거되어 음성 왜곡이 일어날 수 있다.

본 개시의 일 실시 예에 따른, 빔포머 모듈(340)은 모드 판단 모듈(310)의 판단 결과에 따라 각도 추정 모듈(330)에서 목적 방향을 고정시키거나 전 방향으로 설정하여 생성된 음성의 입력 방향을 입력 받을 수 있다.

본 개시의 일 실시 예에 따른, 음성 인식 모듈(350)은 모드 판단 모듈(310)에서 판단된 외부 장치의 상태 정보를 바탕으로 전처리된 음성신호를 음성인식 처리하여 출력할 수 있다. 본 개시의 음성 인식 모듈(350)의 구성은 일반적인 음성 인식 모듈과 구성이 유사할 수 있으며, 전자 장치(100)의 메인 보드에 구현될 수 있다. 예를 들어, 음성 인식 모듈(350)는 트리거 인식 모듈(350-1)은 전자 장치(100)의 미들웨어(middleware, M/W)에서 구현 가능하며, 높은 계산량과 데이터량을 요구하는 단어 및/또는 문장 인식 모듈(350-2)은 서버에 구현될 수 있다.

S410 단계에서, 전자 장치(100)는 복수 개의 마이크로폰을 포함하는 마이크로폰 어레이를 통해 음성 신호를 포함하는 복수 개의 오디오 신호를 수신할 수 있다.

S420 단계에서, 전자 장치(100)는 전자 장치(100)에 유선 또는/및 무선으로 연결되어 네트워크 통신을 하는 외부 장치로부터 외부 장치의 상태 정보를 수신할 수 있다. S410 단계 및 S420 단계는 설명의 편의를 위해 도시된 순서일 뿐 이에 한정되지 않으며 순서가 변경될 수 있고, 전자 장치(100)는 오디오 신호 및 외부 장치의 상태 정보를 동시에 수신할 수도 있다. 외부 장치의 상태 정보는 도 2 및 도 3에 상세히 설명하였으므로 여기에서는 설명을 생략한다.

S430 단계에서, 전자 장치(100)는 외부 장치의 상태 정보를 바탕으로 전자 장치(100) 주변의 잡음 환경을 판단할 수 있다. 전자 장치(100) 주변의 잡음 환경 판단은 도 3의 모드 판단 모듈(310)에서 상술하였으므로 여기에서는 설명을 생략한다.

S440 단계에서, 전자 장치(100)는 외부 장치의 상태 정보에 따른 전자 장치(100) 주변의 잡음 환경을 바탕으로 오디오 신호 처리인 전처리를 수행할 수 있다. 일반적으로, 도 3에서 상술한 음성 검출 모듈(320), 각도 추정 모듈(330), 및 빔포머 모듈(340)로 구성된 전처리부는 동작이 비교적 단순하고 빠른 처리 속도를 필요하기 때문에 독립적인 DSP(digital signal processor)로 구현될 수 있다. 본 개시의 일 실시 예에 따른, 오디오 신호의 전처리 과정은 도 3의 음성 검출 모듈(320), 각도 추정 모듈(330) 및 빔포머 모듈(340)를 통해 상세히 설명하였으므로 여기에서는 설명을 생략한다.

S450 단계에서, 전자 장치(100)는 전처리된 음성 신호를 바탕으로 음성 인식을 수행하여 음성인식 결과를 출력할 수 있다.

S510 단계에서, 전자 장치(100)는 외부 장치와 연결 여부를 판단할 수 있다. 전자 장치(100)는 외부 장치와의 연결 여부를 유선 및/또는 무선의 네트워크 통신을 통해 판단할 수 있다. 외부 장치가 전자 장치(100)에 최초로 연결이 된 경우, 전자 장치(100)는 외부 장치가 전자 장치(100)에 연결되는 시점에 외부 장치의 초기화된 상태정보를 수신하여 도 2의 메모리(130)에 저장할 수 있다.

S520 단계에서, 전자 장치(100)는 외부 장치의 출력 오디오를 판단할 수 있다. 전자 장치(100)는 외부 장치의 출력 오디오 크기, 외부 장치의 스피커 주파수 특성, 외부 장치의 종류, 외부 장치의 위치 등 외부 장치의 상태 정보를 판단할 수 있다. 외부 장치의 상태 정보는 도 2 및 도 3에서 상술하였으므로 여기에서는 설명을 생략한다.

S530 단계에서, 전자 장치(100)는 외부 장치의 출력 오디오 크기 및 외부 장치의 상태 정보를 바탕으로 전자 장치(100) 주변의 잡음 환경(제1 모드, 제2 모드 등)을 판단할 수 있다. 본 개시의 실시 예들에 따른 모드 판단 방법은 도 3의 모드 판단 모듈(310)에서 상술하였으므로 여기에서는 설명을 생략한다. 또한, 본 개시에서는 잡음 모드인 제1 모드, 유휴(idle) 모드인 제2 모드에 대해서 예를 들어 설명하였으나, 이에 한정되지 않으며, 전자 장치(100)는 잡음 상태에 따라 다단계로 잡음 환경(제1 모드, 제2 모드, 제3 모드 등)을 판단을 할 수 있다.

S610 단계에서, 전자 장치(100)는 도 3의 모드 판단 모듈(310)에서 판단된 모드(제1 모드, 제2 모드)에 따라, 오디오 신호의 음성 구간을 상이한 방법으로 검출할 수 있다. 음성 신호를 포함하는 오디오 신호는 복수의 프레임들로 구성될 수 있다. 연속되는 프레임들 간에는 서로 중복되는 범위를 포함할 수 있다. 복수의 프레임들은 시간 순서대로 배열될 수 있다. 전자 장치(100)는 특정 프레임에 가중치를 부여할 수 있다. 오디오 신호에서 음성 구간을 검출하는 방법은 도 3의 음성 검출 모듈(320)을 참조한다.

S620 단계에서, 전자 장치(100)는 도 3의 모드 판단 모듈(310)에서 판단된 결과를 바탕으로 S610 단계에서 검출된 음성 구간에서 오디오 신호의 입력 방향을 판단할 수 있다. 오디오 신호의 입력 방향은 사용자의 음성 신호(음원)의 입력 방향일 수 있다. 음성 신호의 입력 방향을 판단하는 방법은 도 3의 각도 추정 모듈(330)을 참조한다.

S630 단계에서, 전자 장치(100)는 도 3의 모드 판단 모듈(310)에서 판단된 결과를 바탕으로 S620 단계에서 판단된 음성 신호의 입력 방향을 입력 받아 빔포밍을 수행하여 음성 신호를 전처리할 수 있다. 빔포밍 방법은 도 3의 빔포밍 모듈(340)을 참조한다.

도 7a 및 도 7b는, 본 개시의 일 실시 예에 따른, 음성 구간 검출 방법을 설명하기 위한 순서도이다. 설명의 중복을 피하기 위해 도 7a 및 도 7b에서 동일한 방법을 수행하는 단계에 대해서는 동일한 참조 번호를 기입하였다.

S710 단계에서, 전자 장치(100)는 외부 장치의 연결 여부 및 외부 장치의 출력 오디오 크기 등의 상태 정보에 따라 전자 장치(100) 주변의 잡음 환경을 판단할 수 있다. 예를 들어, 외부 장치가 전자 장치(100)에 연결되어 통신하고 있고, 외부 장치가 오디오 출력을 재생 중인 경우, 전자 장치(100)는 외부 장치의 오디오 크기에 따라 전자 장치(100) 주변의 잡음 환경을 판단할 수 있다.

예를 들어, 외부 장치의 출력 오디오 크기가 전자 장치(100)에 기저장된 잡음 모드로 인식되는 오디오 크기 이상인 경우, 전자 장치(100)는 전자 장치(100) 주변의 잡음 환경을 잡음 모드인 제1 모드로 판단할 수 있다.

반면, 외부 장치의 출력 오디오 크기가 전자 장치(100)에 기저장된 잡음 모드로 인식되는 오디오 크기 미만인 경우, 전자 장치(100)는 전자 장치(100) 주변의 잡음 환경을 유휴(Idle) 모드인 제2 모드로 판단할 수 있다. 또한, 외부 장치가 전자 장치(100)에 연결되지 않은 상태인 경우, 전자 장치(100)는 전자 장치(100)의 주변 잡음 환경을 제2 모드로 판단할 수 있다.

S720 단계에서, 전자 장치(100)는 판단된 주변 잡음 환경(제1 모드, 제2 모드)에 따라 상이한 방법으로 오디오 신호로부터 복수의 프레임을 검출할 수 있다.

도 7a의 S730 단계에서, 전자 장치(100)는 S710 단계에서 판단된 모드에 따라 행오버 길이를 상이하게 설정할 수 있다.

판단된 모드가 제1 모드인 경우, 전자 장치(100)는 복수의 프레임에서 음성이 검출된 프레임 이후의 프레임에 대해서도 음성으로 판정하는 최소한의 기간인 행오버 길이를 상대적으로 줄일 수 있다. 따라서, 전자 장치(100)는 음성으로 판정된 이후의 모든 프레임들에 대해 독립적으로 음성 여부를 판정할 수 있다. 반면, 판단된 모드가 제2 모드인 경우, 전자 장치(100)는 행오버 길이를 상대적으로 늘릴 수 있다. 따라서, 전자 장치(100)는 음성으로 판정된 프레임 이후의 프레임 중 상대적으로 긴 구간의 프레임들을 음성으로 검출할 수 있다.

도 7b의 S735 단계에서, 전자 장치(100)는 S710 단계에서 판단된 모드에 따라 복수의 프레임 중 각 프레임에 가중치를 상이하게 적용할 수 있다.

판단된 모드가 제1 모드인 경우, 전자 장치(100)는 복수의 프레임에서 음성 구간이 아닌 구간(프레임)에 가중치를 높게 적용하여 오디오 신호에서 잡음 구간을 검출하여 제거할 수 있다. 반면, 판단된 모드가 제2 모드인 경우, 전자 장치(100)는 복수의 프레임에서 음성으로 판단된 구간에 가중치를 높게 적용하여 오디오 신호에서 음성 구간을 정확히 검출할 수 있다.

S740 단계에서, 전자 장치(100)는 S730 단계 및 S735 단계 중 적어도 하나를 바탕으로 오디오 신호로부터 복수의 프레임으로 이루어진 음성 구간을 검출할 수 있다.

도 8a 및 도 8b는, 본 개시의 일 실시 예에 따른, 오디오 신호 입력 방향 판단 방법을 설명하기 위한 순서도이다. 설명의 중복을 피하기 위해 도 8a 및 도 8b에서 동일한 방법을 수행하는 단계에 대해서는 동일한 참조 번호를 기입하였다.

도 8a 및 도 8b의 S810 단계 및 S820 단계는 도 7a 및 도 7b의 S710 단계 및 S720 단계와 동일하므로 여기에서는 설명을 생략한다.

도 8a의 S830 단계에서, 전자 장치(100)는 전자 장치(100) 주변의 잡음 환경(제1 모드, 제2 모드)에 따라 음성 구간 이전 프레임의 오디오 신호 입력의 각도 범위를 상이하게 설정할 수 있다.

예를 들어, 잡음 모드인 제1 모드인 경우, 전자 장치(100)는 오디오 신호의 입력 가능한 방향의 입력 각도 검색 범위를 검출된 음성 구간의 이전 프레임에서 생성된 각도 좌우 방향으로 좁게 설정할 수 있다. 반면, 유휴(idle) 모드인 제2 모드인 경우, 전자 장치(100)는 이전 프레임에서 생성된 각도 좌우로 넓은 범위를 검색 범위로 설정할 수 있다.

도 8b의 S835 단계에서, 전자 장치(100)는 전자 장치(100) 주변의 잡음 환경(제1 모드, 제2 모드)에 따라 음성 신호의 입사 방향인 목적 방향을 상이하게 설정할 수 있다.

예를 들어, 잡음 모드인 제1 모드인 경우, 전자 장치(100)는 오디오 신호의 입력 방향을 추정하기 위한 목적 방향을 고정하여, 도 7a 및 도 7b의 S740 단계에서 검출된 음성 구간 이후에 수신된 프레임의 오디오 신호를 고정된 목적 방향에 대해 증폭되도록 할 수 있다. 반면, 유휴(idle) 모드인 제2 모드인 경우, 전자 장치(100)는 오디오 신호의 입력 방향을 추정하기 위한 목적 방향을 고정하지 않고 전 방향으로 설정할 수 있다.

S840 단계에서, 전자 장치(100)는 S830 단계 및 S835 단계 중 적어도 하나를 바탕으로 오디오 신호로부터 음성 신호(음원)의 입력 방향을 판단할 수 있다.

도 9는, 본 개시의 일 실시 예에 따른, 잡음 개선 결과를 도시한 도면이다. 구체적으로, 도 9는 사용자는 전자 장치(100)의 0도의 위치에 있고, 외부 장치는 전자 장치(100)의 90도의 위치에 있을 때의 실험 결과를 도시한 그래프이다.

도 9를 참조하면, 입력 신호(910)는 외부 장치의 출력 오디오 신호(940)와 음성 신호가 함께 포함될 수 있다.

예를 들어, 전자 장치(100)에 음성 명령을 하는 사용자는 전자 장치(100)로부터 1미터(m) 거리에 위치할 수 있다. 또한, 컨텐츠 재생 장치인 외부 장치는 전자 장치(100)로부터 3미터(m) 거리에 위치할 수 있다. 전자 장치(100)는 복수의 마이크로폰을 통해 사용자와 외부 장치로부터 동시에 오디오 신호가 입력 받을 수 있다.

종래의 음성 인식 장치의 전처리 방법(920)에 따르면, 오디오 신호의 전처리 과정 이후에도 외부 장치의 출력 오디오 신호(940)가 잡음으로 포함되어 있다. 즉, 사용자의 음성 신호는 보존되거나 증폭되었으나, 외부 장치의 출력 오디오 신호(940)는 손상되거나 상당 부분 제거된 것을 알 수 있다. 종래의 음성 인식 전처리 방법을 이용한 경우, 전자 장치(100)가 사용자의 방향(0도)와 외부 장치의 방향(90도)을 반복적으로 오가며 목적 방향을 예측할 수 있다. 따라서, 빔포머의 필터 적응에 문제가 발생하여 외부 장치의 출력 오디오 신호(940)가 출력 신호에 포함되는 문제가 있다.

반면, 본 개시의 일 실시 예에 따른 전처리 방법(930)에 따르면, 오디오 신호의 전처리 과정 이후 외부 장치의 출력 오디오 신호(940)가 입력 신호(910) 및 종래의 전처리 과정(920)과 비교할 때 현저히 감소될 수 있다.

도 9를 참조하면, 종래의 음성인식 장치 전처리 방법(920)과 달리, 본 개시의 전처리 방법(930)은 사용자의 음성 신호는 보존 또는 증폭되고, 외부 장치의 오디오 출력 신호(940)는 모두 제거된 것을 확인할 수 있다. 본 개시의 일 실시 예에 따라, 전자 장치(100)는 목적 방향을 사용자의 위치(0도)에 고정하여 목적 방향 이외의 방향에 대한 유입 음원은 모두 차단할 수 있다. 즉, 전자 장치(100)는 사용자 위치(0도)의 목적 방향에서 유입되는 음성 신호를 증폭하여 음성인식 기능을 향상시킬 수 있다.따라서, 본 개시의 실시 예들에 따른, 전자 장치(100)의 오디오 신호 전처리 방법은, 전자 장치(100)에 연결된 외부 장치의 상태 정보를 바탕으로 판단된 전자 장치(100) 주변의 잡음 환경을 이용하여 잡음에 대한 강인성을 높여 음성 인식성능을 향상시킬 수 있다.

또한, 본 개시의 실시 예들에 따른, 전자 장치(100)는 음성 인식 기능을 탑재한 장치로서, 전자 장치(100)가 영상(비디오 및/또는 오디오) 콘텐츠 재생을 지원하는 외부 장치를 원격 구동할 수 있다. 이때, 전자 장치(100)는 외부 장치의 연결 여부 또는 오디오 출력 재생 여부 등의 상태 정보에 따라 음성 인식 구간 및 음성 신호 입력 방향 등을 상이하게 검출함으로써 외부 장치의 오디오 출력에 의한 음성 인식 성능 저하를 방지할 수 있다.

도 10은, 본 개시의 일 실시 예에 따른, 전자 장치(100)를 구성하는 상세한 블록도이다.

도 10에 도시된 바와 같이, 전자 장치(100)는 센서(1010), 디스플레이(1020), 메모리(1030), 통신부(1040), 사용자 조작부(1050), 및 프로세서(1060)를 포함할 수 있다.

실시 예에 따라서는, 도 10에 도시된 구성 요소 중 일부는 생략 또는 변경될 수 있고, 다른 구성 요소가 더 추가될 수도 있다.

센서(1010)는 전자 장치(100)의 움직임을 감지할 수 있는 복수의 센서를 포함할 수 있다. 센서부(1010)는 모션센서, 자이로 센서(Gyroscope sensors), 가속도 센서(acceleration sensors), 바로미터(Barometer), 열감지 센서(thermal sensors), 습도 센서(humidity sensors), 초음파 센서 등 다양한 센서들을 포함할 수 있다. 상술한 예시들은 일 실시 예일 뿐, 이에 한정되지 아니한다.

디스플레이(1020)는 터치 디스플레이를 포함할 수 있다.　

메모리(1030)는 전자 장치(100)를 구동하기 위한 다양한 모듈을 저장한다. 메모리(1030)는 다양한 프로그램 모듈들을 포함할 수 있으나, 각종 프로그램 모듈들은 전자 장치(100)의 종류 및 특성에 따라 일부 생략되거나 변형 또는 추가될 수 있음은 물론이다. 메모리(1030)는 도 2에서 상술한 메모리(130)와 동일하므로 여기에서는 상세한 설명을 생략하기로 한다.

통신부(1040)는 다양한 유형의 통신방식에 따라 다양한 유형의 외부 기기와 통신을 수행하는 구성이다. 통신부(1040)는 와이파이 칩, 블루투스 칩(Bluetooth BLE 포함), NFC칩, 무선 통신 칩, IR 칩 등과 같은 다양한 통신 칩을 포함할 수 있다. 이때, 와이파이 칩, 블루투스 칩, NFC 칩, IR 칩은 각각 WiFi 방식, 블루투스 방식, NFC방식, IR 방식으로 통신을 수행한다. 이 중 NFC 칩은 135kHz, 13.56MHz, 433MHz, 860~960MHz, 2.45GHz 등과 같은 다양한 RF-ID 주파수 대역들 중에서 13.56MHz 대역을 사용하는 NFC(Near Field Communication) 방식으로 동작하는 칩을 의미한다. 와이파이 칩이나 블루투스 칩을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다. 무선 통신 칩은 IEEE, 지그비, 3G(3rd Generation), 3GPP(3^rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 통신 규격에 따라 통신을 수행하는 칩을 의미한다.

사용자 조작부(1050)는 전자 장치(100)를 제어하기 위한 다양한 사용자 명령을 입력 받는다. 이때, 사용자 조작부(1050)는 사방향키를 구비하는 리모컨으로 구현될 수 있으나, 이는 일 실시예에 불과할 뿐, 모션 센서가 구비된 포인팅 디바이스, 키보드, 마우스, 카메라를 구비하는 모션 입력부, 마이크를 구비하는 음성 입력부, 터치 센서 등과 같은 다양한 입력 장치로 구현될 수 있다.

프로세서(1060)는 저장부(1030)에 저장된 각종 프로그램을 이용하여 전자 장치(100)의 전반적인 동작을 제어한다. 프로세서(1060)는 도 2 및 도 3에서 상술하였으므로 여기에서는 상세한 설명을 생략하기로 한다.

다양한 실시 예에 따른 장치 (예: 모듈들 또는 전자 장치(100)) 또는 방법 (예: 동작들)은, 예컨대, 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 유지되는(maintain) 프로그램들 중 적어도 하나의 프로그램에 포함된 명령어(instructions)를 실행하는 적어도 하나의 컴퓨터(예: 프로세서 1060)에 의하여 수행될 수 있다.

상기 명령어가 컴퓨터(예: 프로세서)에 의해 실행될 경우, 상기 적어도 하나의 컴퓨터는 상기 명령어에 해당하는 기능을 수행할 수 있다.　 이 때, 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리(1030)가 될 수 있다.　

프로그램은, 예로, 하드디스크, 플로피디스크, 마그네틱 매체 (magnetic media)(예: 자기테이프), 광기록 매체 (optical media)(예: CD-ROM (compact disc read only memory), DVD (digital versatile disc), 자기-광 매체 (magneto-optical media)(예: 플롭티컬 디스크 (floptical disk)), 하드웨어 장치 (예: ROM (read only memory), RAM (random access memory), 또는 플래시 메모리 등) 등과 같은 컴퓨터로 읽을 수 저장 매체에 포함될 수 있다.　 이 경우, 저장 매체는 일반적으로 전자 장치(100)의 구성의 일부로 포함되나, 전자 장치(100)의 포트(port)를 통하여 장착될 수도 있으며, 또는 전자 장치(100)의 외부에 위치한 외부 기기(예로, 클라우드, 서버 또는 다른 전자 기기)에 포함될 수도 있다.　 또한, 프로그램은 복수의 저장 매체에 나누어 저장될 수도 있으며, 이 때, 복수의 저장 매체의 적어도 일부는 전자 장치(100)의 외부 기기에 위치할 수도 있다.

또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims

전자 장치에 있어서,

음성 신호가 포함된 오디오 신호를 수신하는 복수 개의 마이크로폰;

상기 전자 장치와의 연결 정보에 따른 외부 장치의 상태 정보를 수신하는 통신부; 및

상기 복수 개의 마이크로폰을 통해 수신된 상기 외부 장치가 출력하는 오디오의 크기 정보 및 상기 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 상기 전자 장치 주변의 잡음 환경을 판단하고, 상기 판단된 잡음 환경을 바탕으로 상기 음성 신호를 처리하여 음성 인식을 수행하는 프로세서;를 포함하는 전자 장치.
제1항에 있어서

상기 프로세서는,

상기 상태 정보를 바탕으로 상기 외부 장치가 출력하는 오디오의 크기가 기정의된 값 이상인 경우, 상기 전자 장치 주변의 잡음 환경은 제1 모드로 판단하고, 상기 외부 장치가 출력하는 오디오의 크기가 상기 기정의된 값 미만이거나 상기 외부 장치가 연결되지 않은 상태인 경우, 상기 전자 장치 주변의 잡음 환경은 제2 모드로 판단하는 전자 장치.
제1항에 있어서,

메모리;를 더 포함하고,

상기 프로세서는,

상기 외부 장치가 최초로 연결된 시점에 외부장치의 초기화된 상태 정보를 상기 메모리에 저장하고,

상기 외부 장치가 상기 전자 장치에 연결될 때마다 기 저장된 상기 상태 정보를 바탕으로 상기 전자 장치 주변의 잡음 환경을 업데이트하여 판단하는 전자 장치.
제2항에 있어서,

상기 프로세서는,

상기 오디오 신호로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 연속되는 복수의 프레임들로 구성된 음성 신호 구간을 검출하고,

상기 검출된 음성 구간으로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 상기 오디오 신호의 입력 방향을 판단하며,

상기 오디오 신호의 입력 방향 정보로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 빔포밍을 수행하여 음성 신호를 처리하는 전자 장치.
제4항에 있어서,

상기 프로세서는,

상기 제1 모드일 때, 상기 검출된 음성 구간 이후 이어지는 프레임에 대해서도 음성으로 판단하는 행오버(hang-over) 길이를 제1 길이로 설정하고, 상기 제2 모드일 때, 상기 행오버 길이를 상기 제1 길이보다 긴 제2 길이로 설정하여 상기 음성 구간을 검출하는 전자 장치.
제4항에 있어서,

상기 프로세서는,

상기 제1 모드일 때, 상기 오디오 신호로부터 음성구간이 아닌 구간으로 판단되는 프레임에 가중치를 높게 하고, 상기 제2 모드일 때, 상기 오디오 신호로부터 음성 구간으로 판단되는 프레임에 가중치를 높게 하여 상기 음성 구간을 검출하는 전자 장치.
제4항에 있어서,

상기 프로세서는,

상기 제1 모드일 때, 상기 오디오 신호의 입력 가능한 방향의 입력 각도 검색 범위를 상기 검출된 음성 구간의 이전 프레임에서 생성된 각도 좌우 방향으로 제1 범위로 설정하고, 상기 제2 모드일 때, 상기 오디오 신호의 입력 가능한 방향의 상기 입력 각도의 검색 범위를 상기 검출된 음성 구간의 이전 프레임에서 생성된 각도 좌우 방향으로 상기 제1 범위보다 넓은 제2 범위로 설정하여 상기 오디오 신호의 입력 방향을 판단하는 전자 장치.
제4항에 있어서,

상기 프로세서는,

상기 제1 모드일 때, 상기 오디오 신호의 입력 방향을 추정하기 위한 목적 방향을 고정하여 상기 검출된 음성 구간 이후에 수신된 프레임의 오디오 신호는 상기 고정된 목적 방향에 대해 증폭되고, 상기 제2 모드일 때, 상기 오디오 신호의 입력 방향을 추정하기 위한 상기 목적 방향을 전 방향으로 설정하여 모든 입력 각도 범위에서 상기 오디오 신호의 입력 방향을 판단하는 전자 장치.
제1항에 있어서,

상기 외부 장치의 상태 정보는,

상기 외부 장치의 종류, 상기 외부 장치의 위치, 상기 외부 장치의 각도, 상기 외부 장치로부터 상기 전자 장치까지의 거리, 상기 외부 장치의 오디오 출력을 위한 스피커의 주파수 특성 중 적어도 하나를 포함하는 전자 장치.
전자 장치에서 음성 신호 처리 방법에 있어서,

음성 신호가 포함된 오디오 신호를 복수 개의 마이크로폰을 통해 수신하는 단계;

외부 장치와의 연결 정보에 따른 상태 정보를 수신하는 단계;

상기 수신하는 단계에서 수신된 상기 외부 장치가 출력하는 오디오의 크기 정보 및 상기 외부 장치의 상태 정보 중 적어도 하나를 바탕으로 상기 전자 장치 주변의 잡음 환경을 판단하는 단계;

상기 판단된 잡음 환경을 바탕으로 상기 음성 신호를 처리하는 단계; 및

상기 처리된 음성신호를 바탕으로 음성 인식을 수행하는 단계;를 포함하는 방법.
제10항에 있어서,

상기 잡음 환경을 판단하는 단계는,

상기 외부 장치가 출력하는 오디오의 크기가 기정의된 값 이상인 경우, 상기 전자 장치 주변의 잡음 환경은 제1 모드로 판단하고, 상기 외부 장치가 출력하는 오디오의 크기가 상기 기정의된 값 미만이거나 상기 상태 정보를 바탕으로 상기 외부 장치가 연결되지 않은 상태인 경우, 상기 전자 장치 주변의 잡음 환경은 제2 모드로 판단하는 단계;를 더 포함하는 방법.
제10항에 있어서,

상기 상태 정보를 수신하는 단계는,

상기 외부 장치가 최초로 연결된 시점에 외부장치의 초기화된 상태 정보를 저장하는 단계; 및

상기 외부 장치가 상기 전자 장치에 연결될 때마다 기저장된 상기 상태 정보를 바탕으로 상기 전자 장치 주변의 잡음 환경을 업데이트하여 판단하는 단계;를 더 포함하는 방법.
제11항에 있어서,

상기 음성 신호를 처리하는 단계는,

상기 오디오 신호로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 연속되는 복수의 프레임들로 구성된 음성 구간을 검출하는 단계;

상기 검출된 음성 구간으로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 상기 오디오 신호의 입력 방향을 판단하는 단계;

상기 오디오 신호의 입력 방향 정보로부터 상기 수신된 외부 장치의 상태 정보 및 상기 전자 장치 주변의 잡음 환경을 바탕으로 빔포밍을 수행하여 음성 신호를 처리하는 단계;를 더 포함하는 방법.
제13항에 있어서,

상기 음성 구간을 검출하는 단계는,

상기 제1 모드일 때, 상기 검출된 음성 구간 이후 이어지는 프레임에 대해서도 음성으로 판단하는 행오버(hang-over) 길이를 제1 길이로 설정하고, 상기 제2 모드일 때, 상기 행오버 길이를 상기 제1 길이보다 긴 제2 길이로 설정하여 상기 음성 구간을 검출하는 방법.
제13항에 있어서,

상기 음성 구간을 검출하는 단계는,

상기 제1 모드일 때, 상기 오디오 신호로부터 음성 구간이 아닌 구간으로 판단되는 구간에 가중치를 높게 하고, 상기 제2 모드일 때, 상기 오디오 신호로부터 음성 구간으로 판단되는 구간에 가중치를 높게 하여 상기 음성 구간을 검출하는 방법.