WO2016056683A1

WO2016056683A1 - 전자 장치 및 이의 잔향 제거 방법

Info

Publication number: WO2016056683A1
Application number: PCT/KR2014/009405
Authority: WO
Inventors: 간낫셰런; 에이.피. 하베츠에마누엘; 쉬바르츠오퍼; 조남국
Original assignee: 삼성전자 주식회사
Priority date: 2014-10-07
Filing date: 2014-10-07
Publication date: 2016-04-14
Also published as: KR20170063618A; US20170309294A1; US9997170B2

Abstract

전자 장치 및 이의 잔향 제거 방법이 제공된다. 본 전자 장치의 잔향 제거 방법은 사용자의 음성을 입력받는 복수의 마이크부, 상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부, 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부 및 잔향 성분에 대한 세기 정보를 바탕으로 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부를 포함한다.

Description

전자 장치 및 이의 잔향 제거 방법

본 발명은 전자 장치 및 이의 잔향 제거 방법에 관한 것으로, 더욱 상세하게는 복수의 마이크로부터 획득된 사용자 음성으로부터 잔향 성분을 제거하여 초기 성분을 획득할 수 있는 전자 장치 및 이의 잔향 제거 방법에 관한 것이다.

근래의 많은 전자 장치는 사용자 음성을 획득하여 원거리에서 통화를 수행할 수 있는 원거리 토킹 모드(Distant-talking mode)를 제공하고 있다. 특히, 특정 공간 내에서 원거리 토킹 모드를 이용하여 사용자 음성을 획득할 경우, 사용자 음성 및 다양한 노이즈가 공간의 벽면에 의해 반사되어 생성되는 잔향 성분으로 인해 사용자 음성을 원활히 획득할 수 없게 된다. 특히, 반사된 신호의 음질은 잔향 시간이 증가됨에 따라 급속도록 악화될 수 있다. 또한, 잔향 성분이 자동 음성 인식(automatic speech recognition, ASR) 시스템의 입력으로 이용되는 경우, 사용자 음성의 인식 성공률이 급격히 나빠지게 된다.

이러한 문제점을 극복하기 위하여, 근래의 전자 장치는 사용자 음성 중 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하기 위한 알고리즘을 이용하고 있다. 특히, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술이 제공되나, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술은 특정 조건에서 뛰어난 성능을 나타내게 된다. 그러나, 잔향 시간이 길거나 스피커와 마이크 사이의 거리가 먼 경우, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술은 잔향 성분을 효과적으로 제거하지 못하는 문제점이 발생한다.

본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 복수의 마이크를 이용하여 획득된 사용자 음성으로부터 잔향 성분을 제거할 수 있는 전자 장치 및 이의 잔향 제거 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치에 있어서, 사용자의 음성을 입력받는 복수의 마이크부; 상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부; 상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부; 및 상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부;를 포함한다.

그리고, 상기 잔향 제거부는, MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.

또한, 상기 MVDR 빔포머는, 범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현될 수 있다.

그리고, 상기 범용 사이드로브 제거기는, 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 차단 매트릭스(blocking matrix); 및 성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 적응적 노이즈 제거기(adaptive noise canceller);를 포함할 수 있다.

또한, 상기 고정형 빔포머는, DS(Delay and Sum) 빔포머일 수 있다.

그리고, 상기 복수의 마이크부로부터 초기 성분을 측정하는 초기 성분 측정부;를 더 포함하고, 상기 차단 매트릭스는, 상기 초기 성분 측정부로부터 출력되는 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)할 수 있다.

또한, 상기 잔향 제거부는, 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 및 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 BSS(Blind Source Separation) 기반의 차단 매트릭스;를 포함할 수 있다.

그리고, 상기 후처리부는, 상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거할 수 있다.

한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치의 잔향 제거 방법은, 복수의 마이크를 통해 사용자의 음성을 입력받는 단계; 상기 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 단계; 상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 단계; 및 상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 단계;를 포함한다.

그리고, 상기 사용자 음성의 초기 성분을 획득하는 단계는, MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.

그리고, 상기 사용자 음성의 초기 성분을 획득하는 단계는, 고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 차단 매트릭스(blocking matrix)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 ; 및 적응적 노이즈 제거기(adaptive noise canceller)를 이용하여성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 단계;를 포함할 수 있다.

그리고, 상기 복수의 마이크부로부터 초기 성분을 측정하는 단계;를 더 포함하고, 상기 차단 매트릭스는, 상기 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)할 수 있다.

또한, 상기 사용자 음성의 초기 성분을 획득하는 단계는, 고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 및 BSS(Blind Source Separation) 기반의 차단 매트릭스를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 단계;를 포함할 수 있다.

그리고, 상기 후처리 단계는, 상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거할 수 있다.

상술한 바와 같은 본 발명의 다양한 실시예와 같이 복수의 마이크로부터 획득된 사용자 음성으로부터 잔향 성분을 제거함으로써, 전자 장치는 노이즈 및 잔향이 심한 환경에서 음성 인식 비율을 향상시킬 수 있게 된다.

도 1은 본 발명의 일 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 나타내는 블럭도,

도 2는 본 발명의 일 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도,

도 3는 본 발명의 다른 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도,

도 4는 본 발명의 일 실시예에 따른, 전자 장치의 잔향 제거 방법을 설명하기 위한 흐름도이다.

본 실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

실시예에 있어서 ‘모듈’ 혹은 ‘부’는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의‘모듈’ 혹은 복수의‘부’는 특정한 하드웨어로 구현될 필요가 있는 ‘모듈’ 혹은 ‘부’를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.

이하, 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른, 전자 장치(100)의 구성을 도시한 블럭도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 복수의 마이크부(110), 잔향 제거부(120), 잔향 정보 획득부(130) 및 후처리부(140)를 포함한다. 이때, 전자 장치(100)는 스마트 폰, 스마트 TV, 태블릿 PC, 노트북 PC, 데스크탑 PC 등과 같이 사용자 음성을 인식하는 기능이 포함된 장치일 수 있다.

복수의 마이크부(110)는 사용자의 음성을 입력받는다. 이때, 복수의 마이크로부(110)는 하나의 열로 정렬된 형태로 배치될 수 있다.

잔향 제거부(120)는 복수의 마이크부(110)로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득한다. 이때, 잔향 제거부(120)는 빔포밍 기술을 이용하여 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.

구체적으로, 빔포밍(beamforming)은 타겟 방향으로부터 수신되는 사용자 음성을 유지하는 반면 다른 방향으로부터 수신되는 에너지를 제거하여 지향성을 향상시키기 위한 오디오 처리 기술이다. 특히, 빔포머는 일반적으로 노이즈 및 간섭을 제거하기 위해 이용된다. 또한, 빔포머들이 음장이 직접적으로 도착(direct-arrival)할 수 있는 방향을 향하고 있다면, 빔포머는 다른 방향으로 입사되는 잔향 성분의 레벨을 감소시킬 수 있으므로, DRR(direct-to-reverberant ratio)를 향상시킬 수 있는 잠재성을 가지고 있다. 또한, 빔포머의 선형성으로 인해, 빔포머들은 비선형적인 프로세서들보다 적은 결함을 가질 수 있는 효과가 존재한다.

특히, 잔향 제거부(120)는 MVDR 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다. MVDR 빔포머는 등방성(isotropic)을 가지며 확산되는 음장에서 최고의 지향성을 나타낼 수 있게 한다. 본 발명의 일 실시예에서 MVDR 빔포머는 범용 사이드로브 제거기(Generalized Sidelobe Canceller, GSC)로 구현될 수 있다. 범용 사이드로브 제거기를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법은 도 2를 참조하여 설명하기로 한다. 한편, 본 발명에서는 MVDR 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 종류의 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다.

본 발명의 또 다른 실시예에서, 잔향 제거부(120)는 블라인드 소스 분리(Blind Source Separation, BSS) 기반의 차단 매트릭스를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다. BSS 기반의 차단 매트릭스를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법은 도 3을 참조하여 설명하기로 한다.

잔향 정보 획득부(130)는 복수의 마이크부(110)로부터 입력된 사용자 음성의 잔향 성분에 대한 세기 정보를 획득한다. 이때, 잔향 정보 획득부(130)는 사용자 음성의 잔향 성분에 대한 파워 스펙트럼 밀도(power spectral density, PSD)를 획득할 수 있다.

후처리부(140)는 잔향 정보 획득부(130)로부터 획득된 잔향 성분에 대한 세기 정보를 바탕으로 잔향 제거부(120)로부터 획득된 초기 성분에 잔향 성분을 추가적으로 제거할 수 있다.

이하에서는 도 2를 참조하여, 전자 장치(200)가 GSC를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법에 대해 설명하기로 한다. 도 2에 도시된 바와 같이, 전자 장치(200)는 복수의 마이크부(210), GSC부(220), 초기 성분 측정부(230), 잔향 정보 획득부(240) 및 후처리부(250)는 포함한다.

복수의 마이크부(210)는 사용자 음성을 입력받는다. 이때, 복수의 마이크부(210)는 1열로 정렬되어 배치될 수 있다. 특히, 복수의 마이크부(210) 각각은 싱글 채널 잔향 제거 알고리즘(single channel dereverberation algorithm)을 이용하여 잔향 성분 일부를 제거할 수 있다.

GSC부(220)는 복수의 마이크부(210)로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다. 특히, GSC부(220)는 도 2에 도시된 바와 같이, 고정형 빔포머(221), 차단 매트릭스(223), 적응적 노이즈 제거기(225) 및 덧셈기(227)를 포함한다.

고정형 빔포머(221)는 복수의 마이크부(210)로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출한다. 이때, 고정형 빔포머(221)는 잔향 성분의 레벨을 감소시키기 위하여 DS(Delay and Sum) 빔포머로 구현할 수 있다.

구체적으로, 고정형 빔포머(221)는 복수의 마이크부(210)를 통해 서로 다른 위상의 신호를 제공받아 타겟 신호에 대한 위상만을 보상한 후 각 채널의 신호를 더하여 잔향 신호가 줄어든 초기 성분의 사용자 음성을 추출할 수 있다. 이때, 고정형 빔포머(221)는 N개의 마이크를 이용하여 사용자 음성의 초기 성분의 위상만을 보상해 주기 때문에, 잔향 신호의 크기가 1/N으로 감소된다.

차단 매트릭스(223)는 복수의 마이크부(210)로부터 수신된 사용자 음성 중 초기 성분을 제거한다. 그리고, 차단 매트릭스(223)는 초기 성분 측정부(230)로부터 측정된 초기 성분을 이용하여 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거할 수 있다.

구체적으로, 복수의 마이크부(210) 각각에 싱글 채널 잔향 제거 알고리즘을 적용함으로써, 사용자 음성의 잔향 성분은 모든 마이크부(210)로부터 제거될 수 있다. 그리고, 초기 성분 측정부(230)는 복수의 마이크부(210)로부터 잔향 성분의 일부가 제거된 사용자 음성 신호의 초기 성분을 측정한다. 사용자 음성의 초기 성분은 최소 자승법(least-squares procedure)에 의해 사용자 음성의 초기 성분과 관련된 RTF(Relative transfer function)을 측정하는데 이용된다. 그리고, 차단 매트릭스(223)는 사용자 음성의 초기 성분과 관련된 RTF를 이용하여 사용자 음성으로부터 초기 성분을 제거하고, 잔향 성분에 대한 참조 신호를 생성할 수 있다.

적응적 노이즈 제거기(225)는 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거한다. 구체적으로, 적응적 노이즈 제거기(225)는 차단 매트릭스(223)의 출력인 잔향 성분에 대한 참조 신호를 이용하여 고정형 빔포머(221)의 출력에 잔향 성분을 최소화하기 위하여 사용자 음성의 잔여 잔향 성분을 적응적으로 산출할 수 있다. 그리고, 덧셈기(227)에 의해 고정형 빔포머(221)로부터 출력된 사용자 음성의 초기 성분으로부터 잔향 성분을 제거할 수 있다.

한편, 적응적 노이즈 제거기(225)는 잔향 성분이 비정상적(non-stationary)이고, 음성 신호가 시간에 따라 변하므로, 적응적 LMS 알고리즘보다 폐형(closed-form)의 멀티채널 위너 필터(Multichannel Wiener Filter)로 구현될 수 있다.

또한, 적응적 노이즈 제거기(225)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분의 세기 정보를 이용하여 사용자 음성의 잔향 성분을 적응적으로 산출할 수 있다.

잔향 정보 획득부(240)는 복수의 마이크부(210)로부터 획득된 사용자 음성 중 잔향 성분에 대한 세기 정보를 획득한다. 이때, 잔향 정보 획득부(240)는 사용자 음성의 잔향 성분에 대한 파워 스펙트럼 밀도(power spectral density, PSD)를 획득할 수 있다.

후처리부(250)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분에 대한 세기 정보를 이용하여 GSC부(220)에서부터 잔향 성분이 제거된 초기 성분의 사용자 음성에 잔향 성분을 추가로 제거한다.

구체적으로, 잔향 성분의 대부분은 GSC부(220)에 의해 제거되나, 잔여 잔향 성분을 추가적으로 제거하기 위하여, 후처리부(250)는 잔향 및 노이즈의 코히어런스 매트릭스(coherenct matrix)를 이용하여 GSC부(220)부터 출력된 초기 성분의 잔여 잔향 성분을 계산하고 싱글-채널 포스트필터(single-channel postfilter)를 이용하여 잔여 잔향 성분을 추가로 제거할 수 있다. 이때, 후처리부(250)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분에 대한 세기 정보를 바탕으로 실내 충격 응답(room impulse response)의 잔향 성분을 제거할 수 있다.

그리고, 후처리부(250)는 잔여 잔향 성분이 제거된 사용자 음성의 초기 성분을 음성 인식부(미도시)로 출력할 수 있다.

상술한 바와 같이, GSC를 이용하여 사용자 음성의 잔향 성분을 효율적으로 제거함으로써, 전자 장치(200)는 음성 인식의 성공률을 향상시킬 수 있게 된다.

도 3은 본 발명의 다른 실시예에 따른, 블라인드 소스 분리((Blind Source Separation, BSS) 기술을 이용하여 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도이다.

도 3에 도시된 바와 같이, 전자 장치(300)는 복수의 마이크부(310), BSS 기반의 잔향 제거부(320), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)를 포함한다.

복수의 마이크부(310), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)에 대한 설명 중 도 2에서 설명한 복수의 마이크부(310), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)와 중복되는 설명은 생략한다.

BSS 기반의 잔향 제거부(320)는 도 3에 도시된 바와 같이, 고정형 빔포머(321) 및 BSS 기반의 차단 매트릭스(323)를 포함한다. 고정형 빔포머(321)는 도 2에서 설명한 고정형 빔포머(221)와 같이, 복수의 마이크부(310)로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출한다. 이때, 고정형 빔포머(321)는 잔향 성분의 레벨을 감소시키기 위하여 DS(Delay and Sum) 빔포머로 구현할 수 있다.

BSS 기반의 차단 매트릭스(323)는 초기 성분 획득부(330)로부터 획득된 사용자 음성의 초기 성분에 대한 정보를 바탕으로, 사용자 음성의 초기 성분과 잔향 성본을 분리하고, 분리된 잔향 성분을 후처리부(250)에 출력한다. 이때, BSS 기반의 차단 매트릭스(323)는 잔향 성분이 개념상 초기 성분 내의 널(null)에 위치하는 것으로 가정하여 잔향 성분을 추출할 수 있다. 특히, BSS 기반의 차단 매트릭스(323)는 혼합 신호로부터 음성 신호를 분리하고, 초기 성분을 제거하기 위하여, 두 가지의 제약 조건을 포함하는 비용 함수(cost function)을 설계할 수 있다. 이때, 두 가지 제약 조건은 1)BSS 알고리즘 출력의 비상관성(decorrelation), 2)잔향 제약 조건을 포함한다.

그리고, 후처리부(350)는 잔향 정보 획득부(340)로부터 획득된 잔향 성분의 세기 정보를 바탕으로 고정형 빔포머(321)로부터 출력되는 사용자 음성의 초기 성분에 BSS 기반의 차단 매트릭스(323)로부터 출력되는 잔향 성분을 제거할 수 있다.

상술한 바와 같이, BSS 기술을 이용하여 사용자 음성의 잔향 성분을 효율적으로 제거함으로써, 전자 장치(200)는 음성 인식의 성공률을 향상시킬 수 있게 된다.

우선, 전자 장치(100)는 복수의 마이크를 통해 사용자의 음성을 입력받는다(S410).

그리고, 전자 장치(100)는 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득한다(S420). 이때, 전자 장치(100)는 도 2에서 설명한 바와 같이, GSC를 이용하여 잔향 성분을 제거하거나 도 3에서 설명한 바와 같이, BSS 기술을 이용하여 잔향 성분을 제거할 수 있다.

그리고, 전자 장치(100)는 사용자 음성의 잔향 성분에 대한 세기 정보를 획득한다(S430). 이때, 전자 장치(100)는 잔향 성분의 PSD에 대한 정보를 획득할 수 있다.

그리고, 전자 장치(100)는 잔향 성분에 대한 세기 정보를 바탕으로 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 작업을 수행한다(S440).

이에 따라, 전자 장치(100)는 더욱 정확한 사용자 음성의 초기 성분을 획득할 수 있어, 높은 성능의 음성 인식 기능을 제공할 수 있게 된다.

한편, 본 실시 예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.

본 명세서(특히 특허청구범위)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 기술적 사상을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims

사용자의 음성을 입력받는 복수의 마이크부;

상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부;

상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부;

상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부;를 포함하는 전자 장치.
제1항에 있어서,

상기 잔향 제거부는,

MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 것을 특징으로 하는 전자 장치.
제2항에 있어서,

상기 MVDR 빔포머는,

범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현되는 것을 특징으로 하는 전자 장치.
제3항에 있어서,

상기 범용 사이드로브 제거기는,

상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer);

상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 차단 매트릭스(blocking matrix); 및

성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 적응적 노이즈 제거기(adaptive noise canceller);를 포함하는 전자 장치.
제4항에 있어서,

상기 고정형 빔포머는,

DS(Delay and Sum) 빔포머인 것을 특징으로 하는 전자 장치.
제4항에 있어서,

상기 복수의 마이크부로부터 초기 성분을 측정하는 초기 성분 측정부;를 더 포함하고,

상기 차단 매트릭스는,

상기 초기 성분 측정부로부터 출력되는 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 것을 특징으로 하는 전자 장치.
제1항에 있어서,

상기 잔향 제거부는,

상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 및

상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 BSS(Blind Source Separation) 기반의 차단 매트릭스;를 포함하는 것을 특징으로 하는 전자 장치.
제7항에 있어서,

상기 후처리부는,

상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거하는 것을 특징으로 하는 전자 장치.
전자 장치의 잔향 제거 방법에 있어서,

복수의 마이크를 통해 사용자의 음성을 입력받는 단계;

상기 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 단계;

상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 단계;

상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 단계;를 포함하는 잔향 제거 방법.
제9항에 있어서,

상기 사용자 음성의 초기 성분을 획득하는 단계는,

MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 것을 특징으로 하는 잔향 제거 방법.
제9항에 있어서,

상기 MVDR 빔포머는,

범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현되는 것을 특징으로 하는 잔향 제거 방법.
제11항에 있어서,

상기 사용자 음성의 초기 성분을 획득하는 단계는,

고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계;

차단 매트릭스(blocking matrix)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 ; 및

적응적 노이즈 제거기(adaptive noise canceller)를 이용하여성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 단계;를 포함하는 잔향 제거 방법.
제12항에 있어서,

상기 고정형 빔포머는,

DS(Delay and Sum) 빔포머인 것을 특징으로 하는 잔향 제거 방법.
제12항에 있어서,

상기 복수의 마이크부로부터 초기 성분을 측정하는 단계;를 더 포함하고,

상기 차단 매트릭스는,

상기 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 것을 특징으로 하는 잔향 제거 방법.
제9항에 있어서,

상기 사용자 음성의 초기 성분을 획득하는 단계는,

고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 및

BSS(Blind Source Separation) 기반의 차단 매트릭스를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 단계;를 포함하는 것을 특징으로 하는 잔향 제거 방법.