KR101899398B1

KR101899398B1 - 음성 인식 시스템 및 음성 인식 방법

Info

Publication number: KR101899398B1
Application number: KR1020110085368A
Authority: KR
Inventors: 임종진; 이부열; 한민수; 홍정표
Original assignee: 엘지디스플레이 주식회사; 한국과학기술원
Priority date: 2011-08-25
Filing date: 2011-08-25
Publication date: 2018-10-01
Also published as: KR20130022637A

Abstract

음성 인식 시스템은, 오디오 신호를 생성하는 오디오 신호 생성부와, 오디오 신호를 출력하기 위한 스피커와, 사용자의 음성 신호와 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이와, 오디오 신호 생성부로부터의 오디오 신호와 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 음성 신호를 추출하는 신호 처리부와, 음성 신호에 응답하여 대응하는 처리 대응부를 포함한다.

Description

음성 인식 시스템 및 음성 인식 방법{Voice recognition system and voice recognition method}

실시예는 음성 인식 시스템에 관한 것이다.

실시예는 음성 인식 방법에 관한 것이다.

사용자의 음성을 인식하여, 인식 결과에 따른 처리를 수행하는 음성 인식 시스템에 대한 연구가 활발하게 진행되고 있다.

음성 인식 시스템은 네비게이션, 텔레비전 등에 채용되고 있다.

네비게이션이나 텔레비전의 스피커를 통해 오디오 신호가 출력될 수 있다.

이러한 경우, 사용자의 음성, 오디오 신호 및 주변 잡음 등이 함께 합성 신호로 입력될 수 있다. 합성 신호로부터 음성을 인식하기 위해서는 오디오 신호나 주변 잡음을 제거해야 한다.

합성 신호로부터 원하는 신호를 제외한 나머지 신호를 제거하는 방법은 특허공개번호 10-2005-0039535와 특허공개번호 10-2009-0056598에 개시되어 있다.

한편, 합성 신호로부터 오디오 신호를 제거하기 위해서는 스피커로 출력되기 전의 오디오 신호, 즉 제1 오디오 신호와 합성 신호의 오디오 신호, 즉 제2 오디오 신호가 일치되어야 하는데, 제1 및 제2 오디오 신호 간의 시간 차가 발생하는 문제가 있다.

제1 및 제2 오디오 신호는 동일 오디오 신호이다.

이는 샘플링 레이트(sampling rate)의 불안정에 기인한 것으로 추정되고 있다. 즉, 샘플링 레이트가 15.9kHz 내지 16.1kHz의 번위에서 변화된다.

도 1a 및 도 1b에 도시한 바와 같이, 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 뒤지게 된다.

도 1b에서는 사용자의 음성과 주변 잡음이 합성 신호에 혼합되지 않았기 때문에, 합성 신호와 제1 오디오 신호와 거의 동일한 신호 파형을 가진다.

따라서, 어떤 경우에는 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 앞서게 되고, 어떤 경우에는 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 뒤지게 된다.

이와 같이 제1 및 제2 오디오 신호 간의 시간 차로 인해, 합성 신호로부터 오디오 신호가 완벽하게 제거되지 못하게 되어, 음성 인식의 정확도가 저하되는 문제가 있다.

실시예는 잡음 제거 성능을 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 방법을 제공한다.

실시예는 음성 인식의 정확도를 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 방법을 제공한다.

실시예에 따르면, 음성 인식 시스템은, 오디오 신호를 생성하는 오디오 신호 생성부; 상기 오디오 신호를 출력하기 위한 스피커; 사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이; 상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및 상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함한다.

실시예에 따르면, 음성 인식 방법은, 오디오 신호를 스피커를 통해 출력하는 단계; 사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계; 상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계; 상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및 상기 음성 신호에 응답하여 대응하는 단계를 포함한다.

제1 및 제2 스피커로 출력되기 전의 제1 및 제2 오디오 신호와 제1 및 제2 스피커로 출력된 후 마이크로폰으로 입력된 합성 신호의 제1 및 제2 오디오 신호 간의 시간 차이가 상기 제1 내지 제4 신호 지연 보상부 각각에 의해 보상될 수 있다.

이에 따라, 합성 신호의 제1 및 제2 오디오 신호가 정확하게 제거될 수 있으므로, 잡음 제거 성능이 향상되어 음성 인식의 정확도가 증가될 수 있다.

도 1a 및 도 1b는 종래의 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호의 출력을 도시한 도면이다.
도 2는 실시예에 따른 음성 인식 시스템을 도시한 블록도이다.
도 3은 도2의 신호 처리부를 도시한 블록도이다.
도 4a는 종래에 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호 간의 시간 차를 보정하지 않은 모습을 도시한 도면이다.
도 4b는 실시예에 따라 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호 간의 시간 차를 보정한 모습을 도시한 도면이다.
도 5a 및 도 5b는 실시예에 따라 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호를 보정하여 스피커 출력 전의 오디오 신호와 일치하여 주는 모습을 도시한 도면이다.

발명에 따른 실시 예의 설명에 있어서, 각 구성 요소의 " 상(위) 또는 하(아래)"에 형성되는 것으로 기재되는 경우에 있어, 상(위) 또는 하(아래)는 두개의 구성 요소들이 서로 직접 접촉되거나 하나 이상의 또 다른 구성 요소가 두 개의 구성 요소들 사이에 배치되어 형성되는 것을 모두 포함한다. 또한 "상(위) 또는 하(아래)"으로 표현되는 경우 하나의 구성 요소를 기준으로 위쪽 방향 뿐만 아니라 아래쪽 방향의 의미도 포함할 수 있다.

도 2는 실시예에 따른 음성 인식 시스템을 도시한 블록도이고, 도 3은 도2의 신호 처리부를 도시한 블록도이다.

도 2에 도시한 바와 같이, 실시예에 따른 음성 인식 시스템(10)은 오디오 신호 생성부(30), 스피커(미도시), 마이크로폰 어레이(20), 신호 처리부(40) 및 신호 처리부(40)를 포함할 수 있다.

상기 오디오 신호 생성부(30)는 상기 스피커로 출력될 사운드, 즉 오디오 신호를 생성할 수 있다.

상기 음성 인식 시스템(10)이 텔레비전에 장착되는 경우, 상기 텔레비전의 스크린을 통해 영상이 표시되고 상기 스피커를 통해 사운드가 출력될 수 있다.

상기 스피커는 상기 텔레비전의 왼측에 설치된 제1 스피커와 상기 텔레비전의 오른측에 설치된 제2 스피커를 포함할 수 있다.

이러한 제1 및 제2 스피커에 대응하도록 상기 오디오 신호 생성부(30)는 제1 및 제2 오디오 신호 생성부(31, 34)를 포함할 수 있다. 즉, 상기 제1 오디오 신호 생성부(31)는 상기 제1 스피커로 제공할 제1 오디오 신호(V_L)를 생성하고, 상기 제2 오디오 신호 생성부(34)는 상기 제2 스피커로 제공할 제2 오디오 신호(V_R)를 생성할 수 있다.

상기 제1 및 제2 오디오 신호 생성부(31, 34)에서 생성된 제1 및 제2 오디오 신호(V_L,V_R)는 상기 신호 처리부(40)로 제공될 수 있다.

상기 마이크로폰 어레이(20)는 제1 내지 제4 마이크로폰(21, 23, 25, 27)을 포함할 수 있다.

실시예에서는 설명의 편의를 위해 제1 내지 제4 마이크로폰(21, 23, 25, 27)을 개시되고 있지만, 4개 이상의 마이크로폰이 개시될 수도 있다.

상기 제1 내지 제4 마이크로폰(21, 23, 25, 27) 각각은 상기 음성 인식 시스템(10)의 입력단으로서, 사용자의 음성을 입력받을 수 있다.

하지만, 통상적으로 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27) 각각은 사용자의 음성뿐만 아니라, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(V_L,V_R)와 주변의 잡음도 입력될 수 있다.

상기 제1 및 제2 스피커가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)과 가까워질수록 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(V_L,V_R)의 보다 증가된 신호 진폭이 입력될 수 있다.

상기 제1 및 제2 스피커가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)으로부터 멀리 떨어지도록 하는 데에는 한계가 있기 때문에, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(V_L,V_R)가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)으로 입력될 가능성은 상당히 높아질 수 있다.

결국, 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)은 사용자의 음성, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(V_L,V_R) 그리고 주변 잡음이 혼합된 합성 신호(x₀, x₁, x₂, x₃)로 입력되고, 상기 합성 신호는 신호 처리부(40)로 제공될 수 있다.

상기 신호 처리부(40)는 도 3에 도시한 바와 같이, 신호 처리부(40), 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126), 제1 내지 제4 잡음 제거부(130, 132, 134, 136) 및 멀티 잡음 제거부(140)를 포함할 수 있다.

상기 신호 처리부(40)는 상기 제1 오디오 신호(V_L)와 상기 제2 오디오 신호(V_R)를 변조한 오디오 변조 신호(V_M)를 생성한다.

상기 오디오 변조 신호(V_M)는 상기 제1 및 제2 오디오 신호(V_L,V_R)의 평균값일 수 있다. 즉, 상기 오디오 변조 신호(V_M)는 상기 제1 및 제2 오디오 신호(V_L,V_R)를 더한 후 2로 나눈 값일 수 있다.

즉, 식 1과 같이 표현될 수 있다.

상기 합성 신호(x₀, x₁, x₂, x₃)에 혼합된 제1 및 제2 오디오 신호 또한 각 마이크로폰(21, 23, 25, 27)에 의해 하나의 오디오 신호로 혼합되므로, 상기 오디오 변조 신호(V_M)는 상기 합성 신호(x₀, x₁, x₂, x₃)에 혼합된 제1 및 제2 오디오 신호와 유사한 신호를 가질 수 있다.

상기 오디오 변조 신호(V_M)는 나중에 신호 처리부(40)에서 상기 합성 신호(x₀, x₁, x₂, x₃)에 혼합된 제1 및 제2 오디오 신호를 제거하는데 사용될 수 있다. 즉, 상기 합성 신호(x₀, x₁, x₂, x₃)에 혼합된 제1 및 제2 오디오 신호는 상기 오디오 변조 신호(V_M)를 바탕으로 제거될 수 있다.

상기 오디오 변조 신호(V_M)는 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)에 공통으로 제공될 수 있다.

실시예에서는 상기 신호 처리부(40)가 상기 신호 처리부(40)에 포함되는 것으로 개시되고 있지만, 이에 한정하지 않는다. 즉, 상기 신호 처리부(40)는 상기 신호 처리부(40)의 전단에 배치될 수 있다. 이러한 경우, 상기 신호 처리부(40)에서 생성된 오디오 변조 신호(V_M)는 상기 신호 처리부(40)의 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)로 제공될 수 있다.

상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 다음과 같은 세가지 동작을 수행할 수 있다.

1) 첫 번째 동작: 합성 신호(x₀, x₁, x₂, x₃)와 오디오 변조 신호(V_M) 간의 상호 상관도(corr_i(τ))를 산출할 수 있다.

다시 말해, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 식 2를 바탕으로 정규화된 상호상관도(corr_i(τ))를 산출할 수 있다.

단, 0 < τ <F₀, i= 0, ..., M-1

여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F₀는 피치(pitch)에 해당하는 샘플 개수를 나타낸다.

2) 두 번째 동작: 상기 산출된 정규화된 상호 상관도(corr_i(τ))를 바탕으로 상호 상관도를 최대가 되게 하는 시간 지연값(τ)을 산출할 수 있다.

다시 말해, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 식 2의 상호 상관도(corr_i(τ))를 최대가 되게 하는 시간 지연값(τ)을 식 3에 의해 산출할 수 있다.

식 3으로부터, 합성 신호(x₀, x₁, x₂, x₃)와 오디오 변조 신호(V_M) 간의 시간 지연 정도가 파악될 수 있다.

다시 말해, 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호와 오디오 변조 신호(V_M) 간의 시간 지연 정도가 파악될 수 있다.

상기 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호가 오디오 변조 신호(V_M)보다 식 3의 시간 지연값(τ_i)만큼 앞서거나 뒤지게 될 수 있다.

3)세번째 동작: 식 3으로부터 산출된 시간 지연값(τ_i)을 바탕으로 상기 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호와 상기 오디오 변조 신호(V_M)를 동기화 또는 일치시킬 수 있다.

상기 동기화의 기준으로 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호가 되거나 상기 오디오 변조 신호(V_M)가 될 수 있다.

예컨대, 상기 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호를 기준으로, 식 3의 시간 지연값(τ_i)을 바탕으로 상기 오디오 변조 신호(V_M)를 상기 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호에 동기화시킬 수 있다.

예컨대, 상기 오디오 변조 신호(V_M)를 기준으로, 식 3의 시간 지연값(τ_i)을 바탕으로 상기 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호를 상기 오디오 변조 신호(V_M)에 동기화시킬 수 있다.

도 4a에 도시한 바와 같이, 합성 신호(x0)와 오디오 변조 신호(V_M) 간에 시간 차이가 발생함을 알 수 있다.

도 4b에 도시한 바와 같이, 상기 제1 신호 지연 보상부(120)에 의해 합성 신호(x0)와 오디오 변조 신호(V_M) 간의 시간 지연이 보상되어 상기 합성 신호(x0)와 상기 오디오 변조 신호(V_M)가 동기화될 수 있다.

도 5a 및 도 5b에 도시한 바와 같이, 오디오 변조 신호(도 5a)와 합성 신호의 제1 및 제2 오디오 신호(도 5b)가 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)에 의해 신호 지연이 보상되어, 오디오 변조 신호(도 5a)와 합성 신호의 제1 및 제2 오디오 신호(도 5b)가 동기화됨을 알 수 있다.

이상의 3가지 동작은 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각에서 개별적으로 수행될 수 있다.

한편, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 상기 동기화된 또는 신호 지연이 보상된 합성 신호(이하 합성 보상 신호라 함)(x₀(n-τ₀), x₁(n-τ₁), x₂(n-τ₂), x₃(n-τ₃))와 상기 오디오 변조 신호(V_M)를 대응하는 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로 제공할 수 있다.

상기 제1 신호 지연 보상부(120)로부터의 제1 합성 보상 신호(x₀(n-τ₀))와 상기 오디오 변조 신호(V_M)는 상기 제1 잡음 제거부(130)로 제공될 수 있다. 상기 제1 잡음 제거부(130)는 상기 오디오 변조 신호(V_M)를 바탕으로 상기 제1 합성 보상 신호(x₀(n-τ₀))의 제1 및 제2 오디오 신호를 제거할 수 있다.

상기 제2 신호 지연 보상부(122)로부터의 제2 합성 보상 신호(x₁(n-τ₁))와 상기 오디오 변조 신호(V_M)는 상기 제2 잡음 제거부(132)로 제공될 수 있다. 상기 제2 잡음 제거부(132)는 상기 오디오 변조 신호(V_M)를 바탕으로 상기 제2 합성 보상 신호(x₁(n-τ₁))의 제1 및 제2 오디오 신호를 제거할 수 있다.

상기 제3 신호 지연 보상부(124)로부터의 제3 합성 보상 신호( x₂(n-τ₂))와 상기 오디오 변조 신호(V_M)는 상기 제3 잡음 제거부(134)로 제공될 수 있다. 상기 제3 잡음 제거부(134)는 상기 오디오 변조 신호(V_M)를 바탕으로 상기 제3 합성 보상 신호( x₂(n-τ₂))의 제1 및 제2 오디오 신호를 제거할 수 있다.

상기 제4 신호 지연 보상부(126)로부터의 제4 합성 보상 신호(x₃(n-τ₃))와 상기 오디오 변조 신호(V_M)는 상기 제4 잡음 제거부(136)로 제공될 수 있다. 상기 제4 잡음 제거부(136)는 상기 오디오 변조 신호(V_M)를 바탕으로 상기 제4 합성 보상 신호(x₃(n-τ₃))의 제1 및 제2 오디오 신호를 제거할 수 있다.

상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136) 각각은 적응형 필터(adaptive filter)를 포함할 수 있다. 예컨대, 상기 적응형 필터로는 정규화된 최소화 평균 제곱(NLMS: Normalized Least Mean Square) 필터가 사용될 수 있다.

상기 NLMS 필터에 의해 상기 합성 보상 신호(x₀(n-τ₀), x₁(n-τ₁), x₂(n-τ₂), x₃(n-τ₃))의 제1 및 제2 오디오 신호 뿐만 아니라 주변 잡음도 제거되어, 사용자의 음성인 음성 신호(S₁₀, S₁₁, S₁₂, S₁₃)가 상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로부터 출력될 수 있다.

상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로부터의 제1 내지 제4 음성 신호(S₁₀, S₁₁, S₁₂, S₁₃)가 상기 멀티 잡음 제거부(140)로 제공될 수 있다.

상기 제1 내지 제4 잡음 제거부는 제1 및 제2 오디오 신호(V_L,V_R)를 1차적으로 제거할 수 있다.

상기 멀티 잡음 제거부(140)는 상기 제1 내지 제4 음성 신호(S₁₀, S₁₁, S₁₂, S₁₃)를 입력받아, 이들 음성 신호들(S₁₀, S₁₁, S₁₂, S₁₃)에 내재된 추가적인 잡음 신호를 제거하여 주어 사용자의 음성과 거의 유사한 음성 신호(S)를 복원하여 줄 수 있다.

상기 멀티 잡음 제거부(140)는 적응형 빔포밍 필터를 포함할 수 있다.

예컨대, 상기 빔포밍 필터로는 일반화된 사이드로브 캔셀러(GSC: Generalized Beamforming Canceller)가 사용될 수 있다.

상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)와 상기 멀티 잡음 제거부(140)에 의해 사용자의 음성 신호(S)만이 추출될 수 있다.

다시 도 2를 참조하면, 상기 신호 처리부(40)는 상기 신호 처리부(40)터부터의 음성 신호(S)에 응답하여 사용자가 하고자 하는 것을 수행하도록 한다.

예컨대, 상기 신호 처리부(40)는 상기 음성 신호(S)에 응답하여 볼륨 조절, 화면 분할, 전원 온/오프, 채널 변경 등을 수행할 수 있다.

이상에서 살펴본 바와 같이, 제1 및 제2 스피커로 출력되기 전의 제1 및 제2 오디오 신호(V_L,V_R)와 제1 및 제2 스피커로 출력된 후 마이크로폰(21, 23, 25, 27)으로 입력된 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호 간의 시간 차이가 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각에 의해 보상될 수 있다. 이에 따라, 합성 신호(x₀, x₁, x₂, x₃)의 제1 및 제2 오디오 신호가 정확하게 제거될 수 있으므로, 잡음 제거 성능이 향상되어 음성 인식의 정확도가 증가될 수 있다.

10: 음성 인식 시스템 20: 마이크로폰 어레이
21, 23, 25, 27: 마이크로폰 30: 오디오 신호 생성부
31: 제1 오디오 신호 생성부 34: 제2 오디오 신호 생성부
40: 신호 처리부 50: 처리 대응부
110: 오디오 신호 변조부 120, 22, 124, 126: 신호 지연 보상부
130, 132, 134, 136: 잡음 제거부 140: 멀티 잡음 제거부

Claims

오디오 신호를 생성하는 오디오 신호 생성부;
상기 오디오 신호를 출력하기 위한 스피커;
사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이;
상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및
상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함하되,
상기 신호 처리부는,
상기 오디오 신호와 상기 합성 신호 간의 시간 지연을 보상하여 합성 보상 신호를 출력하는 다수의 신호 지연 보상부를 포함하고,
상기 신호 지연 보상부는,
상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하기 위한 수단; 및
상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하기 위한 수단을 포함하고,
상기 상호 상관도는 하기 식으로부터 산출되는 음성 인식 시스템.

단, 0 < τ <F0, i= 0, ..., M-1
여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F0는 피치(pitch)에 해당하는 샘플 개수를 나타냄.
제1항에 있어서,
상기 신호 처리부는,
상기 신호 지연 보상부 각각으로부터의 상기 합성 보상 신호로부터 잡음을 1차적으로 제거하여 상기 음성 신호를 추출하는 다수의 잡음 제거부; 및
상기 잡음 제거부 각각으로부터의 상기 음성 신호로부터 잡음을 2차적으로 제거하는 멀티 잡음 제거부를 더 포함하는 음성 인식 시스템.
제2항에 있어서,
상기 오디오 신호 생성부는 제1 및 제2 오디오 신호를 생성하고,
상기 제1 및 제2 오디오 신호를 변조하여 오디오 변조 신호를 생성하는 오디오 신호 변조부를 더 포함하는 음성 인식 시스템.
제3항에 있어서,
상기 오디오 신호 변조부는
상기 제1 및 제2 오디오 신호의 평균값인 음성 인식 시스템.
제3항에 있어서,
상기 오디오 변조 신호는 상기 각 신호 지연 보상부에 공통으로 제공되는 음성 인식 시스템.
제2항에 있어서,
상기 신호 지연 보상부는,
상기 시간 지연값을 바탕으로 상기 합성 신호와 상기 오디오 신호를 동기화하기 위한 수단을 더 포함하는 음성 인식 시스템.
삭제
오디오 신호를 생성하는 오디오 신호 생성부;
상기 오디오 신호를 출력하기 위한 스피커;
사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이;
상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및
상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함하되,
상기 신호 처리부는,
상기 오디오 신호와 상기 합성 신호 간의 시간 지연을 보상하여 합성 보상 신호를 출력하는 다수의 신호 지연 보상부를 포함하고,
상기 신호 지연 보상부는,
상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하기 위한 수단; 및
상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하기 위한 수단을 포함하고,
상기 시간 지연값은 하기 식으로부터 산출되는 음성 인식 시스템.
제6항에 있어서,
상기 합성 신호 및 상기 오디오 신호 중 어느 하나를 기준으로 동기화가 이루어지는 음성 인식 시스템.
제2항에 있어서,
상기 각 잡음 제거부는 상기 오디오 신호를 바탕으로 상기 합성 신호의 오디오 신호를 제거하는 음성 인식 시스템.
오디오 신호를 스피커를 통해 출력하는 단계;
사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계;
상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계;
상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및
상기 음성 신호에 응답하여 대응하는 단계를 포함하되,
상기 시간 지연을 보상하는 단계는,
상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하는 단계; 및
상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하는 단계를 포함하고,
상기 상호 상관도는 하기 식으로부터 산출되는 음성 인식 방법.

단, 0 < τ <F0, i= 0, ..., M-1
여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F0는 피치(pitch)에 해당하는 샘플 개수를 나타냄.
제11항에 있어서,
상기 시간 지연을 보상하는 단계는,
상기 시간 지연값을 바탕으로 상기 합성 신호와 상기 오디오 신호를 동기화하는 단계를 더 포함하는 음성 인식 방법.
제11항에 있어서,
상기 음성 신호를 추출하는 단계는,
상기 보상된 합성 신호로부터 잡음을 1차적으로 제거하여 상기 음성 신호를 추출하는 단계; 및
상기 추출된 음성 신호로부터 잡음을 2차적으로 제거하는 단계를 포함하는 음성 인식 방법.
제11항에 있어서,
상기 합성 신호 및 상기 오디오 신호 중 어느 하나를 기준으로 동기화가 이루어지는 음성 인식 방법.
오디오 신호를 스피커를 통해 출력하는 단계;
사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계;
상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계;
상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및
상기 음성 신호에 응답하여 대응하는 단계를 포함하되,
상기 시간 지연을 보상하는 단계는,
상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하는 단계; 및
상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하는 단계를 포함하고,
상기 시간 지연값은 하기 식으로부터 산출되는 음성 인식 방법.