KR101899398B1 - 음성 인식 시스템 및 음성 인식 방법 - Google Patents

음성 인식 시스템 및 음성 인식 방법 Download PDF

Info

Publication number
KR101899398B1
KR101899398B1 KR1020110085368A KR20110085368A KR101899398B1 KR 101899398 B1 KR101899398 B1 KR 101899398B1 KR 1020110085368 A KR1020110085368 A KR 1020110085368A KR 20110085368 A KR20110085368 A KR 20110085368A KR 101899398 B1 KR101899398 B1 KR 101899398B1
Authority
KR
South Korea
Prior art keywords
signal
audio
audio signal
time delay
synthesized
Prior art date
Application number
KR1020110085368A
Other languages
English (en)
Other versions
KR20130022637A (ko
Inventor
임종진
이부열
한민수
홍정표
Original Assignee
엘지디스플레이 주식회사
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지디스플레이 주식회사, 한국과학기술원 filed Critical 엘지디스플레이 주식회사
Priority to KR1020110085368A priority Critical patent/KR101899398B1/ko
Publication of KR20130022637A publication Critical patent/KR20130022637A/ko
Application granted granted Critical
Publication of KR101899398B1 publication Critical patent/KR101899398B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

음성 인식 시스템은, 오디오 신호를 생성하는 오디오 신호 생성부와, 오디오 신호를 출력하기 위한 스피커와, 사용자의 음성 신호와 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이와, 오디오 신호 생성부로부터의 오디오 신호와 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 음성 신호를 추출하는 신호 처리부와, 음성 신호에 응답하여 대응하는 처리 대응부를 포함한다.

Description

음성 인식 시스템 및 음성 인식 방법{Voice recognition system and voice recognition method}
실시예는 음성 인식 시스템에 관한 것이다.
실시예는 음성 인식 방법에 관한 것이다.
사용자의 음성을 인식하여, 인식 결과에 따른 처리를 수행하는 음성 인식 시스템에 대한 연구가 활발하게 진행되고 있다.
음성 인식 시스템은 네비게이션, 텔레비전 등에 채용되고 있다.
네비게이션이나 텔레비전의 스피커를 통해 오디오 신호가 출력될 수 있다.
이러한 경우, 사용자의 음성, 오디오 신호 및 주변 잡음 등이 함께 합성 신호로 입력될 수 있다. 합성 신호로부터 음성을 인식하기 위해서는 오디오 신호나 주변 잡음을 제거해야 한다.
합성 신호로부터 원하는 신호를 제외한 나머지 신호를 제거하는 방법은 특허공개번호 10-2005-0039535와 특허공개번호 10-2009-0056598에 개시되어 있다.
한편, 합성 신호로부터 오디오 신호를 제거하기 위해서는 스피커로 출력되기 전의 오디오 신호, 즉 제1 오디오 신호와 합성 신호의 오디오 신호, 즉 제2 오디오 신호가 일치되어야 하는데, 제1 및 제2 오디오 신호 간의 시간 차가 발생하는 문제가 있다.
제1 및 제2 오디오 신호는 동일 오디오 신호이다.
이는 샘플링 레이트(sampling rate)의 불안정에 기인한 것으로 추정되고 있다. 즉, 샘플링 레이트가 15.9kHz 내지 16.1kHz의 번위에서 변화된다.
도 1a 및 도 1b에 도시한 바와 같이, 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 뒤지게 된다.
도 1b에서는 사용자의 음성과 주변 잡음이 합성 신호에 혼합되지 않았기 때문에, 합성 신호와 제1 오디오 신호와 거의 동일한 신호 파형을 가진다.
따라서, 어떤 경우에는 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 앞서게 되고, 어떤 경우에는 제2 오디오 신호가 제1 오디오 신호보다 시간적으로 뒤지게 된다.
이와 같이 제1 및 제2 오디오 신호 간의 시간 차로 인해, 합성 신호로부터 오디오 신호가 완벽하게 제거되지 못하게 되어, 음성 인식의 정확도가 저하되는 문제가 있다.
실시예는 잡음 제거 성능을 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 방법을 제공한다.
실시예는 음성 인식의 정확도를 향상시킬 수 있는 음성 인식 시스템 및 음성 인식 방법을 제공한다.
실시예에 따르면, 음성 인식 시스템은, 오디오 신호를 생성하는 오디오 신호 생성부; 상기 오디오 신호를 출력하기 위한 스피커; 사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이; 상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및 상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함한다.
실시예에 따르면, 음성 인식 방법은, 오디오 신호를 스피커를 통해 출력하는 단계; 사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계; 상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계; 상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및 상기 음성 신호에 응답하여 대응하는 단계를 포함한다.
제1 및 제2 스피커로 출력되기 전의 제1 및 제2 오디오 신호와 제1 및 제2 스피커로 출력된 후 마이크로폰으로 입력된 합성 신호의 제1 및 제2 오디오 신호 간의 시간 차이가 상기 제1 내지 제4 신호 지연 보상부 각각에 의해 보상될 수 있다.
이에 따라, 합성 신호의 제1 및 제2 오디오 신호가 정확하게 제거될 수 있으므로, 잡음 제거 성능이 향상되어 음성 인식의 정확도가 증가될 수 있다.
도 1a 및 도 1b는 종래의 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호의 출력을 도시한 도면이다.
도 2는 실시예에 따른 음성 인식 시스템을 도시한 블록도이다.
도 3은 도2의 신호 처리부를 도시한 블록도이다.
도 4a는 종래에 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호 간의 시간 차를 보정하지 않은 모습을 도시한 도면이다.
도 4b는 실시예에 따라 스피커 출력 전의 오디오 신호와 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호 간의 시간 차를 보정한 모습을 도시한 도면이다.
도 5a 및 도 5b는 실시예에 따라 스피커 출력 후 마이크로폰에 의해 입력된 오디오 신호를 보정하여 스피커 출력 전의 오디오 신호와 일치하여 주는 모습을 도시한 도면이다.
발명에 따른 실시 예의 설명에 있어서, 각 구성 요소의 " 상(위) 또는 하(아래)"에 형성되는 것으로 기재되는 경우에 있어, 상(위) 또는 하(아래)는 두개의 구성 요소들이 서로 직접 접촉되거나 하나 이상의 또 다른 구성 요소가 두 개의 구성 요소들 사이에 배치되어 형성되는 것을 모두 포함한다. 또한 "상(위) 또는 하(아래)"으로 표현되는 경우 하나의 구성 요소를 기준으로 위쪽 방향 뿐만 아니라 아래쪽 방향의 의미도 포함할 수 있다.
도 2는 실시예에 따른 음성 인식 시스템을 도시한 블록도이고, 도 3은 도2의 신호 처리부를 도시한 블록도이다.
도 2에 도시한 바와 같이, 실시예에 따른 음성 인식 시스템(10)은 오디오 신호 생성부(30), 스피커(미도시), 마이크로폰 어레이(20), 신호 처리부(40) 및 신호 처리부(40)를 포함할 수 있다.
상기 오디오 신호 생성부(30)는 상기 스피커로 출력될 사운드, 즉 오디오 신호를 생성할 수 있다.
상기 음성 인식 시스템(10)이 텔레비전에 장착되는 경우, 상기 텔레비전의 스크린을 통해 영상이 표시되고 상기 스피커를 통해 사운드가 출력될 수 있다.
상기 스피커는 상기 텔레비전의 왼측에 설치된 제1 스피커와 상기 텔레비전의 오른측에 설치된 제2 스피커를 포함할 수 있다.
이러한 제1 및 제2 스피커에 대응하도록 상기 오디오 신호 생성부(30)는 제1 및 제2 오디오 신호 생성부(31, 34)를 포함할 수 있다. 즉, 상기 제1 오디오 신호 생성부(31)는 상기 제1 스피커로 제공할 제1 오디오 신호(VL)를 생성하고, 상기 제2 오디오 신호 생성부(34)는 상기 제2 스피커로 제공할 제2 오디오 신호(VR)를 생성할 수 있다.
상기 제1 및 제2 오디오 신호 생성부(31, 34)에서 생성된 제1 및 제2 오디오 신호(VL,VR)는 상기 신호 처리부(40)로 제공될 수 있다.
상기 마이크로폰 어레이(20)는 제1 내지 제4 마이크로폰(21, 23, 25, 27)을 포함할 수 있다.
실시예에서는 설명의 편의를 위해 제1 내지 제4 마이크로폰(21, 23, 25, 27)을 개시되고 있지만, 4개 이상의 마이크로폰이 개시될 수도 있다.
상기 제1 내지 제4 마이크로폰(21, 23, 25, 27) 각각은 상기 음성 인식 시스템(10)의 입력단으로서, 사용자의 음성을 입력받을 수 있다.
하지만, 통상적으로 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27) 각각은 사용자의 음성뿐만 아니라, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(VL,VR)와 주변의 잡음도 입력될 수 있다.
상기 제1 및 제2 스피커가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)과 가까워질수록 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(VL,VR)의 보다 증가된 신호 진폭이 입력될 수 있다.
상기 제1 및 제2 스피커가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)으로부터 멀리 떨어지도록 하는 데에는 한계가 있기 때문에, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(VL,VR)가 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)으로 입력될 가능성은 상당히 높아질 수 있다.
결국, 상기 제1 내지 제4 마이크로폰(21, 23, 25, 27)은 사용자의 음성, 상기 제1 및 제2 스피커로 출력된 제1 및 제2 오디오 신호(VL,VR) 그리고 주변 잡음이 혼합된 합성 신호(x0, x1, x2, x3)로 입력되고, 상기 합성 신호는 신호 처리부(40)로 제공될 수 있다.
상기 신호 처리부(40)는 도 3에 도시한 바와 같이, 신호 처리부(40), 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126), 제1 내지 제4 잡음 제거부(130, 132, 134, 136) 및 멀티 잡음 제거부(140)를 포함할 수 있다.
상기 신호 처리부(40)는 상기 제1 오디오 신호(VL)와 상기 제2 오디오 신호(VR)를 변조한 오디오 변조 신호(VM)를 생성한다.
상기 오디오 변조 신호(VM)는 상기 제1 및 제2 오디오 신호(VL,VR)의 평균값일 수 있다. 즉, 상기 오디오 변조 신호(VM)는 상기 제1 및 제2 오디오 신호(VL,VR)를 더한 후 2로 나눈 값일 수 있다.
즉, 식 1과 같이 표현될 수 있다.
Figure 112011066300719-pat00001
상기 합성 신호(x0, x1, x2, x3)에 혼합된 제1 및 제2 오디오 신호 또한 각 마이크로폰(21, 23, 25, 27)에 의해 하나의 오디오 신호로 혼합되므로, 상기 오디오 변조 신호(VM)는 상기 합성 신호(x0, x1, x2, x3)에 혼합된 제1 및 제2 오디오 신호와 유사한 신호를 가질 수 있다.
상기 오디오 변조 신호(VM)는 나중에 신호 처리부(40)에서 상기 합성 신호(x0, x1, x2, x3)에 혼합된 제1 및 제2 오디오 신호를 제거하는데 사용될 수 있다. 즉, 상기 합성 신호(x0, x1, x2, x3)에 혼합된 제1 및 제2 오디오 신호는 상기 오디오 변조 신호(VM)를 바탕으로 제거될 수 있다.
상기 오디오 변조 신호(VM)는 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)에 공통으로 제공될 수 있다.
실시예에서는 상기 신호 처리부(40)가 상기 신호 처리부(40)에 포함되는 것으로 개시되고 있지만, 이에 한정하지 않는다. 즉, 상기 신호 처리부(40)는 상기 신호 처리부(40)의 전단에 배치될 수 있다. 이러한 경우, 상기 신호 처리부(40)에서 생성된 오디오 변조 신호(VM)는 상기 신호 처리부(40)의 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)로 제공될 수 있다.
상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 다음과 같은 세가지 동작을 수행할 수 있다.
1) 첫 번째 동작: 합성 신호(x0, x1, x2, x3)와 오디오 변조 신호(VM) 간의 상호 상관도(corri(τ))를 산출할 수 있다.
다시 말해, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 식 2를 바탕으로 정규화된 상호상관도(corri(τ))를 산출할 수 있다.
Figure 112011066300719-pat00002
단, 0 < τ <F0, i= 0, ..., M-1
여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F0는 피치(pitch)에 해당하는 샘플 개수를 나타낸다.
2) 두 번째 동작: 상기 산출된 정규화된 상호 상관도(corri(τ))를 바탕으로 상호 상관도를 최대가 되게 하는 시간 지연값(τ)을 산출할 수 있다.
다시 말해, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 식 2의 상호 상관도(corri(τ))를 최대가 되게 하는 시간 지연값(τ)을 식 3에 의해 산출할 수 있다.
Figure 112011066300719-pat00003
식 3으로부터, 합성 신호(x0, x1, x2, x3)와 오디오 변조 신호(VM) 간의 시간 지연 정도가 파악될 수 있다.
다시 말해, 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호와 오디오 변조 신호(VM) 간의 시간 지연 정도가 파악될 수 있다.
상기 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호가 오디오 변조 신호(VM)보다 식 3의 시간 지연값(τi)만큼 앞서거나 뒤지게 될 수 있다.
3)세번째 동작: 식 3으로부터 산출된 시간 지연값(τi)을 바탕으로 상기 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호와 상기 오디오 변조 신호(VM)를 동기화 또는 일치시킬 수 있다.
상기 동기화의 기준으로 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호가 되거나 상기 오디오 변조 신호(VM)가 될 수 있다.
예컨대, 상기 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호를 기준으로, 식 3의 시간 지연값(τi)을 바탕으로 상기 오디오 변조 신호(VM)를 상기 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호에 동기화시킬 수 있다.
예컨대, 상기 오디오 변조 신호(VM)를 기준으로, 식 3의 시간 지연값(τi)을 바탕으로 상기 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호를 상기 오디오 변조 신호(VM)에 동기화시킬 수 있다.
도 4a에 도시한 바와 같이, 합성 신호(x0)와 오디오 변조 신호(VM) 간에 시간 차이가 발생함을 알 수 있다.
도 4b에 도시한 바와 같이, 상기 제1 신호 지연 보상부(120)에 의해 합성 신호(x0)와 오디오 변조 신호(VM) 간의 시간 지연이 보상되어 상기 합성 신호(x0)와 상기 오디오 변조 신호(VM)가 동기화될 수 있다.
도 5a 및 도 5b에 도시한 바와 같이, 오디오 변조 신호(도 5a)와 합성 신호의 제1 및 제2 오디오 신호(도 5b)가 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126)에 의해 신호 지연이 보상되어, 오디오 변조 신호(도 5a)와 합성 신호의 제1 및 제2 오디오 신호(도 5b)가 동기화됨을 알 수 있다.
이상의 3가지 동작은 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각에서 개별적으로 수행될 수 있다.
한편, 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각은 상기 동기화된 또는 신호 지연이 보상된 합성 신호(이하 합성 보상 신호라 함)(x0(n-τ0), x1(n-τ1), x2(n-τ2), x3(n-τ3))와 상기 오디오 변조 신호(VM)를 대응하는 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로 제공할 수 있다.
상기 제1 신호 지연 보상부(120)로부터의 제1 합성 보상 신호(x0(n-τ0))와 상기 오디오 변조 신호(VM)는 상기 제1 잡음 제거부(130)로 제공될 수 있다. 상기 제1 잡음 제거부(130)는 상기 오디오 변조 신호(VM)를 바탕으로 상기 제1 합성 보상 신호(x0(n-τ0))의 제1 및 제2 오디오 신호를 제거할 수 있다.
상기 제2 신호 지연 보상부(122)로부터의 제2 합성 보상 신호(x1(n-τ1))와 상기 오디오 변조 신호(VM)는 상기 제2 잡음 제거부(132)로 제공될 수 있다. 상기 제2 잡음 제거부(132)는 상기 오디오 변조 신호(VM)를 바탕으로 상기 제2 합성 보상 신호(x1(n-τ1))의 제1 및 제2 오디오 신호를 제거할 수 있다.
상기 제3 신호 지연 보상부(124)로부터의 제3 합성 보상 신호( x2(n-τ2))와 상기 오디오 변조 신호(VM)는 상기 제3 잡음 제거부(134)로 제공될 수 있다. 상기 제3 잡음 제거부(134)는 상기 오디오 변조 신호(VM)를 바탕으로 상기 제3 합성 보상 신호( x2(n-τ2))의 제1 및 제2 오디오 신호를 제거할 수 있다.
상기 제4 신호 지연 보상부(126)로부터의 제4 합성 보상 신호(x3(n-τ3))와 상기 오디오 변조 신호(VM)는 상기 제4 잡음 제거부(136)로 제공될 수 있다. 상기 제4 잡음 제거부(136)는 상기 오디오 변조 신호(VM)를 바탕으로 상기 제4 합성 보상 신호(x3(n-τ3))의 제1 및 제2 오디오 신호를 제거할 수 있다.
상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136) 각각은 적응형 필터(adaptive filter)를 포함할 수 있다. 예컨대, 상기 적응형 필터로는 정규화된 최소화 평균 제곱(NLMS: Normalized Least Mean Square) 필터가 사용될 수 있다.
상기 NLMS 필터에 의해 상기 합성 보상 신호(x0(n-τ0), x1(n-τ1), x2(n-τ2), x3(n-τ3))의 제1 및 제2 오디오 신호 뿐만 아니라 주변 잡음도 제거되어, 사용자의 음성인 음성 신호(S10, S11, S12, S13)가 상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로부터 출력될 수 있다.
상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)로부터의 제1 내지 제4 음성 신호(S10, S11, S12, S13)가 상기 멀티 잡음 제거부(140)로 제공될 수 있다.
상기 제1 내지 제4 잡음 제거부는 제1 및 제2 오디오 신호(VL,VR)를 1차적으로 제거할 수 있다.
상기 멀티 잡음 제거부(140)는 상기 제1 내지 제4 음성 신호(S10, S11, S12, S13)를 입력받아, 이들 음성 신호들(S10, S11, S12, S13)에 내재된 추가적인 잡음 신호를 제거하여 주어 사용자의 음성과 거의 유사한 음성 신호(S)를 복원하여 줄 수 있다.
상기 멀티 잡음 제거부(140)는 적응형 빔포밍 필터를 포함할 수 있다.
예컨대, 상기 빔포밍 필터로는 일반화된 사이드로브 캔셀러(GSC: Generalized Beamforming Canceller)가 사용될 수 있다.
상기 제1 내지 제4 잡음 제거부(130, 132, 134, 136)와 상기 멀티 잡음 제거부(140)에 의해 사용자의 음성 신호(S)만이 추출될 수 있다.
다시 도 2를 참조하면, 상기 신호 처리부(40)는 상기 신호 처리부(40)터부터의 음성 신호(S)에 응답하여 사용자가 하고자 하는 것을 수행하도록 한다.
예컨대, 상기 신호 처리부(40)는 상기 음성 신호(S)에 응답하여 볼륨 조절, 화면 분할, 전원 온/오프, 채널 변경 등을 수행할 수 있다.
이상에서 살펴본 바와 같이, 제1 및 제2 스피커로 출력되기 전의 제1 및 제2 오디오 신호(VL,VR)와 제1 및 제2 스피커로 출력된 후 마이크로폰(21, 23, 25, 27)으로 입력된 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호 간의 시간 차이가 상기 제1 내지 제4 신호 지연 보상부(120, 122, 124, 126) 각각에 의해 보상될 수 있다. 이에 따라, 합성 신호(x0, x1, x2, x3)의 제1 및 제2 오디오 신호가 정확하게 제거될 수 있으므로, 잡음 제거 성능이 향상되어 음성 인식의 정확도가 증가될 수 있다.
10: 음성 인식 시스템 20: 마이크로폰 어레이
21, 23, 25, 27: 마이크로폰 30: 오디오 신호 생성부
31: 제1 오디오 신호 생성부 34: 제2 오디오 신호 생성부
40: 신호 처리부 50: 처리 대응부
110: 오디오 신호 변조부 120, 22, 124, 126: 신호 지연 보상부
130, 132, 134, 136: 잡음 제거부 140: 멀티 잡음 제거부

Claims (15)

  1. 오디오 신호를 생성하는 오디오 신호 생성부;
    상기 오디오 신호를 출력하기 위한 스피커;
    사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이;
    상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및
    상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함하되,
    상기 신호 처리부는,
    상기 오디오 신호와 상기 합성 신호 간의 시간 지연을 보상하여 합성 보상 신호를 출력하는 다수의 신호 지연 보상부를 포함하고,
    상기 신호 지연 보상부는,
    상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하기 위한 수단; 및
    상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하기 위한 수단을 포함하고,
    상기 상호 상관도는 하기 식으로부터 산출되는 음성 인식 시스템.
    Figure 112017078737587-pat00014

    단, 0 < τ <F0, i= 0, ..., M-1
    여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F0는 피치(pitch)에 해당하는 샘플 개수를 나타냄.
  2. 제1항에 있어서,
    상기 신호 처리부는,
    상기 신호 지연 보상부 각각으로부터의 상기 합성 보상 신호로부터 잡음을 1차적으로 제거하여 상기 음성 신호를 추출하는 다수의 잡음 제거부; 및
    상기 잡음 제거부 각각으로부터의 상기 음성 신호로부터 잡음을 2차적으로 제거하는 멀티 잡음 제거부를 더 포함하는 음성 인식 시스템.
  3. 제2항에 있어서,
    상기 오디오 신호 생성부는 제1 및 제2 오디오 신호를 생성하고,
    상기 제1 및 제2 오디오 신호를 변조하여 오디오 변조 신호를 생성하는 오디오 신호 변조부를 더 포함하는 음성 인식 시스템.
  4. 제3항에 있어서,
    상기 오디오 신호 변조부는
    상기 제1 및 제2 오디오 신호의 평균값인 음성 인식 시스템.
  5. 제3항에 있어서,
    상기 오디오 변조 신호는 상기 각 신호 지연 보상부에 공통으로 제공되는 음성 인식 시스템.
  6. 제2항에 있어서,
    상기 신호 지연 보상부는,
    상기 시간 지연값을 바탕으로 상기 합성 신호와 상기 오디오 신호를 동기화하기 위한 수단을 더 포함하는 음성 인식 시스템.
  7. 삭제
  8. 오디오 신호를 생성하는 오디오 신호 생성부;
    상기 오디오 신호를 출력하기 위한 스피커;
    사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각각 입력하기 위한 다수의 마이크로폰을 포함하는 마이크로폰 어레이;
    상기 오디오 신호 생성부로부터의 상기 오디오 신호와 상기 마이크로폰 각각으로부터의 합성 신호 간의 시간 지연을 보상하고 상기 음성 신호를 추출하는 신호 처리부; 및
    상기 음성 신호에 응답하여 대응하는 처리 대응부를 포함하되,
    상기 신호 처리부는,
    상기 오디오 신호와 상기 합성 신호 간의 시간 지연을 보상하여 합성 보상 신호를 출력하는 다수의 신호 지연 보상부를 포함하고,
    상기 신호 지연 보상부는,
    상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하기 위한 수단; 및
    상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하기 위한 수단을 포함하고,
    상기 시간 지연값은 하기 식으로부터 산출되는 음성 인식 시스템.
    Figure 112017078737587-pat00015

  9. 제6항에 있어서,
    상기 합성 신호 및 상기 오디오 신호 중 어느 하나를 기준으로 동기화가 이루어지는 음성 인식 시스템.
  10. 제2항에 있어서,
    상기 각 잡음 제거부는 상기 오디오 신호를 바탕으로 상기 합성 신호의 오디오 신호를 제거하는 음성 인식 시스템.
  11. 오디오 신호를 스피커를 통해 출력하는 단계;
    사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계;
    상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계;
    상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및
    상기 음성 신호에 응답하여 대응하는 단계를 포함하되,
    상기 시간 지연을 보상하는 단계는,
    상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하는 단계; 및
    상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하는 단계를 포함하고,
    상기 상호 상관도는 하기 식으로부터 산출되는 음성 인식 방법.
    Figure 112018010983318-pat00016

    단, 0 < τ <F0, i= 0, ..., M-1
    여기서, L은 상관 상호도 길이이고, M은 마이크로폰의 개수이고, τ은 시간 지연값이고, n은 샘플 인덱스이고, i는 채널 인덱스이며, F0는 피치(pitch)에 해당하는 샘플 개수를 나타냄.
  12. 제11항에 있어서,
    상기 시간 지연을 보상하는 단계는,
    상기 시간 지연값을 바탕으로 상기 합성 신호와 상기 오디오 신호를 동기화하는 단계를 더 포함하는 음성 인식 방법.
  13. 제11항에 있어서,
    상기 음성 신호를 추출하는 단계는,
    상기 보상된 합성 신호로부터 잡음을 1차적으로 제거하여 상기 음성 신호를 추출하는 단계; 및
    상기 추출된 음성 신호로부터 잡음을 2차적으로 제거하는 단계를 포함하는 음성 인식 방법.
  14. 제11항에 있어서,
    상기 합성 신호 및 상기 오디오 신호 중 어느 하나를 기준으로 동기화가 이루어지는 음성 인식 방법.
  15. 오디오 신호를 스피커를 통해 출력하는 단계;
    사용자의 음성 신호와 상기 오디오 신호가 혼합된 합성 신호를 각 마이크로폰을 통해 입력하는 단계;
    상기 스피커로부터의 상기 오디오 신호와 상기 각 마이크로폰으로부터의 상기 합성 신호 간의 시간 지연을 보상하는 단계;
    상기 보상된 합성 신호로부터 상기 음성 신호를 추출하는 단계; 및
    상기 음성 신호에 응답하여 대응하는 단계를 포함하되,
    상기 시간 지연을 보상하는 단계는,
    상기 합성 신호와 상기 오디오 신호 간의 상호 상관도를 산출하는 단계; 및
    상기 상호 상관도를 최대가 되게 하는 시간 지연값을 산출하는 단계를 포함하고,
    상기 시간 지연값은 하기 식으로부터 산출되는 음성 인식 방법.
    Figure 112018010983318-pat00017
KR1020110085368A 2011-08-25 2011-08-25 음성 인식 시스템 및 음성 인식 방법 KR101899398B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020110085368A KR101899398B1 (ko) 2011-08-25 2011-08-25 음성 인식 시스템 및 음성 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110085368A KR101899398B1 (ko) 2011-08-25 2011-08-25 음성 인식 시스템 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20130022637A KR20130022637A (ko) 2013-03-07
KR101899398B1 true KR101899398B1 (ko) 2018-10-01

Family

ID=48175238

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110085368A KR101899398B1 (ko) 2011-08-25 2011-08-25 음성 인식 시스템 및 음성 인식 방법

Country Status (1)

Country Link
KR (1) KR101899398B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110956951A (zh) * 2019-12-23 2020-04-03 苏州思必驰信息科技有限公司 一种语音增强采集配件、方法、系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009141560A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声信号処理装置、音声信号処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009141560A (ja) * 2007-12-05 2009-06-25 Sony Corp 音声信号処理装置、音声信号処理方法

Also Published As

Publication number Publication date
KR20130022637A (ko) 2013-03-07

Similar Documents

Publication Publication Date Title
EP2984852B1 (en) Method and apparatus for recording spatial audio
US8036888B2 (en) Collecting sound device with directionality, collecting sound method with directionality and memory product
KR101330771B1 (ko) 동영상 줌 제어 기능과 연동된 음향 줌 장치 및 방법
US8634547B2 (en) Echo canceller operative in response to fluctuation on echo path
US9301033B2 (en) Directional microphone and operating method thereof
US8422694B2 (en) Source sound separator with spectrum analysis through linear combination and method therefor
KR102033309B1 (ko) 운전석 위치를 고려하는 빔 포밍 마이크 제어 장치 및 방법
WO2013075070A1 (en) Processing audio signals
US20110022361A1 (en) Sound processing device, sound processing method, and program
CN107925816B (zh) 用于在波束成形的音频中重新创建方向提示的方法和装置
EP2242286B1 (en) Sound collecting device, sound collecting method, sound collecting program, and integrated circuit
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
US20160286315A1 (en) Sound processing apparatus, crosstalk canceling system and method
KR20080039445A (ko) 멀티 채널 음향 신호 처리 장치
EP3005363A1 (en) Method of audio source separation and corresponding apparatus
KR101160071B1 (ko) 다중인식 음성 인터페이스장치 및 그 방법
KR101899398B1 (ko) 음성 인식 시스템 및 음성 인식 방법
JP2019068133A (ja) 収音装置、プログラム及び方法
US10951978B2 (en) Output control of sounds from sources respectively positioned in priority and nonpriority directions
WO2006132249A1 (ja) 信号分離装置
EP2809086B1 (en) Method and device for controlling directionality
JP6065029B2 (ja) 収音装置、プログラム及び方法
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
KR101607334B1 (ko) 멀티 채널 오디오 디코딩 방법 및 멀티 채널 오디오 코덱
US20140066134A1 (en) Audio processing device, audio processing method, and recording medium recording audio processing program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right