KR100969138B1 - 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 - Google Patents

은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 Download PDF

Info

Publication number
KR100969138B1
KR100969138B1 KR1020080041738A KR20080041738A KR100969138B1 KR 100969138 B1 KR100969138 B1 KR 100969138B1 KR 1020080041738 A KR1020080041738 A KR 1020080041738A KR 20080041738 A KR20080041738 A KR 20080041738A KR 100969138 B1 KR100969138 B1 KR 100969138B1
Authority
KR
South Korea
Prior art keywords
noise
mutual
noise mask
speech
information
Prior art date
Application number
KR1020080041738A
Other languages
English (en)
Other versions
KR20090116055A (ko
Inventor
김홍국
박지훈
윤재삼
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020080041738A priority Critical patent/KR100969138B1/ko
Publication of KR20090116055A publication Critical patent/KR20090116055A/ko
Application granted granted Critical
Publication of KR100969138B1 publication Critical patent/KR100969138B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

잡음 마스크 정보의 추정 정확도를 향상시킬 수 있는 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를 수행하는 장치가 개시된다. 먼저, 잡음이 포함된 음성신호를 청각 주파수 신호 및 포락선 정보로 변환하고, 변환된 청각 주파수 신호 및 포락선 정보에 기초하여 상호크기차이 및 상호시간차이로 구성된 방향파라미터를 획득한 후 상호크기차이 및 상호시간차이를 음성 신호의 시간 변화를 고려하는 은닉 마코프 모델 기반 잡음 마스크 모델로 구성하고 이에 기초하여 잡음 마스크 정보를 추정한다. 따라서, 잡음 마스크 정보의 추정 정확도를 향상시킬 수 있고, 향상된 추정 정확도를 가지는 잡음 마스크 정보를 이용하여 잡음을 제거함으로써 음성 인식의 성능을 향상시킬 수 있다.
음성인식, 전처리기, 잡음 마스크 추정, 은닉마코프모델

Description

은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를 수행하는 장치{Method For Estimating Noise Mask Using Hidden Markov Model And Apparatus For Performing The Same}
본 발명은 음성 인식에 관한 것으로, 더욱 상세하게는 잡음환경에서 음성 인식 성능을 향상시키기 위한 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를 수행하는 장치에 관한 것이다.
최근들어 프로세서 기술의 발전, 다양한 미디어 개발, 신호 및 정보처리 기술의 발전에 힘입어 맨 머신 인터페이스(MMI: Man Machine Interface)의 필요성이 크게 대두되었으며, 음성 인터페이스 기술은 맨 머신 인터페이스의 핵심 기술로 각광받고 있다.
음성 인터페이스 기술에는 음성 신호에 내재된 정보를 분석하여 글자나 문장으로 나타내기 위한 음성 인식 기술, 주어진 단어나 문장을 음성으로 들려주기 위한 음성 합성 기술, 그리고 음성의 주체를 구분하기 위한 화자 인식 기술 등이 있다.
음선 인식(Speech Recognition) 기술은 입력된 신호 중에서 실제 사람이 발 성한 음성 신호만을 검출하여 검출된 음성 신호의 특징을 추출하고, 추출된 특징을 이용하여 기준 음성 모델과 유사도를 측정하여 최종적으로 인식하는 기술이다.
상기와 같은 음성 인식 과정에서 우수한 음성 인식 알고리즘이 사용되는 경우에도 음성 검출이 제대로 이루어지지 않으면 결과적으로 높은 인식율을 기대하기 어렵기 때문에 음성 검출은 인식 성능에 매우 큰 영향을 미친다.
예를 들어, 전화선을 통해 발성한 음성을 인식하는 경우와 같이 잡음이 많은 환경에서는 검출된 음성에 잡음이 포함되는 경우가 많기 때문에 인식 성능이 크게 저하될 수 있다. 따라서, 음성 인식 성능을 향상시키기 위해서는 잡음이 포함된 음성 신호에서 잡음을 효율적으로 제거하는 것이 상당히 중요하다.
잡음이 포함된 음성신호로부터 잡음을 제거하기 위한 기술에는 D.H. Klatt가 제안한 잡음 마스킹(noise masking) 기술이 있다. 잡음 마스킹 기술은 잡음이 포함된 음성에서 각 주파수 밴드 및 시간 프레임 별로 잡음 신호의 포함 정도를 판단하여 해당 영역에서 잡음 신호의 영향을 감소시키는 기술이다.
따라서, 잡음 마스킹 기술을 통해 효율적으로 잡음을 제거하기 위해서는 각 주파수 밴드 및 시간 프레임 별로 잡음 신호의 포함 정도를 나타내는 잡음 마스크 정보를 정확하게 추정할 수 있어야 한다.
잡음 마스크 추정에 대한 종래의 기술로는 가우시안 커널 밀도 기반의 잡음 마스크 추정 기술(N. Roman, D. L. Wang, and G. J. Brown, "Speech segregation based on sound localization," Journal of the Acoustical Society of America, vol. 114, no. 4, pp. 2236-2252, July 2003.)이 있다.
상기 가우시안 커널 밀도 기반의 잡음 마스크 추정 기술은 잡음이 포함된 음성 신호의 방향 파라미터를 가우시안 커널 밀도 추정기에 적용하여 각 주파수 밴드 및 시간 프레임에 대한 잡음 마스크 정보를 학습하고, 학습된 마스크 정보를 이용하여 상기 각 주파수 밴드 및 시간 프레임에서 잡음 마스크 정보를 추정한다.
그러나, 상기 가우시안 커널 밀도 기반의 잡음 마스크 추정 기술은 잡음 마스크의 학습 및 추정 과정에서 음성 신호의 시간 변화를 고려하지 않고, 각 시간 프레임별로 잡음 마스크 정보를 추정함으로써 잡음 마스크 정보 상에 불연속성이 존재하게 되고, 이로 인해 잡음이 포함된 음성으로부터 잡음 마스킹을 통해 검출된음성 신호와, 상기 음성 신호를 통해 추출한 음성 인식 특징 벡터에 시간에 따른 불연속성이 존재하게 된다.
결국, 상기 가우시안 커널 밀도 기반의 잡음 마스크 추정 기술은 음성 인식 특징 벡터의 시간에 대한 불연속성으로 인해 음성 인식의 성능이 저하되는 단점이 있다.
상기와 같은 단점을 극복하기 위한 본 발명의 제1 목적은 잡음 마스크 정보의 추정 정확도를 향상시킬 수 있는 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법을 제공하는 것이다.
또한, 본 발명의 제2 목적은 정확한 잡음 마스크 추정을 통해 음성 인식의 성능을 향상시킬 수 있는 음성 인식 장치를 제공하는 것이다.
상술한 본 발명의 제1 목적을 달성하기 위한 본 발명의 일 측면에 따른 잡음 마스크 추정 방법은, 잡음이 포함된 음성신호를 청각 주파수 신호 및 포락선 정보로 변환하는 청각특성 모델링 단계와, 상기 변환된 청각 주파수 신호 및 상기 포락선 정보에 기초하여 상호크기차이 및 상호시간차이로 구성된 방향파라미터를 획득하는 방향파라미터 획득 단계 및 상기 상호크기차이 및 상호시간차이를 특징벡터로 이용하여 학습된 은닉 마코프 모델 기반의 잡음 마스크 모델에 기초하여 잡음 마스크 정보를 추정하는 잡음 마스크 정보 추정 단계를 포함한다. 상기 청각특성 모델링 단계는 입력된 이중 채널의 상기 잡음이 포함된 음성 신호를 소정 개수의 감마톤 필터로 구성된 감마톤 필터뱅크를 이용하여 상기 청각 주파수 신호로 변환하는 단계 및 상기 변환된 청각 주파수 신호에 기초하여 상기 이중 채널의 각 주파수 밴드 및 시간 프레임별로 상기 포락선 정보를 획득하는 단계를 포함할 수 있다. 상기 방향파라미터 획득 단계는 상기 포락선 정보에 기초하여 각 주파수 밴드 및 시간 프레임 별로 각 채널의 에너지 비를 이용하여 상기 상호크기차이를 획득하는 단계와, 상기 청각 주파수 신호에 기초하여 각 주파수 밴드 및 각 시간 프레임 별로 상기 이중 채널의 좌우 채널에 대한 청각 주파수 신호의 상호상관함수를 구하는 단계 및 상기 상호상관함수가 최고값을 가질때의 지연값을 통해 상기 상호시간차이를 획득하는 단계를 포함할 수 있다. 상기 잡음 마스크 정보 추정 단계는 상기 상호크기차이 및 상호시간차이를 특징벡터로 이용하여 은닉 마코프 모델 기반의 잡음 마스크 모델을 학습하는 단계와, 상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 단계 및 상기 추정된 잡음 마스크 정보를 평활화하는 단계를 포함할 수 있다. 상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 단계는 상기 상호크기차이 및 상기 사호시간차이를 이용하여 각 주파수 밴드 및 시간 프레임별로 음성에 대한 확률과 잡음에 대한 확률을 추정하여 상기 음성에 대한 확률 및 상기 잡음에 대한 확률의 확률비를 구할 수 있다. 상기 추정된 잡음 마스크 정보를 평활화하는 단계는 상기 확률비를 시그모이드(sigmoid) 함수에 적용하여 각 주파수 밴드 및 시간 프레임별로 평활화된 잡음 마스크 정보를 추정할 수 있다.
또한, 본 발명의 제2 목적을 달성하기 위한 본 발명의 일 측면에 따른 음성 인식 장치는, 잡음이 포함된 음성신호로부터 획득한 상호크기차이 및 상호시간차이를 획득하고, 상기 상호크기차이 및 상호시간차이를 이용하여 학습된 은닉 마코프 모델 기반의 잡음 마스크 모델에 기초하여 잡음 마스크 정보를 추정하고 상기 추정된 잡음 마스크 정보에 기초하여 상기 잡음이 포함된 음성신호로부터 잡음을 제거한 후 상기 잡음이 제거된 음성 신호에 대한 특징 벡터를 획득하는 음성 인식 전처리기 및 상기 음성 신호 전처리기로부터 제공된 상기 음성 신호에 대한 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식기를 포함한다. 상기 음성 인식 전처리기는 상기 잡음이 포함된 음성신호를 청각 주파수 신호 및 포락선 정보로 변환하는 청각 특성 모델링부와, 상기 변환된 청각 주파수 신호 및 상기 포락선 정보에 기초하여 상기 상호크기차이 및 상기 상호시간차이를 획득하는 방향 파라미터 추출 부와, 상기 상호크기차이 및 상기 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 잡음 마스크 추정부 및 상기 추정된 잡음 마스크 정보에 기초하여 상기 잡음이 포함된 음성 신호에서 상기 잡음을 제거하고 상기 잡음이 제거된 음성 신호로부터 음성 인식을 위한 상기 특징 벡터를 추출하는 음성 인식 특징 벡터 추출부를 포함할 수 있다. 상기 음성 인식 특징 벡터 추출부는 상기 청각 특성 모델링부로부터 제공된 포락선 정보와, 상기 잡음 마스크 추정부로부터 제공된 잡음 마스크 정보 및 잡음원의 위치를 나타내는 지연값에 기초하여 잡음이 제거된 포락선 정보를 획득하고, 상기 잡음이 제거된 포락선 정보를 이용하여 상기 특징 벡터를 추출할 수 있다. 상기 청각 특성 모델링부는 입력된 이중채널의 상기 잡음이 포함된 음성신호를 청각 주파수 신호로 변환하는 감마톤 필터뱅크 및 상기 청각 주파수 신호에 기초하여 상기 이중채널의 각 주파수 밴드 및 시간 프레임별로 상기 포락선 정보를 획득하는 포락선 추출 모듈을 포함할 수 있다. 상기 방향 파라미터 추출부는 상기 포락선 정보에 기초하여 각 주파수 밴드 및 시간 프레임 별로 각 채널의 에너지 비를 이용하여 상기 상호크기차이를 획득하고, 상기 청각 주파수 신호에 기초하여 각 주파수 밴드 및 각 시간 프레임 별로 상기 이중 채널의 좌우 채널에 대한 상기 청각 주파수 신호의 상호상관함수를 구한 후 상기 상호상관함수가 최고값을 가질때의 지연값을 통해 상기 상호시간차이를 획득할 수 있다. 상기 잡음 마스크 추정부는 상기 상호크기차이 및 상호시간차이를 이용하여 상기 은닉 마코프 모델 기반의 잡음 마스크 모델을 학습하고, 상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정한 후 상기 추정된 잡음 마스 크 정보를 평활화할 수 있다. 상기 잡음 마스크 추정부는 상기 상호크기차이 및 상기 상호시간차이를 이용하여 각 주파수 밴드 및 시간 프레임별로 음성에 대한 확률과 잡음에 대한 확률을 추정하여 상기 음성에 대한 확률 및 상기 잡음에 대한 확률의 확률비를 구한 후 상기 확률비를 시그모이드 함수에 적용하여 각 주파수 밴드 및 시간 프레임별로 평활화된 잡음 마스크 정보를 추정할 수 있다.
상기와 같은 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를 수행하는 장치에 따르면, 은닉 마코프 모델을 이용하여 청각특징 파라미터의 시간 변화에 대한 잡음 마스크 모델을 학습하고 학습된 잡음 마스크 모델로부터 잡음 마스크 정보를 추정한다.
따라서, 잡음 마스크 정보의 추정 정확도를 향상시킬 수 있고, 향상된 추정 정확도를 가지는 잡음 마스크 정보를 이용하여 잡음을 제거함으로써 음성 인식의 성능을 향상시킬 수 있다.
상기와 같은 효과를 가지는 잡음 마스크 추정 방법은 음성 인식과 음성 향상(speech enhancement)등과 같은 다양한 음성 신호 처리 분야에 응용될 수 있고, 맥박 및 심박수 검출 등과 같은 생체신호처리 분야에도 적용될 수 있다. 또한, 잡음이 존재하는 실제 환경에서 텔레매틱스, 홈오토메이션, 지능형 로봇 등과 같은 음성 인식 기반의 맨 머신 인터페이스(MMI)로 사용될 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르 게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타내는 블록도이다.
도 1을 참조하면, 음성 인식 장치(100)는 크게 음성 인식 전처리기(180) 및 음성 인식기(190)로 구성될 수 있고, 음성 인식 전처리기(180)는 청각특성 모델링부(110), 방향 파라미터 추출부(130), 잡음 마스크 추정부(150) 및 음성 인식 특징 벡터 추출부(170)를 포함할 수 있다.
청각특성 모델링부(110)는 감마톤 필터뱅크(Gammatone Filterbank)(111) 및 포락선 추출모듈(113)을 포함할 수 있고, 감마톤 필터뱅크(111)는 사람의 청각특성을 반영하기 위해 50Hz에서 Fs/2Hz 사이의 주파수를 균일 장방형 대역폭(equivalent rectangular bandwidth) 단위로 나눈 M개의 감마톤 필터로 구성될 수 있고, 입력 신호로 FsHz로 표본화된 이중 채널의 잡음이 포함된 음성 신호를 입력받고, 이를 상기 M개의 감마톤 필터를 이용하여 M개의 청각 주파수 신호로 변환시킨다. 본 발명의 실시예에서 상기 Fs는 16kHz, M은 32로 가정한다.
포락선 추출모듈(113)은 감마톤 필터뱅크(111)로부터 청각 주파수 신호
Figure 112008032094516-pat00001
Figure 112008032094516-pat00002
를 제공받고 수학식 1을 이용하여 각 주파수 밴드 및 시간 프레임 별로 음성 인식의 특징 벡터로 사용될 포락선 정보
Figure 112008032094516-pat00003
Figure 112008032094516-pat00004
를 추출한다.
Figure 112008032094516-pat00005
Figure 112008032094516-pat00006
,
상기 수학식 1에서
Figure 112008032094516-pat00007
Figure 112008032094516-pat00008
은 각각 i번째 주파수 밴드와 j번째 시간 프레임에서 좌(L) 우(R) 청각 주파수 신호의 n번째 샘플을 나타내고, N은 한 프레임내의 샘플수이다. 또한,
Figure 112008032094516-pat00009
Figure 112008032094516-pat00010
은 수학식 1을 통해 구한 i번째 주파수 밴드와 j번째 시간 프레임에서의 좌 우 채널 청각 주파수 신호의 포락선 정보를 나타낸다. 본 발명의 실시예에서 N은 16kHz의 표본화율에서 20ms에 해당하는 320으로 설정된 것으로 가정한다.
방향 파라미터 추출부(130)는 잡음이 포함된 음성 신호로부터 잡음을 제거하기 위한 방향 파라미터 정보를 구한다. 이를 위해 방향 파라미터 추출부(130)는 상 호크기차이 추출모듈(131), 상호상관함수 계산모듈(133), 상호시간차이 추출모듈(135)을 포함할 수 있다.
상호크기차이 추출모듈(131)은 포락선 추출모듈(113)로부터
Figure 112008032094516-pat00011
Figure 112008032094516-pat00012
를 제공받고, 수학식 2를 이용하여 각 주파수 밴드 및 시간 프레임 별로 좌 우 채널의 청각 주파수 신호의 에너지 비를 이용하여 상호크기차이(ILD: Interaural Level Difference)를 구한다.
Figure 112008032094516-pat00013
상호상관함수 계산모듈(133)은 감마톤 필터뱅크(111)로부터 청각 주파수 신호
Figure 112008032094516-pat00014
Figure 112008032094516-pat00015
를 제공받고, 수학식 3을 이용하여 각 주파수 밴드 및 시간 프레임 별로 좌 우 채널의 청각 주파수 신호의 상호상관함수(Cross-Correlation)를 계산한다.
Figure 112008032094516-pat00016
수학식 3에서 *는 켤레복소수(conjugate complex)를 나타내고,
Figure 112008032094516-pat00017
는 지연값 을 나타낸다.
상호시간차이 추출모듈(135)은 상호상관함수 계산모듈(133)로부터 상호상관함수
Figure 112008032094516-pat00018
를 제공받고 수학식 4를 이용하여 계산된 상호상관함수가 최고값을 가질 때의 지연값
Figure 112008032094516-pat00019
를 통해 상호시간차이(ITD: Interaural Time Difference)를 구한다.
Figure 112008032094516-pat00020
본 발명의 실시예에서
Figure 112008032094516-pat00021
는 -16부터 16까지의 값을 가지는 것으로 가정하며, 이는 16 kHz 표본화율에서 -1ms부터 1ms에 해당한다.
잡음 마스크 추정부(150)는 방향 파라미터 추출부(130)부로부터 제공된 방향 파라미터 즉,
Figure 112008032094516-pat00022
Figure 112008032094516-pat00023
에 기초하여 잡음이 포함된 음성신호로부터 잡음을 제거하여 음성 신호를 분리하기 위한 잡음 마스크 정보를 추정한다.
여기서, 잡음 마스크 추정부(150)는 잡음 마스크 추정시 청각특징 파라미터의 시간 변화를 반영하기 위해 은닉 마코프 모델(HMM: Hidden Markov Model)을 이용한다. 이하, 본 발명의 실시예에서 잡음 마스크 정보를
Figure 112008032094516-pat00024
로 정의한다.
음성 인식 특징 벡터 추출부(170)는 청각특성 모델링부(110)로부터 제공된 좌 우 채널 청각 주파수 신호의 포락선 정보 즉,
Figure 112008032094516-pat00025
Figure 112008032094516-pat00026
와 잡음 마스크 추정부(150)로부터 제공된 잡음 마스크 정보
Figure 112008032094516-pat00027
에 기초하여 음성 인식 특징 벡터를 추출한다.
상기와 같은 음성 인식 특징 벡터의 추출을 위해 음성 인식 특징 벡터 추출부(170)는 채널선택 모듈(171), 잡음 마스킹 모듈(173) 및 특징 벡터 추출 모듈(175)을 포함할 수 있다.
먼저, 채널선택 모듈(171)은 좌 우 두 개의 채널 중 음성 신호의 음원 위치와 근접한 채널을 선택하기 위해 상기 수학식 3을 통해 구한 각 주파수 밴드 및 시간 프레임별 상호상관함수
Figure 112008032094516-pat00028
를 잡음이 포함된 음성 신호의 전체 프레임과 전체 주파수 밴드에 대해 더한 일괄 상호상관함수(pooled cross-correlation)를 구한 후, 수학식 5를 이용하여 상기 일괄 상호상관함수가 최고값을 가질 때의 지연값
Figure 112008032094516-pat00029
을 찾는다.
Figure 112008032094516-pat00030
여기서, 음성 신호의 음원이 정면에 위치한다는 가정하에, 정면을 나타내는 지연값 0을 제외하고 상기 수학식 5를 통해 얻은
Figure 112008032094516-pat00031
는 잡음원의 위치를 나타낸다.
잡음 마스킹 모듈(173)은 수학식 6과 같이 상기 청각 주파수 신호의 포락선 정보
Figure 112008032094516-pat00032
,
Figure 112008032094516-pat00033
와 상기 수학식 5를 통해 구한 지연값
Figure 112008032094516-pat00034
과, 상기 잡음 마스크 정보
Figure 112008032094516-pat00035
에 기초하여 잡음이 포함된 음성 신호에 잡음이 제거된 포락선 정보
Figure 112008032094516-pat00036
를 구한다.
Figure 112008032094516-pat00037
상기 수학식 6에서
Figure 112008032094516-pat00038
가 양수이면 우측 채널이 잡음원과 근접한 채널임을 나타내고,
Figure 112008032094516-pat00039
가 양수가 아니면 좌측 채널이 잡음원과 근접한 채널임을 나타낸다.
특징 벡터 추출 모듈(175)은 잡음 마스킹 모듈(173)로부터 상기 수학식 6을 통해 구한 잡음이 제거된 포락선 정보
Figure 112008032094516-pat00040
를 제공받고, 이를 이용하여 음성 인식을 위한 특징 벡터를 추출한다.
구체적으로, 특징 벡터는 켑스트럼 계수와 로그 에너지를 합하여 구할 수 있다. j번째 시간 프레임에서 k번째 켑스트럼 계수 c(j,k)는 수학식 7과 같이 이산코사인 변환(Discrete Cosine Transform)을 통해 구한다.
Figure 112008032094516-pat00041
상기 수학식 7에서, I는 전체 주파수 밴드 개수이고, K는 켑스트럼의 전체 개수를 의미한다. 본 발명의 실시예에서 상기 I는 32, K는 12로 설정된 것으로 가정한다.
또한, 로그 에너지 파라메타는 수학식 8을 통해 구할 수 있다.
Figure 112008032094516-pat00042
상기 수학식 8에서
Figure 112008032094516-pat00043
는 j번째 시간 프레임의 에너지를 의미한다.
특징 벡터 추출 모듈(175)은 상기 수학식 7 및 수학식 8을 통해 구한 파라미터를 결합하여 특징 벡터를 구한다. 즉, j번째 시간 프레임에서 특징 벡터는 수학식 9와 같이 표시될 수 있다.
Figure 112008032094516-pat00044
상기 특징 벡터 추출 모듈(175)에서 구해진 음성 인식 특징 벡터는 최종적으로 음성 인식기(190)의 입력으로 제공되어 음성 인식에 사용된다. 음성 인식기(190)에서 수행되는 음성 인식 과정은 공지된 기술에 해당하므로 상세한 설명을 생략한다.
도 1에 도시된 본 발명의 일 실시예에 따른 음성 인식 장치(100)는 하나의 반도체 칩으로 구현될 수 있다. 또는, 도 1에 도시된 음성 인식 장치(100)의 구성요소 중 음성 인식 전처리기(180)는 독립적인 반도체 칩으로 구현될 수 있다.
도 2는 도 1에 도시된 잡음 마스크 추정부의 상세한 구성을 나타내는 블록도이다.
도 2를 참조하면, 잡음 마스크 추정부(150)는 잡음 마스크 모델(151), 비터비 탐색 모듈(153), 시그모이드 함수 모듈(155)을 포함할 수 있고, 청각특징 파라미터의 시간에 따른 변화를 반영하여 잡음 마스크 정보를 추정한다.
잡음 마스크 모델(151)은 학습 데이터를 통해 추출한 방향 파라메타를 특징벡터로 이용하여 은닉 마코프 모델을 학습한다.
구체적으로, 잡음 마스크 모델(151)은 음성과 잡음에 대해 각각 3개의 상태(state)를 갖는 left-to-right 은닉 마코프 모델로 구성되며, 각 상태는 1개의 가우시안 혼합 밀도를 가진다. 학습을 위한 특징벡터로는 도 1의 방향 파라미터 추출부(130)로부터 제공된 방향파라미터 즉, 상호크기차이
Figure 112008032094516-pat00045
및 상호시간차이
Figure 112008032094516-pat00046
로 구성된 2차원 벡터를 사용한다.
또한, 잡음 마스크 모델은 음성과 잡음의 시간 변화에 대한 은닉 마코프 모델 기반의 잡음 마스크 모델을 가지며 주파수 밴드 개수와 동일한 개수 즉, 32개의 하부 모델로 구성된다.
본 발명의 실시예에서, 상기 학습데이터는 각기 다른 3명의 남성과 3명의 여성으로부터 발성된 600개의 단어를 사용하여 인위적으로 이중 채널용 음성 데이터베이스를 구축한 후, 음성신호에 대해 0도에 위치하게 하는 머리 전달함수를 적용하고, 잡음신호에 대해 10도, 20도 및 40도 위치하도록 하는 머리 전달함수를 적용 하여 음성신호와 방향이 전환된 잡음신호를 더해 이중 채널용 테스트 잡음음성 데이터(즉, 잡음이 포함된 음성 데이터)를 제작하였다. 여기서, 잡음은 0dB, 10dB 및 20dB의 신호대잡음비(SNR, Signal-to-Noise Ratio)를 갖도록 가공하였으며, 잡음 신호로는 여성 낭독음, 남성 낭독음, 음악, 군중소리, 자동차 잡음이 사용되었다. 또한, 잡음음성 데이터를 생성하기 위한 음성 신호와 잡음 신호 각각의 에너지 비를 이용하여 각 잡음음성의 주파수 밴드 및 시간 프레임별 레이블링 정보를 생성하였다.
비터비 탐색 모듈(153)은 학습된 은닉 마코프 모델과 방향 파라미터
Figure 112008032094516-pat00047
Figure 112008032094516-pat00048
를 이용하여 각 주파수 밴드 및 시간 프레임별로 비터비 탐색을 통해 음성에 대한 확률과 잡음에 대한 확률을 추정하고 이에 따른 확률비를 수학식 10과 같이 구한다.
Figure 112008032094516-pat00049
상기 수학식 10에서
Figure 112008032094516-pat00050
는 i번째 주파수 밴드와 j번째 시간 프레임에서의 음성과 잡음 각각에 대한 확률의 비를 나타내며,
Figure 112008032094516-pat00051
Figure 112008032094516-pat00052
는 해당 영역에서의 은닉 마코프 모델에 의해 추정된 음성과 잡음에 대한 확률을 각각 나타낸다.
시그모이드 함수 모듈(155)는 상기 확률비
Figure 112008032094516-pat00053
를 시그모이드(sigmoid) 함수에 적용하여 각 주파수 밴드 및 시간 프레임별로 평활화된 잡음 마스크 정보를 최종적으로 추정한다.
Figure 112008032094516-pat00054
상기 수학식 11에서
Figure 112008032094516-pat00055
는 i번째 주파수 밴드와 j번째 시간 프레임에서의 잡음 마스크 정보를 의미하고, a는 시그모이드 함수의 기울기를 나타낸다. 본 발명의 실시예에서는 실험적인 방법을 통해 a를 3.7로 설정한 것으로 가정한다.
상기 수학식 11을 통해 추정된 잡음 마스크 정보
Figure 112008032094516-pat00056
는 도 1에 도시된 잡음 마스킹 모듈(173)에 제공되어 잡음이 포함된 음성 신호로부터 잡음을 제거하기 위해 사용된다.
도 3은 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 과정을 나타내는 흐름도이다.
도 3을 참조하면, 먼저 이중 채널의 잡음이 포함된 음성 신호를 감마톤 필터뱅크를 이용하여 청각 주파수 신호(
Figure 112008032094516-pat00057
Figure 112008032094516-pat00058
)로 변환한 후(단계 301), 수학식 1을 이용하여 상기 청각 주파수 신호로부터 포락선 정보(
Figure 112008032094516-pat00059
Figure 112008032094516-pat00060
)를 추출한다(단계 303).
이후, 수학식 2를 이용하여 상기 포락선 정보로부터 상호크기차 이(
Figure 112008032094516-pat00061
)를 구한다(단계 305).
또한, 단계 301에서 구한 청각 주파수 신호(
Figure 112008032094516-pat00062
Figure 112008032094516-pat00063
)를 수학식 3에 적용하여 각 주파수 밴드 및 시간 프레임별로 좌 우 채널의 청각 주파수 신호의 상호상관함수
Figure 112008032094516-pat00064
를 계산한 후(단계 307), 계산된 상호상관함수가 최고값을 가질 때의 지연값
Figure 112008032094516-pat00065
를 통해 상호시간차이
Figure 112008032094516-pat00066
를 구한다(단계 309).
이후, 단계 305 및 단계 309에서 구한 방향 파라미터 즉,
Figure 112008032094516-pat00067
Figure 112008032094516-pat00068
에 기초하여 잡음 마스크 정보를 추정한다(단계 310).
잡음 마스크 정보의 추정 과정은, 먼저 학습 데이터를 통해 추출한 방향 파라미터를 특징 벡터로 이용하여 은닉 마코프 모델을 학습하고(단계 311), 학습된 모델과 방향 파라미터를 이용하여 음성 및 잡음에 대한 확률비를 수학식 10을 통해 구한 후(단계 313), 구해진 확률비를 수학식 11과 같이 시그모이드 함수에 적용하여 잡음 마스크 정보(
Figure 112008032094516-pat00069
)를 최종적으로 추정한다(단계 315).
이후, 청각 주파수 신호의 포락선 정보(
Figure 112008032094516-pat00070
Figure 112008032094516-pat00071
)와, 상호상관함수를 잡음이 포함된 음성 신호의 전체 프레임과 전체 주파수 밴드에 대해 더한 일괄상호상관함수가 최고값을 가질때의 지연값(
Figure 112008032094516-pat00072
)과, 상기 잡음 마스크 정보(
Figure 112008032094516-pat00073
)에 기초하여 잡음이 제거된 포락선 정보(
Figure 112008032094516-pat00074
)를 구한다(단계 317).
그리고, 상기 잡음이 제거된 포락선 정보(
Figure 112008032094516-pat00075
)로부터 음성 인식을 위한 특징 벡터를 추출한 후(단계 319), 추출된 특징 벡터에 기초하여 음성을 인식한다(단계 321).
도 4는 본 발명의 일 실시예에 따른 잡음 마스크 추정 방법을 통해 추정된 잡음 마스크 정보를 종래의 잡음 마스크 추정 방법을 통해 추정된 잡음 마스크 정보와 비교한 결과를 나타낸다.
도 4의 (a)는 0도에 위치한 음성신호와 40도 위치한 여성의 낭독음 잡음이 10 dB의 신호대잡음비로 혼합된 신호의 스펙트로그램을 나타내며, 도 4의 (b)는 도 4의 (a)에 도시된 잡음 음성(즉, 잡음이 포함된 음성 신호)으로부터 이상적인 잡음 마스크 추정 방법을 통해 획득한 잡음 마스크 정보를 나타내며, 도 4의 (c)는 가우시안 커널 밀도 기반 잡음 마스크 추정 방법에 의해 획득한 잡음 마스크 정보를 나타낸다. 그리고, 도 4의 (d)는 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법에 기초하여 획득한 잡음 마스크 정보를 나타낸다.
도 4에서 흰색은 음성 구간을 나타내고, 검은색은 잡음구간을 나타낸다. 또한, 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법의 비교를 위해 잡음이 포함된 음성 신호를 생성하기 이전의 음성 신호와 잡음신호의 주파수밴드 및 시간 프레임 별 에너지의 비를 통해 도 4의 (b)에 도시된 바와 같이 이상적인 잡음 마스크 정보를 얻었다.
도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법을 통해 획득한 잡음 마스크 정보(도 4의 (d))가 종래의 가우시안 커널 밀도 기반 잡음 마스크 추정 방법을 통해 얻은 잡음 마스크 정보(도 4의 (c))에 비해 음성 구간 내에서 잡음으로 인한 불연속성이 적게 나타나며, 이상적인 잡음 마스크 정보(즉, 도 4의 (b))와 매우 유사함을 알 수 있다.
도 5는 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법의 성능 평가 결과를 나타내는 것으로, 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법의 성능을 검증하기 위해 음성 인식 실험의 결과를 도시하였다.
먼저, 성능 비교를 위해 음성 인식 전처리기(180)의 잡음 마스크 추정부(150)에 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 뿐만 아니라 종래의 가우시안 커널 밀도 기반 잡음 마스크 추정 방법 및 이상적인 잡음 마스크 추정 방법을 적용하여 실험을 진행하였다.
또한, 이중 채널 환경에서 인식성능을 평가하기 위해 ETRI 한국어 헤드셋 인식용 단어 데이터베이스(김상훈, 오승신, 정호영, 전형배, 김정세, "공통음성 DB 구축," 한국음향학회 하계학술대회논문집, 제21권, 제1(s)호, pp. 21-24, 2002년 7월.)를 사용하여 인위적으로 이중채널용 음성 데이터베이스를 구축하였다. 음성인식 시스템의 학습에는 18,240개의 단어음성을, 인식 테스트에는 570개의 단어음성을 각각 사용하였으며, 각 음성신호에 대해 0도에 위치하게 하는 머리 전달함수를 적용하였다. 또한 여성의 낭독체 음성과 음악을 잡음신호로 사용하여, 10도, 20도 및 40도 위치하도록 하는 머리 전달함수를 적용하여 음성 신호와 방향이 전환된 잡음신호를 더해 이중 채널용 테스트 잡음 음성 데이터베이스를 제작하였다. 이때 잡 음은 0 dB, 10 dB 및 20 dB의 신호대잡음비를 갖도록 가공하였다.
또한, 음성인식 시스템은 트라이폰(triphone) 단위의 은닉 마코프 모델을 기반으로 하며, 각 트라이폰은 3개의 상태를 갖는 left-to-right로 표현되었다. 이 때 각 상태는 4개의 혼합밀도를 가지며, 결정 트리(decision tree)를 통해 트라이폰들의 상태를 결합하여 총 2,296개의 상태를 갖는 음향모델을 구성하였다. 인식시스템에서 사용된 어휘수는 2,250 단어이며 유니그램을 사용하였다.
도 5의 (a)는 여성 낭독음 잡음 환경에서 잡음 마스크 추정 방법에 기초한 단어 오인식률(word error rate)을 나타낸 것이고, 도 5의 (b)는 음악 잡음 환경에서 잡음 마스크 추정 방법에 기초한 단어 오인식률을 나타낸 것이다.
또한, 도 5의 (a) 및 (b)에서 각 신호대잡음비에서의 단어 오인식률은 잡음 신호가 음성 신호에 비해 10도, 20도, 40도에 위치할 때의 단어 오인식률의 평균값을 나타낸다.
도 5에 도시된 바와 같이 각기 다른 음성신호와 잡음 간의 위치 차이, 신호대잡음비, 잡음 종류 등의 요소들의 결과를 평균한 결과, 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법을 적용한 경우의 단어 오인식률이 기존의 가우시안 커널 밀도 기반 잡음 마스크 모델을 이용한 경우보다 69.14% 만큼 향상됨을 알 수 있다.
이상 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타내는 블록도이다.
도 2는 도 1에 도시된 잡음 마스크 추정부의 상세한 구성을 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 과정을 나타내는 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 잡음 마스크 추정 방법을 통해 추정된 잡음 마스크 정보를 종래의 잡음 마스크 추정 방법을 통해 추정된 잡음 마스크 정보와 비교한 결과를 나타낸다.
도 5는 본 발명의 일 실시예에 따른 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법의 성능 평가 결과를 나타낸다.
* 도면의 주요부분에 대한 부호의 설명 *
110 : 청각특성 모델링부 130 : 방향 파라미터 추출부
150 : 잡음 마스크 추정부 151 : 잡음 마스크 모델
153 : 비터비 탐색 모듈 155 : 시그모이드 함수 모듈

Claims (13)

  1. 잡음이 포함된 이중 채널의 음성신호를 청각 주파수 신호 및 포락선 정보로 변환하는 청각특성 모델링 단계;
    상기 변환된 청각 주파수 신호 및 상기 포락선 정보에 기초하여 상호크기차이 및 상호시간차이로 구성된 방향파라미터를 획득하는 방향파라미터 획득 단계; 및
    상기 상호크기차이 및 상호시간차이를 특징벡터로 이용하여 학습된 은닉 마코프 모델 기반의 잡음 마스크 모델에 기초하여 잡음 마스크 정보를 추정하는 잡음 마스크 정보 추정 단계를 포함하되,
    상기 방향파라미터 획득 단계는
    상기 포락선 정보에 기초하여 각 주파수 밴드 및 시간 프레임 별로 각 채널의 에너지 비를 이용하여 상기 이중 채널의 좌우 채널에 대한 상기 상호크기차이를 획득하는 단계;
    상기 청각 주파수 신호에 기초하여 각 주파수 밴드 및 각 시간 프레임 별로 상기 이중 채널의 좌우 채널에 대한 청각 주파수 신호의 상호상관함수를 구하는 단계; 및
    상기 상호상관함수가 최고값을 가질때의 지연값을 통해 상기 상호시간차이를 획득하는 단계를 포함하는 것을 특징으로 하는 잡음 마스크 추정 방법.
  2. 제1항에 있어서, 상기 청각특성 모델링 단계는
    상기 잡음이 포함된 이중 채널의 음성신호를 소정 개수의 감마톤 필터로 구성된 감마톤 필터뱅크를 이용하여 상기 청각 주파수 신호로 변환하는 단계; 및
    상기 변환된 청각 주파수 신호에 기초하여 상기 이중 채널의 각 주파수 밴드 및 시간 프레임별로 상기 포락선 정보를 획득하는 단계를 포함하는 것을 특징으로 하는 잡음 마스크 추정 방법.
  3. 삭제
  4. 제1항에 있어서, 상기 잡음 마스크 정보 추정 단계는
    상기 상호크기차이 및 상호시간차이를 특징벡터로 이용하여 은닉 마코프 모델 기반의 잡음 마스크 모델을 학습하는 단계;
    상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 단계; 및
    상기 추정된 잡음 마스크 정보를 평활화하는 단계를 포함하는 잡음 마스크 추정 방법.
  5. 제4항에 있어서, 상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 단계는
    상기 상호크기차이 및 상기 상호시간차이를 이용하여 각 주파수 밴드 및 시간 프레임별로 음성에 대한 확률과 잡음에 대한 확률을 추정하여 상기 음성에 대한 확률 및 상기 잡음에 대한 확률의 확률비를 구하는 것을 특징으로 하는 잡음 마스크 추정 방법.
  6. 제5항에 있어서, 상기 추정된 잡음 마스크 정보를 평활화하는 단계는
    상기 확률비를 시그모이드(sigmoid) 함수에 적용하여 각 주파수 밴드 및 시간 프레임별로 평활화된 잡음 마스크 정보를 추정하는 것을 특징으로 하는 잡음 마스크 추정 방법.
  7. 잡음이 포함된 이중 채널의 음성신호로부터 상호크기차이 및 상호시간차이를 획득하고, 상기 상호크기차이 및 상호시간차이를 이용하여 학습된 은닉 마코프 모델 기반의 잡음 마스크 모델에 기초하여 잡음 마스크 정보를 추정하고 상기 추정된 잡음 마스크 정보에 기초하여 상기 잡음이 포함된 음성신호로부터 잡음을 제거한 후 상기 잡음이 제거된 음성 신호에 대한 특징 벡터를 획득하는 음성 인식 전처리기; 및
    상기 음성 신호 전처리기로부터 제공된 상기 음성 신호에 대한 특징 벡터를 이용하여 음성 인식을 수행하는 음성 인식기를 포함하되,
    상기 음성 인식 전처리기는
    상기 잡음이 포함된 이중 채널의 음성신호를 청각 주파수 신호 및 포락선 정보로 변환하고 상기 포락선 정보에 기초하여 각 주파수 밴드 및 시간 프레임 별로 각 채널의 에너지 비를 이용하여 상기 이중 채널의 좌우 채널에 대한 상호크기차이를 획득하고, 상기 청각 주파수 신호에 기초하여 각 주파수 밴드 및 각 시간 프레임 별로 상기 이중 채널의 좌우 채널에 대한 청각 주파수 신호의 상호상관함수를 구한 후, 상기 상호상관함수가 최고값을 가질때의 지연값을 통해 상기 상호시간차이를 획득하는 것을 특징으로 하는 음성 인식 장치.
  8. 제7항에 있어서, 상기 음성 인식 전처리기는
    상기 잡음이 포함된 이중 채널의 음성신호를 상기 청각 주파수 신호 및 상기 포락선 정보로 변환하는 청각 특성 모델링부;
    상기 변환된 청각 주파수 신호 및 상기 포락선 정보에 기초하여 상기 상호크기차이 및 상기 상호시간차이를 획득하는 방향 파라미터 추출부;
    상기 상호크기차이 및 상기 상호시간차이에 기초하여 잡음 마스크 정보를 추정하는 잡음 마스크 추정부; 및
    상기 추정된 잡음 마스크 정보에 기초하여 상기 잡음이 포함된 음성 신호에서 상기 잡음을 제거하고 상기 잡음이 제거된 음성 신호로부터 음성 인식을 위한 상기 특징 벡터를 추출하는 음성 인식 특징 벡터 추출부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  9. 제8항에 있어서, 상기 음성 인식 특징 벡터 추출부는
    상기 청각 특성 모델링부로부터 제공된 포락선 정보와, 상기 잡음 마스크 추정부로부터 제공된 잡음 마스크 정보 및 잡음원의 위치를 나타내는 지연값에 기초하여 잡음이 제거된 포락선 정보를 획득하고, 상기 잡음이 제거된 포락선 정보를 이용하여 상기 특징 벡터를 추출하는 것을 특징으로 하는 음성 인식 장치.
  10. 제8항에 있어서, 상기 청각 특성 모델링부는
    입력된 이중채널의 상기 잡음이 포함된 음성신호를 청각 주파수 신호로 변환하는 감마톤 필터뱅크; 및
    상기 청각 주파수 신호에 기초하여 상기 이중채널의 각 주파수 밴드 및 시간 프레임별로 상기 포락선 정보를 획득하는 포락선 추출 모듈을 포함하는 것을 특징으로 하는 음성 인식 장치.
  11. 삭제
  12. 제8항에 있어서, 상기 잡음 마스크 추정부는
    상기 상호크기차이 및 상호시간차이를 이용하여 상기 은닉 마코프 모델 기반의 잡음 마스크 모델을 학습하고, 상기 학습된 잡음 마스크 모델 및 상기 상호크기차이 및 상호시간차이에 기초하여 잡음 마스크 정보를 추정한 후 상기 추정된 잡음 마스크 정보를 평활화하는 것을 특징으로 하는 음성 인식 장치.
  13. 제12항에 있어서, 상기 잡음 마스크 추정부는
    상기 상호크기차이 및 상기 상호시간차이를 이용하여 각 주파수 밴드 및 시간 프레임별로 음성에 대한 확률과 잡음에 대한 확률을 추정하여 상기 음성에 대한 확률 및 상기 잡음에 대한 확률의 확률비를 구한 후 상기 확률비를 시그모이드 함수에 적용하여 각 주파수 밴드 및 시간 프레임별로 평활화된 잡음 마스크 정보를 추정하는 것을 특징으로 하는 음성 인식 장치.
KR1020080041738A 2008-05-06 2008-05-06 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치 KR100969138B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080041738A KR100969138B1 (ko) 2008-05-06 2008-05-06 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080041738A KR100969138B1 (ko) 2008-05-06 2008-05-06 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치

Publications (2)

Publication Number Publication Date
KR20090116055A KR20090116055A (ko) 2009-11-11
KR100969138B1 true KR100969138B1 (ko) 2010-07-08

Family

ID=41600873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080041738A KR100969138B1 (ko) 2008-05-06 2008-05-06 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치

Country Status (1)

Country Link
KR (1) KR100969138B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101702561B1 (ko) 2010-08-30 2017-02-03 삼성전자 주식회사 음원출력장치 및 이를 제어하는 방법
BR112015001297A2 (pt) * 2012-07-24 2017-07-04 Koninklijke Philips Nv sistema configurado para o mascaramento de um som incidente sobre uma pessoa; subsistema de processamento de sinal para uso no sistema; método para o mascaramento de um som incidente sobre uma pessoa; e software de controle para ser executado em um computador
KR102136700B1 (ko) * 2020-03-31 2020-07-23 한국건설기술연구원 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
CN112187382B (zh) * 2020-08-24 2022-05-20 宁波大学 一种基于粘性隐马尔可夫模型的噪声功率估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050037125A (ko) * 2003-10-17 2005-04-21 학교법인 포항공과대학교 히든 마코프 모델을 이용한 음성 인식장치
KR20050063995A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 음성인식을 위한 학습과 인식 방법 및 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050037125A (ko) * 2003-10-17 2005-04-21 학교법인 포항공과대학교 히든 마코프 모델을 이용한 음성 인식장치
KR20050063995A (ko) * 2003-12-23 2005-06-29 한국전자통신연구원 음성인식을 위한 학습과 인식 방법 및 시스템

Also Published As

Publication number Publication date
KR20090116055A (ko) 2009-11-11

Similar Documents

Publication Publication Date Title
Srinivasan et al. Binary and ratio time-frequency masks for robust speech recognition
Giri et al. Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning
Sehr et al. Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
CN111899756B (zh) 一种单通道语音分离方法和装置
Karbasi et al. Twin-HMM-based non-intrusive speech intelligibility prediction
EP0470245A1 (en) SPECTRAL EVALUATION PROCEDURE FOR IMPROVING RESISTANCE TO NOISE IN VOICE RECOGNITION.
JPH075892A (ja) 音声認識方法
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
Abdelaziz et al. Twin-HMM-based audio-visual speech enhancement
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
Yamamoto et al. Making a robot recognize three simultaneous sentences in real-time
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
KR101610708B1 (ko) 음성 인식 장치 및 방법
Astudillo et al. A MMSE estimator in mel-cepstral domain for robust large vocabulary automatic speech recognition using uncertainty propagation
Almajai et al. Visually-derived Wiener filters for speech enhancement
Ning Developing an isolated word recognition system in MATLAB
Morales et al. Adding noise to improve noise robustness in speech recognition.
Soni et al. Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition
Sailaja et al. Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm
JP2003076393A (ja) 騒音環境下における音声推定方法および音声認識方法
Krishnamoorthy et al. Application of combined temporal and spectral processing methods for speaker recognition under noisy, reverberant or multi-speaker environments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130628

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150702

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160712

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee