KR101610708B1 - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR101610708B1
KR101610708B1 KR1020080115852A KR20080115852A KR101610708B1 KR 101610708 B1 KR101610708 B1 KR 101610708B1 KR 1020080115852 A KR1020080115852 A KR 1020080115852A KR 20080115852 A KR20080115852 A KR 20080115852A KR 101610708 B1 KR101610708 B1 KR 101610708B1
Authority
KR
South Korea
Prior art keywords
noise
mask
speech
signal
obtaining
Prior art date
Application number
KR1020080115852A
Other languages
English (en)
Other versions
KR20100056859A (ko
Inventor
김홍국
윤재삼
박지훈
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020080115852A priority Critical patent/KR101610708B1/ko
Publication of KR20100056859A publication Critical patent/KR20100056859A/ko
Application granted granted Critical
Publication of KR101610708B1 publication Critical patent/KR101610708B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

본 발명에 따른 음성 인식 장치는 다채널 음성 신호로부터 음성마스크를 추정하는 음성마스크 추정부; 상기 음성마스크 추정부에서 추정된 음성마스크를 이용하여 잡음성분을 제거하는 잡음성분 제거부; 상기 잡음성분 제거부로부터 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 음성합성부; 상기 음성마스크를 이용하여 잡음모델 및 신호-대-잡음비를 추정하고, 잡음 모델 및 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 생성하는 음향 모델 생성부; 상기 음성합성부로부터 출력된 음성 신호로부터 음성특징을 추출하는 특징 추출부; 및 상기 특징 추출부에서 얻어진 음성특징과 잡음에 적응된 음향모델을 이용하여 음성인식 결과를 구하는 디코딩부를 포함한다.
Figure R1020080115852
음성마스크, 잡음모델

Description

음성 인식 장치 및 방법{Voice recognition apparatus and method}
본 발명은 잡음 환경에서 동작하는 음성 인식 장치 및 방법에 관한 것으로, 더욱 상세히 설명하면, 다채널 음원 분리 기법에 의해 처리된 후 남겨진 잡음 성분을 제거하는 음성 인식 장치 및 방법에 관한 것이다.
음성은 인간의 가장 기본적이고 자연스러운 의사소통 수단이다. 인간의 청각 시스템은 다양한 잡음 환경에 원하는 소리만 선택하여 인지할 수 있다. 이를 위해, 인간의 청각 시스템은 양 청신경을 통해 들어오는 신호들의 시간차이(inter-aural time difference; ITD)와 크기 차이(inter-aural level difference; ILD)를 이용하여 원하는 소리가 발생하는 음원의 방향을 찾은 뒤, 원하는 소리를 다른 음원들에서 발생하는 소리들로부터 분리한다.
이와 유사하게, 마스크 기반의 다채널 음원 분리 기법인 CASA(computational auditory scene analysis)에서도 두개의 마이크로폰으로 입력되는 신호들 간의 ITD와 ILD를 이용한다. ITD와 ILD로부터 시간-주파수 마스크를 계산한 뒤, 잡음을 갖는 음성 신호에 마스크를 적용함으로써 원하는 음성 신호를 분리할 수 있다.
도 1은 가우시안커널-기반 마스크를 이용하여 잡음이 제거된 음성의 합성 신 호 예를 보여준다. 가우시안커널-기반의 마스크(Gaussian kernel-based mask) 추정 방법에 대해서는 D. L. Wang and G. J. Brown, Computational Auditory Scene Analysis: Principle, Algorithms and Applications, IEEEPress, Wiley-Interscience, 2006 및 N.Roman, D.L.Wang, and G.J.Brown, "Speech segregation based on sound localization," J. Acoust. Soc. Amer., vol. 114, no. 4, pp. 2236-2252, July 2003에 상세히 설명되어 있다.
도 1의 (a)는 잡음이 없는 음성신호을 나타내며, 도 1의 (b)는 잡음이 더해진 음성신호(0 dB SNR)를 나타내고, 도 1의 (c) 가우시안커널-기반 마스크를 통해 잡음이 제거된 음성신호를 나타낸다.
도 1에 도시된 바와 같이, 잡음이 없는 음성신호 (a)와 비교하여 잡음이 제거된 신호 (c)를 보면, 여전히 잡음신호가 남아 있음을 알 수 있다. 이렇게 잡음이 남은 신호를 이용할 경우, 음성인식 성능의 저하를 야기할 수 있기 때문에, 잔여 잡음을 보상할 필요가 있다.
이와 같이 종래 방식에서는 실제 환경에서 음성마스크를 추정에 있어 이상적인 음성마스크를 얻을 수 없기 때문에 잔여 잡음이 발생하게 되어 음성인식 성능에 제약을 가져오는 원인이 된다.
즉, 다채널 음원분리 기술을 통해 잡음을 제거한 음성신호를 보면 잡음이 완전히 제거되지 않아 음성인식 성능향상에 제약을 가져오는 단점이 있다. 이는 특히, 낮은 신호-대-잡음비 환경에서 제약이 심하다.
따라서, 종래 방식에서 얻어진 음성마스크를 효율적으로 이용하여 잡음 특성 을 얻어 잡음에 적응한 음향모델을 추정하는 과정을 통해 음성인식 성능을 더욱 향상시킬 수 있는 기술이 절실히 요구되고 있다.
본 발명은 상기와 같은 문제점을 해결하고 상기와 같은 요구에 부응하기 위하여 제안된 것으로, 잡음환경에서 음성 인식 성능을 향상시키는 음성 인식 장치 및 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음성 인식 장치는 다채널 음성 신호로부터 음성마스크를 추정하는 음성마스크 추정부; 상기 음성마스크 추정부에서 추정된 음성마스크를 이용하여 잡음성분을 제거하는 잡음성분 제거부; 상기 잡음성분 제거부로부터 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 음성합성부; 상기 음성마스크를 이용하여 잡음모델 및 신호-대-잡음비를 추정하고, 잡음 모델 및 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 생성하는 음향 모델 생성부; 상기 음성합성부로부터 출력된 음성 신호로부터 음성특징을 추출하는 특징 추출부; 및 상기 특징 추출부에서 얻어진 음성특징과 잡음에 적응된 음향모델을 이용하여 음성인식 결과를 구하는 디코딩부를 포함한다.
여기에서, 상기 음성마스크 추정부는 외부로부터 입력받은 음성신호를 여러 주파수대역으로 분리하는 감마-톤 필터링부; 상기 감마-톤 필터링부를 통해 분리된 신호로부터 마이크로폰 채널간 시간 차이를 추정하는 채널간 시간차이 추정부; 상 기 감마-톤 필터링부를 통해 분리된 신호로부터 마이크로폰 채널간 레벨 차이를 추정하는 채널간 레벨차이 추정부; 및 상기 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성마스크를 구하는 음성마스크 산출부를 포함한다.
여기에서, 상기 음향 모델 생성부는 상기 음성마스크 추정부에서 추정된 음성마스크로부터 잡음마스크를 구하는 잡음마스크 연산부; 상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 구하는 마스크-기반 잡음모델 추정부; 상기 음성마스크와 잡음마스크를 이용하여 신호-대-잡음비를 구하는 마스크-기반 신호-대-잡음비 추정부; 및 상기 추정된 잡음모델과 상기 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 구하는 음향모델 적응부를 포함한다.
여기에서, 상기 마스크-기반 잡음모델 추정부는 상기 음성마스크를 이용하여 잡음마스크를 구하는 잡음 마스크 연산부; 상기 잡음 마스크를 상기 감마-톤 필터링된 신호와 곱함으로써 음성성분을 제거하는 음성 제거부; 상기 음성 성분이 제거된 신호로부터 잡음 신호를 합성하는 잡음 합성부; 상기 잡음 신호의 특징을 추출하는 특징 추출부; 및 상기 잡음 신호의 특징을 이용하여 잡음 모델을 구하는 잡음 모델 연산부를 포함한다.
여기에서, 상기 마스크-기반 신호-대-잡음비 추정부는 상기 음성마스크의 주파수 채널상 평균값을 구하는 음성 마스크 평균 연산부; 상기 잡음마스크의 주파수 채널상 평균값을 구하는 잡음마스크 평균 연산부; 상기 음성마스크 평균값을 이용하여 잡음 프레임을 검출하는 잡음 프레임 검출부; 및 상기 잡음 프레임에 대한 주 파수상의 음성마스크 평균값과 주파수상의 잡음 마스크 평균값을 구하고, 이들 평균값 간의 비율로 신호-대 잡음비를 구하는 신호-대-잡음비 연산부를 포함한다.
또한, 본 발명의 일 실시예에 따른 음성 인식 방법은 다채널 음성 신호로부터 음성마스크를 추정하는 단계; 상기 추정된 음성마스크를 이용하여 잡음성분을 제거하는 단계; 상기 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 단계; 상기 음성마스크를 이용하여 잡음모델 및 신호-대-잡음비를 추정하고, 상기 잡음 모델 및 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 생성하는 단계; 상기 합성된 음성 신호로부터 음성특징을 추출하는 단계; 및 상기 음성특징과 잡음에 적응된 음향모델을 이용하여 음성인식 결과를 구하는 단계를 포함한다.
여기에서, 상기 음성마스크 추정 단계는, 외부로부터 입력받은 음성신호를 감마-톤 필터링을 이용하여 여러 주파수대역으로 분리하는 단계; 상기 분리된 신호로부터 마이크로폰 채널간 시간 차이를 추정하는 단계; 상기 분리된 신호로부터 마이크로폰 채널간 레벨 차이를 추정하는 단계; 및 상기 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성마스크를 구하는 단계를 포함한다.
여기에서, 상기 음향 모델 생성 단계는 상기 추정된 음성마스크로부터 잡음마스크를 구하는 단계; 상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 추정하는 단계; 상기 음성마스크와 잡음마스크를 이용하여 신호-대-잡음비를 추정하는 단계; 및 상기 추정된 잡음모델과 상기 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 구하는 단계를 포함한다.
여기에서, 상기 잡음모델을 추정하는 단계는 상기 음성마스크를 이용하여 잡음마스크를 구하는 단계; 상기 잡음 마스크를 상기 감마-톤 필터링된 신호와 곱함으로써 음성성분을 제거하는 단계; 상기 음성 성분이 제거된 신호로부터 잡음 신호를 합성하는 단계; 상기 잡음 신호의 특징을 추출하는 단계; 및 상기 잡음 신호의 특징을 이용하여 잡음 모델을 구하는 단계를 포함한다.
여기에서, 상기 신호-대-잡음비를 추정하는 단계는 상기 음성마스크의 주파수 채널상 평균값을 구하는 단계; 상기 잡음마스크의 주파수 채널상 평균값을 구하는 단계; 상기 음성마스크 평균값을 이용하여 잡음 프레임을 검출하는 단계; 및 상기 잡음 프레임에 대한 주파수상의 음성마스크 평균값과 주파수상의 잡음 마스크 평균값을 구하고, 이들 평균값 간의 비율로 신호-대 잡음비를 구하는 단계를 포함한다.
본 발명에 따르면 음성인식을 위한 마스크-기반 다채널 음원분리 기법에서 남겨진 잡음에 대한 음향모델 보상하여 음성인식 성능을 향상시키는 효과가 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소 에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 2는 본 발명에 따른 음성 인식 장치에 대한 일실시예의 구성도를 나타낸다.
본 발명에 따른 음성 인식 장치는 A/D 컨버터(10), 음성마스크 추정부(20), 잡음성분 제거부(30), 음성합성부(40), 음향 모델 생성부(200), 특징 추출부(310) 및 비터비 디코딩부(320)를 포함한다. 도면부호 100에 의해 지시된 부분은 다채널 음원 분리 모듈이며, 도면부호 300에 의해 지시된 부분은 음성 디코딩부이다.
A/D 컨버터(10)는 외부의 다채널 마이크로폰들(마이크로폰1 및 마이크로폰2)로부터 각각 입력되는 다채널 음성 신호, 예컨대, 우채널 음성 신호 및 좌채널 음성 신호를 각각 디지털 신호로 변환한다.
음성마스크 추정부(20)는 A/D 컨버터(10)의 출력단에 연결되어 A/D 컨버터(10)로부터 디지털 형태의 다채널 음성 신호를 수신하고 다채널 음성 신호로부터 음성 마스크를 추정한다. 도 3은 이러한 음성마스크 추정부(20)의 상세 구성도를 나타낸다.
도 3을 참조하면, 음성마스크 추정부(20)는 감마-톤 필터링부 (21), 채널간 신호 차이 추정부(22), 레벨 연산부(23), 채널간 레벨 차이 추정부(24), 음성마스크 산출부(25)를 포함한다.
감마-톤 필터링부(21)는 외부로부터 입력받은 음성신호를 여러 주파수 대역으로 분리한다. 예컨대, 본 실시예에서는 감마-톤 필터링부(21)는 2개의 마이크로폰으로부터 입력된 신호들을 주파수 대역별로 분리한다. 이 감마-톤 필터링부(21)는 필터뱅크의 형태로 구현될 수 있다.
채널간 시간 차이 추정부(22)는 상기 감마-톤 필터링부(21)를 통해 분리된 신호로부터 마이크로폰 채널간 시간 차이를 추정한다. 레벨 연산부(23)는 상기 감마-톤 필터링부(21)에서 분리된 신호 샘플값에 절대값을 취한뒤 합산하여 신호 레벨값을 구한다.
채널간 레벨 차이 추정부(24)는 상기 레벨 연산부(23)로부터 출력된 신호 레벨값들 간의 차이를 구함으로써 마이크로폰 채널간 레벨 차이를 추정한다.
그리고, 음성마스크 산출부(25)는 상기 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성마스크를 산출한다. 예컨대, 음성마스크 산출부(25)는 가우시간 커널을 기반으로 하여 음성마스크를 산출한다. 이 때 음성 마스크는 0과 1 사이의 값을 갖는다. 이후 음성 마스크는
Figure 112008080141680-pat00001
로 표현된다. 여 기서
Figure 112008080141680-pat00002
는 주파수 채널 인덱스이고,
Figure 112008080141680-pat00003
는 프레임 인덱스이다.
다시 도 2를 참조하면, 잡음 성분 제거부(30)는 상기 음성마스크 추정부(20)에서 추정된 음성마스크를 이용하여 잡음성분을 갖는 음성 신호로부터 잡음성분을 제거한다. 음성 합성부(40)는 상기 잡음성분 제거부(30)로부터 출력된 잡음성분이 제거된 신호를 이용하여 음성을 합성한다. 이때, 음성 합성부(40)는 바람직하게 논문 M. Weintraub, A Theory and Computational Model of Monaural Auditory Sound Separation, Ph.D.Thesis, Stanford University,1985에 개시된 방법을 이용한다.
이와 같이, 본 발명에 따른 음성 인식 장치는 음성 신호로부터 다채널 음원 분리 기술을 이용하여 잡음성분을 일차적으로 제거한다. 그러나, 음성 합성부(40)로부터 출력되는 음성 신호는 도 1의 (c) 에 도시된 바와 같이, 잔여 잡음 성분을 가지고 있다.
잔여 잡음 성분을 제거하기 위해 본 발명은, 다채널 음원 분리시 이용된 음성마스크를 이용하여 잡음모델 및 신호-대-잡음비를 효율적으로 추정하고, 잡음 모델 및 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 추정함으로써 음성 인식성능을 향상시킨다. 본 발명은 상기 잡음에 적응된 음향모델을 추정하기 위해 음향 모델 생성부(200)를 포함한다.
음향 모델 생성부(200)는 음성 신호의 잔여 잡음 성분을 보상하기 위한 음향 모델을 생성한다. 구체적으로, 음향 모델 생성부(200)는 잡음 없는(clean) 환경에서 학습된 음향모델(clean-trained model)과 잡음 모델(noise model)에 SNR 가중치를 곱하여 잡음 환경에 적응된 음향 모델(noise-corrupted model)을 추정한다.
이를 위해, 음향 모델 생성부(200)는 잡음 모델을 추정(mask-based noise model estimation; MBNME)하는 컴포넌트와 SNR을 추정(mask-based SNR estimation; MBSE)하는 컴포넌트를 포함한다. 이러한 음향 모델 생성부(200)의 상세 구성에 대해서는 이하 설명된다.
도 4는 도 2의 음향 모델 생성부(200)의 구성을 나타낸다.
도 4를 참조하면 음향 모델 생성부(200)는 마스크-기반 잡음 모델 추정부(210), 마스크-기반 SNR(신호-대-잡음비) 추정부(220), 음향 모델 적응부(230), 무잡음 음향 모델(240) 및 잡음에 적응된 음향 모델(250)을 포함한다.
마스크-기반 잡음모델 추정부(210)는 음성마스크를 이용하여 잡음마스크를 연산하고, 상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 구한다. 구체적으로 마스크-기반 잡음모델 추정부(210)는 음성 마스크 추정부(20)에서 구한 음성마스크로부터 얻은 잡음 마스크 정보를 이용하여 잡음 신호를 합성하고, 그 잡음 신호로부터 잡음 모델을 추정한다.
도 5는 도 4의 마스크-기반 잡음모델 추정부(210)에 대한 일실시예 구성도이다. 마스크-기반 잡음모델 추정부(210)는 음성마스크 추정부(20)로부터 제공된 음성마스크 정보와 감마톤-필터링부(21)에서 필터링된 임의의 마이크로폰 신호 를 이용하여 잡음모델을 추정한다.
도 5를 참조하면, 마스크-기반 잡음모델 추정부(210)는 잡음마스크 연산부(211), 음성제거부(212), 잡음합성부(213), 특징 추출부(214), 잡음모델 연산부(215)로 이루워진다. 잡음모델을 추정하기 위해, 잡음 마스크 연산부(211)는 먼 저 음성마스크를 이용하여 잡음마스크를 구한다. 구체적으로, 잡음 마스크 연산부(211)는 잡음마스크,
Figure 112008080141680-pat00004
,를 값 1로부터 도 3에서 구한 음성마스크를 차감하여 [수학식 1]과 같이 구한다.
Figure 112008080141680-pat00005
다음으로는 음성 제거부(212)는 상기 잡음 마스크
Figure 112008080141680-pat00006
를 감마-톤 필터링된 마이크로폰1의 신호에 곱함으로써 음성성분을 제거한다. 이 경우, 다채널 신호들 중 어떠한 채널 신호라도 사용될 수 있다. 즉, 본 실시예에서는 마이크로폰1의 신호가 사용되었지만, 마이크로폰2의 신호가 사용될 수도 있으며, 다른 다채널 신호도 사용될 수 있다.
그리고, 잡음 합성부(213)는 음성 성분이 제거된 신호를 이용하여 잡음 신호를 합성하고 상기 잡음 신호를 특징 추출부(214)로 출력한다. 특징 추출부(214)는 잡음 신호로부터 MFCC(Mel-Frequency Cepstral Coefficient),
Figure 112008080141680-pat00007
,k=1,…, K,를 추출한다. 이 때, MFCC(Mel-Frequency Cepstral Coefficient)의 차수, K, 는 시스템 및 응용예에 따라 다르게 결정될 수 있다. 잡음모델 연산부(215)는 [수학식 2]와 같이 추출된 MFCC로부터 평균값
Figure 112008080141680-pat00008
과 분산값
Figure 112008080141680-pat00009
을 구하여 잡음모델로서 사용한다.
Figure 112008080141680-pat00010
여기서
Figure 112008080141680-pat00011
은 전체 프레임 수를 나타낸다.
다시 도 4를 참조하면, 마스크-기반 SNR 추정부(220)는 상기 음성마스크와 잡음마스크를 이용하여 신호-대-잡음비를 구한다. 마스크-기반 SNR 추정부(220)는 음성 마스크 추정부(20)에서 구한 음성마스크와 마스크-기반 잡음모델 추정부(210)로부터 얻은 잡음마스크간의 평균값의 비율을 통해 SNR을 추정한다.
도 6은 도 4의 마스크-기반 SNR 추정부(220)에 대한 일실시예 구성도이다. 즉, 도 2의 음성마스크 추정부(20)에서 계산된 음성마스크와 도 5의 마스크-기반 잡음모델 추정부(220)에서 계산된 잡음마스크를 이용하여 신호-대-잡음비를 추정한다.
도 6을 참조하면, 마스크-기반 SNR추정부(220)는 음성마스크 평균 연산부(221), 잡음마스크 평균 연산부(222), 잡음프레임 검출부(223), 신호-대-잡음비 연산부(224)로 이루워진다.
음성마스크 평균 연산부(221)에서는 도 2의 음성마스크 추정부(20)에서 추정된 음성마스크,
Figure 112008080141680-pat00012
,로부터 주파수 채널상에서 음성 마스크의 평균값,
Figure 112008080141680-pat00013
,을 [수학식 3]을 이용하여 구한다.
Figure 112008080141680-pat00014
여기서,
Figure 112008080141680-pat00015
는 감마-톤 필터링부의 채널수이다. 여기에서 채널수는 32가 될 수 있으며, 그 적용예 또는 구현에 따라 달라질 수 있다. 이와 유사하게, 잡음마스크 평균 연산부(221)에서는 도 4의 마스크-기반 잡음모델 추정부(210)에서 계산된 잡음마스크,
Figure 112008080141680-pat00016
,로부터 주파수 채널상에서 잡음 마스크의 평균값,
Figure 112008080141680-pat00017
,을 [수학식 4]를 이용하여 구한다.
Figure 112008080141680-pat00018
잡음 프레임 검출부(223)는 정확한 신호-대-잡음비를 구하기 위하여 음성마스크 평균 연산부(221)에서 구한 음성마스크 평균값,
Figure 112008080141680-pat00019
,을 이용하여 잡음 프레임을 검출한다. 이를 위해, 잡음 프레임 검출부(223)는 [수학식 5]와 같이 가장 먼저 초기 20프레임으로부터 음성 마스크의 주파수-시간상 평균값,
Figure 112008080141680-pat00020
, 과 분산값,
Figure 112008080141680-pat00021
,을 구한다.
Figure 112008080141680-pat00022
여기서
Figure 112008080141680-pat00023
은 상기 초기 프레임들의 개수이며, 본 실시예에서 20이다. 이러 한 프레임의 개수는 그 적용예 또는 구현에 따라 달라질 수 있으며, 본 발명에 이에 한정되지 않는다. 그 다음으로 잡음 프레임 검출부(223)는 초기 20프레임의 약 90% (즉, 18프레임 정도)가 잡음 프레임으로 선택되는 상수값,
Figure 112008080141680-pat00024
를 설정하여 문턱값,
Figure 112008080141680-pat00025
,을 [수학식 6]과 같이 구한다.
Figure 112008080141680-pat00026
다음으로, 잡음 프레임 검출부(223)는 이렇게 구한 문턱값을 넘지 못하는 음성마스크 주파수-시간 평균값을 가지는 프레임을 [수학식 7]을 통해 집합,
Figure 112008080141680-pat00027
,을 구한다.
Figure 112008080141680-pat00028
그리고, 신호-대-잡음 연산부(224)는 음성마스크 주파수 평균값과 잡음마스크 주파수 평균값으로부터 다시 잡음 프레임 집합상에서의 음성마스크 주파수 평균값 gS 및 잡음마스크 주파수 평균값 gN을 각각 [수학식 8]로부터 구한다.
Figure 112008080141680-pat00029
여기서
Figure 112008080141680-pat00030
는 잡음 프레임 집합,
Figure 112008080141680-pat00031
,에 속하는 프레임 개수이다. 최종적으 로 신호-대-잡음비 즉 SNR, g,는 [수학식 9]와 같이 구한다.
Figure 112008080141680-pat00032
다시 도 4를 참조하면, 음향모델 적응부(230)는 상기 마스크-기반 잡음모델 추정부(210)에서 추정된 잡음모델과 마스크-기반 SNR 추정부(220)에서 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델(250)을 구한다. 다시 말해, 음향모델 적응부(230)는 마스크-기반 잡음모델 추정부(210)에서 추정된 잡음모델(
Figure 112008080141680-pat00033
,
Figure 112008080141680-pat00034
)과 마스크-기반 신호-대-잡음비 추정부(220)에서 추정된 신호-대-잡음비(g)를 이용하여 미리 잡음이 없는 음성들로 학습해놓은 무잡음 음향모델(
Figure 112008080141680-pat00035
,
Figure 112008080141680-pat00036
)(240)를 잡음에 적응시킨 새로운 모델(
Figure 112008080141680-pat00037
,
Figure 112008080141680-pat00038
)(250)을 [수학식 10]과 같이 추정한다.
Figure 112008080141680-pat00039
이는 논문 M. Gales and S. J. Young, "Robust continuous speech recognition using parallel model combination," IEEE Trans. Speech and Audio Proc., vol. 4, no. 5, pp. 352-359, Sept. 1996을 참조한다.
다시 도 2를 참조하면, 음성 디코딩부(300)는 음성 합성부(40)로부터 출력된 음성 신호로부터 음성 특징, 예컨대, MFCC(Mel Frequency Cepstral Coefficient)를 추출하고, 음향 모델 생성부(200)로부터 출력된 음향 모델 및 추출된 음성 특징을 이용하여 비터비 디코딩을 수행하여 음성 인식 결과를 출력한다.
구체적으로, 음성 디코딩부(300)은 특징 추출부(310) 및 비터비 디코딩부(320)를 포함한다. 특징 추출부(310)에서는 음성합성부(40)에서 일차적으로 잡음이 제거된 음성신호로부터 음성 특징, 예컨대MFCC를 추출한다. 비터비 디코딩부(320)는 음향모델 적응부(230)에서 구한 잡음에 적응된 음향모델과 특징 추출부(310)에서 추출된 MFCC와 패턴 매칭을 통하여 가장 높은 확률값을 갖는 단어 또는 문장열의 음성인식 결과를 얻는다. 비터비 디코딩은 음성인식 결과를 얻기 위한 일반적인 방법으로, 음향모델들과 MFCC의 패턴매칭을 수행하여 가장 큰 확률을 가지는 음향모델을 선택하여, 그 음향모델에 해당하는 음소, 단어 또는 문장열 등을 인식 결과로 얻는 과정을 일컫는다.
도 7은 본 발명에 따라 음성 인식 장치에서 음성 인식 성능을 향상시키는 방법의 흐름도를 나타낸다.
도 7을 참조하면, 음성 인식 장치는 단계 410에서 다채널 음성 신호가 입력되었는 지를 판단한다. 구체적으로 음성 인식 장치는 복수개의 마이크로폰으로부터 각각 음성 신호가 입력되는 지를 판단한다. 음성 인식 장치는 다채널 음성 신호가 입력되면 단계 420에서 다채널 음성 신호로부터 음성마스크를 추정한다.
구체적으로, 단계 410에서 음성 인식 장치는 외부로부터 입력받은 음성신호에 대해 감마-톤 필터링을 수행하여 음성 신호를 여러 주파수 대역으로 분리한다. 음성 인식 장치는 분리된 신호들로부터 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 추정하고, 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성 마스크를 추정한다.
이어서, 음성 인식 장치는 음성 마스크를 추정한 후 단계 430에서 음성마스크를 이용하여 다채널 음성 신호로부터 잡음 성분을 제거하고 또한 잡음 성분이 제거된 타채널 음성 신호를 이용하여 음성을 합성한다. 음성을 합성한 후, 음성 인식 장치는 단계 440에서 합성된 음성으로부터 음성 특징, 예컨대, MFCC(Mel-Frequency Cepstral Coefficient)를 추출한다.
그런 다음, 음성 인식 장치는 단계 450에서 음성마스크를 이용하여 잡음 모델 및 신호-대-잡음비를 추정하고, 잡음에 적응된 음향 모델을 생성한다.
상기 잡음 모델을 추정하기 위해, 음성 인식 장치는 음성마스크를 이용하여 잡음마스크를 구하고, 잡음마스크에 감마-톤 필터링된 신호를 곱함으로써 음성 성분을 제거한다. 음성 인식 장치는 음성 성분이 제거된 신호로부터 잡음 신호를 합성하고 합성된 잡음 신호로부터 특징, 즉 MFCC를 추출한다. 그리고, 음성 인식 장치는 이 특징으로부터 잡음 모델을 추정한다.
또한, 상기 신호-대 잡음비를 추정하기 위해, 음성 인식 장치는 음성 인식 장치는 음성마스크와 잡음마스크간의 평균값의 비율을 통해 SNR을 추정할 수 있다. 이를 위해 음성 인식 장치는 음성마스크의 주파수 채널상 평균값을 구하고, 잡음마스크의 주파수 채널상 평균값을 구한다. 그리고 음성 인식 장치는 음성마스크 평균값을 이용하여 잡음 프레임을 검출한다. 즉, 음성 인식 장치는 음성 마스크의 주파수-시간상 평균값에 기반하여 잡음 프레임이 되는 문턱값을 계산하고, 상기 문턱값을 넘지 못하는 음성마스크 주파수-시간 평균값을 가지는 프레임들을 잡음 프레임 으로 결정한다. 음성 인식 장치는 이 잡음 프레임들에 대하여 음성마스크 평균값과 잡음 마스크 평균값을 구한 다음 이들 평균값 간의 비율로 신호-대 잡음비를 구한다.
이와 같이, 음성 인식 장치는 잡음 모델 및 신호-대-잡음비를 추정한 후, 추정된 잡음모델과 신호-대-잡음비를 이용하고 또한 미리 잡음이 없는 음성들로 학습해놓은 무잡음 음향모델을 이용하여 잡음에 적응된 음향 모델을 추정한다.
단계 470에서 음성 인식 장치는 잡음에 적응된 음향 모델 및 음성 특징을 이용하여 비터비 디코딩을 수행함으로써 음성 인식 결과를 얻을 수 있다.
도 8은 여성 낭독음을 잡음으로 하고, 단어 음성 DB (S. Kim, S. Oh, H.-Y. Jung, H.-B. Jeong, and J.-S. Kim, "Common speech database collection," 한국음향학회 학술대회 논문집, 제 21권, 제 1호, pp. 21-24, 2002년 7월)를 이용하여 인식한 본 발명의 인식성능을 단어오인식률(%)로 보여준다. 음성인식 시스템의 음향모델 학습에는 18,240개의 단어음성을, 인식테스트에는 570개의 단어음성을 사용하였으며, 음성신호는 0°에, 잡음신호는 10°, 20°, 40°에 위치하도록 머리 전달함수를 적용하였다. 음성인식 시스템은 트라이폰(triphone) 단위의 hidden Markov model을 기반으로 하며, 각 트라이폰은 3개의 상태(state)를 갖는 left-to-right 모델로 표현되었다. 각각의 상태는 4개의 Gaussian mixture를 가지며, 사용된 어휘수는 2,250 단어이다. 도 5에서 비교된 성능은 잡음처리를 하지 않은 MFCC를 이용한 baseline 성능 (Baseline), 마스크 기반의 다채널 음원분리 기술의 성능 (MMSS, Mask-based multi-channel source separation), 본 발명의 성능 (MMSS+AMC(Acoustic model combination))이다. 마스크 기반의 다채널 음원분리 기술의 성능을 보면, 높은 신호-대-잡음비에서는 단어오인식률이 매우 낮은 것에 비하여, 낮은 신호-대-잡음비에서는 단어오인식률이 상대적으로 높다. 이는 마스크 기반의 다채널 음원분리 처리후 남은 잔여잡음에 의한 영향으로 판단되며, 이를 보상하는 본 발명의 성능을 보면 낮은 신호-대-잡음비에서도 단어오인식률이 크게 낮아지는 것을 볼 수 있었다. 결과적으로, 본 발명으로 마스크 기반의 다채널 음원 분리 처리 기술에 비하여 단어오인식률이 상대적으로 52.14%만큼 줄일 수 있었다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 가우시안커널-기반 마스크를 이용하여 잡음이 제거된 음성의 합성 신호 예를 보여준 도면이다.
도 2는 본 발명에 따른 음성 인식 장치에 대한 일실시예의 구성도를 나타낸 도면이다.
도 3은 도 2의 음성마스크 추정부의 일실시예에 대한 블록 구성도를 나타낸다
도 4는 도 2의 음향 모델 생성부의 일실시예에 대한 블록 구성도를 나타낸다.
도 5는 도 4의 마스크-기반 잡음모델 추정부의 일실시예에 대한 블록 구성도를 나타낸다.
도 6은 도 4의 마스크-기반 SNR 추정부의 일실시예에 대한 블록 구성도를 나타낸다.
도 7은 본 발명의 일실시예에 따른 음성 인식 방법의 흐름도를 나타낸다.
도 8은 여성 낭독음을 잡음으로 하고, 단어 음성 DB를 이용하여 인식한 본 발명의 인식성능을 단어오인식률(%)로 보여준 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
10; A/D 컨버터
20; 음성마스크 추정부
30; 잡음 성분 제거부
40; 음성 합성부
200; 음향 모델 생성부
310; 특징 추출부
320; 비터비 디코딩부

Claims (10)

  1. 음성 인식 장치에 있어서,
    다채널 음성 신호로부터 음성마스크를 추정하는 음성마스크 추정부;
    상기 음성마스크 추정부에서 추정된 음성마스크를 이용하여 잡음성분을 제거하는 잡음성분 제거부;
    상기 잡음성분 제거부로부터 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 음성합성부;
    상기 잡음성분 제거부로부터 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 음향 모델 생성부;
    상기 음성합성부로부터 출력된 음성 신호로부터 음성특징을 추출하는 특징 추출부; 및
    상기 특징 추출부에서 얻어진 음성특징과 잡음에 적응된 음향모델을 이용하여 음성인식 결과를 구하는 디코딩부를 포함하고,
    상기 음향 모델 생성부는
    상기 음성마스크 추정부에서 추정된 음성마스크로부터 잡음마스크를 구하는 잡음마스크 연산부;
    상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 구하는 마스크-기반 잡음모델 추정부;
    상기 음성마스크와 잡음마스크를 이용하여 신호-대-잡음비를 구하는 마스크-기반 신호-대-잡음비 추정부; 및
    상기 추정된 잡음모델과 상기 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 구하는 음향모델 적응부를 포함하는, 음성 인식 장치.
  2. 제1항에 있어서, 상기 음성마스크 추정부는
    외부로부터 입력받은 음성신호를 여러 주파수대역으로 분리하는 감마-톤 필터링부;
    상기 감마-톤 필터링부를 통해 분리된 신호로부터 마이크로폰 채널간 시간 차이를 추정하는 채널간 시간차이 추정부;
    상기 감마-톤 필터링부를 통해 분리된 신호로부터 마이크로폰 채널간 레벨 차이를 추정하는 채널간 레벨차이 추정부; 및
    상기 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성마스크를 구하는 음성마스크 산출부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  3. 삭제
  4. 제1항에 있어서, 상기 마스크-기반 잡음모델 추정부는
    상기 음성마스크를 이용하여 잡음마스크를 구하는 잡음 마스크 연산부;
    상기 잡음 마스크를 상기 감마-톤 필터링된 신호와 곱함으로써 음성성분을 제거하는 음성 제거부;
    상기 음성 성분이 제거된 신호로부터 잡음 신호를 합성하는 잡음 합성부;
    상기 잡음 신호의 특징을 추출하는 특징 추출부; 및
    상기 잡음 신호의 특징을 이용하여 잡음 모델을 구하는 잡음 모델 연산부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  5. 제4항에 있어서, 상기 마스크-기반 신호-대-잡음비 추정부는
    상기 음성마스크의 주파수 채널상 평균값을 구하는 음성 마스크 평균 연산부;
    상기 잡음마스크의 주파수 채널상 평균값을 구하는 잡음마스크 평균 연산부;
    상기 음성마스크 평균값을 이용하여 잡음 프레임을 검출하는 잡음 프레임 검출부; 및
    상기 잡음 프레임에 대한 주파수상의 음성마스크 평균값과 주파수상의 잡음 마스크 평균값을 구하고, 이들 평균값 간의 비율로 신호-대 잡음비를 구하는 신호-대-잡음비 연산부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  6. 음성 인식 방법에 있어서,
    다채널 음성 신호로부터 음성마스크를 추정하는 단계;
    상기 추정된 음성마스크를 이용하여 잡음성분을 제거하는 단계;
    상기 잡음성분이 제거된 다채널 음성 신호를 이용하여 음성을 합성하는 단계;
    상기 음성마스크로부터 잡음마스크를 구하고, 상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 추정하고, 상기 음성마스크와 상기 잡음마스크를 이용하여 신호-대-잡음비를 추정하고, 상기 추정된 잡음모델 및 상기 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 생성하는 단계;
    상기 합성된 음성의 음성 신호로부터 음성특징을 추출하는 단계; 및
    상기 음성특징과 잡음에 적응된 음향모델을 이용하여 음성인식 결과를 구하는 단계를 포함하되,
    상기 음향 모델 생성 단계는,
    상기 추정된 음성마스크로부터 잡음마스크를 구하는 단계;
    상기 잡음마스크와 감마-톤 필터링된 신호를 이용하여 잡음모델을 추정하는 단계;
    상기 음성마스크와 잡음마스크를 이용하여 신호-대-잡음비를 추정하는 단계; 및
    상기 추정된 잡음모델과 상기 추정된 신호-대-잡음비를 이용하여 잡음에 적응된 음향모델을 구하는 단계를 포함하는, 음성 인식 방법.
  7. 제6항에 있어서, 상기 음성마스크 추정 단계는,
    외부로부터 입력받은 음성신호를 감마-톤 필터링을 이용하여 여러 주파수대역으로 분리하는 단계;
    상기 분리된 신호로부터 마이크로폰 채널간 시간 차이를 추정하는 단계;
    상기 분리된 신호로부터 마이크로폰 채널간 레벨 차이를 추정하는 단계; 및
    상기 마이크로폰 채널간 시간 차이와 마이크로폰 채널간 레벨 차이를 이용하여 음성마스크를 구하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 삭제
  9. 제6항에 있어서, 상기 잡음모델을 추정하는 단계는
    상기 음성마스크를 이용하여 잡음마스크를 구하는 단계;
    상기 잡음 마스크를 상기 감마-톤 필터링된 신호와 곱함으로써 음성성분을 제거하는 단계;
    상기 음성 성분이 제거된 신호로부터 잡음 신호를 합성하는 단계;
    상기 잡음 신호의 특징을 추출하는 단계; 및
    상기 잡음 신호의 특징을 이용하여 잡음 모델을 구하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  10. 제9항에 있어서, 상기 신호-대-잡음비를 추정하는 단계는
    상기 음성마스크의 주파수 채널상 평균값을 구하는 단계;
    상기 잡음마스크의 주파수 채널상 평균값을 구하는 단계;
    상기 음성마스크 평균값을 이용하여 잡음 프레임을 검출하는 단계; 및
    상기 잡음 프레임에 대한 주파수상의 음성마스크 평균값과 주파수상의 잡음 마스크 평균값을 구하고, 이들 평균값 간의 비율로 신호-대 잡음비를 구하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
KR1020080115852A 2008-11-20 2008-11-20 음성 인식 장치 및 방법 KR101610708B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080115852A KR101610708B1 (ko) 2008-11-20 2008-11-20 음성 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080115852A KR101610708B1 (ko) 2008-11-20 2008-11-20 음성 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20100056859A KR20100056859A (ko) 2010-05-28
KR101610708B1 true KR101610708B1 (ko) 2016-04-08

Family

ID=42280799

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080115852A KR101610708B1 (ko) 2008-11-20 2008-11-20 음성 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101610708B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101760345B1 (ko) 2010-12-23 2017-07-21 삼성전자주식회사 동영상 촬영 방법 및 동영상 촬영 장치
CN103188531B (zh) * 2011-12-31 2015-11-11 北大方正集团有限公司 一种多源信号采集系统及方法
DE102018117556B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Einzelkanal-rauschreduzierung

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jae Sam Yoon et al., ‘Gammatone-domain model combination for consonant recognition in noisy environments’, In INTERSPEECH-2008, pp.1773-1776. September 2008.*
Ji HUn Park, et al. 'HMM-based Mask Estimation for a Speech Recognition Front-end Using Computational Auditory Scene Analysis', IEEE HSCMA 2008, pp.176~179, May 2008*

Also Published As

Publication number Publication date
KR20100056859A (ko) 2010-05-28

Similar Documents

Publication Publication Date Title
Tan et al. Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios
Ghanbari et al. A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets
US10614827B1 (en) System and method for speech enhancement using dynamic noise profile estimation
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
US20030191638A1 (en) Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
CN111899756B (zh) 一种单通道语音分离方法和装置
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
Abdelaziz et al. Twin-HMM-based audio-visual speech enhancement
Roy et al. DeepLPC: A deep learning approach to augmented Kalman filter-based single-channel speech enhancement
US8423360B2 (en) Speech recognition apparatus, method and computer program product
CN111667834A (zh) 一种助听设备及助听方法
Hazrati et al. Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation
KR101610708B1 (ko) 음성 인식 장치 및 방법
CN112185405B (zh) 一种基于差分运算和联合字典学习的骨导语音增强方法
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
Sangwan et al. ProfLifeLog: Environmental analysis and keyword recognition for naturalistic daily audio streams
JP2007093635A (ja) 既知雑音除去装置
US7225124B2 (en) Methods and apparatus for multiple source signal separation
Soni et al. Comparing front-end enhancement techniques and multiconditioned training for robust automatic speech recognition
Vanajakshi et al. Modified Wiener filter based speech restoration with autocorrelation of isolated Kannada word speech recognition
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법
JPH07152397A (ja) 音声区間検出方法、並びに音声通信装置および音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
E601 Decision to refuse application
E801 Decision on dismissal of amendment
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 4