KR19980068249A

KR19980068249A - 잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법

Info

Publication number: KR19980068249A
Application number: KR1019970004760A
Authority: KR
Inventors: 공병구; 김상룡
Original assignee: 김광호; 삼성전자 주식회사
Priority date: 1997-02-17
Filing date: 1997-02-17
Publication date: 1998-10-15
Also published as: KR100468817B1

Abstract

본 발명은 잡음이 존재하는 일반 환경에서의 음성 인식 장치에 관한 것으로서, 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치는 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기; 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기; 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기; 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및 잡음이 없는 환경에서 생성된 소정의 참조패턴에 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 한다.

본 발명에 의하면, 종래의 기술에 비하여 다소 계산량은 증가하나, 잡음 수준이 높은 환경에서의 음성 인식률이 월등하게 향상된다.

Description

잡음 처리 기능을 갖춘 음성 인식 장치 및 음성 인식 방법

본 발명은 음성 인식 장치에 관한 것으로서, 잡음이 존재하는 일반 환경에서의 음성 인식 장치에 관한 것이다.

종래의 잡음 처리 기술은 잡음이 음성에 단순히 산술적으로 더해졌다는 것과 짧은 시간구간 동안의 잡음을 소정의 패턴으로 하여 반복한 잡음의 특성이 긴 시간구간 동안의 잡음의 특성과 동일하다는 것을 기본적으로 가정하여, 입력된 잡음성 신호로부터 잡음 성분을 예측하여 단순히 빼는 전처리 과정을 수행하였다. 이러한 방식을 스펙트럼 차감법(SS:Spectrum Substraction)이라 하는데, 잡음 수준이 낮은 경우에는 효과적이나 잡음 수준이 높아지면 신호의 스펙트럼 왜곡이 심해져, 음성 인식 성능이 저하된다.

또한, 종래의 기술로는 잡음성 신호의 특징을 깨끗한 신호의 특징으로 변환/매핑하는 알고리즘(MMSE, POF 등)이 있다. 상기 변환/매핑 함수는 고차의 비선형 함수이지만, 계산의 복잡도 때문에 선형 함수 또는 약간 복잡한 2~3차 함수로 구성된 비선형 함수로 구현하였다. 따라서, 잡음과 음성 신호의 섞이는 메카니즘을 완벽히 추적하는 변환/매핑 함수를 구하는 것은 불가능하며, 학습(training) 단계에서 모든 형태의 잡음에 대한 변환/매핑 함수를 구하는 것도 불가능하다.

도 1은 종래의 잡음 처리 기법을 적용한 음성 인식 장치의 구성을 도시한 블록구성도이다. 도 1에 의하면, 종래의 잡음 처리 기법을 적용한 음성 인식 장치는 아날로그/디지털변환기(이하에서 A/D 변환기라 한다)(100), 음성분류기(110), 잡음추정기(120), 잡음삭제기(140), 특징추출기(130) 및 패턴매칭기(160)를 포함하여 구성된다.

잡음이 없는 경우에는, 등록/학습 단계에서 미리 준비한 참조 패턴(150)과 입력 신호의 특징을 바로 비교하여 만족할 만한 인식율을 결과를 얻는다. 하지만, 잡음이 존재하는 경우에는 입력 음성 신호에 잡음 성분이 포함되어 있다. 따라서, 잡음 성분으로 추정되는 비음성 구간으로부터 잡음 특성을 추출하고, 그 특성을 음성 구간의 잡음성 음성 신호로부터 삭제(빼기 작동)한 후, 그 신호를 음성 신호로 간주하고 특징 추출을 한다.

여기서 실제 잡음 Y와 추정된 잡음 Y'를 같다고 가정한다. 이때, 음성 분석 구간과 같은 길이의 잡음 구간을 설정하여 음성 구간의 잡음을 추정하는 것이 아니라, 소정의 길이의 잡음 구간 내의 특성을 반복해서 적용한다. 이는 짧은 구간의 잡음 특성을 반복하더라도 긴 구간의 잡음 특성과 동일하다는 가정을 내포하고 있다. 하지만, 실제 잡음을 분석해 보면, 소정의 특성을 갖는 잡음 구간의 길이는 잡음의 종류에 따라 다르고, 통상적으로 음성 구간에 비하여 상당히 길다. 즉, 잡음 분석을 통하여 살펴본 잡음 특성은 음성 구간보다 상당히 긴 구간에서 일정하게 유지되고, 음성 구간 바로 앞 구간의 잡음이 음성 구간의 잡음 성분과 상관도가 제일 크다. 이는 음성 구간의 잡음을 추정하는 것이 최상책이나, 현재 기술상 이는 불가능하므로 차선책으로 바로 음성 구간 바로 앞 구간을 잡음 특성을 충분히 포함하는 정도의 길이로 설정하여 잡음 성분을 추정해야 한다는 것을 의미한다. 그런데, 이는 계산량 증가를 의미한다.

종래 기술의 또 다른 문제는 잡음 성분이 음성 성분에 주파수영역에서 단순히 더해졌다는 가정이다. 이러한 의미에서 종래의 기술에서는 주파수영역인 잡음성 음성(공간에서 잡음 섞인 음성)의 스펙트럼 값에서 잡음 추정값(Y')을 역으로 빼 줌으로써, 잡음 처리를 하게된다. 그런데, 간단한 실험을 통하여 주파수 영역에서의 잡음성 음성의 스펙트럼이 음성과 잡음의 단순 더하기는 아님을 알수 있다. 즉, 음성 신호, 잡음 신호, 잡음성 음성 신호를 동기 맞추어 준비하고, 상기 음성 신호와 상기 잡음 신호를 각각 파형상에서 더하여 스펙트럼 영역으로 변환하고, 스펙트럼 상에서 더하여, 그 결과들을 상기 잡음성 음성 신호의 스펙트럼과 비교해보면, 전자의 왜곡이 훨씬 적고, 그 격차도 잡음 수준이 높아감에 따라 점차 커짐을 알 수 있다. 따라서, 종래 방식에서는 잡음 수준이 올라갈수록 스펙트럼 왜곡에 기인하여 인식 성능이 급격히 저하됨을 알 수 있다.

따라서, 도 1에서 도시된 종래의 기술에 의한 음성 인식 방식에서의 잡음 처리는 대개 신호대잡음비(Signal-to-Noise Ratio : SNR) 10dB을 기준으로 급격한 성능 저하를 보인다.

본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 종래의 기술에 비하여 다소 계산량은 증가하나, 잡음 수준이 높은 환경에서의 음성 인식률이 월등하게 높은 잡음 처리 기능을 갖춘 음성 인식 장치 및 그 인식 방법을 제공함을 목적으로 한다. 또한, 상기 음성 인식 방법에 있어서, 그 계산량이 감소시킨 잡음환경 하에서의 음성 인식 방법을 제공함을 또 다른 목적으로 한다.

도 1은 종래의 잡음 처리 기법을 적용한 음성 인식 장치의 구성을 도시한 블럭도이다.

도 2는 본 발명에 의한 음성 인식 장치의 구성을 도시한 블록도이다.

도 3은 본 발명에 의한 잡음 환경 하에서의 음성 인식 방법에 대한 흐름도이다.

도 4는 본 발명에 의한 잡음 환경 하에서의 계산량을 감소시킨 음성 인식 방법에 대한 흐름도이다.

상기의 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기; 상기 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기; 상기 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및 잡음이 없는 환경에서 생성된 소정의 참조패턴에 상기 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여, 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 한다.

상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계; 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계; 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계; 잡음이 없는 환경에서 생성된 소정의 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징을 추출하는 제5단계; 및 상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제6단계를 포함함을 특징으로 한다.

상기의 또 다른 목적을 달성하기 위하여, 본 발명에 의한 잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계; 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계; 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계; 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계; 잡음이 없는 환경에서 생성된 소정의 참조패턴들의 특징을 추출하는 제5단계; 상기 추출된 입력음성의 특징을 상기 추출된 참조패턴들의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴을 선택하는 제6단계; 상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징을 추출하는 제7단계; 및 상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제8단계를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

도 2는 본 발명에 의한 음성 인식 장치의 구성을 도시한 블록도이다. 도 2에 의하면, 본 발명에 의한 음성 인식 장치는 A/D 변환기(200), 음성분류기(210), 잡음추정기(220), 특징추출기(230) 및 패턴매칭기(250)를 포함하여 구성된다.

상기 A/D 변환기(200)은 아날로그 음성신호를 디지털 신호로 변환하는 구성블럭으로서, 종래 기술에 의한 A/D 변환기(100)와 동일하다. 음성정보를 포함하고 있는 파형은 원래 진폭에 있어서 연속적이고 시간상으로도 연속적인 아날로그(Analog) 신호이다. 따라서, 파형을 이산 신호로 표현하기 위해서 A/D(Analog-to-Digital) 변환이 필요하다. A/D 변환을 하기 위해서는 두 가지의 과정을 필요로 한다. 그 중 하나는 시간상의 연속 신호를 이산 신호를 바꾸어 주는 표본화(Sampling)과정이고, 다른 하나는 가능한 진폭의 수를 유한한 값으로 제한하기 위한 진폭 양자화 과정이다. 즉, 상기 진폭의 양자화 과정은 시간 n에서 입력 진폭 x(n)을 가능한 진폭의 유한한 집합중의 한 원소인 y(n)으로 변환해 주는 과정이다.

상기 음성분류기(210)는 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류한다. 즉, 잡음이 있는 환경에서 사람이 말을 하고 있는 시간구간에서의 입력신호는 음성구간으로, 사람의 음성은 포함되지 않고 잡음만이 존재하는 시간구간에서의 입력신호는 비음성구간으로 분류하는데 종래 기술에 의한 도 1의 음성분류기(110)와 동일하다.

상기 잡음추정기(120)는 상기 음성분류기(210)에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정한다. 이는 인식하기 위한 음성구간 직전의 잡음구간에 의해 음성구간에 포함된 잡음을 추정하는 것이 가장 바람직하기 때문이다. 이때, 상기 최근 비음성구간의 길이가 추정된 잡음신호가 더하여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정한다.

상기 특징추출기(230)는 상기 음성분류기(210)에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출한다. 선형예측계수(Linear Predictive Coding)에 근거한 셉스트럼(Cepstrum)과 이들의 1차 차이계수가 특징으로 사용될 수 있다.

상기 패턴매칭기(250)는 잡음이 없는 환경에서 생성한 참조패턴(240)에 상기 잡음추정기(220)에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력한다.

도 3은 본 발명에 의한 잡음 환경 하에서의 음성 인식 방법에 대한 흐름도이다. 도 3에 의하면, 본 발명에 의한 잡음 환경하에서의 음성 인식 과정은 먼저, 상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하고(300단계), 상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류한다(310단계).

다음, 상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출한다(320단계). 종래의 기술과는 달리 본 발명에서는 입력음성에서 잡음성분을 삭제하지 않고, 잡음을 포함한 입력음성에서 특징을 추출한다.

다음, 상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정한다(330단계). 이때, 상기 최근 비음성구간의 길이가 추정된 잡음신호가 더하여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정한다.

다음, 잡음이 없는 환경에서 생성된 모든 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 잡음이 섞인 모든 참조패턴들의 특징을 추출한다(340단계).

그리고, 상기 추출된 입력음성의 특징을 상기 추출된 잡음이 섞인 모든 참조패턴들의 특징과 각각 비교하여 음성 인식을 한다(350단계).

도 4는 본 발명에 의한 잡음 환경 하에서의 계산량을 감소시킨 음성 인식 방법에 대한 흐름도이다. 도 4에 의하면, 400 ∼ 430단계는 도 3의 300 ∼ 330단계와 동일하다.

그 다음, 잡음이 없는 환경에서 생성된 모든 참조패턴의 특징을 추출하고(440단계), 상기 추출된 입력음성의 특징을 상기 추출된 모든 참조패턴의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴들을 선택한다(450단계).

다음, 상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 잡음이 섞인 후보 참조패턴들의 특징을 추출한다(460단계).

그리고, 상기 추출된 입력음성의 특징을 상기 추출된 잡음이 섞인 후보 참조패턴들의 특징과 각각 비교하여 음성 인식을 한다(470단계).

이와 같이 모든 참조패턴에 상기 추정된 잡음신호를 더하지 않고, 소정의 범위의 후보 참조패턴들을 선택하여, 선택된 후보 참조패턴에 대하여만 상기 추정된 잡음신호를 더함으로써 종래의 방법에 비해 계산량의 급격한 증가를 방지할 수 있다.

본 발명에 의한 음성 인식 장치의 음성 인식 성능은 종래 기술에 의한 음성 인식 장치가 보인 급격한 성능 저하점인 SNR 10dB뿐만 아니라, SNR 0dB에서도 그 성능이 약간만 저하되는 현상을 보였다.

본 발명에 의한 음성 인식 장치의 성능과 종래 기술에 의한 음성 인식 장치의 성능을 비교하기 위한 실험을 다음과 같이 하였다.

인식 방식으로 패턴 매칭 기법(DTW:Dynamic Time Warping)을 사용하고, 100 단어를 화자 종속으로 실험하였다. 주변에 오디오 장치를 이용하여 각종 잡음을 배경음으로 그 크기를 변경하면서 남녀 화자 각 100명씩 5회 발성하였다.

[표 1]

상기 실험의 결과는 표 1과 같다.

Claims

잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 장치에 있어서,

상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 아날로그/디지털 변환기;

상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 음성분류기;

상기 음성분류기에서 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 잡음추정기;

상기 음성분류기에서 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 특징추출기; 및

잡음이 없는 환경에서 생성된 소정의 참조패턴에 상기 잡음추정기에 의해 추정된 잡음 신호를 더한 값에서 참조패턴의 특징을 추출하여, 상기 특징추출기에서 추출된 입력음성의 특징과 비교한 결과를 출력하는 패턴매칭기를 포함함을 특징으로 하는 잡음 처리 기능을 갖춘 음성 인식 장치.
잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서,

상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계;

상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계;

상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계;

상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계;

잡음이 없는 환경에서 생성된 소정의 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징을 추출하는 제5단계; 및

상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제6단계를 포함함을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
제2항에 있어서, 상기 제4단계는

상기 최근 비음성구간의 길이가 상기 제5단계에서 추정된 잡음신호가 더하 여 질 참조패턴의 길이보다 긴 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정하는 단계; 및

상기 길이가 조정된 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 단계로 이루어짐을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
제2항 또는 제3항 중 어느 한 항에 있어서, 상기 제5단계에서 더하여지는 상기 잡음이 없는 상황에서 생성된 소정의 참조패턴들과 상기 추정된 잡음 신호는 시간 영역의 값임을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
잡음 환경에서 음성 신호가 포함된 잡음성 아날로그 신호를 입력받아, 소정의 음성을 인식하는 방법에 있어서,

상기 잡음성 아날로그 신호를 잡음성 디지털 신호로 변환하는 제1단계;

상기 잡음성 디지털 신호를 음성 신호가 포함된 음성구간과 음성 신호가 포함되지 않은 비음성구간으로 분류하는 제2단계;

상기 분류된 음성구간의 디지털 신호에서 입력음성의 특징을 추출하는 제3단계;

상기 분류된 비음성구간 중 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 제4단계;

잡음이 없는 환경에서 생성된 소정의 참조패턴들의 특징을 추출하는 제5단계;

상기 추출된 입력음성의 특징을 상기 추출된 참조패턴들의 특징과 각각 비교하여 소정의 범위 내의 후보 참조패턴을 선택하는 제6단계;

상기 선택된 소정의 범위 내의 후보 참조패턴들에 상기 추정된 잡음 신호를 각각 더하고, 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징을 추출하는 제7단계; 및

상기 추출된 입력음성의 특징을 상기 추정된 잡음 신호가 더하여진 후보 참조패턴들의 특징과 각각 비교하여 일치 여부를 결정하는 제8단계를 포함함을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
제5항에 있어서, 상기 제4단계는

상기 최근 비음성구간의 길이가 상기 제7단계에서 추정된 잡음신호가 더하 여 질 후보 참조패턴의 길이보다 긴 경우에는 상기 후보 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간의 가장 오래된 구간부분을 잘라내고, 짧은 경우에는 상기 참조패턴과 동일한 길이가 되도록 상기 최근 비음성구간을 반복하여 상기 최근 비음성구간의 길이를 조정하는 단계; 및

상기 길이가 조정된 최근 비음성구간의 디지털 신호에 의해 잡음 신호를 추정하는 단계로 이루어짐을 특징으로 하는 잡음 환경에서의 음성 인식 방법.
제5항 또는 제6항 중 어느 한 항에 있어서, 상기 제7단계에서 더하여지는 상기 선택된 소정의 범위 내의 후보 참조패턴들과 상기 추정된 잡음 신호는 시간 영역의 값임을 특징으로 하는 잡음 환경에서의 음성 인식 방법.