KR100476103B1

KR100476103B1 - 특징벡터의 필터링을 이용한 음성인식방법

Info

Publication number: KR100476103B1
Application number: KR10-2002-0047123A
Authority: KR
Inventors: 이수영; 박기영
Original assignee: 한국과학기술원
Priority date: 2002-08-09
Filing date: 2002-08-09
Publication date: 2005-03-10
Also published as: KR20040013970A

Abstract

본 발명은 인간의 청각 기관에서 관찰되는 마스킹 현상을 공학적으로 구현하여 음성 인식 성능을 향상시키고자 하는 것이다.

마스킹이란 여러 개의 신호가 동시 또는 인접한 시간에 존재할 때 하나의 신호가 다른 신호를 억제하는 것을 말하며, 음성신호와 잡음이 같이 존재할 때 신호성분이 잡음성분을 억제할 수 있다면 음성인식 성능을 높일 수 있다는 기대에서 본 발명은 출발한다.

복잡한 기전에 의하여 일어나는 마스킹 현상을 단순한 필터링으로 모델링하되, 필터의 모양은 주파수 마스킹의 경우에는 양방향 억제를 모사하는 멕시칸 모자 형태로 하고 시간적 마스킹은 단방향 억제를 모사하는 형태로 한다.

필터링은 특징벡터의 영역에서 각각의 시간에 각 주파수 밴드별 에너지를 나타내는 물리량 사이에서 이루어진다.

간단한 곱셈과 덧셈의 연산만으로 잡음을 억제하는 마스킹 현상을 모사하는 본 발명에 의하면 잡음이 많이 존재하는 환경에서 음성 인식 성능을 향상시킬 수 있다.

Description

특징벡터의 필터링을 이용한 음성인식방법 {Implementation of Masking Algorithm Using the Feature Space Filtering}

본 발명은 특징벡터의 필터링을 이용한 음성인식방법에 관한 것으로, 더 상세하게는 인간의 청각 시스템에서 일어나는 마스킹 메카니즘을 음성인식에 사용되는 특징벡터 영역에서의 필터링에 의한 양방향 억제 방식으로 구현하여, 종래 복잡한 방법으로 모델링하던 마스킹 메카니즘을 간단한 방법에 의하여 계산 효율적으로 구현하고 이를 음성 인식에 적용하여 향상된 인식 결과를 얻을 수 있는 음성인식방법에 관한 것이다.

마스킹이란 둘 이상의 신호가 동시 또는 짧은 시간 간격을 두고 입력되어지는 상황에서 하나의 신호가 다른 하나에 간섭을 미치는 현상을 말한다.

예를 들어 일정한 주파수의 톤을 계속해서 들려주면서 또 다른 톤의 주파수를 점점 원래의 톤의 주파수에 근접하게 할 때 그 간격이 가까워질수록 그 크기가 실제보다 더 작게 들리는 현상을 말한다.

이러한 마스킹 현상은 지금까지 인간의 청각기관 중 특히 기저막(basilar membrane)의 대역 통과 필터 특성을 알기 위하여 많이 연구되어 왔다.

이러한 현상의 원인으로는 신경생물학적인 측면에서의 청신경의 발화 패턴에서 그 원인을 찾기도 하며, 보다 높은 수준의 심리음향학(Psychoacoustics)에서의 인지수준에서의 간섭에서 그 원인을 찾기도 한다.

이러한 마스킹에는 주파수 마스킹과 시간적 마스킹의 두 가지가 있다.

주파수 마스킹은 동시에 들려오는 두 개의 신호사이의 간섭을, 시간적 마스킹은 시간적으로 인접해서 들려오는 두 신호간의 간섭을 다룬다.

구체적으로 주파수 마스킹은 두 개의 신호가 동시에 들려 올 때 하나의 신호가 다른 신호가 없을 때에 비교하여 더 작게 인지된다는 것이다.

또한 그 정도는 다른 신호가 더 클수록, 주파수가 더 인접할수록 비선형적으로 커진다는 것이며, 시간적 마스킹은 시간적으로 앞 선 신호에 의해서 그 바로 뒤에 들려지는 신호의 크기가 실제보다 더 작게 들리는 현상을 말한다.

뒤의 신호가 억제되는 정도는 앞선 신호가 클수록, 두 신호간의 시간 간격이 짧을수록 비선형적으로 증가하는 관계를 보인다.

일반적인 음성 인식 과정은 도 1과 같은 순서를 갖는다.

실생활에 응용되는 음성인식기의 입력으로 쓰이는 음성신호는 여러 가지 잡음을 포함하게 된다.

이러한 잡음은 음성인식기의 성능에 큰 영향을 주므로 일반적인 경우 음성인식기 이전 단계에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하여 음성인식기의 성능을 높여주는 등의 신호처리를 하는 전처리 과정(S100)을 거친다.

음성인식기는 음성신호를 입력으로 하여 인식결과를 출력하고, 이때 음성인식기 내부에서 각 인식 요소를 구분하게 해주는 특징을 특징벡터라고 하며 음성신호전체가 특징벡터로 쓰이기도 한다.

하지만 대부분의 경우에 음성신호 자체는 인식에 사용되기에는 불필요한 정보를 많이 포함하고 있으므로 이중에서 인식에 꼭 필요하다고 판단되는 성분만을 골라서 특징벡터로 추출하게 된다(S200)

학습/인식 과정(S300)에서 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 것이 인식과정에 해당되고, 이러한 인식과정이 올바르게 이루어지기 위해서 사전에 입력과 출력과의 관계를 음성인식기에 충분히 알려주는 학습과정을 거쳐야 한다.

후처리 과정(S400)은 인식된 결과에 대하여 이 결과가 타당한 것인지 문맥적 정보 등을 이용하여 검증하는 과정이다.

상기 특징벡터 추출 과정(S200)를 거쳐 추출된 특징벡터는 음성 신호 중에서 인식에 필요한 성분만을 압축하여 가지고 있는 형태로 보통 시간에 따른 주파수 정보를 갖게 된다.

이러한 특징 벡터로는 MFCC(Mel-Frequency Cepstral Coefficients)가 가장 널리 쓰이고 있으며, 이와 함께 LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensenble Interaval Histogram) 등의 특징벡터도 널리 쓰이는 특징 벡터 중의 하나로서 본 발명에서 이용하게 될 특징벡터는 MFCC이다.

한편, 미국특허 US6385572(System and method for efficiently implementing a masking function in a pshcho-acoustic modeler)에는 마스킹 현상에 의하여 사람에게 들려지지 않는 신호를 무시함으로써 코딩 효율을 높이는 발명이 개시되어 있고, US5625743(Determining a masking level for a subband in a subband audio encoder)에는 주파수 대역별로 마스킹 레벨을 계산하여 주파수 마스킹을 구현하는 발명이 개시되어 있다.

일반적으로 실세계에서 신호는 항상 원하지 않는 잡음과 함께 존재하며 이러한 잡음 성분은 음성 인식을 방해하는 가장 큰 요소가 된다.

따라서 마스킹 현상을 음성 인식에 적용함으로써 관심의 대상인 신호 성분이 스스로 잡음 성분을 억제함으로써 인식 성능을 높일 수 있게 된다.

하지만 마스킹이 실제로 인간의 청각 시스템 내에서 어떠한 원리로 작용하는지 알려져 있지 않을 뿐더러 그 원리는 매우 복잡하여 공학적으로 구현하기 어려우며 또한 이를 실시간으로 동작하도록 하는 것은 매우 어려운 일이다.

본 발명에서는 이러한 마스킹 현상을 공학적으로 모델링하여 종래의 특징벡터를 변형시키는 방법을 통하여 음성인식기의 성능을 높일 수 있도록 특징벡터의 필터링을 이용한 음성인식방법을 제공하는데 그 목적이 있는 것이다.

상술한 목적을 달성하기 위하여 본 발명은 음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,

상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법을 제공하고자 한다.

이하 본 발명의 실시예를 첨부된 도면을 참고로 그 구성 및 작용을 설명하기로 한다.

주파수 마스킹은 두 개의 신호가 동시에 들려 올 때 하나의 신호가 다른 신호가 없을 때에 비교하여 더 작게 인지된다는 것이다.

또한 그 정도는 다른 신호가 더 클수록, 주파수가 더 인접할수록 비선형적으로 커진다는 것이며. 이러한 주파수 마스킹은 결과적으로 신호간의 경쟁관계로 생각할 수 있다.

이러한 경쟁관계를 이용해 크기가 큰 신호가 작은 신호를 억제하는 것으로 마스킹을 모델링 할 수 있고, 이때 어느 신호가 관심의 대상인 신호이고 어느 신호가 원하지 않는 잡음 신호인지 알 수가 없으므로 경쟁은 양방향 억제(lateral inhibition)에 의하여 공평하게 이루어져야한다.

이러한 상호억제는 도 3과 같은 멕시칸 모자(Mexican hat) 형태의 필터에 의하여 구현된다.

시간적 마스킹은 시간적으로 앞 선 신호에 의해서 그 바로 뒤에 들려지는 신호의 크기가 실제보다 더 작게 들리는 현상을 말한다.

뒤의 신호가 억제되는 정도는 앞선 신호가 클수록, 두 신호간의 시간 간격이 짧을 수록 비선형적으로 증가하는 관계를 보이며, 이는 상기 주파수 마스킹과는 달리 두 개의 신호간의 상호간섭이 아니라 하나의 신호가 다른 하나의 신호를 일방적으로 억제하는 단방향 억제(unilateral inhibition)로 모델링할 수 있다.

이러한 단방향 억제는 도 5와 같은 형태의 필터에 의하여 구현된다.

이러한 개념의 양방향 억제 또는 단방향 억제를 음성 인식 시스템에 구현하기 위해서는 어떤 영역에서 필터를 적용할 것인가와, 필터의 계수를 어떻게 구할 것인가의 두 가지 사항이 고려되어야 한다.

주파수 마스킹에 관하여 상기 두 가지 사항을 고려하기 위해 도 2을 참고로 MFCC 특징벡터 추출 알고리즘을 설명한다.

프레임단위 구성단계(S110)에서 입력된 음성신호는 매초 10,000개 이상의 연속적인 신호이다.

이를 음성인식기에 인가하기 위하여 일정시간 구간으로 구분하여 특징벡터를 추출한다.

보통 음성 특성이 변화하지 않는 10ms에 해당하는 구간으로 프레임을 나눈다.

해밍 윈도우단계(S120)는 푸리에 변환단계(S130)의 전 단계로서 프레임 사이의 경계값의 갑작스러운 변화에 의하여 주파수정보가 왜곡되는 것을 막기 위하여 프레임으로 구분된 입력신호에 해밍 윈도우를 곱하는 단계이다.

푸리에 변환단계(S130)는 정해진 프레임 내의 신호의 주파수 정보를 얻기위하여 푸리에 변환을 거치는 단계이다.

필터 뱅크단계(S140)는 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 단계로, 낮은 주파수 대역에서는 보다 조밀하게, 높은 주파수 대역에서는 광범위한 방법으로 세밀한 주파수 정보를 합친다.

켑스트럼 변환단계(S150)는 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 단계이다.

이는 잡음이나 그밖의 상황에 따라 가변적인 신호 특성을 억제함으로써 인식성능을 높이기 위함이다.

상기 푸리에 변환(Fourier Transform)단계(S130)를 통하여 해당 시간대 신호의 주파수 정보를 구하게 된다.

여기서 구한 주파수 정보는 각 주파수 대역 내에 신호의 에너지가 얼마나 모여 있는지를 나타내는 정보로 주파수 마스킹은 이 에너지 간의 상호 양방향 억제로 모델링 할 수 있다.

즉 양방향 억제를 위한 필터 계수를 이라고 하고 시간 에서의 번째 주파수 대역의 에너지 크기를 라 할 때, 주파수 마스킹을 거친 새로운 주파수 정보 는 아래의 수학식 1과 같이 계산할 수 있다.

여기에서 는 도 3에서 제시한 멕시칸 모자 형태의 필터 계수를 의미하며 아래의 수학식 2와 같이 두 가우시안 함수의 차이로부터 구할 수 있다.

여기서 , 는 필터의 폭을 결정해주는 변수이다.

보통 심리음향학에서의 실험적 결과는 필터의 억제폭이 신호의 주파수에 비례하며 또한 신호의 크기에 관한 함수이기도 하는 바, 상기 는 같은 크기의 신호에 대하여 얼마만큼의 억제를 할 것인가를 결정하는 변수이다.

공학적 구현을 위하여 , 값은 응용 범위에 따라 실험적으로 결정할 수 있고, 그 응용 범위에 따라 도 4와 같은 다양한 모양의 필터를 적용할 수 있다.

다음 시간적 마스킹은 앞선 신호의 에너지에 따라 뒤따르는 신호가 억제되는 현상으로 도 5에 제시한 단방향 억제 필터로 모델링 된다.

이러한 필터에 있어서, 주파수 마스킹 필터와 마찬가지로 필터링 영역 및 필터 계수의 결정 방법이 문제가 된다.

우선 필터링 영역으로는 주파수 마스킹에서와 마찬가지로 도 2와 같은 MFCC의 출력 과정 중의 한 단계를 선택할 수 있다.

가능한 영역으로는,

첫째, 프레임단위 구성단계(S110)에서 잘라진 시간축 상에서의 신호 정보,

둘째, 푸리에 변환단계(S130)에서 푸리에 변환을 통하여 계산된 신호의 주파수 정보,

셋째, 필터 뱅크단계(S140)에서 바크 스케일의 필터 뱅크를 통하여 통합된 주파수 정보와,

넷째, 켑스트럼 변환단계(S150)에서 코사인 변환을 통하여 계산된 켑스트럼 정보등이다.

이중 첫 번째 시간축 상에서의 신호 정보와 넷째 켑스트럼 정보는 신호의 에너지를 표현하는 변수가 아니므로 신호의 에너지 간의 억제를 의미하는 마스킹을 적용하기에 적당하지 않다.

두 번째와 세 번째의 주파수 정보는 그 해상도에서만 차이가 있을 뿐 모두 해당 시간의 각 대역별 에너지를 의미하는 물리량으로 마스킹을 적용할 수 있는 영역이 된다.

시간 에서의 번째 주파수 대역의 에너지를 라고 할 때 시간적 마스킹 알고리즘을 적용한 새로운 에너지 는 아래의 수학식 3과 같이 계산된다.

여기서 첫 번째 항은 큰 신호에 의한 반응이 짧은 시간 이후까지 없어지지 않은 상태로 양의 방향으로 영향을 주는 것을 모델링하며, 두 번째 항은 약간의 시간 이후 이전 신호가 현재 신호를 시간적 마스킹에 의하여 억제하는 것을 모델링한다.

또한 각각의 항은 , 변수에 따라 지수적으로 감소하는 형태를 갖으며 따라서 각 항이 영향을 미치는 시간을 결정하는 시간 상수(time constant)는 와 에 의하여 결정된다.

상수 , 는 각 항의 크기를 결정하는 상수이다.

보통 는 20ms에 해당하는 0.6정도의 값을 는 200ms에 해당하는 0.98정도의 값을 사용하며 및 값은 의 값을 사용하여 각 응용범위에 맞게 정할 수 있다.

여기서 각 항에 포함된 합은 시스템의 초기 입력부터의 무한합을 의미하지만 이를 시스템에서 실제적으로 구현하기는 계산 시간 및 기억장치의 사용면에서 불가능하다.

따라서 이를 구현 가능한 형태로 바꾸기 위하여 상기 수학식 3을 -영역에서 표현할 경우 아래와 같은 무한임펄스응답(Infinite Impulse Response)을 갖는 디지털 필터의 형태를 갖는다.

여기에 =0.6, =0.98, =0.3, =0.03의 값을 대입하여 필터의 충격응답(Impulse response)을 구하면 도 6과 같은 형태의 그래프를 얻는다.

도 6의 왼쪽 그림은 시간 축에서의 충격응답을, 오른쪽 그림은 주파수 축에서의 충격응답을 나타낸다.

주파수 축에서의 충격응답은 필터가 일정한 대역 내의 주파수만을 여과하는 대역 통과 필터임을 보여준다.

실제 이러한 형태의 필터는 신호 중 너무 빠르게 변화하거나 또는 너무 느리게 변화하는 성분을 걸러내어 인식에 필요한 성분만을 남기는 효과를 갖게 된다.

이 무한임펄스응답(IIR)의 구현은 아래와 같이 출력의 재귀적인 합에 의하여 이루어진다.

상기한 주파수 마스킹과 시간적 마스킹은 특징벡터 추출의 과정에 관여하는 것으로 두 과정이 상호 독립적으로 이루어진다.

따라서 실제 인간의 청각 시스템에서 그러하듯이 두 과정이 동시에 적용될 수 있으며 이 경우 주파수 마스킹은 한 시간에서의 두 신호간의 관계를 다루고 시간적 마스킹은 연속적인 두 신호간의 관계를 다루므로 먼저 주파수 마스킹을 적용하고 이후 연속하여 시간적 마스킹을 다루는 것이 타당하다.

이 과정을 적용하여 특징벡터를 추출하는 방법이 도 7에 도시된다.

주파수 마스킹단계(S135)는 상기 푸리에 변환단계(S130)를 통하여 얻어진 입력신호의 주파수 정보를 이용하여 주파수 마스킹을 적용하는 단계로서, 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링한다.

시간적 마스킹단계(S145)는 필터 뱅크단계(S140)를 거친 신호의 출력에 대하여 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 단계이다.

본 발명은 인간의 청각 기관에서 일어나는 마스킹 현상을 공학적으로 모델링하고 이를 음성인식 시스템에 이용하는 방법에 관한 것으로 공학적으로 널리 쓰이는 필터링 방법에 의하여 마스킹을 구현하였다.

필터의 모양은 주파수 마스킹의 경우에는 인접한 주파수 사이에 상호 억제가 일어날 수 있는 멕시칸 모자 형태의 필터를, 시간적 마스킹의 경우에는 앞선 신호가 뒷 신호를 억제하는 단방향 억제 모양의 필터를 사용하였다.

또한 필터의 적용 범위는 기존의 특징벡터 추출 과정 내부에서 출력이 그 시간의 일정 주파수 대역내의 에너지를 나타내는 물리량이 되는 경우에 적용 가능하다.

이러한 마스킹의 모델은 기존의 음성인식기의 구조에 변화 없이 벡터특징 추출 방법에 필터링 단계만을 덧붙임으로서 약간의 추가적인 계산만으로 마스킹 효과를 낼 수 있으며 이는 음성 인식 단계에서 잡음 환경에서의 인식 성능을 높여 준다.

도 1은 일반적인 음성 인식 과정의 순서도이다.

도 2는 도 1의 과정중 전처리 과정을 나타내는 순서도이다.

도 3은 본 발명에 따른 주파수 마스킹을 모델링하기 위해 구현한 필터를 나타내는 도면이다.

도 4는 본 발명에서 따른 주파수 마스킹을 실세계 응용분야에 적용하기 위한 여러가지 형태의 필터를 나타내는 도면이다.

도 5는 본 발명에 따른 시간적 마스킹을 모델링하기 위해 구현한 필터를 나타내는 도면이다.

도 6은 본 발명에 따른 시간적 마스킹을 실세계 응용분야에 적용하기 위한 필터의 시간 충격 응답 및 주파수 충격 응답을 나타내는 그래프이다.

도 7은 본 발명에 따른 주파수 마스킹과 시간적 마스킹을 도 2의 과정에 적용한 경우 순서도이다.

Claims

음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,

상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
청구항 1에 있어서, 상기 전처리 과정에서,

상기 입력된 음성신호의 주파수 정보를 이용하여 음성신호간의 양방향 경쟁관계로 단순화하고 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링하는 주파수 마스킹을 행함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
청구항 2에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,

특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 이고, 멕시칸 모자 형태의 필터 계수는 인 경우

수학식 6에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
청구항 1에 있어서, 상기 전처리 과정에서,

상기 입력된 음성신호의 주파수 정보를 이용하여 앞선 음성신호가 뒤따르는 음성신호에 영향을 미치는 것으로 단순화하고 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 단방향으로 억제를 모델링하는 시간적 마스킹을 행함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
청구항 4에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,

특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 , 와 는 시간상수를 결정하는 변수, 와 는 각 항의 크기를 결정하는 상수인 경우,

수학식 7에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
청구항 5에 있어서, 상기 수학식 7을,

무한합을 z-영역에서의 전이 함수인 수학식 8로 표현하여 실제 계산에 있어서 수학식 9로 단순화해서 계산함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
청구항 1에 있어서, 상기 전처리 과정은,

상기 입력된 음성신호를 일정시간 구간으로 구분하여 프레임을 나누는 프레임단위 구성단계와,

상기 프레임으로 구분된 음성신호에 해밍 윈도우를 곱하는 해밍 윈도우단계와,

상기 프레임 내의 신호의 주파수 정보를 얻기 위하여 푸리에 변환을 하는 푸리에 변환단계와,

상기 푸리에 변환을 통하여 얻어진 음성신호의 주파수 정보를 이용하여 신호간의 상호 억제를 모델링하는 주파수 마스킹 단계와.

상기 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 필터 뱅크단계와,

상기 필터 뱅크의 출력에 대하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 시간적 마스킹 단계와,

상기 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 켑스트럼 변환단계로 구성됨을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.