KR100476103B1 - 특징벡터의 필터링을 이용한 음성인식방법 - Google Patents
특징벡터의 필터링을 이용한 음성인식방법 Download PDFInfo
- Publication number
- KR100476103B1 KR100476103B1 KR10-2002-0047123A KR20020047123A KR100476103B1 KR 100476103 B1 KR100476103 B1 KR 100476103B1 KR 20020047123 A KR20020047123 A KR 20020047123A KR 100476103 B1 KR100476103 B1 KR 100476103B1
- Authority
- KR
- South Korea
- Prior art keywords
- masking
- signal
- frequency
- filter
- feature vector
- Prior art date
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 69
- 238000001914 filtration Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 34
- 230000001629 suppression Effects 0.000 claims abstract description 22
- 230000002123 temporal effect Effects 0.000 claims abstract description 20
- 235000009413 Ratibida columnifera Nutrition 0.000 claims abstract description 7
- 241000510442 Ratibida peduncularis Species 0.000 claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims abstract description 5
- 210000000056 organ Anatomy 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012805 post-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 1
- 230000009466 transformation Effects 0.000 claims 1
- 230000007704 transition Effects 0.000 claims 1
- 230000002457 bidirectional effect Effects 0.000 abstract description 5
- 230000004044 response Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 4
- 230000035939 shock Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000023886 lateral inhibition Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 인간의 청각 기관에서 관찰되는 마스킹 현상을 공학적으로 구현하여 음성 인식 성능을 향상시키고자 하는 것이다.
마스킹이란 여러 개의 신호가 동시 또는 인접한 시간에 존재할 때 하나의 신호가 다른 신호를 억제하는 것을 말하며, 음성신호와 잡음이 같이 존재할 때 신호성분이 잡음성분을 억제할 수 있다면 음성인식 성능을 높일 수 있다는 기대에서 본 발명은 출발한다.
복잡한 기전에 의하여 일어나는 마스킹 현상을 단순한 필터링으로 모델링하되, 필터의 모양은 주파수 마스킹의 경우에는 양방향 억제를 모사하는 멕시칸 모자 형태로 하고 시간적 마스킹은 단방향 억제를 모사하는 형태로 한다.
필터링은 특징벡터의 영역에서 각각의 시간에 각 주파수 밴드별 에너지를 나타내는 물리량 사이에서 이루어진다.
간단한 곱셈과 덧셈의 연산만으로 잡음을 억제하는 마스킹 현상을 모사하는 본 발명에 의하면 잡음이 많이 존재하는 환경에서 음성 인식 성능을 향상시킬 수 있다.
Description
본 발명은 특징벡터의 필터링을 이용한 음성인식방법에 관한 것으로, 더 상세하게는 인간의 청각 시스템에서 일어나는 마스킹 메카니즘을 음성인식에 사용되는 특징벡터 영역에서의 필터링에 의한 양방향 억제 방식으로 구현하여, 종래 복잡한 방법으로 모델링하던 마스킹 메카니즘을 간단한 방법에 의하여 계산 효율적으로 구현하고 이를 음성 인식에 적용하여 향상된 인식 결과를 얻을 수 있는 음성인식방법에 관한 것이다.
마스킹이란 둘 이상의 신호가 동시 또는 짧은 시간 간격을 두고 입력되어지는 상황에서 하나의 신호가 다른 하나에 간섭을 미치는 현상을 말한다.
예를 들어 일정한 주파수의 톤을 계속해서 들려주면서 또 다른 톤의 주파수를 점점 원래의 톤의 주파수에 근접하게 할 때 그 간격이 가까워질수록 그 크기가 실제보다 더 작게 들리는 현상을 말한다.
이러한 마스킹 현상은 지금까지 인간의 청각기관 중 특히 기저막(basilar membrane)의 대역 통과 필터 특성을 알기 위하여 많이 연구되어 왔다.
이러한 현상의 원인으로는 신경생물학적인 측면에서의 청신경의 발화 패턴에서 그 원인을 찾기도 하며, 보다 높은 수준의 심리음향학(Psychoacoustics)에서의 인지수준에서의 간섭에서 그 원인을 찾기도 한다.
이러한 마스킹에는 주파수 마스킹과 시간적 마스킹의 두 가지가 있다.
주파수 마스킹은 동시에 들려오는 두 개의 신호사이의 간섭을, 시간적 마스킹은 시간적으로 인접해서 들려오는 두 신호간의 간섭을 다룬다.
구체적으로 주파수 마스킹은 두 개의 신호가 동시에 들려 올 때 하나의 신호가 다른 신호가 없을 때에 비교하여 더 작게 인지된다는 것이다.
또한 그 정도는 다른 신호가 더 클수록, 주파수가 더 인접할수록 비선형적으로 커진다는 것이며, 시간적 마스킹은 시간적으로 앞 선 신호에 의해서 그 바로 뒤에 들려지는 신호의 크기가 실제보다 더 작게 들리는 현상을 말한다.
뒤의 신호가 억제되는 정도는 앞선 신호가 클수록, 두 신호간의 시간 간격이 짧을수록 비선형적으로 증가하는 관계를 보인다.
일반적인 음성 인식 과정은 도 1과 같은 순서를 갖는다.
실생활에 응용되는 음성인식기의 입력으로 쓰이는 음성신호는 여러 가지 잡음을 포함하게 된다.
이러한 잡음은 음성인식기의 성능에 큰 영향을 주므로 일반적인 경우 음성인식기 이전 단계에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하여 음성인식기의 성능을 높여주는 등의 신호처리를 하는 전처리 과정(S100)을 거친다.
음성인식기는 음성신호를 입력으로 하여 인식결과를 출력하고, 이때 음성인식기 내부에서 각 인식 요소를 구분하게 해주는 특징을 특징벡터라고 하며 음성신호전체가 특징벡터로 쓰이기도 한다.
하지만 대부분의 경우에 음성신호 자체는 인식에 사용되기에는 불필요한 정보를 많이 포함하고 있으므로 이중에서 인식에 꼭 필요하다고 판단되는 성분만을 골라서 특징벡터로 추출하게 된다(S200)
학습/인식 과정(S300)에서 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 것이 인식과정에 해당되고, 이러한 인식과정이 올바르게 이루어지기 위해서 사전에 입력과 출력과의 관계를 음성인식기에 충분히 알려주는 학습과정을 거쳐야 한다.
후처리 과정(S400)은 인식된 결과에 대하여 이 결과가 타당한 것인지 문맥적 정보 등을 이용하여 검증하는 과정이다.
상기 특징벡터 추출 과정(S200)를 거쳐 추출된 특징벡터는 음성 신호 중에서 인식에 필요한 성분만을 압축하여 가지고 있는 형태로 보통 시간에 따른 주파수 정보를 갖게 된다.
이러한 특징 벡터로는 MFCC(Mel-Frequency Cepstral Coefficients)가 가장 널리 쓰이고 있으며, 이와 함께 LPCC(Linear Prediction Cepstral Coefficients), EIH(Ensenble Interaval Histogram) 등의 특징벡터도 널리 쓰이는 특징 벡터 중의 하나로서 본 발명에서 이용하게 될 특징벡터는 MFCC이다.
한편, 미국특허 US6385572(System and method for efficiently implementing a masking function in a pshcho-acoustic modeler)에는 마스킹 현상에 의하여 사람에게 들려지지 않는 신호를 무시함으로써 코딩 효율을 높이는 발명이 개시되어 있고, US5625743(Determining a masking level for a subband in a subband audio encoder)에는 주파수 대역별로 마스킹 레벨을 계산하여 주파수 마스킹을 구현하는 발명이 개시되어 있다.
일반적으로 실세계에서 신호는 항상 원하지 않는 잡음과 함께 존재하며 이러한 잡음 성분은 음성 인식을 방해하는 가장 큰 요소가 된다.
따라서 마스킹 현상을 음성 인식에 적용함으로써 관심의 대상인 신호 성분이 스스로 잡음 성분을 억제함으로써 인식 성능을 높일 수 있게 된다.
하지만 마스킹이 실제로 인간의 청각 시스템 내에서 어떠한 원리로 작용하는지 알려져 있지 않을 뿐더러 그 원리는 매우 복잡하여 공학적으로 구현하기 어려우며 또한 이를 실시간으로 동작하도록 하는 것은 매우 어려운 일이다.
본 발명에서는 이러한 마스킹 현상을 공학적으로 모델링하여 종래의 특징벡터를 변형시키는 방법을 통하여 음성인식기의 성능을 높일 수 있도록 특징벡터의 필터링을 이용한 음성인식방법을 제공하는데 그 목적이 있는 것이다.
상술한 목적을 달성하기 위하여 본 발명은 음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,
상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법을 제공하고자 한다.
이하 본 발명의 실시예를 첨부된 도면을 참고로 그 구성 및 작용을 설명하기로 한다.
주파수 마스킹은 두 개의 신호가 동시에 들려 올 때 하나의 신호가 다른 신호가 없을 때에 비교하여 더 작게 인지된다는 것이다.
또한 그 정도는 다른 신호가 더 클수록, 주파수가 더 인접할수록 비선형적으로 커진다는 것이며. 이러한 주파수 마스킹은 결과적으로 신호간의 경쟁관계로 생각할 수 있다.
이러한 경쟁관계를 이용해 크기가 큰 신호가 작은 신호를 억제하는 것으로 마스킹을 모델링 할 수 있고, 이때 어느 신호가 관심의 대상인 신호이고 어느 신호가 원하지 않는 잡음 신호인지 알 수가 없으므로 경쟁은 양방향 억제(lateral inhibition)에 의하여 공평하게 이루어져야한다.
이러한 상호억제는 도 3과 같은 멕시칸 모자(Mexican hat) 형태의 필터에 의하여 구현된다.
시간적 마스킹은 시간적으로 앞 선 신호에 의해서 그 바로 뒤에 들려지는 신호의 크기가 실제보다 더 작게 들리는 현상을 말한다.
뒤의 신호가 억제되는 정도는 앞선 신호가 클수록, 두 신호간의 시간 간격이 짧을 수록 비선형적으로 증가하는 관계를 보이며, 이는 상기 주파수 마스킹과는 달리 두 개의 신호간의 상호간섭이 아니라 하나의 신호가 다른 하나의 신호를 일방적으로 억제하는 단방향 억제(unilateral inhibition)로 모델링할 수 있다.
이러한 단방향 억제는 도 5와 같은 형태의 필터에 의하여 구현된다.
이러한 개념의 양방향 억제 또는 단방향 억제를 음성 인식 시스템에 구현하기 위해서는 어떤 영역에서 필터를 적용할 것인가와, 필터의 계수를 어떻게 구할 것인가의 두 가지 사항이 고려되어야 한다.
주파수 마스킹에 관하여 상기 두 가지 사항을 고려하기 위해 도 2을 참고로 MFCC 특징벡터 추출 알고리즘을 설명한다.
프레임단위 구성단계(S110)에서 입력된 음성신호는 매초 10,000개 이상의 연속적인 신호이다.
이를 음성인식기에 인가하기 위하여 일정시간 구간으로 구분하여 특징벡터를 추출한다.
보통 음성 특성이 변화하지 않는 10ms에 해당하는 구간으로 프레임을 나눈다.
해밍 윈도우단계(S120)는 푸리에 변환단계(S130)의 전 단계로서 프레임 사이의 경계값의 갑작스러운 변화에 의하여 주파수정보가 왜곡되는 것을 막기 위하여 프레임으로 구분된 입력신호에 해밍 윈도우를 곱하는 단계이다.
푸리에 변환단계(S130)는 정해진 프레임 내의 신호의 주파수 정보를 얻기위하여 푸리에 변환을 거치는 단계이다.
필터 뱅크단계(S140)는 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 단계로, 낮은 주파수 대역에서는 보다 조밀하게, 높은 주파수 대역에서는 광범위한 방법으로 세밀한 주파수 정보를 합친다.
켑스트럼 변환단계(S150)는 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 단계이다.
이는 잡음이나 그밖의 상황에 따라 가변적인 신호 특성을 억제함으로써 인식성능을 높이기 위함이다.
상기 푸리에 변환(Fourier Transform)단계(S130)를 통하여 해당 시간대 신호의 주파수 정보를 구하게 된다.
여기서 구한 주파수 정보는 각 주파수 대역 내에 신호의 에너지가 얼마나 모여 있는지를 나타내는 정보로 주파수 마스킹은 이 에너지 간의 상호 양방향 억제로 모델링 할 수 있다.
즉 양방향 억제를 위한 필터 계수를 이라고 하고 시간 에서의 번째 주파수 대역의 에너지 크기를 라 할 때, 주파수 마스킹을 거친 새로운 주파수 정보 는 아래의 수학식 1과 같이 계산할 수 있다.
여기에서 는 도 3에서 제시한 멕시칸 모자 형태의 필터 계수를 의미하며 아래의 수학식 2와 같이 두 가우시안 함수의 차이로부터 구할 수 있다.
여기서 , 는 필터의 폭을 결정해주는 변수이다.
보통 심리음향학에서의 실험적 결과는 필터의 억제폭이 신호의 주파수에 비례하며 또한 신호의 크기에 관한 함수이기도 하는 바, 상기 는 같은 크기의 신호에 대하여 얼마만큼의 억제를 할 것인가를 결정하는 변수이다.
공학적 구현을 위하여 , 값은 응용 범위에 따라 실험적으로 결정할 수 있고, 그 응용 범위에 따라 도 4와 같은 다양한 모양의 필터를 적용할 수 있다.
다음 시간적 마스킹은 앞선 신호의 에너지에 따라 뒤따르는 신호가 억제되는 현상으로 도 5에 제시한 단방향 억제 필터로 모델링 된다.
이러한 필터에 있어서, 주파수 마스킹 필터와 마찬가지로 필터링 영역 및 필터 계수의 결정 방법이 문제가 된다.
우선 필터링 영역으로는 주파수 마스킹에서와 마찬가지로 도 2와 같은 MFCC의 출력 과정 중의 한 단계를 선택할 수 있다.
가능한 영역으로는,
첫째, 프레임단위 구성단계(S110)에서 잘라진 시간축 상에서의 신호 정보,
둘째, 푸리에 변환단계(S130)에서 푸리에 변환을 통하여 계산된 신호의 주파수 정보,
셋째, 필터 뱅크단계(S140)에서 바크 스케일의 필터 뱅크를 통하여 통합된 주파수 정보와,
넷째, 켑스트럼 변환단계(S150)에서 코사인 변환을 통하여 계산된 켑스트럼 정보등이다.
이중 첫 번째 시간축 상에서의 신호 정보와 넷째 켑스트럼 정보는 신호의 에너지를 표현하는 변수가 아니므로 신호의 에너지 간의 억제를 의미하는 마스킹을 적용하기에 적당하지 않다.
두 번째와 세 번째의 주파수 정보는 그 해상도에서만 차이가 있을 뿐 모두 해당 시간의 각 대역별 에너지를 의미하는 물리량으로 마스킹을 적용할 수 있는 영역이 된다.
시간 에서의 번째 주파수 대역의 에너지를 라고 할 때 시간적 마스킹 알고리즘을 적용한 새로운 에너지 는 아래의 수학식 3과 같이 계산된다.
여기서 첫 번째 항은 큰 신호에 의한 반응이 짧은 시간 이후까지 없어지지 않은 상태로 양의 방향으로 영향을 주는 것을 모델링하며, 두 번째 항은 약간의 시간 이후 이전 신호가 현재 신호를 시간적 마스킹에 의하여 억제하는 것을 모델링한다.
또한 각각의 항은 , 변수에 따라 지수적으로 감소하는 형태를 갖으며 따라서 각 항이 영향을 미치는 시간을 결정하는 시간 상수(time constant)는 와 에 의하여 결정된다.
상수 , 는 각 항의 크기를 결정하는 상수이다.
보통 는 20ms에 해당하는 0.6정도의 값을 는 200ms에 해당하는 0.98정도의 값을 사용하며 및 값은 의 값을 사용하여 각 응용범위에 맞게 정할 수 있다.
여기서 각 항에 포함된 합은 시스템의 초기 입력부터의 무한합을 의미하지만 이를 시스템에서 실제적으로 구현하기는 계산 시간 및 기억장치의 사용면에서 불가능하다.
따라서 이를 구현 가능한 형태로 바꾸기 위하여 상기 수학식 3을 -영역에서 표현할 경우 아래와 같은 무한임펄스응답(Infinite Impulse Response)을 갖는 디지털 필터의 형태를 갖는다.
여기에 =0.6, =0.98, =0.3, =0.03의 값을 대입하여 필터의 충격응답(Impulse response)을 구하면 도 6과 같은 형태의 그래프를 얻는다.
도 6의 왼쪽 그림은 시간 축에서의 충격응답을, 오른쪽 그림은 주파수 축에서의 충격응답을 나타낸다.
주파수 축에서의 충격응답은 필터가 일정한 대역 내의 주파수만을 여과하는 대역 통과 필터임을 보여준다.
실제 이러한 형태의 필터는 신호 중 너무 빠르게 변화하거나 또는 너무 느리게 변화하는 성분을 걸러내어 인식에 필요한 성분만을 남기는 효과를 갖게 된다.
이 무한임펄스응답(IIR)의 구현은 아래와 같이 출력의 재귀적인 합에 의하여 이루어진다.
상기한 주파수 마스킹과 시간적 마스킹은 특징벡터 추출의 과정에 관여하는 것으로 두 과정이 상호 독립적으로 이루어진다.
따라서 실제 인간의 청각 시스템에서 그러하듯이 두 과정이 동시에 적용될 수 있으며 이 경우 주파수 마스킹은 한 시간에서의 두 신호간의 관계를 다루고 시간적 마스킹은 연속적인 두 신호간의 관계를 다루므로 먼저 주파수 마스킹을 적용하고 이후 연속하여 시간적 마스킹을 다루는 것이 타당하다.
이 과정을 적용하여 특징벡터를 추출하는 방법이 도 7에 도시된다.
주파수 마스킹단계(S135)는 상기 푸리에 변환단계(S130)를 통하여 얻어진 입력신호의 주파수 정보를 이용하여 주파수 마스킹을 적용하는 단계로서, 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링한다.
시간적 마스킹단계(S145)는 필터 뱅크단계(S140)를 거친 신호의 출력에 대하여 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 단계이다.
본 발명은 인간의 청각 기관에서 일어나는 마스킹 현상을 공학적으로 모델링하고 이를 음성인식 시스템에 이용하는 방법에 관한 것으로 공학적으로 널리 쓰이는 필터링 방법에 의하여 마스킹을 구현하였다.
필터의 모양은 주파수 마스킹의 경우에는 인접한 주파수 사이에 상호 억제가 일어날 수 있는 멕시칸 모자 형태의 필터를, 시간적 마스킹의 경우에는 앞선 신호가 뒷 신호를 억제하는 단방향 억제 모양의 필터를 사용하였다.
또한 필터의 적용 범위는 기존의 특징벡터 추출 과정 내부에서 출력이 그 시간의 일정 주파수 대역내의 에너지를 나타내는 물리량이 되는 경우에 적용 가능하다.
이러한 마스킹의 모델은 기존의 음성인식기의 구조에 변화 없이 벡터특징 추출 방법에 필터링 단계만을 덧붙임으로서 약간의 추가적인 계산만으로 마스킹 효과를 낼 수 있으며 이는 음성 인식 단계에서 잡음 환경에서의 인식 성능을 높여 준다.
도 1은 일반적인 음성 인식 과정의 순서도이다.
도 2는 도 1의 과정중 전처리 과정을 나타내는 순서도이다.
도 3은 본 발명에 따른 주파수 마스킹을 모델링하기 위해 구현한 필터를 나타내는 도면이다.
도 4는 본 발명에서 따른 주파수 마스킹을 실세계 응용분야에 적용하기 위한 여러가지 형태의 필터를 나타내는 도면이다.
도 5는 본 발명에 따른 시간적 마스킹을 모델링하기 위해 구현한 필터를 나타내는 도면이다.
도 6은 본 발명에 따른 시간적 마스킹을 실세계 응용분야에 적용하기 위한 필터의 시간 충격 응답 및 주파수 충격 응답을 나타내는 그래프이다.
도 7은 본 발명에 따른 주파수 마스킹과 시간적 마스킹을 도 2의 과정에 적용한 경우 순서도이다.
Claims (7)
- 음성인식기에 입력되는 음성신호에서 잡음 성분을 구분하여 차단하거나 신호가 분포하지 않는 주파수 영역을 억제하는 전처리 과정과, 음성신호중 인식에 꼭 필요하다다고 판단되는 성분만을 골라서 특징벡터로 추출하는 특징벡터 추출 과정과, 음성신호의 입력과 출력과의 관계를 알려주고, 상기 추출된 특징벡터를 입력으로 하여 현재의 입력이 어느 클래스에 속하는지를 판단하는 학습/인식 과정과, 인식된 결과에 대하여 이 결과가 타당한 것인지 검증하는 후처리 과정으로 이루어지는 음성인식방법에 있어서,상기 전처리 과정에서, 인간의 청각 기관에서 일어나는 마스킹 메카니즘을 입력 음성신호간의 경쟁으로 단순화하고 필터링의 방법으로 모델링하여, 상기 특징벡터 추출 과정의 계산에 이용함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 음성신호간의 양방향 경쟁관계로 단순화하고 멕시칸 모자 형태의 필터를 매 프레임마다 적용하여 신호간의 상호억제를 모델링하는 주파수 마스킹을 행함을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
- 청구항 2에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 이고, 멕시칸 모자 형태의 필터 계수는 인 경우수학식 6에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정에서,상기 입력된 음성신호의 주파수 정보를 이용하여 앞선 음성신호가 뒤따르는 음성신호에 영향을 미치는 것으로 단순화하고 비대칭적인 멕시칸 모자 형태의 필터를 적용하여 단방향으로 억제를 모델링하는 시간적 마스킹을 행함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 4에 있어서, 상기 시간적 마스킹을 거친 주파수 정보 는,특징벡터 추출 과정에서 시간 에서의 번째 주파수 대역 내의 에너지는 , 와 는 시간상수를 결정하는 변수, 와 는 각 항의 크기를 결정하는 상수인 경우,수학식 7에 의해 계산됨을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 5에 있어서, 상기 수학식 7을,무한합을 z-영역에서의 전이 함수인 수학식 8로 표현하여 실제 계산에 있어서 수학식 9로 단순화해서 계산함을 특징으로 하는 특징벡터의 필터를 이용한 음성인식방법.
- 청구항 1에 있어서, 상기 전처리 과정은,상기 입력된 음성신호를 일정시간 구간으로 구분하여 프레임을 나누는 프레임단위 구성단계와,상기 프레임으로 구분된 음성신호에 해밍 윈도우를 곱하는 해밍 윈도우단계와,상기 프레임 내의 신호의 주파수 정보를 얻기 위하여 푸리에 변환을 하는 푸리에 변환단계와,상기 푸리에 변환을 통하여 얻어진 음성신호의 주파수 정보를 이용하여 신호간의 상호 억제를 모델링하는 주파수 마스킹 단계와.상기 푸리에 변환에 의하여 얻어진 신호의 주파수 정보를 몇 개의 적은 수의 주파수 대역 정보로 합치는 필터 뱅크단계와,상기 필터 뱅크의 출력에 대하여 시간적으로 앞서 입력된 큰 신호가 뒤따라오는 작은 신호를 억제하는 단방향 억제를 모델링하는 시간적 마스킹 단계와,상기 필터 뱅크의 출력에 로그를 취하고 이를 다시 역푸리에 변환단계를 거쳐 특징벡터를 켑스트럼 정보로 변환하는 켑스트럼 변환단계로 구성됨을 특징으로 하는 특징벡터의 필터링을 이용한 음성인식방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040013970A KR20040013970A (ko) | 2004-02-14 |
KR100476103B1 true KR100476103B1 (ko) | 2005-03-10 |
Family
ID=37321229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0047123A KR100476103B1 (ko) | 2002-08-09 | 2002-08-09 | 특징벡터의 필터링을 이용한 음성인식방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100476103B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1295672C (zh) * | 2002-03-27 | 2007-01-17 | 诺基亚有限公司 | 模式识别 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
-
2002
- 2002-08-09 KR KR10-2002-0047123A patent/KR100476103B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612089A (ja) * | 1992-06-25 | 1994-01-21 | A T R Shichokaku Kiko Kenkyusho:Kk | 音声認識方法 |
JPH0744190A (ja) * | 1993-07-30 | 1995-02-14 | Sony Corp | 音声認識装置 |
US6128593A (en) * | 1998-08-04 | 2000-10-03 | Sony Corporation | System and method for implementing a refined psycho-acoustic modeler |
US20020029143A1 (en) * | 1998-12-28 | 2002-03-07 | Lin Yin | System and method for effectively implementing fixed masking thresholds in an audio encoder device |
JP2001242893A (ja) * | 2000-03-01 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 帯域分割音声圧縮符号化方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20040013970A (ko) | 2004-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Giri et al. | Attention wave-u-net for speech enhancement | |
Yegnanarayana et al. | Enhancement of reverberant speech using LP residual signal | |
Ghanbari et al. | A new approach for speech enhancement based on the adaptive thresholding of the wavelet packets | |
Chen et al. | MVA processing of speech features | |
JP5554893B2 (ja) | 音声特徴ベクトル変換方法及び装置 | |
JP2001356791A (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
JP2003303000A (ja) | 特殊領域におけるチャンネル雑音および加法性雑音の合同補償に関する方法および装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Do et al. | Speech source separation using variational autoencoder and bandpass filter | |
CN103295580A (zh) | 一种语音信号噪声抑制方法及装置 | |
KR100571427B1 (ko) | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 | |
KR100476103B1 (ko) | 특징벡터의 필터링을 이용한 음성인식방법 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
Soni et al. | Effectiveness of ideal ratio mask for non-intrusive quality assessment of noise suppressed speech | |
Johnson et al. | Performance of nonlinear speech enhancement using phase space reconstruction | |
Garg et al. | Deep convolutional neural network-based speech signal enhancement using extensive speech features | |
KR100835993B1 (ko) | 마스킹 확률을 이용한 음성 인식 전처리 방법 및 전처리장치 | |
Ahmed | Comparison of noisy speech enhancement algorithms in terms of LPC perturbation | |
JP4464797B2 (ja) | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Rahali et al. | Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise | |
Minami et al. | A theoretical analysis of speech recognition based on feature trajectory models. | |
Ma et al. | A perceptual kalman filtering-based approach for speech enhancement | |
Hermansky et al. | Band-independent speech-event categories for TRAP based ASR. | |
KR102505653B1 (ko) | 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20100225 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |