KR100442825B1 - 음성 인식을 위한 환경 보상 방법 - Google Patents
음성 인식을 위한 환경 보상 방법 Download PDFInfo
- Publication number
- KR100442825B1 KR100442825B1 KR1019970032370A KR19970032370A KR100442825B1 KR 100442825 B1 KR100442825 B1 KR 100442825B1 KR 1019970032370 A KR1019970032370 A KR 1019970032370A KR 19970032370 A KR19970032370 A KR 19970032370A KR 100442825 B1 KR100442825 B1 KR 100442825B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- spectrum
- environmental
- log
- log spectrum
- Prior art date
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007613 environmental effect Effects 0.000 claims abstract description 39
- 230000003595 spectral effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000026676 system process Effects 0.000 claims description 3
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 238000009826 distribution Methods 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서의 음성인식 시스템의 성능을 향상시킬 수 있도록, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치
Description
본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼이 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법에 관한 것이다.
일반적으로, 음성 인식 시스템은 미리 채집하여둔 음성 데이터를 이용하여 인식에 쓰이는 각 파라메타를 학습시켜 인식에 사용한다.
따라서, 음성 인식 시스템의 성능은 미리 채집한 음성 데이터(이하 학습 데이터라 칭한다)에 의하여 크게 좌우된다.
그런데, 실제 음성 인식 시스템이 동작될 때를 생각해 보면, 학습 데이터에포함되지 않은 음성의 발성, 발음시 주변 잡음의 차이, 또는 전화선 등과 같은 선로에 의해서 발생되는 왜곡으로 인하여 성능이 저하됨을 알 수 있다.
이 때문에, 가장 최적의 음성 인식 시스템 구축은, 인식 시스템의 파라메타를 실제로 인식 시스템이 사용되는 환경에서 학습시킴으로써, 이루어질 수 있다.
그러나, 주변의 잡음 또는 선로에 의한 왜곡은, 인식 시스템 사용 중에 수시로 변화하기 때문에, 특정 환경에 국한하여 인식기의 파라메타를 학습시키는 것은, 인식기 사용 중 더 큰 성능 저하를 가져올 수 있다.
이러한 문제점을 해결하기 위하여, 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 보상하는 방법들이 고안되었으며, 부분적인 성공을 거두고 있다.
이러한 방법들은, 음성의 스펙트럼이 잡음 또는 선로에 의한 왜곡으로 인하여, 오염되는 과정을 수학적으로 모델링함으로써, 실제의 음성 스펙트럼을 추정한다.
이들 방법들은, 주변 잡음 또는 선로에 의한 왜곡의 특성을 가정하여 수학적으로 모델링하기 때문에, 실제의 잡음 또는 선로에 의한 왜곡의 특성과는, 차이를 발생시키게 되는 문제점이 있다.
이와 같이, 실제의 환경인 잡음 또는 선로에 의한 왜곡이, 가정된 환경 특성과 차이를 보이게 되는 경우, 이는 음성 인식 시스템의 성능에 큰 영향을 미칠 수 있게 된다.
따라서, 사전에 환경에 대한 정보를 적절히 반영할 수 있는 기법이 요구된다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점들을 해소시키기 위하여 창안된 것으로, 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 방법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법을 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 음성 인식을 위한 환경 보상 방법의 동작 흐름도이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명은, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는 음성인식 시스템 과정(40)으로 이루어짐을 특징으로 한다.
본 발명의 목적에 따른, 음성 인식을 위한 환경 보상 방법의 동작 원리를 첨부된 도면을 참조하여, 상세히 설명하면 다음과 같다.
먼저, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 얻는 로그 스펙트럼 과정(10)을 수행한다.
상기 로그 스펙트럼 과정(10)에서는, 음성을 일정 구간 블럭화하여 고속 푸리에 변환(Fast Fourier Transform 이하 FFT라 칭함)을 취한다.
이때, 블럭화된 구간을 프레임(frame)이라 하는데, 고속 푸리에 변환(FFT)에 의하여 각 프레임마다, 일정 갯수의 고속 푸리에 변환 계수가 생성된다.
특정 프레임에서 추출된 고속 푸리에 변환 계수들을 {f(1), f(2), …, f(Q)}이라 하면, f(i)는 i번째 기본 주파수 대역에서의 고속 푸리에 변환 계수가 된다.
상기와 같이, 각 기본 주파수 대역의 고속 푸리에 변환 계수들이 구해지면, 이들을 특정 갯수만큼 결합하여 스펙트럼을 구하게 된다.
S = [ S1, S2, …, SN ]을 현재 프레임의 스펙트럼이라 하면, 이는 고속 푸리에 변환 계수들로부터 다음과 같은 관계식을 통하여 구해진다.
[수학식 1]
이때, Bi와 Ei는 i번째 대역을 나타내며, N 은 스펙트럼의 전체 대역수를 나타낸다.
상기와 같이 스펙트럼이 구해지면, 이에 로그(log)를 취하여 로그 스펙트럼을 구한다.
z = [ z1, z2, …, zN]을 현재 프레임의 로그 스펙트럼이라 하면,
[수학식 2]
상기와 같이, 입력된 음성의 각 프레임에서 로그 스펙트럼이 추출되면, 이어서 환경변수 추정 과정(20)을 수행한다.
환경변수란, 부가 잡음과 선로에 의한 왜곡의 특성을 결정하는 변수로, 음질 향상에 중요한 요소이다.
n = [ n1, n2, …, nN]을 부가 잡음의 로그 스펙트럼이라 하고, q = [ q1, q2, …, qN]를 선로에 의한 왜곡의 로그 스펙트럼이라고 하자.
한편, 선로에 의한 왜곡(q)은 고정된 상수로, 역시 추정해야 할 변수이다.
상기 환경변수의 추정을 위해서는, 오염되지 않은 음성의 로그 스펙트럼에 대한 분포가 필요한데, 이는 사전에 많은 양의 오염되지 않은 음성 데이터를 수집하여, 그를 바탕으로 구해진다.
x = [ x1, x2, …, xN]을 오염되지 않은 음성의 로그 스펙트럼이라 하면, 일반적으로 이의 분포, P(x)는 다음과 같이 나타낸다.
[수학식 3]
즉, 미리 수집된 오염되지 않은 음성으로부터 로그 스펙트럼을 추출하고, 이들을 M개의 군으로 나눈다.
또한, 각 군에 소속된 로그 스펙트럼의 수에 따라 k번째 가우스 분포의 가중치인 p(k)를 정하게 된다.
상기와 같이, 환경변수 추정 과정(20)에서 각 환경변수의 주정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30)을 수행한다.
우선, 오염되지 않은 음성이 k번째 군에 속해있을 때, 구해진 환경변수에 의해 오염된 음성의 로그 스펙트럼의 평균과 분산이 구해지는데, 이들은 추정된 환경변수의 값과 k번째 가우스 분포의 평균과 분산의 관계식으로 표현되며, 음성의 오염 과정에 따라 다르게 나타난다.
[수학식 4]
즉,
[수학식 5]
한편, 음성 로그 스펙트럼의 각 군에 대한 확률값(Pk)이 구해지면, 오염될 음성의 로그 스펙트럼(z)이 주어졌을 때, 오염되지 않은 음성 로그 스펙트럼의 추정치는 다음과 같이 구해진다.
[수학식 6]
상기와 같이 동작하는 환경 보상 방법의 절차 중, 환경변수 추정 과정(20)이 가장 중요한 과정이다.
여기서, zt는 t번째 프레임에서의 오염된 음성 로그 스펙트럼을 나타낸다.
그런데, 이와 같은 환경변수 추정은, 현재 주어진 오염된 음성의 로그 스펙트럼 열(Z)만을 이용하기 때문에, 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 이용할 수 없다는 단점이 있다.
따라서, 이와 같이 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 상기 환경변수 추정 과정(20)에서 사용하는 방법은 다음과 같다.
제안된 방법에 의하여 추정되는 환경변수의 값을
[수학식 7]
상기 수학식 7 에서, 선형 결합의 강도를 조절하는 방법은 다음과 같다.
[수학식 8]
여기서, T는 현재 주어진 오염된 음성 로그 스펙트럼 열(Z)의 길이(프레임수)를 나타내고, τ는 제안된 방법에서 쓰이는 파라메타로, 선 정보를 강조할 경우 크게 하고, 현재 주어진 오염된 음성 로그 스펙트럼을 강조할 경우 작게 선정한다.
한편, 본 발명의 성능을 평가하기 위하여, 화자독립 고립단어 인식 실험을 수행하였다.
인식 대상 단어는 75개의 한국어 단어로, 각 음소가 고루 나타나는 단어들로 이루어졌다.
20명의 남자 화자가 각 단어를 한번씩 발음하여, 인식기의 학습 및 인식 실험에 사용하였다.
사용된 인식기는 히든 마르코프 모델(Hidden Markoy Model 이하 HMM 라 칭함) 방식의 인식기로, 32개의 음소 모델이 기본 단위 모델로 설정되었다.
각 음소 모델은 3개의 상태(state)로 이루어 졌으며, 이들을 바탕으로 각 단어 모델이 구성되었다.
15명 화자의 발음을 각 음소 모델을 학습하는데 사용하였고, 나머지 5명 화자의 음성을 인식 실험에 사용하였다.
각 음성은 4.5 KHz 를 차단 주파수(cut-off-frequency)로 하는 저역 여과기를 통과한 후, 16 KHz의 아날로그/디지탈(A/D) 변환을 통하여 이산화(discretization) 되었다.
18차의 멜 스케일드(mel-scaled) 로그 스펙트럼이 10 ms의 프레임마다 구해지고, 이산 코사인 변환(Discrete Cosine Transform 이하 DCT 라 칭함)을 통하여 12차의 켑스트럼(cepstrum)이 얻어졌다.
매 프레임마다 구해진 12차의 켑스트럼은, 인식기의 특징 벡터로 사용되었다.
여기서, 켑스트럼이란, 신호의 스펙트럼의 크기에 로그(log)를 취한 뒤, 다시 역 푸리에 변환을 취하여 얻어지는 신호의 특징을 나타낸다.
주어진 신호가 N개의 숫자로 이루어진 데이터 즉, 신호 X = [X1, X2, …, XN]라고 하면, 신호 X의 스펙트럼은 X를 푸리에 변환하여 얻을 수 있다.
로 구할 수 있다.
상기와 같이 구한 로그(log) 값의 역 푸리에 변환을 구하면,
통상적으로, n 차의 켑스트럼이라 하면, C(1), C(2), …, C(n)가지만을 구하여 사용하는 것을 말한다.
즉, 1에서 N 까지의 정수를 [1, N1], [N1+1, N2], [N2+1, N3], …, [Nm-1, N]의 m개의 구간으로 나누어, 각 구간에서의 스펙트럼을 제곱하여 합한다.
한편, 환경 보상은 로그 스펙트럼을 구하는 과정에서 적용되었는데, 이를 위하여 오염되지 않은 음성의 로그 스펙트럼이 128개의 군으로 나누어져, 각 군에서의 평균 및 분산이 사전에 구해졌다.
또한, 인식 실험을 위하여 백색 가우스 잡음(white Gaussian noise)이 생성되었으며, 오염되지 않은 음성 데이터에 부가되었다.
환경 보상의 기본 방법으로는, 벡터 테일러 급수 정의(Vector Taylor Series 이하 VTS 라 칭함) 기법이 사용되었는데, 환경변수에 대한 선 정보를 이용했을 경우와, 그렇지 않은 경우가 비교되었다.
표 1 은 음성 데이터에 백색 가우스 잡음이 부가되었을 때, 각 방법의 인식 결과를 표시한다.
이때, 노 처리(no processing)는 환경 보상을 하지 않았을 때의 인식률을 나타내고, 신호 대 잡음 비(Signal-to-Noise Ratio 이하 SNR 이라 칭함)는 신호에 대한 부가 잡음의 파워(power)의 비를 나타낸 것으로, 구해진 비에 로그(log)를 취하고, 10을 곱하여 데시벨(dB)를 단위로 한 값이다.
[표 1]
실험 결과로부터 알 수 있듯이, 신호 대 잡음 비(SNR)가 낮을 때 환경변수에 대한 선 정보를 이용하는 것이 인식률 향상에 큰 기여를 함을 알 수 있다.
이상에서 상세히 설명한 바와 같이 본 발명은, 음성 인식 시스템이 특정 환경에서 사용될 경우, 그 상황에서의 잡음과 선로에 의한 왜곡 데이터를 미리 수집하여 환경변수 추정에 사용함으로써, 환경변수 주정 및 그에 따른 오염되지 않은 음성 로그 스펙트럼 추정의 정확도를 향상시킬 수 있으며, 이로 인하여 인식률을 향상시킬 수 있다.
따라서, 환경 보상 방법들의 성능을 크게 향상시킬 수 있다.
Claims (3)
- 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ;상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20)과 ;상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970032370A KR100442825B1 (ko) | 1997-07-11 | 1997-07-11 | 음성 인식을 위한 환경 보상 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019970032370A KR100442825B1 (ko) | 1997-07-11 | 1997-07-11 | 음성 인식을 위한 환경 보상 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19990009830A KR19990009830A (ko) | 1999-02-05 |
KR100442825B1 true KR100442825B1 (ko) | 2005-02-03 |
Family
ID=37357613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019970032370A KR100442825B1 (ko) | 1997-07-11 | 1997-07-11 | 음성 인식을 위한 환경 보상 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100442825B1 (ko) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4918735A (en) * | 1985-09-26 | 1990-04-17 | Oki Electric Industry Co., Ltd. | Speech recognition apparatus for recognizing the category of an input speech pattern |
KR920701942A (ko) * | 1990-02-28 | 1992-08-12 | 리챠드 피. 란제 | 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법 |
JPH06214592A (ja) * | 1993-01-18 | 1994-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 耐雑音音韻モデルの作成方式 |
JPH08110793A (ja) * | 1994-07-29 | 1996-04-30 | Microsoft Corp | 特性ベクトルの前端正規化による音声認識の改良方法及びシステム |
JPH0990982A (ja) * | 1995-09-22 | 1997-04-04 | Canon Inc | 音声処理方法および音声処理装置 |
-
1997
- 1997-07-11 KR KR1019970032370A patent/KR100442825B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4918735A (en) * | 1985-09-26 | 1990-04-17 | Oki Electric Industry Co., Ltd. | Speech recognition apparatus for recognizing the category of an input speech pattern |
KR920701942A (ko) * | 1990-02-28 | 1992-08-12 | 리챠드 피. 란제 | 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법 |
JPH06214592A (ja) * | 1993-01-18 | 1994-08-05 | Nippon Telegr & Teleph Corp <Ntt> | 耐雑音音韻モデルの作成方式 |
JPH08110793A (ja) * | 1994-07-29 | 1996-04-30 | Microsoft Corp | 特性ベクトルの前端正規化による音声認識の改良方法及びシステム |
JPH0990982A (ja) * | 1995-09-22 | 1997-04-04 | Canon Inc | 音声処理方法および音声処理装置 |
Also Published As
Publication number | Publication date |
---|---|
KR19990009830A (ko) | 1999-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
US5590242A (en) | Signal bias removal for robust telephone speech recognition | |
US7630894B1 (en) | Frame erasure concealment technique for a bitstream-based feature extractor | |
Macho et al. | Evaluation of a noise-robust DSR front-end on Aurora databases. | |
Mammone et al. | Robust speaker recognition: A feature-based approach | |
DE69616568T2 (de) | Mustererkennung | |
DE69916255T2 (de) | System und verfahren zur geräuschkompensierten spracherkennung | |
EP1995723B1 (en) | Neuroevolution training system | |
US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
Minami et al. | A maximum likelihood procedure for a universal adaptation method based on HMM composition | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
DE60107072T2 (de) | Robuste merkmale für die erkennung von verrauschten sprachsignalen | |
Chi et al. | Lombard effect compensation and noise suppression for noisy Lombard speech recognition | |
Alam et al. | Robust feature extraction for speech recognition by enhancing auditory spectrum | |
KR20060047451A (ko) | 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치 | |
US6792405B2 (en) | Bitstream-based feature extraction method for a front-end speech recognizer | |
KR100442825B1 (ko) | 음성 인식을 위한 환경 보상 방법 | |
Hirsch | HMM adaptation for applications in telecommunication | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Hung et al. | Subband feature statistics normalization techniques based on a discrete wavelet transform for robust speech recognition | |
Hirsch | Automatic speech recognition in adverse acoustic conditions | |
Seyedin et al. | Robust MVDR-based feature extraction for speech recognition | |
Farahani et al. | Robust features for noisy speech recognition based on filtering and spectral peaks in autocorrelation domain | |
Gadallah et al. | Noise immune speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130627 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20140627 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20150629 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20160629 Year of fee payment: 13 |
|
EXPY | Expiration of term |