KR100442825B1 - 음성 인식을 위한 환경 보상 방법 - Google Patents

음성 인식을 위한 환경 보상 방법 Download PDF

Info

Publication number
KR100442825B1
KR100442825B1 KR1019970032370A KR19970032370A KR100442825B1 KR 100442825 B1 KR100442825 B1 KR 100442825B1 KR 1019970032370 A KR1019970032370 A KR 1019970032370A KR 19970032370 A KR19970032370 A KR 19970032370A KR 100442825 B1 KR100442825 B1 KR 100442825B1
Authority
KR
South Korea
Prior art keywords
voice
spectrum
environmental
log
log spectrum
Prior art date
Application number
KR1019970032370A
Other languages
English (en)
Other versions
KR19990009830A (ko
Inventor
김남수
김상룡
공병구
김도영
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019970032370A priority Critical patent/KR100442825B1/ko
Publication of KR19990009830A publication Critical patent/KR19990009830A/ko
Application granted granted Critical
Publication of KR100442825B1 publication Critical patent/KR100442825B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서의 음성인식 시스템의 성능을 향상시킬 수 있도록, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치

Description

음성 인식을 위한 환경 보상 방법
본 발명은 음성 인식 시스템에 관한 것으로, 특히 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 기법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼이 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법에 관한 것이다.
일반적으로, 음성 인식 시스템은 미리 채집하여둔 음성 데이터를 이용하여 인식에 쓰이는 각 파라메타를 학습시켜 인식에 사용한다.
따라서, 음성 인식 시스템의 성능은 미리 채집한 음성 데이터(이하 학습 데이터라 칭한다)에 의하여 크게 좌우된다.
그런데, 실제 음성 인식 시스템이 동작될 때를 생각해 보면, 학습 데이터에포함되지 않은 음성의 발성, 발음시 주변 잡음의 차이, 또는 전화선 등과 같은 선로에 의해서 발생되는 왜곡으로 인하여 성능이 저하됨을 알 수 있다.
이 때문에, 가장 최적의 음성 인식 시스템 구축은, 인식 시스템의 파라메타를 실제로 인식 시스템이 사용되는 환경에서 학습시킴으로써, 이루어질 수 있다.
그러나, 주변의 잡음 또는 선로에 의한 왜곡은, 인식 시스템 사용 중에 수시로 변화하기 때문에, 특정 환경에 국한하여 인식기의 파라메타를 학습시키는 것은, 인식기 사용 중 더 큰 성능 저하를 가져올 수 있다.
이러한 문제점을 해결하기 위하여, 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 보상하는 방법들이 고안되었으며, 부분적인 성공을 거두고 있다.
이러한 방법들은, 음성의 스펙트럼이 잡음 또는 선로에 의한 왜곡으로 인하여, 오염되는 과정을 수학적으로 모델링함으로써, 실제의 음성 스펙트럼을 추정한다.
이들 방법들은, 주변 잡음 또는 선로에 의한 왜곡의 특성을 가정하여 수학적으로 모델링하기 때문에, 실제의 잡음 또는 선로에 의한 왜곡의 특성과는, 차이를 발생시키게 되는 문제점이 있다.
이와 같이, 실제의 환경인 잡음 또는 선로에 의한 왜곡이, 가정된 환경 특성과 차이를 보이게 되는 경우, 이는 음성 인식 시스템의 성능에 큰 영향을 미칠 수 있게 된다.
따라서, 사전에 환경에 대한 정보를 적절히 반영할 수 있는 기법이 요구된다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점들을 해소시키기 위하여 창안된 것으로, 잡음 또는 선로에 의한 왜곡이 존재하는 환경에서의 음성 인식을 위하여 환경 보상 방법을 이용하여 잡음 또는 선로에 의한 왜곡으로 오염된 음성의 스펙트럼을 실제의 음성 스펙트럼에 가깝도록 보정해 줌으로써, 잡음 또는 선로에 의한 왜곡이 존재하는 상황에서 음성 인식 시스템의 성능을 향상시킬 수 있는, 음성 인식을 위한 환경 보상 방법을 제공하는데 그 목적이 있다.
도 1 은 본 발명에 따른 음성 인식을 위한 환경 보상 방법의 동작 흐름도이다.
상기한 바와 같은 목적을 달성하기 위한 본 발명은, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ; 상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20) ; 상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ; 상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치
Figure pat00016
가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는 음성인식 시스템 과정(40)으로 이루어짐을 특징으로 한다.
본 발명의 목적에 따른, 음성 인식을 위한 환경 보상 방법의 동작 원리를 첨부된 도면을 참조하여, 상세히 설명하면 다음과 같다.
먼저, 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 얻는 로그 스펙트럼 과정(10)을 수행한다.
상기 로그 스펙트럼 과정(10)에서는, 음성을 일정 구간 블럭화하여 고속 푸리에 변환(Fast Fourier Transform 이하 FFT라 칭함)을 취한다.
이때, 블럭화된 구간을 프레임(frame)이라 하는데, 고속 푸리에 변환(FFT)에 의하여 각 프레임마다, 일정 갯수의 고속 푸리에 변환 계수가 생성된다.
특정 프레임에서 추출된 고속 푸리에 변환 계수들을 {f(1), f(2), …, f(Q)}이라 하면, f(i)는 i번째 기본 주파수 대역에서의 고속 푸리에 변환 계수가 된다.
상기와 같이, 각 기본 주파수 대역의 고속 푸리에 변환 계수들이 구해지면, 이들을 특정 갯수만큼 결합하여 스펙트럼을 구하게 된다.
S = [ S1, S2, …, SN ]을 현재 프레임의 스펙트럼이라 하면, 이는 고속 푸리에 변환 계수들로부터 다음과 같은 관계식을 통하여 구해진다.
[수학식 1]
Figure pat00001
Figure pat00002
이때, Bi와 Ei는 i번째 대역을 나타내며, N 은 스펙트럼의 전체 대역수를 나타낸다.
상기와 같이 스펙트럼이 구해지면, 이에 로그(log)를 취하여 로그 스펙트럼을 구한다.
z = [ z1, z2, …, zN]을 현재 프레임의 로그 스펙트럼이라 하면,
[수학식 2]
Figure pat00003
상기와 같이, 입력된 음성의 각 프레임에서 로그 스펙트럼이 추출되면, 이어서 환경변수 추정 과정(20)을 수행한다.
환경변수란, 부가 잡음과 선로에 의한 왜곡의 특성을 결정하는 변수로, 음질 향상에 중요한 요소이다.
n = [ n1, n2, …, nN]을 부가 잡음의 로그 스펙트럼이라 하고, q = [ q1, q2, …, qN]를 선로에 의한 왜곡의 로그 스펙트럼이라고 하자.
우선, 부가 잡음(n)의 분포가 가우스 분포
Figure pat00017
를 따른다고 가정한다.
이때, 부가 잡음의 평균
Figure pat00018
과 분산
Figure pat00019
은 추정해야 할 변수이다.
한편, 선로에 의한 왜곡(q)은 고정된 상수로, 역시 추정해야 할 변수이다.
이와 같은 상황에서, 환경변수란
Figure pat00020
를 말하며, 이들은 주어진 음성 데이터로부터 추정된다.
상기 환경변수의 추정을 위해서는, 오염되지 않은 음성의 로그 스펙트럼에 대한 분포가 필요한데, 이는 사전에 많은 양의 오염되지 않은 음성 데이터를 수집하여, 그를 바탕으로 구해진다.
x = [ x1, x2, …, xN]을 오염되지 않은 음성의 로그 스펙트럼이라 하면, 일반적으로 이의 분포, P(x)는 다음과 같이 나타낸다.
[수학식 3]
Figure pat00004
이때,
Figure pat00021
는 각각 k번째 가우스 분포의 평균과 분산을 나타내고, P(k)는 k번째 가우스 분포의 가중치를 표시한다.
Figure pat00022
는 환경보상 기법의 수행 이전에 미리 구하여 고정되게 하는데, 이들을 구할때는 일반적으로 벡터 양자화(Vector Quantization 이하 VQ 라 칭함) 방법을 사용한다.
즉, 미리 수집된 오염되지 않은 음성으로부터 로그 스펙트럼을 추출하고, 이들을 M개의 군으로 나눈다.
상기 M개의 군으로 나눈 각 군에서, 소속된 로그 스펙트럼의 평균과 분산을 구하여, k번째 가우스 분포의 평균과 분산
Figure pat00023
으로 사용한다.
또한, 각 군에 소속된 로그 스펙트럼의 수에 따라 k번째 가우스 분포의 가중치인 p(k)를 정하게 된다.
상기와 같이, 환경변수 추정 과정(20)에서 각 환경변수의 주정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30)을 수행한다.
상기 환경변수 추정 과정(20)에서 추정된 환경변수의 값들을
Figure pat00024
Figure pat00025
라 하자.
우선, 오염되지 않은 음성이 k번째 군에 속해있을 때, 구해진 환경변수에 의해 오염된 음성의 로그 스펙트럼의 평균과 분산
Figure pat00026
이 구해지는데, 이들은 추정된 환경변수의 값
Figure pat00027
과 k번째 가우스 분포의 평균과 분산
Figure pat00028
의 관계식으로 표현되며, 음성의 오염 과정에 따라 다르게 나타난다.
오염된 음성 로그 스펙트럼의 평균과 분산
Figure pat00029
이 구해지면, 음성 로그 스펙트럼의 각 군에 대한 확률값(Pk)을 수학식 4 와 같이 구하게 된다.
[수학식 4]
Figure pat00005
이때,
Figure pat00030
는 현재 프레임의 오염된 음성 로그 스펙트럼(z)을 가우스 분포인
Figure pat00031
에 적용했을 때의 값을 나타낸다.
즉,
[수학식 5]
Figure pat00006
한편, 음성 로그 스펙트럼의 각 군에 대한 확률값(Pk)이 구해지면, 오염될 음성의 로그 스펙트럼(z)이 주어졌을 때, 오염되지 않은 음성 로그 스펙트럼의 추정치
Figure pat00032
는 다음과 같이 구해진다.
[수학식 6]
Figure pat00007
이때,
Figure pat00033
는, 현재의 환경변수 주정치가
Figure pat00034
이고, 오염된 음성 로그 스펙트럼이 z 이고, 오염되지 않은 음성이 k번째 군에 속했을 때, 오염되지 않은 음성 로그 스펙트럼의 평균치를 나타낸다.
이와 같이, 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치
Figure pat00035
가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는, 음성인식 시스템 과정(40)을 수행한다.
상기와 같이 동작하는 환경 보상 방법의 절차 중, 환경변수 추정 과정(20)이 가장 중요한 과정이다.
일반적인 경우에, 오염된 음성 프레임의 열인 Z={z1, z2, …, zt} 를 바탕으로
Figure pat00036
를 구하게 된다.
여기서, zt는 t번째 프레임에서의 오염된 음성 로그 스펙트럼을 나타낸다.
그런데, 이와 같은 환경변수 추정은, 현재 주어진 오염된 음성의 로그 스펙트럼 열(Z)만을 이용하기 때문에, 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 이용할 수 없다는 단점이 있다.
따라서, 이와 같이 잡음 또는 선로 왜곡에 대한 사전 정보가 있을 경우, 이 정보를 상기 환경변수 추정 과정(20)에서 사용하는 방법은 다음과 같다.
먼저, 환경 보상 전에 가지고 있던 환경변수의 값을
Figure pat00037
라 하자.
상기
Figure pat00038
는, 미리 수집하여둔 잡음과 선로에 의한 왜곡의 로그 스펙트럼 데이터 통계를 조사하여 얻을 수 있는 정보이다.
Figure pat00039
가 선확보된 정보로 주어졌을 때, 본 발명에서 제안하는 환경변수 추정 방법은 다음과 같다.
우선,
Figure pat00040
를 오염된 음성 로그 스펙트럼 열(Z)에 의하여 구해지는 환경변수의 추정치라 하자.
제안된 방법에 의하여 추정되는 환경변수의 값을
Figure pat00041
라 하면, 상기 환경변수의 값은 각각 다음과 같이 구해진다.
[수학식 7]
Figure pat00008
Figure pat00009
상기 수학식 7 에서, 선형 결합의 강도를 조절하는 방법은 다음과 같다.
[수학식 8]
Figure pat00042
여기서, T는 현재 주어진 오염된 음성 로그 스펙트럼 열(Z)의 길이(프레임수)를 나타내고, τ는 제안된 방법에서 쓰이는 파라메타로, 선 정보를 강조할 경우 크게 하고, 현재 주어진 오염된 음성 로그 스펙트럼을 강조할 경우 작게 선정한다.
한편, 본 발명의 성능을 평가하기 위하여, 화자독립 고립단어 인식 실험을 수행하였다.
인식 대상 단어는 75개의 한국어 단어로, 각 음소가 고루 나타나는 단어들로 이루어졌다.
20명의 남자 화자가 각 단어를 한번씩 발음하여, 인식기의 학습 및 인식 실험에 사용하였다.
사용된 인식기는 히든 마르코프 모델(Hidden Markoy Model 이하 HMM 라 칭함) 방식의 인식기로, 32개의 음소 모델이 기본 단위 모델로 설정되었다.
각 음소 모델은 3개의 상태(state)로 이루어 졌으며, 이들을 바탕으로 각 단어 모델이 구성되었다.
15명 화자의 발음을 각 음소 모델을 학습하는데 사용하였고, 나머지 5명 화자의 음성을 인식 실험에 사용하였다.
각 음성은 4.5 KHz 를 차단 주파수(cut-off-frequency)로 하는 저역 여과기를 통과한 후, 16 KHz의 아날로그/디지탈(A/D) 변환을 통하여 이산화(discretization) 되었다.
18차의 멜 스케일드(mel-scaled) 로그 스펙트럼이 10 ms의 프레임마다 구해지고, 이산 코사인 변환(Discrete Cosine Transform 이하 DCT 라 칭함)을 통하여 12차의 켑스트럼(cepstrum)이 얻어졌다.
매 프레임마다 구해진 12차의 켑스트럼은, 인식기의 특징 벡터로 사용되었다.
여기서, 켑스트럼이란, 신호의 스펙트럼의 크기에 로그(log)를 취한 뒤, 다시 역 푸리에 변환을 취하여 얻어지는 신호의 특징을 나타낸다.
주어진 신호가 N개의 숫자로 이루어진 데이터 즉, 신호 X = [X1, X2, …, XN]라고 하면, 신호 X의 스펙트럼은 X를 푸리에 변환하여 얻을 수 있다.
Figure pat00043
를 X의 스펙트럼이라고 하면,
Figure pat00044
로 구할 수 있다.
W에 1부터 N까지의 정수를 대입하면,
Figure pat00045
을 구할 수 있는데, 각각의
Figure pat00046
는 복소수가 된다.
Figure pat00047
각각에서 크기를 취하면,
Figure pat00048
을 구할 수 있고, 이들의 로그(log)를 취하면,
Figure pat00049
을 구할 수 있다.
상기와 같이 구한 로그(log) 값의 역 푸리에 변환을 구하면,
Figure pat00050
를 얻게 되는데, "T"에 정수 1 에서 N 까지를 대입하여 얻어지는 C(1), C(2), …, C(T)를 켑스트럼이라 한다.
통상적으로, n 차의 켑스트럼이라 하면, C(1), C(2), …, C(n)가지만을 구하여 사용하는 것을 말한다.
상기와 같이 켑스트럼을 구하는 과정에서, 신호 X의 스펙트럼의 크기인
Figure pat00051
을 몇개의 대역으로 묶어서 사용하는 방법을 멜 스케일드 로그 스펙트럼이라 한다.
즉, 1에서 N 까지의 정수를 [1, N1], [N1+1, N2], [N2+1, N3], …, [Nm-1, N]의 m개의 구간으로 나누어, 각 구간에서의 스펙트럼을 제곱하여 합한다.
i번째 구간에서
Figure pat00052
을 얻게 된다.
따라서, 상기 과정을 거치면
Figure pat00053
을 구하게 되고, 이들에 로그(log)를 취한 값들이 멜 스케일드 로그 스펙트럼이 된다.
한편, 환경 보상은 로그 스펙트럼을 구하는 과정에서 적용되었는데, 이를 위하여 오염되지 않은 음성의 로그 스펙트럼이 128개의 군으로 나누어져, 각 군에서의 평균 및 분산이 사전에 구해졌다.
또한, 인식 실험을 위하여 백색 가우스 잡음(white Gaussian noise)이 생성되었으며, 오염되지 않은 음성 데이터에 부가되었다.
환경 보상의 기본 방법으로는, 벡터 테일러 급수 정의(Vector Taylor Series 이하 VTS 라 칭함) 기법이 사용되었는데, 환경변수에 대한 선 정보를 이용했을 경우와, 그렇지 않은 경우가 비교되었다.
표 1 은 음성 데이터에 백색 가우스 잡음이 부가되었을 때, 각 방법의 인식 결과를 표시한다.
이때, 노 처리(no processing)는 환경 보상을 하지 않았을 때의 인식률을 나타내고, 신호 대 잡음 비(Signal-to-Noise Ratio 이하 SNR 이라 칭함)는 신호에 대한 부가 잡음의 파워(power)의 비를 나타낸 것으로, 구해진 비에 로그(log)를 취하고, 10을 곱하여 데시벨(dB)를 단위로 한 값이다.
[표 1]
Figure pat00011
실험 결과로부터 알 수 있듯이, 신호 대 잡음 비(SNR)가 낮을 때 환경변수에 대한 선 정보를 이용하는 것이 인식률 향상에 큰 기여를 함을 알 수 있다.
이상에서 상세히 설명한 바와 같이 본 발명은, 음성 인식 시스템이 특정 환경에서 사용될 경우, 그 상황에서의 잡음과 선로에 의한 왜곡 데이터를 미리 수집하여 환경변수 추정에 사용함으로써, 환경변수 주정 및 그에 따른 오염되지 않은 음성 로그 스펙트럼 추정의 정확도를 향상시킬 수 있으며, 이로 인하여 인식률을 향상시킬 수 있다.
따라서, 환경 보상 방법들의 성능을 크게 향상시킬 수 있다.

Claims (3)

  1. 잡음 또는 선로에 의한 왜곡으로 오염된 음성 신호가 입력되면, 입력된 신호의 로그(log) 스펙트럼을 추출하는 로그 스펙트럼 과정(10)과 ;
    상기와 같이 음성의 각 프레임에서 추출된 로그 스펙트럼에서, 잡음과 선로에 의한 왜곡의 특성을 결정하기 위하여 환경변수를 추정하는 환경변수 추정 과정(20)과 ;
    상기 환경변수 추정 과정(20)에서 각 환경변수의 추정치가 얻어지면, 오염된 음성의 로그 스펙트럼을 실제 음성의 로그 스펙트럼과 가깝도록 변환하는 스펙트럼 변환 과정(30) 및 ;
    상기와 같이 각 프레임에서 오염되지 않은 음성 로그 스펙트럼의 추정치
    Figure pat00054
    가 구해지면, 이들을 음성 인식 시스템에 입력하여 음성을 인식하는 음성인식 시스템 과정(40)을 포함하여 이루어짐을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.
  2. 제 1 항에 있어서,
    제안된 방법에 의하여 추정되는 환경변수의 값을
    Figure pat00055
    라 할때,
    일반적인 환경변수 추정 방법에 의하여 구해진 환경변수의 추정치에 환경변수에 대한 선 정보를 선형적으로 결합시키는 환경변수 추정 과정(20)은,
    Figure pat00012
    와 같은 방법을 사용하여 이루어짐을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.
  3. 제 2 항에 있어서,
    현재 주어진 오염된 음성 로그 스펙트럼 열(Z)의 길이(프레임 수)를 T 라 하고, 파라메타를 τ 라고 할때,
    Figure pat00056
    와 같은 방법을 사용하여, 선 정보를 강조할 경우 크게 선정하고, 현재 주어진 오염된 음성 로그 스펙트럼을 강조할 경우 작게 선정함으로써, 선형 결합의 강도를 조절할 수 있도록 함을 특징으로 하는, 음성 인식을 위한 환경 보상 방법.
KR1019970032370A 1997-07-11 1997-07-11 음성 인식을 위한 환경 보상 방법 KR100442825B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970032370A KR100442825B1 (ko) 1997-07-11 1997-07-11 음성 인식을 위한 환경 보상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970032370A KR100442825B1 (ko) 1997-07-11 1997-07-11 음성 인식을 위한 환경 보상 방법

Publications (2)

Publication Number Publication Date
KR19990009830A KR19990009830A (ko) 1999-02-05
KR100442825B1 true KR100442825B1 (ko) 2005-02-03

Family

ID=37357613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970032370A KR100442825B1 (ko) 1997-07-11 1997-07-11 음성 인식을 위한 환경 보상 방법

Country Status (1)

Country Link
KR (1) KR100442825B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4918735A (en) * 1985-09-26 1990-04-17 Oki Electric Industry Co., Ltd. Speech recognition apparatus for recognizing the category of an input speech pattern
KR920701942A (ko) * 1990-02-28 1992-08-12 리챠드 피. 란제 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법
JPH06214592A (ja) * 1993-01-18 1994-08-05 Nippon Telegr & Teleph Corp <Ntt> 耐雑音音韻モデルの作成方式
JPH08110793A (ja) * 1994-07-29 1996-04-30 Microsoft Corp 特性ベクトルの前端正規化による音声認識の改良方法及びシステム
JPH0990982A (ja) * 1995-09-22 1997-04-04 Canon Inc 音声処理方法および音声処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4918735A (en) * 1985-09-26 1990-04-17 Oki Electric Industry Co., Ltd. Speech recognition apparatus for recognizing the category of an input speech pattern
KR920701942A (ko) * 1990-02-28 1992-08-12 리챠드 피. 란제 음성 인식의 잡음강도를 개선하기 위한 스펙트랄 추정방법
JPH06214592A (ja) * 1993-01-18 1994-08-05 Nippon Telegr & Teleph Corp <Ntt> 耐雑音音韻モデルの作成方式
JPH08110793A (ja) * 1994-07-29 1996-04-30 Microsoft Corp 特性ベクトルの前端正規化による音声認識の改良方法及びシステム
JPH0990982A (ja) * 1995-09-22 1997-04-04 Canon Inc 音声処理方法および音声処理装置

Also Published As

Publication number Publication date
KR19990009830A (ko) 1999-02-05

Similar Documents

Publication Publication Date Title
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US5590242A (en) Signal bias removal for robust telephone speech recognition
US7630894B1 (en) Frame erasure concealment technique for a bitstream-based feature extractor
Macho et al. Evaluation of a noise-robust DSR front-end on Aurora databases.
Mammone et al. Robust speaker recognition: A feature-based approach
DE69616568T2 (de) Mustererkennung
DE69916255T2 (de) System und verfahren zur geräuschkompensierten spracherkennung
EP1995723B1 (en) Neuroevolution training system
US5459815A (en) Speech recognition method using time-frequency masking mechanism
Minami et al. A maximum likelihood procedure for a universal adaptation method based on HMM composition
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
DE60107072T2 (de) Robuste merkmale für die erkennung von verrauschten sprachsignalen
Chi et al. Lombard effect compensation and noise suppression for noisy Lombard speech recognition
Alam et al. Robust feature extraction for speech recognition by enhancing auditory spectrum
KR20060047451A (ko) 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치
US6792405B2 (en) Bitstream-based feature extraction method for a front-end speech recognizer
KR100442825B1 (ko) 음성 인식을 위한 환경 보상 방법
Hirsch HMM adaptation for applications in telecommunication
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Hung et al. Subband feature statistics normalization techniques based on a discrete wavelet transform for robust speech recognition
Hirsch Automatic speech recognition in adverse acoustic conditions
Seyedin et al. Robust MVDR-based feature extraction for speech recognition
Farahani et al. Robust features for noisy speech recognition based on filtering and spectral peaks in autocorrelation domain
Gadallah et al. Noise immune speech recognition system

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130627

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140627

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 13

EXPY Expiration of term