KR100434527B1 - 벡터 테일러 급수를 이용한 음성 모델 보상 방법 - Google Patents

벡터 테일러 급수를 이용한 음성 모델 보상 방법 Download PDF

Info

Publication number
KR100434527B1
KR100434527B1 KR1019970036930A KR19970036930A KR100434527B1 KR 100434527 B1 KR100434527 B1 KR 100434527B1 KR 1019970036930 A KR1019970036930 A KR 1019970036930A KR 19970036930 A KR19970036930 A KR 19970036930A KR 100434527 B1 KR100434527 B1 KR 100434527B1
Authority
KR
South Korea
Prior art keywords
noise
model
speech
vector
variance
Prior art date
Application number
KR1019970036930A
Other languages
English (en)
Other versions
KR19990015044A (ko
Inventor
김동국
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1019970036930A priority Critical patent/KR100434527B1/ko
Publication of KR19990015044A publication Critical patent/KR19990015044A/ko
Application granted granted Critical
Publication of KR100434527B1 publication Critical patent/KR100434527B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Abstract

본 발명은 자동차에서의 음성 인식, 이동 통신 단말기에서의 음성 인식, 기타 잡음 환경하에서의 음성 인식 시스템에 이용될 수 있는 잡음 음성 인식을 위한 모델 적응 방법에 관한 것으로, 특히 잡음 환경에 강한 음성 인식을 위하여 벡터 테일러 급수 근사화 방법을 이용하여 로그 스펙트럼 영역에서 은닉 마르코프 모델의 정적 및 동적 변수에 대하여 보상할 수 있도록, 잡음 음성 특징 벡터가 입력되는 제 1 단계와 ; 로그 스펙트럼 영역에서 벡터 테일러 급수나 통계적 선형 근사화 방법을 이용하여 통계적 선형 근사화 방법에 나타난 잡음 모델 예측 방법에 따라 잡음의 평균과 분산을 예측하는 제 2 단계 ; 켑스트럼 영역의 클린 음성 모델, 정적 피라메터와 동적 피라메터를 로그 스펙트럼 영역으로 변환하는 제 3 단계 ; 정적 모델과 동적 모델에 대한 평균과 분산을 보상하는 제 4 단계 ; 로그 스펙트럼 영역에서 보상된 잡음의 평균과 분산을, 다시 켑스트럼 영역으로 변환하는 제 5 단계 및 ; 보상된 잡음의 평균과 분산, 잡음 음성의 켑스트럼 특징 벡터를 이용하여 인식을 수행하는 제 6 단계를 포함하여 이루어짐을 특징으로 하는 벡터 테일러 급수를 이용한 모델 보상 방법에 관한 것이다.

Description

벡터 테일러 급수를 이용한 음성 모델 보상 방법
본 발명은 자동차에서의 음성 인식, 이동 통신 단말기에서의 음성 인식, 기타 잡음 환경하에서의 음성 인식 시스템에 이용될 수 있는 잡음 음성 인식을 위한 모델 적응 방법에 관한 것으로, 특히 잡음 환경에 강한 음성 인식을 위하여 벡터 테일러 급수 근사화 방법을 이용하여 로그 스펙트럼 영역에서 은닉 마르코프 모델의 정적 및 동적 변수에 대하여 보상할 수 있도록 한, 벡터 테일러 급수를 이용한 모델 보상 방법에 관한 것이다.
컴퓨터 기술이 발전함에 따라 사람의 언어를 컴퓨터가 인식하고 이해함으로서, 사람이 말하는 것을 컴퓨터가 인식하여 원하는 일은 하도록 하는 실용적인 음성인식 시스템들이 개발되어 이미 상용화되고 있다.
그러나, 이러한 시스템들은 조용한 환경하에서는 높은 인식율을 갖고 사용되지만, 잡음이 발생하는 일반적인 잡음 환경하에서는 본래의 음성이 왜곡되기 때문에 상용 시스템의 인식률이 크게 저하되어 실제적 사용에 많은 문제가 남아 있다.
최근 실용적인 음성인식 시스템을 구성하기 위해, 다양한 환경에 강한 음성 인식 기술이 활발하게 연구되고 있다.
일반적으로 음성인식 시스템은, 학습과 테스트 환경이 다른 경우 인식 성능에 많은 저하를 가져온다.
이런 문제점을 극복하기 위해, 여러가지 방법의 알고리즘들이 제안되고 있다.
이들 알고리즘은 크게 특징 보상(feature compensation)과 모델 보상(model compensation) 기술의 두가지로 구분할 수 있다.
첫째 ; 특징 보상 기술은 현재의 잡음 음성으로부터 환경 변수들을 추정하고, 이를 이용하여 잡음 음성을 클린 음성(clean speech)으로 변환하는 기술이다.
이 범주에 속하는 대표적인 알고리즘은 벡터 테일러 급수(Vector Tayler Series : 이하 VTS라 칭함) 방법이다.
벡터 테일러 급수(VTS)는, 로그 영역(log-domain)에서 비선형 잡음 음성 모델(noisy speech model)을 선형 모델로 근사화하여 최대 기대값(Expectation and Maximization 이하 EM라 칭하) 알고리즘을 이용하여 환경변수를 추정하고, 최소 평균 제곱 추정(Minimun Mean Square Estimation 이하 MMSE라 칭함) 방법에 의해 잡음음성의 특징 벡터를 클린 음성의 특징 벡터로 보상하는 기술로, 매우 효과적인 알고리즘으로 제안되었다[P.J.Moreno, B.Raj and R.M.Stern, A vector Taylor series approach for environment-independent speech recognition, Proc. of Inr. Cont. Acoust., Speech, Signal Processing, Atlanta, GA, pp. 733-736, May 1996. 참조].
두번째 ; 모델 보상 기술은 시간에 따라 변하는 환경 특성을 패턴 매칭단에서 고려하는 방법으로, 잡음등과 같은 특성을 인식 과정에 고려하여, 인식 모델을 변환시키는 기술이다.
이것의 대표적인 알고리즘은, 병렬 모델 결합(Parallel Model Combination 이하 PMC라 칭함) 방식으로, 이는 켑스트럼(cepstrum) 영역에서 이산 관측 은닉 마르코프 모델(Hidden Markov Model 이하 HMM라 칭함)로 학습된, 클린 음성 모델과 잡음 모델을 선형 영역으로 변환하여 결합함으로, 현재의 환경에 적합한 잡음 음성 모델을 예측하여 인식하는 알고리즘이다[M.J.F. Gales, Model-based techniques for noise robust speech recognition, Ph.D. Thesis, Univ, of Cambridge, 1995 참조].
종래의 기술은 크게 두가지로 구분된다.
벡터 테일러 급수(VTS)를 이용한 특징 보상 기술과 병렬 모델 결합(PMC) 방식을 이용한 모델 보상 기술이다.
벡터 테일러 급수(VTS) 특징 보상 기술에는, 벡터 테일러 급수(VTS)와 통계적 선형 근사화(Statistical Linear Approximation 이하 SLA라 칭함) 방법 두가지가 있다.
여기서는 이들 방법들에 대해 기술한다.
I. 벡터 테일러 급수(VTS)
(1) VTS 근사화(VTS approximation)[N.S.Kim, D.Y.Kim, B.G.Kong and S.R.Kim, Application of VTS to enviroment compensation with noise statistics, Proc. of ESCA Workshop on Robust Speech Recognition for Unknown Communication Channels, Pont-a-Mousson, France, 99-102, Apr. 1997. 참조]
간단한 잡음 환경을 고려하는 경우의 잡음 음성(noisy speech)는 y는, 일반적으로 클린 음성과 잡음에 의해 다음과 같이 모델링된다.
[수학식 1]
y=f(n,x)
여기서, x는 클린 음성(clean speech)이고, n은 배경 잡음(background noise)을 표현하는 변수이다.
일반적으로, 함수 f(n,x)는 비선형 함수이며, 가산 잡음(additive noise) 환경인 경우, 상기 수학식 1은 로그 영역에서 다음 수학식 1 또는 수학식 2와 같이 표현된다.
[수학식 2]
y=log (ex + en) 또는
[수학식 3]
y=x+log(1 + en-x)
VTS는 상기의 벡터 형태의 비선형 함수를 벡터 테일러 급수에 의해 선형적으로 근사화하는 방법이다.
상기의 수학식을 고정점(x0, n0)을 중심으로 테일러 급수 전개하고 1차 항까지 고려하면, 상기 함수는 다음과 같이 근사화할 수 있다.
[수학식 4]
Figure pat00001
여기서, 벡터 함수에 대해
Figure pat00002
는 특정 벡터점에서의 행렬 도함수(matrix derivative)를 나타낸다.
이때, 잡음 음성 y에 대한 평균(mean)과 분산(variance)은 스칼라(scalar) 함수에 대해, 다음과 같이 표현된다.
[수학식 5]
Figure pat00003
Figure pat00004
이러한 근사화를 기초로, 최대 기대값(EM) 알고리즘을 이용하여 환경 변수를 추정하고, 최소 평균 제곱 추정(MMSE) 방법에 의해 잡음 음성을 클린 음성으로 보상하는 자세한 과정이, 1996년 10월에 발표된 B.Raj. E.B.Gouvea, P.J.Moreno and R.M.Stern, Cepstral compensation by polynomial approximation for environment-independent speech recognition, Proc. of Int, Conf. Spoken Language Processing, Philadelphia, PA, pp 2340-2343, Oct. 1996.에 기술되어 있다.
위 방법은 잡음 모델을 추정하는데 일차 근사화 방법을 이용했기 때문에, 정확한 해를 구하지 못하고 있다.
좀더 정확한 해를 위해 통계적 선형 근사화 방법이 이용된다.
(2) 통계적 선형 근사화(SLA)
비선형 함수를 일반적인 선형 함수로 근사화하는 경우, 다음과 같이 표현된다.
[수학식 6]
Figure pat00005
통계적 선형 근사화(SLA) 방법은, 실제 함수와 비선형 함수사이의 평균-편차 오류(mean-square error)가 최소가 되도록 위의 변수들을 추정하여 근사화 하는 방법이다.
즉 위의 A,B,C는 다음 수학식 7을 최소화함으로써 얻어진다.
[수학식 7]
Figure pat00006
상기 최소화 과정에서 f(n,x)을 벡터 테일러 급수 근사화하는 정도에 따라, 위의 A,B,C의 값이 각각 다르게 표현되고, 근사화 정도가 달라진다.
위와 같은 경우의 잡음 음성 y에 대한 평균과 분산은 다음과 같다.
[수학식 8]
Figure pat00007
통계적 선형 근사화(SLA) 방법은, 일차 벡터 테일러 급수를 포함한 일반적인 해라고 할 수 있다.
[N.S.Kim, Statistical linear approximation, submitted to IEEE Signal Processing Letters.]에 근사화에 따른 A,B,C의 값과 그에 따른 특징보상 성능이 비교하였다.
위의 통계적 선형 근사화(SLA) 방법을 이용하여 잡음 모델 (μn, Σn)은 다음과 같이 예측된다.
1. 잡음모델 (μn, Σn)에 대한 초기 값을 얻는다.
2. 잡음모델 (μn, Σn)과 클린 가우스 모델을 이용하여 A,B,C값을 구한다.
3. 위의 잡음 음성에 대한 평균과 분산식을 이용하여, 잡음 음성 모델(μy, Σy)을 구한다.
4. 잡음모델 (μn, Σn)을 다시 예측하기 위해 최대 기대값(EM) 알고리즘을 수행한다.
5. 예측 잡음(Observed noisy)에 대한 유사도(likelihood)을 수렴하지 않으면 2번째 단계(step 2)로 간다.
6. 수렴하는 경우에 잡음 모델을 구한다.
클린과 잡음 음성의 모든 가우스(Gaussian) 성분에 대한 분산 행렬(covariance matrix)은 대각선(diagonal)이라고 가정한다.
잡음 음성을 클린 음성으로 보상하기 위해 최소 평균 제곱 추정(MMSE) 평가자(estimator)를 사용한다.
음성의 로그 스펙트럼(log-spectral)에 대한 pdf가, 다변수의 가우스 혼합(multivariate Gaussian mixture)으로 표현되는 경우, 특징 보상에 대한 수학식은 다음과 같다.
[수학식 9]
Figure pat00008
특징 보상을 위해 벡터 테일러 급수나 통계적 선형 근사화(SLA)를 이용하여 잡음모델을 예측하고, 최소 평균 제곱 추정(MMSE) 평가자(estimator)에 의해 잡음 음성을 클린 음성으로 변환한다.
II. 병렬 모델 결합(PMC)
병렬 모델 결합(PMC) 방식은 벡터 테일러 급수(VTS)와 같은 간단한 가산 잡음에 의한 잡음 음성 모델을 정의하고, 이에 따라 잡음 음성 모델을 변환하는 기술이다.
은닉 마르코프 모델(HMM)의 모델 보상 방법을 사용하기 위해 다음과 같은 가정을 한다.
1. 음성과 배경 잡음은 서로 독립적이다.
2. 음성과 배경 잡음은 선형 영역에서 더해진다.
3. 단일 또는 다중 가우스 혼합(gaussian mixture)은 로그 영역에서의 관측 벡터 분포를 충분히 나타낼 수 있다.
4. 배경 잡음이 더하여진 후에 은닉 마르코프 모델(HMM) 인식기에 상태 프레임(state frame)에는 변화가 없다.
가산 잡음에 의한 잡음 음성을 모델링한 함수는, 벡터 테일러 급수(VTS)와 같은,
[수학식 10]
Figure pat00009
이다.
여기서, xl는 클린 음성을, nl는 배경 잡음을, yl는 잡음 음성을 로그 영역에서 나타낸다.
이들 변수들은 벡터 또는 행렬(matrix)을 나타내며, 윗첨자는 변수들의 영역을, 아래첨자는 벡터 또는 행렬의 원소를 나타낸다.
이때, 로그 영역에서 잡음 음성의 평균은 다음 수학식 11과 같다.
[수학식 11]
벡터 테일러 급수(VTS)와 같이, 간단한 닫힌 형태의 해답(closed form solution)이 없기 때문에, 여러가지 근사화 방법을 이용한다.
근사화 방법으로는 수치 적분법(numerical integration), 로그 노말 근사화(log-normal approximation), 로그 가산 근사화(Log-add approximation) 방법이 있다.
여기서 로그 노말 근사화 방법을 살펴보면 다음과 같다.
일반적으로, 인식기는 가우스(Gaussian) 분포를 갖는 켑스트럼(cepstrum) 영역의 특징 벡터들로 훈련된 음성과, 배경 잡음의 모델이 각각 와 을 가진 은닉 마르코프 모델(HMM)에 의해 모델링된다.
이런 변수들을 로그 영역으로 변환하면 다음과 같다.
[수학식 12]
여기서, C은 이산 코사인 변환(discrete cosine transform 이하 DCT라 칭함)의 매트릭스 표현이고, C- 1는 역시 이산 코사인 변환(inverse DCT 이하 IDCT라 칭함)이다.
음성과 배경 잡음은 선형 스펙트럼 영역에서 더하여 진다고 가정하고, 또한 로그-노말 분포(log-normal distribution)를 가진 두 변수의 합도 또한, 근사적으로 로그-노말 분포를 갖는다고 가정하면,
[수학식 13]
μy = μx + μn
Σy = Σx + Σn
이다.
모델 변수인 {μxx}와 {μnn)은, 가우스(Gaussian) 분포를 갖는
Figure pat00010
Figure pat00011
에 관계되는 선형 영역에서 로그-노말 분포를 갖는 평균과 공분산이다.
여기서,
[수학식 14]
Figure pat00012
이다.
잡음 모델에 대해서도 같은 방법이 적용된다.
상기의 수학식 14를 역으로 변환하면,
[수학식 15]
Figure pat00013
이다.
즉, 잡음 음성의 로그 스펙트럼 영역에서의 모델 변수 은 상기 수학식과 같이 구할 수 있다.
켑스트럼 영역으로 다시 변환하면,
[수학식 16]
이다.
즉, 켑스트럼(cepstrum) 영역에서 잡음 음성에 대한 모델을 구할 수 있다.
상기와 같은 일련의 과정을 통해서, 현재의 잡음 음성에 맞게 클린 음성 모델을, 잡음에 따른 잡음 음성 모델로 변화시켜, 잡음 특징 벡터를 사용한 인식을 수행함으로써 성능을 향상시킬 수 있다.
상기 과정을 그림으로 표시하면 도 1과 같다.
그러나, 이 방법의 단점은 단지 정적 파라메터(static parameter)에만 적용가능하며, 동적 파라메터(dynamic parameter)에는 적용이 되지 못하는 단점을 갖고 있다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점들을 해소시키기 위하여 창안된 것으로, 잡음 환경에 강한 음성 인식을 위하여 벡터 테일러 급수 근사화 방법을 이용하여 로그 스펙트럼 영역에서 은닉 마르코프 모델의 정적 및 동적 변수에 대하여 보상할 수 있도록 한, 벡터 테일러 급수를 이용한 모델 보상 방법을 제공하는데 그 목적이 있다.
또한, 잡음 환경하에서 잡음 음성으로부터 잡음의 특성을 추정하고, 이러한 잡음의 특성을 클린 음성 모델에 반영하여, 잡음 환경에 따라 잡음 음성에 맞는 모델을 보상함으로서, 잡음 음성에 대한 인식율을 향상시킴을 목적으로 한다.
상기한 바와 같은 목적을 달성하기 위한 본 발명은,
잡음 음성 특징 벡터(noisy speech feature vector)가 입력되는 제 1 단계와 ; 로그 스펙트럼 영역(log spectral domain)에서, 벡터 테일러 급수(VTS)나 통계적 선형 근사화(SLA) 방법을 이용하여, 통계적 선형 근사화 방법에 나타난 잡음 모델 예측 방법에 따라, 잡음의 평균과 분산을 예측하는 제 2 단계 ; 켑스트럼 영역의 클린 음성 모델, 정적 파라메터(static parameter)와 동적 파라메터(dynamic parameter)를 로그 스펙트럼 영역으로 변환하는 제 3 단계 ; 정적(static) 모델과 동적(dynamic) 모델에 대한 평균과 분산을 보상하는 제 4 단계 ; 로그 스펙트럼 영역에서 보상된 잡음의 평균과 분산을, 다시 켑스트럼 영역으로 변환하는 제 5 단계 및 ; 보상된 잡음의 평균과 분산을, 잡음 음성의 켑스트럼 특징 벡터(cpestrum feature vector)를 이용하여 인식을 수행하는 제 6 단계를 포함하여 이루어짐을 특징으로 한다.
본 발명은, 잡음에 강한 모델 보상 방법에 관한 것으로, 특히 벡터 테일러 급수(VTS)를 이용한 모델 보상 알고리즘에 대해 기술한다.
여기서는, 비선형 잡음 음성 모델을 로그 영역에서, 벡터 테일러 급수(VTS) 근사화를 통해 선형화하여, 최대 기대값(EM) 알고리즘에 의해 먼저 잡음 모델을 구하고, 병렬 모델 결합(PMC)과 같이, 켑스트럼 영역에서 은닉 모델 추정 방법(HMM)으로 학습된 클린 음성 모델을 로그 영역으로 변환한 후, 벡터 테일러 급수 근사화 모델에 클린 음성 모델과 잡음 모델을 결합하여 잡음 음성의 모델을 구하는 새로운 방법을 제시한다.
또한, 델타 켑스트럼(delta-cepstrum)과 같은 동적 변수 모델에도 벡터 테일러 급수 근사화 방법을 적용하여, 일반적으로 동적 모델을 보상하는 기술을 제안한다.
그리고, 잡음 모델 예측과 모델 보상 방법들을 벡터 테일러 급수 근사화에 따라 여러가지 방법들을 제시하고 비교한다.
I. VTS을 이용한 HMM 모델 보상(HMM Model Compensation with VTS)
선형 영역에서 클린 음성 모델과 잡음 모델이 결합되는 병렬 모델 결합(PMC) 방식의 모델 보상 기법과 다르게, 여기서는 로그 영역에서 벡터 테일러 급수(VTS)를 이용한 은닉 마르코프 모델(HMM) 파라메타를 보상하는 알고리즘을 제안한다.
이 알고리즘은 도 2와 같이 잡음 추정(noise estimation)과 모델 보상(model compensation)의 두 단계로 구분된다.
먼저 잡음 예측 단계에서는, 현재의 환경하에서의 잡음 모델을 예측하는 것으로, 이를 위해 단락(pause) 구간을 검출하여 모델을 구하는 방법, 벡터 테일러 급수(VTS)나 통계적 선형 근사화(SLA) 방법을 이용하는 방법 그리고 (Baysien) 방법들을 이용하여 구하는 방법이 있다[B.Raj, E.Gouvea, and R.M.Stern, Cepstral Compenation using Statistical Linearization Proc. of ESCA Workshop on Robust Speech Recognition for Unknown Communication Channels, Pont-a-Mousson, France, pp131-134, Apr. 1997. 참조].
이 단계에서는, 현재 환경에 대한 정확한 잡음 모델을 구하는 것이 무엇보다 중요하다.
모델 보상 단계에서는, 로그 영역에서의 보상을 위해 켑스트럼 영역에서 은닉 마르코프 모델(HMM)로 모델링된, 클린 음성의 가우스(Gaussian) 분포의 평균(mean)과 분산(variance) 파라메타를 로그 영역(log-domain)으로 변환한다.
로그 영역에서 클린 모델과 추정된 잡음 모델을, 벡터 테일러 급수(VTS) 근사화 모델에 따라 결합하여, 잡음 음성에 대한 평균과 분산을 구한다.
켑스트럼 영역에서의 잡음 모델을 구하기 위해 이를 역 이산 코사인 변환(IDCT)한다.
즉, 이 알고리즘은 병렬 모델 결합(PMC)과 벡터 테일러 급수(VTS) 기법을 결합해 사용한 것이라 할 수 있다.
일반적인 대용량 음성 인식 시스템에서는, 정적 모델인 켑스트럼과 동적 모델인 델타-켑스트럼(delta-cepstrum)을 함께 사용하는데, 상기와 같은 방법을 이용하여 동적 모델에 대해서도 상기와 같은 방법을 적용할 수 있다.
여기서는, 잡음 예측을 위해 벡터 테일러 급수와 통계적 선형 근사화 방법을 사용하며, 모델 보상을 위해 아래와 같은 다항식(polynomial) 근사화 방법을 따른다.
II. 정적 모델 보상(Static parameter compensation)
일반적으로 가산 잡음 환경하에서 잡음 음성은 로그 영역에서 다음과 같이 표현된다.
[수학식 17]
Figure pat00014
상기 수학식 17에서 잡음 음성의 평균은,
[수학식 18]
Figure pat00015
이다.
그러나, 클린 음성과 잡음이 각각 {μxx}, {μnn}의 가우스 분포를 갖고 모델링 되는 경우, 상기의 해는 닫힌(closed) 형태의 해를 갖지 못한다.
그러므로, 근사적으로 해를 구하게 되는데, 이 경우에는 병렬 모델 결합(PMC) 방법과 달리 테일러 급수(Taylor series) 근사화 방법을 사용한다.
상기 함수 f(n,x)을 (n0,x0)을 중심으로 테일러 급수로 근사화하여 전개하면,
[수학식 19]
Figure pat00016
이다.
이때의 잡음 음성의 평균은,
[수학식 20]
Figure pat00017
이다.
여기서, n0 = μn, x0 = μx이다.
상기 수학식 20을 얻기 위해 다음과 같이 잘 알려진 성질을 사용한다.
랜덤(Random) 변수 x가 가우스 분포 N(x ;μx, Σx)을 갖는 경우, 주어진 양수 m에 대해 다음과 같은 성질을 만족한다.
[수학식 21]
상기 성질을 이용하여, 원하는 차수까지의 평균값을 구할 수 있다.
(n0,x0)을 중심으로 f(n,x)의 테일러 급수를 m차 까지 취한 다항식(polynomial) 근사식을
Figure pat00018
라 하면,
[수학식 22]
Figure pat00019
이다.
여기서, m차까지 y의 평균을
Figure pat00020
라 하면,
[수학식 23]
이다.
마찬가지로, m차까지 y의 분산을 이라 하면,
[수학식 24]
이다.
이때, 2차까지 표시한 각 차수에 대한 평균과 분산은 표 1.와 같다.
다항식(Polynomial)과 통계적 선형 근사화(SLA)는 각 차수에 대해 평균은 같지만, 분산의 경우는 2차 이상에서 달라진다.
통계적 선형 근사화(SLA)의 경우는 선형적으로 근사화했기 때문에, 좀더 간단한 형태를 갖는다.
[표 1]VTS 근사화에 따른 정적(static) 변수의 평균(mena)과 분산(variance) 변환식
Figure pat00021
III. 동적 모델 보상(Dynamic parameter compensation)
일반적인 대용량 음성 인식 시스템의 성능을 향상시키기 위해 동적인 파라메타, 즉 델타-켑스트럼(delta-cepstrum)과 델타-델타-켑스트럼(delta-delta-cepstrum)을 사용한다.
여기서, 평균과 분산에 대한 모델 보상식을 얻기 위해, 먼저 모델 함수를 정의해야 한다.
로그 영역에서 델타(delta) 파라메타를 시간의 함수로 표시하면,
[수학식 25]
Δy(t)=y(t+τ)-y(t-τ)
이다.
여기서, τ는 잔류 편차의 차(difference offset)이다.
상기 수학식을 전개하면,
[수학식 26]
이다.
즉, 잡음 음성의 델타(delta) 계수는, 현재 클린 음성과 잡음의 델타 값과 시간 t-τ에서의 정적(static) 계수의 함수이다.
즉,
[수학식 27]
Figure pat00022
이다.
만약, 음성 프레임수가 충분히 길어서 x(t-τ)와 n(t-τ) 의 통계적 특성이 x(t)와 n(t)의 통계적 특성과 근사적으로 같다고 가정하면, 상기 수학식의 모든 계수에 대한 통계적 특성이 존재한다.
즉, 통계적 특성을 구하는 경우에 상기 수학식 27은 시간 t에 대해 다음과 같다.
[수학식 28]
앞의 정적(static) 변수와 같이, 동적(dynamic) 변수에 대해 점(Δn0,Δx0,n0,x 0)을 중심으로 테일러 급수(Taylor series) 근사화 시키면,
[수학식 29]
이다.
정적(Static) 변수와 같이, m차 까지 다항의(polynomial) 근사식을 취하여 동적(dynaimic) 변수에 대한 평균과 분산을 구하면, 표 2와 같다.
또한, 통계적 선형 근사화(SLA) 방법으로 상기 수학식을 근사화하는 경우, 2차 이상인 경우의 분산식은 달라진다.
상기 수학식을 사용하기 위해, 잡음에 대한 동적(dynamic) 변수(Δμn,ΔΣn)가 필요한데, 실험에서는 Δμn = 0, ΔΣn = 0이라 가정하였다.
[표 2]
VTS 근사화에 따른 동적(dynamic) 변수의 평균(mean)과 분산(variance) 변환식
델타(Delta) 계수와 마찬가지로, 델타-델타(delta-delta) 계수 또는 가속도(acceleration) 계수에도 똑같이 확장할 수 있다.
로그 영역에서 가속도(acceleration) 함수를 전개하면,
[수학식 30]
Δ2y(t) = Δy(t+ω) - Δy(t-ω)
이다.
델타(Delta) 함수에서 구한 수학식을 대입하여 전개하면, 다음과 같은 모델 함수를 얻을 수 있다.
[수학식 31]
Figure pat00023
상기와 같이, 음성과 잡음에 대한 통계적 특성이 시간 t-ω와 t에서 같고, t+w-τ, t-w-τ, t에서 근사적으로 같다고 가정하면, 통계적 특성을 구하는 식은,
[수학식 32]
과 같이 쓸 수 있다.
상기 수학식을, 한점을 중심으로 테일러 급수 근사화하여, 원하는 차수 만큼을 취하므로서, 가속도(acceleration)에 대한 평균과 분산식을 구할 수 있다.
가속도에 대한 모델은, 구축된 인식 시스템에서 사용하지 않기 때문에, 이에 대한 실험은 수행하지 못했다.
본 발명의 목적에 따른, 벡터 테일러 급수를 이용한 모델 보상 방법의 동작원리를 상세히 설명하면 다음과 같다.
1. 먼저, 도 2와 같이 잡음 음성 특성 벡터(noisy speech feature vector)가 입력된다.
2. 도 2에 나타난 바와 같이 로그 스펙트럼 영역(log spectral domain)에서, 벡터 테일러 급수(VTS)나 통계적 선형 근사화(SLA) 방법을 이용하여, 통계적 선형 근사화 방법에 나타난 잡음 모델 예측 방법에 따라, 잡음의 평균과 분산을 예측한다.
3. 수학식 12를 이용하여 도 2와 같이 켑스트럼 영역의 클린 음성 모델, 정적 파라메터(static parameter)와 동적 파라메터(dynamic parameter)를 로그 스펙트럼 영역으로 변환한다.
4. 표 1과 표 2에 나타난 수학식을 이용하여, 정적(static) 모델과 동적(dynamic)모델에 대한 평균과 분산을 보상한다.
5. 수학식 16을 이용하여 도 2와 같이, 로그 스펙트럼 영역에서 보상된 잡음의 평균과 분산을, 다시 켑스트럼 영역으로 변환한다.
6. 보상된 잡음의 평균과 분산, 잡음 음성의 켑스트럼 특징 벡터(cpestrum feature vector)를 이용하여 인식을 수행하므로서, 표 3과 표 4 그리고 표 5의 결과를 얻는다.
상기에서 제안된 방법의 성능을 평가하기 위해, 화자독립 한국어 연속 숫자음 인식에 적용하여 인식 실험을 수행하였다.
어휘는 11개의 한국어 숫자음으로 구성되었다.
93명의 화자로부터 발음된 음성이 학습을 위해 사용되었고, 47명 화자로부터 발음된 음성은 테스트를 위해 사용되었다.
각 음성은, 8kHz의 표본화 율(sampling rate)로 계수화(digitize)되어 10msec의 프레임(frame)마다, 19차 멜-스케일드 로그 필터뱅크 에너지 벡터(mel-scaled log filterbank energy vector)가 추출되었다.
이산 코사인 변환(DCT)을 적용하여, 각 프레임마다 12차 켑스트럼 계수를 사용하였고, 인식을 위해 켑스트럼 벡터(cepstrum vector)와 델타-켑스트럽 벡터(delta-cepstrum vector)를 사용하였다.
각 숫자음은 5 state semi-continuous 은닉 마르코프 모델(HMM)로 모델링되었는데, 이때 코드북(codebook)은 켑스트럼과 델타-켑스트럼에 대해 각각 256개를 사용하였다.
여기서는, 3가지 형태의 잡음 -NOISEX92의 백색 잡음, 핑크 잡음(pink noise), F16 잡음- 이 고려되었다.
다양한 신호 대 잡음비(SNR)에 따라 스케일(scaled)된 잡음 표본(sample) 값이 시간(time) 영역에서 클린 음성에 더해졌다.
알고리즘의 성능을 비교하기 위해, 벡터 테일러 급수 및 통계적 선형 근사화 방법을 이용한 특징 보상 방법과, 로그-노말(log-normal) 근사화에 기초한 병렬 모델 결합(PMC) 모델 보상 방법을 구현하였다.
병렬 모델 결합(PMC)에 의한 모델 보상에서, 잡음 모델을 구하기 위해 벡터 테일러 급수(VTS)를 이용하여 잡음 모델을 예측하였다.
벡터 테일러 급수(VTS)를 이용한 모델 보상을 위한 잡음 예측으로 벡터 테일러 급수와 통계적 선형 근사화 방법을 사용하였고, 모델 보상은 평균과 분산에 대해 다양한 다항식(polynomial) 근사화를 이용하여 비교하였다.
표 3에서는 백색 잡음 환경에서 여러가지 방법들에 대한 실험결과를 나타내었다.
[표 3]
White 잡음 환경하에서의 화자독립 연속 숫자음에 대한 인식 실험 결과(인식율 %)
Figure pat00024
Figure pat00025
Figure pat00026
표 4와 표 5에는 핑크색 잡음(pink noise)과 F16 잡음에 대한 실험 결과를 각각 나타내었다.
[표 4]
Pink 잡음 환경하에서의 화자독립 연속 숫자음에 대한 인식 실험 결과(인식율 %)
[표 5]
F16 잡음 환경하에서의 화자독립 연속 숫자음에 대한 인식 실험 결과(인식율 %)
Figure pat00027
표 3에서는 먼저 벡터 테일러 급수와 통계적 선형 근사화 2차 근사식을 이용한 특징 보상 기술을 실험하였는데(F.C(1st)와 F.C(2nd)), 벡터 테일러 급수(VTS)보다는 통계적 선형 근사화(SLA) 2차에 의한 특징 보상 방법이, 낮은 신호 잡음비(SNR) 환경하에서 많은 성능 향상을 가져옴을 알 수 있다.
모델 보상 방법에 있어서는, 평균 보상에 대한 효과를 알아보기 위해 정적 모델과 동적 모델에 대해 각각 0차와 2차 변환식을 이용하였다.
먼저, 정적 변수의 평균만을 보상하는 경우가 특징 보상을 이용한 경우보다 알려진 바와 같이 전반적으로 향상된 성능을 나타냈다(M.C(0th)).
정적 변수만 보상하는 것보다 동적 변수도 보상하는 경우, 성능이 향상됨을 알 수 있고(M.C(0th)+ΔM.C(0th), 0차 근사식보다는 2차 근사식에 의한 보상이 더 높은 인식률 향상을 가져옴을 알 수 있다(M.C(2nd), M.C(0th)+ΔM.C(2nd), M.C(2nd)+ΔM.C(2nd)).
또한, 모델 보상에 있어서, 벡터 테일러 급수와 통계적 선형 근사화 잡음 예측 방법을 비교하였는데, 통계적 선형 근사화 2차로 잡음 모델을 예측하여 모델 보상을 하는 경우, 벡터 테일러 급수보다 더 나은 성능을 보였다(M.C2(2nd), M.C2(2nd)+ΔM.C2(2nd)).
이는, 통계적 선형 근사화가 벡터 테일러 급수에 비해 더 정확히 잡음 모델을 예측한다는 것을 알 수 있다.
그리고, 1차 근사식을 이용하여 잡음의 분산을 보상하는 경우, 더 높은 인식율 향상을 가져옴을 알 수 있다(M.C(1st, 1st), M.C(2nd, 1st)).
그러나, 분산을 2차로 보상하는 경우, 1차에 비해 반드시 성능 향상을 가져오지 못했다(M.C(2nd, 2nd)).
그리고, 델타 파라메터(delta parameter)에 대한 분산 보상은, 오히려 성능저하를 가져왔다(M.C(2nd, 1st)+ΔM.C(2nd, 0th), M.C(2nd, 1st)+ΔM.C(2nd, 0th)).
이는, 델타(delta)에 대한 분산(variance)식은, 근사화에 의해 정확히 모델링이 되지 못하기 때문이라 생각한다.
대표적인 모델 보상 방법인 병렬 모델 결합(PMC) 방법과 비교하면 더 나은 성능을 나타냄을 알 수 있다(M.C(2nd, 1st), PMC).
표 4와 표 5에 나타난 바와 같이, 핑크색 잡음(Pink noise)과 F16 잡음에 대한 실험 결과도 상기 표 3의 백색 잡음(white noise)과 비슷한 결과를 나타냈다.
실험적인 결과를 통해 상기의 방법이 매우 효과적인 기술임을 보이고, 벡터 테일러 급수 특징 보상이나 병렬 모델 결합 모델 보상 기술에 비해, 향상된 성능을 나타냄을 보인다.
이상에서 상세히 설명한 바와 같이 본 발명은, 선형 스펙트럼 영역에서 모델 보상하는 병렬 모델 결합 방법과 달리 로그 스펙트럼 영역에서 보상(compensation)을 수행함으로 더 정확하고 효율적이며, 따라서 더 높은 인식 성능을 얻을 수 있다.
또한, 로그 노말 근사화(Log-normal approximation) 병렬 모델 결합에서 할수 없었던 동적 모델 보상(dynamic model compensation)을 효과적으로 수행하여 인식 성능을 향상시킬 수 있다.
벡터 테일러 급수(VTS) 근사화 정도에 따라 성능을 향상시킬 수 있으며, 벡터 테일러 급수를 이용한 결합(feature compensation) 방법에 비해 모델 결합(model compensation) 방법은 휠씬 높은 인식율을 나타낸다.
그리고, 제안된 모델 결합(model compensation) 방법은 실시간(real time) 으로 사용 가능하며, 다양한 잡음 추정(noise estimation) 방법과 결합하여 사용 가능하다.
도 1 은 일반적인 병렬 모델 결합 방식을 이용한 모델 적응 과정을 보인 예시도,
도 2 는 벡터 테일러 급수를 이용한 로그 스펙트럼 영역에서의 모델 보상 과정을 보인 예시도이다.

Claims (4)

  1. 잡음 음성 특징 벡터(noisy speech feature vector)가 입력되는 제 1 단계와 ;
    로그 스펙트럼 영역(log spectral domain)에서, 벡터 테일러 급수(Vector Tayler Series : VTS)나 통계적 선형 근사화(SLA) 방법을 이용하여, 통계적 선형 근사화 방법에 나타난 잡음 모델 예측 방법에 따라, 잡음의 평균과 분산을 예측하는 제 2 단계 ;
    켑스트럼 영역의 클린 음성 모델, 정적 파라메터(static parameter)와 동적 파라메터(dynamic parameter)를 로그 스펙트럼 영역으로 변환하는 제 3 단계 ;
    정적(static) 모델과 동적(dynamic) 모델에 대한 평균과 분산을 보상하는 제 4 단계 ;
    로그 스펙트럼 영역에서 보상된 잡음의 평균과 분산을, 다시 켑스트럼 영역으로 변환하는 제 5 단계 및 ;
    보상된 잡음의 평균과 분산, 잡음 음성의 켑스트럼 특징 벡터(cpestrum feature vector)를 이용하여 인식을 수행하는 제 6 단계를 포함하여 이루어짐을 특징으로 하는, 벡터 테일러 급수를 이용한 모델 보상 방법.
  2. 제 1 항에 있어서,
    상기 제 3 단계는,
    C는 이산 코사인 변환(DCT)의 매트릭스 표현이고, C-1는 역 이산 코사인 변환(IDCT)이라고 할 때,
    Figure pat00028
    Figure pat00029
    와 같은 방법을 사용하여 이루어짐을 특징으로 하는, 벡터 테일러 급수를 이용한 모델 보상 방법.
  3. 제 1 항에 있어서,
    상기 제 4 단계는,
    m차까지 y의 평균을,
    Figure pat00030
    라 하고, m차까지 y의 분산을
    Figure pat00031
    이라 하면,
    t25
    와 같은 방법을 사용하여 이루어짐을 특징으로 하는, 벡터 테일러 급수를 이용한 모델 보상 방법.
  4. 제 1 항에 있어서,
    상기 제 5 단계는,
    Figure pat00032
    Figure pat00033
    와 같은 방법을 사용하여 이루어짐을 특징으로 하는, 벡터 테일러 급수를 이용한 모델 보상 방법.
KR1019970036930A 1997-08-01 1997-08-01 벡터 테일러 급수를 이용한 음성 모델 보상 방법 KR100434527B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970036930A KR100434527B1 (ko) 1997-08-01 1997-08-01 벡터 테일러 급수를 이용한 음성 모델 보상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970036930A KR100434527B1 (ko) 1997-08-01 1997-08-01 벡터 테일러 급수를 이용한 음성 모델 보상 방법

Publications (2)

Publication Number Publication Date
KR19990015044A KR19990015044A (ko) 1999-03-05
KR100434527B1 true KR100434527B1 (ko) 2005-09-28

Family

ID=37304856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970036930A KR100434527B1 (ko) 1997-08-01 1997-08-01 벡터 테일러 급수를 이용한 음성 모델 보상 방법

Country Status (1)

Country Link
KR (1) KR100434527B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100694879B1 (ko) * 2006-11-23 2007-03-14 부산대학교 산학협력단 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법
KR101975057B1 (ko) 2015-03-20 2019-05-03 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202926A (en) * 1990-09-13 1993-04-13 Oki Electric Industry Co., Ltd. Phoneme discrimination method
JPH06214592A (ja) * 1993-01-18 1994-08-05 Nippon Telegr & Teleph Corp <Ntt> 耐雑音音韻モデルの作成方式
US5459815A (en) * 1992-06-25 1995-10-17 Atr Auditory And Visual Perception Research Laboratories Speech recognition method using time-frequency masking mechanism
JPH0830294A (ja) * 1994-07-15 1996-02-02 N T T Data Tsushin Kk 音声認識装置及び方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202926A (en) * 1990-09-13 1993-04-13 Oki Electric Industry Co., Ltd. Phoneme discrimination method
US5459815A (en) * 1992-06-25 1995-10-17 Atr Auditory And Visual Perception Research Laboratories Speech recognition method using time-frequency masking mechanism
JPH06214592A (ja) * 1993-01-18 1994-08-05 Nippon Telegr & Teleph Corp <Ntt> 耐雑音音韻モデルの作成方式
JPH0830294A (ja) * 1994-07-15 1996-02-02 N T T Data Tsushin Kk 音声認識装置及び方法

Also Published As

Publication number Publication date
KR19990015044A (ko) 1999-03-05

Similar Documents

Publication Publication Date Title
EP0886263B1 (en) Environmentally compensated speech processing
Acero et al. Robust speech recognition by normalization of the acoustic space.
JP3457431B2 (ja) 信号識別方法
EP1262953B1 (en) Speaker adaptation for speech recognition
US6202047B1 (en) Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US8239195B2 (en) Adapting a compressed model for use in speech recognition
KR100919223B1 (ko) 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치
EP0807305A1 (en) Spectral subtraction noise suppression method
Huang et al. An energy-constrained signal subspace method for speech enhancement and recognition in white and colored noises
EP1189205A2 (en) HMM-based noisy speech recognition
Mohammadiha et al. Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Nesta et al. Blind source extraction for robust speech recognition in multisource noisy environments
US6633843B2 (en) Log-spectral compensation of PMC Gaussian mean vectors for noisy speech recognition using log-max assumption
Krueger et al. A model-based approach to joint compensation of noise and reverberation for speech recognition
KR100434527B1 (ko) 벡터 테일러 급수를 이용한 음성 모델 보상 방법
Han et al. Reverberation and noise robust feature compensation based on IMM
Cho et al. Bayesian feature enhancement using independent vector analysis and reverberation parameter re-estimation for noisy reverberant speech recognition
Kim et al. Application of VTS to environment compensation with noise statistics
KR100694879B1 (ko) 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법
Astudillo et al. Propagation of Statistical Information Through Non‐Linear Feature Extractions for Robust Speech Recognition
Sasou et al. HMM-based noise-robust feature compensation
Takagi et al. Rapid environment adaptation for speech recognition
Kim et al. Fast channel adaptation for continuous density HMMs using maximum likelihood spectral transform
KR100434532B1 (ko) 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120427

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20130429

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee