KR19980068453A - 적응적인 클린음성 추정 음성 인식방법 - Google Patents

적응적인 클린음성 추정 음성 인식방법 Download PDF

Info

Publication number
KR19980068453A
KR19980068453A KR1019970005046A KR19970005046A KR19980068453A KR 19980068453 A KR19980068453 A KR 19980068453A KR 1019970005046 A KR1019970005046 A KR 1019970005046A KR 19970005046 A KR19970005046 A KR 19970005046A KR 19980068453 A KR19980068453 A KR 19980068453A
Authority
KR
South Korea
Prior art keywords
learning
signal
speech
correction
covariance matrix
Prior art date
Application number
KR1019970005046A
Other languages
English (en)
Inventor
김동국
Original Assignee
김광호
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김광호, 삼성전자 주식회사 filed Critical 김광호
Priority to KR1019970005046A priority Critical patent/KR19980068453A/ko
Publication of KR19980068453A publication Critical patent/KR19980068453A/ko

Links

Abstract

본 발명은 잡음 환경에 적응적으로 변화하여 환경에 대한 최적의 특성을 추출하여 클린음성을 보다 정확하게 추정하는 음성인식 방법에 관한 것으로서, 양자화된 음성신호 켑스트럼에서 잡음신호를 제거한 클린음성신호를 추정하여 인식하는 음성 인식방법은 학습 스테레오 음성신호 켑스트럼을 벡터 양자화한 신호를 학습 제1신호라 하고, 학습 제1신호에서 잡음을 제거한 클린신호를 학습 제2신호라 할 때, 학습 제2신호의 평균과 분산을 구하는 제1단계; 학습 제1신호의 학습 정정벡터와 학습 정정공분산행렬을 구하는 제2단계; 학습 제1신호의 평균과 분산을 구하는 제3단계; 양자화된 테스트 음성신호 켑스트럼에 대한 테스트 정정벡터와 테스트 정정공분산행렬을 구하는 제4단계; 적응 정정벡터와 적응 정정공분산행렬 및 적응 가우시안 가중치를 구하는 제5단계; 학습 제1신호의 평균과 분산을 갱신하는 제6단계; 양자화된 테스트 음성신호 켑스트럼을 테스트 클린음성신호 켑스트럼으로 맵핑하는 제7단계; 음성인식을 하는 제8단계; 모든 양자화된 테스트 음성신호 켑스트럼에 대해 상기 제4단계에서 제8단계의 과정을 반복하는 제9단계를 포함함을 특징으로 한다.
본 발명에 의하면, 고립단어 인식시스템에서 잡음 환경에 적응적으로 변화하여 환경에 최적의 특성을 추출하여 클린음성을 보다 정확하게 추정함으로써, 잡음 특성에 강한 인식 성능을 발휘할 수가 있다.

Description

적응적인 클린음성 추정 음성 인식방법
본 발명은 잡음 환경에서 클린 음성을 추정하는 음성인식 방법에 관한 것으로서, 보다 상세하게는 잡음 환경에 적응적으로 변화하여 환경에 대한 최적의 특성을 추출하여 클린음성을 보다 정확하게 추정하는 음성인식 방법에 관한 것이다.
컴퓨터가 발달하면서 사람과 컴퓨터간에 음성을 통해 대화하는 기술에 대한 많은 연구가 진행되고 있다. 사람이 하는 말을 컴퓨터가 인식하여 원하는 일을 할 수 있도록 하기 위하여 음성인식 분야에서는 많은 기술이 개발되어, 사무실이나 조용한 환경 하에서는 이미 기술적으로 실용적인 단계에 접어들고 있다. 그러나, 잡음이 발생하는 일반적인 환경하에서는 본래의 음성이 왜곡되고 그 특성이 변하여 인식률이 매우 저하되기 때문에 실용화에 많은 문제가 남아 있다.
또한, 인식시스템에서 인식을 위해 학습하는데 사용되는 음성은 깨끗한 환경에서 수집된 음성을 사용하며, 인식을 수행하는 경우에는 잡음이 섞인 음성을 사용한다. 따라서, 학습과 테스트시의 환경이 일치하지 않으므로 인식률이 저하된다. 그래서, 인식시스템에서 학습 환경과 인식 환경이 일치되도록 잡음 특성을 제거하여 잡음음성을 깨끗한 음성으로 매핑하거나, 학습된 시스템을 잡음 환경에 맞도록 적응시키는 기술이 사용하여 인식률을 향상시키고 있다.
잡음환경하에서의 고립단어에 대한 음성인식시스템에 대한 구성도를 도시하면 도 1과 같다.
먼저, 인식기(120)는 잡음이 없는 환경에서 발음된 음성을 모델링하여 저장한다. 다음, 특징추출기(100)는 실제 잡음환경에서 음성인식을 수행하여 음성의 특징을 추출하고, 클린음성추정기(110)는 상기 인식기(120)와 현재의 환경을 매칭시키기 위해 잡음음성을 클린음성 추정(clean speech estimation) 기술을 이용하여 클린음성을 추정하고, 상기 추정된 클린 음성을 이용하여 상기 인식기(120)에서 음성을 인식하여 해당된 단어를 찾아낸다. 이렇게 잡음음성을 클린음성으로 매핑하므로써 향상된 인식률을 얻을 수 있으므로, 실제 환경에서도 상기한 바와 같은 방식에 의한 음성인식시스템을 사용하여 음성인식을 할 수 있다.
상기한 바와 같이 구성된 잡음 환경하에서의 음성인식 시스템은 자동차에서의 음성인식, 이동통신 단말기에서의 음성인식 등과 같은 잡음 환경하에서의 음성인식에 널리 이용된다.
잡음환경하에서 잡음음성을 클린음성으로 매핑(mapping)하는 알고리즘의 하나로서 RATZ(Multivariate Gaussian based cepstral normalization) 기술이 사용된다. RATZ는 음성의 특징 표현인 켑스트럼(cepstrum)을 사용하여, 클린음성의 통계적 특성에서 잡음음성의 통계적 특성을 추정하여 클린음성을 추정하는 기술이다.
RATZ 알고리즘은 다음과 같다.
길이 T의 클린 켑스트럼 벡터 시퀀스가 X = {x1,x2, .... ,xT}로 주어지는 경우, t번째 벡터 xt를 일반적으로 K개의 합성 가우시안(mixture Gaussian)으로 다음과 같이 모델링한다.
여기서 함수 N()은 다변량 가우시안(Mutivariate Gaussian) 함수이고, wk는 각 가우시안의 가중치이다.
그러나, 클린음성는 소음이 있는 환경에 의해 그 음성 통계값이 다음과 같은영향을 받는다. 첫째, 잡음음성의 pdf(probility density function)는 논가우시안(non-Gaussian)이다. 둘째, 잡음음성의 평균(mean)은 잡음의 SNR(signal to noise ratio)에 따라 시프트한다. 셋째, 잡음음성의 공분산 행렬(covariance matrix)은 잡음의 SNR에 따라 압축(compressed) 또는 확장(expanded)된다.
대부분의 음성인식 시스템에서는 음성 통계값을 합성 가우시안(mixture Gaussian)으로 표현하기 때문에, 잡음음성의 pdf를 가우시안(Gaussian)으로 표현하면 매우 편리하다. 잡음음성의 pdf를 상기 특성에 따라 모델링하면 다음과 같다. 첫째, 잡음음성의 평균(mean) μy,k은 클린음성의 평균μx,k에 환경에 의한 정정 벡터(correction vector) rk를 더함으로써 모델링한다.
둘째, 잡음음성의 공분산 행렬(covariance matrix) ∑y,k은 클린음성의 공분산 행렬 ∑x,k에 정정 공분산 행렬(correction covariance matrix) Rk을 더함으로써 모델링한다.
T개의 관측 잡음 벡터(observed noisy vector)가 Y = {y1,y2, .... ,yT}로 주어지는 경우, t번째 벡터 yt는 다음과 같이 K개의 합성 가우시안(mixture Gaussian)으로 모델링된다.
이 경우, 전체 관측 시퀀스(full observation sequence) Y에 대한 로그 라이크리후드 함수(log likelihood function) L(Y)는 다음과 같이 정의된다.
따라서, RATZ 알고리듬은 다음과 같이 요약될 수 있다.
문제 정의 :
T 잡음 벡터 Y={y1,y2, .... ,yT}와
클린 pdf {ω1, ... ,ωK, μ1, ... ,μK, Σ1, ... ,ΣK}가 주어진 경우에,
를 구하라. 여기에서,
상기 문제를 풀기 위하여, 보조 함수(auxiliary function) Q(ψ,ψ*)을 정의하고 EM(Expectation Maximization) 알고리즘을 이용하여 해를 구한다.
다음과 같은 두가지 해를 얻을 수 있다.
1. 스테레오에 근거한 해법(Stereo-based solutions)
[수학식 1]
2. 스테레오에 근거하지 않은 해법(Non-Stereo-based solutions)
[수학식 2]
상기의 스테레오에 근거한 해법(Stereo-based solution)은 클린음성과 잡음음성이 동시에 녹음되어 존재하는 경우에 대한 해를 표시한 경우이며, 스테레오에 근거하지 않은 해법(non-stereo-based solution)은 잡음음성만이 존재하는 경우에 해를 나타낸다.
위에서 구해진 rk, Rk를 이용하여 잡음음성의 평균과 분산을 구하고 다음과 같이 MMSE(Minimum Mean Square Error) 추정기(estimator)를 이용하여 잡음 벡터 y로부터 클린 벡터 x을 추정할 수 있다.
[수학식 3]
그런데, 상기 알고리즘은 다음과 같은 문제점을 갖고 있다.
상기 스테레오에 근거한 해법(Stereo-based solutions)은 스테레오 데이터(stereo-data)에 의해 주어진 환경에 대해서만 정확한 해를 구할 수 있으므로, 새롭게 변하는 환경에는 많은 에러를 발생한다. 따라서, 현재의 인식하는 단어에 대해서 최적의 해를 구할 수가 없다. 또한, 상기 스테레오에 근거하지 않은 해법(Non-Stereo-based solutions)의 경우에도 상기 스테레오에 근거한 해법과 같이 정확한 해를 구할 수 없고, 반복적인 방법으로 해를 구해야 함으로 많은 시간이 소비되며 성능이 저하되는 문제점이 발생한다.
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 고립단어 인식시스템에서 잡음 환경에 적응적으로 변화하여 환경에 최적의 특성을 추출하여 클린음성을 보다 정확하게 추정하여 잡음 특성에 강한 인식 성능을 발휘할 수 있는 적응적인 클린음성 추정 음성 인식방법을 제공함을 그 목적으로 한다.
도 1은 잡음 환경하에서 클린음성 추정을 이용한 고립단어 인식기에 대한 구성도이다.
상기의 목적을 달성하기 위한 본 발명의 구성은 다음과 같다.
양자화된 음성신호 켑스트럼에서 잡음신호를 제거한 클린음성신호를 추정하여 인식하는 적응적인 클린음성 추정 음성 인식방법은 학습 스테레오 음성신호 켑스트럼을 벡터 양자화한 신호를 학습 제1신호라 하고, 상기 제1신호에서 잡음을 제거한 클린신호를 학습 제2신호라 할 때, 상기 학습 제2신호의 평균과 분산을 구하는 제1단계; 상기 학습 제1신호의 학습 정정벡터와 학습 정정공분산행렬을 식
(여기서, K는 합성 가우시안의 갯수이고,는 학습 정정벡터이고,는 학습 정정공분산행렬이고,는 학습 제1신호이고,는 학습 제2신호이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이다.)
에 의해 구하는 제2단계; 상기 학습 제1신호의 평균과 분산을 식
(여기서, k는 합성 가우시안의 갯수이고,는 학습 제1신호의 평균이고,는 학습 제1신호의 분산이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이고,는 학습 정정벡터이고,는 학습 정정공분산행렬이다.)
에의해 구하는 제3단계; 양자화된 테스트 음성신호 켑스트럼을라 할 때, k번 가우시안에 대한 테스트 정정벡터와 테스트 정정공분산행렬을 식
(여기서, K는 합성 가우시안의 갯수이고,는 테스트 정정벡터이고,는 테스트 정정공분산행렬이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이고, φ는 이전,를 나타내는 파라메타이다.)에 의하여 구하는 제4단계; 상기 테스트 정정벡터와 상기 테스트 정정공분산행렬 및 상기 학습 정정벡터와 상기 학습 정정공분산행렬을 이용하여 인식단어에 적응 정정벡터와 적응 정정공분산행렬 및 적응 가우시안 가중치를 구하는 제5단계; 상기 적응 정정벡터와 상기 적응 정정공분산행렬을 이용하여 상기 학습 제1신호의 평균과 분산을 갱신하는 제6단계; 상기 학습 정정벡터와 상기 학습 정정공분산행렬 및 상기 갱신된 학습 제1신호의 평균과 분산을 이용하여, 상기 양자화된 테스트 음성신호 켑스트럼을 테스트 클린음성신호 켑스트럼으로 맵핑하는 제7단계; 상기 맵핑된 테스트 클린음성신호 켑스트럼을 사용하여 음성인식을 하는 제8단계; 및 모든 양자화된 테스트 음성신호 켑스트럼에 대해 상기 제4단계에서 제8단계의 과정을 반복하는 제9단계를 포함함을 특징으로 한다.
상기 RATZ 알고리즘에서 나타나는 문제점을 해결하기 위해서 다음과 같은 해결방법을 사용한다. 먼저 RATZ 알고리즘에서 rk, Rk를 구하는 식을 살펴보면 다음 두가지 사항을 알 수 있다. 첫째, rk, Rk값은 시간 T와 yt의 함수이다. 즉, 잡음음성의 양과 특성(화자의 특성이나 단어 특성)에 따라 rk, Rk값은 달라진다. 그러므로 rk, Rk값은 학습(training) 시 사용된 잡음음성의 환경적인 특성을 잘 나타낸다. 둘째, 스테레오에 근거한 해법(Stereo-based solutions)은 클린음성과 잡음음성이 동시에 녹음된 환경하에서 클린음성에서 잡음음성으로 변형되는 정정 인자(correction factor)를 직접 구하므로 고정된 환경에 대해 잘 표현하며, 스테레오에 근거하지 않은 해법(Non-Stereo-based solutions)은 현재의 환경에 대해 최적으로 정정 인자 값을 표현해 준다. 이는 현재의 환경에 적응적인 기능을 갖고 있다.
상기 두 특성을 이용하여 고립단어 인식 시스템에 다음과 같이 적용할 수 있다.
1. 학습시 스테레오 데이터(stereo-data)를 이용하여 전체 데이터에 대해 rk, Rk값을 구한다. 이때의 rk, Rk값은 클린음성에서 잡음음성으로 변형된 특성과 전체 데이터의 특성을 표시한다. 즉 이 값을 rk, Rk에 대한 학습 특성으로 생각할 수 있다.
2. rk, Rk값은 단어의 특성에 따라 달라지므로, 고립단어 인식시 현재의 단어에 대해 rk, Rk값을 스테레오에 근거하지 않은 해법을 이용하여 구한다. 이 때의 rk, Rk값과 학습 rk, Rk값을 이용하여 현재의 환경에 최적인 rk, Rk값을 적응적으로 구한다.
인식단어에 따라 갱신된 rk, Rk값을 구하는 방법에는 다음 3가지 방법이 있다.
먼저 표시법을 정의하면 다음과 같다.
첫째, 학습 rk, Rk값과 현재의 rk, Rk값을 선형 보간(linear interpolation)하는 경우
이러한 경우는 새로게 갱신되는 rk, Rk값은 학습 rk, Rk값과 현재의 rk, Rk값의 가중합(weighted sum)에 의해 표현된다.
[수학식 4]
여기서, 0 λrR1.0 이며, 모든 k에 대해 상수의 값을 갖는다. 이때의 잡음음성의 평균과 분산는 다음과 같이 갱신된다.
둘째, 학습 rk값은 가우시안 분포를 갖고 변하며, Rk값은 일정한 경우
이러한 학습 밀도 함수(prior density function)가 가우시안 분포를 갖는 경우는 MAP(Maximum a Posterior) 추정기법을 사용하여 rk, Rk값을 추정할 수 있다. 이때의 적응된 rk, Rk값은 다음과 같다.
[수학식 5]
여기서
[수학식 6]
이다. 새로운 rk값은 각각의 k에 대해 λk값에 의해 학습 값과 현재의 값을 가중합(weighted sum)하여 얻고, 새로운 Rk값은 모든 k에 대해 상수값 λR의 의해 얻어진다.
셋째, 학습 wk, rk, Rk값이 어떤 분포를 갖고 변하는 경우.
wk, rk, Rk값이 다음과 같은 형태의 학습 밀도 함수(prior density function)를 갖는다고 가정한다.
여기서, φk={w1,…,wK,r1,…,rK,R1,…,RK}이다. 즉, 다음과 같은 함수
를 갖는다고 가정한다.
여기서 (τkkk,uk)는 학습 밀도 파라메터(prior density parameter)이고, αkp-1, τk0, μk는 차원 p의 벡터, uk는 p x p 양 한정 행렬(positive definite matrix)이다.
상기 학습 밀도 파라메터는 전체 학습 데이터로부터 k번째 합성 가우시안 파라메터 벡터의 예비 추정(preliminary estimate)이 주어진 경우, 다음과 같이 추정할 수 있다.
여기서,
이다. 일반적으로, 강건성(robustness)을 높이기 위해 모든 가우시안에 대해 τk=2 사용한다. 이러한 학습 밀도 함수(prior density function)을 갖는 경우에 대해서도 MAP 추정기법을 사용하여 새로운 값을 얻을 수 있다.
상기한 바와 같은 경우의 해를 구하기 위해서 EM 알고리즘을 이용하여 다음과 같이 보조함수(auxiliry function)
을 정의하고, 이를 최대화함으로써 반복적으로 풀수가 있다.
상기 방정식을 통해 구한 새롭게 적응적인 wk, rk, Rk값은 다음과 같다.
[수학식 7]
[수학식 8]
다음과 같은 MMSE 추정기를 사용하여 각 잡음 단어의 켑스트럼 대한 클린의 켑스트럼을 추정할 수 있다.
본 발명의 성능을 평가하기 위해 다음과 같은 실험 데이터를 사용하였다. ·8명 화자 (남자 6, 여자 2)
·9개 명령어(등록,번호,통화,취소,예,아니오,확인,완료,발신)
·11개 숫자음(영,일,이,삼,사,오,육,칠,팔,구,공)
·3번 발음(15-20db, 10-15db, 5-10db잡음환경에서 한번씩 발음)
·숫자음, 명령어 문법을 따로 사용
다음은 인식 결과이다.
상기 실험의 예는 한국어 숫자음과 명령어에 대한 고립단어 인식시스템의 결과이다. 인식기로는 HMM(Hidden Makov Model)의 좌우(left-right) 모델을 사용하였다. 다양한 환경에서의 실험을 위해 3가지 각각 다른 잡음 레벨에서의 음성을 수집하여 실험하였다.
[표 1]
에러률(%)
15∼20db 10∼15db 6∼10db
숫자 명령어 숫자 명령어 숫자 명령어
No Proc. 9.09 8.33 19.32 34.72 31.82 47.22
S-RATZ1 6.82 2.78 11.36 12.5 17.05 18.06
S-RATZ2 7.95 4.17 14.77 23.61 25.00 27.78
B-RATZ1 9.09 12.50 11.36 19.44 15.91 33.33
1. 선 rk,Rk값과 현재의 rk, Rk값을 선형 보간하는 경우
0.4/0.4 4.55 4.17 6.82 13.89 17.04 18.06
0.3/0.3 5.68 1.39 9.09 13.89 17.04 16.67
0.2/0.2 5.68 1.39 10.23 11.11 17.04 16.67
2. 선 rk값은 가우시안 분포를 갖고 변하며, Rk값은 일정한 경우
adapt/0.4 5.68 2.78 11.36 12.50 12.50 16.67
adapt/0.2 6.82 4.17 12.50 12.50 12.50 15.28
adapt/0.0 6.82 4.17 11.36 16.67 11.36 16.67
3. 선 wk,rk,Rk값이 어떤 분포를 갖고 변하는 경우
adpt/adpt 3.41 4.17 7.95 6.95 14.77 12.50
성능향상 50.0% -50.0% 30.0% 44.4% 13.4% 30.8
표 1에서 No Proc.는 잡음처리를 하지 않았을 경우에 해당하며, S-RATZ1과 S-RATZ2는 각각 다른 스테레오 데이터(stereo-data)를 사용하는 경우이며, B-RATZ는 논스테레오 데이터(non-stereo-data)를 사용했을 경우의 인식결과이다. 본 발명에서 제안한 3가지 알고리즘에 대한 실험 결과도 표 1에 각각 표시되어 있다.
방법 1의 경우에는 변화하는 값을 임의로 정하였으며, 0.4/0.4는 rk, Rk값의 적응되는 값을 표시한다. 방법 2의 경우에는 rk값은 수학식 6에 의해 적응적으로 변환되는 값을 사용하며, Rk값은 임의의 상수에 의한 값이다. 방법 3의 경우에는 수학식 7에 의해 rk, Rk값이 변화하는 경우에 해당되며, 이 때의 결과는 S-RATZ1에 비해 표 1과 같이 성능이 향상되었다.
본 발명에 의하면, 고립단어 인식시스템에서 잡음 환경에 적응적으로 변화하여 환경에 최적의 특성을 추출하여 클린음성을 보다 정확하게 추정하여 잡음 특성에 강한 인식 성능을 발휘할 수가 있다. 또한, 실제 환경에도 적용이 가능하여 실용적인 제품에 사용이 가능하다.

Claims (5)

  1. 양자화된 음성신호 켑스트럼에서 잡음신호를 제거한 클린음성신호를 추정하여 인식하는 음성 인식방법에 있어서,
    학습 스테레오 음성신호 켑스트럼을 벡터 양자화한 신호를 학습 제1신호라 하고, 상기 제1신호에서 잡음을 제거한 클린신호를 학습 제2신호라 할 때, 상기 학습 제2신호의 평균과 분산을 구하는 제1단계;
    상기 학습 제1신호의 학습 정정벡터와 학습 정정공분산행렬을 식
    (여기서, K는 합성 가우시안의 갯수이고,는 학습 정정벡터이고,는 학습 정정공분산행렬이고,는 학습 제1신호이고,는 학습 제2신호이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이다.)
    에 의해 구하는 제2단계;
    상기 학습 제1신호의 평균과 분산을 식
    (여기서, k는 합성 가우시안의 갯수이고,는 학습 제1신호의 평균이고,는 학습 제1신호의 분산이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이고,는 학습 정정벡터이고,는 학습 정정공분산행렬이다.)
    에 의해 구하는 제3단계;
    양자화된 테스트 음성신호 켑스트럼을라 할 때, 테스트 정정벡터와 테스트 정정공분산행렬을 식
    (여기서, K는 합성 가우시안의 갯수이고,는 테스트 정정벡터이고,는 테스트 정정공분산행렬이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이고, φ는 이전,를 나타내는 파라메타이다.)에 의하여 구하는 제4단계;
    상기 테스트 정정벡터와 상기 테스트 정정공분산행렬 및 상기 학습 정정벡터와 상기 학습 정정공분산행렬을 이용하여, 적응 정정벡터와 적응 정정공분산행렬 및 적응 가우시안 가중치를 구하는 제5단계;
    상기 적응 정정벡터와 상기 적응 정정공분산행렬을 이용하여 상기 학습 제1신호의 평균과 분산을 갱신하는 제6단계;
    상기 학습 정정벡터와 상기 학습 정정공분산행렬 및 상기 갱신된 학습 제1신호의 평균과 분산을 이용하여, 상기 양자화된 테스트 음성신호 켑스트럼을 테스트 클린음성신호 켑스트럼으로 맵핑하는 제7단계;
    상기 맵핑된 테스트 클린음성신호 켑스트럼을 사용하여 음성인식을 하는 제8단계;
    모든 양자화된 테스트 음성신호 켑스트럼에 대해 상기 제4단계에서 제8단계의 과정을 반복하는 제9단계를 포함함을 특징으로 하는 적응적인 클린음성 추정 음성 인식방법.
  2. 제1항에 있어서, 상기 제5단계의 상기 적응 정정벡터와 상기 적응 정정공분산행렬을 식
    (여기서, K는 합성 가우시안의 갯수이고,는 적응 정정벡터이고,는 적응 정정공분산행렬이고,는 테스트 정정벡터이고,은 테스트 정정공분산행렬이고,는 학습 정정벡터이고,은 학습 정정공분산행렬이고,,은 각각 0보다 크고 1보다 작은 값으로 모든 k에 대하여 상수의 값을 갖는다.)
    에 의해 구함을 특징으로 하는 적응적인 클린음성 추정 음성 인식방법.
  3. 제1항에 있어서, 상기 제5단계의 상기 적응 정정벡터와 상기 적응 정정공분산행렬을 식
    (여기서, K는 합성 가우시안의 갯수이고,는 적응 정정벡터이고,는 적응 정정공분산행렬이고,는 테스트 정정벡터이고,은 테스트 정정공분산행렬이고,는 학습 정정벡터이고,은 학습 정정공분산행렬이고,은 0보다 크고 1보다 작은 값으로 모든 k에 대하여 상수의 값을 갖고,는 학습 정정벡터의 분산이고,는 학습 제2신호의 표준편차이고,는 테스트 음성신호 켑스트럼이다.)
    에 의해 구함을 특징으로 하는 적응적인 클린음성 추정 음성 인식방법.
  4. 제1항에 있어서, 상기 제5단계는
    [수학식 9]
    (여기서, K는 합성 가우시안의 갯수이고,는 학습 제1신호의 평균이고,는 학습 제1신호의 분산이고,는 학습 제1신호이고,는 가우시안의 가중치이고,는 다변량 가우시안 함수이다.)
    을 구하는 단계;
    수학식 9을 이용하여,
    [수학식 10]
    를 구하는 단계;
    수학식 10을 이용하여, 학습 밀도 파라메터
    (여기서,p-1이고,0이고,는 차원 p인 벡터이고,는 p × p 양한정 매트릭스이다.)
    를 구하는 단계;
    수학식 9와 수학식 10을 이용하여 상기 적응 정정벡터와 상기 적응 정정공분산행렬 및 적응 가우시안 가중치를 식
    [수학식 11]
    (여기서, K는 합성 가우시안의 갯수이고,는 적응 정정벡터이고,는 적응 정정공분산행렬이고,는 테스트 정정벡터이고,은 테스트 정정공분산행렬이고,는 학습 제2신호의 분산이고,는 학습신호의 평균이다.)
    에 의하여 구하는 단계를 포함함을 적응적인 클린음성 추정 음성 인식방법.
  5. 제1항에 있어서, 상기 제6단계의 상기 갱신된 학습 제1신호의 평균과 분산을 식
    (여기서, K는 합성 가우시안의 갯수이고,는 갱신된 제1신호의 평균이고,는 갱신된 제1신호의 분산이고,는 갱신된 제1신호의 분산이고,는 학습 제2신호의 평균이고,는 학습 제2신호의 분산이고,는 학습 제2신호의 분산이고,는 적응 정정벡터이고,는 적응 정정공분산행렬이고,,은 각각 0보다 크고 1보다 작은 값으로 모든 k에 대하여 상수의 값을 갖는다.)
    에 의해 구함을 특징으로 하는 적응적인 클린음성 추정 음성 인식방법.
KR1019970005046A 1997-02-19 1997-02-19 적응적인 클린음성 추정 음성 인식방법 KR19980068453A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970005046A KR19980068453A (ko) 1997-02-19 1997-02-19 적응적인 클린음성 추정 음성 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970005046A KR19980068453A (ko) 1997-02-19 1997-02-19 적응적인 클린음성 추정 음성 인식방법

Publications (1)

Publication Number Publication Date
KR19980068453A true KR19980068453A (ko) 1998-10-15

Family

ID=65984301

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970005046A KR19980068453A (ko) 1997-02-19 1997-02-19 적응적인 클린음성 추정 음성 인식방법

Country Status (1)

Country Link
KR (1) KR19980068453A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657912B1 (ko) * 2004-11-18 2006-12-14 삼성전자주식회사 잡음 제거 방법 및 장치
US10553219B2 (en) 2015-09-23 2020-02-04 Samsung Electronics Co., Ltd. Voice recognition apparatus, voice recognition method of user device, and non-transitory computer readable recording medium

Similar Documents

Publication Publication Date Title
CN109841206B (zh) 一种基于深度学习的回声消除方法
EP0886263B1 (en) Environmentally compensated speech processing
US5727124A (en) Method of and apparatus for signal recognition that compensates for mismatching
Anastasakos et al. Speaker adaptive training: A maximum likelihood approach to speaker normalization
Stern et al. Compensation for environmental degradation in automatic speech recognition
US6202047B1 (en) Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
Deligne et al. Audio-visual speech enhancement with AVCDCN (audio-visual codebook dependent cepstral normalization)
KR101802444B1 (ko) 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법
KR19980068453A (ko) 적응적인 클린음성 추정 음성 인식방법
Xu et al. Vector taylor series based joint uncertainty decoding.
HoSuk et al. Cepstrum third-order normalisation method for noisy speech recognition
Jun et al. Using Mel-frequency cepstral coefficients in missing data technique
Hung et al. Improved robustness for speech recognition under noisy conditions using correlated parallel model combination
CN103533193B (zh) 残留回波消除方法及装置
KR100329596B1 (ko) 전화음성을 이용한 문장독립형 화자식별방법
Fujimoto et al. Study of integration of statistical model-based voice activity detection and noise suppression.
Arakawa et al. Model-basedwiener filter for noise robust speech recognition
Afify et al. A unified maximum likelihood approach to acoustic mismatch compensation: Application to noisy lombard speech recognition
Koutras et al. Blind separation of speakers in noisy reverberant environments: A neural network approach
Moreno et al. A unified approach for robust speech recognition.
Erell et al. Recognition of noisy speech: Using minimum-mean log-spectral distance estimation
Kim et al. Feature compensation based on soft decision
KR0170317B1 (ko) 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법
JP3044741B2 (ja) 標準パターン学習方法
Huang et al. A new eigenvoice approach to speaker adaptation

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination