KR100694879B1 - 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 - Google Patents
아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 Download PDFInfo
- Publication number
- KR100694879B1 KR100694879B1 KR1020060116214A KR20060116214A KR100694879B1 KR 100694879 B1 KR100694879 B1 KR 100694879B1 KR 1020060116214 A KR1020060116214 A KR 1020060116214A KR 20060116214 A KR20060116214 A KR 20060116214A KR 100694879 B1 KR100694879 B1 KR 100694879B1
- Authority
- KR
- South Korea
- Prior art keywords
- noise
- vector
- compensation
- environment
- speech
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 114
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000000203 mixture Substances 0.000 claims abstract description 33
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 206010013952 Dysphonia Diseases 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 음성 인식 과정에서의 잡음 보상 방법으로서 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법에 관한 것이다.
본 발명에 따른 잡음 보상 방법은, R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계; 상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계; 상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계; 상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계; 상기 주성분분석법을 통해 발생하는 바이어스 보상을 위한 베이시스 벡터를 구하는 단계; 잡음환경으로부터 특징벡터를 추출하는 단계; 상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및 상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 것을 특징으로 한다.
음성인식, 잡음보상, 아이겐환경, 바이어스 벡터
Description
도 1은 통상적인 음성인식 시스템의 개략도이다.
도 2는 일반적인 선형필터환경 모델의 개략도이다.
도 3은 종래기술에 따른 아이겐 환경 기반 잡음 보상 방법의 개략도이다.
도 4는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개념도이다.
도 5는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개략도이다.
도 6은 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법과 종래기술에 따른 아이겐 환경 기반 잡음 보상 방법의 성능비교도이다.
본 발명은 음성인식 기술분야에 관한 것이며, 더욱 상세하게는 음성인식 과 정에서 발생하는 임의의 종류의 잡음을 보상하는 방법으로서 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법에 관한 것이다.
음성인식 시스템은 일반적으로 도 1과 같은 구성을 가지고 있다.
먼저, 음성신호단계에서 음성신호가 입력되면, 실음성 검출단계에서 실제 사람이 발성한 음성신호만을 검출한다. 실음성을 검출한 다음에는 특징추출단계에서 음성의 특징 즉, 특징 벡터를 추출한다. 이렇게 특징추출단계에서 얻어진 특징벡터는 기준음성모델과의 비교를 통한 유사도측정단계와 인식결정단계를 거치게 된다.
도 2는 선형 필터 환경에 관한 간단한 모델인데, 음성신호에 대한 잡음 왜곡 과정을 모델링하고 있다.
잡음이 섞이지 않은 원음성 데이터 x[m]이 임펄스 응답 h[m]을 가지는 선형 채널을 거치고, 여기에 부가잡음 n[m]이 더해져서 왜곡된 음성 즉, 잡음음성 y[m]을 생성시킨다.
이렇게 생성된 잡음음성을 보상하기 위한 방법의 하나로 가우시안 믹스쳐 모델(Gaussian Mixture Model, GMM)을 이용할 수 있다.
가우시안 믹스쳐 모델에서는 잡음음성을 (1)식과 같이 M개의 가우시안 믹스쳐로 모델링한다.
믹스쳐 m에서 는 회전행렬이고, 는 보상벡터이다. (2)식은 일종의 비선형 함수인 잡음음성을 M개의 가우시안 믹스쳐를 이용하여 구분적 선형 함수(piecewise linear function)로 근사화함을 의미한다.
잡음음성 y에 대해 최소평균제곱에러(Minimum Mean Square Estimation, MMSE)를 사용하여 원음성 x를 추정하면, 다음과 같이 나타난다.
식(2)를 식(3)에 대입하고 식(2)에서 회전행렬 C m을 단위행렬로 가정하면 원음성 x는 다음과 같이 추정된다.
가우시안 믹스쳐 모델(GMM) 기반의 보상방법들은 대체로 식(5)에서 를 추정하기 위해 다양한 방법을 이용하는데, 이 방법들은 대체로 온라인 추정과 오프라인으로 추정으로 구분할 수 있다.
통상 오프라인 추정의 경우 보상벡터가 미리 고정되어 있어서 보상벡터의 훈련환경과 다른 인식환경에서는 잡음보상이 곤란한 단점이 있으며, 온라인 추정의 경우 깨끗한 음성만을 사용하여 가우시안 믹스쳐 모델(GMM)을 구성한 후 이를 각각의 잡음에 사용하게 되므로 다양한 잡음에 대해서는 성능이 떨어지는 단점이 있다.
이러한 단점을 보완하기 위해 본 출원인은 온라인과 오프라인 단계들을 결합하여 잡음을 보상하기 위해 "아이겐 환경 기반 잡음 보상 방법"을 제안한 바 있으며, 이는 한국특허출원 제10-2005-0055768호로 출원되었다.
상기 출원된 발명을 도 3을 참조하여 간단히 설명한다.
도 3의 발명은 블록 1 내지 블록 3의 오프라인 단계들과 블록 4 내지 블록 6의 온라인 단계들로 구성되는데, 오프라인 단계에서는 원음성 DB 및 잡음 음성 DB를 이용하여 아이겐 환경을 구성하며, 온라인 단계에서는 구성된 아이겐 환경을 사 용하여 실제 잡음 음성이 인식기로 들어오는 경우 온라인으로 보상벡터를 추정하여 잡음 성분을 보상하게 된다.
블록 1: 환경모델 세트 구성
블록 1에서는, 다양한 잡음 환경 간의 변화를 알려주는 사전분포를 알기 위해 오프라인으로 R개의 잡음 환경 각각에 대해서, 각 잡음 환경마다 M개의 가우시안 믹스쳐를 구하고, 동시에 각각의 믹스쳐별로 원음성 모델과의 차이를 나타내는 바이어스 벡터 즉, 보상벡터를 구성한다.
다시 말해, R개의 잡음 환경에 대한 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구한다. 또한, 잡음이 없는 원음성 DB로부터의 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구한다.
이와 동시에, 각각의 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터를 구한다.
따라서, R개의 잡음음성 모델에 대해 R개의 보상벡터 세트가 만들어지며, 각각의 잡음음성 모델의 M개의 가우시안 믹스쳐에 각각의 보상벡터 세트의 M개의 보상벡터가 대응된다.
블록 2: 바이어스 수퍼벡터 세트 구성
블록 2에서는, M개의 보상벡터들을 연결하여 바이어스 수퍼벡터로 만든다. 이때 수퍼벡터들의 각 차원 간에는 유사한 성분을 나타내도록 구성된다. 수퍼벡터 의 차원 L은 가우시안 믹스쳐 개수(M)에 음성특징 파라미터의 차원을 곱한 값이 된다.
블록 3: 아이겐 환경 구성
다음은 차원축소를 위해서 각각의 차수가 L인 R개의 수퍼벡터에 주성분 분석법(Principal Component Analysis, PCA)을 적용하면 K개(K<R)의 아이겐벡터가 생성된다. 이 때 생성된 아이겐벡터를 아이겐 환경이라고 지칭한다.
L차원의 임의의 벡터 X에 대해서, PCA로부터 생성된 K개의 주성분들이 R개의 분포의 대부분의 변이를 설명할 수 있다면, 다음과 같이 새로운 K개의 아이겐벡터의 가중합으로 X를 표현할 수 있다.
블록 4: 특징벡터 추출
블록 4에서는, 음성인식기의 전처리기로 입력되는 잡음음성으로부터 특징을 표현한 정보인 특징 벡터를 추출한다. 통상 특징벡터로는 멜 프리퀀시 켑스트럴 계수(Mel-scaled Frequency Cepstral Coefficient, MFCC) 또는 선형 예측 켑스트럴 계수(Linear Predictive Cepstral Coefficient, LPCC) 등이 이용된다.
블록 5: 가중치 추정
식(5)와 식(7)의 관계를 이용하여 잡음음성에 대한 평균을 다음과 같이 가정한다.
식(11)을 식(10)에 대입하여 각각의 가중치에 대해 아래와 같이 함수를 미분하면 K개의 방정식을 얻을 수 있으며, 방정식을 풀면 가중치 w(1),..., w(k)를 얻을 수 있다.
블록 6: 잡음환경 보상
블록 4의 특징추출단계를 통해 잡음음성에 대한 특징벡터 y가 주어지고, 블록 5에서 특징벡터 y에 대해 최적화된 보상벡터가 주어지게 되므로, 블록 6에서는 잡음음성에 대한 보상이 이루어지게 되며, 이때 추정된 원음성은 (13)식과 같이 나타낼 수 있다.
상기한 종래기술의 경우, 입력되는 잡음음성에 따라 추정되는 가중치가 달라지게 되므로 고정된 보상벡터를 사용하는 경우에 비해 세세한 잡음보상이 가능하며, 음성인식 시의 잡음환경이 훈련 시의 환경과 다른 경우에도 미리 구성된 아이겐 환경의 가중합으로 인식환경을 어느 정도 근사적으로 표현할 수 있는 장점이 있다.
그러나, 음성인식 잡음 환경이 훈련 시의 잡음 환경에 비해 상당한 차이를 보이는 경우, 특히 블록 2의 수퍼벡터를 블록 3에서 PCA를 이용하여 아이겐벡터로 차원 축소하는 과정을 통해 얻어진 훈련 환경의 대부분을 포함하고 있는 아이겐벡터로 이루어진 아이겐 공간에 음성 인식의 테스트 환경이 거의 포함되지 않는 경우에는, 상기 종래기술에 따른 근사화 방법으로는 적절한 잡음보상이 이루어질 수 없게 된다.
상기한 종래기술의 문제점은, 훈련 환경으로부터 구성된 아이겐 공간에 비해 실제 음성인식 환경으로부터 구성되는 아이겐 공간이 바이어스되어 있기 때문이다.
따라서, 본 발명에서는 시스템에 입력되는 잡음의 종류에 맞게 보상벡터를 추정하는 아이겐 환경 기반 잡음 보상 방식에 추가하여, 훈련 환경과 상당히 차이가 있는 음성인식 환경에 대해 아이겐 공간의 바이어스를 동시에 보상함으로써, 아이겐 공간에 투영(projection)된 추정 벡터의 오차를 최소화할 수 있는 잡음 보상 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명에서는 훈련 환경과 음성인식 환경의 차이에 따른 종래의 아이겐 환경 기반 잡음 보상 방법의 한계를 극복하고 그 적용 범위를 확대함으로써, 훈련환경과 음성인식 환경의 차이의 정도에 제한되지 않고 일반적으로 적용가능한 잡음 보상 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 방법은,
R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계;
상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계;
상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계;
상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계;
상기 주성분분석법을 통해 발생하는 바이어스 보상을 위한 베이시스 벡터를 구하는 단계;
잡음환경으로부터 특징벡터를 추출하는 단계;
상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및
상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 4는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개념도이다.
도 4에서 환경 공간(Environment Space)(100)은 수퍼벡터에 의해 만들어지는 다차원의 환경 공간을 의미하는 것으로서, 도 4에서는 설명 상의 편의를 위해 3차원의 공간으로 도시되어 있다. 여기서 환경 공간(100)은 훈련 환경(Training environment)(200) 즉, 훈련시 사용되는 잡음 환경과 테스트 환경(Test environment)(300) 즉, 실제 음성인식 테스트 시의 잡음 환경을 포함하는 전체 환경 공간의 개념이며, 도 4에서는 편의상 환경 공간(100)의 하부에 훈련 환경(200)이 위치하며 환경 공간(100)의 상부에 테스트 환경(300)이 위치하는 것으로 도시하였다.
아이겐 공간(Eigenspace)(210)는 훈련 환경(3) 즉, 훈련시 사용되는 잡음 환경으로부터 주성분분석법(PCA)에 의해 구성된 아이겐 공간을 말하며, 주성분 분석법(PCA)에 의해 생성된 아이겐 벡터인 아이겐 환경(eigen environment) e(0), e(1), e(2)를 이용하여 표현된다. 여기서, e(0)는 아이겐 벡터의 평균치, e(1)은 첫 번째 주성분에 관련된 첫 번째 아이겐 환경, e(2)는 두 번째 주성분에 관련된 두 번째 아이겐 환경을 나타낸다.
종래기술의 아이겐 환경 기반 잡음 보상 방법의 경우, 실제 잡음 음성(350)의 위치에 관계없이, 잡음 보상된 보상 음성(Compensated speech)(220)은 훈련 환경(200) 내에 형성되는 아이겐 공간(210) 상에 위치하게 된다. 다시 말해, 보상 음성(200)은 실제 잡음 음성(350)이 훈련 환경(200)에 의거하여 구성된 아이겐 공간(210)에 투영된 결과를 나타내는 것으로서, 훈련 환경(200)과 테스트 환경(300)이 도 4에 도시된 바와 같이 상당히 떨어져 있을 경우에는 아이겐 공간(210) 상의 보상 음성(220)의 위치와 실제 잡음 음성(350)의 위치 사이에는 상당한 오차가 존재함을 알 수 있다.
본원 발명에서는 이와 같은 차이를 제거하기 위해, 바이어스 보상(Bias compensation)(250) 과정을 통해 훈련 환경(200)에서 도출된 아이겐 공간(210)을 바이어스 보상된 아이겐 공간(Eigenspace with bias compensation)(310)으로 이동시킨다. 이는 환경 공간(100) 상에서 수퍼벡터의 평균 벡터 e(0)의 위치를 바이어스 벡터를 이용하여 이동(250)시키는 것을 의미한다.
바이어스 보상(250) 이후에, 실제 잡음 음성(350)이 바이어스 보상된 아이겐 공간(310)에 투영되면 바이어스 보상에 따른 보상 음성(Compensated speech with bias compensation)(320)의 위치로 잡음 보상이 이루어지게 되며, 이로 인해 최초 아이겐 공간(210)에서의 보상 음성(220)에 비해 실제 잡음 음성(350)과의 차이가 상당히 감소되었음을 알 수 있다.
도 4에서 i(1), i(2), i(3)는 3차원 바이어스 보상 벡터의 아이겐 벡터인 베이시스 벡터를 나타낸다.
도 5는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개략도이다.
도 5에서, 블록 1의 환경모델 세트 구성 단계, 블록 2의 바이어스 수퍼벡터 세트 구성 단계, 및 블록 4의 특징 추출 단계는 종래기술에서와 동일하게 진행되므로 상세한 설명을 생략한다.
블록 3: 아이겐 환경 구성
주성분 분석법(PCA)을 적용하여 K개의 아이겐 벡터를 도출함으로써 아이겐 환경을 구성하는 한편, 아이겐 환경 구성 과정에서 발생하는 바이어스를 보상하기 위해 바이어스 보상 벡터의 아이겐 벡터인 베이시스 벡터 i(1)... i(D)를 준비한다. 베이시스 벡터 i(1)... i(D)는 실제 훈련환경과 인식환경의 차이를 반영하기 위해 D차원의 음성 특징 파라메터에 대한 단위 벡터(unit vector)의 형태를 가진다. 정확한 수식은 아래 블록 5에서 서술한다.
블록 5: 가중치 추정
또한 i(d) = [(d-1), ... , (d-D)] 인 D-차원 베이시스 벡터(basis vector) 이며, (.) 는 크로네커 델타 함수(Kronecker delta function)이고, b(d)는 d번째 베이시스 벡터의 가중치이다.
식(14)의 가중치를 구하기 위해서는 기대치 최대화(Expectation Maximization, EM) 알고리즘을 사용한다. 이때 식(8), (9), (10)이 동일하게 이용될 수 있다.
식(5)와 식(14)의 관계를 이용하여 잡음 음성에 대한 평균을 다음과 같이 가정한다.
식(15)을 식(10)에 대입하여 각각의 가중치에 대해 아래 식(16), (17)과 같이 함수를 미분하면 K+D개의 방정식을 얻을 수 있으며, 방정식을 풀면 가중치 w(1),..., w(k), b(1),...,b(D) 를 얻을 수 있다.
잡음환경 보상(블록 6)
블록 4의 특징추출단계를 통해 잡음음성에 대한 특징벡터 y가 주어지면 블록 5에서 특징벡터 y에 대해 최적화된 보상벡터가 주어지게 되므로, 추정된 원음성은 다음과 같이 나타낼 수 있다.
도 6은 본 발명의 아이겐 환경 및 바이어스 동시 보상 방법(EN & EC)과 기존의 아이겐 환경 방식(EN)의 성능을 비교실험한 결과에 관한 그래프로서, 서로 다른 신호대잡음비(SNR)에 대해 단어 인식의 정확도를 상호비교하였다.
도 6에서는 종래기술(EN)과의 효과상의 차이점을 명확히 표현하기 위해, 각r 방식에서 이용가능한 채널 노이즈 보상을 제거한 상태에서 각 방법 상의 차이점 만을 비교할 수 있도록 도시하였다.
도 6에서는, 본 발명의 아이겐 환경 및 바이어스 동시 보상 방법(EN & EC)이종래기술의 아이겐 환경 보상 방법(EN)에 비해 모든 신호대잡음비(SNR)에서 성능이 향상됨을 알 수 있으며, 특히 신호대잡음비가 낮을 수록 즉, 잡음이 심할수록 본 발명에 따른 방법이 종래기술에 비해 우수한 성능을 보이는 것을 확인할 수 있다. 이는 본 발명의 방법이 종래기술에 비해 잡음환경에 더 강인하다는 것을 의미한다.
본 발명에 따르면, 시스템에 입력되는 잡음의 종류에 맞게 보상벡터를 추정하는 아이겐 환경 기반 잡음 보상 방식에 추가하여, 훈련 환경과 상당히 차이가 있는 음성인식 환경(테스트 환경)에 대해 아이겐 공간의 바이어스를 동시에 보상함으로써, 아이겐 공간에 투영된 추정 벡터의 오차를 최소화할 수 있는 잡음 보상 방법이 제공된다.
또한, 본 발명에서는 훈련 환경과 음성 인식 환경의 차이에 따른 종래의 아이겐 환경 기반 잡음 보상 방법의 한계를 극복하고 그 적용 범위를 확대함으로써, 훈련 환경과 음성 인식 환경의 차이의 정도에 제한되지 않고 일반적으로 적용가능한 잡음 보상 방법이 제공된다.
또한, 본 발명에 따르면 종래의 아이겐 환경 보상 방법에 비해 모든 신호대잡음비에서 성능이 향상되고, 특히 잡음환경에 더 강인한 잡음 보상 방법이 제공된다.
Claims (3)
- R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계;상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계로서, 각기 M개의 가우시안 믹스쳐를 가진 R개의 잡음음성모델마다 M개의 보상벡터를 가진 보상벡터 세트가 나타나도록 구성함으로써, R개의 잡음음성모델에 대응하는 R개의 보상벡터 세트를 구하는 단계;상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계;상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계;상기 주성분분석법을 통해 발생하는 잡음환경과 훈련환경 간의 바이어스 보상을 위한 베이시스 벡터를 구하는 단계;잡음환경으로부터 특징벡터를 추출하는 단계;상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 잡음 보상 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060116214A KR100694879B1 (ko) | 2006-11-23 | 2006-11-23 | 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060116214A KR100694879B1 (ko) | 2006-11-23 | 2006-11-23 | 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100694879B1 true KR100694879B1 (ko) | 2007-03-14 |
Family
ID=38103583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060116214A KR100694879B1 (ko) | 2006-11-23 | 2006-11-23 | 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100694879B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
WO2022205249A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 音频特征补偿方法、音频识别方法及相关产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990015044A (ko) * | 1997-08-01 | 1999-03-05 | 윤종용 | 벡터 테일러 급수를 이용한 음성 모델 보상 방법 |
KR19990070784A (ko) * | 1998-02-24 | 1999-09-15 | 윤종용 | 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법 |
-
2006
- 2006-11-23 KR KR1020060116214A patent/KR100694879B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19990015044A (ko) * | 1997-08-01 | 1999-03-05 | 윤종용 | 벡터 테일러 급수를 이용한 음성 모델 보상 방법 |
KR19990070784A (ko) * | 1998-02-24 | 1999-09-15 | 윤종용 | 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법 |
Non-Patent Citations (2)
Title |
---|
1019990015044 |
1019990070784 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN102426837B (zh) * | 2011-12-30 | 2013-10-16 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
WO2022205249A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 音频特征补偿方法、音频识别方法及相关产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230290357A1 (en) | Channel-compensated low-level features for speaker recognition | |
US5924065A (en) | Environmently compensated speech processing | |
EP0792503B1 (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
US8566093B2 (en) | Intersession variability compensation for automatic extraction of information from voice | |
US6915259B2 (en) | Speaker and environment adaptation based on linear separation of variability sources | |
US6202047B1 (en) | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients | |
US20030033143A1 (en) | Decreasing noise sensitivity in speech processing under adverse conditions | |
Kubo et al. | Mask-based MVDR beamformer for noisy multisource environments: Introduction of time-varying spatial covariance model | |
WO1997010587A9 (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
Sarkar et al. | Stochastic feature compensation methods for speaker verification in noisy environments | |
KR100694879B1 (ko) | 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 | |
Shinozaki et al. | Hidden mode HMM using bayesian network for modeling speaking rate fluctuation | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
Frankle et al. | Robust speaker identification under noisy conditions using feature compensation and signal to noise ratio estimation | |
Lei et al. | Mismatch modeling and compensation for robust speaker verification | |
Lawrence et al. | Integrated bias removal techniques for robust speech recognition | |
KR101647059B1 (ko) | 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법 | |
Tsao et al. | An ensemble modeling approach to joint characterization of speaker and speaking environments. | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
EP1178465A2 (en) | Method for noise adaptation in automatic speech recognition using transformed matrices | |
KR20060136192A (ko) | 아이겐 환경에 기반한 잡음 보상 방법 | |
KR20070000222A (ko) | 아이겐 환경에 기반한 잡음 보상 방법 | |
KR100435441B1 (ko) | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 | |
Zhao et al. | Recursive estimation of time-varying environments for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20110302 Year of fee payment: 5 |
|
LAPS | Lapse due to unpaid annual fee |