KR100694879B1 - 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 - Google Patents

아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 Download PDF

Info

Publication number
KR100694879B1
KR100694879B1 KR1020060116214A KR20060116214A KR100694879B1 KR 100694879 B1 KR100694879 B1 KR 100694879B1 KR 1020060116214 A KR1020060116214 A KR 1020060116214A KR 20060116214 A KR20060116214 A KR 20060116214A KR 100694879 B1 KR100694879 B1 KR 100694879B1
Authority
KR
South Korea
Prior art keywords
noise
vector
compensation
environment
speech
Prior art date
Application number
KR1020060116214A
Other languages
English (en)
Inventor
김형순
송화전
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020060116214A priority Critical patent/KR100694879B1/ko
Application granted granted Critical
Publication of KR100694879B1 publication Critical patent/KR100694879B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성 인식 과정에서의 잡음 보상 방법으로서 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법에 관한 것이다.
본 발명에 따른 잡음 보상 방법은, R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계; 상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계; 상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계; 상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계; 상기 주성분분석법을 통해 발생하는 바이어스 보상을 위한 베이시스 벡터를 구하는 단계; 잡음환경으로부터 특징벡터를 추출하는 단계; 상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및 상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 것을 특징으로 한다.
음성인식, 잡음보상, 아이겐환경, 바이어스 벡터

Description

아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한 잡음 보상 방법 {NOISE COMPENSATION METHOD USING SIMULTANEOUS ESTIMATION OF EIGEN ENVIRONMENT AND BIAS COMPENSATION VECTOR}
도 1은 통상적인 음성인식 시스템의 개략도이다.
도 2는 일반적인 선형필터환경 모델의 개략도이다.
도 3은 종래기술에 따른 아이겐 환경 기반 잡음 보상 방법의 개략도이다.
도 4는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개념도이다.
도 5는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개략도이다.
도 6은 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법과 종래기술에 따른 아이겐 환경 기반 잡음 보상 방법의 성능비교도이다.
본 발명은 음성인식 기술분야에 관한 것이며, 더욱 상세하게는 음성인식 과 정에서 발생하는 임의의 종류의 잡음을 보상하는 방법으로서 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법에 관한 것이다.
음성인식 시스템은 일반적으로 도 1과 같은 구성을 가지고 있다.
먼저, 음성신호단계에서 음성신호가 입력되면, 실음성 검출단계에서 실제 사람이 발성한 음성신호만을 검출한다. 실음성을 검출한 다음에는 특징추출단계에서 음성의 특징 즉, 특징 벡터를 추출한다. 이렇게 특징추출단계에서 얻어진 특징벡터는 기준음성모델과의 비교를 통한 유사도측정단계와 인식결정단계를 거치게 된다.
도 2는 선형 필터 환경에 관한 간단한 모델인데, 음성신호에 대한 잡음 왜곡 과정을 모델링하고 있다.
잡음이 섞이지 않은 원음성 데이터 x[m]이 임펄스 응답 h[m]을 가지는 선형 채널을 거치고, 여기에 부가잡음 n[m]이 더해져서 왜곡된 음성 즉, 잡음음성 y[m]을 생성시킨다.
이렇게 생성된 잡음음성을 보상하기 위한 방법의 하나로 가우시안 믹스쳐 모델(Gaussian Mixture Model, GMM)을 이용할 수 있다.
가우시안 믹스쳐 모델에서는 잡음음성을 (1)식과 같이 M개의 가우시안 믹스쳐로 모델링한다.
Figure 112006085941412-pat00001
(1)
여기서,
Figure 112006085941412-pat00002
,
Figure 112006085941412-pat00003
Figure 112006085941412-pat00004
는 각각 m번째 가우시안 믹스쳐의 사전확률, 평균벡터 및 공분산행렬이며, 각각의 잡음환경은 이와 같은 가우시안 믹스쳐 모델(GMM)로 훈련된다.
만약 xy가 믹스쳐 m에서 조인트 가우시안(joint Gaussian)이라면,
Figure 112006085941412-pat00005
는 다음의 평균을 가지는 가우시안 분포이다.
Figure 112006085941412-pat00006
(2)
믹스쳐 m에서
Figure 112006085941412-pat00007
는 회전행렬이고,
Figure 112006085941412-pat00008
는 보상벡터이다. (2)식은 일종의 비선형 함수인 잡음음성을 M개의 가우시안 믹스쳐를 이용하여 구분적 선형 함수(piecewise linear function)로 근사화함을 의미한다.
잡음음성 y에 대해 최소평균제곱에러(Minimum Mean Square Estimation, MMSE)를 사용하여 원음성 x를 추정하면, 다음과 같이 나타난다.
Figure 112006085941412-pat00009
(3)
식(2)를 식(3)에 대입하고 식(2)에서 회전행렬 C m을 단위행렬로 가정하면 원음성 x는 다음과 같이 추정된다.
Figure 112006085941412-pat00010
(4)
또한, 식(2)에서 보상벡터
Figure 112006085941412-pat00011
는 다음과 같이 간단하게 표현된다.
Figure 112006085941412-pat00012
(5)
따라서, 식(4)에서 보상벡터
Figure 112006085941412-pat00013
와 잡음음성에 대한 각 믹스쳐의 사후확률만 찾는다면 잡음환경에서 원음성의 추정이 가능하다.
가우시안 믹스쳐 모델(GMM) 기반의 보상방법들은 대체로 식(5)에서
Figure 112006085941412-pat00014
를 추정하기 위해 다양한 방법을 이용하는데, 이 방법들은 대체로 온라인 추정과 오프라인으로 추정으로 구분할 수 있다.
통상 오프라인 추정의 경우 보상벡터가 미리 고정되어 있어서 보상벡터의 훈련환경과 다른 인식환경에서는 잡음보상이 곤란한 단점이 있으며, 온라인 추정의 경우 깨끗한 음성만을 사용하여 가우시안 믹스쳐 모델(GMM)을 구성한 후 이를 각각의 잡음에 사용하게 되므로 다양한 잡음에 대해서는 성능이 떨어지는 단점이 있다.
이러한 단점을 보완하기 위해 본 출원인은 온라인과 오프라인 단계들을 결합하여 잡음을 보상하기 위해 "아이겐 환경 기반 잡음 보상 방법"을 제안한 바 있으며, 이는 한국특허출원 제10-2005-0055768호로 출원되었다.
상기 출원된 발명을 도 3을 참조하여 간단히 설명한다.
도 3의 발명은 블록 1 내지 블록 3의 오프라인 단계들과 블록 4 내지 블록 6의 온라인 단계들로 구성되는데, 오프라인 단계에서는 원음성 DB 및 잡음 음성 DB를 이용하여 아이겐 환경을 구성하며, 온라인 단계에서는 구성된 아이겐 환경을 사 용하여 실제 잡음 음성이 인식기로 들어오는 경우 온라인으로 보상벡터를 추정하여 잡음 성분을 보상하게 된다.
블록 1: 환경모델 세트 구성
블록 1에서는, 다양한 잡음 환경 간의 변화를 알려주는 사전분포를 알기 위해 오프라인으로 R개의 잡음 환경 각각에 대해서, 각 잡음 환경마다 M개의 가우시안 믹스쳐를 구하고, 동시에 각각의 믹스쳐별로 원음성 모델과의 차이를 나타내는 바이어스 벡터 즉, 보상벡터를 구성한다.
다시 말해, R개의 잡음 환경에 대한 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구한다. 또한, 잡음이 없는 원음성 DB로부터의 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구한다.
이와 동시에, 각각의 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터를 구한다.
따라서, R개의 잡음음성 모델에 대해 R개의 보상벡터 세트가 만들어지며, 각각의 잡음음성 모델의 M개의 가우시안 믹스쳐에 각각의 보상벡터 세트의 M개의 보상벡터가 대응된다.
블록 2: 바이어스 수퍼벡터 세트 구성
블록 2에서는, M개의 보상벡터들을 연결하여 바이어스 수퍼벡터로 만든다. 이때 수퍼벡터들의 각 차원 간에는 유사한 성분을 나타내도록 구성된다. 수퍼벡터 의 차원 L은 가우시안 믹스쳐 개수(M)에 음성특징 파라미터의 차원을 곱한 값이 된다.
블록 3: 아이겐 환경 구성
다음은 차원축소를 위해서 각각의 차수가 L인 R개의 수퍼벡터에 주성분 분석법(Principal Component Analysis, PCA)을 적용하면 K개(K<R)의 아이겐벡터가 생성된다. 이 때 생성된 아이겐벡터를 아이겐 환경이라고 지칭한다.
L차원의 임의의 벡터 X에 대해서, PCA로부터 생성된 K개의 주성분들이 R개의 분포의 대부분의 변이를 설명할 수 있다면, 다음과 같이 새로운 K개의 아이겐벡터의 가중합으로 X를 표현할 수 있다.
Figure 112006085941412-pat00015
(6)
여기서,
Figure 112006085941412-pat00016
는 R개의 수퍼벡터의 평균벡터이며,
Figure 112006085941412-pat00017
는 k번째 아이겐 환경이며, w(k)는 k번째 아이겐 환경의 가중치이다.
블록 4: 특징벡터 추출
블록 4에서는, 음성인식기의 전처리기로 입력되는 잡음음성으로부터 특징을 표현한 정보인 특징 벡터를 추출한다. 통상 특징벡터로는 멜 프리퀀시 켑스트럴 계수(Mel-scaled Frequency Cepstral Coefficient, MFCC) 또는 선형 예측 켑스트럴 계수(Linear Predictive Cepstral Coefficient, LPCC) 등이 이용된다.
블록 5: 가중치 추정
블록 5에서는, 온라인에서 식(7)과 같은 아이겐 환경들의 가중합으로 보상 벡터
Figure 112006085941412-pat00018
을 추정한다.
Figure 112006085941412-pat00019
(7)
여기서, em(0)와 em(k)는 각각 m번째 가우시안 믹스쳐에 대응하는
Figure 112006085941412-pat00020
Figure 112006085941412-pat00021
의 부벡터(subvector)이며, w(k)는 k번째 아이겐 환경의 가중치이다.
식(7)의 가중치를 구하기 위해서는 기대치 최대화(Expectation Maximization, EM) 알고리즘을 사용한다. 먼저
Figure 112006085941412-pat00022
함수를 다음과 같이 정의한다.
Figure 112006085941412-pat00023
(8)
여기서,
Figure 112006085941412-pat00024
는 시간 t에서의 관측 벡터이다.
Figure 112006085941412-pat00025
(9)
Figure 112006085941412-pat00026
(10)
식(5)와 식(7)의 관계를 이용하여 잡음음성에 대한 평균을 다음과 같이 가정한다.
Figure 112006085941412-pat00027
(11)
식(11)을 식(10)에 대입하여 각각의 가중치에 대해 아래와 같이
Figure 112006085941412-pat00028
함수를 미분하면 K개의 방정식을 얻을 수 있으며, 방정식을 풀면 가중치 w(1),..., w(k)를 얻을 수 있다.
Figure 112006085941412-pat00029
(12)
블록 6: 잡음환경 보상
블록 4의 특징추출단계를 통해 잡음음성에 대한 특징벡터 y가 주어지고, 블록 5에서 특징벡터 y에 대해 최적화된 보상벡터가 주어지게 되므로, 블록 6에서는 잡음음성에 대한 보상이 이루어지게 되며, 이때 추정된 원음성은 (13)식과 같이 나타낼 수 있다.
Figure 112006085941412-pat00030
(13)
여기서,
Figure 112006085941412-pat00031
,
Figure 112006085941412-pat00032
는 각각 추정된 보상벡터와 추정한 k번째 아이겐 환경의 가중치를 뜻한다.
상기한 종래기술의 경우, 입력되는 잡음음성에 따라 추정되는 가중치가 달라지게 되므로 고정된 보상벡터를 사용하는 경우에 비해 세세한 잡음보상이 가능하며, 음성인식 시의 잡음환경이 훈련 시의 환경과 다른 경우에도 미리 구성된 아이겐 환경의 가중합으로 인식환경을 어느 정도 근사적으로 표현할 수 있는 장점이 있다.
그러나, 음성인식 잡음 환경이 훈련 시의 잡음 환경에 비해 상당한 차이를 보이는 경우, 특히 블록 2의 수퍼벡터를 블록 3에서 PCA를 이용하여 아이겐벡터로 차원 축소하는 과정을 통해 얻어진 훈련 환경의 대부분을 포함하고 있는 아이겐벡터로 이루어진 아이겐 공간에 음성 인식의 테스트 환경이 거의 포함되지 않는 경우에는, 상기 종래기술에 따른 근사화 방법으로는 적절한 잡음보상이 이루어질 수 없게 된다.
상기한 종래기술의 문제점은, 훈련 환경으로부터 구성된 아이겐 공간에 비해 실제 음성인식 환경으로부터 구성되는 아이겐 공간이 바이어스되어 있기 때문이다.
따라서, 본 발명에서는 시스템에 입력되는 잡음의 종류에 맞게 보상벡터를 추정하는 아이겐 환경 기반 잡음 보상 방식에 추가하여, 훈련 환경과 상당히 차이가 있는 음성인식 환경에 대해 아이겐 공간의 바이어스를 동시에 보상함으로써, 아이겐 공간에 투영(projection)된 추정 벡터의 오차를 최소화할 수 있는 잡음 보상 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명에서는 훈련 환경과 음성인식 환경의 차이에 따른 종래의 아이겐 환경 기반 잡음 보상 방법의 한계를 극복하고 그 적용 범위를 확대함으로써, 훈련환경과 음성인식 환경의 차이의 정도에 제한되지 않고 일반적으로 적용가능한 잡음 보상 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 방법은,
R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계;
상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계;
상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계;
상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계;
상기 주성분분석법을 통해 발생하는 바이어스 보상을 위한 베이시스 벡터를 구하는 단계;
잡음환경으로부터 특징벡터를 추출하는 단계;
상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및
상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부 도면을 참조하여 본 발명을 상세히 설명하기로 한다.
도 4는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개념도이다.
도 4에서 환경 공간(Environment Space)(100)은 수퍼벡터에 의해 만들어지는 다차원의 환경 공간을 의미하는 것으로서, 도 4에서는 설명 상의 편의를 위해 3차원의 공간으로 도시되어 있다. 여기서 환경 공간(100)은 훈련 환경(Training environment)(200) 즉, 훈련시 사용되는 잡음 환경과 테스트 환경(Test environment)(300) 즉, 실제 음성인식 테스트 시의 잡음 환경을 포함하는 전체 환경 공간의 개념이며, 도 4에서는 편의상 환경 공간(100)의 하부에 훈련 환경(200)이 위치하며 환경 공간(100)의 상부에 테스트 환경(300)이 위치하는 것으로 도시하였다.
아이겐 공간(Eigenspace)(210)는 훈련 환경(3) 즉, 훈련시 사용되는 잡음 환경으로부터 주성분분석법(PCA)에 의해 구성된 아이겐 공간을 말하며, 주성분 분석법(PCA)에 의해 생성된 아이겐 벡터인 아이겐 환경(eigen environment) e(0), e(1), e(2)를 이용하여 표현된다. 여기서, e(0)는 아이겐 벡터의 평균치, e(1)은 첫 번째 주성분에 관련된 첫 번째 아이겐 환경, e(2)는 두 번째 주성분에 관련된 두 번째 아이겐 환경을 나타낸다.
종래기술의 아이겐 환경 기반 잡음 보상 방법의 경우, 실제 잡음 음성(350)의 위치에 관계없이, 잡음 보상된 보상 음성(Compensated speech)(220)은 훈련 환경(200) 내에 형성되는 아이겐 공간(210) 상에 위치하게 된다. 다시 말해, 보상 음성(200)은 실제 잡음 음성(350)이 훈련 환경(200)에 의거하여 구성된 아이겐 공간(210)에 투영된 결과를 나타내는 것으로서, 훈련 환경(200)과 테스트 환경(300)이 도 4에 도시된 바와 같이 상당히 떨어져 있을 경우에는 아이겐 공간(210) 상의 보상 음성(220)의 위치와 실제 잡음 음성(350)의 위치 사이에는 상당한 오차가 존재함을 알 수 있다.
본원 발명에서는 이와 같은 차이를 제거하기 위해, 바이어스 보상(Bias compensation)(250) 과정을 통해 훈련 환경(200)에서 도출된 아이겐 공간(210)을 바이어스 보상된 아이겐 공간(Eigenspace with bias compensation)(310)으로 이동시킨다. 이는 환경 공간(100) 상에서 수퍼벡터의 평균 벡터 e(0)의 위치를 바이어스 벡터를 이용하여 이동(250)시키는 것을 의미한다.
바이어스 보상(250) 이후에, 실제 잡음 음성(350)이 바이어스 보상된 아이겐 공간(310)에 투영되면 바이어스 보상에 따른 보상 음성(Compensated speech with bias compensation)(320)의 위치로 잡음 보상이 이루어지게 되며, 이로 인해 최초 아이겐 공간(210)에서의 보상 음성(220)에 비해 실제 잡음 음성(350)과의 차이가 상당히 감소되었음을 알 수 있다.
도 4에서 i(1), i(2), i(3)는 3차원 바이어스 보상 벡터의 아이겐 벡터인 베이시스 벡터를 나타낸다.
도 5는 본 발명에 따른 아이겐 환경 및 바이어스 벡터 동시 가중치 추정 방식에 기반한 잡음 보상 방법의 개략도이다.
도 5에서, 블록 1의 환경모델 세트 구성 단계, 블록 2의 바이어스 수퍼벡터 세트 구성 단계, 및 블록 4의 특징 추출 단계는 종래기술에서와 동일하게 진행되므로 상세한 설명을 생략한다.
블록 3: 아이겐 환경 구성
주성분 분석법(PCA)을 적용하여 K개의 아이겐 벡터를 도출함으로써 아이겐 환경을 구성하는 한편, 아이겐 환경 구성 과정에서 발생하는 바이어스를 보상하기 위해 바이어스 보상 벡터의 아이겐 벡터인 베이시스 벡터 i(1)... i(D)를 준비한다. 베이시스 벡터 i(1)... i(D)는 실제 훈련환경과 인식환경의 차이를 반영하기 위해 D차원의 음성 특징 파라메터에 대한 단위 벡터(unit vector)의 형태를 가진다. 정확한 수식은 아래 블록 5에서 서술한다.
블록 5: 가중치 추정
본 발명에서 제안한 아이겐 환경 및 바이어스 동시 보상 방식에서는, 식(5)의
Figure 112006085941412-pat00033
를 아래의 식(14)과 같이 아이겐 환경 및 바이어스 보상 벡터들의 가중합으로 추정하도록 하였다.
Figure 112006085941412-pat00034
(14)
여기서, em(0)와 em(k)는 각각 m번째 가우시안 믹스쳐에 대응하는
Figure 112006085941412-pat00035
Figure 112006085941412-pat00036
의 부벡터(subvector)이며, w(k)는 k번째 아이겐 환경의 가중치이다.
또한 i(d) = [
Figure 112006085941412-pat00037
(d-1), ... ,
Figure 112006085941412-pat00038
(d-D)] 인 D-차원 베이시스 벡터(basis vector) 이며,
Figure 112006085941412-pat00039
(.) 는 크로네커 델타 함수(Kronecker delta function)이고, b(d)는 d번째 베이시스 벡터의 가중치이다.
식(14)의 가중치를 구하기 위해서는 기대치 최대화(Expectation Maximization, EM) 알고리즘을 사용한다. 이때 식(8), (9), (10)이 동일하게 이용될 수 있다.
식(5)와 식(14)의 관계를 이용하여 잡음 음성에 대한 평균을 다음과 같이 가정한다.
Figure 112006085941412-pat00040
(15)
식(15)을 식(10)에 대입하여 각각의 가중치에 대해 아래 식(16), (17)과 같이
Figure 112006085941412-pat00041
함수를 미분하면 K+D개의 방정식을 얻을 수 있으며, 방정식을 풀면 가중치 w(1),..., w(k), b(1),...,b(D) 를 얻을 수 있다.
Figure 112006085941412-pat00042
,
Figure 112006085941412-pat00043
(16)
Figure 112006085941412-pat00044
,
Figure 112006085941412-pat00045
(17)
잡음환경 보상(블록 6)
블록 4의 특징추출단계를 통해 잡음음성에 대한 특징벡터 y가 주어지면 블록 5에서 특징벡터 y에 대해 최적화된 보상벡터가 주어지게 되므로, 추정된 원음성은 다음과 같이 나타낼 수 있다.
Figure 112006085941412-pat00046
(18)
여기서,
Figure 112006085941412-pat00047
,
Figure 112006085941412-pat00048
,
Figure 112006085941412-pat00049
는 각각 추정된 보상벡터와 추정한 k번째 아이겐 환경의 가중치 및 d번째 베이시스 벡터의 가중치를 뜻한다.
도 6은 본 발명의 아이겐 환경 및 바이어스 동시 보상 방법(EN & EC)과 기존의 아이겐 환경 방식(EN)의 성능을 비교실험한 결과에 관한 그래프로서, 서로 다른 신호대잡음비(SNR)에 대해 단어 인식의 정확도를 상호비교하였다.
도 6에서는 종래기술(EN)과의 효과상의 차이점을 명확히 표현하기 위해, 각r 방식에서 이용가능한 채널 노이즈 보상을 제거한 상태에서 각 방법 상의 차이점 만을 비교할 수 있도록 도시하였다.
도 6에서는, 본 발명의 아이겐 환경 및 바이어스 동시 보상 방법(EN & EC)이종래기술의 아이겐 환경 보상 방법(EN)에 비해 모든 신호대잡음비(SNR)에서 성능이 향상됨을 알 수 있으며, 특히 신호대잡음비가 낮을 수록 즉, 잡음이 심할수록 본 발명에 따른 방법이 종래기술에 비해 우수한 성능을 보이는 것을 확인할 수 있다. 이는 본 발명의 방법이 종래기술에 비해 잡음환경에 더 강인하다는 것을 의미한다.
본 발명에 따르면, 시스템에 입력되는 잡음의 종류에 맞게 보상벡터를 추정하는 아이겐 환경 기반 잡음 보상 방식에 추가하여, 훈련 환경과 상당히 차이가 있는 음성인식 환경(테스트 환경)에 대해 아이겐 공간의 바이어스를 동시에 보상함으로써, 아이겐 공간에 투영된 추정 벡터의 오차를 최소화할 수 있는 잡음 보상 방법이 제공된다.
또한, 본 발명에서는 훈련 환경과 음성 인식 환경의 차이에 따른 종래의 아이겐 환경 기반 잡음 보상 방법의 한계를 극복하고 그 적용 범위를 확대함으로써, 훈련 환경과 음성 인식 환경의 차이의 정도에 제한되지 않고 일반적으로 적용가능한 잡음 보상 방법이 제공된다.
또한, 본 발명에 따르면 종래의 아이겐 환경 보상 방법에 비해 모든 신호대잡음비에서 성능이 향상되고, 특히 잡음환경에 더 강인한 잡음 보상 방법이 제공된다.

Claims (3)

  1. R개의 잡음환경에 대해 R개의 잡음음성 DB를 구성하고 각 잡음음성 DB에 대해 특징벡터를 추출하여 각기 M개의 가우시안 믹스쳐로 구성되는 R개의 잡음음성 모델을 구하고, 원음성 DB로부터 특징벡터 추출을 통해 M개의 가우시안 믹스쳐로 구성되는 하나의 원음성 모델을 구하는 단계;
    상기 R개의 잡음음성모델 각각에 대해, 상기 잡음음성 모델의 M개의 가우시안 믹스쳐와 원음성 모델의 M개의 가우시안 믹스쳐를 비교하여 그 차이를 나타내는 M개의 보상벡터로 구성되는 보상벡터 세트를 구하는 단계로서, 각기 M개의 가우시안 믹스쳐를 가진 R개의 잡음음성모델마다 M개의 보상벡터를 가진 보상벡터 세트가 나타나도록 구성함으로써, R개의 잡음음성모델에 대응하는 R개의 보상벡터 세트를 구하는 단계;
    상기 R개의 보상벡터 세트마다 M개의 보상벡터를 연결하여 R개의 수퍼벡터를 만드는 단계;
    상기 R개의 수퍼벡터의 차원을 주성분분석법을 통해 축소하여 K(단, K<R)개의 아이겐 벡터를 구하는 단계;
    상기 주성분분석법을 통해 발생하는 잡음환경과 훈련환경 간의 바이어스 보상을 위한 베이시스 벡터를 구하는 단계;
    잡음환경으로부터 특징벡터를 추출하는 단계;
    상기 잡음환경의 특징벡터에 맞추어 보상 벡터를 상기 아이겐 벡터와 상기 베이시스 벡터의 가중합으로 추정하는 단계; 및
    상기 추정된 보상 벡터로부터 원음성을 추정하는 단계를 포함하는 잡음 보상 방법.
  2. 제 1 항에 있어서,
    상기 보상 벡터 추정 단계는, 하기 식
    Figure 112006085941412-pat00050
    ,
    (단, em(0)는 m번째 가우시안 믹스쳐에 대응하는
    Figure 112006085941412-pat00051
    의 부벡터,
    em(k)는 m번째 가우시안 믹스쳐에 대응하는
    Figure 112006085941412-pat00052
    의 부벡터,
    Figure 112006085941412-pat00053
    는 R개의 수퍼벡터의 평균벡터,
    Figure 112006085941412-pat00054
    는 k번째 아이겐벡터,
    w(k)는 k번째 아이겐벡터의 가중치,
    i(d) = [
    Figure 112006085941412-pat00055
    (d-1), ... ,
    Figure 112006085941412-pat00056
    (d-D)],
    Figure 112006085941412-pat00057
    (.) 는 크로네커 델타 함수,
    b(d)는 d번째 베이시스 벡터의 가중치)
    을 통해 보상 벡터
    Figure 112006085941412-pat00058
    을 추정하는 단계인 것을 특징으로 하는 잡음 보상 방법.
  3. 제 2 항에 있어서,
    상기 원음성 추정 단계는, 하기 식
    Figure 112006085941412-pat00059
    (단,
    Figure 112006085941412-pat00060
    ,
    Figure 112006085941412-pat00061
    ,
    Figure 112006085941412-pat00062
    는 각각 추정된 보상벡터와 추정한 k번째 아이겐 환경의 가중치 및 d번째 베이시스 벡터의 가중치)
    을 통해 원음성을 추정하는 단계인 것을 특징으로 하는 잡음 보상 방법.
KR1020060116214A 2006-11-23 2006-11-23 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 KR100694879B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060116214A KR100694879B1 (ko) 2006-11-23 2006-11-23 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060116214A KR100694879B1 (ko) 2006-11-23 2006-11-23 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법

Publications (1)

Publication Number Publication Date
KR100694879B1 true KR100694879B1 (ko) 2007-03-14

Family

ID=38103583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060116214A KR100694879B1 (ko) 2006-11-23 2006-11-23 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법

Country Status (1)

Country Link
KR (1) KR100694879B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
WO2022205249A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 音频特征补偿方法、音频识别方法及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990015044A (ko) * 1997-08-01 1999-03-05 윤종용 벡터 테일러 급수를 이용한 음성 모델 보상 방법
KR19990070784A (ko) * 1998-02-24 1999-09-15 윤종용 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990015044A (ko) * 1997-08-01 1999-03-05 윤종용 벡터 테일러 급수를 이용한 음성 모델 보상 방법
KR19990070784A (ko) * 1998-02-24 1999-09-15 윤종용 음성인식을 위한 온라인 모델 변수 보상 방법 및 그에 따른 음성 인식 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
1019990015044
1019990070784

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
WO2022205249A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 音频特征补偿方法、音频识别方法及相关产品

Similar Documents

Publication Publication Date Title
US20230290357A1 (en) Channel-compensated low-level features for speaker recognition
US5924065A (en) Environmently compensated speech processing
EP0792503B1 (en) Signal conditioned minimum error rate training for continuous speech recognition
US8566093B2 (en) Intersession variability compensation for automatic extraction of information from voice
US6915259B2 (en) Speaker and environment adaptation based on linear separation of variability sources
US6202047B1 (en) Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US20030033143A1 (en) Decreasing noise sensitivity in speech processing under adverse conditions
Kubo et al. Mask-based MVDR beamformer for noisy multisource environments: Introduction of time-varying spatial covariance model
WO1997010587A9 (en) Signal conditioned minimum error rate training for continuous speech recognition
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
Sarkar et al. Stochastic feature compensation methods for speaker verification in noisy environments
KR100694879B1 (ko) 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
Frankle et al. Robust speaker identification under noisy conditions using feature compensation and signal to noise ratio estimation
Lei et al. Mismatch modeling and compensation for robust speaker verification
Lawrence et al. Integrated bias removal techniques for robust speech recognition
KR101647059B1 (ko) 독립 벡터 분석 및 모델 기반 특징 향상을 이용한 강인한 음성 인식 방법
Tsao et al. An ensemble modeling approach to joint characterization of speaker and speaking environments.
Han et al. Switching linear dynamic transducer for stereo data based speech feature mapping
EP1178465A2 (en) Method for noise adaptation in automatic speech recognition using transformed matrices
KR20060136192A (ko) 아이겐 환경에 기반한 잡음 보상 방법
KR20070000222A (ko) 아이겐 환경에 기반한 잡음 보상 방법
KR100435441B1 (ko) 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법
Zhao et al. Recursive estimation of time-varying environments for robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110302

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee