KR101563344B1 - 잡음음향 모델 적응에 기반한 잡음음성 인식방법 - Google Patents

잡음음향 모델 적응에 기반한 잡음음성 인식방법 Download PDF

Info

Publication number
KR101563344B1
KR101563344B1 KR1020140063022A KR20140063022A KR101563344B1 KR 101563344 B1 KR101563344 B1 KR 101563344B1 KR 1020140063022 A KR1020140063022 A KR 1020140063022A KR 20140063022 A KR20140063022 A KR 20140063022A KR 101563344 B1 KR101563344 B1 KR 101563344B1
Authority
KR
South Korea
Prior art keywords
noise
recognition
speech
hmm
parameter
Prior art date
Application number
KR1020140063022A
Other languages
English (en)
Inventor
정용주
Original Assignee
계명대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 계명대학교 산학협력단 filed Critical 계명대학교 산학협력단
Priority to KR1020140063022A priority Critical patent/KR101563344B1/ko
Application granted granted Critical
Publication of KR101563344B1 publication Critical patent/KR101563344B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 것으로, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계; (b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계; (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계; (d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계; (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함한다.

Description

잡음음향 모델 적응에 기반한 잡음음성 인식방법{Noise Robust Speech Recognition Method Based on Noisy Acoustic Model Adaptation}
본 발명은 음성 인식방법에 관한 것으로, 보다 상세하게는 인식성능이 향상된 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 것이다.
잡음환경에서의 음성인식은 많은 기술적인 발전에도 불구하여 여전히 어려운 문제로 남아 있다. HMM(Hidden Markov Model) 파라미터들과 인식잡음음성 간의 불일치를 줄이기 위한 방법은 크게 잡음에 강인한 특징추출, 음질향상 그리고 특징보상 및 모델 파라미터 적응 등으로 나누어진다.
최근에는, 기존의 발명들과는 다른 관점에서 미리 잡음음성을 이용하여 HMM을 훈련하는 방법이 잡음음성인식 성능향상을 위한 유용한 방법으로 간주되어 왔다. MTR (Multi-condition TRaining) 방식에서는 다양한 잡음환경의 잡음음성들을 모아서 HMM을 훈련함으로서 보다 잡음에 강인한 인식모델을 훈련과정 중에 구축할 수 있었다. MMSR(Multi-Model based Speech Recognition) 방식에서는 잡음종류나 신호대잡음비(SNR: Signal to Noise Ratio)에 따라서 각각의 HMM을 훈련과정을 통해서 구성함으로서 인식잡음음성에 최적화한 인식모델을 사용할 수 있게 하였다.
이러한 방법을 통해서 얻어지는 잡음음성 HMM은 깨끗한 음성 HMM에 비하여 인식잡음음성과의 불일치를 줄이는데 크게 기여하며 깨끗한 음성 HMM보다는 인식성능이 우수함이 알려져 있다.
한편, 잡음음성 HMM에 기존의 특징보상방법이나 모델적응 방법을 적용하려는 노력들이 있어 왔다. 이는 잡음음성 HMM이 깨끗한 음성 HMM에 비해서 성능향상에 유리하다는 생각에 기반 하였다. MTR 훈련된 HMM을 가상의 깨끗한 HMM으로 변환되도록 하여 환경의 변화에 보다 잘 적응하도록 함으로서 상당한 인식성능향상을 이룬 경우와, 잡음의 종류에 근거한 MMSE 특징 보상 방법이 MMSR 인식기에 적용되어 좋은 결과를 얻은 경우 등을 예로 들 수 있다.
우리는 기존의 발명에서, 훈련잡음음성과 인식잡음음성간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였다. 이 관계식을 VTS를 이용하여 간소화 한 후, 훈련잡음음성을 인식잡음음성을 이용하여 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다.
이처럼, 종래의 VTS(Vector Taylor Series) 기반의 잡음음성인식을 위한 보상방식에서 HMM(Hidden Markov Model)은 주로 깨끗한 음성을 이용하여 훈련되지만, 잡음음성을 이용하여 HMM을 훈련할 경우 더 나은 인식성능이 기대된다. 또한 상술한 바와 같이, 종래의 발명에서 로그-스펙트럼 영역에서의 훈련잡음음성에 대한 MMSE(Minimum Mean Square Error) 추정을 통하여 향상된 음성인식성능을 얻을 수 있음을 알 수 있었으나 제시되었던 방법은 로그-스펙트럼 영역에서 이루어졌으므로 HMM 적응을 위해서는 사용될 수가 없다는 문제점이 있다.
대한민국 공개번호 제10-2008-0021234호(공개일자: 2008년03월07일)
상술한 문제를 해결하고자 하는 본 발명의 과제는 종래의 알고리듬을 수정을 통해 잡음음성 HMM의 파라미터 적응에 이용될 수 있는 방법을 제안하여 음성 인식성능을 향상시킬 수 있는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제안하고자 함이다.
상술한 과제를 해결하고자 하는 본 발명의 특징은, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계; (b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계; (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계; (d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계; (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함한다.
여기서, 상기 EM 과정은 상기 인식된 잡음음성에 대한 로그 유사도가 수렴할 때까지 반복하는 것이 바람직하고, 상기 (a) 단계에서, 상기 채널잡음의 초기값을 0으로 하고, 상기 부가잡음의 평균과 분산에 대한 초기값은 상기 인식잡음음성 신호의 처음과 끝 부분의 묵음구간을 이용하여 산출하는 것이 바람직하다.
또한, 바람직하게는 상기 잡음 파라미터는 상기 부가잡음의 평균과 상기 채널잡음인 것일 수 있고, 상기 관계식은,
Figure 112014049355915-pat00001
,
Figure 112014049355915-pat00002
(여기서, μy 와 ∑y는 적응된 HMM의 각 혼합성분의 평균과 분산이고, y는 인식잡음음성, n은 부가잡음, h는 채널잡음, yTr 은 훈련잡음음성, nTr 은 훈련잡음음성에 포함된 부가잡음을 나타낸다.)와 같은 식을 나타내는 것일 수 있다.
그리고, 상기 인식결과를 생성하는 단계는 상기 인식잡음음성 신호에 대하여 상기 HMM 파라미터를 이용하여 멀티 패스 디코딩(multi-pass decoding)하는 단계인 것이 바람직하다.
이와 같이, 본 발명은 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하는 것으로, HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로써 인식성능의 향상된 잡음음성 인식방법을 제공한다.
그리고, 인식잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되도록 하고, 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM(Expectation-Maximization) 알고리듬을 통하여 잡음음성 인식방법을 제안함으로써, 기존의 특징보상 방식에 비해서 뛰어난 인식 성능을 갖는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제공한다.
도 1은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 흐름도이고,
도 2는 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 단어오인식 향상율(%)(SBE 스크립트 사용시)을 나타낸 그래프이고,
도 3은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 오인식 향상율(%)(CBE 스크립트 사용시)을 나타낸 그래프이다.
본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.
도면들에 있어서, 본 발명의 실시예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다.
본 명세서에서 "및/또는"이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다.
이하에서 본 발명의 바람직한 실시예를 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 흐름도이다. 도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법은, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계(S100); (b) 켑스트럼(cepstrum) 영역에서 VTS(Vector Taylor Series)를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계(S200); (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계(S300); (d) EM(Expectation-Maximization) 과정을 통하여 잡음 파라미터를 재추정하는 단계(S400); (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계(S500); 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계(S600)를 포함한다.
이와 같이 본 발명의 실시예는, 본 발명에서는 기존의 제시된 알고리듬을 수정하여 켑스트럼 영역에서 훈련잡음음성과 인식잡음음성간의 수학적 관계식을 새로이 도출하고 이를 통해서 MTR(Multi-condition TRaining) 잡음음성 HMM의 평균과 분산값을 적응하는 방법으로, 인식성능을 향상시킬 수 있는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제안한다.
그리고, 본 발명에서는 이와 같은 방법을 분석 평가하기 위해, Aurora 2 데이터베이스를 이용한 잡음음성 인식실험 진행하였고, 이 실험에서 본 발명의 실시예에 따른 인식방법이 MTR 방법에 비해서는 10.6(%)의 상대적 오인식율 감소를 보였는데 이는 기존의 MMSE기반의 훈련잡음음성 추정방식을 통해서 얻어진 4.3(%) 오인식율 감소에 비해서 더 나은 성능이며 이를 통해서 제안된 방식의 우월함을 확인할 수 있었다.
여기서, HMM(Hidden Markov Model)은 음성인식을 위한 기본단위(음소)를 모델링하는 방법입니다. 즉 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.
HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방법으로 현재 음성인식에 많이 사용되고 있다. 따라서 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링 해 이를 이용해 음성인식 시스템을 구성하는 것을 말한다.
VTS 기반의 잡음음성 HMM 모델 적응
본 발명의 실시예에서는 VTS 축약을 통하여 잡음음성 HMM의 평균벡터와 공분산 행렬에 대한 적응식을 유도된다. 깨끗한 음성 HMM을 사용하는 기존의 VTS 방식과는 다르게 MTR 방식에 의해서 훈련된 잡음음성 HMM이 제안된 모델 적응 방식에서 사용된다. 켑스트럼(cepstrum) 영역에서 훈련잡음음성과 인식잡음음성간의 수학적 관계식이 먼저 유도되며, 비선형적인 이 관계식은 VTS에 의하여 축약된다.
또한 부가잡음과 채널잡음이 알려졌다고 가정함으로서 VTS 전개식으로부터 인식잡음음성에 대한 HMM의 평균벡터와 공분산 행렬이 추정된다. 잡음 파라미터에 대한 재추정을 위하여 반복적인 EM(Expectation Maximization) 알고리듬이 적용되며 이러한 반복적인 추정과정을 통해서 충분히 적응된 HMM 파라미터 값들을 이용하여 최종 인식시에 활용한다.
도 1에 나타낸 바와 같이, HMM 파리미터의 적응을 위해, (b) 단계로서(S200), 켑스트럼(cepstrum) 영역에서 VTS(Vector Taylor Series)를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 알고리듬 프로세스를 살펴보면, 켑스트럼 영역에서 깨끗한 음성 x와 부가잡음 n 및 채널잡음 h에 의해서 오염된 인식잡음음성 y간에는 다음과 같은 관계식이 일반적으로 성립한다.
Figure 112014049355915-pat00003
[수학식 1]에서 i는 단위벡터이며 C와 C-1은 각각 DCT(Discrete Cosine Transform) 과 그 역을 나타낸다.
훈련잡음음성에는 채널잡음이 없다고 가정하면 훈련잡음음성 yTr는 아래의 [수학식 2]와 같이 표현된다.
Figure 112014049355915-pat00004
위 [수학식 2]에서 nTr은 훈련잡음음성에 포함된 부가잡음이며 훈련과정 중에 추정된다. [수학식 2]로부터,
Figure 112014049355915-pat00005
[수학식 3]을 [수학식 1]과 [수학식 2]에 삽입하면, 인식잡음음성 y와 훈련잡음음성 yTr 간에는 아래의 [수학식 4]와 같은 관계식이 성립한다.
Figure 112014049355915-pat00006
[수학식 4]는 {n,h,yTr}의 초기값인 {μn,0, h0, μyTr}를 중심으로 하는 1차의 VTS 전개식을 통해서 아래식과 같이 표현된다.
Figure 112014049355915-pat00007
Figure 112014049355915-pat00008
Figure 112014049355915-pat00009
위식에서 μyTr은 훈련잡음음성 HMM의 각 혼합성분의 평균벡터를 의미하며 nTr는 고정된 값으로 간주한다. [·]il는 행렬의 i번째 행과 l번째 열에 있는 원소를 의미한다. [수학식 5]를 이용하면, 적응된 HMM의 각 혼합성분의 평균 μy와 분산 ∑y를 훈련잡음음성과 부가잡음신호 n의 통계정보를 이용하여 아래식과 같이 구할 수 있다. 이때 채널잡음 h는 단순 파라미터로 취급되며 랜덤변수로는 고려되지 않는다.
Figure 112014049355915-pat00010
Figure 112014049355915-pat00011
위식에서 부가잡음신호 n에 대한 공분산 행렬 ∑n은 인식잡음음성의 묵음구간을 이용하여 추정되며 본 발명에서는 알고리듬의 단순화를 위하여 재추정 하지는 않았다.
차분과 차차분 특징벡터에 대한 평균 (μ△,y, μ△△,y)과 공분산(∑△,y, ∑△△,y)은 연속-시간 축약을 이용하여 아래의 [수학식 10]과 같이 구하였다.
Figure 112014049355915-pat00012
(d) 단계로서(S400), EM(Expectation-Maximization) 과정을 통하여 잡음 파라미터를 재추정하는 과정을 살펴보면 다음과 같다.
반복적인 EM(Expectation-Maximization) 과정을 통하여 잡음파라미터 h와 μn에 대한 재추정을 실시하였다. 부가잡음의 평균과 공분산은 인식잡음음성의 묵음구간의 샘플을 이용하여 초기화되었으며 채널잡음 h은 0으로 초기화 되었다.
프레임 전체 길이가 T인 인식잡음음성 Y={y1,y2,...yT}가 주어지면 잡음파라미터 φ={μn,h}는 아래의 보조함수
Figure 112014049355915-pat00013
를 최대화함으로서 재추정된다.
Figure 112014049355915-pat00014
[수학식 11]에서 Ωs와 Ωm은 HMM의 전체 상태의 집합과 각 상태에서의 혼합성분의 집합을 나타낸다. st와 mt는 시간 t에서의 상태와 혼합성분을 각각 의미한다. γtsm은 사후 확률
Figure 112014049355915-pat00015
을 나타내며
Figure 112014049355915-pat00016
는 평균과 분산이 [수학식 8] 및 [수학식 9]에서 구해지는 가우시안 확률밀도함수
Figure 112014049355915-pat00017
가 된다. [수학식 11]의 보조함수를 최대화하기 위해서 [수학식 11]의 φ={μn,h}에 대한 미분을 각각 구하고 그 값을 0으로 두면 아래와 같은 잡음파라미터에 대한 재추정 수식인 [수학식 12] 내지 [수학식 14]가 얻어지는 것을 알 수 있다. 유도과정의 보다 자세한 사항은 생략한다.
Figure 112014049355915-pat00018
Figure 112014049355915-pat00019
Figure 112014049355915-pat00020
상술한 바와 같이, 본 발명의 실시예에 따른 HMM 모델적응 방식은 주어진 MTR 훈련된 HMM에 대해서 HMM 파라미터값의 적응과 잡음 파라미터의 재추정이 반복적인 EM(Expectation-Maximization) 과정에 의해 이루어지며 전체적인 알고리듬의 구성은 아래의 순서로 이루어진다.
1.인식잡음음성을 불러온다.
2.채널잡음의 초기값을 0으로 한다.
3.부가잡음의 평균과 분산에 대한 초기값은 인식잡음음성의 처음과 끝부분의 묵음구간을 이용하여 구한다.(S100)
4.[수학식 8] 내지 [수학식 10]을 이용하여 인식잡음음성에 해당하는 HMM 파라미터 값을 구한다.(S200)
5.적응된 HMM 파라미터값을 이용하여 잡음인식음성에 대한 인식을 수행한다.(S300)
6.[수학식 12] 내지 [수학식 14]를 이용하여 부가잡음의 평균과 채널잡음을 재추정한다.(S400)
7.재추정된 부가잡음의 평균과 채널잡음을 이용하여 [수학식 8] 내지 [수학식 10]을 이용하여 인식잡음음성에 해당하는 HMM 파라미터값을 재추정한다.(S500)
8.상기 7에서 구한 HMM 파라미터 값을 이용하여 주어진 인식잡음음성에 대해서 최종인식실험을 수행한다.(S600)
9.더 많은 인식잡음음성이 있다면 1로 돌아가고 그렇지 않으면 끝낸다.
이와 같이 본 발명의 실시예에 따른 잡음음성 인식방법의 알고리듬 프로세스는 EM(Expectation-Maximization) 과정을 1회만 하는 것으로 가정하였으나 반복적인 EM(Expectation-Maximization) 과정을 수행하고자 한다면 6 과 7을 반복적으로 수행하게 할 수도 있다. 또한 여러 번의 디코딩(multi-pass decoding)과정을 거치고 싶다면 5 와 7 사이를 반복적으로 수행할 수도 있다. 본 발명의 실시예에서는 EM(Expectation-Maximization) 과정은 주어진 잡음인식음성에 대한 로그 유사도가 수렴할 때까지(S550) 반복적으로 수행하였으나 멀티패스 디코딩(multi-pass decoding) 과정은 1회로 한정하였다.
실험결과
본 발명의 실시예에서는 잡음음성인식 실험을 위하여 Aurora 2 데이터베이스를 사용하였다. Aurora 2 데이터베이스는 깨끗한 연속 숫자음 음성신호에 인공적으로 부가잡음을 더해주고 채널왜곡을 인가하여 만들어진 잡음음성으로 구성되어 있으며 국제적으로 공인되어 가장 많이 사용되는 음성데이터 중의 하나이다. 훈련방법으로는 CLEAN과 MTR 두 가지 종류가 있으며 CLEAN 방식은 HMM(Hidden Markov Model)의 훈련을 위하여 깨끗한 음성데이터 만을 이용하며 MTR 방식은 깨끗한 음성과 더불어 여러 가지 종류의 잡음과 다양한 SNR 값으로 구성된 잡음음성을 이용하여 HMM을 훈련하는 방식이다.
인식실험에는 3가지 종류의 음성데이터 Set이 사용된다. Set A는 MTR 훈련시 알려진 잡음신호(Subway, Babble, Car, Exhibition)들로부터 생성된 잡음음성으로 구성되며 Set B는 훈련시 알려지지 않은 잡음신호(Restaurant, Street, Airport, Train-Station)들로부터 생성된 잡음음성신호로 구성되며 마지막으로 Set C는 부가 잡음 외에도 채널 왜곡이 인위적으로 조성된 잡음음성신호들로 구성된 경우이다.
음성특징 추출을 위해서는 음성개선 알고리듬이 적용된 ETSI AFE를 사용하였다. 0차의 cepstral 계수를 포함한 13차의 MFCC(Mel-frequency Cepstral Coefficient) 특징벡터를 추출하고 이들의 차분과 차차분 계수를 추가하여 전체 39차의 특징벡터를 사용하였다.
음향모델들은 Aurora 2 데이터베이스에서 제공된 숫자음에 대한 Complex Back End (CBE) 스크립트와 Simple Back End (SBE) 스크립트를 함께 사용하였다. SBE 스크립트의 경우에는 음향모델을 위해서 각 숫자에 대한 HMM은 3개의 Gaussian 성분을 가지는 16개의 상태들로 이루어지나 묵음에 관한 HMM은 6개의 Gaussian 성분을 가지는 3개의 상태로 구성된다.
또한 1개의 상태를 가지는 짧은 묵음에 관한 HMM도 구성되며 이는 묵음 HMM의 가운데 상태와 동일하다고 간주된다. 반면에 CBE 스크립트의 경우에는 각 상태의 혼합성분의 개수가 숫자음에 대해서는 20개로 증가하고 묵음에 대해서는 36개로 증가하게 된다. 또한 음향모델의 훈련과 인식을 위해서는 HTK(Hidden Markov Toolkit)를 사용하였다.
[표 1]에는 SBE 스크립트를 사용한 경우에 제안된 모델적응 알고리듬의 성능을 기존의 발명결과와 비교 하였다. MTR 훈련방식을 사용하여 잡음음성 HMM을 구성하였으며 Baseline은 깨끗한 음성으로 훈련된 HMM을 사용하는 것을 의미한다.
[표 1]의 결과를 통해서 보면 제안된 모델적응 방식은 기존의 특징보상 방식에 비해서 상당한 인식성능의 향상을 보임을 알 수 있다. 특징보상의 경우에는 Set A의 경우에는 MTR에 비해서도 성능이 오히려 저조하였으나 모델적응을 적용함으로서 Set A에 대해서도 성능이 향상됨을 알 수 있다.
Figure 112014049355915-pat00021
도 2는 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 단어오인식 향상율(%)(SBE 스크립트 사용시)을 나타낸 그래프이다.
도 2에 나타낸 바와 같이, 제안된 본 발명의 실시예에 따른 모델적응방식은 기존의 특징보상방식에 비해서 MTR 방식대비 성능에서 우수한 결과를 나타냄을 알 수 있다. 특히, Set C에서 특징보상방식은 MTR 방식에 비해서 약 5% 정도의 상대적 단어오인식율 향상을 보였으나 모델적응방식은 MTR에 비해서 약 18% 정도의 상대적 단어오인식율 향상을 보여서 제안된 모델적응 방식이 채널잡음의 영향을 줄이는데 크게 기여하는 것으로 나타났다. Set A에서는 특징보상방식이 성능향상을 보이지 못한데 비해서 모델적응방식은 5% 정도의 상대적 단어오인식율 향상을 보임을 알 수 있으며 Set B에서는 특징보상과 모델적응방식의 차이가 가장 크지 않은 것으로 나타난다.
HMM의 모델링 복잡도에 따라서 인식알고리듬의 성능이 변하는 현상은 자주 일어난다. 따라서 본 발명의 실시예에서 제안된 알고리듬의 성능의 강인성을 확인하기 위해서 SBE 스크립트 보다 HMM의 상태의 혼합성분의 수가 훨씬 많이 설정된 CBE 스크립트에 대해서도 제안된 알고리듬의 성능분석을 실시하였다.
[표 2]의 결과를 통해서 제안된 모델적응 방식이 CBE 스크립트를 사용한 경우에도 SBE 스크립트를 사용한 경우와 마찬가지로 기존의 특징보상 방식에 비해서 우수한 성능을 보임을 알 수 있다.
Figure 112014049355915-pat00022
도 3은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 오인식 향상율(%)(CBE 스크립트 사용시)을 나타낸 그래프이다.
도 3에 나타낸 바와 같이, CBE 스크립트를 사용한 경우 제안된 본 발명의 실시예에 다른 모델적응방식과 기존의 특징보상방식이 MTR 방식에 비해서 성취한 상대적 오인식 향상률을 보여준다. 도 2에서 나타난 SBE 경우와 비슷하게 제안된 모델적응 방식은 Set C에서 가장 큰 상대적 오인식율 향상을 보여주며 Set A에 대해서도 MTR 방식에 비해서 더 나은 성능을 보임을 알 수 있다.
반면 Set B에서는 특징보상 방식과 큰 차이가 나지 않는 것을 알 수 있었다. 도 2와 도 3의 결과를 비교해보면 제안된 모델적응방식은 HMM의 복잡성과 관계없이 유사한 성능향상을 보임을 알 수 있으며, 이는 제안된 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법 알고리듬의 강인성을 보여준다.
이와 같이, 본 발명에서는 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하는 것으로, HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로써 인식성능의 향상을 이루었다. 그리고, 인식잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되도록 하였다. 또한 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM 알고리듬을 통하여 일어난다. 제안된 본 발명에 따른 방식은 기존의 특징보상 방식에 비해서 뛰어난 성능을 보임을 Aurora 2 데이터베이스를 이용한 인식실험 결과 확인할 수 있었다.
이상의 설명에서 본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능 하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.

Claims (6)

  1. (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계;
    (b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계;
    (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계;
    (d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계;
    (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및
    (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함하고;
    상기 (b) 단계에서 상기 관계식은,
    Figure 112015057570475-pat00028
    ,
    Figure 112015057570475-pat00029

    여기서, μy 와 ∑y는 적응된 HMM의 각 혼합성분의 평균과 분산이고, y는 인식잡음음성, n은 부가잡음, h는 채널잡음, yTr 은 훈련잡음음성, nTr 은 훈련잡음음성에 포함된 부가잡음을 나타냄,
    와 같은 식을 나타내는 것을 특징으로 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
  2. 제1항에 있어서,
    상기 EM 과정은 상기 인식된 잡음음성에 대한 로그 유사도가 수렴할 때까지 반복하는 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
  3. 제1항 또는 제2항에 있어서,
    상기 (a) 단계에서,
    상기 채널잡음의 초기값을 0으로 하고,
    상기 부가잡음의 평균과 분산에 대한 초기값은 상기 인식잡음음성 신호의 처음과 끝 부분의 묵음구간을 이용하여 산출하는 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
  4. 제3항에 있어서,
    상기 잡음 파라미터는 상기 부가잡음의 평균과 상기 채널잡음인 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
  5. 제1항에 있어서,
    상기 인식결과를 생성하는 단계는 상기 인식잡음음성 신호에 대하여 상기 HMM 파라미터를 이용하여 멀티 패스 디코딩(multi-pass decoding)하는 단계인 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
  6. 삭제
KR1020140063022A 2014-05-26 2014-05-26 잡음음향 모델 적응에 기반한 잡음음성 인식방법 KR101563344B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140063022A KR101563344B1 (ko) 2014-05-26 2014-05-26 잡음음향 모델 적응에 기반한 잡음음성 인식방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140063022A KR101563344B1 (ko) 2014-05-26 2014-05-26 잡음음향 모델 적응에 기반한 잡음음성 인식방법

Publications (1)

Publication Number Publication Date
KR101563344B1 true KR101563344B1 (ko) 2015-10-26

Family

ID=54428297

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140063022A KR101563344B1 (ko) 2014-05-26 2014-05-26 잡음음향 모델 적응에 기반한 잡음음성 인식방법

Country Status (1)

Country Link
KR (1) KR101563344B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
정용주, ‘VTS 기반 잡음음성 특징보상 기법의 성능 비교’, Journal of KIIT. Vol.12, No.4, pp.65~72, 2014.04.30.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN111968620B (zh) * 2019-05-20 2024-05-28 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Kalinli et al. Noise adaptive training for robust automatic speech recognition
JP3457431B2 (ja) 信号識別方法
US6915259B2 (en) Speaker and environment adaptation based on linear separation of variability sources
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Frey et al. Algonquin-learning dynamic noise models from noisy speech for robust speech recognition
JP2012504250A (ja) 音声認識方法
CN110998723A (zh) 使用神经网络的信号处理装置、使用神经网络的信号处理方法以及信号处理程序
Veisi et al. The integration of principal component analysis and cepstral mean subtraction in parallel model combination for robust speech recognition
Motlıcek Feature extraction in speech coding and recognition
KR101563344B1 (ko) 잡음음향 모델 적응에 기반한 잡음음성 인식방법
Seyedin et al. On the distribution of Mel-filtered log-spectrum of speech in additive noise
Seltzer et al. Training wideband acoustic models using mixed-bandwidth training data for speech recognition
Matsui et al. N-best-based unsupervised speaker adaptation for speech recognition
Chung Vector Taylor series based model adaptation using noisy speech trained hidden Markov models
Sim et al. A trajectory-based parallel model combination with a unified static and dynamic parameter compensation for noisy speech recognition
KR101047104B1 (ko) 최대 우도 선형 스펙트럴 변환을 이용한 음향 모델 적응 방법 및 그 장치, 잡음 음성 모델을 이용한 음성 인식 방법및 그 장치
Kim et al. Advanced parallel combined Gaussian mixture model based feature compensation integrated with iterative channel estimation
Techini et al. Robust Front-End Based on MVA and HEQ Post-processing for Arabic Speech Recognition Using Hidden Markov Model Toolkit (HTK)
Das et al. Vector taylor series expansion with auditory masking for noise robust speech recognition
Ephraim et al. A brief survey of speech enhancement 1
KR101005858B1 (ko) 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법
KR101479674B1 (ko) 음향모델을 이용한 vts 기반의 음성인식 방법
Milner et al. Noisy audio speech enhancement using Wiener filters derived from visual speech.
Mandel et al. Analysis-by-synthesis feature estimation for robust automatic speech recognition using spectral masks

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20181022

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20191002

Year of fee payment: 5