KR101563344B1

KR101563344B1 - 잡음음향 모델 적응에 기반한 잡음음성 인식방법

Info

Publication number: KR101563344B1
Application number: KR1020140063022A
Authority: KR
Inventors: 정용주
Original assignee: 계명대학교 산학협력단
Priority date: 2014-05-26
Filing date: 2014-05-26
Publication date: 2015-10-26

Abstract

본 발명은 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 것으로, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계; (b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계; (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계; (d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계; (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함한다.

Description

잡음음향 모델 적응에 기반한 잡음음성 인식방법{Noise Robust Speech Recognition Method Based on Noisy Acoustic Model Adaptation}

본 발명은 음성 인식방법에 관한 것으로, 보다 상세하게는 인식성능이 향상된 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 것이다.

잡음환경에서의 음성인식은 많은 기술적인 발전에도 불구하여 여전히 어려운 문제로 남아 있다. HMM(Hidden Markov Model) 파라미터들과 인식잡음음성 간의 불일치를 줄이기 위한 방법은 크게 잡음에 강인한 특징추출, 음질향상 그리고 특징보상 및 모델 파라미터 적응 등으로 나누어진다.

최근에는, 기존의 발명들과는 다른 관점에서 미리 잡음음성을 이용하여 HMM을 훈련하는 방법이 잡음음성인식 성능향상을 위한 유용한 방법으로 간주되어 왔다. MTR (Multi-condition TRaining) 방식에서는 다양한 잡음환경의 잡음음성들을 모아서 HMM을 훈련함으로서 보다 잡음에 강인한 인식모델을 훈련과정 중에 구축할 수 있었다. MMSR(Multi-Model based Speech Recognition) 방식에서는 잡음종류나 신호대잡음비(SNR: Signal to Noise Ratio)에 따라서 각각의 HMM을 훈련과정을 통해서 구성함으로서 인식잡음음성에 최적화한 인식모델을 사용할 수 있게 하였다.

이러한 방법을 통해서 얻어지는 잡음음성 HMM은 깨끗한 음성 HMM에 비하여 인식잡음음성과의 불일치를 줄이는데 크게 기여하며 깨끗한 음성 HMM보다는 인식성능이 우수함이 알려져 있다.

한편, 잡음음성 HMM에 기존의 특징보상방법이나 모델적응 방법을 적용하려는 노력들이 있어 왔다. 이는 잡음음성 HMM이 깨끗한 음성 HMM에 비해서 성능향상에 유리하다는 생각에 기반 하였다. MTR 훈련된 HMM을 가상의 깨끗한 HMM으로 변환되도록 하여 환경의 변화에 보다 잘 적응하도록 함으로서 상당한 인식성능향상을 이룬 경우와, 잡음의 종류에 근거한 MMSE 특징 보상 방법이 MMSR 인식기에 적용되어 좋은 결과를 얻은 경우 등을 예로 들 수 있다.

우리는 기존의 발명에서, 훈련잡음음성과 인식잡음음성간의 관계를 로그-스펙트럼(log-spectrum) 영역에서 수학적으로 정립하였다. 이 관계식을 VTS를 이용하여 간소화 한 후, 훈련잡음음성을 인식잡음음성을 이용하여 추정함으로서 MTR 방식에 비하여 향상된 인식성능을 얻을 수 있었다. 그러나 수학적 관계식이 로그-스펙트럼 영역에서만 성립되었으므로, 제안된 방식은 HMM 파라미터의 적응을 위해서는 사용될 수 없는 단점이 있었다.

이처럼, 종래의 VTS(Vector Taylor Series) 기반의 잡음음성인식을 위한 보상방식에서 HMM(Hidden Markov Model)은 주로 깨끗한 음성을 이용하여 훈련되지만, 잡음음성을 이용하여 HMM을 훈련할 경우 더 나은 인식성능이 기대된다. 또한 상술한 바와 같이, 종래의 발명에서 로그-스펙트럼 영역에서의 훈련잡음음성에 대한 MMSE(Minimum Mean Square Error) 추정을 통하여 향상된 음성인식성능을 얻을 수 있음을 알 수 있었으나 제시되었던 방법은 로그-스펙트럼 영역에서 이루어졌으므로 HMM 적응을 위해서는 사용될 수가 없다는 문제점이 있다.

대한민국 공개번호 제10-2008-0021234호(공개일자: 2008년03월07일)

상술한 문제를 해결하고자 하는 본 발명의 과제는 종래의 알고리듬을 수정을 통해 잡음음성 HMM의 파라미터 적응에 이용될 수 있는 방법을 제안하여 음성 인식성능을 향상시킬 수 있는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제안하고자 함이다.

상술한 과제를 해결하고자 하는 본 발명의 특징은, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계; (b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계; (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계; (d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계; (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함한다.

여기서, 상기 EM 과정은 상기 인식된 잡음음성에 대한 로그 유사도가 수렴할 때까지 반복하는 것이 바람직하고, 상기 (a) 단계에서, 상기 채널잡음의 초기값을 0으로 하고, 상기 부가잡음의 평균과 분산에 대한 초기값은 상기 인식잡음음성 신호의 처음과 끝 부분의 묵음구간을 이용하여 산출하는 것이 바람직하다.

또한, 바람직하게는 상기 잡음 파라미터는 상기 부가잡음의 평균과 상기 채널잡음인 것일 수 있고, 상기 관계식은,

,

(여기서, μ_y 와 ∑_y는 적응된 HMM의 각 혼합성분의 평균과 분산이고, y는 인식잡음음성, n은 부가잡음, h는 채널잡음, y_Tr 은 훈련잡음음성, n_Tr 은 훈련잡음음성에 포함된 부가잡음을 나타낸다.)와 같은 식을 나타내는 것일 수 있다.

그리고, 상기 인식결과를 생성하는 단계는 상기 인식잡음음성 신호에 대하여 상기 HMM 파라미터를 이용하여 멀티 패스 디코딩(multi-pass decoding)하는 단계인 것이 바람직하다.

이와 같이, 본 발명은 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하는 것으로, HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로써 인식성능의 향상된 잡음음성 인식방법을 제공한다.

그리고, 인식잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되도록 하고, 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM(Expectation-Maximization) 알고리듬을 통하여 잡음음성 인식방법을 제안함으로써, 기존의 특징보상 방식에 비해서 뛰어난 인식 성능을 갖는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제공한다.

도 1은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 흐름도이고,
도 2는 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 단어오인식 향상율(%)(SBE 스크립트 사용시)을 나타낸 그래프이고,
도 3은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 오인식 향상율(%)(CBE 스크립트 사용시)을 나타낸 그래프이다.

본 발명의 이점 및 특징, 그리고 그것을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 통해 설명될 것이다. 그러나 본 발명은 여기에서 설명되는 실시예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 단지, 본 실시예들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여 제공되는 것이다.

도면들에 있어서, 본 발명의 실시예들은 도시된 특정 형태로 제한되는 것이 아니며 명확성을 기하기 위하여 과장된 것이다. 또한 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소를 나타낸다.

본 명세서에서 "및/또는"이란 표현은 전후에 나열된 구성요소들 중 적어도 하나를 포함하는 의미로 사용된다. 또한, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 또한, 명세서에서 사용되는 "포함한다" 또는 "포함하는"으로 언급된 구성요소, 단계, 동작 및 소자는 하나 이상의 다른 구성요소, 단계, 동작, 소자 및 장치의 존재 또는 추가를 의미한다.

이하에서 본 발명의 바람직한 실시예를 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법에 관한 흐름도이다. 도 1에 나타낸 바와 같이, 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법은, (a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계(S100); (b) 켑스트럼(cepstrum) 영역에서 VTS(Vector Taylor Series)를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계(S200); (c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계(S300); (d) EM(Expectation-Maximization) 과정을 통하여 잡음 파라미터를 재추정하는 단계(S400); (e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계(S500); 및 (f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계(S600)를 포함한다.

이와 같이 본 발명의 실시예는, 본 발명에서는 기존의 제시된 알고리듬을 수정하여 켑스트럼 영역에서 훈련잡음음성과 인식잡음음성간의 수학적 관계식을 새로이 도출하고 이를 통해서 MTR(Multi-condition TRaining) 잡음음성 HMM의 평균과 분산값을 적응하는 방법으로, 인식성능을 향상시킬 수 있는 잡음음향 모델 적응에 기반한 잡음음성 인식방법을 제안한다.

그리고, 본 발명에서는 이와 같은 방법을 분석 평가하기 위해, Aurora 2 데이터베이스를 이용한 잡음음성 인식실험 진행하였고, 이 실험에서 본 발명의 실시예에 따른 인식방법이 MTR 방법에 비해서는 10.6(%)의 상대적 오인식율 감소를 보였는데 이는 기존의 MMSE기반의 훈련잡음음성 추정방식을 통해서 얻어진 4.3(%) 오인식율 감소에 비해서 더 나은 성능이며 이를 통해서 제안된 방식의 우월함을 확인할 수 있었다.

여기서, HMM(Hidden Markov Model)은 음성인식을 위한 기본단위(음소)를 모델링하는 방법입니다. 즉 음성인식 엔진으로 들어오는 음소와 음성인식 엔진내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.

HMM은 관측 불가능한 프로세스를 관측 가능한 다른 프로세스를 통해 추정하는 이중 확률처리 방법으로 현재 음성인식에 많이 사용되고 있다. 따라서 음성인식에서 HMM방식을 이용한다는 것은 음성인식의 최소단위(음소)를 모델링 해 이를 이용해 음성인식 시스템을 구성하는 것을 말한다.

VTS 기반의 잡음음성 HMM 모델 적응

본 발명의 실시예에서는 VTS 축약을 통하여 잡음음성 HMM의 평균벡터와 공분산 행렬에 대한 적응식을 유도된다. 깨끗한 음성 HMM을 사용하는 기존의 VTS 방식과는 다르게 MTR 방식에 의해서 훈련된 잡음음성 HMM이 제안된 모델 적응 방식에서 사용된다. 켑스트럼(cepstrum) 영역에서 훈련잡음음성과 인식잡음음성간의 수학적 관계식이 먼저 유도되며, 비선형적인 이 관계식은 VTS에 의하여 축약된다.

또한 부가잡음과 채널잡음이 알려졌다고 가정함으로서 VTS 전개식으로부터 인식잡음음성에 대한 HMM의 평균벡터와 공분산 행렬이 추정된다. 잡음 파라미터에 대한 재추정을 위하여 반복적인 EM(Expectation Maximization) 알고리듬이 적용되며 이러한 반복적인 추정과정을 통해서 충분히 적응된 HMM 파라미터 값들을 이용하여 최종 인식시에 활용한다.

도 1에 나타낸 바와 같이, HMM 파리미터의 적응을 위해, (b) 단계로서(S200), 켑스트럼(cepstrum) 영역에서 VTS(Vector Taylor Series)를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 알고리듬 프로세스를 살펴보면, 켑스트럼 영역에서 깨끗한 음성 x와 부가잡음 n 및 채널잡음 h에 의해서 오염된 인식잡음음성 y간에는 다음과 같은 관계식이 일반적으로 성립한다.

[수학식 1]에서 i는 단위벡터이며 C와 C^-1은 각각 DCT(Discrete Cosine Transform) 과 그 역을 나타낸다.

훈련잡음음성에는 채널잡음이 없다고 가정하면 훈련잡음음성 y_Tr는 아래의 [수학식 2]와 같이 표현된다.

위 [수학식 2]에서 n_Tr은 훈련잡음음성에 포함된 부가잡음이며 훈련과정 중에 추정된다. [수학식 2]로부터,

[수학식 3]을 [수학식 1]과 [수학식 2]에 삽입하면, 인식잡음음성 y와 훈련잡음음성 y_Tr 간에는 아래의 [수학식 4]와 같은 관계식이 성립한다.

[수학식 4]는 {n,h,y_Tr}의 초기값인 {μ_n,0, h₀, μ_yTr}를 중심으로 하는 1차의 VTS 전개식을 통해서 아래식과 같이 표현된다.

위식에서 μ_yTr은 훈련잡음음성 HMM의 각 혼합성분의 평균벡터를 의미하며 n_Tr는 고정된 값으로 간주한다. [·]_il는 행렬의 i번째 행과 l번째 열에 있는 원소를 의미한다. [수학식 5]를 이용하면, 적응된 HMM의 각 혼합성분의 평균 μ_y와 분산 ∑_y를 훈련잡음음성과 부가잡음신호 n의 통계정보를 이용하여 아래식과 같이 구할 수 있다. 이때 채널잡음 h는 단순 파라미터로 취급되며 랜덤변수로는 고려되지 않는다.

위식에서 부가잡음신호 n에 대한 공분산 행렬 ∑_n은 인식잡음음성의 묵음구간을 이용하여 추정되며 본 발명에서는 알고리듬의 단순화를 위하여 재추정 하지는 않았다.

차분과 차차분 특징벡터에 대한 평균 (μ_△,y, μ_△△,y)과 공분산(∑_△,y, ∑_△△,y)은 연속-시간 축약을 이용하여 아래의 [수학식 10]과 같이 구하였다.

(d) 단계로서(S400), EM(Expectation-Maximization) 과정을 통하여 잡음 파라미터를 재추정하는 과정을 살펴보면 다음과 같다.

반복적인 EM(Expectation-Maximization) 과정을 통하여 잡음파라미터 h와 μ_n에 대한 재추정을 실시하였다. 부가잡음의 평균과 공분산은 인식잡음음성의 묵음구간의 샘플을 이용하여 초기화되었으며 채널잡음 h은 0으로 초기화 되었다.

프레임 전체 길이가 T인 인식잡음음성 Y={y₁,y₂,...y_T}가 주어지면 잡음파라미터 φ={μ_n,h}는 아래의 보조함수

를 최대화함으로서 재추정된다.

[수학식 11]에서 Ω_s와 Ω_m은 HMM의 전체 상태의 집합과 각 상태에서의 혼합성분의 집합을 나타낸다. s_t와 m_t는 시간 t에서의 상태와 혼합성분을 각각 의미한다. γ_tsm은 사후 확률

을 나타내며

는 평균과 분산이 [수학식 8] 및 [수학식 9]에서 구해지는 가우시안 확률밀도함수

가 된다. [수학식 11]의 보조함수를 최대화하기 위해서 [수학식 11]의 φ={μ_n,h}에 대한 미분을 각각 구하고 그 값을 0으로 두면 아래와 같은 잡음파라미터에 대한 재추정 수식인 [수학식 12] 내지 [수학식 14]가 얻어지는 것을 알 수 있다. 유도과정의 보다 자세한 사항은 생략한다.

상술한 바와 같이, 본 발명의 실시예에 따른 HMM 모델적응 방식은 주어진 MTR 훈련된 HMM에 대해서 HMM 파라미터값의 적응과 잡음 파라미터의 재추정이 반복적인 EM(Expectation-Maximization) 과정에 의해 이루어지며 전체적인 알고리듬의 구성은 아래의 순서로 이루어진다.

1.인식잡음음성을 불러온다.

2.채널잡음의 초기값을 0으로 한다.

3.부가잡음의 평균과 분산에 대한 초기값은 인식잡음음성의 처음과 끝부분의 묵음구간을 이용하여 구한다.(S100)

4.[수학식 8] 내지 [수학식 10]을 이용하여 인식잡음음성에 해당하는 HMM 파라미터 값을 구한다.(S200)

5.적응된 HMM 파라미터값을 이용하여 잡음인식음성에 대한 인식을 수행한다.(S300)

6.[수학식 12] 내지 [수학식 14]를 이용하여 부가잡음의 평균과 채널잡음을 재추정한다.(S400)

7.재추정된 부가잡음의 평균과 채널잡음을 이용하여 [수학식 8] 내지 [수학식 10]을 이용하여 인식잡음음성에 해당하는 HMM 파라미터값을 재추정한다.(S500)

8.상기 7에서 구한 HMM 파라미터 값을 이용하여 주어진 인식잡음음성에 대해서 최종인식실험을 수행한다.(S600)

9.더 많은 인식잡음음성이 있다면 1로 돌아가고 그렇지 않으면 끝낸다.

이와 같이 본 발명의 실시예에 따른 잡음음성 인식방법의 알고리듬 프로세스는 EM(Expectation-Maximization) 과정을 1회만 하는 것으로 가정하였으나 반복적인 EM(Expectation-Maximization) 과정을 수행하고자 한다면 6 과 7을 반복적으로 수행하게 할 수도 있다. 또한 여러 번의 디코딩(multi-pass decoding)과정을 거치고 싶다면 5 와 7 사이를 반복적으로 수행할 수도 있다. 본 발명의 실시예에서는 EM(Expectation-Maximization) 과정은 주어진 잡음인식음성에 대한 로그 유사도가 수렴할 때까지(S550) 반복적으로 수행하였으나 멀티패스 디코딩(multi-pass decoding) 과정은 1회로 한정하였다.

실험결과

본 발명의 실시예에서는 잡음음성인식 실험을 위하여 Aurora 2 데이터베이스를 사용하였다. Aurora 2 데이터베이스는 깨끗한 연속 숫자음 음성신호에 인공적으로 부가잡음을 더해주고 채널왜곡을 인가하여 만들어진 잡음음성으로 구성되어 있으며 국제적으로 공인되어 가장 많이 사용되는 음성데이터 중의 하나이다. 훈련방법으로는 CLEAN과 MTR 두 가지 종류가 있으며 CLEAN 방식은 HMM(Hidden Markov Model)의 훈련을 위하여 깨끗한 음성데이터 만을 이용하며 MTR 방식은 깨끗한 음성과 더불어 여러 가지 종류의 잡음과 다양한 SNR 값으로 구성된 잡음음성을 이용하여 HMM을 훈련하는 방식이다.

인식실험에는 3가지 종류의 음성데이터 Set이 사용된다. Set A는 MTR 훈련시 알려진 잡음신호(Subway, Babble, Car, Exhibition)들로부터 생성된 잡음음성으로 구성되며 Set B는 훈련시 알려지지 않은 잡음신호(Restaurant, Street, Airport, Train-Station)들로부터 생성된 잡음음성신호로 구성되며 마지막으로 Set C는 부가 잡음 외에도 채널 왜곡이 인위적으로 조성된 잡음음성신호들로 구성된 경우이다.

음성특징 추출을 위해서는 음성개선 알고리듬이 적용된 ETSI AFE를 사용하였다. 0차의 cepstral 계수를 포함한 13차의 MFCC(Mel-frequency Cepstral Coefficient) 특징벡터를 추출하고 이들의 차분과 차차분 계수를 추가하여 전체 39차의 특징벡터를 사용하였다.

음향모델들은 Aurora 2 데이터베이스에서 제공된 숫자음에 대한 Complex Back End (CBE) 스크립트와 Simple Back End (SBE) 스크립트를 함께 사용하였다. SBE 스크립트의 경우에는 음향모델을 위해서 각 숫자에 대한 HMM은 3개의 Gaussian 성분을 가지는 16개의 상태들로 이루어지나 묵음에 관한 HMM은 6개의 Gaussian 성분을 가지는 3개의 상태로 구성된다.

또한 1개의 상태를 가지는 짧은 묵음에 관한 HMM도 구성되며 이는 묵음 HMM의 가운데 상태와 동일하다고 간주된다. 반면에 CBE 스크립트의 경우에는 각 상태의 혼합성분의 개수가 숫자음에 대해서는 20개로 증가하고 묵음에 대해서는 36개로 증가하게 된다. 또한 음향모델의 훈련과 인식을 위해서는 HTK(Hidden Markov Toolkit)를 사용하였다.

[표 1]에는 SBE 스크립트를 사용한 경우에 제안된 모델적응 알고리듬의 성능을 기존의 발명결과와 비교 하였다. MTR 훈련방식을 사용하여 잡음음성 HMM을 구성하였으며 Baseline은 깨끗한 음성으로 훈련된 HMM을 사용하는 것을 의미한다.

[표 1]의 결과를 통해서 보면 제안된 모델적응 방식은 기존의 특징보상 방식에 비해서 상당한 인식성능의 향상을 보임을 알 수 있다. 특징보상의 경우에는 Set A의 경우에는 MTR에 비해서도 성능이 오히려 저조하였으나 모델적응을 적용함으로서 Set A에 대해서도 성능이 향상됨을 알 수 있다.

도 2는 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 단어오인식 향상율(%)(SBE 스크립트 사용시)을 나타낸 그래프이다.

도 2에 나타낸 바와 같이, 제안된 본 발명의 실시예에 따른 모델적응방식은 기존의 특징보상방식에 비해서 MTR 방식대비 성능에서 우수한 결과를 나타냄을 알 수 있다. 특히, Set C에서 특징보상방식은 MTR 방식에 비해서 약 5% 정도의 상대적 단어오인식율 향상을 보였으나 모델적응방식은 MTR에 비해서 약 18% 정도의 상대적 단어오인식율 향상을 보여서 제안된 모델적응 방식이 채널잡음의 영향을 줄이는데 크게 기여하는 것으로 나타났다. Set A에서는 특징보상방식이 성능향상을 보이지 못한데 비해서 모델적응방식은 5% 정도의 상대적 단어오인식율 향상을 보임을 알 수 있으며 Set B에서는 특징보상과 모델적응방식의 차이가 가장 크지 않은 것으로 나타난다.

HMM의 모델링 복잡도에 따라서 인식알고리듬의 성능이 변하는 현상은 자주 일어난다. 따라서 본 발명의 실시예에서 제안된 알고리듬의 성능의 강인성을 확인하기 위해서 SBE 스크립트 보다 HMM의 상태의 혼합성분의 수가 훨씬 많이 설정된 CBE 스크립트에 대해서도 제안된 알고리듬의 성능분석을 실시하였다.

[표 2]의 결과를 통해서 제안된 모델적응 방식이 CBE 스크립트를 사용한 경우에도 SBE 스크립트를 사용한 경우와 마찬가지로 기존의 특징보상 방식에 비해서 우수한 성능을 보임을 알 수 있다.

도 3은 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법과 기존의 특징보상방식의 MTR 방식 대비 상대적 오인식 향상율(%)(CBE 스크립트 사용시)을 나타낸 그래프이다.

도 3에 나타낸 바와 같이, CBE 스크립트를 사용한 경우 제안된 본 발명의 실시예에 다른 모델적응방식과 기존의 특징보상방식이 MTR 방식에 비해서 성취한 상대적 오인식 향상률을 보여준다. 도 2에서 나타난 SBE 경우와 비슷하게 제안된 모델적응 방식은 Set C에서 가장 큰 상대적 오인식율 향상을 보여주며 Set A에 대해서도 MTR 방식에 비해서 더 나은 성능을 보임을 알 수 있다.

반면 Set B에서는 특징보상 방식과 큰 차이가 나지 않는 것을 알 수 있었다. 도 2와 도 3의 결과를 비교해보면 제안된 모델적응방식은 HMM의 복잡성과 관계없이 유사한 성능향상을 보임을 알 수 있으며, 이는 제안된 본 발명의 실시예에 따른 잡음음향 모델 적응에 기반한 잡음음성 인식방법 알고리듬의 강인성을 보여준다.

이와 같이, 본 발명에서는 강인한 잡음음성인식을 위한 HMM 파라미터 적응방식을 제안하는 것으로, HMM이 깨끗한 음성에 의해서 훈련되는 기존의 적응방식에 비해서 제안된 방식은 잡음음성 HMM의 파라미터를 적응시킴으로써 인식성능의 향상을 이루었다. 그리고, 인식잡음음성과 훈련잡음음성간의 새로운 관계식이 켑스트럼 영역에서 도출되었으며, VTS 기반의 축약을 이용하여 MTR 방식에 의해서 훈련된 HMM의 파라미터들이 적응되도록 하였다. 또한 잡음과 채널잡음의 파라미터들에 대한 재추정이 반복적인 EM 알고리듬을 통하여 일어난다. 제안된 본 발명에 따른 방식은 기존의 특징보상 방식에 비해서 뛰어난 성능을 보임을 Aurora 2 데이터베이스를 이용한 인식실험 결과 확인할 수 있었다.

이상의 설명에서 본 발명은 특정의 실시 예와 관련하여 도시 및 설명하였지만, 특허청구범위에 의해 나타난 발명의 사상 및 영역으로부터 벗어나지 않는 한도 내에서 다양한 개조 및 변화가 가능 하다는 것을 당 업계에서 통상의 지식을 가진 자라면 누구나 쉽게 알 수 있을 것이다.

Claims

(a) 인식잡음음성 신호를 추출하고, 채널잡음 및 부가잡음의 초기값을 설정하는 단계;
(b) 켑스트럼 영역에서 VTS를 이용하여 산출된 인식잡음음성 및 훈련잡음음성의 관계식을 이용하여 상기 인식잡음음성 신호에 대한 HMM 파라미터 값을 추정하는 단계;
(c) 상기 추정된 HMM 파라미터 값을 이용하여 인식잡음음성에 대한 인식결과를 생성하는 단계;
(d) EM 과정을 통하여 잡음 파라미터를 재추정하는 단계;
(e) 재추정된 상기 잡음 파라미터를 이용하여 상기 (b) 단계를 반복하는 단계; 및
(f) 상기 (e) 단계에서 추정된 상기 HMM 파라미터를 이용하여 상기 인식잡음음성 신호에 대한 최종 인식결과를 생성하는 단계를 포함하고;
상기 (b) 단계에서 상기 관계식은,

,

여기서, μ_y 와 ∑_y는 적응된 HMM의 각 혼합성분의 평균과 분산이고, y는 인식잡음음성, n은 부가잡음, h는 채널잡음, y_Tr 은 훈련잡음음성, n_Tr 은 훈련잡음음성에 포함된 부가잡음을 나타냄,
와 같은 식을 나타내는 것을 특징으로 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
제1항에 있어서,
상기 EM 과정은 상기 인식된 잡음음성에 대한 로그 유사도가 수렴할 때까지 반복하는 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
제1항 또는 제2항에 있어서,
상기 (a) 단계에서,
상기 채널잡음의 초기값을 0으로 하고,
상기 부가잡음의 평균과 분산에 대한 초기값은 상기 인식잡음음성 신호의 처음과 끝 부분의 묵음구간을 이용하여 산출하는 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
제3항에 있어서,
상기 잡음 파라미터는 상기 부가잡음의 평균과 상기 채널잡음인 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
제1항에 있어서,
상기 인식결과를 생성하는 단계는 상기 인식잡음음성 신호에 대하여 상기 HMM 파라미터를 이용하여 멀티 패스 디코딩(multi-pass decoding)하는 단계인 것을 특징으로 하는 잡음음향 모델 적응에 기반한 잡음음성 인식방법.
삭제