KR101647058B1

KR101647058B1 - 강인음성인식을 위한 손실특징 복원방법 및 장치

Info

Publication number: KR101647058B1
Application number: KR1020150037383A
Authority: KR
Inventors: 박형민; 조지원
Original assignee: 서강대학교산학협력단
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-08-10

Abstract

본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.

Description

강인음성인식을 위한 손실특징 복원방법 및 장치{Missing Feature Reconstruction Based on HMM of Feature Vectors for Robust Speech Recognition}

본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치에 관한 것이다.

잡음이 현존하는 실제 환경에서 일반적인 음성 인식 시스템은 인식 모델이 학습되는 학습 데이터와의 실제 환경 차이에 의해 그 성능이 크게 떨어진다. 이러한 불일치는 학습 단계에서 고려하지 못한 음향 잡음에 기인한다. 이러한 문제를 해소하기 위해 제안된 손실특징 복원 방법은 잡음이 섞인 입력 음성 데이터와 학습 음성 데이터 사이의 불일치를 보완하여 강인한 음성 인식을 수행할 수 있게 한다. 특히 손실특징 복원기술 중 클러스터 기반 복원(cluster-based reconstruction ; CBR) 방법은 인식기를 변형하지 않으면서도 켑스트럼 특징을 사용할 수 있어서 더 나은 인식 성능을 제공할 수 있었다.

상기 CBR 방법은 서로가 독립적이고 동일한 분포(I.I.D.)를 가지는 가우시안 믹스쳐 랜덤 프로세스의 출력인 학습 음성 데이터의 스펙트럼 벡터를 추정하여 동일한 스펙트럼 벡터에서의 신뢰성분으로부터 비신뢰성분을 복원한다.

상기 스펙트럼 벡터의 확률분포함수(probability density function;pdf)는 수학식 1과 같다.

상기 수학식 1에서 x는 깨끗한 훈련 음성 데이터의 스펙트럼 벡터이고, d는 벡터의 차원수이고,

는 스펙트럼 벡터의 확률분포함수이고,

은

번째 가우시안 성분의 선험적 확률이고,

는

번째 가우시안 성분의 평균벡터이고,

는

번째 가우시안 성분의 공분산 행렬이다. 이러한 분포 파라미터들은 expectation maximization(EM) 알고리즘을 이용해 충분한 양의 깨끗한 음성 데이터로 학습된다.

여기서, y를 환경적인 불일치에 기인하여 x가 왜곡된 입력 스펙트럼 벡터라고 할 때,

과

는 각각 y의 신뢰성분과 비신뢰성분이라고 한다. 마찬가지로

,

를 각각 x의 신뢰성분과 비신뢰성분이라고 한다. 여기서

은

와 근사적으로 같다고 할 수 있고,

는

를 상한으로 갖는 사후 확률 최대화(bounded maximum a posteriori: BMAP)를 통해 수학식 2와 같이 추정할 수 있다.

상기 수학식 2에서,

는 추정된 비신뢰 성분(벡터) 값이고,

는 가우시안 인덱스의 사후확률 값이고,

신뢰 성분(벡터)과 가우시안 인덱스가 주어지고 비신뢰 성분(벡터) 값이 관찰 성분(벡터)보다 작을 때, 비 신뢰 성분(벡터)의 확률 분포이다.

상기 y와

를 위한

번째 가우시안 성분의 분산은 베이지안 법칙에 의해 수학식 3 및 수학식 4와 같이 기술된다.

상기 수학식 3에서 m은 l번째 가우시안의 사후확률을 구하기 위해 오른쪽 항의 분자를 정규화하기 위해 사용한 더미(dummy) 변수이다.

상기한 CBR 방법은 I.I.D. 랜덤 프로세스를 추정하므로, 비신뢰성분은 동일한 스펙트럼 벡터에서의 신뢰성분들로부터 복원된다. 그러므로 비신뢰성분의 추정된 값은 스펙트럼 벡터에서의 작은 수의 성분만이 신뢰성분이라면 그들의 원래 값에 충분하게 근접하지 않을 수 있다.

특히 수학식 3에서, 입력 스펙트럼 벡터 y에 대한

번째 가우시안 분산

은,

,

에 의존한다. 그리고 선험적 확률

은 y에 무관하게 고정되고, 현재 입력 벡터 y는 확률분포함수

를 통해

로 결정된다.

한편 음성은 고유의 시간적 의존성을 가짐에 따라 음성 인식을 위해 널리 사용되는 음향 모델은 은닉 마크코프 모델(hidden Markov models ; HMMs)이다. 특히 특징 복원을 위해, 각 주파수 밴드에서의 음성의 시간 및 주파수 의존성이 HMM에 의해 설명된다(B.J. Borgstrㄸom and A. Alwan, ""HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition,"" IEEE Trans. Audio, Speech, and Language Processing, vol.18, no.6, pp.1612??-1623, 2010.).

그리고 프레임에서 음성의 스펙트럼 의존성은 비신뢰성분의 MMSE(a minimum mean-square error) 추정기는 밴드에서 성분들의 시간적 시리즈를 기술하는 하나의 HMM과 동일시간에서 하나의 프레임에서 성분의 스펙트럼 시리즈를 모델링하는 다른 하나의 HMM을 유도하여 획득할 수 있다.

그러나 상기한 종래 방식은 다른 밴드들과 프레임에서 두 성분 사이의 의존성을 고려하지 않고, 비신뢰성분의 MMSE 추정도 비신뢰성분에 근접하는 신뢰성분을 벗어나는 성분에 대해서는 고려하지 않으므로, 비신뢰성분에 대한 정확한 추정이 어려웠다.

여기서, 상기 HMM에 기반한 비신뢰성분에 대한 복원기술에 대해 좀 더 설명한다.

k번째 주파수 밴드에서, 중심값들인

에 대한 양자화는 유클리드 거리에 의한 k-평균 알고리즘과 같은 클러스터링 기술에 의해 설계되며, 이는 수학식 5에 따른다.

상기 수학식 5에서,

는 양자화기를 나타내고,

는 n번째 프레임

에서 스펙트럼 벡터의 k번째 성분에 대응되는 k번째 밴드와 n번째 프레임에서의 클린 음성에 대한 시간 및 주파수 표현이고, m은 모든 양자화의 인덱스이고,

은 수식 5의 agrmin을 만족하는 양자화 인덱스이다.

상기 양자화기에 따라, 첫 번째와 마지막 프레임인

과

에서의 신뢰성분을 가지는 관찰 벡터

의 k번째 성분들에 대응되는 관찰 시리즈

가 주어진

의 MMSE 추정기는 수학식 4 및 수학식 6에 의해 표현된다.

상기 수학식 6에서,

는 관찰 데이터

을 조건으로 하는

의 경우에 대응되는

번째 상태의 분산을 나타내며, 이는 수학식 7에 따른다.

상기 수학식 7에서,

로 표기된 포워드 변수는 과거와 현재 관찰 성분을 조건으로 하는

번째 상태의 분산을 나타내고,

로 표기된 백워드 변수는 미래 관찰 성분을 조건으로 하는 분산을 나타내며, 이는 수학식 8 및 수학식 9에 따른다.

상기 신뢰 성분을 가지는 처음과 마지막 프레임에서의 포워드 및 백워드 변수는 수학식 10 및 수학식 11에 따른다.

k번째 밴드에서

의 시간적 의존성을 사용하는 대신, 수학식 6의 MMSE 추정기에서

를 첫 번째와 마지막 밴드

,

에서의 신뢰성분을 가지는 n번째 프레임

에서 관찰 스펙트럼 벡터의 성분 시리즈라는 조건으로

번째 상태의 분산을 표현하는

로 교체하면, 수학식 12와 같다.

포워드 및 백워드 변수

,

와 유사한

,

는 프레임에서 밴드내 관찰 성분들의 다른 부분 집합을 조건으로

번째 상태의 분산을 나타내며, 이는 수학식 13 및 14에 따른다.

그리고 신뢰성분을 가지는 첫 번째와 마지막 밴드에서는 수학식 15 및 수학식 16과 같이 기술될 수 있다.

그리고 동일한 시간에서 음성의 시간 및 스펙트럼 의존성을 이용하는

의 MMSE 추정기는 수학식 6에서

를

로 교체하는 것으로 획득되며, 이는 수학식 17과 같다.

한국특허공개 제1020150026634호 한국특허공개 제1020130068869호 미국특허등록 제08577678호 유럽특허공개 제01327976호

본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치를 제공하는 것을 그 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.

본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킬 수 있는 효과를 야기한다.

도 1은 본 발명의 바람직한 실시예에 따른 음성인식기의 구성도.
도 2는 AURORA 2 훈련 데이터에 의해 훈련된 어고딕 HMM의 상태천이확률로 구성된 매트릭스를 예시한 도면.
도 3의 (a)는 클린 LMFECs, 도 3의 (b)는 이진 마스크, 도 3의 (c)는 CBR 방식에 따라 재구성된 LMFECs, (d) 본 발명에 따라 재구성된 LMFECs를 예시한 도면.
도 4는 본 발명과 종래 기술에 따른 음성인식결과를 예시한 도면.

본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성 특성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킨다.

이러한 본 발명의 바람직한 실시예에 따른 음성인식기의 구성을 도 1을 참조하면 설명한다.

상기 음성 인식기는 이진 마스크(100)와 비신뢰성분 복원부(102)와 음성인식기(104)로 구성된다. 상기 이진 마스크(100)는 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력한다.

상기 비신뢰성분 복원부(102)는 상기 비신뢰성분을 입력받아 그 비신뢰성분이 관찰 데이터의 비신뢰성분의 값보다 작고, 관찰 시퀀스에 포함되는 모든 프레임에 신뢰성분의 값을 제공받으며, 현재 프레임의 상태 인덱스에 대한 정보를 토대로, 선험적으로 학습한 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하여 출력한다.

상기 음성인식기(104)는 상기 관찰 데이터의 신뢰성분과 복원된 비신뢰성분을 제공받아 음성 인식을 이행한다.

이러한 본 발명의 비신뢰성분 복원 과정을 좀더 상세히 설명한다.

본 발명에서는 스펙트럼 벡터의 시퀀스에 대한 HMM을 채용한다. 또한 간소한 유도를 위해, 상태별 싱글 가우시안 관찰 분포를 이용한 어고딕(ergodic) HMM을 채용하며, 이는 수학식 18과 같다.

상기 수학식 18에서

과

각각은 프레임

에서의 스펙트럼 벡터와 히든 상태 인덱스를 나타내고,

번째 상태의 초기 또는 정상상태확률

을 포함하는 HMM 파라미터들,

번째 상태에서

번째 상태로의 천이 확률

, 평균벡터

, 훈련데이터로부터 추정된

번째 상태에 따르는 관찰 pdf의 공분산 행렬

이다.

HMM에 따르는 수학식 2에 따르는 BMAP(Bounded Maximum a Posterior) 추정기를 사용하면, 관찰 스펙트럼 벡터의 시퀀스

는 수학식 19와 같이 변형된다.

상기 수학식 19에서, N은 관찰 시퀀스의 프레임들의 수이고, n은 프레임 식별번호이고, 프레임 식별번호 n에 대한 상태 인덱스가 주어지므로

=

이다.

그리고 상기 수학식 19에서

은 n번째 프레임의 추정된 비신뢰 성분 값 이고,

은 n번　프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,

은 n번째 프레임의 비신뢰 성분(벡터)이고,

은 1~N 프레임의 비신뢰 성분이고,

은 1~N 프레임의 신뢰 성분이고,

는 n번째 프레임의 상태 인덱스이고,

는 1~N 프레임 비신뢰 관찰 신호 성분이다. 그리고,

는 n프레임의 신뢰 성분이고,

는 n프레임의 관찰 신호의 비 신뢰 성분이다. 여기서 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스를 일컫는다.

이러한 수학식 19는 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고(

), 모든 프레임에 신뢰성분의 값이 주어지고(

), 현재 프레임의 상태 인덱스가 정해졌다면(

), 모든 상태의 사후 확률을 곱한 후 더해서 최대화하는 과정을 거쳐 최종적인 비신뢰성분의 값을 추정하는 것을 의미한다.

그리고

는

에 대한 프레임 n에서의

번째 상태의 분산으로, 베이지안 법칙에 의해 수학식 20에 따른다.

상기 수학식 20에서

는 현재 프레임의 상태 인덱스이고,

는 1~N 프레임의 신뢰 성분이고,

는 1~N 프레임의 비신뢰 성분이고,

는 1~N 프레임 비신뢰 관찰 신호 성분이고,

은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,

은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,

는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,

는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이다.

그리고 과거 및 현재 관찰성분 및 미래 관찰성분을 위한

번째 상태의 분산을 결정하는 포워드 및 백워드 변수는 수학식 21 및 수학식 22에 따라 산출된다.

상기 수학식 21 및 수학식 22에서,

는 n번 째 프레임의 신뢰 성분(벡터)이고,

는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,

는 1~n 프레임의 신뢰 성분이고,

는 1~n 프레임의 비신뢰 성분이고,

1~n 프레임의 비신뢰 관찰신호 성분이고,

는 n-1 프레임(이전 프레임)의 상태 인덱스이고,

는 n 프레임(현재 프레임)의 상태 인덱스이고,

는 상태 인덱스이고,

는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,

는 n번째 프레임의 비신뢰 성분(벡터)이고,

는 n번째 프레임의 비신뢰 관찰신호 성분이고,

는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,

는 n+1~N 프레임의 신뢰 성분이고,

는 n+1~N 프레임의 비신뢰 성분이고,

는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,

는 n_+1 프레임의 상태 인덱스이고,

(m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,

는 n+1 프레임의 신뢰성분이고,

는 n+1 프레임의 비신뢰성분이고,

는 n+1 프레임의 비신뢰 관찰신호 성분이고,

는 n+1 프레임의 상태 인덱스이다.

이러한 수학식 21 및 22는 상태 천이 확률을 이용해 신뢰 성분이 있는 프레임의 앞 뒤 최종점부터 순차적으로 각 가우시안의 사전 공헌도를 계산하기 위한 식이다.

그리고 이 포워드 및 백워드 변수는 수학식 23에 의해 초기화된다.

상기 수학식 23에서

는 0번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수의 초기값이고,

는 N번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수의 초기값이며, 이 두 초기값은 l번째 가우시안 인덱스의 사후 확률값인

이다.

상기한 바와 같은 본 발명에 의한 효과를 평가하기 위해 AURORA2 데이터베이스와 HMM Toolkit을 이용하여 인식 실험을 하였다.

복원은 로그 멜-주파수 에너지 특징 영역에서 수행하였다. 25ms 길이의 해밍 윈도우를 사용하여 매 10ms마다 고속 푸리에 변환을 하고 출력 계수 크기에 제곱을하여 삼각 멜 필터 뱅크를 적용하여 멜 주파수 에너지 특징을 추출한 후 로그 연산을 한다. 복원된 로그 멜-주파수 에너지 특징은 이산 코사인 변환을 통해 13자 켑스트럼 특징으로 변환한다. 변환된 특징의 속도, 가속도를 계산하여 39차원 최종 특징 벡턱를 추출한다. 깨끗한 음성으로 추출된 39차원 특징 벡터들을 이용하여 인식 성능을 평가할 음향 모델을 학습한다.

디지트에 대한 좌에서 우로의 HMM의 음향 모델 각각은 16상태로 조합되며, 상태마다 세 개의 가우시안이 믹스쳐된 것으로, 상태당 6개의 가우시안 믹스쳐와 3 개의 상태로 이루어진 발언의 전과 후의 묵음(silences)에 대한 모델, 단어 사이에 묵음모델의 중간 상태에 연결된 단일 상태로 이루어진 중지(pauses)에 대한 모델, 본 발명을 위해 제안된 128 상태의 어고딕 HMM과 HMM을 위한 128 성분을 가지는 GMM모델을 사용하는 깨끗한 8,440개의 발언인 부가적으로 훈련하기 위한 음향 모델을 가진다.

도 2은 어고딕 HMM의 상태천이확률을 구성한 매트릭스를 표시한 것이다. 특히, 어느 한 상태에서 같은 상태로의 상태 천이 확률은 일반적으로 다른 경우보다 크며, 이는 음성의 근원적인 시간적 의존성을 나타낸다.

테스트 발언은 지하철, 웅성거림, 차, 전시장 노이즈를 변형한 네가지 환경 조건으로부터 선택된다.

깨끗한 음성 데이터를 시용하여 신호 대 잡음비를 계산하고 임계값 이하의 프레임 주파수 영역을 비신뢰성분으로 다음과 같이 정의할 수 있다.

상기 수학식 24에서,

,

과

는 이진 마스크 값과 테스트의 LMFECs, n번째 프레임과 K번째 밴드에서의 클린 음성이다.

는 각 조건에 대한 광범위한 실험을 통해 최상의 성능을 제공하기 위해 경험에 의해 결정된 LMFECs의 신뢰성을 결정하는 한계치이다. 0(ZEROS)는 비신뢰 LMFECs에 대응되는 이진 마스크의 값이다.

도 3은 전시회장 노이즈에 의해 왜곡된 -5dB SNR에서, 테스트 발언 'FOUR'에 대한 CBR과 본 발명에 의해 복원된 LMFECs를 도시한 것이며, 비교를 위해 깨끗한 음성 발화에 대응되는 LMFECs와 이진 마스크도 도시하였다. 상기 도 3을 참조하면, CBR 방법에 의한 비신뢰 성분의 랜덤한 복원과는 달리, 본 발명은 같은 이진 마스크를 사용하더라도 HMM의 음성의 시간적 의존성을 나타내는 깨끗한 발언의 LMFECs에 더 유사하다. 도 4는 본 발명과 종래 기술에 대한 언어 인식결과를 정리한 것이다.

100 : 이진 마스크
102 : 비신뢰성분 복원부
104 : 음성인식기

Claims

강인음성인식을 위한 손실특징 복원방법에 있어서,
스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및
상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고,
모든 프레임에 신뢰성분의 값이 주어지고,
현재 프레임의 상태 인덱스가 정해졌다면,
모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 구비하며,
상기 비신뢰성분의 값은 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정되며,
상기 가우시안 사전 공헌 확률은,
프레임들 각각에 대한 인덱스들 각각에 대해,
해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출되며,
상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
제1항에 있어서,
상기 비신뢰성분의 값은 수학식 25에 따라 추정되고,
상기 가우시안 사전 공헌 확률은 수학식 26에 따라 산출되고,
상기 포워드 변수 및 상기 백워드 변수는 수학식 27 및 수학식 28에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
<수학식 25>

상기 수학식 25에서
은 n번째 프레임의 추정된 비신뢰 성분 값이고,
은 n번　프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
은 n번째 프레임의 비신뢰 성분(벡터)이고,
은 1~N 프레임의 비신뢰 성분이고,
은 1~N 프레임의 신뢰 성분이고,
는 n번째 프레임의 상태 인덱스이고,
는 1~N 프레임 비신뢰 관찰 신호 성분이고,
는 n 프레임의 신뢰 성분이고,
는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
<수학식 26>

상기 수학식 26에서
은 n번　프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
는 현재 프레임의 상태 인덱스이고,
는 1~N 프레임의 신뢰 성분이고,
는 1~N 프레임의 비신뢰 성분이고,
는 1~N 프레임 비신뢰 관찰신호 성분이고,
은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
<수학식 27>

<수학식 28>

상기 수학식 27 및 수학식 28에서,
는 n번 째 프레임의 신뢰 성분(벡터)이고,
는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
는 1~n 프레임의 신뢰 성분이고,
는 1~n 프레임의 비신뢰 성분이고,
1~n 프레임의 비신뢰 관찰신호 성분이고,
는 n-1 프레임의 상태 인덱스이고,
는 n 프레임의 상태 인덱스이고,
는 가우시안 인덱스이고,
는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,
는 n번째 프레임의 비신뢰 성분(벡터)이고,
는 n번째 프레임의 비신뢰 관찰신호 성분이고,
는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
는 n+1~N 프레임의 신뢰 성분이고,
는 n+1~N 프레임의 비신뢰 성분이고,
는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,
는 n_+1 프레임의 상태 인덱스이고,
(m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
는 n+1 프레임의 신뢰성분이고,
는 n+1 프레임의 비신뢰성분이고,
는 n+1 프레임의 비신뢰 관찰신호 성분이고,
는 n+1 프레임의 상태 인덱스임.
삭제
삭제
제2항에 있어서,
상기
및
의 초기값
및
은 수학식 29에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
<수학식 29>

상기 수학식 29에서
는 l번째 가우시안 인덱스의 사후 확률임.
강인음성인식을 위한 손실특징 복원장치에 있어서,
스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 마스크; 및
상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 비신뢰성분 복원부;를 구비하며,
상기 비신뢰성분 복원부는,
상기 비신뢰성분의 값을 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정하며,
상기 가우시안 사전 공헌 확률은,
프레임들 각각에 대한 인덱스들 각각에 대해,
해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출하며,
상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득함을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
제6항에 있어서,
상기 비신뢰성분의 값은 수학식 30에 따라 추정되고,
상기 가우시안 사전 공헌 확률은 수학식 31에 따라 산출되고,
상기 포워드 변수 및 상기 백워드 변수는 수학식 32 및 수학식 33에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
<수학식 30>

상기 수학식 30에서
은 n번째 프레임의 추정된 비신뢰 성분 값이고,
은 n번　프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
은 n번째 프레임의 비신뢰 성분(벡터)이고,
은 1~N 프레임의 비신뢰 성분이고,
은 1~N 프레임의 신뢰 성분이고,
는 n번째 프레임의 상태 인덱스이고,
는 1~N 프레임 비신뢰 관찰 신호 성분이고,
는 n 프레임의 신뢰 성분이고,
는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
<수학식 31>

상기 수학식 31에서
은 n번　프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
는 현재 프레임의 상태 인덱스이고,
는 1~N 프레임의 신뢰 성분이고,
는 1~N 프레임의 비신뢰 성분이고,
는 1~N 프레임 비신뢰 관찰신호 성분이고,
은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
<수학식 32>

<수학식 33>

상기 수학식 32 및 수학식 33에서,
는 n번 째 프레임의 신뢰 성분(벡터)이고,
는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
는 1~n 프레임의 신뢰성분이고,
는 1~n 프레임의 비신뢰 성분이고,
는 1~n 프레임의 비신뢰 관찰신호 성분이고,
는 n-1 프레임의 상태 인덱스이고,
는 n 프레임의 상태 인덱스이고,
는 가우시안 인덱스이고,
는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,
는 n번째 프레임의 비신뢰 성분(벡터)이고,
는 n번째 프레임의 비신뢰 관찰신호 성분이고,
는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
는 n+1~N 프레임의 신뢰 성분이고,
는 n+1~N 프레임의 비신뢰 성분이고,
는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,
는 n_+1 프레임의 상태 인덱스이고,
(m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
는 n+1 프레임의 신뢰성분이고,
는 n+1 프레임의 비신뢰성분이고,
는 n+1 프레임의 비신뢰 관찰신호 성분이고,
는 n+1 프레임의 상태 인덱스임.
삭제
삭제
제7항에 있어서,
상기
및
의 초기값
및
은 수학식 34에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
<수학식 34>

상기 수학식 34에서
는 l번째 가우시안 인덱스의 사후 확률임.