KR101647058B1 - 강인음성인식을 위한 손실특징 복원방법 및 장치 - Google Patents
강인음성인식을 위한 손실특징 복원방법 및 장치 Download PDFInfo
- Publication number
- KR101647058B1 KR101647058B1 KR1020150037383A KR20150037383A KR101647058B1 KR 101647058 B1 KR101647058 B1 KR 101647058B1 KR 1020150037383 A KR1020150037383 A KR 1020150037383A KR 20150037383 A KR20150037383 A KR 20150037383A KR 101647058 B1 KR101647058 B1 KR 101647058B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- component
- index
- gaussian
- frames
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000003595 spectral effect Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 7
- 238000011084 recovery Methods 0.000 claims 1
- 238000001228 spectrum Methods 0.000 abstract description 3
- 230000002123 temporal effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 229910052709 silver Inorganic materials 0.000 description 3
- 239000004332 silver Substances 0.000 description 3
- 108090000461 Aurora Kinase A Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 102000004000 Aurora Kinase A Human genes 0.000 description 1
- 102100032311 Aurora kinase A Human genes 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.
Description
본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치에 관한 것이다.
잡음이 현존하는 실제 환경에서 일반적인 음성 인식 시스템은 인식 모델이 학습되는 학습 데이터와의 실제 환경 차이에 의해 그 성능이 크게 떨어진다. 이러한 불일치는 학습 단계에서 고려하지 못한 음향 잡음에 기인한다. 이러한 문제를 해소하기 위해 제안된 손실특징 복원 방법은 잡음이 섞인 입력 음성 데이터와 학습 음성 데이터 사이의 불일치를 보완하여 강인한 음성 인식을 수행할 수 있게 한다. 특히 손실특징 복원기술 중 클러스터 기반 복원(cluster-based reconstruction ; CBR) 방법은 인식기를 변형하지 않으면서도 켑스트럼 특징을 사용할 수 있어서 더 나은 인식 성능을 제공할 수 있었다.
상기 CBR 방법은 서로가 독립적이고 동일한 분포(I.I.D.)를 가지는 가우시안 믹스쳐 랜덤 프로세스의 출력인 학습 음성 데이터의 스펙트럼 벡터를 추정하여 동일한 스펙트럼 벡터에서의 신뢰성분으로부터 비신뢰성분을 복원한다.
상기 스펙트럼 벡터의 확률분포함수(probability density function;pdf)는 수학식 1과 같다.
상기 수학식 1에서 x는 깨끗한 훈련 음성 데이터의 스펙트럼 벡터이고, d는 벡터의 차원수이고, 는 스펙트럼 벡터의 확률분포함수이고, 은 번째 가우시안 성분의 선험적 확률이고, 는 번째 가우시안 성분의 평균벡터이고, 는 번째 가우시안 성분의 공분산 행렬이다. 이러한 분포 파라미터들은 expectation maximization(EM) 알고리즘을 이용해 충분한 양의 깨끗한 음성 데이터로 학습된다.
여기서, y를 환경적인 불일치에 기인하여 x가 왜곡된 입력 스펙트럼 벡터라고 할 때, 과 는 각각 y의 신뢰성분과 비신뢰성분이라고 한다. 마찬가지로 , 를 각각 x의 신뢰성분과 비신뢰성분이라고 한다. 여기서 은 와 근사적으로 같다고 할 수 있고, 는 를 상한으로 갖는 사후 확률 최대화(bounded maximum a posteriori: BMAP)를 통해 수학식 2와 같이 추정할 수 있다.
상기 수학식 2에서, 는 추정된 비신뢰 성분(벡터) 값이고, 는 가우시안 인덱스의 사후확률 값이고, 신뢰 성분(벡터)과 가우시안 인덱스가 주어지고 비신뢰 성분(벡터) 값이 관찰 성분(벡터)보다 작을 때, 비 신뢰 성분(벡터)의 확률 분포이다.
상기 수학식 3에서 m은 l번째 가우시안의 사후확률을 구하기 위해 오른쪽 항의 분자를 정규화하기 위해 사용한 더미(dummy) 변수이다.
상기한 CBR 방법은 I.I.D. 랜덤 프로세스를 추정하므로, 비신뢰성분은 동일한 스펙트럼 벡터에서의 신뢰성분들로부터 복원된다. 그러므로 비신뢰성분의 추정된 값은 스펙트럼 벡터에서의 작은 수의 성분만이 신뢰성분이라면 그들의 원래 값에 충분하게 근접하지 않을 수 있다.
특히 수학식 3에서, 입력 스펙트럼 벡터 y에 대한 번째 가우시안 분산 은, ,에 의존한다. 그리고 선험적 확률 은 y에 무관하게 고정되고, 현재 입력 벡터 y는 확률분포함수 를 통해 로 결정된다.
한편 음성은 고유의 시간적 의존성을 가짐에 따라 음성 인식을 위해 널리 사용되는 음향 모델은 은닉 마크코프 모델(hidden Markov models ; HMMs)이다. 특히 특징 복원을 위해, 각 주파수 밴드에서의 음성의 시간 및 주파수 의존성이 HMM에 의해 설명된다(B.J. Borgstrㄸom and A. Alwan, ""HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition,"" IEEE Trans. Audio, Speech, and Language Processing, vol.18, no.6, pp.1612??-1623, 2010.).
그리고 프레임에서 음성의 스펙트럼 의존성은 비신뢰성분의 MMSE(a minimum mean-square error) 추정기는 밴드에서 성분들의 시간적 시리즈를 기술하는 하나의 HMM과 동일시간에서 하나의 프레임에서 성분의 스펙트럼 시리즈를 모델링하는 다른 하나의 HMM을 유도하여 획득할 수 있다.
그러나 상기한 종래 방식은 다른 밴드들과 프레임에서 두 성분 사이의 의존성을 고려하지 않고, 비신뢰성분의 MMSE 추정도 비신뢰성분에 근접하는 신뢰성분을 벗어나는 성분에 대해서는 고려하지 않으므로, 비신뢰성분에 대한 정확한 추정이 어려웠다.
여기서, 상기 HMM에 기반한 비신뢰성분에 대한 복원기술에 대해 좀 더 설명한다.
상기 수학식 5에서, 는 양자화기를 나타내고, 는 n번째 프레임 에서 스펙트럼 벡터의 k번째 성분에 대응되는 k번째 밴드와 n번째 프레임에서의 클린 음성에 대한 시간 및 주파수 표현이고, m은 모든 양자화의 인덱스이고, 은 수식 5의 agrmin을 만족하는 양자화 인덱스이다.
상기 양자화기에 따라, 첫 번째와 마지막 프레임인과 에서의 신뢰성분을 가지는 관찰 벡터 의 k번째 성분들에 대응되는 관찰 시리즈 가 주어진 의 MMSE 추정기는 수학식 4 및 수학식 6에 의해 표현된다.
상기 수학식 7에서, 로 표기된 포워드 변수는 과거와 현재 관찰 성분을 조건으로 하는 번째 상태의 분산을 나타내고, 로 표기된 백워드 변수는 미래 관찰 성분을 조건으로 하는 분산을 나타내며, 이는 수학식 8 및 수학식 9에 따른다.
상기 신뢰 성분을 가지는 처음과 마지막 프레임에서의 포워드 및 백워드 변수는 수학식 10 및 수학식 11에 따른다.
k번째 밴드에서 의 시간적 의존성을 사용하는 대신, 수학식 6의 MMSE 추정기에서 를 첫 번째와 마지막 밴드 , 에서의 신뢰성분을 가지는 n번째 프레임 에서 관찰 스펙트럼 벡터의 성분 시리즈라는 조건으로 번째 상태의 분산을 표현하는 로 교체하면, 수학식 12와 같다.
그리고 신뢰성분을 가지는 첫 번째와 마지막 밴드에서는 수학식 15 및 수학식 16과 같이 기술될 수 있다.
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킬 수 있는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따른 음성인식기의 구성도.
도 2는 AURORA 2 훈련 데이터에 의해 훈련된 어고딕 HMM의 상태천이확률로 구성된 매트릭스를 예시한 도면.
도 3의 (a)는 클린 LMFECs, 도 3의 (b)는 이진 마스크, 도 3의 (c)는 CBR 방식에 따라 재구성된 LMFECs, (d) 본 발명에 따라 재구성된 LMFECs를 예시한 도면.
도 4는 본 발명과 종래 기술에 따른 음성인식결과를 예시한 도면.
도 2는 AURORA 2 훈련 데이터에 의해 훈련된 어고딕 HMM의 상태천이확률로 구성된 매트릭스를 예시한 도면.
도 3의 (a)는 클린 LMFECs, 도 3의 (b)는 이진 마스크, 도 3의 (c)는 CBR 방식에 따라 재구성된 LMFECs, (d) 본 발명에 따라 재구성된 LMFECs를 예시한 도면.
도 4는 본 발명과 종래 기술에 따른 음성인식결과를 예시한 도면.
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성 특성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킨다.
이러한 본 발명의 바람직한 실시예에 따른 음성인식기의 구성을 도 1을 참조하면 설명한다.
상기 음성 인식기는 이진 마스크(100)와 비신뢰성분 복원부(102)와 음성인식기(104)로 구성된다. 상기 이진 마스크(100)는 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력한다.
상기 비신뢰성분 복원부(102)는 상기 비신뢰성분을 입력받아 그 비신뢰성분이 관찰 데이터의 비신뢰성분의 값보다 작고, 관찰 시퀀스에 포함되는 모든 프레임에 신뢰성분의 값을 제공받으며, 현재 프레임의 상태 인덱스에 대한 정보를 토대로, 선험적으로 학습한 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하여 출력한다.
상기 음성인식기(104)는 상기 관찰 데이터의 신뢰성분과 복원된 비신뢰성분을 제공받아 음성 인식을 이행한다.
이러한 본 발명의 비신뢰성분 복원 과정을 좀더 상세히 설명한다.
본 발명에서는 스펙트럼 벡터의 시퀀스에 대한 HMM을 채용한다. 또한 간소한 유도를 위해, 상태별 싱글 가우시안 관찰 분포를 이용한 어고딕(ergodic) HMM을 채용하며, 이는 수학식 18과 같다.
상기 수학식 18에서 과 각각은 프레임 에서의 스펙트럼 벡터와 히든 상태 인덱스를 나타내고,번째 상태의 초기 또는 정상상태확률을 포함하는 HMM 파라미터들, 번째 상태에서 번째 상태로의 천이 확률 , 평균벡터 , 훈련데이터로부터 추정된 번째 상태에 따르는 관찰 pdf의 공분산 행렬이다.
그리고 상기 수학식 19에서 은 n번째 프레임의 추정된 비신뢰 성분 값 이고, 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 은 n번째 프레임의 비신뢰 성분(벡터)이고, 은 1~N 프레임의 비신뢰 성분이고, 은 1~N 프레임의 신뢰 성분이고, 는 n번째 프레임의 상태 인덱스이고, 는 1~N 프레임 비신뢰 관찰 신호 성분이다. 그리고, 는 n프레임의 신뢰 성분이고, 는 n프레임의 관찰 신호의 비 신뢰 성분이다. 여기서 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스를 일컫는다.
이러한 수학식 19는 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고(), 모든 프레임에 신뢰성분의 값이 주어지고(), 현재 프레임의 상태 인덱스가 정해졌다면(), 모든 상태의 사후 확률을 곱한 후 더해서 최대화하는 과정을 거쳐 최종적인 비신뢰성분의 값을 추정하는 것을 의미한다.
상기 수학식 20에서 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 는 현재 프레임의 상태 인덱스이고, 는 1~N 프레임의 신뢰 성분이고, 는 1~N 프레임의 비신뢰 성분이고, 는 1~N 프레임 비신뢰 관찰 신호 성분이고, 은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이다.
상기 수학식 21 및 수학식 22에서, 는 n번 째 프레임의 신뢰 성분(벡터)이고, 는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 는 1~n 프레임의 신뢰 성분이고, 는 1~n 프레임의 비신뢰 성분이고, 1~n 프레임의 비신뢰 관찰신호 성분이고, 는 n-1 프레임(이전 프레임)의 상태 인덱스이고, 는 n 프레임(현재 프레임)의 상태 인덱스이고, 는 상태 인덱스이고, 는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고, 는 n번째 프레임의 비신뢰 성분(벡터)이고, 는 n번째 프레임의 비신뢰 관찰신호 성분이고, 는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n+1~N 프레임의 신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 관찰신호 성분이고, 는 n_+1 프레임의 상태 인덱스이고, (m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n+1 프레임의 신뢰성분이고, 는 n+1 프레임의 비신뢰성분이고, 는 n+1 프레임의 비신뢰 관찰신호 성분이고, 는 n+1 프레임의 상태 인덱스이다.
이러한 수학식 21 및 22는 상태 천이 확률을 이용해 신뢰 성분이 있는 프레임의 앞 뒤 최종점부터 순차적으로 각 가우시안의 사전 공헌도를 계산하기 위한 식이다.
그리고 이 포워드 및 백워드 변수는 수학식 23에 의해 초기화된다.
상기 수학식 23에서 는 0번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수의 초기값이고, 는 N번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수의 초기값이며, 이 두 초기값은 l번째 가우시안 인덱스의 사후 확률값인이다.
상기한 바와 같은 본 발명에 의한 효과를 평가하기 위해 AURORA2 데이터베이스와 HMM Toolkit을 이용하여 인식 실험을 하였다.
복원은 로그 멜-주파수 에너지 특징 영역에서 수행하였다. 25ms 길이의 해밍 윈도우를 사용하여 매 10ms마다 고속 푸리에 변환을 하고 출력 계수 크기에 제곱을하여 삼각 멜 필터 뱅크를 적용하여 멜 주파수 에너지 특징을 추출한 후 로그 연산을 한다. 복원된 로그 멜-주파수 에너지 특징은 이산 코사인 변환을 통해 13자 켑스트럼 특징으로 변환한다. 변환된 특징의 속도, 가속도를 계산하여 39차원 최종 특징 벡턱를 추출한다. 깨끗한 음성으로 추출된 39차원 특징 벡터들을 이용하여 인식 성능을 평가할 음향 모델을 학습한다.
디지트에 대한 좌에서 우로의 HMM의 음향 모델 각각은 16상태로 조합되며, 상태마다 세 개의 가우시안이 믹스쳐된 것으로, 상태당 6개의 가우시안 믹스쳐와 3 개의 상태로 이루어진 발언의 전과 후의 묵음(silences)에 대한 모델, 단어 사이에 묵음모델의 중간 상태에 연결된 단일 상태로 이루어진 중지(pauses)에 대한 모델, 본 발명을 위해 제안된 128 상태의 어고딕 HMM과 HMM을 위한 128 성분을 가지는 GMM모델을 사용하는 깨끗한 8,440개의 발언인 부가적으로 훈련하기 위한 음향 모델을 가진다.
도 2은 어고딕 HMM의 상태천이확률을 구성한 매트릭스를 표시한 것이다. 특히, 어느 한 상태에서 같은 상태로의 상태 천이 확률은 일반적으로 다른 경우보다 크며, 이는 음성의 근원적인 시간적 의존성을 나타낸다.
테스트 발언은 지하철, 웅성거림, 차, 전시장 노이즈를 변형한 네가지 환경 조건으로부터 선택된다.
깨끗한 음성 데이터를 시용하여 신호 대 잡음비를 계산하고 임계값 이하의 프레임 주파수 영역을 비신뢰성분으로 다음과 같이 정의할 수 있다.
상기 수학식 24에서, ,과 는 이진 마스크 값과 테스트의 LMFECs, n번째 프레임과 K번째 밴드에서의 클린 음성이다. 는 각 조건에 대한 광범위한 실험을 통해 최상의 성능을 제공하기 위해 경험에 의해 결정된 LMFECs의 신뢰성을 결정하는 한계치이다. 0(ZEROS)는 비신뢰 LMFECs에 대응되는 이진 마스크의 값이다.
도 3은 전시회장 노이즈에 의해 왜곡된 -5dB SNR에서, 테스트 발언 'FOUR'에 대한 CBR과 본 발명에 의해 복원된 LMFECs를 도시한 것이며, 비교를 위해 깨끗한 음성 발화에 대응되는 LMFECs와 이진 마스크도 도시하였다. 상기 도 3을 참조하면, CBR 방법에 의한 비신뢰 성분의 랜덤한 복원과는 달리, 본 발명은 같은 이진 마스크를 사용하더라도 HMM의 음성의 시간적 의존성을 나타내는 깨끗한 발언의 LMFECs에 더 유사하다. 도 4는 본 발명과 종래 기술에 대한 언어 인식결과를 정리한 것이다.
100 : 이진 마스크
102 : 비신뢰성분 복원부
104 : 음성인식기
102 : 비신뢰성분 복원부
104 : 음성인식기
Claims (10)
- 강인음성인식을 위한 손실특징 복원방법에 있어서,
스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및
상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고,
모든 프레임에 신뢰성분의 값이 주어지고,
현재 프레임의 상태 인덱스가 정해졌다면,
모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 구비하며,
상기 비신뢰성분의 값은 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정되며,
상기 가우시안 사전 공헌 확률은,
프레임들 각각에 대한 인덱스들 각각에 대해,
해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출되며,
상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법. - 제1항에 있어서,
상기 비신뢰성분의 값은 수학식 25에 따라 추정되고,
상기 가우시안 사전 공헌 확률은 수학식 26에 따라 산출되고,
상기 포워드 변수 및 상기 백워드 변수는 수학식 27 및 수학식 28에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
<수학식 25>
상기 수학식 25에서 은 n번째 프레임의 추정된 비신뢰 성분 값이고, 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 은 n번째 프레임의 비신뢰 성분(벡터)이고, 은 1~N 프레임의 비신뢰 성분이고, 은 1~N 프레임의 신뢰 성분이고, 는 n번째 프레임의 상태 인덱스이고, 는 1~N 프레임 비신뢰 관찰 신호 성분이고, 는 n 프레임의 신뢰 성분이고, 는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
<수학식 26>
상기 수학식 26에서 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 는 현재 프레임의 상태 인덱스이고, 는 1~N 프레임의 신뢰 성분이고, 는 1~N 프레임의 비신뢰 성분이고, 는 1~N 프레임 비신뢰 관찰신호 성분이고, 은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
<수학식 27>
<수학식 28>
상기 수학식 27 및 수학식 28에서, 는 n번 째 프레임의 신뢰 성분(벡터)이고, 는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 는 1~n 프레임의 신뢰 성분이고, 는 1~n 프레임의 비신뢰 성분이고, 1~n 프레임의 비신뢰 관찰신호 성분이고, 는 n-1 프레임의 상태 인덱스이고, 는 n 프레임의 상태 인덱스이고, 는 가우시안 인덱스이고, 는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고, 는 n번째 프레임의 비신뢰 성분(벡터)이고, 는 n번째 프레임의 비신뢰 관찰신호 성분이고, 는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n+1~N 프레임의 신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 관찰신호 성분이고, 는 n_+1 프레임의 상태 인덱스이고, (m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n+1 프레임의 신뢰성분이고, 는 n+1 프레임의 비신뢰성분이고, 는 n+1 프레임의 비신뢰 관찰신호 성분이고, 는 n+1 프레임의 상태 인덱스임. - 삭제
- 삭제
- 강인음성인식을 위한 손실특징 복원장치에 있어서,
스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 마스크; 및
상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 비신뢰성분 복원부;를 구비하며,
상기 비신뢰성분 복원부는,
상기 비신뢰성분의 값을 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정하며,
상기 가우시안 사전 공헌 확률은,
프레임들 각각에 대한 인덱스들 각각에 대해,
해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출하며,
상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득함을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치. - 제6항에 있어서,
상기 비신뢰성분의 값은 수학식 30에 따라 추정되고,
상기 가우시안 사전 공헌 확률은 수학식 31에 따라 산출되고,
상기 포워드 변수 및 상기 백워드 변수는 수학식 32 및 수학식 33에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
<수학식 30>
상기 수학식 30에서 은 n번째 프레임의 추정된 비신뢰 성분 값이고, 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 은 n번째 프레임의 비신뢰 성분(벡터)이고, 은 1~N 프레임의 비신뢰 성분이고, 은 1~N 프레임의 신뢰 성분이고, 는 n번째 프레임의 상태 인덱스이고, 는 1~N 프레임 비신뢰 관찰 신호 성분이고, 는 n 프레임의 신뢰 성분이고, 는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
<수학식 31>
상기 수학식 31에서 은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고, 는 현재 프레임의 상태 인덱스이고, 는 1~N 프레임의 신뢰 성분이고, 는 1~N 프레임의 비신뢰 성분이고, 는 1~N 프레임 비신뢰 관찰신호 성분이고, 은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
<수학식 32>
<수학식 33>
상기 수학식 32 및 수학식 33에서, 는 n번 째 프레임의 신뢰 성분(벡터)이고, 는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고, 는 1~n 프레임의 신뢰성분이고, 는 1~n 프레임의 비신뢰 성분이고, 는 1~n 프레임의 비신뢰 관찰신호 성분이고, 는 n-1 프레임의 상태 인덱스이고, 는 n 프레임의 상태 인덱스이고, 는 가우시안 인덱스이고, 는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고, 는 n번째 프레임의 비신뢰 성분(벡터)이고, 는 n번째 프레임의 비신뢰 관찰신호 성분이고, 는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고, 는 n+1~N 프레임의 신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 성분이고, 는 n+1~N 프레임의 비신뢰 관찰신호 성분이고, 는 n_+1 프레임의 상태 인덱스이고, (m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고, 는 n+1 프레임의 신뢰성분이고, 는 n+1 프레임의 비신뢰성분이고, 는 n+1 프레임의 비신뢰 관찰신호 성분이고, 는 n+1 프레임의 상태 인덱스임. - 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150037383A KR101647058B1 (ko) | 2015-03-18 | 2015-03-18 | 강인음성인식을 위한 손실특징 복원방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150037383A KR101647058B1 (ko) | 2015-03-18 | 2015-03-18 | 강인음성인식을 위한 손실특징 복원방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101647058B1 true KR101647058B1 (ko) | 2016-08-10 |
Family
ID=56713559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150037383A KR101647058B1 (ko) | 2015-03-18 | 2015-03-18 | 강인음성인식을 위한 손실특징 복원방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101647058B1 (ko) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1327976A1 (en) | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
KR20130068869A (ko) | 2011-12-16 | 2013-06-26 | 서강대학교산학협력단 | 관심음원 제거방법 및 그에 따른 음성인식방법 |
US8577678B2 (en) | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
KR20150026634A (ko) | 2013-09-03 | 2015-03-11 | 서강대학교산학협력단 | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 |
-
2015
- 2015-03-18 KR KR1020150037383A patent/KR101647058B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1327976A1 (en) | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
US8577678B2 (en) | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
KR20130068869A (ko) | 2011-12-16 | 2013-06-26 | 서강대학교산학협력단 | 관심음원 제거방법 및 그에 따른 음성인식방법 |
KR20150026634A (ko) | 2013-09-03 | 2015-03-11 | 서강대학교산학협력단 | 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
조지원, 박형민, ‘가산잡음환경에서 강인한 음성인식을 위한 은닉 마르코프 모델 기반 손실 특징복원’, 말소리와 음성과학, 제6권, 제4호, pp.127~132, 2014년 12월.* * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US9595257B2 (en) | Downsampling schemes in a hierarchical neural network structure for phoneme recognition | |
Sivaram et al. | Sparse coding for speech recognition | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
US20060178871A1 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
Seo et al. | A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise | |
CN109346084A (zh) | 基于深度堆栈自编码网络的说话人识别方法 | |
US7454338B2 (en) | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition | |
WO2014173919A1 (en) | Estimation of reliability in speaker recognition | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
McLaren et al. | Softsad: Integrated frame-based speech confidence for speaker recognition | |
US20040181409A1 (en) | Speech recognition using model parameters dependent on acoustic environment | |
Nathwani et al. | DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR | |
KR101647058B1 (ko) | 강인음성인식을 위한 손실특징 복원방법 및 장치 | |
Lapidot et al. | Generalized viterbi-based models for time-series segmentation applied to speaker diarization | |
KR20230094826A (ko) | 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치 | |
JP2004509364A (ja) | 音声認識システム | |
Wu et al. | An environment-compensated minimum classification error training approach based on stochastic vector mapping | |
Turrisi et al. | Improving generalization of vocal tract feature reconstruction: from augmented acoustic inversion to articulatory feature reconstruction without articulatory data | |
Baggenstoss | Optimal detection and classification of diverse short-duration signals | |
Melin et al. | Variance flooring, scaling and tying for text-dependent speaker verification | |
Abdolahi et al. | GARCH coefficients as feature for speech recognition in Persian isolated digit | |
KR0170317B1 (ko) | 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법 | |
Szepannek et al. | Extending features for automatic speech recognition by means of auditory modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190701 Year of fee payment: 4 |