KR101647058B1 - 강인음성인식을 위한 손실특징 복원방법 및 장치 - Google Patents

강인음성인식을 위한 손실특징 복원방법 및 장치 Download PDF

Info

Publication number
KR101647058B1
KR101647058B1 KR1020150037383A KR20150037383A KR101647058B1 KR 101647058 B1 KR101647058 B1 KR 101647058B1 KR 1020150037383 A KR1020150037383 A KR 1020150037383A KR 20150037383 A KR20150037383 A KR 20150037383A KR 101647058 B1 KR101647058 B1 KR 101647058B1
Authority
KR
South Korea
Prior art keywords
frame
component
index
gaussian
frames
Prior art date
Application number
KR1020150037383A
Other languages
English (en)
Inventor
박형민
조지원
Original Assignee
서강대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서강대학교산학협력단 filed Critical 서강대학교산학협력단
Priority to KR1020150037383A priority Critical patent/KR101647058B1/ko
Application granted granted Critical
Publication of KR101647058B1 publication Critical patent/KR101647058B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.

Description

강인음성인식을 위한 손실특징 복원방법 및 장치{Missing Feature Reconstruction Based on HMM of Feature Vectors for Robust Speech Recognition}
본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치에 관한 것이다.
잡음이 현존하는 실제 환경에서 일반적인 음성 인식 시스템은 인식 모델이 학습되는 학습 데이터와의 실제 환경 차이에 의해 그 성능이 크게 떨어진다. 이러한 불일치는 학습 단계에서 고려하지 못한 음향 잡음에 기인한다. 이러한 문제를 해소하기 위해 제안된 손실특징 복원 방법은 잡음이 섞인 입력 음성 데이터와 학습 음성 데이터 사이의 불일치를 보완하여 강인한 음성 인식을 수행할 수 있게 한다. 특히 손실특징 복원기술 중 클러스터 기반 복원(cluster-based reconstruction ; CBR) 방법은 인식기를 변형하지 않으면서도 켑스트럼 특징을 사용할 수 있어서 더 나은 인식 성능을 제공할 수 있었다.
상기 CBR 방법은 서로가 독립적이고 동일한 분포(I.I.D.)를 가지는 가우시안 믹스쳐 랜덤 프로세스의 출력인 학습 음성 데이터의 스펙트럼 벡터를 추정하여 동일한 스펙트럼 벡터에서의 신뢰성분으로부터 비신뢰성분을 복원한다.
상기 스펙트럼 벡터의 확률분포함수(probability density function;pdf)는 수학식 1과 같다.
Figure 112015026413253-pat00001
상기 수학식 1에서 x는 깨끗한 훈련 음성 데이터의 스펙트럼 벡터이고, d는 벡터의 차원수이고,
Figure 112015026413253-pat00002
는 스펙트럼 벡터의 확률분포함수이고,
Figure 112015026413253-pat00003
Figure 112015026413253-pat00004
번째 가우시안 성분의 선험적 확률이고,
Figure 112015026413253-pat00005
Figure 112015026413253-pat00006
번째 가우시안 성분의 평균벡터이고,
Figure 112015026413253-pat00007
Figure 112015026413253-pat00008
번째 가우시안 성분의 공분산 행렬이다. 이러한 분포 파라미터들은 expectation maximization(EM) 알고리즘을 이용해 충분한 양의 깨끗한 음성 데이터로 학습된다.
여기서, y를 환경적인 불일치에 기인하여 x가 왜곡된 입력 스펙트럼 벡터라고 할 때,
Figure 112015026413253-pat00009
Figure 112015026413253-pat00010
는 각각 y의 신뢰성분과 비신뢰성분이라고 한다. 마찬가지로
Figure 112015026413253-pat00011
,
Figure 112015026413253-pat00012
를 각각 x의 신뢰성분과 비신뢰성분이라고 한다. 여기서
Figure 112015026413253-pat00013
Figure 112015026413253-pat00014
와 근사적으로 같다고 할 수 있고,
Figure 112015026413253-pat00015
Figure 112015026413253-pat00016
를 상한으로 갖는 사후 확률 최대화(bounded maximum a posteriori: BMAP)를 통해 수학식 2와 같이 추정할 수 있다.
Figure 112015026413253-pat00017
상기 수학식 2에서,
Figure 112015026413253-pat00018
는 추정된 비신뢰 성분(벡터) 값이고,
Figure 112015026413253-pat00019
는 가우시안 인덱스의 사후확률 값이고,
Figure 112015026413253-pat00020
신뢰 성분(벡터)과 가우시안 인덱스가 주어지고 비신뢰 성분(벡터) 값이 관찰 성분(벡터)보다 작을 때, 비 신뢰 성분(벡터)의 확률 분포이다.
상기 y와
Figure 112015026413253-pat00021
를 위한
Figure 112015026413253-pat00022
번째 가우시안 성분의 분산은 베이지안 법칙에 의해 수학식 3 및 수학식 4와 같이 기술된다.
Figure 112015026413253-pat00023
Figure 112015026413253-pat00024
상기 수학식 3에서 m은 l번째 가우시안의 사후확률을 구하기 위해 오른쪽 항의 분자를 정규화하기 위해 사용한 더미(dummy) 변수이다.
상기한 CBR 방법은 I.I.D. 랜덤 프로세스를 추정하므로, 비신뢰성분은 동일한 스펙트럼 벡터에서의 신뢰성분들로부터 복원된다. 그러므로 비신뢰성분의 추정된 값은 스펙트럼 벡터에서의 작은 수의 성분만이 신뢰성분이라면 그들의 원래 값에 충분하게 근접하지 않을 수 있다.
특히 수학식 3에서, 입력 스펙트럼 벡터 y에 대한
Figure 112015026413253-pat00025
번째 가우시안 분산
Figure 112015026413253-pat00026
은,
Figure 112015026413253-pat00027
,
Figure 112015026413253-pat00028
에 의존한다. 그리고 선험적 확률
Figure 112015026413253-pat00029
은 y에 무관하게 고정되고, 현재 입력 벡터 y는 확률분포함수
Figure 112015026413253-pat00030
를 통해
Figure 112015026413253-pat00031
로 결정된다.
한편 음성은 고유의 시간적 의존성을 가짐에 따라 음성 인식을 위해 널리 사용되는 음향 모델은 은닉 마크코프 모델(hidden Markov models ; HMMs)이다. 특히 특징 복원을 위해, 각 주파수 밴드에서의 음성의 시간 및 주파수 의존성이 HMM에 의해 설명된다(B.J. Borgstrㄸom and A. Alwan, ""HMM-based reconstruction of unreliable spectrographic data for noise robust speech recognition,"" IEEE Trans. Audio, Speech, and Language Processing, vol.18, no.6, pp.1612??-1623, 2010.).
그리고 프레임에서 음성의 스펙트럼 의존성은 비신뢰성분의 MMSE(a minimum mean-square error) 추정기는 밴드에서 성분들의 시간적 시리즈를 기술하는 하나의 HMM과 동일시간에서 하나의 프레임에서 성분의 스펙트럼 시리즈를 모델링하는 다른 하나의 HMM을 유도하여 획득할 수 있다.
그러나 상기한 종래 방식은 다른 밴드들과 프레임에서 두 성분 사이의 의존성을 고려하지 않고, 비신뢰성분의 MMSE 추정도 비신뢰성분에 근접하는 신뢰성분을 벗어나는 성분에 대해서는 고려하지 않으므로, 비신뢰성분에 대한 정확한 추정이 어려웠다.
여기서, 상기 HMM에 기반한 비신뢰성분에 대한 복원기술에 대해 좀 더 설명한다.
k번째 주파수 밴드에서, 중심값들인
Figure 112015026413253-pat00032
에 대한 양자화는 유클리드 거리에 의한 k-평균 알고리즘과 같은 클러스터링 기술에 의해 설계되며, 이는 수학식 5에 따른다.
Figure 112015026413253-pat00033
상기 수학식 5에서,
Figure 112015026413253-pat00034
는 양자화기를 나타내고,
Figure 112015026413253-pat00035
는 n번째 프레임
Figure 112015026413253-pat00036
에서 스펙트럼 벡터의 k번째 성분에 대응되는 k번째 밴드와 n번째 프레임에서의 클린 음성에 대한 시간 및 주파수 표현이고, m은 모든 양자화의 인덱스이고,
Figure 112015026413253-pat00037
은 수식 5의 agrmin을 만족하는 양자화 인덱스이다.
상기 양자화기에 따라, 첫 번째와 마지막 프레임인
Figure 112015026413253-pat00038
Figure 112015026413253-pat00039
에서의 신뢰성분을 가지는 관찰 벡터
Figure 112015026413253-pat00040
의 k번째 성분들에 대응되는 관찰 시리즈
Figure 112015026413253-pat00041
가 주어진
Figure 112015026413253-pat00042
의 MMSE 추정기는 수학식 4 및 수학식 6에 의해 표현된다.
Figure 112015026413253-pat00043
상기 수학식 6에서,
Figure 112015026413253-pat00044
는 관찰 데이터
Figure 112015026413253-pat00045
을 조건으로 하는
Figure 112015026413253-pat00046
의 경우에 대응되는
Figure 112015026413253-pat00047
번째 상태의 분산을 나타내며, 이는 수학식 7에 따른다.
Figure 112015026413253-pat00048
상기 수학식 7에서,
Figure 112015026413253-pat00049
로 표기된 포워드 변수는 과거와 현재 관찰 성분을 조건으로 하는
Figure 112015026413253-pat00050
번째 상태의 분산을 나타내고,
Figure 112015026413253-pat00051
로 표기된 백워드 변수는 미래 관찰 성분을 조건으로 하는 분산을 나타내며, 이는 수학식 8 및 수학식 9에 따른다.
Figure 112015026413253-pat00052
Figure 112015026413253-pat00053
상기 신뢰 성분을 가지는 처음과 마지막 프레임에서의 포워드 및 백워드 변수는 수학식 10 및 수학식 11에 따른다.
Figure 112015026413253-pat00054
Figure 112015026413253-pat00055
k번째 밴드에서
Figure 112015026413253-pat00056
의 시간적 의존성을 사용하는 대신, 수학식 6의 MMSE 추정기에서
Figure 112015026413253-pat00057
를 첫 번째와 마지막 밴드
Figure 112015026413253-pat00058
,
Figure 112015026413253-pat00059
에서의 신뢰성분을 가지는 n번째 프레임
Figure 112015026413253-pat00060
에서 관찰 스펙트럼 벡터의 성분 시리즈라는 조건으로
Figure 112015026413253-pat00061
번째 상태의 분산을 표현하는
Figure 112015026413253-pat00062
로 교체하면, 수학식 12와 같다.
Figure 112015026413253-pat00063
포워드 및 백워드 변수
Figure 112015026413253-pat00064
,
Figure 112015026413253-pat00065
와 유사한
Figure 112015026413253-pat00066
,
Figure 112015026413253-pat00067
는 프레임에서 밴드내 관찰 성분들의 다른 부분 집합을 조건으로
Figure 112015026413253-pat00068
번째 상태의 분산을 나타내며, 이는 수학식 13 및 14에 따른다.
Figure 112015026413253-pat00069
Figure 112015026413253-pat00070
그리고 신뢰성분을 가지는 첫 번째와 마지막 밴드에서는 수학식 15 및 수학식 16과 같이 기술될 수 있다.
Figure 112015026413253-pat00071
Figure 112015026413253-pat00072
그리고 동일한 시간에서 음성의 시간 및 스펙트럼 의존성을 이용하는
Figure 112015026413253-pat00073
의 MMSE 추정기는 수학식 6에서
Figure 112015026413253-pat00074
Figure 112015026413253-pat00075
로 교체하는 것으로 획득되며, 이는 수학식 17과 같다.
Figure 112015026413253-pat00076
한국특허공개 제1020150026634호 한국특허공개 제1020130068869호 미국특허등록 제08577678호 유럽특허공개 제01327976호
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하는 강인음성인식을 위한 손실특징 복원방법 및 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명에 따르는 강인음성인식을 위한 손실특징 복원방법은, 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및 상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 더 구비함을 특징으로 한다.
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킬 수 있는 효과를 야기한다.
도 1은 본 발명의 바람직한 실시예에 따른 음성인식기의 구성도.
도 2는 AURORA 2 훈련 데이터에 의해 훈련된 어고딕 HMM의 상태천이확률로 구성된 매트릭스를 예시한 도면.
도 3의 (a)는 클린 LMFECs, 도 3의 (b)는 이진 마스크, 도 3의 (c)는 CBR 방식에 따라 재구성된 LMFECs, (d) 본 발명에 따라 재구성된 LMFECs를 예시한 도면.
도 4는 본 발명과 종래 기술에 따른 음성인식결과를 예시한 도면.
본 발명은 히든 마르코프 모델을 통해 음성의 주파수 및 시간 의존성 특성을 이용하여 손실특징을 복원하여 음성인식의 정확도를 향상시킨다.
이러한 본 발명의 바람직한 실시예에 따른 음성인식기의 구성을 도 1을 참조하면 설명한다.
상기 음성 인식기는 이진 마스크(100)와 비신뢰성분 복원부(102)와 음성인식기(104)로 구성된다. 상기 이진 마스크(100)는 스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력한다.
상기 비신뢰성분 복원부(102)는 상기 비신뢰성분을 입력받아 그 비신뢰성분이 관찰 데이터의 비신뢰성분의 값보다 작고, 관찰 시퀀스에 포함되는 모든 프레임에 신뢰성분의 값을 제공받으며, 현재 프레임의 상태 인덱스에 대한 정보를 토대로, 선험적으로 학습한 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하여 출력한다.
상기 음성인식기(104)는 상기 관찰 데이터의 신뢰성분과 복원된 비신뢰성분을 제공받아 음성 인식을 이행한다.
이러한 본 발명의 비신뢰성분 복원 과정을 좀더 상세히 설명한다.
본 발명에서는 스펙트럼 벡터의 시퀀스에 대한 HMM을 채용한다. 또한 간소한 유도를 위해, 상태별 싱글 가우시안 관찰 분포를 이용한 어고딕(ergodic) HMM을 채용하며, 이는 수학식 18과 같다.
Figure 112015026413253-pat00077
상기 수학식 18에서
Figure 112015026413253-pat00078
Figure 112015026413253-pat00079
각각은 프레임
Figure 112015026413253-pat00080
에서의 스펙트럼 벡터와 히든 상태 인덱스를 나타내고,
Figure 112015026413253-pat00081
번째 상태의 초기 또는 정상상태확률
Figure 112015026413253-pat00082
을 포함하는 HMM 파라미터들,
Figure 112015026413253-pat00083
번째 상태에서
Figure 112015026413253-pat00084
번째 상태로의 천이 확률
Figure 112015026413253-pat00085
, 평균벡터
Figure 112015026413253-pat00086
, 훈련데이터로부터 추정된
Figure 112015026413253-pat00087
번째 상태에 따르는 관찰 pdf의 공분산 행렬
Figure 112015026413253-pat00088
이다.
HMM에 따르는 수학식 2에 따르는 BMAP(Bounded Maximum a Posterior) 추정기를 사용하면, 관찰 스펙트럼 벡터의 시퀀스
Figure 112015026413253-pat00089
는 수학식 19와 같이 변형된다.
Figure 112015026413253-pat00090
상기 수학식 19에서, N은 관찰 시퀀스의 프레임들의 수이고, n은 프레임 식별번호이고, 프레임 식별번호 n에 대한 상태 인덱스가 주어지므로
Figure 112015026413253-pat00091
=
Figure 112015026413253-pat00092
이다.
그리고 상기 수학식 19에서
Figure 112015026413253-pat00093
은 n번째 프레임의 추정된 비신뢰 성분 값 이고,
Figure 112015026413253-pat00094
은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
Figure 112015026413253-pat00095
은 n번째 프레임의 비신뢰 성분(벡터)이고,
Figure 112015026413253-pat00096
은 1~N 프레임의 비신뢰 성분이고,
Figure 112015026413253-pat00097
은 1~N 프레임의 신뢰 성분이고,
Figure 112015026413253-pat00098
는 n번째 프레임의 상태 인덱스이고,
Figure 112015026413253-pat00099
는 1~N 프레임 비신뢰 관찰 신호 성분이다. 그리고,
Figure 112015026413253-pat00100
는 n프레임의 신뢰 성분이고,
Figure 112015026413253-pat00101
는 n프레임의 관찰 신호의 비 신뢰 성분이다. 여기서 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스를 일컫는다.
이러한 수학식 19는 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고(
Figure 112016045087555-pat00102
), 모든 프레임에 신뢰성분의 값이 주어지고(
Figure 112016045087555-pat00103
), 현재 프레임의 상태 인덱스가 정해졌다면(
Figure 112016045087555-pat00104
), 모든 상태의 사후 확률을 곱한 후 더해서 최대화하는 과정을 거쳐 최종적인 비신뢰성분의 값을 추정하는 것을 의미한다.
그리고
Figure 112015026413253-pat00105
Figure 112015026413253-pat00106
에 대한 프레임 n에서의
Figure 112015026413253-pat00107
번째 상태의 분산으로, 베이지안 법칙에 의해 수학식 20에 따른다.
Figure 112015026413253-pat00108
상기 수학식 20에서
Figure 112015026413253-pat00109
은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
Figure 112015026413253-pat00110
는 현재 프레임의 상태 인덱스이고,
Figure 112015026413253-pat00111
는 1~N 프레임의 신뢰 성분이고,
Figure 112015026413253-pat00112
는 1~N 프레임의 비신뢰 성분이고,
Figure 112015026413253-pat00113
는 1~N 프레임 비신뢰 관찰 신호 성분이고,
Figure 112015026413253-pat00114
은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
Figure 112015026413253-pat00115
은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
Figure 112015026413253-pat00116
는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
Figure 112015026413253-pat00117
는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이다.
그리고 과거 및 현재 관찰성분 및 미래 관찰성분을 위한
Figure 112015026413253-pat00118
번째 상태의 분산을 결정하는 포워드 및 백워드 변수는 수학식 21 및 수학식 22에 따라 산출된다.
Figure 112015026413253-pat00119
Figure 112015026413253-pat00120
상기 수학식 21 및 수학식 22에서,
Figure 112015026413253-pat00121
는 n번 째 프레임의 신뢰 성분(벡터)이고,
Figure 112015026413253-pat00122
는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
Figure 112015026413253-pat00123
는 1~n 프레임의 신뢰 성분이고,
Figure 112015026413253-pat00124
는 1~n 프레임의 비신뢰 성분이고,
Figure 112015026413253-pat00125
1~n 프레임의 비신뢰 관찰신호 성분이고,
Figure 112015026413253-pat00126
는 n-1 프레임(이전 프레임)의 상태 인덱스이고,
Figure 112015026413253-pat00127
는 n 프레임(현재 프레임)의 상태 인덱스이고,
Figure 112015026413253-pat00128
는 상태 인덱스이고,
Figure 112015026413253-pat00129
는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,
Figure 112015026413253-pat00130
는 n번째 프레임의 비신뢰 성분(벡터)이고,
Figure 112015026413253-pat00131
는 n번째 프레임의 비신뢰 관찰신호 성분이고,
Figure 112015026413253-pat00132
는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
Figure 112015026413253-pat00133
는 n+1~N 프레임의 신뢰 성분이고,
Figure 112015026413253-pat00134
는 n+1~N 프레임의 비신뢰 성분이고,
Figure 112015026413253-pat00135
는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,
Figure 112015026413253-pat00136
는 n_+1 프레임의 상태 인덱스이고,
Figure 112015026413253-pat00137
(m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
Figure 112015026413253-pat00138
는 n+1 프레임의 신뢰성분이고,
Figure 112015026413253-pat00139
는 n+1 프레임의 비신뢰성분이고,
Figure 112015026413253-pat00140
는 n+1 프레임의 비신뢰 관찰신호 성분이고,
Figure 112015026413253-pat00141
는 n+1 프레임의 상태 인덱스이다.
이러한 수학식 21 및 22는 상태 천이 확률을 이용해 신뢰 성분이 있는 프레임의 앞 뒤 최종점부터 순차적으로 각 가우시안의 사전 공헌도를 계산하기 위한 식이다.
그리고 이 포워드 및 백워드 변수는 수학식 23에 의해 초기화된다.
Figure 112015026413253-pat00142
상기 수학식 23에서
Figure 112015026413253-pat00143
는 0번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수의 초기값이고,
Figure 112015026413253-pat00144
는 N번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수의 초기값이며, 이 두 초기값은 l번째 가우시안 인덱스의 사후 확률값인
Figure 112015026413253-pat00145
이다.
상기한 바와 같은 본 발명에 의한 효과를 평가하기 위해 AURORA2 데이터베이스와 HMM Toolkit을 이용하여 인식 실험을 하였다.
복원은 로그 멜-주파수 에너지 특징 영역에서 수행하였다. 25ms 길이의 해밍 윈도우를 사용하여 매 10ms마다 고속 푸리에 변환을 하고 출력 계수 크기에 제곱을하여 삼각 멜 필터 뱅크를 적용하여 멜 주파수 에너지 특징을 추출한 후 로그 연산을 한다. 복원된 로그 멜-주파수 에너지 특징은 이산 코사인 변환을 통해 13자 켑스트럼 특징으로 변환한다. 변환된 특징의 속도, 가속도를 계산하여 39차원 최종 특징 벡턱를 추출한다. 깨끗한 음성으로 추출된 39차원 특징 벡터들을 이용하여 인식 성능을 평가할 음향 모델을 학습한다.
디지트에 대한 좌에서 우로의 HMM의 음향 모델 각각은 16상태로 조합되며, 상태마다 세 개의 가우시안이 믹스쳐된 것으로, 상태당 6개의 가우시안 믹스쳐와 3 개의 상태로 이루어진 발언의 전과 후의 묵음(silences)에 대한 모델, 단어 사이에 묵음모델의 중간 상태에 연결된 단일 상태로 이루어진 중지(pauses)에 대한 모델, 본 발명을 위해 제안된 128 상태의 어고딕 HMM과 HMM을 위한 128 성분을 가지는 GMM모델을 사용하는 깨끗한 8,440개의 발언인 부가적으로 훈련하기 위한 음향 모델을 가진다.
도 2은 어고딕 HMM의 상태천이확률을 구성한 매트릭스를 표시한 것이다. 특히, 어느 한 상태에서 같은 상태로의 상태 천이 확률은 일반적으로 다른 경우보다 크며, 이는 음성의 근원적인 시간적 의존성을 나타낸다.
테스트 발언은 지하철, 웅성거림, 차, 전시장 노이즈를 변형한 네가지 환경 조건으로부터 선택된다.
깨끗한 음성 데이터를 시용하여 신호 대 잡음비를 계산하고 임계값 이하의 프레임 주파수 영역을 비신뢰성분으로 다음과 같이 정의할 수 있다.
Figure 112015026413253-pat00146
상기 수학식 24에서,
Figure 112015026413253-pat00147
,
Figure 112015026413253-pat00148
Figure 112015026413253-pat00149
는 이진 마스크 값과 테스트의 LMFECs, n번째 프레임과 K번째 밴드에서의 클린 음성이다.
Figure 112015026413253-pat00150
는 각 조건에 대한 광범위한 실험을 통해 최상의 성능을 제공하기 위해 경험에 의해 결정된 LMFECs의 신뢰성을 결정하는 한계치이다. 0(ZEROS)는 비신뢰 LMFECs에 대응되는 이진 마스크의 값이다.
도 3은 전시회장 노이즈에 의해 왜곡된 -5dB SNR에서, 테스트 발언 'FOUR'에 대한 CBR과 본 발명에 의해 복원된 LMFECs를 도시한 것이며, 비교를 위해 깨끗한 음성 발화에 대응되는 LMFECs와 이진 마스크도 도시하였다. 상기 도 3을 참조하면, CBR 방법에 의한 비신뢰 성분의 랜덤한 복원과는 달리, 본 발명은 같은 이진 마스크를 사용하더라도 HMM의 음성의 시간적 의존성을 나타내는 깨끗한 발언의 LMFECs에 더 유사하다. 도 4는 본 발명과 종래 기술에 대한 언어 인식결과를 정리한 것이다.
100 : 이진 마스크
102 : 비신뢰성분 복원부
104 : 음성인식기

Claims (10)

  1. 강인음성인식을 위한 손실특징 복원방법에 있어서,
    스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 단계; 및
    상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고,
    모든 프레임에 신뢰성분의 값이 주어지고,
    현재 프레임의 상태 인덱스가 정해졌다면,
    모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 단계;를 구비하며,
    상기 비신뢰성분의 값은 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정되며,
    상기 가우시안 사전 공헌 확률은,
    프레임들 각각에 대한 인덱스들 각각에 대해,
    해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
    해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출되며,
    상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
  2. 제1항에 있어서,
    상기 비신뢰성분의 값은 수학식 25에 따라 추정되고,
    상기 가우시안 사전 공헌 확률은 수학식 26에 따라 산출되고,
    상기 포워드 변수 및 상기 백워드 변수는 수학식 27 및 수학식 28에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
    <수학식 25>
    Figure 112016045087555-pat00151

    상기 수학식 25에서
    Figure 112016045087555-pat00152
    은 n번째 프레임의 추정된 비신뢰 성분 값이고,
    Figure 112016045087555-pat00153
    은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
    Figure 112016045087555-pat00154
    은 n번째 프레임의 비신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00155
    은 1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00156
    은 1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00157
    는 n번째 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00158
    는 1~N 프레임 비신뢰 관찰 신호 성분이고,
    Figure 112016045087555-pat00159
    는 n 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00160
    는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
    <수학식 26>
    Figure 112016045087555-pat00162

    상기 수학식 26에서
    Figure 112016045087555-pat00163
    은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
    Figure 112016045087555-pat00164
    는 현재 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00165
    는 1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00166
    는 1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00167
    는 1~N 프레임 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00168
    은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
    Figure 112016045087555-pat00169
    은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
    Figure 112016045087555-pat00170
    는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
    Figure 112016045087555-pat00171
    는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
    <수학식 27>
    Figure 112016045087555-pat00174

    <수학식 28>
    Figure 112016045087555-pat00175

    상기 수학식 27 및 수학식 28에서,
    Figure 112016045087555-pat00176
    는 n번 째 프레임의 신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00177
    는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
    Figure 112016045087555-pat00178
    는 1~n 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00179
    는 1~n 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00180
    1~n 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00181
    는 n-1 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00182
    는 n 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00183
    는 가우시안 인덱스이고,
    Figure 112016045087555-pat00184
    는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,
    Figure 112016045087555-pat00185
    는 n번째 프레임의 비신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00186
    는 n번째 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00187
    는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
    Figure 112016045087555-pat00188
    는 n+1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00189
    는 n+1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00190
    는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00191
    는 n_+1 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00192
    (m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
    Figure 112016045087555-pat00193
    는 n+1 프레임의 신뢰성분이고,
    Figure 112016045087555-pat00194
    는 n+1 프레임의 비신뢰성분이고,
    Figure 112016045087555-pat00195
    는 n+1 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00196
    는 n+1 프레임의 상태 인덱스임.
  3. 삭제
  4. 삭제
  5. 제2항에 있어서,
    상기
    Figure 112016045087555-pat00197
    Figure 112016045087555-pat00198
    의 초기값
    Figure 112016045087555-pat00199
    Figure 112016045087555-pat00200
    은 수학식 29에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원방법.
    <수학식 29>
    Figure 112016045087555-pat00201

    상기 수학식 29에서
    Figure 112016045087555-pat00202
    는 l번째 가우시안 인덱스의 사후 확률임.
  6. 강인음성인식을 위한 손실특징 복원장치에 있어서,
    스펙트럼 벡터 형태의 관찰 데이터가 하나의 프레임을 형성하고, 다수의 프레임이 시간경과에 따라 순차적으로 나열되어 구성된 관찰 시퀀스를 입력받아, 현재 프레임에 대한 상태 인덱스에 대한 정보를 토대로 신뢰성분은 그대로 출력하고 비신뢰성분은 최소화시켜 출력하는 마스크; 및
    상기 비신뢰성분은 관찰 데이터의 비신뢰성분의 값보다 작고, 모든 프레임에 신뢰성분의 값이 주어지고, 현재 프레임의 상태 인덱스가 정해졌다면, 모든 상태의 사후 확률을 곱한 후 더해서 최종적인 비신뢰성분의 값을 추정하는 비신뢰성분 복원부;를 구비하며,
    상기 비신뢰성분 복원부는,
    상기 비신뢰성분의 값을 프레임들 각각에 대한 인덱스들 각각에 대해 가우시안의 사전 공헌 확률과 입력값을 상한으로 갖는 사후 확률 최대화 값을 통해 추정하며,
    상기 가우시안 사전 공헌 확률은,
    프레임들 각각에 대한 인덱스들 각각에 대해,
    해당 인덱스에 대한 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수와 백워드 변수를 곱한 값을
    해당 프레임의 인덱스들에 대한 가우시안 인덱스들 각각에 대해 포워드 변수와 백워드 변수를 곱한 값들을 더한 값으로 나누어 산출하며,
    상기 포워드 변수 및 상기 백워드 변수는 상태천이확률을 이용하여 신뢰성분이 있는 프레임에 대한 포워드 및 백워드의 가우시안 사전 공헌도를 계산하여 획득함을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
  7. 제6항에 있어서,
    상기 비신뢰성분의 값은 수학식 30에 따라 추정되고,
    상기 가우시안 사전 공헌 확률은 수학식 31에 따라 산출되고,
    상기 포워드 변수 및 상기 백워드 변수는 수학식 32 및 수학식 33에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
    <수학식 30>
    Figure 112016045087555-pat00203

    상기 수학식 30에서
    Figure 112016045087555-pat00204
    은 n번째 프레임의 추정된 비신뢰 성분 값이고,
    Figure 112016045087555-pat00205
    은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
    Figure 112016045087555-pat00206
    은 n번째 프레임의 비신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00207
    은 1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00208
    은 1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00209
    는 n번째 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00210
    는 1~N 프레임 비신뢰 관찰 신호 성분이고,
    Figure 112016045087555-pat00211
    는 n 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00212
    는 n 프레임의 관찰 신호의 비신뢰 성분이며, 상기 상태 인덱스는 다수의 가우시안 데이터가 혼합된 가우시안 믹스쳐를 훈련 데이터로 사용할 때에 각 가우시안 데이터를 식별하는 인덱스임.
    <수학식 31>
    Figure 112016045087555-pat00214

    상기 수학식 31에서
    Figure 112016045087555-pat00215
    은 n번 프레임의 l번째 인덱스의 가우시안의 사전 공헌 확률이고,
    Figure 112016045087555-pat00216
    는 현재 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00217
    는 1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00218
    는 1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00219
    는 1~N 프레임 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00220
    은 n번 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
    Figure 112016045087555-pat00221
    은 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
    Figure 112016045087555-pat00222
    는 n번 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
    Figure 112016045087555-pat00223
    는 n번째 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수임.
    <수학식 32>
    Figure 112016045087555-pat00226

    <수학식 33>
    Figure 112016045087555-pat00227

    상기 수학식 32 및 수학식 33에서,
    Figure 112016045087555-pat00228
    는 n번 째 프레임의 신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00229
    는 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드(Foward) 변수이고,
    Figure 112016045087555-pat00230
    는 1~n 프레임의 신뢰성분이고,
    Figure 112016045087555-pat00231
    는 1~n 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00232
    는 1~n 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00233
    는 n-1 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00234
    는 n 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00235
    는 가우시안 인덱스이고,
    Figure 112016045087555-pat00236
    는 n-1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 포워드 변수이고,
    Figure 112016045087555-pat00237
    는 n번째 프레임의 비신뢰 성분(벡터)이고,
    Figure 112016045087555-pat00238
    는 n번째 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00239
    는 n번째 프레임의 l번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드(Backward) 변수이고,
    Figure 112016045087555-pat00240
    는 n+1~N 프레임의 신뢰 성분이고,
    Figure 112016045087555-pat00241
    는 n+1~N 프레임의 비신뢰 성분이고,
    Figure 112016045087555-pat00242
    는 n+1~N 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00243
    는 n_+1 프레임의 상태 인덱스이고,
    Figure 112016045087555-pat00244
    (m)는 n+1 프레임의 m번째 가우시안 인덱스의 선험적 확률을 계산하기 위한 백워드 변수이고,
    Figure 112016045087555-pat00245
    는 n+1 프레임의 신뢰성분이고,
    Figure 112016045087555-pat00246
    는 n+1 프레임의 비신뢰성분이고,
    Figure 112016045087555-pat00247
    는 n+1 프레임의 비신뢰 관찰신호 성분이고,
    Figure 112016045087555-pat00248
    는 n+1 프레임의 상태 인덱스임.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    상기
    Figure 112016045087555-pat00249
    Figure 112016045087555-pat00250
    의 초기값
    Figure 112016045087555-pat00251
    Figure 112016045087555-pat00252
    은 수학식 34에 따라 산출됨을 특징으로 하는 강인음성인식을 위한 손실특징 복원장치.
    <수학식 34>
    Figure 112016045087555-pat00253

    상기 수학식 34에서
    Figure 112016045087555-pat00254
    는 l번째 가우시안 인덱스의 사후 확률임.
KR1020150037383A 2015-03-18 2015-03-18 강인음성인식을 위한 손실특징 복원방법 및 장치 KR101647058B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150037383A KR101647058B1 (ko) 2015-03-18 2015-03-18 강인음성인식을 위한 손실특징 복원방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150037383A KR101647058B1 (ko) 2015-03-18 2015-03-18 강인음성인식을 위한 손실특징 복원방법 및 장치

Publications (1)

Publication Number Publication Date
KR101647058B1 true KR101647058B1 (ko) 2016-08-10

Family

ID=56713559

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150037383A KR101647058B1 (ko) 2015-03-18 2015-03-18 강인음성인식을 위한 손실특징 복원방법 및 장치

Country Status (1)

Country Link
KR (1) KR101647058B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1327976A1 (en) 2001-12-21 2003-07-16 Cortologic AG Method and system for recognition of speech in a noisy environment
KR20130068869A (ko) 2011-12-16 2013-06-26 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
US8577678B2 (en) 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
KR20150026634A (ko) 2013-09-03 2015-03-11 서강대학교산학협력단 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1327976A1 (en) 2001-12-21 2003-07-16 Cortologic AG Method and system for recognition of speech in a noisy environment
US8577678B2 (en) 2010-03-11 2013-11-05 Honda Motor Co., Ltd. Speech recognition system and speech recognizing method
KR20130068869A (ko) 2011-12-16 2013-06-26 서강대학교산학협력단 관심음원 제거방법 및 그에 따른 음성인식방법
KR20150026634A (ko) 2013-09-03 2015-03-11 서강대학교산학협력단 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
조지원, 박형민, ‘가산잡음환경에서 강인한 음성인식을 위한 은닉 마르코프 모델 기반 손실 특징복원’, 말소리와 음성과학, 제6권, 제4호, pp.127~132, 2014년 12월.* *

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
US9595257B2 (en) Downsampling schemes in a hierarchical neural network structure for phoneme recognition
Sivaram et al. Sparse coding for speech recognition
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
US20060178871A1 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
Seo et al. A maximum a posterior-based reconstruction approach to speech bandwidth expansion in noise
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
US7454338B2 (en) Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data and extended vectors for speech recognition
WO2014173919A1 (en) Estimation of reliability in speaker recognition
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
US20040181409A1 (en) Speech recognition using model parameters dependent on acoustic environment
Nathwani et al. DNN uncertainty propagation using GMM-derived uncertainty features for noise robust ASR
KR101647058B1 (ko) 강인음성인식을 위한 손실특징 복원방법 및 장치
Lapidot et al. Generalized viterbi-based models for time-series segmentation applied to speaker diarization
KR20230094826A (ko) 음소 및 문맥 정보를 고려한 화자 임베딩 추출 방법 및 장치
JP2004509364A (ja) 音声認識システム
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
Turrisi et al. Improving generalization of vocal tract feature reconstruction: from augmented acoustic inversion to articulatory feature reconstruction without articulatory data
Baggenstoss Optimal detection and classification of diverse short-duration signals
Melin et al. Variance flooring, scaling and tying for text-dependent speaker verification
Abdolahi et al. GARCH coefficients as feature for speech recognition in Persian isolated digit
KR0170317B1 (ko) 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법
Szepannek et al. Extending features for automatic speech recognition by means of auditory modelling

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 4