KR101127184B1

KR101127184B1 - 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치

Info

Publication number: KR101127184B1
Application number: KR1020060011075A
Authority: KR
Inventors: 정소영; 오광철
Original assignee: 삼성전자주식회사
Priority date: 2006-02-06
Filing date: 2006-02-06
Publication date: 2012-03-21
Also published as: KR20070080032A

Abstract

본 발명은 히스토그램 정규화된 스태틱 특징 벡터 또는 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특정 벡터를 구하여 히스토그램 정규화한 후 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 히스토그램 정규화하는 방법 및 그 장치에 관한 것이다. 본 발명은 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법을 제공한다. 본 발명에 의하면, 델타 히스토그램 정규화를 이용함으로써 학습에 이용된 깨끗한 음성 특징 벡터의 멀티 포인트 통계량까지 정규화가 가능한 이점이 있다.

히스토그램, 특징 벡터, static, delta, acceleration

Description

델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법 및 그 장치{METHOD AND APPARATUS FOR NORMALIZING VOICE FEATURE VECTOR BY DELTA HISTOGRAM}

도 1은 본 발명에 따른 히스토그램 정규화 방법의 흐름을 나타내는 도면이다.

도 2는 본 발명에 따른 히스토그램 정규화 개념을 나타내는 도면이다.

도 3은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.

도 4는 본 발명의 일실시예에 따른 정규화 장치에 있어서, 스태틱 히스토그램 변환 결과를 나타내는 도면이다.

도 5는 본 발명의 일실시예에 따른 정규화 장치에 있어서, 델타 히스토그램 변환 결과를 나타내는 도면이다.

도 6은 본 발명의 일실시예에 따른 정규화 장치에 있어서, 액셀레이션 히스토그램 변환 결과를 나타내는 도면이다.

도 7은 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.

도 8은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.

도 9는 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.

<도면의 주요 부분에 대한 부호의 설명>

300, 700: 정규화 장치

301, 701: 스태틱 정규화부

302, 702: 델타 정규화부

303, 703: 액셀레이션 정규화부

310, 710: 평균 분산 정규화부

320, 720: 제1 누적 분포 함수 수행부

330, 730: 제1 미분부

340, 740: 제2 누적 분포 함수 수행부

350, 750: 제2 미분부

360, 760: 제3 누적 분포 함수 수행부

본 발명은 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 히스토그램 정규화된 스태틱 특징 벡터 또는 히스토그램 정규화되지 않는 스태틱 특징 벡터로부터 델타 특정 벡터를 구하여 히스토그램 정규화한 후 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구 하여 히스토그램 정규화하는 방법 및 그 장치에 관한 것이다.

일반적으로 음성 인식 시스템은 안정적인 음성 인식을 위한 필수 요소로서 잡음 환경에 강인한 음성 특징 벡터 추출을 수행해야만 한다.

이러한 잡음 환경의 음성 특징 벡터가 깨끗한 음성 데이터의 통계적 특성을 따르도록 히스토그램 정규화에 기반한 비선형 변환 알고리즘이 최근에 개발되어 오고 있다.

종래 히스토그램 정규화 방법의 일례로 Evaluation of quantile-based histogram normalization with filter combination on the Aurora3 and Aurora4 database(Hilger et al., RWTH Achen-University of Technology, Eurospeech, 2005)는 data sparcity를 극복하기 위해 CDF(Cumulative Distributed Function) 모델링을 전체 히스토그램으로 하지 않고, 4개의 quantile로 나누어 적용한다. 그러나, 종래 히스토그램 정규화 방법의 일례는 특징 벡터의 스태틱 계수(static coefficients)에 대한 변환만 언급되어 있을 뿐이다.

한편, 종래 히스토그램 정규화 방법의 다른 일례로 Enhanced histogram normalization in the acoustic feature space(Molau, et al., RWTH Achen-University of Technology, ICSLP, 2002)는 학습 데이터에 대해서 음성과 묵음 구간을 구분하여 각각 히스토그램 누적 분포 함수를 구하고, 묵음 구간의 비율을 고려하여 전체 누적 분포 함수를 계산한다. 하지만, 종래 히스토그램 정규화 방법의 다른 일례는 특징 벡터의 스태틱 계수에 대한 변환만 언급하고 있을 뿐이다.

한편, 종래 히스토그램 정규화 방법의 또 다른 일례로 Online parametric histogram normalization for noise robust speech recognition(US 2003/0204398, 2003년 10월, Nokia Corporation)는 테스트 음성 벡터에서 38개의 프레임 버퍼를 이용해 평균과 분산 값을 구한 다음 학습 데이터로부터 얻은 평균, 분산 값을 이용하여 히스토그램을 개선시켜 나간다. 하지만, 종래 히스토그램 정규화 방법의 또 다른 일례도 특징 벡터의 스태틱 계수에 대한 변환만 언급하고 있을 뿐이다.

종래 히스토그램 정규화의 기본 가정을 보완하기 위해 델타 히스토그램 정규화 방법이 도입되고 있다.

한편, 종래 히스토그램 정규화 방법의 또 다른 일례로 Normalization of time-derivative parameters using histogram equalization(Obuchi et al., Carnegie Mellon University, Eurospeech 2003)은 델타 특징 벡터와 델타-델타 특징 벡터에 히스토그램 정규화 방법을 적용하여 스태틱 벡터에만 히스토그램을 정규화하는 종래의 방법에 비해 향상된 인식 결과를 보인다. 하지만, 종래 히스토그램 정규화 방법은 액셀레이션 특징 벡터에 대한 히스토그램 정규화 방법을 적용하는데 있어 스태틱, 델타 특징을 히스토그램 정규화한 결과를 이용하지 않는 문제점이 있다.

따라서, 스태틱 특징 벡터 및 델타 특징 벡터를 이용하여 액셀레이션 특징 벡터에 대한 히스토그램을 정규화하는 방안이 절실하게 요청되어 오고 있다.

본 발명은 상기와 같은 종래기술을 개선하기 위해 안출된 것으로서, 다양한 환경에서 사용되는 음성 인식 시스템의 성능 안정화를 위한 델타 히스토그램을 이 용한 음성 특징 벡터의 정규화 방법 및 그 장치를 제공하는 것을 목적으로 한다.

본 발명의 다른 목적은 음성 인식 시스템에서 음성 신호의 선형 특징 왜곡뿐만 아니라 비선형 왜곡까지 정규화하는 방법 및 그 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 음성 인식 시스템에서 인접 시간 프레임상의 특징 벡터들 사이의 통계적인 특성도 보상해주는 정규화 방법 및 그 장치를 제공하는 것이다.

상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법을 제공한다.

본 발명의 다른 일측에 따르는 음성 특징 벡터의 정규화 방법은, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계 포함한다.

본 발명의 일측에 따르는 음성 특징 벡터의 정규화 장치는, 음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부를 포함한다.

본 발명의 다른 일측에 따르는 음성 특징 벡터의 정규화 장치는, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부를 포함한다.

이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 음성 특징 벡터의 정규화 방법 및 그 장치를 상세히 설명한다.

도 1을 참조하면, 단계(110)에서 음성 인식 시스템은 음성 신호에 대한 특징 벡터를 추출하기 위해 입력되는 음성 신호를 소정의 프레임 단위로 나눈다.

단계(120)에서 상기 음성 인식 시스템은 상기 음성 신호를 주파수 영역에서 분석하기 위해 상기 프레임 단위로 나뉜 음성 신호에 대해 FFT(Fast Fourier Transform)을 적용한다.

단계(130)에서 상기 음성 인식 시스템은 상기 FFT가 적용된 음성 신호에 대해 청각의 섬모 세포 신호 처리를 모방하여 주파수 영역 필터링(Mel-filterbank)을 수행한다.

단계(140)에서 상기 음성 인식 시스템은 상기 필터링된 음성 신호에 대한 동적 범위를 줄이기 위해 Log 압축(compression)을 수행한다.

단계(150)에서 상기 음성 인식 시스템은 각 밴드내 신호들 사이의 상관성을 없애기 위해 DCT(Discrete Cosine Transform)을 수행한다.

단계(160)에서 상기 음성 인식 시스템은 상기 각 밴드내 신호들이 제로 평균(zero mean), 단위 분산(unit variance)이 되도록 평균 분산 정규화(Mean Variance Normalization)를 수행한다. 즉, 단계(160)에서 상기 음성 인식 시스템은 도 2에 도시된 것과 같이 잡음 음성 신호가 평균 분산 정규화부(210)를 통과하면, 13차의 스태틱 MFCC(Mel Frequency Cepstral Coefficient) 신호를 얻을 수 있다.

단계(170)에서 상기 음성 인식 시스템은 테스트 음성 벡터의 통계적 특성이 모델 학습 벡터와 유사해지도록 하기 위해 히스토그램을 정규화한다.

즉, 단계(170)에서 상기 음성 인식 시스템은 상기 음성 신호에 대한 스태틱 히스토그램 정규화, 델타 히스토그램 정규화 및 액셀레이션 히스토그램 정규화를 수행한다.

단계(170)에서 상기 음성 인식 시스템은 도 2에 도시된 것과 같이 깨끗한 음성 신호에 대해 미리 구해 놓은 누적 분포 함수(Cumulative Distribution Function) 수행부(220)를 이용하면, 상기 스태틱 계수의 정규화된 히스토그램을 얻을 수 있다.

그리고, 단계(170)에서 상기 음성 인식 시스템은 프레임간의 연관성을 고려하기 위해서 각각 13차의 델타 계수와 액셀레이션 계수를 특징 벡터에 추가시킨다. 즉, 상기 음성 인식 시스템은 정규화된 스태틱 계수 벡터들의 인접한 프레임간의 미분 값들을 하기 수학식 1을 이용하여 계산할 수 있다.

도 2를 참조하면, 제1 미분부(230)는 상기 스태틱 계수의 정규화 히스토그램을 미분하여 델타 계수를 특징 벡터로 추출하고, 제2 미분부(240)는 상기 델타 계수 벡터를 미분하여 13차 액셀레이션 계수를 특징 벡터로 추출한다.

이와 같이, 본 발명에 따른 음성 특징 벡터의 정규화 방법은 13차의 스태틱 계수, 13차의 델타 계수 및 13차의 액셀레이션 계수가 누적됨에 따라 39차 특징 벡터를 추출할 수 있다.

따라서, 본 발명에 따른 음성 특징 벡터의 정규화 방법은 음성 신호에 대한 스태틱 특징 벡터에 대한 히스토그램 정규화뿐만 아니라 스태틱 특징 벡터로부터 델타 히스토그램 정규화 및 액셀레이션 히스토그램 정규화를 수행함으로써 음성 인식률을 향상시킬 수 있다.

도 3을 참조하면, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치(300)는 스태틱 정규화부(301), 델타 정규화부(302) 및 액셀레이션 정규화부(303)를 포함한다.

스태틱 정규화부(301)는 평균 분산 정규화부(310) 및 제1 누적 분포 함수 수행부(320)를 포함하며, 음성 신호에 대한 스태틱 히스토그램 정규화를 수행한다.

평균 분산 정규화부(310)는 MFCC 신호에 대한 평균 분산 정규화를 수행한다.

제1 누적 분포 함수 수행부(320)는 상기 평균 분산 정규화가 수행된 MFCC 신호에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 스태틱 특징 벡터를 구한다.

즉, 제1 누적 분포 함수 수행부(320)는 상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수를 이용하여 도 4에 도시된 것과 같은 스태틱 히스토그램 변환 결과를 얻을 수 있다.

도 4의 아래쪽 그래프에 도시된 바와 같이 깨끗한 음성에서 얻어진 스태틱 특징 벡터의 누적 확률 분포 함수(CDF)와 잡음 음성의 누적 확률 분포 함수는 동일하지 않으므로 인식 성능을 떨어뜨리는 요인이 된다. 따라서, 본 발명에 따른 히스토그램 정규화 과정을 통해 잡음 음성과 깨끗한 음성의 누적 확률 분포 함수를 맞추어주면, 도 4의 위쪽 그래프에 도시된 바와 같이 잡음 음성의 특징 벡터가 깨끗한 음성의 특징 벡터와 보다 유사한 모양으로 변환될 수 있다.

델타 정규화부(302)는 제1 미분부(330) 및 제2 누적 분포 함수 수행부(340)를 포함하며, 상기 히스토그램 정규화된 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 상기 델타 특징 벡터를 히스토그램 정규화한다.

제1 미분부(330)는 상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.

제2 누적 분포 함수 수행부(340)는 상기 델타 특징 벡터에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 델타 특징 벡터를 구한다.

즉, 제2 누적 분포 함수 수행부(340)는 상기 델타 특징 벡터를 상기 누적 분포 함수를 이용하여 도 5에 도시된 것과 같은 델타 히스토그램 변환 결과를 얻을 수 있다.

도 5를 참조하면, 본 발명에 따른 히스토그램 정규화 과정을 통해 잡음 음성의 델타 특징 벡터의 누적 확률 분포 함수가 깨끗한 음성의 누적 확률 분포 함수와 보다 더 유사한 모양을 갖게 되고, 시간 프레임에 따른 델타 특징 벡터 값들도 깨끗한 음성의 델타 특징 벡터의 모양을 따라가게 된다.

액셀레이션 정규화부(303)는 제2 미분부(350) 및 제3 누적 분포 수행부(360)를 포함하며, 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화한다.

제2 미분부(350)는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.

제3 누적 분포 함수 수행부(360)는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.

즉, 제3 누적 분포 함수 수행부(360)는 상기 액셀레이션 특징 벡터를 상기 누적 분포 함수를 이용하여 도 6에 도시된 것과 같은 액셀레이션 히스토그램 변환 결과를 얻을 수 있다.

도 6의 위쪽 그래프에서 보면, "Clean"은 깨끗한 음성의 시간 프레임에 따른 액셀레이션 특징 벡터 궤적이고, "Noisy"는 잡음 음성의 액셀레이션 특징 벡터 궤적이고, "Noisy-seqDCN"은 Obuchi(Eurospeech 2003 발표)의 히스토그램 변환 방식이 적용된 액셀레이션 특징 벡터 궤적이고, "Noisy-mod-seqDCN"은 본 발명에서 제안된 방식이 적용된 액셀레이션 특징 벡터 궤적이다. 도 6의 아래쪽 그림을 보면, 각각의 방식이 적용된 후의 액셀레이션 누적 확률 분포 함수가 나타나있고, 본 발명에서 제안된 히스토그램 변환 방식이 깨끗한 음성의 누적 확률 분포 함수와 가장 유사한 모양을 갖게 됨을 알 수 있다.

따라서, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치(300)는 히스토그램 정규화된 액셀레이션 계수가 델타 계수에서 누적된 오류까지 정규화할 수 있다.

도 7을 참조하면, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치(700)는 스태틱 정규화부(701), 델타 정규화부(702) 및 액셀레이션 정규화부(703)를 포함한다.

스태틱 정규화부(701)는 평균 분산 정규화부(710) 및 제1 누적 분포 함수 수행부(720)를 포함하며, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터를 히스토그램 정규화한다.

평균 분산 정규화부(710)는 MFCC 신호에 대한 평균 분산 정규화를 수행한다.

제1 누적 분포 함수 수행부(720)는 상기 평균 분산 정규화가 수행된 MFCC 신호에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 스태틱 특징 벡터를 구한다.

즉, 제1 누적 분포 함수 수행부(720)는 상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화할 수 있다. 그리고, 제1 누적 분포 함수 수행부(720)는 스태틱 계수(static coefficient)를 출력한다.

델타 정규화부(702)는 제1 미분부(730) 및 제2 누적 분포 함수 수행부(740)를 포함하며, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화한다.

제1 미분부(730)는 평균 분산 정규화부(710)로부터 출력된 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.

제2 누적 분포 함수 수행부(740)는 상기 델타 특징 벡터에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 델타 특징 벡터를 구한다. 그리고, 제2 누적 분포 함수 수행부(740)는 델타 계수(delta coefficient)를 출력한다.

액셀레이션 정규화부(703)는 제2 미분부(750) 및 제3 누적 분포 함수 수행부(760)를 포함하고, 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특 징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화한다.

제2 미분부(750)는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.

제3 누적 분포 함수 수행부(760)는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다. 그리고, 제3 누적 분포 함수 수행부(760)는 액셀레이션 계수(acceleration coefficient)를 출력한다.

따라서, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치(700)는 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하기 때문에 누적된 오류까지 누적 분포 함수를 이용하여 보상해줄 수 있다.

도 8을 참조하면, 단계(810)에서 정규화 장치는 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.

단계(820)에서 상기 정규화 장치는 상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.

이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(810) 및 단계(820)을 통해 상기 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터로부터 상기 델타 특징 벡터를 구하여 히스토그램 정규화할 수 있다.

단계(830)에서 상기 정규화 장치는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.

단계(840)에서 상기 정규화 장치는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.

이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(830) 및 단계(840)를 통해 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 히스토그램 정규화할 수 있다.

즉, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 상기 액셀레이션 계수를 구할 때 상기 히스토그램 정규화된 델타 계수에 대해 히스토그램 정규화를 재적용하는 방식을 이용한다.

따라서, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 히스토그램 정규화된 액셀레이션 계수가 델타 계수에서 누적된 오류까지 정규화할 수 있다.

도 9를 참조하면, 단계(910)에서 정규화 장치는 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.

단계(920)에서 상기 정규화 장치는 상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.

이와 같이, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(910) 및 단계(920)을 통해 상기 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 상기 델타 특징 벡터를 구하여 히스토그램 정규화할 수 있다.

단계(930)에서 상기 정규화 장치는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.

단계(940)에서 상기 정규화 장치는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.

이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(930) 및 단계(940)를 통해 상기 히스토그램 정규화된 델타 특징 벡터로부터 상기 액셀레이션 특징 벡터를 구하여 히스토그램 정규화할 수 있다.

따라서, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법은 상기 히스토그램 정규화한 델타 계수로부터 상기 액셀레이션 계수를 구하기 때문에 누적된 오류까지 상기 누적 분포 함수를 이용하여 보상해줄 수 있다.

본 발명에 따른 음성 특징 벡터의 정규화 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.

본 발명에 따르면, 델타 히스토그램 정규화를 이용함으로써 학습에 이용된 깨끗한 음성 특징 벡터의 멀티 포인트 통계량까지 정규화가 가능한 이점이 있다.

또한 본 발명에 따르면, 켑스트럼상에서 델타 히스토그램 정규화된 음성 특징 벡터가 스태틱 히스토그램 정규화만 이용한 음성 특징 벡터보다 깨끗한 음성 벡터의 특징과 보다 유사한 이점이 있다.

또한 본 발명에 따르면, 심한 잡음에 의한 왜곡 음성 벡터에 정규화 방식을 적용함으로써 음성 인식률을 향상시킬 수 있다.

Claims

음성 특징 벡터의 정규화 방법에 있어서,

음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 단계; 및

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
제1항에 있어서,

히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 상기 단계는,

상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 상기 델타 특징 벡터를 구하는 단계; 및

상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
제2항에 있어서,

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 상기 단계는,

상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 상기 액셀레이션 특징 벡터를 구하는 단계; 및

상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
음성 특징 벡터의 정규화 방법에 있어서,

음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계; 및

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 정규화 방법.
제4항에 있어서,

히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 상기 단계는,

상기 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 상기 델타 특징 벡터를 구하는 단계; 및

상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
제5항에 있어서,

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 상기 단계는,

상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 상기 액셀레이션 특징 벡터를 구하는 단계; 및

상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
음성 특징 벡터의 정규화 장치에 있어서,

음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부; 및

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
제8항에 있어서,

상기 델타 정규화부는,

상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제1 누적 분포 함수 수행부;

상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구하는 제1 미분부; 및

상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제2 누적 분포 함수 수행부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
제9항에 있어서,

상기 액셀레이션 정규화부는,

상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구하는 제2 미분부; 및

상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제3 누적 분포 함수 수행부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
음성 특징 벡터의 정규화 장치에 있어서,

음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부; 및

상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
제11항에 있어서,

상기 델타 정규화부는,

상기 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구하는 제1 미분부; 및

상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제1 누적 분포 함수 수행부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
제12항에 있어서,

상기 액셀레이션 정규화부는,

상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구하는 제2 미분부; 및

상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제2 누적 분포 함수 수행부

를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
제12항에 있어서,

상기 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터를 히스토그램 정규화하는 스태틱 정규화부를 더 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.