KR101127184B1 - 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치 - Google Patents

델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치 Download PDF

Info

Publication number
KR101127184B1
KR101127184B1 KR1020060011075A KR20060011075A KR101127184B1 KR 101127184 B1 KR101127184 B1 KR 101127184B1 KR 1020060011075 A KR1020060011075 A KR 1020060011075A KR 20060011075 A KR20060011075 A KR 20060011075A KR 101127184 B1 KR101127184 B1 KR 101127184B1
Authority
KR
South Korea
Prior art keywords
feature vector
histogram
normalization
delta
acceleration
Prior art date
Application number
KR1020060011075A
Other languages
English (en)
Other versions
KR20070080032A (ko
Inventor
정소영
오광철
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020060011075A priority Critical patent/KR101127184B1/ko
Publication of KR20070080032A publication Critical patent/KR20070080032A/ko
Application granted granted Critical
Publication of KR101127184B1 publication Critical patent/KR101127184B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 히스토그램 정규화된 스태틱 특징 벡터 또는 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특정 벡터를 구하여 히스토그램 정규화한 후 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 히스토그램 정규화하는 방법 및 그 장치에 관한 것이다. 본 발명은 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법을 제공한다. 본 발명에 의하면, 델타 히스토그램 정규화를 이용함으로써 학습에 이용된 깨끗한 음성 특징 벡터의 멀티 포인트 통계량까지 정규화가 가능한 이점이 있다.
히스토그램, 특징 벡터, static, delta, acceleration

Description

델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법 및 그 장치{METHOD AND APPARATUS FOR NORMALIZING VOICE FEATURE VECTOR BY DELTA HISTOGRAM}
도 1은 본 발명에 따른 히스토그램 정규화 방법의 흐름을 나타내는 도면이다.
도 2는 본 발명에 따른 히스토그램 정규화 개념을 나타내는 도면이다.
도 3은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.
도 4는 본 발명의 일실시예에 따른 정규화 장치에 있어서, 스태틱 히스토그램 변환 결과를 나타내는 도면이다.
도 5는 본 발명의 일실시예에 따른 정규화 장치에 있어서, 델타 히스토그램 변환 결과를 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 정규화 장치에 있어서, 액셀레이션 히스토그램 변환 결과를 나타내는 도면이다.
도 7은 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.
도 8은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.
도 9는 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
300, 700: 정규화 장치
301, 701: 스태틱 정규화부
302, 702: 델타 정규화부
303, 703: 액셀레이션 정규화부
310, 710: 평균 분산 정규화부
320, 720: 제1 누적 분포 함수 수행부
330, 730: 제1 미분부
340, 740: 제2 누적 분포 함수 수행부
350, 750: 제2 미분부
360, 760: 제3 누적 분포 함수 수행부
본 발명은 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 히스토그램 정규화된 스태틱 특징 벡터 또는 히스토그램 정규화되지 않는 스태틱 특징 벡터로부터 델타 특정 벡터를 구하여 히스토그램 정규화한 후 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구 하여 히스토그램 정규화하는 방법 및 그 장치에 관한 것이다.
일반적으로 음성 인식 시스템은 안정적인 음성 인식을 위한 필수 요소로서 잡음 환경에 강인한 음성 특징 벡터 추출을 수행해야만 한다.
이러한 잡음 환경의 음성 특징 벡터가 깨끗한 음성 데이터의 통계적 특성을 따르도록 히스토그램 정규화에 기반한 비선형 변환 알고리즘이 최근에 개발되어 오고 있다.
종래 히스토그램 정규화 방법의 일례로 Evaluation of quantile-based histogram normalization with filter combination on the Aurora3 and Aurora4 database(Hilger et al., RWTH Achen-University of Technology, Eurospeech, 2005)는 data sparcity를 극복하기 위해 CDF(Cumulative Distributed Function) 모델링을 전체 히스토그램으로 하지 않고, 4개의 quantile로 나누어 적용한다. 그러나, 종래 히스토그램 정규화 방법의 일례는 특징 벡터의 스태틱 계수(static coefficients)에 대한 변환만 언급되어 있을 뿐이다.
한편, 종래 히스토그램 정규화 방법의 다른 일례로 Enhanced histogram normalization in the acoustic feature space(Molau, et al., RWTH Achen-University of Technology, ICSLP, 2002)는 학습 데이터에 대해서 음성과 묵음 구간을 구분하여 각각 히스토그램 누적 분포 함수를 구하고, 묵음 구간의 비율을 고려하여 전체 누적 분포 함수를 계산한다. 하지만, 종래 히스토그램 정규화 방법의 다른 일례는 특징 벡터의 스태틱 계수에 대한 변환만 언급하고 있을 뿐이다.
한편, 종래 히스토그램 정규화 방법의 또 다른 일례로 Online parametric histogram normalization for noise robust speech recognition(US 2003/0204398, 2003년 10월, Nokia Corporation)는 테스트 음성 벡터에서 38개의 프레임 버퍼를 이용해 평균과 분산 값을 구한 다음 학습 데이터로부터 얻은 평균, 분산 값을 이용하여 히스토그램을 개선시켜 나간다. 하지만, 종래 히스토그램 정규화 방법의 또 다른 일례도 특징 벡터의 스태틱 계수에 대한 변환만 언급하고 있을 뿐이다.
종래 히스토그램 정규화의 기본 가정을 보완하기 위해 델타 히스토그램 정규화 방법이 도입되고 있다.
한편, 종래 히스토그램 정규화 방법의 또 다른 일례로 Normalization of time-derivative parameters using histogram equalization(Obuchi et al., Carnegie Mellon University, Eurospeech 2003)은 델타 특징 벡터와 델타-델타 특징 벡터에 히스토그램 정규화 방법을 적용하여 스태틱 벡터에만 히스토그램을 정규화하는 종래의 방법에 비해 향상된 인식 결과를 보인다. 하지만, 종래 히스토그램 정규화 방법은 액셀레이션 특징 벡터에 대한 히스토그램 정규화 방법을 적용하는데 있어 스태틱, 델타 특징을 히스토그램 정규화한 결과를 이용하지 않는 문제점이 있다.
따라서, 스태틱 특징 벡터 및 델타 특징 벡터를 이용하여 액셀레이션 특징 벡터에 대한 히스토그램을 정규화하는 방안이 절실하게 요청되어 오고 있다.
본 발명은 상기와 같은 종래기술을 개선하기 위해 안출된 것으로서, 다양한 환경에서 사용되는 음성 인식 시스템의 성능 안정화를 위한 델타 히스토그램을 이 용한 음성 특징 벡터의 정규화 방법 및 그 장치를 제공하는 것을 목적으로 한다.
본 발명의 다른 목적은 음성 인식 시스템에서 음성 신호의 선형 특징 왜곡뿐만 아니라 비선형 왜곡까지 정규화하는 방법 및 그 장치를 제공하는 것이다.
본 발명의 또 다른 목적은 음성 인식 시스템에서 인접 시간 프레임상의 특징 벡터들 사이의 통계적인 특성도 보상해주는 정규화 방법 및 그 장치를 제공하는 것이다.
상기의 목적을 이루고 종래기술의 문제점을 해결하기 위하여, 본 발명은 음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법을 제공한다.
본 발명의 다른 일측에 따르는 음성 특징 벡터의 정규화 방법은, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계 포함한다.
본 발명의 일측에 따르는 음성 특징 벡터의 정규화 장치는, 음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부를 포함한다.
본 발명의 다른 일측에 따르는 음성 특징 벡터의 정규화 장치는, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부 및 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부를 포함한다.
이하에서는 첨부된 도면들을 참조하여 본 발명의 실시예에 따른 음성 특징 벡터의 정규화 방법 및 그 장치를 상세히 설명한다.
도 1은 본 발명에 따른 히스토그램 정규화 방법의 흐름을 나타내는 도면이다.
도 1을 참조하면, 단계(110)에서 음성 인식 시스템은 음성 신호에 대한 특징 벡터를 추출하기 위해 입력되는 음성 신호를 소정의 프레임 단위로 나눈다.
단계(120)에서 상기 음성 인식 시스템은 상기 음성 신호를 주파수 영역에서 분석하기 위해 상기 프레임 단위로 나뉜 음성 신호에 대해 FFT(Fast Fourier Transform)을 적용한다.
단계(130)에서 상기 음성 인식 시스템은 상기 FFT가 적용된 음성 신호에 대해 청각의 섬모 세포 신호 처리를 모방하여 주파수 영역 필터링(Mel-filterbank)을 수행한다.
단계(140)에서 상기 음성 인식 시스템은 상기 필터링된 음성 신호에 대한 동적 범위를 줄이기 위해 Log 압축(compression)을 수행한다.
단계(150)에서 상기 음성 인식 시스템은 각 밴드내 신호들 사이의 상관성을 없애기 위해 DCT(Discrete Cosine Transform)을 수행한다.
단계(160)에서 상기 음성 인식 시스템은 상기 각 밴드내 신호들이 제로 평균(zero mean), 단위 분산(unit variance)이 되도록 평균 분산 정규화(Mean Variance Normalization)를 수행한다. 즉, 단계(160)에서 상기 음성 인식 시스템은 도 2에 도시된 것과 같이 잡음 음성 신호가 평균 분산 정규화부(210)를 통과하면, 13차의 스태틱 MFCC(Mel Frequency Cepstral Coefficient) 신호를 얻을 수 있다.
단계(170)에서 상기 음성 인식 시스템은 테스트 음성 벡터의 통계적 특성이 모델 학습 벡터와 유사해지도록 하기 위해 히스토그램을 정규화한다.
즉, 단계(170)에서 상기 음성 인식 시스템은 상기 음성 신호에 대한 스태틱 히스토그램 정규화, 델타 히스토그램 정규화 및 액셀레이션 히스토그램 정규화를 수행한다.
단계(170)에서 상기 음성 인식 시스템은 도 2에 도시된 것과 같이 깨끗한 음성 신호에 대해 미리 구해 놓은 누적 분포 함수(Cumulative Distribution Function) 수행부(220)를 이용하면, 상기 스태틱 계수의 정규화된 히스토그램을 얻을 수 있다.
그리고, 단계(170)에서 상기 음성 인식 시스템은 프레임간의 연관성을 고려하기 위해서 각각 13차의 델타 계수와 액셀레이션 계수를 특징 벡터에 추가시킨다. 즉, 상기 음성 인식 시스템은 정규화된 스태틱 계수 벡터들의 인접한 프레임간의 미분 값들을 하기 수학식 1을 이용하여 계산할 수 있다.
Figure 112006008561639-pat00001
도 2를 참조하면, 제1 미분부(230)는 상기 스태틱 계수의 정규화 히스토그램을 미분하여 델타 계수를 특징 벡터로 추출하고, 제2 미분부(240)는 상기 델타 계수 벡터를 미분하여 13차 액셀레이션 계수를 특징 벡터로 추출한다.
이와 같이, 본 발명에 따른 음성 특징 벡터의 정규화 방법은 13차의 스태틱 계수, 13차의 델타 계수 및 13차의 액셀레이션 계수가 누적됨에 따라 39차 특징 벡터를 추출할 수 있다.
따라서, 본 발명에 따른 음성 특징 벡터의 정규화 방법은 음성 신호에 대한 스태틱 특징 벡터에 대한 히스토그램 정규화뿐만 아니라 스태틱 특징 벡터로부터 델타 히스토그램 정규화 및 액셀레이션 히스토그램 정규화를 수행함으로써 음성 인식률을 향상시킬 수 있다.
도 3은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.
도 3을 참조하면, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치(300)는 스태틱 정규화부(301), 델타 정규화부(302) 및 액셀레이션 정규화부(303)를 포함한다.
스태틱 정규화부(301)는 평균 분산 정규화부(310) 및 제1 누적 분포 함수 수행부(320)를 포함하며, 음성 신호에 대한 스태틱 히스토그램 정규화를 수행한다.
평균 분산 정규화부(310)는 MFCC 신호에 대한 평균 분산 정규화를 수행한다.
제1 누적 분포 함수 수행부(320)는 상기 평균 분산 정규화가 수행된 MFCC 신호에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 스태틱 특징 벡터를 구한다.
즉, 제1 누적 분포 함수 수행부(320)는 상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수를 이용하여 도 4에 도시된 것과 같은 스태틱 히스토그램 변환 결과를 얻을 수 있다.
도 4의 아래쪽 그래프에 도시된 바와 같이 깨끗한 음성에서 얻어진 스태틱 특징 벡터의 누적 확률 분포 함수(CDF)와 잡음 음성의 누적 확률 분포 함수는 동일하지 않으므로 인식 성능을 떨어뜨리는 요인이 된다. 따라서, 본 발명에 따른 히스토그램 정규화 과정을 통해 잡음 음성과 깨끗한 음성의 누적 확률 분포 함수를 맞추어주면, 도 4의 위쪽 그래프에 도시된 바와 같이 잡음 음성의 특징 벡터가 깨끗한 음성의 특징 벡터와 보다 유사한 모양으로 변환될 수 있다.
델타 정규화부(302)는 제1 미분부(330) 및 제2 누적 분포 함수 수행부(340)를 포함하며, 상기 히스토그램 정규화된 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 상기 델타 특징 벡터를 히스토그램 정규화한다.
제1 미분부(330)는 상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.
제2 누적 분포 함수 수행부(340)는 상기 델타 특징 벡터에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 델타 특징 벡터를 구한다.
즉, 제2 누적 분포 함수 수행부(340)는 상기 델타 특징 벡터를 상기 누적 분포 함수를 이용하여 도 5에 도시된 것과 같은 델타 히스토그램 변환 결과를 얻을 수 있다.
도 5를 참조하면, 본 발명에 따른 히스토그램 정규화 과정을 통해 잡음 음성의 델타 특징 벡터의 누적 확률 분포 함수가 깨끗한 음성의 누적 확률 분포 함수와 보다 더 유사한 모양을 갖게 되고, 시간 프레임에 따른 델타 특징 벡터 값들도 깨끗한 음성의 델타 특징 벡터의 모양을 따라가게 된다.
액셀레이션 정규화부(303)는 제2 미분부(350) 및 제3 누적 분포 수행부(360)를 포함하며, 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화한다.
제2 미분부(350)는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.
제3 누적 분포 함수 수행부(360)는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.
즉, 제3 누적 분포 함수 수행부(360)는 상기 액셀레이션 특징 벡터를 상기 누적 분포 함수를 이용하여 도 6에 도시된 것과 같은 액셀레이션 히스토그램 변환 결과를 얻을 수 있다.
도 6의 위쪽 그래프에서 보면, "Clean"은 깨끗한 음성의 시간 프레임에 따른 액셀레이션 특징 벡터 궤적이고, "Noisy"는 잡음 음성의 액셀레이션 특징 벡터 궤적이고, "Noisy-seqDCN"은 Obuchi(Eurospeech 2003 발표)의 히스토그램 변환 방식이 적용된 액셀레이션 특징 벡터 궤적이고, "Noisy-mod-seqDCN"은 본 발명에서 제안된 방식이 적용된 액셀레이션 특징 벡터 궤적이다. 도 6의 아래쪽 그림을 보면, 각각의 방식이 적용된 후의 액셀레이션 누적 확률 분포 함수가 나타나있고, 본 발명에서 제안된 히스토그램 변환 방식이 깨끗한 음성의 누적 확률 분포 함수와 가장 유사한 모양을 갖게 됨을 알 수 있다.
따라서, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 장치(300)는 히스토그램 정규화된 액셀레이션 계수가 델타 계수에서 누적된 오류까지 정규화할 수 있다.
도 7은 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치의 구성을 나타내는 도면이다.
도 7을 참조하면, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치(700)는 스태틱 정규화부(701), 델타 정규화부(702) 및 액셀레이션 정규화부(703)를 포함한다.
스태틱 정규화부(701)는 평균 분산 정규화부(710) 및 제1 누적 분포 함수 수행부(720)를 포함하며, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터를 히스토그램 정규화한다.
평균 분산 정규화부(710)는 MFCC 신호에 대한 평균 분산 정규화를 수행한다.
제1 누적 분포 함수 수행부(720)는 상기 평균 분산 정규화가 수행된 MFCC 신호에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 스태틱 특징 벡터를 구한다.
즉, 제1 누적 분포 함수 수행부(720)는 상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화할 수 있다. 그리고, 제1 누적 분포 함수 수행부(720)는 스태틱 계수(static coefficient)를 출력한다.
델타 정규화부(702)는 제1 미분부(730) 및 제2 누적 분포 함수 수행부(740)를 포함하며, 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화한다.
제1 미분부(730)는 평균 분산 정규화부(710)로부터 출력된 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.
제2 누적 분포 함수 수행부(740)는 상기 델타 특징 벡터에 대해 누적 분포 함수를 이용하여 히스토그램 정규화된 델타 특징 벡터를 구한다. 그리고, 제2 누적 분포 함수 수행부(740)는 델타 계수(delta coefficient)를 출력한다.
액셀레이션 정규화부(703)는 제2 미분부(750) 및 제3 누적 분포 함수 수행부(760)를 포함하고, 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특 징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화한다.
제2 미분부(750)는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.
제3 누적 분포 함수 수행부(760)는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다. 그리고, 제3 누적 분포 함수 수행부(760)는 액셀레이션 계수(acceleration coefficient)를 출력한다.
따라서, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 장치(700)는 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하기 때문에 누적된 오류까지 누적 분포 함수를 이용하여 보상해줄 수 있다.
도 8은 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.
도 8을 참조하면, 단계(810)에서 정규화 장치는 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.
단계(820)에서 상기 정규화 장치는 상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.
이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(810) 및 단계(820)을 통해 상기 음성 신호에 대한 히스토그램 정규화된 스태틱 특징 벡터로부터 상기 델타 특징 벡터를 구하여 히스토그램 정규화할 수 있다.
단계(830)에서 상기 정규화 장치는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.
단계(840)에서 상기 정규화 장치는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.
이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(830) 및 단계(840)를 통해 상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 히스토그램 정규화할 수 있다.
즉, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 상기 액셀레이션 계수를 구할 때 상기 히스토그램 정규화된 델타 계수에 대해 히스토그램 정규화를 재적용하는 방식을 이용한다.
따라서, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 히스토그램 정규화된 액셀레이션 계수가 델타 계수에서 누적된 오류까지 정규화할 수 있다.
도 9는 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법의 흐름을 나타내는 도면이다.
도 9를 참조하면, 단계(910)에서 정규화 장치는 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구한다.
단계(920)에서 상기 정규화 장치는 상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.
이와 같이, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(910) 및 단계(920)을 통해 상기 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 상기 델타 특징 벡터를 구하여 히스토그램 정규화할 수 있다.
단계(930)에서 상기 정규화 장치는 상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구한다.
단계(940)에서 상기 정규화 장치는 상기 액셀레이션 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화한다.
이와 같이, 본 발명의 일실시예에 따른 음성 특징 벡터의 정규화 방법은 단계(930) 및 단계(940)를 통해 상기 히스토그램 정규화된 델타 특징 벡터로부터 상기 액셀레이션 특징 벡터를 구하여 히스토그램 정규화할 수 있다.
따라서, 본 발명의 다른 실시예에 따른 음성 특징 벡터의 정규화 방법은 상기 히스토그램 정규화한 델타 계수로부터 상기 액셀레이션 계수를 구하기 때문에 누적된 오류까지 상기 누적 분포 함수를 이용하여 보상해줄 수 있다.
본 발명에 따른 음성 특징 벡터의 정규화 방법은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명에 따르면, 델타 히스토그램 정규화를 이용함으로써 학습에 이용된 깨끗한 음성 특징 벡터의 멀티 포인트 통계량까지 정규화가 가능한 이점이 있다.
또한 본 발명에 따르면, 켑스트럼상에서 델타 히스토그램 정규화된 음성 특징 벡터가 스태틱 히스토그램 정규화만 이용한 음성 특징 벡터보다 깨끗한 음성 벡터의 특징과 보다 유사한 이점이 있다.
또한 본 발명에 따르면, 심한 잡음에 의한 왜곡 음성 벡터에 정규화 방식을 적용함으로써 음성 인식률을 향상시킬 수 있다.

Claims (14)

  1. 음성 특징 벡터의 정규화 방법에 있어서,
    음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 단계; 및
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
  2. 제1항에 있어서,
    히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 상기 단계는,
    상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 상기 델타 특징 벡터를 구하는 단계; 및
    상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
  3. 제2항에 있어서,
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 상기 단계는,
    상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 상기 액셀레이션 특징 벡터를 구하는 단계; 및
    상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
  4. 음성 특징 벡터의 정규화 방법에 있어서,
    음성 신호에 대한 히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 단계; 및
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 정규화 방법.
  5. 제4항에 있어서,
    히스토그램 정규화되지 않은 스태틱 특징 벡터로부터 델타 특징 벡터를 구하여 히스토그램 정규화하는 상기 단계는,
    상기 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 상기 델타 특징 벡터를 구하는 단계; 및
    상기 델타 특징 벡터를 누적 분포 함수를 이용하여 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
  6. 제5항에 있어서,
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 상기 단계는,
    상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 상기 액셀레이션 특징 벡터를 구하는 단계; 및
    상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 단계
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 방법.
  7. 제1항 내지 제6항 중 어느 한 항의 방법을 컴퓨터에서 실행하기 위한 프로그램을 기록하는 컴퓨터 판독 가능한 기록매체.
  8. 음성 특징 벡터의 정규화 장치에 있어서,
    음성 신호에 대한 히스토그램 정규화된 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부; 및
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  9. 제8항에 있어서,
    상기 델타 정규화부는,
    상기 음성 신호에 대한 스태틱 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제1 누적 분포 함수 수행부;
    상기 히스토그램 정규화된 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구하는 제1 미분부; 및
    상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제2 누적 분포 함수 수행부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  10. 제9항에 있어서,
    상기 액셀레이션 정규화부는,
    상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구하는 제2 미분부; 및
    상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제3 누적 분포 함수 수행부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  11. 음성 특징 벡터의 정규화 장치에 있어서,
    음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터로부터 델타(delta) 특징 벡터를 구하여 히스토그램 정규화하는 델타 정규화부; 및
    상기 히스토그램 정규화된 델타 특징 벡터로부터 액셀레이션(acceleration) 특징 벡터를 구하여 상기 액셀레이션 특징 벡터를 히스토그램 정규화하는 액셀레이션 정규화부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  12. 제11항에 있어서,
    상기 델타 정규화부는,
    상기 히스토그램 정규화되지 않은 스태틱 특징 벡터를 미분하여 델타 특징 벡터를 구하는 제1 미분부; 및
    상기 델타 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제1 누적 분포 함수 수행부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  13. 제12항에 있어서,
    상기 액셀레이션 정규화부는,
    상기 히스토그램 정규화된 델타 특징 벡터를 미분하여 액셀레이션 특징 벡터를 구하는 제2 미분부; 및
    상기 액셀레이션 특징 벡터를 누적 분포 함수(Cumulative Distribution Function)를 이용하여 히스토그램 정규화하는 제2 누적 분포 함수 수행부
    를 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
  14. 제12항에 있어서,
    상기 음성 신호에 대한 히스토그램 정규화되지 않은 스태틱(static) 특징 벡터를 히스토그램 정규화하는 스태틱 정규화부를 더 포함하는 것을 특징으로 하는 음성 특징 벡터의 정규화 장치.
KR1020060011075A 2006-02-06 2006-02-06 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치 KR101127184B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060011075A KR101127184B1 (ko) 2006-02-06 2006-02-06 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060011075A KR101127184B1 (ko) 2006-02-06 2006-02-06 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치

Publications (2)

Publication Number Publication Date
KR20070080032A KR20070080032A (ko) 2007-08-09
KR101127184B1 true KR101127184B1 (ko) 2012-03-21

Family

ID=38600510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060011075A KR101127184B1 (ko) 2006-02-06 2006-02-06 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치

Country Status (1)

Country Link
KR (1) KR101127184B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100270309B1 (ko) 1997-12-26 2000-10-16 정몽규 신호대 잡음비의 정규화에 의한 특징벡터 추출방법
US20030204398A1 (en) 2002-04-30 2003-10-30 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
KR100450787B1 (ko) 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR100270309B1 (ko) 1997-12-26 2000-10-16 정몽규 신호대 잡음비의 정규화에 의한 특징벡터 추출방법
US20030204398A1 (en) 2002-04-30 2003-10-30 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yasunari Obuchi, Richard M. Stern, "Normalization of time-derivative parameters using histogram equalization", EUROSPEECH 2003.

Also Published As

Publication number Publication date
KR20070080032A (ko) 2007-08-09

Similar Documents

Publication Publication Date Title
US11475907B2 (en) Method and device of denoising voice signal
KR100717401B1 (ko) 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
CN105679321A (zh) 语音识别方法、装置及终端
KR100897555B1 (ko) 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
Loweimi et al. Robust Source-Filter Separation of Speech Signal in the Phase Domain.
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN111261192A (zh) 一种基于lstm网络的音频检测方法、电子设备及存储介质
Hsieh et al. Employing median filtering to enhance the complex-valued acoustic spectrograms in modulation domain for noise-robust speech recognition
KR101127184B1 (ko) 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Lin et al. A robust method for speech replay attack detection
JP2006215228A (ja) 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体
Zhang et al. Robust Speaker Recognition Using Improved GFCC and Adaptive Feature Selection
Ghanbari et al. Spectral subtraction in the wavelet domain for speech enhancement
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Chiu et al. Analysis of physiologically-motivated signal processing for robust speech recognition.
Pan et al. Application of hidden Markov models in speech command recognition
Liu et al. Replay-attack detection using features with adaptive spectro-temporal resolution
Hidayat Frequency domain analysis of MFCC feature extraction in children’s speech recognition system
Gouda et al. Robust Automatic Speech Recognition system based on using adaptive time-frequency masking
Kumar et al. Noise Reduction Algorithm for Speech Enhancement
Allosh et al. Speech recognition of Arabic spoken digits
KR101005858B1 (ko) 히스토그램 등화를 이용한 음향모델 파라메터 적응 장치 및그 방법
Hidayata Frequency Domain Analysis of MFCC Feature Extraction in Children’s Speech Recognition System

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee