KR19990001828A - 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 - Google Patents

스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법 Download PDF

Info

Publication number
KR19990001828A
KR19990001828A KR1019970025277A KR19970025277A KR19990001828A KR 19990001828 A KR19990001828 A KR 19990001828A KR 1019970025277 A KR1019970025277 A KR 1019970025277A KR 19970025277 A KR19970025277 A KR 19970025277A KR 19990001828 A KR19990001828 A KR 19990001828A
Authority
KR
South Korea
Prior art keywords
spectrum
sigmoid
obtaining
signal
speech
Prior art date
Application number
KR1019970025277A
Other languages
English (en)
Other versions
KR100450787B1 (ko
Inventor
오광철
김동국
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR1019970025277A priority Critical patent/KR100450787B1/ko
Publication of KR19990001828A publication Critical patent/KR19990001828A/ko
Application granted granted Critical
Publication of KR100450787B1 publication Critical patent/KR100450787B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

본 발명은 음성인식 시스템에서 입력된 신호로부터 음성 특징을 추출하는 방법에 관한 것으로, 특히 음성의 스펙트럼을 잡음의 양에 따라 정규화한 후, 켑스트럼 형태의 특징 벡터를 얻음으로써, 잡음이 있는 경우 음성 인식에 사용할 수 있도록, 입력 음성신호에 대해 프레임 단위로 스펙트럼을 분석하는 스펙트럼 분석부(1)와 ; 멜-스케일로 구성된 필터뱅크를 통하여 간략화된 스펙트럼을 구하는 필터 뱅크부(2) ; 스펙트럼 신호의 동적 영역을 줄이는 로그 압축부(3) ; 시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정하는 잡음 구간 검출부(4) ; 스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구하는 시그모이드 파라미터 계산부(5) ; 스펙트럼 신호를 정규화하는 시그모이드 함축부(6) 및 ; 인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구하는 이산 코사인 변환부(7)를 포함하여 구성함을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법에 관한 것이다.

Description

스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법
본 발명은 음성인식 시스템에서 입력된 신호로부터 음성 특징을 추출하는 방법에 관한 것으로, 특히 음성의 스펙트럼을 잡음의 양에 따라 정규화한 후, 켑스트럼 형태의 특징 벡터를 얻음으로써, 잡음이 있는 경우 음성 인식에 사용할 수 있는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법에 관한 것이다.
음성 특징 추출은, 각 음성의 음가를 서로 구분할 수 있도록 패턴을 만드는 일이다.
그리고, 음성인식 알고리즘은 추출된 음성 특징으로 이루어진 패턴을 비교하여 음성을 인식하게 된다.
따라서, 음성인식 시스템은 음성의 특징이 잘 추출되어야 성능이 좋다.
일반적으로, 음성 특징 추출은 신호의 주파수 스펙트럼의 특성에 기초하여 구해진다.
음성 인식 시스템에서 음성 특징을 추출하는 방법은, 전극 모델을 이용한 파라메트릭(parametric) 방법의 선형 예측 계수-켑스트럼(lpc-cepstrum) 방법과, 스펙트럼 정보를 직접 이용한 비파라메트릭(non-parametric) 방법의 멜-주파수 켑스트럼 계수(Mel-Frequency Cepstrum Coefficient 이하 MFCC 라 칭함) 방법이 있다.
배경 잡음이 있는 경우, 선형 예측 계수-켑스트럼(lpc-cepstrum) 방법의 전극 모델에 에러가 많아서 멜-주파수 켑스트럼 계수(MFCC) 방법의 특징을 주로 사용한다.
상기와 같은 멜-주파수 켑스트럼 계수(MFCC) 방법으로 음성 특징을 추출하는 장치는 도 1 에 도시된 바와 같이, 음성 신호의 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석(spectral analysis)부(10)와 ; 구하여진 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터 뱅크부(20) ; 간략화된 스펙트럼의 크기(amplitude)를 로그 함수를 이용하여 함축시키는 로그 압축부(30) 및 ; 이를 이산 코사인 변환(Discrete Cosine Transform 이하 DCT 라 칭함)을 통하여 켑스트럼 계수를 얻어내는 이산 코사인 변환부(40)를 포함하여 구성되어 있다.
상기와 같이 구성된 장치를 이용한 종래의 음성 특징 추출 방법은 다음과 같다.
음성 신호는 스펙트럼 분석부(10)에서 주파수 스펙트럼 정보를 추출한다.
이때, 스펙트럼 정보는 도 2 와 같이 추출된다.
먼저, 신호의 고주파 부분을 강조하는 프리 엠퍼시스(pre-emphasis) 필터(11)를 통과하여, 10msec 정도의 프레임(frame)단위로 버퍼(12)에 저장된다.
한 프레임의 데이터가 모아지면 이를 해밍 창(Haimming window)(13)을 씌우고, 이를 고속 푸리에 변환(Fast Fourier Transform 이하 FFT 라 칭함)(14)을 이용하여 주파수 스펙트럼 정보를 얻어낸다.
도 2 에서 M은 한 프레임에 해당하는 샘플수를 나타내어, 8kHz 샘플링한 데이터에 10msec를 하나의 프레임이라 하면 “80”이 된다. 또, 2N은 고속 푸리에 변환(FFT)의 변환 단위로 보통 20~30msec 정도의 단위이다.
이렇게 구하여진 스펙트럼으로부터, 멜 스케일(mel-scale)된 10여개에서 20여개의 필터 뱅크부(20)를 통하여, 간략화된 스펙트럼의 포락선을 구한다.
간략화된 스펙트럼의 크기(amplitude)는, 로그 압축부(30)에서 로그 함수를 이용하여 함축되고, 이를 이산 코사인 변환부(40)를 통하여 켑스트럼 계수를 얻어내는 방법으로 음성 특징 벡터들을 구하게 된다.
멜-주파수 켑스트럼 계수(MFCC) 방법으로 구해지는 특징 벡터 자체도, 배경 잡음에 영향을 받아 인식률을 저하시키지만 이경우, 스펙트럼 감법(spectral subtraction)이나 라스타 처리(Rasta processing) 등을 통하여 이를 보상하는 방법이 개발되었다.
스펙트럼 감법은, 배경잡음의 스펙트럼을 구하여 잡음에 의해 왜곡된 음성에서 잡음 성분만 제거하는 방식으로 잡음 제거에 주로 사용되는 방법이다.
이때, 배경잡음의 스펙트럼을 정확히 구해야 하는 문제가 발생하여 큰 효과를 거두지 못하고 있다.
라스타 처리는, 스펙트럼의 시간에 따른 변화를 이용한 것으로, 인간의 청각 시스템이 주파수 스펙트럼이 변화하는 구간에서 보다 많은 정보를 얻어낸다는 사실을 응용한 것이다.
즉, 도 3 과 같이 로그 함축된 간략한 스펙트럼들의 각 주파수 밴드의 출력에 대해 대역 통과(bandpass) 필터(50)를 통과 시킨다.
이 대역 통과 필터(50)는, 그 주파수 대역의 값들중 변화량이 적은 정상 상태의 배경 잡음이 포함되는 저주파 영역(보통 수 Hz이하)의 정보와, 변화량이 음성의 변화(보통 수십 Hz)보다도 큰 시변잡음 성격의 정보를 제거하는 역할을 한다.
이상과 같이 배경 잡음이 있는 경우의 음성 특징 추출 방법은, 잡음과 음성이 혼재하는 스펙트럼에서 잡음의 스펙트럼을 제거하는 형식으로 이루어진다.
그러나, 일반적으로 잡음이 늘어나는 양에 비해 음성 신호의 성분은, 도 4 에 도시된 바와 같이 거의 늘어나지 않기 때문에, 상대적으로 잡음에 대한 스펙트럼을 제거하더라도 음성 성분도 감소하는 효과를 가지게 된다.
이는 음성 특징 벡터의 모양을 변화시켜 음성 인식 성능의 저하를 가져온다.
이에 본 발명은 상기한 바와 같은 종래의 제 문제점들을 해소시키기 위하여 창안된 것으로, 음성의 스펙트럼을 잡음의 양에 따라 정규화한 후, 켑스트럼 형태의 특징 벡터를 얻음으로써, 잡음이 있는 경우 음성 인식에 사용할 수 있는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치 및 방법을 제공하는데 그 목적이 있다.
도 1 은 종래의 음성 특징 추출 방식(MFCC)에 대한 예시도,
도 2 는 고속 푸리에 변환(FFT)을 이용한 스펙트럼 분석법의 예시도,
도 3 은 라스타(Rasta) 필터링에 의한 특징 추출 방법의 예시도,
도 4 는 주파수 스펙트럼의 한 밴드 값의 시간에 따른 변화 특성 파형도,
도 5 는 본 발명에 따른 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치의 블록 구성도,
도 6 은 HSFR 섬모세포와 LSFR 섬모세포의 firing rate 특성 파형도,
도 7 은 깨끗한 음성 신호에 대한 MFCC에 의한 스펙트럼 특성 파형도,
도 8 은 백색 잡음이 섞인 음성 신호에 대한 MFCC에 의한 스펙트럼 특성 파형도,
도 9 는 깨끗한 음성 신호에 대한 SDRN에 의한 스펙트럼 특성 파형도,
도 10 은 백색 잡음이 섞인 음성 신호에 대한 SDRN에 의한 스펙트럼 특성 파형도,
도 11 은 잡음 정도에 따른 특징 추출 방법들에 의한 연속어 숫자음 인식 실험의 에러율 비교 예시도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
1 : 스펙트럼 분석부 2 : 필터 뱅크부
3 : 로그 압축부 4 : 잡음 구간 검출부
5 : 시그모이드 파라미터 계산부 6 : 시그모이드 함축부
7 : 이산 코사인 변환부
상기한 바와 같은 목적을 달성하기 위한 본 발명은, 입력 음성신호에 대해 프레임 단위로 스펙트럼을 분석하는 스펙트럼 분석부(1)와 ; 멜-스케일로 구성된 필터뱅크를 통하여 간략화된 스펙트럼을 구하는 필터 뱅크부(2) ; 스펙트럼 신호의 동적 영역을 줄이는 로그 압축부(3) ; 시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정하는 잡음 구간 검출부(4) ; 스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구하는 시그모이드 파라미터 계산부(5) ; 스펙트럼 신호를 정규화하는 시그모이드 함축부(6) 및 ; 인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구하는 이산 코사인 변환부(7)를 포함하여 구성함을 특징으로 한다.
또한, 상기한 바와 같은 목적을 달성하기 위한 본 발명은, 스펙트럼 분석부(1)를 통하여, 입력된 음성 신호에서 프레임 단위로 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석 과정과 ; 필터 뱅크부(2)를 통하여, 추출된 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터 뱅크 과정 ; 로그 압축부(3)를 통하여, 간략화된 스펙트럼 신호의 동적 영역을 로그(log) 함수를 이용하여 함축시키는 로그 압축 과정 ; 잡음 구간 검출부(4)를 통하여, 시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정하는 잡음 구간 검출 과정 ; 시그모이드 파라미터 계산부(5)를 통하여, 스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구하는 시그모이드 파라미터 계산 과정 ; 시그모이드 함축부(6)를 통하여, 스펙트럼 신호를 정규화하는 시그모이드 함축 과정 및 ; 이산 코사인 변환부(7)를 통하여, 시그모이드 함수로 정규화된 스펙트럼 신호의 인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구하는 이산 코사인 변환 과정을 포함하여 이루어짐을 특징으로 한다.
본 발명의 목적에 따른, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치의 동작 원리를, 상세히 설명하면 다음과 같다.
본 발명은, 배경 잡음의 스펙트럼을 제거하였을 때 음성 스펙트럼의 성분이 감소하는 것을 방지하기 위하여, 배경 잡음의 양에 따라 스펙트럼 진폭의 동적 영역이 자동적으로 할당되는 함수를 이용하였다.
따라서, 이 함수를 통과한 스펙트럼의 동적 영역은 배경 잡음에 따라 일정하게 유지되어, 잡음 스펙트럼만을 제거했을 때 음성 신호의 동적 영역이 감소하는 현상을 없앴다. 이는 기존의 멜-주파수 켑스트럼 계수(MFCC) 특징 추출 방식에 시그모이드 함수로 함축하는 부분이 포함된다.
또한, 본 발명은 배경 잡음에 의해 신호의 동적 영역이 감소하는 현상을 보상하여 음성의 특징을 추출하는 것으로, 인간의 청각 특성에 기초한 방식이다.
인간의 청각 기관중, 내이의 달팽이관(cochlea)에서 주파수 스펙트럼 형태로 분석된 정보를, 대뇌의 중추기관에서 처리가 가능한 신경 신호로 바꾸어 주는 부분이 섬모세포(hair cell)들의 집합이다.
이들은 하나의 주파수 성분에 대해 다수의 섬모세포가 관여하는데, 이들은 신호가 없을 때 신경 펄스를 발생시키는 주기에 따라 도 6 에 도시한 바와 같이, 주기가 짧은 높은 자연 점호율(high-spontaneous firing rate 이하 HSFR 라 칭함) 섬모세포와, 주기가 긴 낮은 자연 점호율(low-spontaneous firing rate 이하 LSFR 라 칭함) 섬모세포로 나뉜다.
높은 자연 점호율(HSFR) 섬모세포는, 일상적인 상태인 조용한 상태에서 신경 정보를 제공하는 세포로, 그 동적 영역이 크고 낮은 진폭에 해당한다.
배경 잡음이 커지면 달팽이관에 의한 주파수 스펙트럼의 진폭도 커지게 되고, 이 경우 높은 자연 점호율(HSFR) 섬모세포는 포화상태에 이르러, 더 이상 정보를 제공하지 못한다.
이 경우, 낮은 자연 점호율(LSFR) 섬모세포가 활성화 되어, 신경 정보를 중추기관에 제공한다.
따라서, 이와 같은 방법으로 사람은, 배경 잡음이 큰 경우에도 음성을 인식할 수 있는 신경 정보를 얻게 되는 것이다.
청각 기관의 이러한 메카니즘을 시그모이드 함수로 근사화시켰다.
시그모이드 함수는 도 7 에 도시한 바와 같이, 청각 섬모세포의 특성과 유사한 모양을 가진다.
[수학식 1]
여기서, X(n,k)는 n번째 프레임의 k번째 주파수 대역의 로그(log) 압축된 스펙트럼 정보의 값이고, r(n,k)는 이에 대한 시그모이드 함수로 정규화한 값이다.
또, A는 일반 스펙트럼의 크기를 유지하기 위한 상수 값이고,는 k번째 대역에 대한 시그모이드 함수의 모양을 결정하는 파라미터들이다.
따라서, 배경 잡음의 스펙트럼 대역의 크기에 따라 이들 두 개의 파라미터를 구하면 시그모이드 함수로 스펙트럼을 정규화할 수 있다.
이들 파라미터를 배경 잡음의 스펙트럼 양에 따라 결정하기 위한 수학식은 다음과 같이 얻어진다.
먼저 시그모이드 함수값 r(n,k)가 0.5A가 되는 Xc(n,k)를 구하면 다음과 같다.
[수학식 2]
또, r(n,k)=0.9A가 되는 X(n,k)와, r(n,k)=0.1A가 되는 X(n,k)의 차이를 그 신호 X(n,k)의 동적 영역 DX(n,k)라 하면 다음과 같이 구해진다.
[수학식 3]
따라서, 배경 잡음에 대해 Xc(n,k)와 DX(n,k)를 알면, 다음과 같이 시그모이드 함수의 파라미터를 구하여 그 모양을 결정할 수 있다.
[수학식 4]
배경 잡음에서 각 대역에 대한 Xc(n,k)와 DX(n,k)를 구하는 방법은 다음과 같다.
먼저, 입력 신호로부터 20 프레임 정도의 X(n,k)값이 변화가 적으면 배경 잡음 구간으로 보고, 그 대역의 평균 Xavg(k)를 구한다.
계속된 입력 신호에 대한 그 대역의 X(n,k) 값의 변화가 적으면, 평균 Xavg(k)를 수정해 나가다가 음성신호가 들어오면 Xavg(k)를 그대로 놔두고, 시그모이드 함수의 파라미터 값을 구하기 위해 Xc(n,k)와 DX(n,k)를 다음과 같이 구한다.
[수학식 5]
여기서, Xmax(k)는 k번째 대역의 스펙트럼 크기의 최대값이고, a와 b는 실험적으로 구할 수 있는 일차함수의 파라미터로, Xavg(k)와 시그모이드 함수의 입력 동적 영역의 최소값과의 관계로부터 구한다.
r은 시그모이드 함수값이 0.5A가 되게 하는 입력 Xc(n,k)를, 동적 영역의 최대값 Xmax(k)와 b+aXavg(k) 사이에 어디에 위치하게 할 것인가를 결정하는 변수이다.
따라서, 동적 영역을 정규화한 특징 추출 방법의 동적 영역 정규화 과정은 다음과 같이 동작한다.
먼저 입력 신호로부터 배경 잡음을 찾아내어 Xavg(k)를 구한다.
음성 신호가 들어오면, Xavg(k)로부터 상기 수학식 5 를 이용하여 Xc(n,k)와 DX(n,k)를 구한다.
그러면 시그모이드 함수의 모양은 Xc(n,k)와 DX(n,k)로부터 상기 수학식 4 를 이용하여를 구하여 결정한다.
이후, 주파수 스펙트럼에 대해 와 값들과, 상기 수학식 1 을 이용한 시그모이드 함수로 동적 영역을 정규화 한다.
이상의 시그모이드 함수를 이용한 스펙트럼의 동적 영역 정규화에 의한 음성 특징 추출 방법의 동작은 다음과 같다.
먼저, 음성 신호는 스펙트럼 분석부(1)에서 프레임 단위로 주파수 스펙트럼 정보를 추출한다.
이렇게 구하여진 스펙트럼으로부터, 멜 스케일(mel-scale)된 10여개에서 20여개의 필터 뱅크부(2)를 통하여, 간략화된 스펙트럼의 포락선을 구한다.
간략화된 스펙트럼의 크기(amplitude)는, 로그 압축부(3)에서 로그(log) 함수를 이용하여 함축되고, 잡음 구간 검출부(4)를 통하여 시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정한다.
한편, 시그모이드 파라미터 계산부(5)를 통하여 스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구한 후, 시그모이드 함축부(6)에서 스펙트럼 신호를 정규화한다.
상기와 같이, 시그모이드 함수로 정규화된 스펙트럼 신호는, 이산 코사인 변환부(7)를 통하여 인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구한다.
한편, 본 발명에 따른 스펙트럼의 동적 영역 정규화에 의한 음성 특징 추출 방법의 성능을 평가하기 위하여, 먼저 배경 잡음이 있는 경우의 최종 스펙트럼을 구하였다.
이를 위하여 상기 수학식 5 에 있는 변수들은 다음과 같이 정하였다.
Xmax(k) = 78.0for all k
a = 0.625
b = 27.5
r = 0.25
또한, 상기 수학식 1 에 있는 상수 A는 50.0으로 정하였다.
한 프레임은 10msec이며, 해밍 창(Hamming window)은 세개의 프레임에 대하여 수행하였고, 고속 푸리에 변환(FFT)은 256포인트를 사용하였다.
프리 엠퍼시스(Pre-emphasis) 파라미터는 0.97로 하였고, 필터 뱅크는 19개의 대역을 가지도록 구성하였다.
각 필터 뱅크의 모양은 삼각형 형태로, 각각의 중앙 주파수는 로그 스케일에서 구하였고, 인접한 필터의 중앙 주파수에서의 값이 “0”이고, 그 필터의 중앙 주파수에서의 값이 “1”인 삼각형 형태이다.
이때, 기존의 멜-주파수 켑스트럼 계수(MFCC) 방식으로 구한 주파수 스펙트럼을 도 7 에 나타 내었고, 10 데시벨(dB)의 백색 잡음을 섞었을 때의 주파수 스펙트럼을 도 8 에 나타내었다.
잡음이 섞였을 때의 주파수 스펙트럼은, 고주파 영역의 밴드에 대해 모두 큰 값을 가지고 있어서, 서로 구분하기가 어렵다.
그러나, 본 발명에 따른 스펙트럼의 동적 영역 정규화 방식에 의한 스펙트럼을 잡음이 없을 때와 10 데시벨(dB)의 백색 잡음이 있을 때 각각 도 9 와 도 10 에 나타내었다.
그림에서 보듯이 잡음이 섞였을 때에도 고주파 영역의 대역에서도 정보를 얻을 수 있었다.
따라서, 잡음이 있을 때에도 그 신호의 정보를 유지하고 있음을 알 수 있다.
이와같은 결과는 다음과 같이 음성 인식 실험을 하였을 때도 나타난다.
인식 실험은 한국어 연속어 숫자음에 대하여 수행하였다.
인식 알고리즘은 연속 혼합(continous mixture) 히든 마르코프 모델(Hidden Markov Model 이하 HMM 이라 칭함)을 사용하였다.
배경 잡음은 앞서의 실험과 같이 백색 잡음을 첨가하여 수행 하였는 데, 이 잡음 데이터는 NOISEX 의 잡음 데이터를 랜덤한 포인트부터 섞어서 만들었다.
본 발명에 따른 방법과 성능을 비교하기 위하여 동일한 방법으로 멜-주파수 켑스트럼 계수(MFCC)와 라스타(Rasta)에 의한 특징 추출의 인식 실험도 수행하였다.
인식 실험 결과 에러율은 도 11 에 도시한 바와 같다.
가로축은 각각 잡음이 섞인 정도로 신호 잡음비(SNR)로 나타내었고, 세로축은 이들의 에러율이다. 여기서 신호 잡음비(SNR)중 30 데시벨(dB)은 깨끗한 음성을 의미한다.
멜-주파수 켑스트럼 계수(MFCC)는 잡음에 따라 에러율이 많이 증가하나, 라스타(Rasta) 방식의 특징 벡터 에러율은 상당한 잡음에서도 어느정도 유지한다.
그러나, 15 데시벨(dB) 이하에서는 에러율이 많이 증가한다.
반면에, 스펙트럼의 동적 영역 정규화(Spectrum Dynamic Range Normalization 이하 SDRN 이라 칭함)에 의한 특징 추출 방법은 잡음이 더 섞여도 에러율의 증가가 억제된다.
따라서, 스펙트럼의 동적 영역 정규화(SDRN) 방식의 특징 벡터가, 잡음에 대하여 강한 면모를 보이고 있다.
이상에서 상세히 설명한 바와 같이 본 발명은, 음성 인식 시스템의 전처리 과정인 음성 특징 추출 부분을 개선한 것으로, 배경 잡음이 있는 경우 신호의 주파수 스펙트럼이 왜곡되는 것을 각 스펙트럼 대역의 동적 영역(dynamic range)을 유지 또는 정규화하여 보상할 수 있다.
또한, 인간의 청각기관의 섬모세포가 배경 잡음의 크기에 따라 신경정보를 만들어 내는 세포의 특성이 다른 점을 응용하여, 배경 잡음의 크기에 따라 동적 영역의 정규화 범위와 위치를 다르게 가져가는 구조로, 이와같이 처리된 주파수 스펙트럼을 기초하여 음성 특징을 추출하면, 배경 잡음이 커져도 인식률의 저하를 최소화할 수 있다.
따라서, 본 시스템을 이용하면 음성 인식의 성능을 향상시킬 수 있다.
특히, 사무실 환경잡음, 음악 잡음등 배경 잡음이 있는 경우 스펙트럼의 정규화로 특징 벡터가 잡음이 없는 경우와 유사하여, 음성인식 시스템의 성능을 유지하게 된다.

Claims (5)

  1. 입력 음성신호에 대해 프레임 단위로 스펙트럼을 분석하는 스펙트럼 분석부(1)와 ;
    멜-스케일로 구성된 필터뱅크를 통하여 간략화된 스펙트럼을 구하는 필터 뱅크부(2) ;
    스펙트럼 신호의 동적 영역을 줄이는 로그 압축부(3) ;
    시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정하는 잡음 구간 검출부(4) ;
    스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구하는 시그모이드 파라미터 계산부(5) ;
    스펙트럼 신호를 정규화하는 시그모이드 함축부(6) 및 ;
    인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구하는 이산 코사인 변환부(7)를 포함하여 구성함을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 장치.
  2. 스펙트럼 분석부(1)를 통하여, 입력된 음성 신호에서 프레임 단위로 주파수 스펙트럼 정보를 추출하는 스펙트럼 분석 과정과 ;
    필터 뱅크부(2)를 통하여, 추출된 스펙트럼으로부터 간략화된 스펙트럼의 포락선을 구하는 필터 뱅크 과정 ;
    로그 압축부(3)를 통하여, 간략화된 스펙트럼 신호의 동적 영역을 로그(log) 함수를 이용하여 함축시키는 로그 압축 과정 ;
    잡음 구간 검출부(4)를 통하여, 시그모이드(sigmoid) 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정하는 잡음 구간 검출 과정 ;
    시그모이드 파라미터 계산부(5)를 통하여, 스펙트럼 신호의 동적 영역을 정규화하기 위하여 시그모이드 함수의 파라미터를 구하는 시그모이드 파라미터 계산 과정 ;
    시그모이드 함축부(6)를 통하여, 스펙트럼 신호를 정규화하는 시그모이드 함축 과정 및 ;
    이산 코사인 변환부(7)를 통하여, 시그모이드 함수로 정규화된 스펙트럼 신호의 인식 알고리즘에 사용되는 특징 벡터로써 켑스트럼을 구하는 이산 코사인 변환 과정을 포함하여 이루어짐을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 방법.
  3. 2 항 에 있어서,
    상기 잡음 구간 검출 과정은,
    Xmax(k)는 k번째 대역의 스펙트럼 크기의 최대값이고, a와 b는 실험적으로 구할 수 있는 일차함수의 파라미터로, Xavg(k)와 시그모이드 함수의 입력 동적 영역의 최소값과의 관계로부터 구한다고 할 때,
    와 같은 방법을 사용하여, 배경 잡음에서 시그모이드 함수의 파라미터를 구하기 위한 정보를 얻는 구간을 설정함을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 방법.
  4. 2 항 에 있어서,
    상기 시그모이드 파라미터 계산 과정은,
    r(n,k)=0.9A가 되는 X(n,k)와 r(n,k)=0.1A가 되는 X(n,k)의 차이를 그 신호 X(n,k)의 동적 영역 DX(n,k)라 하면,
    와 같은 방법을 사용하여, 시그모이드 함수의 파라미터를 구함으로써, 그 모양을 결정함을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 방법.
  5. 2 항 에 있어서,
    상기 시그모이드 함축 과정은,
    X(n,k)는 n번째 프레임의 k번째 주파수 대역의 로그(log) 압축된 스펙트럼 정보의 값이고, r(n,k)는 이에 대한 시그모이드 함수로 정규화한 값이라고 할 때,
    와 같은 방법을 사용하여, 배경 잡음의 스펙트럼 대역의 크기에 따라 시그모이드 함수로 스펙트럼을 정규화함을 특징으로 하는, 스펙트럼의 동적영역 정규화에 의한 음성 특징 추출 방법.
KR1019970025277A 1997-06-18 1997-06-18 스펙트럼의동적영역정규화에의한음성특징추출장치및방법 KR100450787B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019970025277A KR100450787B1 (ko) 1997-06-18 1997-06-18 스펙트럼의동적영역정규화에의한음성특징추출장치및방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019970025277A KR100450787B1 (ko) 1997-06-18 1997-06-18 스펙트럼의동적영역정규화에의한음성특징추출장치및방법

Publications (2)

Publication Number Publication Date
KR19990001828A true KR19990001828A (ko) 1999-01-15
KR100450787B1 KR100450787B1 (ko) 2005-05-03

Family

ID=37302381

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019970025277A KR100450787B1 (ko) 1997-06-18 1997-06-18 스펙트럼의동적영역정규화에의한음성특징추출장치및방법

Country Status (1)

Country Link
KR (1) KR100450787B1 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100421013B1 (ko) * 2001-08-10 2004-03-04 삼성전자주식회사 음성 향상 시스템 및 방법
KR100556505B1 (ko) * 1998-05-14 2006-03-06 소니 가부시끼 가이샤 재생 및 기록 장치, 디코딩 장치, 기록 장치, 재생 및 기록 방법, 디코딩 방법, 및 기록 방법
KR100701253B1 (ko) * 2005-01-20 2007-03-29 광주과학기술원 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
KR101236539B1 (ko) * 2010-12-30 2013-02-25 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
KR101689332B1 (ko) * 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
KR20180097496A (ko) 2018-08-24 2018-08-31 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101127184B1 (ko) 2006-02-06 2012-03-21 삼성전자주식회사 델타 히스토그램을 이용한 음성 특징 벡터의 정규화 방법및 그 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991011696A1 (en) * 1990-02-02 1991-08-08 Motorola, Inc. Method and apparatus for recognizing command words in noisy environments
JP3345930B2 (ja) * 1993-01-06 2002-11-18 日産自動車株式会社 アクティブコントロール装置
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
US5806029A (en) * 1995-09-15 1998-09-08 At&T Corp Signal conditioned minimum error rate training for continuous speech recognition
JP3687181B2 (ja) * 1996-04-15 2005-08-24 ソニー株式会社 有声音/無声音判定方法及び装置、並びに音声符号化方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100556505B1 (ko) * 1998-05-14 2006-03-06 소니 가부시끼 가이샤 재생 및 기록 장치, 디코딩 장치, 기록 장치, 재생 및 기록 방법, 디코딩 방법, 및 기록 방법
KR100421013B1 (ko) * 2001-08-10 2004-03-04 삼성전자주식회사 음성 향상 시스템 및 방법
KR100701253B1 (ko) * 2005-01-20 2007-03-29 광주과학기술원 이동통신 환경 하에서의 서버 기반 음성 인식을 위한음성부호화 방법 및 장치
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR100776803B1 (ko) * 2006-09-26 2007-11-19 한국전자통신연구원 다채널 퍼지 융합을 통한 지능형 로봇의 화자 인식 장치 및그 방법
KR101236539B1 (ko) * 2010-12-30 2013-02-25 부산대학교 산학협력단 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
KR101689332B1 (ko) * 2015-09-11 2016-12-23 충남대학교산학협력단 정보 기반 소리 음량 조절 장치 및 그 방법
KR20180097496A (ko) 2018-08-24 2018-08-31 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Also Published As

Publication number Publication date
KR100450787B1 (ko) 2005-05-03

Similar Documents

Publication Publication Date Title
Strope et al. A model of dynamic auditory perception and its application to robust word recognition
US8428945B2 (en) Acoustic signal classification system
Ghitza Temporal non-place information in the auditory-nerve firing patterns as a front-end for speech recognition in a noisy environment
Kapoor et al. Parkinson’s disease diagnosis using Mel-frequency cepstral coefficients and vector quantization
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN108682432B (zh) 语音情感识别装置
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Ghitza Robustness against noise: The role of timing-synchrony measurement
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
Meenakshi et al. Robust whisper activity detection using long-term log energy variation of sub-band signal
Hsieh et al. Robust speech features based on wavelet transform with application to speaker identification
KR100450787B1 (ko) 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
Hsu et al. Voice activity detection based on frequency modulation of harmonics
Haque et al. Perceptual features for automatic speech recognition in noisy environments
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
Chennupati et al. Spectral and temporal manipulations of SFF envelopes for enhancement of speech intelligibility in noise
US20030046069A1 (en) Noise reduction system and method
JPH0449952B2 (ko)
Schädler et al. Normalization of spectro-temporal Gabor filter bank features for improved robust automatic speech recognition systems
Ghulam et al. A noise-robust feature extraction method based on pitch-synchronous ZCPA for ASR.
Bonifaco et al. Comparative analysis of filipino-based rhinolalia aperta speech using mel frequency cepstral analysis and Perceptual Linear Prediction
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Kingsbury et al. Improving ASR performance for reverberant speech
Poblete et al. Optimization of the parameters characterizing sigmoidal rate-level functions based on acoustic features
Jing et al. Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110830

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20120830

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee