KR20020095731A - 음성특징 추출장치 - Google Patents

음성특징 추출장치 Download PDF

Info

Publication number
KR20020095731A
KR20020095731A KR1020010033915A KR20010033915A KR20020095731A KR 20020095731 A KR20020095731 A KR 20020095731A KR 1020010033915 A KR1020010033915 A KR 1020010033915A KR 20010033915 A KR20010033915 A KR 20010033915A KR 20020095731 A KR20020095731 A KR 20020095731A
Authority
KR
South Korea
Prior art keywords
voice
feature
feature vector
intensity
band pass
Prior art date
Application number
KR1020010033915A
Other languages
English (en)
Other versions
KR100381372B1 (ko
Inventor
김창민
오상훈
원영걸
이수영
Original Assignee
주식회사 엑스텔테크놀러지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엑스텔테크놀러지 filed Critical 주식회사 엑스텔테크놀러지
Priority to KR10-2001-0033915A priority Critical patent/KR100381372B1/ko
Publication of KR20020095731A publication Critical patent/KR20020095731A/ko
Application granted granted Critical
Publication of KR100381372B1 publication Critical patent/KR100381372B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 음성특징 추출장치에 관한 것으로서, 그 목적은 달팽이관에서 추출되는 음성특징과 유사하게 주파수 및 세기정보를 추출 시, 청각에 대한 상기 인지적 특성인 청각신호의 주파수에 따른 민감도 변화를 수용하여 잡음에 영향을 덜 받도록 하면서, 하나의 특징벡터 조성기만으로 음성특징을 추출하고 또한 추출된 음성특징을 축약시켜 데이터량을 줄이도록 하여 하드웨어 구현비용을 크게 절감하며, 음성구간 내에서 얻어진 전체 특징 데이터를 시간 및 크기에 대하여 정규화 과정을 거치게 하여 소리의 세기 및 발음시간에 성능이 민감하지 않도록 하는데 있다.
본 발명은 다수의 대역통과필터로부터 출력된 각 대역별 음성신호의 주파수와 세기정보를 청각의 인지적 특성에 따라 검출하여 잡음에 대한 민감도를 낮추는 음성특징 벡터를 산출하는 특징벡터 조성수단과, 특징벡터 조성수단에서 출력된 음성특징벡터의 차원 및 개수를 줄이는 특징축약수단과, 특징축약수단으로부터 출력된 음성 특징벡터를 음성구간동안 저장함과 아울러 시간 및 세기에 대하여 정규화처리하는 정규화처리수단으로 이루어짐을 특징으로 한다.

Description

음성특징 추출장치 {Apparatus for feature extraction of speech signals}
본 발명은 음성인식장치에 관한 것으로서, 보다 상세하게는 인간의 달팽이관에서 추출되는 음성특징과 유사하게 음성의 여러 주파수 및 세기 정보를 주변 잡음에 둔감하도록 추출하는 음성특징 추출장치에 관한 것이다.
일반적으로 음성인식장치는 도 1 에 도시된 바와 같이 입력된 음성신호의 특징을 추출하는 특징 추출부(11)와, 특징 추출부(11)에서 추출된 특징 데이터에 의하여 음성을 인식하는 인식기(12)로 구성된다.
특징 추출부(11)에 입력된 음성신호는 음성인식에 적합한 형태의 특징을 추출하는 단계를 거친 후, 그 결과를 이용하여 인식기(12)에서 인식하게 된다.
여기서, 일반적으로 음성특징추출을 위한 특징추출부(11)는 여러 가지 방법을 사용하나, 'MFCC'(Mel-Frequency Cepstrum Coefficient)나 'PLPCC'(Perceptual Linear Prediction Cepstrum Coefficient)가 대표적인 방법이다.
인식기(12)로는 'HMM'(Hidden Markov Model), 'DTW'(Dynamic Time Warping), 신경회로망 등의 방법이 많이 사용된다. 그러나, 이러한 특징추출방법들을 하드웨어로 구현할 때, 그 구현비용이 많이 소요되므로 실생활에 간편하게 응용할 수 있는 음성인식장치를 만들 수 없다. 즉, 이러한 방법들은 'ASIC'구현이 어렵기 때문에 소프트웨어로만 처리하거나, 디지털신호처리장치(DSP)를 이용해야하므로 시스템 구현비용이 많이 소요되는 문제점이 있었다.
이러한 하드웨어 상의 비용을 줄이기 위하여 간단한 음성특징을 추출하는 방법도 있으나, 이러한 방법들은 발성변화와 역신호 조건(소음, 마이크 및 채널의 왜곡, 룸반향(room reverberation) 등)에 의하여 성능이 저하되는 문제점이 있었다.
상기한 바와 같이 음성인식 시스템을 실생활에 응용하는데 장애가 되는 문제점을 해결하여, 보다 간단하면서 역신호 조건 및 발성변화에 영향을 덜 받는 특징추출방법으로 1994년 'Ghitza'가 앙상블 인터벌 히스토그램(Ensemble Interval Histogram : 이하 "EIH"라 약칭함) 모델을 발표하였다.
EIH 모델은 인간의 청각기관을 모델링한 것으로 음성신호를 주파수와 강도정보로 표현한다.
도 2는 종래 기술에 따른 EIH 모델의 블록 구성도로서, 음성신호가 입력되면 대역통과필터(BPF : Bandwidth Pass Filter)(121∼124)들은 귀의 달팽이관과 같이 음성신호를 여러 개의 다른 주파수 대역을 통과시킨 정보로 만들어준다.
이때, 소리의 크기 변화에 따라 음성이 비선형적 특성을 보이는 것은 대역통과필터(121∼124)의 비선형성으로 구현된다.
레벨교차 검출부(141)는 각 대역통과필터(121∼124)의 출력에서 주파수와 강도 정보를 추출하기 위해 여러 개의 레벨값과 비교하여 해당 레벨값과 교차하는 정보를 얻는다.
인터벌 히스토그램부(142)는 각 레벨값과 교차된 정보를 교차시간을 기준으로 추정한 주파수와 강도정보로 해석하여 인터벌 히스토그램을 작성한다.
이와 같이 각 대역필터(121∼24)의 출력에서 작성된 주파수와 강도정보를 나타내는 인터벌 히스토그램들은 가산기(170)를 통하여 합해져서 입력된 음성신호가 어떤시간에 어떤 주파수에서 어떠한 강도를 지니고 있는지를 나타내는 행렬형태의 데이터 'EIH(t,f)'가 얻어진다.
상기의 EIH 모델은 사람의 청각기관을 간단히 모방해서 인식에 적합한 좋은 특징을 추출하지만, 필터의 출력에서 여러 개의 레벨 교차값을 측정해야 하므로 이를 구현한 하드웨어는 복잡하다. 즉, N개의 대역통과필터와 각 필터에 M개의 레벨 교차 검출기가 연결되어 있으면, 총합 'M ×N'개의 레벨교차 검출기가 필요하게 되기 때문이다. 또한, 레벨값을 어떻게 설정해 두어야 할지도 중요한 파라미터인데, EIH 모델은 레벨값과 그 개수에 따라 성능의 변이가 심한 문제점이 있다.
이러한 문제점을 해결하기 위해 제안된 것이 'ZCPA(Zero-Crossing with Peak Amplitude)'모델이다. 이 'ZCPA' 모델은 EIH 모델을 간략화하여 하드웨어 구현이 용이하고 파라미터의 설정이 필요하지 않는 모델이다.
이 모델을 도 3을 참조하여 상세히 설명하면, 음성신호를 대역필터링하는 다수개의 대역통과필터(221∼224)와, 상기 각 대역통과필터(221∼224)를 통과한 음성신호의 특징을 추출하도록 영교차검출기(241)와 인터벌히스토그램부(242)와 최대값검출기(243)와 비선형변환기(244)를 포함하는 특징 추출부(230∼260)와, 상기 특징추출부(240)의 인터벌 히스토그램부(242)에서 출력된 인터벌히스토그램들을 가산하는 가산기(270)로 구성된다.
이와 같이 구성된 ZCPA 시스템은 사람의 음성이 입력되면 'ZCPA'모델의 대역통과필터(221∼224)에서 사람의 귀의 달팽이관과 같이 음성신호를 여러 개의 다른 주파수 대역을 통과시킨 정보를 영교차검출기(241)를 통해 영교차점을 검출한다. 영교차검출기(241)를 통해 검출된 영교차(zero crossing) 간격과 최대값 검출기(243)에 의해 검출된 영교차 간격 내의 최대값 정보를 사용하여 인터벌 히스토그램부(242)를 통해 인터벌히스토그램을 작성한다.
이때, 소리의 크기변화에 사람이 비선형적 특성을 보이는 것은, 최대값검출기(243)에서 추출된 최대값 정보를 비선형변환기(244)에 의해 비선형 변환시킨 후, 인터벌 히스토그램의 정보로 축적시키는 형태로 구현한다. 각 대역통과필터(221∼224)의 출력된 주파수와 강도정보를 나타내는 인터벌 히스토그램들은 가산기(270)를 통하여 합해져서, 입력된 음성신호가 어떤 시간에 어떠한 강도를 지니고 있는지를 나타내는 행렬 형태의 데이터 'ZCPA(t,f)'가 산출된다.
이와 같은 'ZCPA' 모델은 레벨 크로싱의 대안으로 영 교차 및 최대값 검출을 사용하므로 'EIH'모델보다 훨씬 간단하면서도 인식에 충분한 정도의 특징을 추출한다.
그러나, 이와 같은 종래기술에 따른 ZCPA 모델은 각각의 대역통과필터의 출력에서 영교차 및 최대값 검출 후 인터벌 히스토그램을 별도로 작성하고, 이를 가산기를 통하여 취합하여 행렬 형태의 특징추출 결과 데이터를 출력하므로 영교차 및 최대 값 검출기와 히스토그램 작성기가 대역통과필터 수만큼 필요한 문제점이있으며, 또한, 영 교차점 사이에서 최대값 하나만을 측정하여 세기정보로 사용하므로 추출된 특징이 잡음의 영향을 많이 받을 가능성이 있으며, 또한 인간의 청각에 대한 인지적 특성 중 하나인 청각신호의 주파수에 따른 민감도의 변화를 고려하지 않은 문제점이 있었다.
본 발명은 상기한 종래기술의 제반 문제점을 해결하기 위한 것으로, 그 목적은 달팽이관에서 추출되는 음성특징과 유사하게 주파수 및 세기정보를 추출 시, 청각에 대한 상기 인지적 특성인 청각신호의 주파수에 따른 민감도 변화를 수용하여 잡음에 영향을 덜 받도록 하면서, 하나의 특징벡터 조성기만으로 음성특징을 추출하며 또한 추출된 음성특징을 축약시켜 데이터량을 줄이도록 하여 하드웨어 구현 비용을 크게 절감하며, 음성구간 내에서 얻어진 전체 특징 데이터를 시간 및 크기에 대하여 정규화 과정을 거치게 하여 소리의 세기 및 발음시간에 성능이 민감하지 않도록 하는 음성특징 추출장치를 제공함에 있다.
도 1은 일반적인 음성인식을 개략적으로 도시한 블록 구성도이고,
도 2는 종래 기술에 따른 EIH방법에 의한 음성특징 추출장치의 블록 구성도이고,
도 3은 종래 기술에 따른 ZCPA 방법에 의한 음성특징추출장치의 블록구성도이고,
도 4는 본 발명에 따른 음성특징추출장치의 블록 구성도이고,
도 5는 도 4에서 특징벡터 조성부에서의 동작 흐름도이고,
도 6a는 도 4에서 특징벡터 조성부에서 출력되는 한 음성구간에서의 음성특징 파형도이고,
도 6b는 도 4에서 특징벡터 축약부에서 출력되는 한 음성구간에서의 음성특징 파형도이고,
도 6c는 도 4에서 정규화처리부에서 출력되는 한 음성구간에서의 음성특징 파형도이다.
< 도면의 주요부분에 대한 부호의 설명 >
301∼304 : 대역통과필터310 : 데이터 접속부
320 : 특징벡터 조성부321 : 영교차 검출기
322 : 음성세기 검출기323 : 주파수 민감도조절기
324 : 비선형 변환기325 : 특징축적기
330 : 특징축약부340 : 정규화 처리부
본 발명의 목적을 달성하기 위한 음성특징 추출장치는 입력된 음성신호를 대역통과필터를 통해 다수의 다른 주파수 대역으로 분할하여 입력된 음성신호의 특징을 추출하는 음성특징추출장치에 있어서, 상기 각 대역통과필터로부터 출력된 각 대역별 음성신호의 주파수와 세기정보를 청각의 인지적 특성에 따라 검출하여 잡음에 대한 민감도를 낮추는 음성특징 벡터를 산출하는 특징벡터 조성수단과, 상기 특징벡터 조성수단에서 출력된 음성특징벡터의 차원 및 개수를 줄이는 특징축약수단과, 상기 특징축약수단으로부터 출력된 음성 특징벡터를 음성구간동안 저장함과 아울러 시간 및 세기에 대하여 정규화처리하는 정규화처리수단을 포함하여 이루어짐을 특징으로 한다.
이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
도 4는 본 발명의 일 실시 예에 따른 음성특징 추출장치의 블록 구성도로서, 입력된 음성신호를 다수의 다른 주파수 대역으로 분할하는 제 1 내지 제 N 대역통과필터(301∼304)와, 상기 각 대역통과필터(301∼304)를 통해 출력된 음성신호를 설정된 순서에 따라 순차적으로 선택출력하는 데이터 접속부(310)와, 상기 데이터 접속부(310)를 통해 각 대역통과필터(301∼304)로부터 출력된 각 대역별 음성신호의 영 교차점과 세기정보를 검출하고 검출값에 청각의 인지적 특성을 적용하여 잡음에 대한 민감도를 낮추는 음성특징벡터(SD(f), f=1,2,‥‥,N)를 산출하는 특징벡터 조성부(320)와, 상기 특징벡터 조성부(320)에서 출력된 음성특징벡터(SD(f))의 차원을 줄이거나 소정시간동안의 벡터 수를 하나의 벡터로 변환시켜 축약된 특징벡터(RSD(f), f=1,2,‥‥, N)를 출력하는 특징축약부(330)와, 상기 특징축약부(330)로부터 출력된 특징벡터(RSD(f))를 소정의 음성구간동안 시간 및 세기에 대하여 정규화처리한 후 그 결과 데이터(FSD(t,f), t=1,2,‥‥,NT, f=1,2,‥‥NF)를 출력하는 정규화처리부(340)로 구성된다.
여기서, 특징벡터 조성부(320)는 상기 각 대역통과필터(301∼304)에서 대역통과된 음성신호의 영교차점을 검출하는 영교차검출기(321)와, 상기 각 대역통과필터(301∼304)에서 대역통과된 음성신호의 세기를 검출하는 음성세기 검출기(322)와, 상기 음성세기 검출기(322)에서 검출된 음성의 세기에 인간의 청각기관과 유사하게 주파수의 민감도를 조절하는 주파수 민감도조절기(323)와, 상기 주파수 민감도조절기(323)로부터 출력된 세기 정보를 비선형 변환하는 비선형 변환기(324)와, 상기 비선형 변환기(324)를 통해 변환된 각 주파수별 세기성분을 축적하여 특징벡터를 산출하는 특징축적기(325)로 구성된다.
이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 4 내지 도 6c를 참조하여 보다 상세히 설명하면 다음과 같다.
먼저, 본 발명은 디지털신호로 변환된 음성신호를 여과하는 과정과, 여과된 음성신호를 하나의 특징벡터 조성기로 잡음에 강한 음성특징을 인간이 인지하는것과 유사하게 추출하는 과정과, 추출된 음성특징 결과의 크기를 축소시키는 과정과, 축약된 음성특징의 시간 및 크기를 정규화하는 과정을 통하게 된다.
도 4는 이와 같은 과정을 구현하기 위한 본 발명에 따른 음성특징추출장치의 블록 구성도이다.
음성신호가 음성 입력장치(도면에 미도시)를 통하여 입력된 후, 디지털신호로 변환되어 다수의 대역통과필터(301∼304)에 입력된다. 다수의 대역통과필터(301∼304)들은 각각의 상이한 주파수 대역통과 특성을 가지고 있어서, 입력된 음성신호는 각각 대역통과특성에 따라 분할 출력하게된다.
각 대역통과특성에 따라 분할 출력된 음성신호는 데이터접속부(310)에 의하여 설정된 순서에 따라 선택되어 순차적으로 특징벡터조성부(320)로 전달된다.
특징벡터조성부(320)에서는 순차적으로 입력된 음성신호의 영 교차점 및 세기정보 검출을 통해 주파수와 세기 특징을 축적한다.
도 5는 특징벡터조성부(320)의 동작 흐름도로서, 먼저, 특징벡터성분(SD(f), f=1,2,‥‥,N)을 모두 '0'으로 초기화하고,(S101) 데이터접속부(310)에서 대역통과필터(301∼304)의 연결을 위한 순번을 초기화(i=0)한 후,(S102) 설정된 순서에 따라 대역통과필터(301∼304)로부터 순차적으로 음성신호를 입력한다.(S103)(S103)
예를 들면, 제 1 대역통과필터(301)의 출력에 대해 특징벡터조성부(320)가 동작하여 특징벡터 SD(f)에 특징정보를 기록하고, 다음 제 2 대역통과필터(302)의 출력에 대해 특징벡터를 추출하여 이전 특징벡터에 누산한다.
이를 위해 i번째 대역통과필터가 특징벡터조성부(320)에 연결되면 영교차 검출기(321)에서 영교차점을 검출하고, 음성세기 검출기(322)에서는 음성세기를 검출한다.(S104)(S106) 이때, 음성의 세기는 영 교차점 사이의 모든 데이터를 대상으로 적분형태로 구한다.
음성세기 검출기(322)에서 검출된 음성세기는 주파수 민감도 조절기(323)에서 청신경 세포에서 나타나는 각 주파수 대역 별 자극의 세기와 반응사이의 관계를 고려하여 주파수 민감도를 조절한다. 비선형변환기(324)에서는 주파수 민감도 조절기(232)를 거친 세기정보에 대해 청신경 세포가 지닌 비선형 변환을 수행한다. 그 결과 특정 주파수에 대한 특징값이 얻어진다.
특징축적기(325)에서는 특징벡터 SD(f)의 해당 주파수 성분(f)에 특징값을 누산한다.(S107)
산출된 특징벡터(SD(f))는 모든 대역통과필터(301∼304)에서 출력된 신호를 처리할 때까지 다음 대역통과필터로 연결 접속하여 데이터를 처리하게 된다.(S108)(S109)
이와 같은 특징벡터조성부(320)의 출력 SD(f)는 청각의 인지적 특성을 수용하고 잡음에 대해 덜 민감한 특징을 추출하기 위해 다음 수학식 1과같은 특징벡터(SD(f))를 산출한다.
여기서, xk(n;m)는 소정의 시점 m을 기준으로 한 음성 프레임에서 k 번째 필터의 출력이고, n은 해당 프레임 내에서의 시간을 나타내는 인덱스이고, Zk는 k번째 필터의 출력이 영교차되는 가지수이고, nl은 l번째 증가방향 영교차점이고, fl는 l과 (l+1)번째 영 교차점 사이의 시간차이의 역수로 구한 주파수를 나타내는 인덱스이고, gf(.)은 청신경 세포에서 자극의 세기와 반응사이의 관계를 나타내는 단조증가함수이다.
특히, gf(.)은 ZCPA에서 고려한 소리크기에 따른 비선형적 변환 g(.)외에 청각의 인지적 특성인 청각신호의 주파수에 따른 민감도 변화도 고려하여 주파수의 함수로 결정된다. 즉, gf(.)와 주파수에 영향을 받지않고 크기에만 영향을 받는 비선형적 함수 g(.)의 관계는 다음 수학식 2와 같이 표현된다.
g_f (v)=g(E(ω)*v)
여기서, E(ω)는 주파수에 대한 민감도이다.
ZCPA의 경우 최대값 만을 해당 주파수의 세기정보로 사용하였기에 잡음에 영향을 받게 되지만, 여기서는 수학식 1에서 보는 바와 같이 영 교차점 사이의 모든 데이터를 적분형태로 사용하였으므로 잡음의 영향을 덜 받게된다.
도 6은 특징벡터조성부(320)의 출력을 음성구간내에서 얻은 결과를 보여주는 그래프이다. 여기서 SD(f) (f=1,2,‥‥,16)을 한 음성구간 내에서 얻어진 45개의 프레임에 대하여 도시한 것이다.
이와 같이 특징벡터 조성부(320)에서 출력된 SD(f)는 특징축약부(330)에 입력되어 벡터의 차원(N)을 줄이거나 소정시간 동안 벡터의 수를 줄이도록 한다.
특징벡터 축약방법은 특징벡터조성부(320)에서 전달받은 특징벡터 SD(f)를 PCA(Principal Component Analysis), ICA(Independent Component Analysis) 또는 신경회로망을 사용하거나, 상기 각 방법을 조합하여 특징벡터를 축약한다. 또한, 음성특징 축약을 위하여 산술적 평균방법을 사용한다.
이와 같은 축약방법을 이용하여 벡터의 차원(N)을 'NF'로 줄이거나 여러시간(T)동안 모아진 T개의 벡터를 산술적으로 연산하여 하나의 벡터로 변환시킴으로 데이터의 양을 줄인다.
여기서 벡터의 차원을 줄이는 것은 한 특징벡터 내에서 주파수 성분 사이에 존재하는 상관관계를 이용해서 성분 사이의 상관관계가 아주 작은 특징벡터로 변환시키는 것을 뜻한다.
T시간 동안의 특징벡터를 산술적 계산에 의해 하나의 특징벡터로 변환시키는 것은 음성신호가 지닌 시간 축에서의 상관관계를 이용해서 시간 사이의 변화를 적당히 반영하는 특징벡터로 변환시키는 것을 뜻한다.
도 6b는 특징축약부(330)의 출력을 음성구간 내에서 얻은 결과를 보여주는 3차원 그래프이다. 즉, 도 6a에서 도시된 SD(f) (f=1,2,‥‥16)들을 특징추출 시간에 대해 축약하여 얻어진 9개의 프레임으로 변형된 RSD(f)(f=1,2,‥‥16)을 표시한것이다.
정규화처리부(340)는 특징축약부(330)로부터 전달된 특징벡터 RSD(f)(f=1,2,‥‥,NF)를 음성구간 동안 저장한 후 정규화 처리하여 그 결과 FSD(t,f) (t=1,2,‥‥,NT, f=1,2,‥‥,NF) 데이터를 출력한다. 즉, 음성은 사람에 따라 발음하는 시간과 세기가 다르므로 이러한 변화에 따른 특징벡터의 시간 축 및 특징성분의 세기변화를 정규화를 통해 흡수하고자 한다.
도 6c는 정규화처리부(340)의 출력을 음성구간 내에서 얻은 결과를 보여주는 그래프로서, 도 6b에서 도시된 바와 같이 RSD(f)는 9프레임으로 변형되었지만, 시간 정규화과정에 의해 FSD(t,f)는 16프레임을 가짐을 알 수 있다. 즉, 이 음성입력은 평균적 발음구간 보다 짧게 발음되었기에, 정규화에 의해 RSD의 프레임보다 FSD의 프레임이 많아진 경우이다.
본 발명의 다른 실시예로 특징벡터 조성부(320)를 통하여 출력된 특징벡터(SD(f))를 특징축약부(330)을 통한 특징축약 없이 바로 상기의 정규화처리부(340)로 전송하므로 정규화 과정을 거쳐 음성특징을 추출하게 된다.
한편, 본 발명에 따른 음성특징장치가 동작하는데 필요한 기억장치는 모든 데이터를 8비트로 표시할 경우, 다음과 같이 각 부에서 필요한 기억용량이 계산된다.
특징벡터조성부(320)는 특징축적에 사용되는 SD(f)(f=1,2,‥‥,N)을 저장하기 위한 N바이트가 필요하다.
특징 축약부(330)는 특징벡터조성부(320)에서 전달된 SD(f)(f=1,2,‥‥,N)을 T시간동안 저장하기 위한 N×T 바이트와 축약결과인 RSD(f)(f=1,2,‥‥NF)을 저장하기 위한 NF바이트가 필요하다.
정규화처리부(340)는 RSD(f) (f=1,2,‥‥,NF)를 음성구간 ST동안 저장하기 위한 (ST/T)×NF 바이트와 정규화 후 결과인 FSD(t,f) (t=1,2,‥‥,NT, f=1,2,‥‥,NF)를 저장하기 위한 NT×NF바이트가 필요하다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
이상에서 설명한 바와 같이, 본 발명에 따른 음성특징추출장치는 사람의 인지 기능에 근거하여 달팽이관이 추출하는 음성특징과 유사하게 음성의 다수의 주파수 및 세기 정보를 주변잡음의 영향에 민감하지 않으면서도 최소한의 장치를 사용하여 추출하므로, 음성인식의 필수단계인 특징추출의 성능을 향상시킬 수 있으며, 하드웨어 구현비용을 절감할 수 있는 효과가 있다.

Claims (6)

  1. 입력된 음성신호를 대역통과필터를 통해 다수의 다른 주파수 대역으로 분할하여 입력된 음성신호의 특징을 추출하는 음성특징추출장치에 있어서,
    상기 각 대역통과필터로부터 출력된 각 대역별 음성신호의 영 교차점과 세기정보를 검출하고 검출값에 청각의 인지적 특성을 적용하여 잡음에 대한 민감도가 낮은 음성 특징벡터를 산출하는 특징벡터 조성수단;
    상기 특징벡터 조성수단에서 출력된 음성 특징벡터의 차원 및 개수를 줄이는 특징축약수단; 및
    상기 특징축약수단으로부터 출력된 음성 특징벡터를 음성구간동안 저장함과 아울러 시간 및 세기에 대하여 정규화처리하는 정규화처리수단을 포함하여 이루어짐을 특징으로 하는 음성특징 추출장치.
  2. 제 1 항에 있어서, 상기 각 대역통과필터를 통과한 음성신호를 특징벡터 조성수단에 설정된 순번에 따라 순차적으로 전송하는 데이터 접속수단을 더 포함하고, 특징벡터 조성수단은 하나만 사용하도록 구성된 것을 특징으로 하는 음성특징 추출장치.
  3. 제 1 항에 있어서, 상기 특징벡터 조성수단은 상기 각 대역통과필터에서 대역통과된 음성신호의 영교차점을 검출하는 영교차검출기;
    상기 각 대역통과필터에서 대역통과된 음성신호의 세기를 검출하는 음성세기 검출기;
    상기 음성세기 검출기에서 검출된 음성의 세기에 대해서 주파수의 민감도를 조절하는 주파수 민감도조절기;
    상기 주파수 민감도조절기로부터 출력된 세기정보를 비선형 변환하는 비선형 변환기;
    상기 비선형 변환기를 통해 변환된 각 주파수별 세기 성분을 축적하여 특징벡터를 산출하는 특징축적기를 포함하여 이루어짐을 특징으로 하는 음성특징 추출장치.
  4. 제 3 항에 있어서, 상기 특징축적기에서 산출하는 특징벡터(SD(f))는
    에 의하여 산출함을 특징으로 하는 음성특징 추출장치.
    여기서, xk(n;m)는 시점 m을 기준으로 한 음성 프레임에서 k 번째 필터의 출력이고, n은 해당 프레임 내에서의 시간을 나타내는 인덱스이고, Zk는 k번째 필터의 출력이 영교차되는 가지수이고, nl은 l번째 증가방향 영교차점이고, fl는 l과 (l+1)번째 영 교차점 사이의 시간차이의 역수로 구한 주파수를 나타내는 인덱스이고, gf(.)은 청신경 세포에서 자극의 주파수 및 세기와 반응사이의 관계를 나타내는 단조증가함수이다.
  5. 제 1 항에 있어서, 상기 음성특징 축약수단은 PCA(Principal Component Analysis), ICA(Independent Component Analysis) 또는 신경회로망을 조합한 것 중 어느 하나인 것을 특징으로 음성특징 추출장치.
  6. 입력된 음성신호를 대역통과필터를 통해 다수의 다른 주파수 대역으로 분할하여 입력된 음성신호의 특징을 추출하는 음성특징추출장치에 있어서,
    상기 각 대역통과필터로부터 출력된 각 대역별 음성신호의 영 교차점과 세기정보를 검출하고 검출값에 청각의 인지적 특성을 적용하여 잡음에 대한 민감도가 낮은 음성 특징벡터를 산출하는 특징벡터 조성수단;
    상기 특징벡터 조성수단에서 출력된 음성 특징벡터를 음성구간동안 저장함과 아울러 시간 및 세기에 대하여 정규화처리하는 정규화처리수단을 포함하여 이루어짐을 특징으로 하는 음성특징 추출장치.
KR10-2001-0033915A 2001-06-15 2001-06-15 음성특징 추출장치 KR100381372B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2001-0033915A KR100381372B1 (ko) 2001-06-15 2001-06-15 음성특징 추출장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2001-0033915A KR100381372B1 (ko) 2001-06-15 2001-06-15 음성특징 추출장치

Publications (2)

Publication Number Publication Date
KR20020095731A true KR20020095731A (ko) 2002-12-28
KR100381372B1 KR100381372B1 (ko) 2003-04-26

Family

ID=27709442

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2001-0033915A KR100381372B1 (ko) 2001-06-15 2001-06-15 음성특징 추출장치

Country Status (1)

Country Link
KR (1) KR100381372B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100712409B1 (ko) * 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
KR100741608B1 (ko) * 2005-11-18 2007-07-20 엘지노텔 주식회사 가상 발신호 생성기능이 구비된 이동통신시스템 및 그제어방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833717A (en) * 1985-11-21 1989-05-23 Ricoh Company, Ltd. Voice spectrum analyzing system and method
KR870009323A (ko) * 1986-03-04 1987-10-26 구자학 음성신호의 특징 파라미터 추출회로
KR940007535Y1 (ko) * 1989-12-30 1994-10-22 금성통신 주식회사 실시간 음성특징 추출회로
KR940001807Y1 (ko) * 1991-07-29 1994-03-24 삼성항공산업 주식회사 영상 데이터의 스레시홀딩 회로
JPH06164409A (ja) * 1992-11-17 1994-06-10 Matsushita Electric Ind Co Ltd 帯域分割符号化方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100712409B1 (ko) * 2005-07-28 2007-04-27 한국전자통신연구원 벡터의 차원변환 방법
KR100741608B1 (ko) * 2005-11-18 2007-07-20 엘지노텔 주식회사 가상 발신호 생성기능이 구비된 이동통신시스템 및 그제어방법

Also Published As

Publication number Publication date
KR100381372B1 (ko) 2003-04-26

Similar Documents

Publication Publication Date Title
JP4177755B2 (ja) 発話特徴抽出システム
AU702852B2 (en) Method and recognizer for recognizing a sampled sound signal in noise
CN101208991A (zh) 具有加强的高频再现功能的助听器以及处理声频信号的方法
JP2004531767A5 (ko)
JPH09212196A (ja) 雑音抑圧装置
US5806022A (en) Method and system for performing speech recognition
US20020062211A1 (en) Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition
US8064699B2 (en) Method and device for ascertaining feature vectors from a signal
KR100381372B1 (ko) 음성특징 추출장치
Li et al. A high-performance auditory feature for robust speech recognition.
KR20050051435A (ko) 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법
US7418385B2 (en) Voice detection device
JP7184236B2 (ja) 声紋を認識する方法、装置、設備、および記憶媒体
JP2992324B2 (ja) 音声区間検出方法
JP2989219B2 (ja) 音声区間検出方式
JP3065088B2 (ja) 音声認識装置
CN115631743B (zh) 一种基于语音芯片的高精度语音识别方法及系统
JPH0318720B2 (ko)
KR100198057B1 (ko) 음성신호 특징 추출방법 및 장치
JPH0556520B2 (ko)
JP2966452B2 (ja) 音声認識装置の雑音除去システム
JP2001013977A (ja) 音声スペクトルのホルマント強調装置
JPS61126600A (ja) 音響波入力処理方法
JPH0232400A (ja) 音声の特徴抽出方法
JP2006084659A (ja) オーディオ信号分析方法、その方法を用いた音声認識方法、それらの装置、プログラムおよびその記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee