KR20060131705A - 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 - Google Patents

복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 Download PDF

Info

Publication number
KR20060131705A
KR20060131705A KR1020060118896A KR20060118896A KR20060131705A KR 20060131705 A KR20060131705 A KR 20060131705A KR 1020060118896 A KR1020060118896 A KR 1020060118896A KR 20060118896 A KR20060118896 A KR 20060118896A KR 20060131705 A KR20060131705 A KR 20060131705A
Authority
KR
South Korea
Prior art keywords
noise
speech
signal
statistical model
voice
Prior art date
Application number
KR1020060118896A
Other languages
English (en)
Other versions
KR100718749B1 (ko
Inventor
장준혁
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020060118896A priority Critical patent/KR100718749B1/ko
Publication of KR20060131705A publication Critical patent/KR20060131705A/ko
Application granted granted Critical
Publication of KR100718749B1 publication Critical patent/KR100718749B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)

Abstract

본 발명은 복소수 감마 통계 모델을 이용한 음성 검출기 및 음성 검출 방법에 관한 것으로서, 보다 구체적으로는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계와, 상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계와, 상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계와, 상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 계산하는 단계를 포함하는 음성 검출 방법 및 이를 구현한 음성 검출기에 관한 것이다.
본 발명은, 복소수 감마 통계 모델을 음성 검출에 이용함으로써, 잡음의 유형 및 SNR 조건에 따라서 기존의 가우시안 통계 모델을 사용하는 경우에 비해 더 좋은 성능을 제공할 수 있다.
음성 검출, 음성 검출기, 복소수 감마 통계 모델, 고속 푸리에 변환기, 잡음 파워 추정부, 우도비 결정부, 결정 규칙 계산부, 평탄화된 형태, 평탄화 파라미터, 잡음의 유형, 백색 잡음, 차량 잡음, 배블 잡음, 신호 대 잡음비(SNR)

Description

복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성 검출기{A METHOD AND A SYSTEM FOR DETECTING VOICE ACTIVITY BASED ON A COMPLEX GAMMA STATISTICAL MODEL}
도 1은 백색 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 1(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 1(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.
도 2는 차량 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 2(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 2(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.
도 3은 배블 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 3(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 3(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면.
도 4는 백색 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 4(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.
도 5는 차량 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 5(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.
도 6은 배블 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 6(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타내는 도면.
도 7은 본 발명의 실시예에 따른 음성 검출기의 구성을 나타내는 도면.
<도면의 주요 부분에 대한 부호의 설명>
10 : 고속 푸리에 변환기
20 : 잡음 파워 추정부
30 : 우도비 결정부
40 : 결정 규칙 계산부
본 발명은 음성 검출 방법 및 음성 검출기에 관한 것으로서, 특히 복소수 감마 통계 모델에 기초한 음성 검출기 및 음성 검출 방법에 관한 것이다.
음성 검출(VAD; Voice Activity Detection)은, 활성 음성(active speech)을 비음성으로부터 구분하는 고전적인 문제를 지칭하는 것으로, 음성 코딩, 음성 인식, 잡음이 섞인 음성의 향상, 핸즈프리 회의, 및 에코 제거와 같은 다양한 음성 통신 시스템에 대한 애플리케이션을 가지고 있다. 특히, VAD는, 통신 대역폭의 용량 및 커버리지를 향상시키는 가장 정밀한 방식 중 하나인 가변 음성 코딩의 주요한 부분이 되어 왔다. 이러한 이유로, 다양한 유형의 VAD 알고리즘이 제안되어 왔다. VAD에 대한 초기 알고리즘들은 대부분 선형 예측 코딩(LPC; linear prediction coding) 파라미터들, 에너지 레벨들, 포먼트 형상, 영 교차 비율(ZCR; zero crossing rate), 켑스트럴 특성(cepstral features), 음성 신호의 적응 모델링, 및 주기성 평가에 기초하고 있다. 보다 최근에는, 패턴 인식 및 LPC 잔여의 고차 큐뮬런트(higher order cumulants)에 기초한 VAD 접근법이 새로운 전략으로서 제안되어 왔다. 예를 들면, 특히 에너지 차이, ZCR, 및 스펙트럼 차이를 ITU-T G.729 Annex B에 적용시켜 왔다. 유사한 접근법을, 3세대 파트너십 프로젝트2(3GPP2; 3rd Generation Partnership Project2), ITU-T G.723.1 및 유럽 전화통신 표준 협회(European Telecommunications Standards Institutes) 적응형 다-비율(AMR; Adaptive Multi-Rate) VAD 옵션 2에서 선택 가능한 모드 보코더에 적용하는 시도도 있었다.
최근에, 일련의 가설이 적용된 우도비 테스트(LRT; Likelihood Ratio Test)로부터 구해지는 결정 규칙과 함께, 통계 모델을 이용함으로써 VAD의 성능을 개선하려는 노력이 이루어져 왔다. VAD 알고리즘에 기초한 통계 모델은 Ephraim과 Malah의 연구로부터 비롯되었다. 일부 연구자들은 가우시안 통계 모델을 VAD에 적용하는 알고리즘을 시도하였는데, 여기서 파라미터들의 평가가 DD(decision-directed) 접근법에 의해 수행되었다. 이 알고리즘은, 비록 관련 파라미터들의 최적화가 요구되기는 하였으나, 기존의 알고리즘에 비해 높은 검출 정확도를 나타내었다. 통계 모델에 기초한 방법은 소프트 결정 스킴(soft decision scheme)과 결합됨으로써 더욱 개선되었다.
잘 알려진 바와 같이, DFT 도메인에서 주로 동작하는 기존의 VAD 알고리즘의 대부분은 순수 음성(clean speech)과 잡음의 스펙트럼이 가우시안 분포에 의해 특성지어진다고 가정한다. 그러나 순수 음성과 잡음의 DFT 계수를 가우시안 분포를 사용하여 모델링할 경우 잡음의 유형과 레벨에 따라 정확성에 일정 정도 한계가 있었기 때문에, DFT 계수를 모델링할 새로운 분포 모델이 요구되고 있다.
본 발명은 상기와 같은 문제 인식에서 비롯된 것으로서, 순수 음성과 잡음의 DFT 계수를 기존의 가우시안 통계 모델 대신에 복소수 감마 통계 모델을 사용하여 모델링한 음성 검출 방법 및 음성 검출기를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출 방법은,
(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;
(2) 상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계;
(3) 상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계; 및
(4) 상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식 1을 이용하여 계산하는 단계
Figure 112006088367136-PAT00001
- 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수,
Figure 112006088367136-PAT00002
, Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -
를 포함하는 것을 그 특징으로 한다.
본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출 방법은,
상기 음성 검출에 대한 결정 규칙을 계산하는 단계에서,
상기 수학식 1 대신에 다음 수학식 2를 이용하여 계산하는 것을 그 특징으로 한다.
Figure 112006088367136-PAT00003
- 여기서,
Figure 112006088367136-PAT00004
이며,
Figure 112006088367136-PAT00005
은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출 방법은,
상기 평탄화 파라미터
Figure 112006088367136-PAT00006
을 0.9로 설정한 것을 그 특징으로 한다.
한편, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출기는,
(1) 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;
(2) 상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호로부터 잡음 신호의 파워를 추정하는 잡음 파워 추정부;
(3) 상기 잡음 파워 추정부에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 우도비 결정부; 및
(4) 상기 우도비 결정부에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식 1을 이용하여 계산하는 결정 규칙 계산부
<수학식 1>
Figure 112006088367136-PAT00007
- 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수,
Figure 112006088367136-PAT00008
, Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -
를 포함하는 것을 그 특징으로 한다.
본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출기는,
상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부에서,
상기 수학식 1 대신에 다음 수학식 2를 이용하여 계산하는 것을 그 특징으로 한다.
<수학식 2>
Figure 112006088367136-PAT00009
- 여기서,
Figure 112006088367136-PAT00010
이며,
Figure 112006088367136-PAT00011
은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
본 발명의 또 다른 특징에 따른 복소수 감마 통계 모델에 기초한 음성 검출기는,
상기 평탄화 파라미터
Figure 112006088367136-PAT00012
을 0.9로 설정한 것을 그 특징으로 한다.
이하에서는 본 발명의 실시예를 도면을 참조하여 상세히 설명한다.
본 발명의 실시예는 다양한 잡음 조건에서 잡음에 오염된 음성신호의 DFT 계수를 VAD에 적용하기 위해 복소수 감마 모델에 기초한 방법을 제안한다.
본 발명의 실시예에서는 먼저 다양한 잡음에 오염된 음성 조건하에서 적합도(Goodness Of Fit; 이하 'GOF'라 함) 테스트를 적용함으로써 복소수 감마 모델을 가우시안 모델 및 복소수 라플라시안 모델과 비교한 후, 우도비 테스트(Likelihood Ration Test; 이하 'LRT'라 함)에 기반한 결정 규칙(Decision Rule)을 고려한다.
1. 통계적 모델
먼저, 잡음 신호 N(t)와 음성 신호 S(t)의 합이 X(t)라고 가정하고, 이때 가설 H0과 H1이 각각 음성 신호가 없는 경우와 음성 신호가 있는 경우를 나타낸다고 하면, 가설 H0과 H1에서, X(t)는 각각 다음의 수학식 3 및 4를 만족한다.
Figure 112006088367136-PAT00013
Figure 112006088367136-PAT00014
여기서,
Figure 112006088367136-PAT00015
,
Figure 112006088367136-PAT00016
,
Figure 112006088367136-PAT00017
는 각각 잡음이 섞인 음성, 잡음, 순수 음성의 DFT 계수이다.
상기한 통계적 모델은 적절한 DFT 계수 분포를 선택함으로써 완료된다. 본 발명의 실시예에서는 DFT 계수의 적절한 분포로서 가우시안 확률 밀도 함수(probabilistic density function, 이하 'PDF"라 함)를 채택하는 대신 복소수 감마 확률 밀도 함수를 채택하였다.
(1) 가우시안 통계 모델
가우시안 PDF에서, 양 가설(H0, H1)에 의해 결정되는 잡음 스펙트럼 성분(noisy spectral component)의 분포는 다음의 수학식 5 및 6과 같이 주어진다.
Figure 112006088367136-PAT00018
Figure 112006088367136-PAT00019
여기서,
Figure 112006088367136-PAT00020
Figure 112006088367136-PAT00021
는 각각 잡음 Nk 및 순수 음성 Sk의 분산(variance)을 나타낸 다.
(2) 복소수 라플라시안 통계 모델
다음으로, 복소수 라플라시안 PDF에서, DFT 계수 Xk의 실수부(real part)와 허수부(imaginary part)를 각각 Xk (R)와 Xk (I)로 가정하면, Xk (R)와 Xk (I)는 다음의 수학식 7 및 8과 같이 분포된다.
Figure 112006088367136-PAT00022
Figure 112006088367136-PAT00023
여기서,
Figure 112006088367136-PAT00024
는 Xk의 분산을 나타낸다. 만약 Xk의 실수부 및 허수부가 서로 독립적이라고 더 가정하면, Xk의 분포는 다음 수학식 9와 같이 될 수 있다.
Figure 112006088367136-PAT00025
상기 수학식 9로부터, 양 가설(H0, H1)에 의해 결정되는 DFT 계수의 분포는 다음 수학식 10 및 11과 같이 주어질 수 있다.
Figure 112006088367136-PAT00026
Figure 112006088367136-PAT00027
(3) 복소수 감마 통계 모델
마지막으로 복소수 감마 PDF에 대해 살펴본다. 각각의 DFT 계수의 실수부와 허수부 Xk (R)와 Xk (I)는 각각 다음의 수학식 12 및 13에 따라 분포된다.
Figure 112006088367136-PAT00028
Figure 112006088367136-PAT00029
만약 실수부와 허수부가 라플라시안 경우에서처럼 서로 독립적이라고 더 가정하면, DFT 계수 Xk의 분포는 다음 수학식 14와 같이 주어진다.
Figure 112006088367136-PAT00030
수학식 14를 2개의 가설 H0과 H1에 적용하면, DFT 계수의 분포는 다음 수학식 15 및 16과 같이 얻어진다.
Figure 112006088367136-PAT00031
Figure 112006088367136-PAT00032
성공적인 VAD 동작을 위해서, 본 발명의 실시예에서는 H0과 H1에 의해 결정되는 잡음 스펙트럼 요소를 위한 통계적 적합성 테스트(statistical fitting test)를 수행한다. 확률 밀도 함수(PDF)의 선택을 위해, 본 발명의 실시예에서는 적합도 테스트(GOF test; Goodness-of-Fit test)로서 잘 알려진 Kolomogorov-Sriminov 테스트(이하, 'KS 테스트'라 함)를 적용한다. KS 테스트를 적용함으로써, 각 통계적인 가정에 대한 신뢰성 있는 관측을 보장할 수 있다. KS 테스트는 경험적인(empirical) 누적 분포 함수(cumulative distribution function; 이하 'CDF'라 함) Fx를 소정의 분포 함수 F와 비교한다.
Figure 112006088367136-PAT00033
가 잡음이 섞인 음성의 DFT 계수를 나타내는 벡터라고 가정할 때, 다음의 수학식 17로서 나타낼 수 있는 함수를 경험적 CDF로서 사용하였다.
Figure 112006088367136-PAT00034
여기서,
Figure 112006088367136-PAT00035
은 데이터 X의 순서 통계(order statistics)이다. 순서 통계를 계산하기 위해, X의 원소들을 분류하고 정렬하여, X의 가장 작은 원소인 X(1)에서부터 X의 가장 큰 원소인 X(N)까지 순서대로 배열한다.
잡음 환경을 모의 실험하기 위해, 서로 다른 4명의 남성과 여성 화자로부터, 64초 구간의 음성 자료(speech material)를 수집하였으며, NOISEX-92 데이터베이스로부터 추출한 백색 잡음(white noise), 차량 잡음(vehicular noise), 및 배블 잡음(babble noise)을 신호 대 잡음비(SNR)가 10dB인 순수 음성 신호에 첨가하였다. 수집한 상기 데이터를 사용하여, 표본 평균과 분산을 계산하였으며, 주어진 감마 분포, 라플라시안 분포 및 가우시안 분포에 적용하였다.
경험적인 CDF와 주어진 분포 사이의 거리 측정을 규정하기 위해, 본 발명의 실시예에서는 KS 테스트 통계량(statistic)을 사용한다. KS 테스트 통계량(T)은 다음의 수학식 18과 같이 정의된다.
Figure 112006088367136-PAT00036
여기서, 표본 포인트Xi에서 구한 Fx(Xi)와 F(Xi) 사이의 최대 차이가 거리에 해당한다. 몇 가지 분포에 대하여 데이터를 테스트하는 경우, 최소의 KS 통계량을 나타내는 분포가 주어진 데이터에 가장 적합한 것으로 고려될 수 있다.
도 1 내지 도 3은 각각 다양한 잡음 조건 하에서 평가된 KS 통계량의 결과를 도시한다. 결과를 요약하면, 다음과 같은 사항들을 발견할 수 있다.
(1) 도 1은 백색 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 1(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 1(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 1에 따르면, 라플라시안 모델이 모든 SNR 레벨에서 H0에 가장 적합하며, 가우시안 모델이 다음으로 적합하다. 백색 잡음이 가우시안 분포되어지는지 여부가 의문일 수 있다. 이에 대해, 프레임 길이가 10ms로 제한되기 때문에, 백색 잡음에 대한 DFT 계수가 나머지 모델들보다 라플라시안에 의해 보다 잘 근사화되어진다는 것을 확인할 수 있다. 큰 프레임 길이(>200ms)에 대해서는, DFT 계수의 PDF는 가우시안으로 접근할 수 있으나, 이러한 프레임 길이는 (VAD를 포함하는) 실시간 신호 처리 애플리케이션에 적합하지 않다.
가설 H1에 대해서도, 라플라시안 모델이 SNR = 20 dB를 제외하고는 가장 적합했다. 특히, 감마 PDF로부터 계산된 KS 통계치는 SNR이 증가할수록 작아지는 반면에, 다른 모델들은 보다 큰 값들을 생성했다. 마지막으로, 감마 모델의 KS 통계치는 SNR = 20 dB에서 가장 최소였다. 이러한 이유로, H1 하에서 백색 잡음이 섞인 음성이 순수 음성 스펙트럼에 접근할수록 감마 모델이 점점 적합해진다는 결론을 얻을 수 있다.
2) 도 2는 차량 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 2(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 2(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 2로부터, H0이 참일 경우 SNR = 20 dB를 제외하고는 모든 경우에서 감마 모델의 KS 통계량이 라플라시안 및 가우시안 모델들의 KS 통계량보다 더 작다는 것을 확인할 수 있다. 차량 잡음에 대한 거의 모든 경우에서, 가우시안 분포 가정은 잡음이 섞인 음성의 DFT 스펙트럼을 특징짓는데 좋지 못한 선택인 것으로 관찰되었다.
3) 도 3은 배블 잡음 조건 하에서, SNR = 5, 10, 15, 20 dB에서 평가된 각각의 모델에 대한 KS 통계량을 나타내는 도면으로서, 도 3(a) 및 (b)는 각각 가설 H0인 경우의 DFT 계수의 실수부와 허수부를, 도 3(c) 및 (d)는 각각 가설 H1인 경우의 DFT 계수의 실수부와 허수부를 나타내는 도면이다. 도 3에서는, 가설 H1 하에서 얻 어진 결과가 가설 H0 하에서 생성된 결과와 상당히 다른 경향을 나타내고 있다. H0에 대해서는, 라플라시안 모델의 KS 통계량이 거의 모든 SNR 값들에서 최소였으며, 감마 모델의 KS 통계량이 항상 최대였다. 반면에, H1이 참일 경우에는 감마 모델이 잡음이 섞인 음성의 DFT 계수의 분포에 가장 적합한 것으로 관찰되었다. 또한, 가우시안 모델의 성능은 거의 모든 조건에서 가장 나쁜 것으로 관찰되었다.
KS 테스트 결과를 요약하면, 잡음이 섞인 음성의 DFT 스펙트럼에 대하여 잡음의 유형 및 SNR 레벨에 따라 서로 다른 통계 모델을 적용하는 것이 유리할 수 있다는 것을 알 수 있다. 특히, 본 발명에서 관심을 갖고 있는 감마 모델에 주목해 보면, 1) 백색 잡음이 섞인 음성이 순수 음성 스펙트럼에 접근하는 경우, 2) 차량 잡음이 섞인 음성의 거의 모든 경우, 및 3) 배블 잡음이 섞인 음성에서 가설 H1이 참인 경우에 감마 모델이 가우시안 모델 및 라플라시안 모델보다 더 적합한 것으로 관찰되었다.
2. LRT 에 기초한 결정 규칙
본 발명의 실시예는 가정된 통계적 모델에 기초하여, k번째 주파수 빈(bin)에 대한 우도비(likelihood ratio; 이하 'LR'이라 함)를 다음 수학식 19와 같이 정의하였다.
Figure 112006088367136-PAT00037
VAD에 대한 결정 규칙은 개별 주파수 빈에 대하여 계산된 LR들의 기하 평균으로서 다음 수학식 20과 같이 구해질 수 있다.
Figure 112006088367136-PAT00038
여기서, M은 주파수 빈의 전체 수를 나타내며, η은 검출 임계치를 나타낸다.
H0과 H1 모두에 대하여 가우시안 PDF가 음성 분포 모델링에 대하여 사용되는 경우에, LR은 다음 수학식 21에 의해 주어진다.
Figure 112006088367136-PAT00039
여기서,
Figure 112006088367136-PAT00040
이고,
Figure 112006088367136-PAT00041
이며, 이들은 각각 선행 SNR(a priori SNR) 및 후행 SNR(a posteriori SNR)로 지칭된다.
한편, 라플라시안 PDF의 경우에는, LR이 다음 수학식 22와 같이 구해진다.
Figure 112006088367136-PAT00042
실질적으로, 수학식 22를 직접 적용하는 대신에,
Figure 112006088367136-PAT00043
를 순간 진폭 스펙트럼 |Xk|로 대체하는 것이 보다 유리하다고 알려져 있다. 이 접근법은 순간 형태(instantaneous form)로서 지칭된다.
LRT의 성능을 보다 향상시키기 위하여, LR을 평탄화된 형태(smoothed form)로 지칭될 수 있는 다음 수학식 23과 같은 형태로 수정하는 대안적인 방법을 제안한다.
Figure 112006088367136-PAT00044
여기서,
Figure 112006088367136-PAT00045
이며,
Figure 112006088367136-PAT00046
은 평탄화 파라미터(smoothing parameter)이다. 평탄화된 형태에서는, 진폭 스펙트럼에 대하여 보다 평탄한 평가치가 순간 값 대신에 적용된다. 다수의 실험을 통하여, 평탄화된 형태가 순간 형태보다 우수하며, 특히 LRT의 성능은 평탄화 파라미터
Figure 112006088367136-PAT00047
의 선택에 크게 의존하는데,
Figure 112006088367136-PAT00048
의 값으로는 0.9를 선택하는 것이 바람직한 결과를 준다는 것을 관찰하였다.
마지막으로, 감마 PDF에 대한 LR의 공식은 앞서 언급한 수학식 1과 같이 주어진다(참조를 위하여 수학식 1을 다시 기재함).
<수학식 1>
Figure 112006088367136-PAT00049
라플라시안 모델의 경우와 유사하게, 상기 수학식 1을 대응하는 평탄화된 형태인 앞서 언급한 수학식 2와 같이 변환할 수 있다(참조를 위하여 수학식 2를 다시 기재함).
<수학식 2>
Figure 112006088367136-PAT00050
여기서,
Figure 112006088367136-PAT00051
이며,
Figure 112006088367136-PAT00052
은 감마 모델에 대한 평탄화 파라미터로서, 다수의 실험을 통하여 그 값을 0.9로 선택하는 것이 바람직한 결과를 주는 것으로 관찰되었다.
3. 실험 결과
본 발명의 실시예에서는 감마 모델의 성능을 라플라시안 모델의 성능 및 가우시안 모델의 성능과 비교하기 위해, 각 통계적 모델에 대한 음성 검출 확률(Pd)과 거짓 경고(false alarm) 확률(Pf)을 조사하였다.
도 4 내지 도 6은 각각 다양한 잡음 조건 및 SNR 조건 하에서의 각각의 통계 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 각 그래프에서 가로축은 음성 검출 확률(Pd)을, 세로축은 거짓 경고 확률(Pf)을 나타낸다. 도 4 내지 6으로부터 다음과 같은 사항들을 관찰할 수 있다.
(1) 도 4는 백색 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 4(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 4로부터 알 수 있는 바와 같이, 백색 잡음의 경우에는 라플라시안 모델에 기초한 VAD 알고리즘이 다른 통계 모델에 기초한 VAD 알고리즘보다 우수하였다. 또한, 감마 모델에 기초한 VAD 알고리즘도 테스트된 조건들의 대부분에서 가우시안 모델의 VAD 알고리즘보다 더 좋은 성능을 보였다.
(2) 도 5는 차량 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 5(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 5에서 확인할 수 있는 바와 같이, 차량 잡음의 경우에는 ROC 곡선이 서로 상대적으로 인접한 결과를 보였다. 그러나 Pf < 0.02의 경우에는 감마 모델에 기초한 VAD 알고리즘이 다른 모델들보다 다소 우수한 성능을 나타내는 것으로 관찰되었다. 또한, SNR이 증가함에 따라 검출 정확도에서의 차이가 더 커지는 것으로 관찰되었다.
(3) 도 6은 배블 잡음 조건 하에서 각각의 모델에 대한 수신기 동작 특성(ROC) 곡선을 나타내는 도면으로서, 6(a) 내지 (d)는 각각 SNR이 5, 10, 15, 20 dB에 해당하는 경우를 나타낸다. 도 6으로부터, 라플라시안 모델을 결합한 VAD 알고리즘이 감마 및 가우시안 모델을 결합한 VAD 알고리즘보다 우수한 성능을 보이는 것을 확인할 수 있다. SNR이 작아질수록 성능의 차이는 더 커졌다.
이상에서 설명한 바와 같이, 잡음 조건 및 SNR 조건에 따라서 복소수 감마 모델에 기초한 VAD 알고리즘이 가장 좋은 성능을 나타내는 경우가 있는 것으로 관찰되었다(적어도 기존에 흔히 사용되고 있는 가우시안 모델에 기초한 VAD 알고리즘보다는 대부분의 경우에서 좋은 성능을 나타내고 있다).
다음은 본 발명의 실시예에 따른 복소수 감마 모델을 적용한 음성 검출기에 대하여 설명한다.
도 7은 본 발명의 실시예에 따른 음성 검출기의 구성을 나타내는 도면이다. 도 7에 도시한 바와 같이, 본 발명의 실시예에 따른 음성 검출기는 고속 푸리에 변환기(10, Fast Fourier Transformer; FFT), 잡음 파워 추정부(20), 우도비 결정부(30), 및 결정 규칙 계산부(40)를 포함한다.
고속 푸리에 변환기(10)는 입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시킨다. 잡음 파워 추정부(20)는 상기 고속 푸리에 변환기(10)에 의해 주파수 영역으로 변환된 상기 음성 신호로부터 잡음 신호의 파워를 추정한다. 우도비 결정부(30)는 상기 잡음 파워 추정부(20)에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비를 결정한다. 마지막으로, 결정 규칙 계산부(40)는 상기 우도비 결정부(30)에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙을 상기 수학식 1을 이용하여 계산한다.
본 발명의 실시예에 따른 음성 검출기의 또 다른 구성으로서, 상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부(40)에서, 상기 수학식 1 대신에 상기 수학식 2를 이용하여 계산하는 음성 검출기의 구성도 가능하며, 특히 평탄화 파라미터
Figure 112006088367136-PAT00053
을 0.9로 설정하도록 더욱 한정한 형태의 음성 검출기도 고려할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
본 발명은, 기존의 가우시안 통계 모델 대신에 복소수 감마 통계 모델을 사용하는 음성 검출 방법 및 음성 검출기를 제안함으로써, 잡음의 유형 및 SNR 조건에 따라서 음성 검출 성능을 향상시킬 수 있다.

Claims (6)

  1. 복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출(VAD; Voice Activity Detection) 방법으로서,
    입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 단계;
    상기 주파수 영역으로 변환된 음성 신호로부터 잡음 신호의 파워를 추정하는 단계;
    상기 추정된 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 단계; 및
    상기 결정된 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 단계
    Figure 112006088367136-PAT00054
    - 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수,
    Figure 112006088367136-PAT00055
    Figure 112006088367136-PAT00056
    는 각각 잡음 Nk 및 순수 음 성 Sk의 분산,
    Figure 112006088367136-PAT00057
    , Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 음성 검출에 대한 결정 규칙을 계산하는 단계에서, 상기 수학식 대신에 다음 수학식을 이용하여 계산하는 방법.
    Figure 112006088367136-PAT00058
    - 여기서,
    Figure 112006088367136-PAT00059
    이며,
    Figure 112006088367136-PAT00060
    은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
  3. 제2항에 있어서,
    상기 평탄화 파라미터
    Figure 112006088367136-PAT00061
    을 0.9로 설정한 방법.
  4. 복소수 감마 통계 모델(complex gamma statistical model)에 기초한 음성 검출기(Voice Activity Detector)로서,
    입력된 음성 신호에 대하여 고속 푸리에 변환(FFT)을 수행하여 주파수 영역의 음성 신호로 변환시키는 고속 푸리에 변환기;
    상기 고속 푸리에 변환기에 의해 주파수 영역으로 변환된 상기 음성 신호로 부터 잡음 신호의 파워를 추정하는 잡음 파워 추정부;
    상기 잡음 파워 추정부에 의해 추정된 상기 잡음 신호의 파워에 기초하여 음성의 존재와 비존재에 대하여, 순수 음성과 잡음의 DFT 계수가 복소수 감마 확률 통계 모델을 따른다고 가정함으로써 주파수 영역에 대한 우도비(Likelihood Ratio)를 결정하는 우도비 결정부; 및
    상기 우도비 결정부에 의해 결정된 상기 우도비로부터 음성 검출에 대한 결정 규칙(Decision Rule)을 다음 수학식을 이용하여 계산하는 결정 규칙 계산부
    Figure 112006088367136-PAT00062
    - 여기서, 가설 H0과 H1은 각각 음성신호가 없는 경우와 음성 신호가 있는 경우를 나타내며, Xk는 k 번째 이산 푸리에 계수,
    Figure 112006088367136-PAT00063
    Figure 112006088367136-PAT00064
    는 각각 잡음 Nk 및 순수 음성 Sk의 분산,
    Figure 112006088367136-PAT00065
    , Xk (R)와 Xk (I)는 Xk의 실수부와 허수부를 나타냄 -
    를 포함하는 음성 검출기.
  5. 제4항에 있어서,
    상기 음성 검출에 대한 결정 규칙을 계산하는 결정 규칙 계산부에서,
    상기 수학식 대신에 다음 수학식을 이용하여 계산하는 음성 검출기.
    Figure 112006088367136-PAT00066
    - 여기서,
    Figure 112006088367136-PAT00067
    이며,
    Figure 112006088367136-PAT00068
    은 복소수 감마 통계 모델에 대한 평탄화 파라미터(smoothing parameter)임 -
  6. 제5항에 있어서,
    상기 평탄화 파라미터
    Figure 112006088367136-PAT00069
    을 0.9로 설정한 음성 검출기.
KR1020060118896A 2006-11-29 2006-11-29 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기 KR100718749B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060118896A KR100718749B1 (ko) 2006-11-29 2006-11-29 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060118896A KR100718749B1 (ko) 2006-11-29 2006-11-29 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Publications (2)

Publication Number Publication Date
KR20060131705A true KR20060131705A (ko) 2006-12-20
KR100718749B1 KR100718749B1 (ko) 2007-05-15

Family

ID=37811643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060118896A KR100718749B1 (ko) 2006-11-29 2006-11-29 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기

Country Status (1)

Country Link
KR (1) KR100718749B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100866580B1 (ko) * 2007-02-21 2008-11-03 인하대학교 산학협력단 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
CN112017674A (zh) * 2020-08-04 2020-12-01 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中噪声的方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100284772B1 (ko) * 1999-02-20 2001-03-15 윤종용 음성 검출 장치 및 그 방법
KR100513175B1 (ko) * 2002-12-24 2005-09-07 한국전자통신연구원 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
KR100530261B1 (ko) * 2003-03-10 2005-11-22 한국전자통신연구원 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100866580B1 (ko) * 2007-02-21 2008-11-03 인하대학교 산학협력단 균등최강력 테스트에 기초한 음성 검출 방법 및 음성 검출시스템
CN112017674A (zh) * 2020-08-04 2020-12-01 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中噪声的方法
CN112017674B (zh) * 2020-08-04 2024-02-02 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中噪声的方法

Also Published As

Publication number Publication date
KR100718749B1 (ko) 2007-05-15

Similar Documents

Publication Publication Date Title
US8380497B2 (en) Methods and apparatus for noise estimation
Chang et al. Voice activity detection based on multiple statistical models
KR100513175B1 (ko) 복소수 라플라시안 통계모델을 이용한 음성 검출기 및 음성 검출 방법
Cohen Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging
CN109643552B (zh) 用于可变噪声状况中语音增强的鲁棒噪声估计
Davis et al. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold
Li et al. An improved voice activity detection using higher order statistics
CN109410977B (zh) 一种基于EMD-Wavelet的MFCC相似度的语音段检测方法
JP2008534989A (ja) 音声アクティビティ検出装置および方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
US20040158462A1 (en) Pitch candidate selection method for multi-channel pitch detectors
EP2148325A1 (en) Method for determining the presence of a wanted signal component
KR100718846B1 (ko) 음성 검출을 위한 통계 모델을 적응적으로 결정하는 방법
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
Zhang et al. A novel fast nonstationary noise tracking approach based on MMSE spectral power estimator
KR102136700B1 (ko) 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
KR100718749B1 (ko) 복소수 감마 통계 모델에 기초한 음성 검출 방법 및 음성검출기
US7343284B1 (en) Method and system for speech processing for enhancement and detection
Lee et al. Statistical model-based VAD algorithm with wavelet transform
Chang et al. Likelihood ratio test with complex laplacian model for voice activity detection.
Górriz et al. Improved MO-LRT VAD based on bispectra Gaussian model
KR100798056B1 (ko) 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
Hizlisoy et al. Noise robust speech recognition using parallel model compensation and voice activity detection methods
Sanam et al. Teager energy operation on wavelet packet coefficients for enhancing noisy speech using a hard thresholding function
Davis et al. A low complexity statistical voice activity detector with performance comparisons to ITU-T/ETSI voice activity detectors

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130325

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140508

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150429

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160503

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170508

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180910

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20191111

Year of fee payment: 13