KR100303477B1 - 가능성비 검사에 근거한 음성 유무 검출 장치 - Google Patents

가능성비 검사에 근거한 음성 유무 검출 장치 Download PDF

Info

Publication number
KR100303477B1
KR100303477B1 KR1019990005624A KR19990005624A KR100303477B1 KR 100303477 B1 KR100303477 B1 KR 100303477B1 KR 1019990005624 A KR1019990005624 A KR 1019990005624A KR 19990005624 A KR19990005624 A KR 19990005624A KR 100303477 B1 KR100303477 B1 KR 100303477B1
Authority
KR
South Korea
Prior art keywords
ratio
output
estimator
background noise
speech
Prior art date
Application number
KR1019990005624A
Other languages
English (en)
Other versions
KR20000056371A (ko
Inventor
손종서
김남수
성원용
Original Assignee
성원용
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성원용 filed Critical 성원용
Priority to KR1019990005624A priority Critical patent/KR100303477B1/ko
Publication of KR20000056371A publication Critical patent/KR20000056371A/ko
Application granted granted Critical
Publication of KR100303477B1 publication Critical patent/KR100303477B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Signal Processing (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

본원발명은 음성 향상 시스템 (speech enhancement system), 음향적 반향제거기(acoustic echo canceler), 가변 전송율 음성 부호화기(variable rate speech coder) 등에서 사용될 수 있는 개선된 음성 유무 검출장치(VAD : voice activity detector) 및 그 방법을 제공한다. 음성의 존재 유무 판정을 위해서, 판정 지향(decision-directed) 추정 방식으로 사전 신호 대 잡음 비(a priori signal to noise ratio)를 추정하고, 신호를 검출할 때 매우 유용한 방법인 가능성 비 검사(likelihood ratio test)를 적용하여 음성 검출장치의 검출 능력을 향상시켰다. 또한, 이를 바탕으로 배경 잡음 통계량(statistic)을 효과적으로 추정하는 방법과 과거의 관찰들을 현재 프레임의 음성 검출 과정에서 정량적으로 고려하는 행오버(hangover) 방법을 개발하여 음성 유무 검출장치의 배경 잡음에 대한 강인성을 증가시켰다. 본원발명은 판정 지향 추정 기반 가능성 비 검사를 이용한 판정부(11), 1차 마르코프 모델에 기반한 행오버 처리부(13), 두 단계로 구분된 배경 잡음 통계량 추정부(12)로 요약되며, 본원발명의 이러한 3가지 양상은 각각 독립해서 적용해도 전체적인 성능을 크게 향상시킬 수 있고, 이들을 조합하여 두가지 양상만, 또는 3가지 양상을 동시에 적용할 경우 더욱 효과가 우수한 것임이 실험을 통해 확인되었다.

Description

가능성비 검사에 근거한 음성 유무 검출 장치{VOICE ACTIVITY DETECTION APPARATUS BASED ON LIKELIHOOD RATIO TEST}
본원발명은 음성 향상 시스템(speech enhancement system), 음향적 반향 제거기(acoustic echo canceler), 가변 전송율 음성 부호화기(variable rate speech coder) 등의 응용 분야에 필수적인 개선된 음성 유무 검출장치(VAD: voice activity detector) 및 그 방법을 제공한다. 코드 분할 다중 접속 (code division multiple access) 방식의 이동 통신 시스템이나, 디지털 저장 매체 (digital storage medium) 등과 같이 가변 전송율 음성 부호화기를 사용하는 경우 음성 유무 검출장치를 이용하여 음성이 존재하지 않는 구간을 판별해내고, 이 구간에서는 전송되는 정보량을 줄임으로써 음질의 저하 없이 음성 부호화기의 평균 전송율을 크게 줄일수 있다.
현재 널리 사용되는 음성 부호화기 및 음성 향상 시스템들은 A/D(Analog to Digital) 변환기에 의해 디지털화 된 음성 신호에 대하여 일정한 개수의 샘플들을 모아 하나의 프레임을 구성하고, 이러한 프레임 단위로 파라미터를 추출하여 음성신호를 부호화한다. 그러므로, 이에 사용되는 음성 유무 검출장치 역시 이러한 프레임 단위로 음성의 유무를 판정하게 된다.
도 1은 일반적인 음성 유무 검출 장치를 도시한 블록도이다. 종래의 일반적인 음성 유무 검출장치는 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성 신호의 존재 유무를 판별하여 그 판별결과를 출력하는 것으로:
배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
입력 프레임의 통계량과 배경 잡음 추정부의 출력 통계량을 비교하여 음성유무를 1차적으로 판정하는 판정부(11)와;
상기 판정부(11)의 출력인 1차적인 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13)로 구성된다.
음성 유무 검출장치는 배경 잡음 추정부(12)에서 추정된 배경 잡음의 통계량과 현재 프레임에서 관찰된 입력 신호 통계량을 판정부(11)에 의해 비교하여 음성의 유무를 일차적으로 판정한다. 주로 신호의 에너지, 영 교차 비율(zero crossing rate), 스펙트럴 형태(spectral shape) 등의 이차 통계량(second order statistic)이 판정을 위한 통계량으로 사용된다. 이러한 일차적 판정 결과는 행오버처리부(13)에서 과거의 판정 결과들을 고려하여 수정되어 음성 유무에 대한 최종판정이 내려진다.
음성 유무 검출장치의 성능은 검출장치의 전체 판정 결과 중 실제 음성이 존재함에도 불구하고 음성이 없다고 판정하는 미검출 비율(misdetection rate)과 음성이 존재하지 않는데 음성이 존재한다고 판정하는 오경보 비율(false-alarm rate)로써 평가된다. 일반적으로 음성 검출장치의 오경보 비율 특성과 미검출 비율 특성은 상충관계에 있는데, 허용된 미검출 비율값의 범위를 만족시키면서 오경보 비율을 최소화하도록 설계하는 것이 당해 기술 분야의 일반적인 과제이며, 이를 향상시키고자 하는 것이 또한 본원발명의 목적이다.
기존의 판정부(11)의 구성 중 [참고문헌 1]에 제시된 LPC(linear predictive coding) 잔여 신호(residual signal)의 에너지에 근거한 판정 규칙이 가장 판별 능력이 뛰어난 방법으로 알려져 있는데, 이 판정 규칙은 최대 가능성 (maximum likelihood) 추정 방식으로 미지의 파라미터(unknown parameter)를 추정하여 가능성 비 검사(likelihood ratio test)를 적용한 판정 규칙과 수학적으로 거의 동치임이 [참고문헌 2]에서 밝혀졌다. 그러나, 최대 가능성 추정 방식은 그 이름이 의미하는대로 미지의 파라미터를 음성이 존재하는 가능성이 최대가 되도록 추정하기 때문에, 최대 가능성 추정에 기반을 둔 가능성 비 검사는 음성이 존재하는 쪽으로 편향(bias)되어 있다.
본원발명의 구체적인 제1 목적은 판정부(11)의 가능성 비 검사의 편향을 제거할 수 있는 개선된 파라미터 추정 방식을 제공하여 이에 의해 가능성 비의 편향을 제거하여 음성 검출 능력이 개선된 음성 검출 장치를 제공하고자 하는 것이다.
현재 프레임만을 고려한 판정부(11)의 출력은 과거 프레임의 입력을 고려하지 않으므로 연속적으로 발생하는 음성 신호에서 파워가 약한 음성의 꼬리 부분이 음성이 없는 구간으로 판정되는 현상(clipping)이 발생하는 문제점이 있다. 이러한 미검출의 문제점을 해결하기 위하여 연속적인 음성 프레임의 발생 후에는 일정, 혹은 가변 기간동안 무조건 음성 프레임으로 판별하는 행오버 기법을 사용하기도 하였으나, 이러한 획일적인 처리에 따라 종래의 행오버 처리부(13)는 음성 검출장치의 오검출 비율을 증가시키는 문제점이 있다 [참고문헌 3 참조].
본원발명의 구체적인 제2 목적은 보다 체계적으로 행오버 기법을 재설계하여 행오버 처리부(13)의 성능을 개선시켜 음성 검출장치의 오검출 비율을 감소시키는데 있다.
기존의 배경 잡음 추정부(12)는 별도의 간단한 이차적 음성 유무 검출장치(secondary VAD)를 사용하여 음성이 없는 구간에서 배경 잡음 통계량 추정값을 갱신하거나 [참고문헌 1 참조], 음성의 유무에 관계없이 현재 입력 신호의 통계량을 적당한 제약을 가하며 배경 잡음 통계량 추정값에 반영한다 [참고문헌 4 참조]. 이러한 방법들은 잡담 잡음(babble noise)과 같이 그 이차 통계량의 시변(time-varying) 특성이 상대적으로 강한 잡음에 대한 오검출 비율이 증가하는 단점이 있고, 급격히 변한 배경 잡음과 오래 지속되는 동일한 특성의 음성 신호를 구분하지 못하는 문제점이 있다.
본윈발명의 구체적인 제3 목적은 이러한 문제점을 해결하고자 하는 것으로, 이차 통계량의 시변 특성이 상대적으로 강한 잡음에 대해서도 오검출 비율이 개선되고, 급격히 변한 배경 잡음과 오래 지속되는 동일한 특성의 음성 신호를 용이하게 구별할 수 있는 배경 잡음 추정부(12)의 새로운 구조를 제공하여, 음성 검출장치의 성능을 개선하고자 하는 것이다.
상기 제1 목적을 달성하기 위한 본원발명의 제1 양상은 판정부(23)의 구성에 있어서 판정 지향 (decision-directed) 파라미터 추정 방식을 가능성 비 계산에 적용하여 가능성 비의 편향을 제거하였고, 제2 목적을 달성하기 위한 본원발명의 제2 양상은 행오버 처리부(24)의 구성에 있어서 음성 프레임의 발생 사건들을 1차의 마르코프 과정(Markov process)으로 모델링하여 과거 프레임에서의 가능성 비값들을 현재 프레임에서의 음성 유무 판정에 보다 체계적으로 반영하는 새로운 구성을 도입하였다. 제3 목적을 달성하기 위한 본원발명의 제3 양상은 배경 잡음 통계량 추정부(22)의 구성에 있어서 배경 잡음 통계량의 추정을 두 단계로 구분하여, 시변 특성이 강한 배경 잡음의 경우 그 변화를 빠르게 추적하기 위하여 시변 1차 자기회귀 필터링(time-varying auto-regressive filtering) 방법[참고문헌 2 참조]을 적용하고, 배경 잡음 스펙트럼의 급격한 변화를 정확히 파악할 수 있는 모멘트 비(moment ratio) 에 기반한 새로운 판정 방식을 제공한다.
도 1은 일반적인 음성 유무 검출 장치의 구성을 도시한 블록도
도 2는 본원발명의 바람직한 제1 실시예의 판정부(11)의 구성을 도시한 블록도
도 3은 본원발명의 바람직한 제1 실시예의 판정부(11)에서 사전 신호대 잡음비 추정부(21)의 구성을 도시한 블록도
도 4는 본원발명의 바람직한 제1 실시예의 판정부(11)의 동작의 흐름을 도시한 흐름도
도 5는 본원발명의 행오버 처리부(13)의 구성을 도시한 블록도
도 6은 본원발명의 배경잡음 추정부(12)의 구성을 도시한 블록도
< 도면의 주요부분에 대한 부호의 설명 >
11 … 판정부 12 … 배경 잡음 추정부
13 … 행오버 처리부
21 … 사전 신호 대 잡음비 추정부 22 … 가능성 비 산출부
23 … 비교부 24 … 신호 성분 추정부
31 … 제1 추정부 32 … 제2 추정부
33 … 가중평균부
51 … 행오버 가능성비 산출부 52 … 결정부
61 … 1차 되먹임 추정부 62 … 모멘트 비 계산부
63 … 2차 독립 추정부 64 … 제1 비교부
65 … 선택부 66 … 제2 비교부
이제 이러한 기술적인 과제를 해결하기 위한 본원발명의 양상들의 구성 및 작용이 기술된다. 참고문헌 [1]∼[8]은 본원발명의 종래 기술 내지는 신규성 의제에 관련된 문헌 들로 여기서 이 참고 문헌들은 모두 본원발명의 상세한 설명의 일부로 포함된다.
본원발명은 판정 지향 추정 기반 가능성 비 검사를 이용한 판정부(23), 1차 마르코프 모델에 기반한 행오버 처리부(24), 두 단계로 구분된 배경 잡음 통계량 추정부(22)의 3가지 양상으로 요약된다. 본원발명의 이러한 3가지 양상은 각각 독립해서 적용해도 전체적인 성능을 크게 향상시킬 수 있음이 실험을 통해 확인되었고, 이들을 조합하여 2가지 씩, 또는 3가지를 동시에 적용할 경우 더욱 효과가 우수한 것임이 실험을 통해 확인되었다. 이러한 본원발명의 각각의 양상은 이하에서 하나씩 구체적인 실시예를 통하여 기술된다.
이제 본원발명의 제1 의 목적을 달성하기 위한 본원발명의 제1의 양상을 첨부된 도면들을 참조하여 바람직한 제1의 실시예를 통하여 당해 분야의 통상의 지식을 가진 자가 용이하게 실시할 수 있을 정도로 구체적으로 기술하기로 한다.
제2도는 본원발명의 바람직한 제1 실시예의 판정부(11)의 구성의 일 실시예를 도시한 블록도이다.
본원발명의 바람직한 제1 양상은:
입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
입력 프레임의 통계량과 배경 잡음 통계량 추정부(12)의 출력을 비교하여 음성 유무를 판정하는 판정부(11);
를 포함하는 음성 유무 검출 장치에 있어서, 상기 판정부(11)가:
판정 지향 추정 방식으로 사전 신호 대 잡음비를 추정하는 사전 신호 대 잡음비 추정부(21)와;
상기 사전 신호 대 잡음비로부터 현 프레임의 가능성 비를 계산하는 가능성비 산출부(22)와;
상기 가능성 비를 소정의 문턱치와 비교하여 음성 신호의 유무를 판정하는 비교부(23); 및
현 프레임의 신호 성분을 추정하고 다음 프레임의 처리를 위하여 저장하는 신호 성분 추정부(24);
를 포함하는 것을 특징으로 한다.
부가적으로 본원발명의 바람직한 양상에 따른 음성 유무 검출장치는 판정부(11)의 출력인 1차적 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13)를 더 포함할 수도 있다.
본원발명의 제1의 실시예는 종래기술에서 판정부(11)의 구성을 개량한 것으로, 본원발명의 판정부(11)는 판정 지향 방식을 적용한 가능성 비 검사의 구성을 도입한다. 가능성 비는 음성이 존재한다고 가정하였을 때 입력 신호를 관찰할 확률과 음성이 존재하지 않는다고 가정하였을 때 입력 신호를 관찰할 확률의 비를 의미한다. 이를 계산하기 위해서는 미지의 파라미터(unknown parameter)인 사전 신호대 잡음비(a priori signal to noise ratio), 즉 순수 음성 신호 대 잡음비를 추정하여야 한다. 종래의 최대 가능성 추정 방식은 현재 입력 신호에서 잡음 성분을 뺀 성분을 순수 음성 신호로 보고 이 신호 성분 대 잡음 비를 사전 신호 대 잡음비의 추정값으로 한다.
판정 지향 추정 방식(decision-directed estimation method)이란 현재 프레임의 사전 신호 대 잡음비와 이전 프레임의 사전 신호 대 잡음비의 가중화된 평균값에 의해 최종적인 사전 신호 대 잡음비를 구하는 방식으로, 여기서 이전 프레임의 사전 신호 대 잡음비는 현재 프레임에서 사전 신호 대 잡음비를 계산하는 방식과 같이 이전 프레임에서 계산되어 저장된 값을 그대로 이용할 수도 있으나, 현재 프레임의 사전 신호 대 잡음비를 구하는 방식과는 완전히 상이한 방식을 사용할 수도 있다.
본원발명에서 사용된 이러한 판정 지향 추정 방식의 기본적인 구성은 [참고문헌 5]의 음성 향상 시스템(speech enhancement system)에서 잡음 제거 (noise suppression) 후에 남아있는 음악적 잡음(musical noise) 현상을 막기 위해 경험적으로 설계된 파라미터 추정 방식이었다. [참고문헌 6]에서 이 방식은 잡음 제거 이득 곡선 (gain curve)을 사전 신호 대 잡음비에 따라 동적으로 변화시키는 특성을 갖기 때문에 음악적 잡음을 제거하는데 효율적임이 밝혀졌다. 그러나 본원발명은 이러한 판정지향 추정 방식을 음성 유무 판정 장치의 가능성 비 검사에 적용함으로써 최대 가능성 추정 방식을 이용하는 가능성 비 검사보다 허용된 미검출 비율값에서 오판정 비율을 크게 감소시켜 [참고문헌 7,8 참조], 종래 음성 향상 시스템에서 볼 수 있는 잡음 제거 효과와는 판이한 음성 유무 검출에서의 신뢰성 향상이라는 새로운 효과를 창출한 것이다.
제3도는 본원발명의 바람직한 제1 실시예의 사전 신호 대 잡음비 추정부(21)의 일 실시예를 도시한 블록도이다.
본원발명의 바람직한 양상에 따른 사전 신호 대 잡음비 추정부(21)는:
현재 프레임의 사전 신호 대 잡음비를 최대 가능성 추정 방식으로 추정하는 제1 추정부(31)와;
상기 신호 성분 추정부(24)에서 추정되고 저장된 이전 프레임의 음성 신호 성분 값을 이용하여 이전 프레임의 음성 신호 성분 대 잡음 비를 계산하는 제2 추정부(32)와;
상기 제1 추정부의 출력과 제2 추정부의 출력의 가중화된 평균값으로 최종사전 신호 대 잡음비를 구하여 출력하는 가중 평균부(33);
를 포함하는 것을 특징으로 한다.
또한 본원발명의 바람직한 양상에 따르면, 신호 성분 추정부(24)의 현재 프레임의 음성 신호 성분 추정은 다양한 방식으로 가능하며, 이에는 최대 가능성 추정 방식, 최소 평균 자승 오차 방식(Minimum Mean Square Error Method)[참고문헌 5 참조]이 대표적이다. 바람직한 제1의 실시예에서는 필요한 계산량이 적은 최대 가능성 추정 방식을 채택한다.
제4도는 본원발명의 바람직한 제1 실시예의 판정부(11)의 동작의 일 실시예를 도시한 흐름도이다. 이제 제1도에서 제3도까지 구성이 도시된 본원발명의 바람직한 제1 의 실시예의 동작을 제4도의 흐름도를 참조하여 구체적으로 기술하기로 한다.
본원발명의 바람직한 실시예들은 8 kHz로 샘플링된 음성에 대하여 160 샘플(20 ms) 단위로 하나의 프레임을 구성하여 음성의 유무를 판정한다. 이러한 샘플링 비율 및 프레임 당 샘플 수는 응응분야가 달라짐에 따라 용이하게 변경 가능한 것임은 물론이다.
본원발명의 제1 양상에 따른 판정부(11)의 현재 프레임에서 판정 지향 기반가능성 비 검사를 행하는 방법은:
A.1) 음성 신호를 소정의 길이로 절단하여 주파수 영역 변환하는 단계와;
A.2) 판정 지향 방식으로 사전 신호 대 잡음비를 추정하는 단계와;
A.3) 신호에 대한 가우시안 통계적 모델로부터 현재 프레임에 대해 각 주파수 영역별 가능성 비를 추정하는 단계와;
A.4) 주파수 영역별 가능성 비의 기하 평균을 취하여 현재 프레임의 가능성비를 구하는 단계와;
A.5) 현재 프레임의 음성 신호 성분을 추정하고 그 값을 다음 프레임의 처리를 위하여 저장하는 단계와;
A.6) 상기 A.4 단계에서 구해진 가능성 비를 1 근방의 소정의 문턱값과 비교하여 음성의 유무를 1차적으로 판단하는 단계;
로 구성된다.
이때 문턱값의 설정과 관련하여 문턱값이 증가하면 미검출 비율이 증가하게 되는 바, 문턱치를 1부터 조금씩 증가시키면서 다양한 배경 잡음과 음성의 조합으로 구성된 훈련 신호 열(training signal siquence)들에 대해 상기 방법을 적용하여 미검출 비율을 실험적으로 구하여, 주어진 미검출 비율을 만족시키는 최소값을 문턱치 값으로 정한다.
또한 입력 신호는 초기에 순수한 잡음 만으로 구성된다고 가정하므로 상기 A.5 단계에서 구하는 순수한 음성 신호 성분의 초기값은 0이 된다.
이제 판정부(11)의 동작의 구체적인 실시예를 당해 분야의 통상의 지식을 가진 자라면 누구나 실시할 수 있을 정도로 구체적으로 기술한다.
n번째 프레임에서 배경 잡음 스펙트럼 크기인이(k는 DFT 계수번호로써 0부터 L-1의 값을 갖는다. L=256) 배경 잡음 추정부(12)에서 주어졌을 때,
a.1) 음성 신호에 L 샘플 길이의 윈도우를 취하여 추출된 입력 프레임을 DFT (Discrete Fourier Transform) 처리하여 그 계수들, X(k,n)을 구한다.
a.2) 이전 프레임에서 계산되어 저장된 신호 성분의 추정 값 A(k,n-1)과, 주어진 배경 잡음 스펙트럼 크기, 상기 주파수 변환된 계수를 이용하여 식 (1)과 같이 판정 지향 방식으로 사전 신호 대 잡음 비,을 추정한다.(α는 0 이상 1 이하의 값인데 본원발명에서는 0.98을 사용하였고, x>0이면 P(x)=x, 아니면 P(x)=0이다.)
여기서 α로 가중된 전 항은 이전 프레임의 음성 신호 성분 대 잡음비이고, 1-α로 가중된 후 항은 현재 프레임에서의 신호 성분 대 잡음비를 종래 기술에서의 일반적인 추정 방식인 최대 가능성 추정 방식으로 추정한 값이다. 따라서 이 수식은 현재 프레임에서의 신호 성분 대 잡음비와 이전 프레임에서의 신호 성분 대잡음비를 각각 별도의 방식으로 추정하고 이들의 가중 평균으로 최종적인 현재 프레임의 신호 성분 대 잡음비틀 추정하는 판정 지향 추정 방식을 채택하고 있음을 알 수 있다. 함수 P(x)는 신호 대 잡음 비가 음수가 되는 것을 방지하기 위한 것이다.
a.3) 식 (2)와 같은 각 DFT 계수별 가능성 비(likelihood ratio)를 계산한다.
a.4) 각 주파수 영역별 가능성 비의 기하 평균을 식 (3)과 같이 계산하여 현재 프레임에서의 가능성 비, Λ(n)를 구한다.
a.5) 현재 프레임의 신호 성분를 추정하고 다음 프레임의 처리를 위하여 저장한다. 신호의 크기 성분 추정은 최소 평균 제곱 오차 (minimum mean square error) 방식[참고문헌 5]과 같이 음성 향상 시스템에서 사용되는 여러 방식들을 사용할 수 있으나 본 실시예는 식 (4)와 같은 최대 가능성 추정 방식으로 구한다. 이는 결과적으로 현재 프레임의 사전 신호대 잡음 비 추정 방식과 동일한 방식으로 이전 프레임의 사전 신호대 잡음 비를 구하는 셈이 된다.
a.6) 식 (3)에서 구해진 가능성 비를 1 근방의 적당한 문턱값과 비교하여 음성의 유무를 판단한다.
이제 본원발명의 제2 의 목적을 달성하기 위한 본원발명의 제2의 양상을 첨부된 도면들을 참조하여 바람직한 제2 의 실시예를 통하여 당해 분야의 통상의 지식을 가진 자가 용이하게 실시할 수 있을 정도로 구체적으로 기술하기로 한다.
제5도는 본원발명의 제2 양상에 따른 제2 실시예의 음성 유무 검출 장치를도시한다.
본원발명의 제2 양상에 따른 음성 유무 검출 장치는 입력 신호를 소정 샘플길이의 프레임으로 구분하여 각 프레임 별로 음성 신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11)와;
상기 판정부(11)의 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13);
를 포함하는 음성 유무 검출 장치에 있어서, 상기 행오버 처리부(13)가:
음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하고 상기 판정 단계에서의 가능성 비와 현재 까지의 모든 프레임 입력을 고려하여 행오버 가능성 비를 구하는 행오버 가능성 비 산출부(51)와;
상기 행오버 가능성 비를 소정의 임계치와 비교하여 음성 유무를 판정하는 결정부(52)
를 포함하는 것을 특징으로 한다.
또한 본원발명의 제2 양상에 따른 음성 유무 판정 방법은:
입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 방법으로,
배경 잡음의 통계량을 추정하는 배경 잡음 추정 단계와;
입력 프레임의 통계량과 상기 배경 잡음 통계량으로부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정 단계와;
상기 판정 단계의 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리 단계;
를 포함하는 음성 유무 검출 방법에 있어서, 상기 행오버 처리 단계가:
음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하고 상기 판정 단계에서의 가능성 비와 현재까지의 모든 프레임 입력을 고려하여 행오버 가능성 비를 구하는 단계와;
상기 행오버 가능성 비를 소정의 임계치와 비교하여 음성 유무를 판정하는 단계;
를 포함하는 것을 특징으로 한다.
또한 본원발명의 제2 양상에 따른 음성 유무 검출 방법에서 상기 행오버 가능성 비를 구하는 단계는:
1차 마르코프 과정으로 모델링된 음성 프레임 발생 사건들에서의 행오버 가능성 비를 숨겨진 마르코프 과정(HMM)의 전향 절차(forward procedure) 방식에 의해 매 프레임마다 회귀적(recursive)으로 구하는 것을 특징으로 한다.
종래기술이 판정부(11)의 최종적인 출력 결과인 음성 유무 판정 만으로 행오버 처리를 하는데 반해, 본원발명의 제2 양상은 음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하여 과거 프레임의 판정부(11)의 판정의 근거가 된 연판정 (soft-decision) 결과, 즉 가능성 비 값들을 체계적으로 현재 프레임에서의 판정에 반영하여 행오버 처리를 하는데 특징이 있다. 이는 연속된 음성 프레임의 음성 유무 판정 결과 사이에 상당한 상관관계가 있다는 사실에 착안한 것이다.
과거 프레임의 판정부(11)의 가능성 비 값들을 체계적으로 현재 프레임에서의 판정에 반영하여 각각의 프레임의 음성 유무를 판정하는 과정은 숨겨진 마르코프 모델 (HMM: hidden Markov Model)에 사용되는 전방 알고리즘(forward algorithm)을 적용하여 유도되었다. 구체적으로 판정부(11)에서의 얻어진 가능성비에 행오버 요소(factor)가 곱해진 행오버 가능성 비를 구하고 이를 이용하여 음성의 유무에 대한 최종 판정을 내리게 된다 [참고문헌 7,8참조]. 제안된 행오버 처리부(13)은 기존의 최대 가능성 추정 기반 가능성 비 검사 방식과 판정 지향 추정 기반 가능성 비 검사 방식,[참고문헌 1,2]에서의 LPC 스펙트럼을 이용한 가능성 비검사에 모두 적용될 수 있는데 모든 경우 음성 유무 검출장치의 미검출 비율과 오판정 비율 특성을 크게 향상시키는 것을 확인하였다.
본원발명의 행오버 처리과정은 음성 프레임 발생 사건에 대한 1차 마르코프 모델에 근거한다. 단계 A.1에서 A.6에 이르는 과정이 현재 입력 신호를 관찰하였을 때의 가능성 비를 구하는 과정인 반면, 개발된 행오버 처리 과정은 마르코프 모델에 의해 현재까지의 입력 신호들을 관찰하였을 때의 가능성 비를 구하는 과정이다. 이를 위해 전체 신호중 음성이 존재할 확률 P1와 존재하지 않을 확률 P0, 그리고 음성 프레임 상태에서 음성이 없는 상태로의 전이 확률(transitionprobability)a 10, 그 반대의 전이 확률a 1, 및 기타 전이 확률들,a 0,a 11의 정의가 필요하다. 이 확률값들은 각각 P0+P1=1,a 0+a 1=1,a 10+a 11=1의 제약 조건을 갖는다. 또한 음성 프레임 발생의 상관적 특성은a 11P1로 모델링되며, 마르코프 과정이 정상적(stationary)이라는 가정에 의해a 1P0=a 10P1이 성립한다. 그러므로 두개의 파라미터, 예를 들어a 1,a 10만으로 나머지 파라미터 값들을 결정할 수 있다.
본원발명의 제2 양상에 따른 행오버 판정은 행오버 가능성 비를 HMM(Hidden Markov Model)의 전향 절차(forward procedure)에 의해 매 프레임마다 회귀적으로 구하고[참고문헌 7,8 참조] 그 결과를 소정의 문턱치와 비교한다.
여기서 행오버 가능성 비는 음성이 존재한다고 가정하였을 때 현재 프레임을 포함한 이전 모든 프레임의 입력신호를 관찰할 확률 대 음성이 존재하지 않는다고 가정하였을 때 현재 프레임을 포함한 이전 모든 프레임까지의 모든 입력신호를 관찰할 확률의 비로 정의된다.
행오버 가능성 비, 즉 음성 검출이 시작한 첫 번째 프레임부터 현재까지의 입력신호들을 관찰하였을 때의 가능성 비는 HMM(Hidden Markov Model)의 전향절차(forward procedure)에 의해 유도되는데[참고문헌 7,8 참조], 그 결과는 매 프레임 마다 회귀적(recursive)으로 구해진다
이제 본원발명의 제2 양상에 따른 제2 의 실시예의 행오버 과정을 이하에 구체적으로 기술하기로 한다.
B.1) 식 (5)와 같이 사후 확률 비 (a posteriori probability ratio), Γ(n)를 구한다.
B.2) 식 (6)의 행오버 가능성 비 Ξ(n)을 구한다.
B.3) 행오버 가능성 비와 1 근방의 문턱값과 비교하여 크면 음성의 존재로, 작으면 음성의 부재로 최종 판정한다.
본원발명의 특정 구현에서는a 1=0.2,a 10=0.1의 값을 사용하였고 문턱값으로는 1.1을 사용하였다.
이제 본원발명의 제3 의 목적을 달성하기 위한 본원발명의 제3 의 양상을 첨부된 도면들을 참조하여 바람직한 제3 의 실시예를 통하여 당해 분야의 통상의 지식을 가진 자가 용이하게 실시할 수 있을 정도로 구체적으로 기술하기로 한다.
제6도는 본원발명의 제3 양상에 따른 제3 실시예의 음성 유무 검출 장치를 도시한다.
종래의 배경 잡음 추정부(12)는 초기, 혹은 행오버 판정부(14)의 판정 결과를 이용하거나, 판정 결과를 이용하지 않는 별개의 간단한 이차적 음성 유무 검출장치를 이용하여 음성이 없을 경우의 입력 신호를 배경 잡음 추정값에 반영시킨다. 후자의 경우 이차적 검출장치의 민감도가 둔하기 때문에 비교적 빠르게 특성이 변하는 배경 잡음을 제대로 추적하지 못하여 오경보 비율이 증가하는 단점이 있다. 전자의 경우에는 배경 잡음이 갑자기 변하였을 때 추정된 배경 잡음이 실제 값과 다르므로 현재 프레임이 배경잡음만의 프레임임에도 불구하고 판정부는 계속해서 오경보를 발생시킨다. 이는 다시 배경잡음의 갱신을 막는 되먹임(feedback) 관계를 형성하기 때문에 계속 오경보만을 발생시키는 잠김(locking) 상태에 빠지게 된다. 이를 해결하기 위한 기존의 잠김 방지 장치들은 판정부, 혹은 행오버 판정부의 결과와는 독립적으로 입력 신호의 이차 통계량을 오랜 기간 동안 관찰하고, 관찰된 이차 통계량들의 변화, 예를 들면 분산값(variance)이 일정한 문턱값(threshold) 이하로 유지되면 새로운 배경 잡음으로 인식하여 배경 잡음 통계량 추정값을 새로 관찰된 값으로 갱신한다. 그러나, 이러한 방식은 오랜 기간 지속되는 동일한 크기, 동일한 내용의 음성 신호도 새로운 배경 잡음으로 인식하는 문제점이 있다(이에 따라 이러한 방식을 채택한 EVRC (Enhanced Variable Rate Codec) 휴대폰 단말기의 경우 '아∼'하는 유성음을 계속 입력할 경우 이를 배경 잡음으로 인식하여 출력 레벨이 급격히 떨어지는 문제점이 있었다.
본원발명의 제3 양상에서 채용하는 모멘트 비(moment ratio) 기반 판정기는 이러한 문제점을 해결한다. 본원발명의 제3 양상은 배경 잡음을 구별하기 위하여 일단계에 적용된 시변 1차 자기회귀 필터링(time-varying auto-regressive filtering) 방법은 초기 혹은 행오버 판정 규칙의 가능성 비 값에 따라 현재 입력 신호의 통계량을 배경 잡음 통계량 추정 값에 반영하는 정도를 적응시킴으로써 시간변화 정도가 큰 배경 잡음 통계량을 용이하게 추적(tracking)한다. 이는 배경잡음 추정부와 판정부 사이에 되먹임(feedback) 관계를 형성한다. 또한 전술한 잠김 상태를 방지하기 위하여 판정부의 출력이 계속해서 음성 프레임일 경우 모멘트 비 기반판정기가 동작하기 시작하여 갑자기 변한 배경 잡음과 지속되는 혹은 변하는 음성신호를 구분해낸다.
모멘트 비 기반 판정기의 원리는 다음과 같다. 배경 잡음은 일반적으로 그 이차 통계량이 시불변(time-invariant)인 WSS (wide sense stationary) 신호로 간주되는데, 이러한 WSS 신호는 그 DFT 계수의 크기가 대략적으로 레일레이 분포(Rayleigh distribution)를 따르게 된다. 레일레이 분포는 2n차 모멘트 대 n차 모멘트의 제곱의 비가 일정하다. k번째 DFT 계수의 n차 모멘트를라 하면 모멘트 비는로 정의된다. 실제 배경 잡음스펙트럼의 모멘트 비는 이론적인 값과 유사한 값을 갖는 반면, 지속되는 모음(sustained vowel)은 이보다 훨씬 작은 모멘트 비 값을 갖고, 일상적으로 변하는 음성 신호는 이보다 훨씬 큰 모멘트 비 값을 갖는다. 본원발명에서는 이를 이용하여 갑자기 변한 배경 잡음과 지속되는 음성을 구분하여 배경 잡음 통계량 추정부의 오동작을 방지한다.
본원발명의 제3 양상에 따른 음성 유무 검출 장치는:
입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11);
를 포함하는 음성 유무 검출 장치에 있어서, 상기 배경 잡음 추정부(12)가:
배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정부(61)와;
현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산부(62)와;
상기 n차 혹은 2n차 모멘트로부터 되먹임을 형성하지 않고 독립적으로 추정한는 2차 독립 추정부(63)와;
상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교부(64)와;
현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교부(64)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교부(66)와;
상기 판정부(11)의 출력이 음성 부재인 경우에는 상기 1차 되먹임 추정부(61)의 출력을, 음성 존재인 경우에는 상기 제2 비교부(64)의 출력에 따라 상기 1차 되먹임 추정부(61)의 출력과 2차 독립 추정부(63)의 출력을 선택 출력하는 선택부(65)
를 포함하는 것을 특징으로 한다.
또한 본원발명의 제3 양상에 따른 음성 유무 검출 장치는 상기 1차 되먹임 추정부(61)가 판정부(11)의 출력을 이용하여 배경 잡음 통계량 추정값에 대해시변1차 자기 회귀 필터링을 수행하여 배경 잡음을 추정하는 구성일 수 있다.
또한 본원발명의 제3 양상에 따른 음성 유무 검출 장치는:
판정부(11)의 출력인 1차적인 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13)를 더 포함할 수 있고,
이때 상기 1차 되먹임 추정부(61)는 상기 행오버 처리부(13)의 출력을 이용하여 배경 잡음 통계량 추정값에 대해 시변 1차 자기 회귀 필터링을 수행하여 배경잡음을 추정하는 구성일 있다.
본원발명의 제3 양상에 따른 음성 유무 검출 방법은:
입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 방법으로,
배경 잡음의 통계량을 추정하는 배경 잡음 추정 단계와;
입력 프레임의 통계량과 상기 배경 잡음 통계량을 비교하여 음성 유무를 판정하는 판정 단계;
를 포함하는 음성 유무 검출 방법에 있어서, 상기 배경 잡음 추정 단계가:
a) 배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정 단계와;
b) 상기 판정 단계의 출력이 음성 무인 경우 상기 a)의 1차 추정 단계의 출력을 출력하고 현 프레임에 대한 처리를 종료하는 단계와;
c) 상기 판정 단계의 출력이 음성 존재인 경우에는
c1) 현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n 차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산 단계와;
c2) 상기 n 차 혹은 2n 차 모멘트로부터 되먹임을 형성하지 않고 배경 잡음 통계량 추정값을 계산하는 단계와;
c3) 상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교 단계와;
c4) 현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교 단계(c3)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교 단계와;
c5) 상기 제2 비교 단계의 결과에 따라 상기 1차 되먹임 추정 단계(a)의 출력과 2차 독립 추정 단계(c2)의 출력값을 선택 출력하는 단계;
를 포함하는 것을 특징으로 한다.
또한 본원발명의 제3 양상은 상기 1차 추정 단계(a)가 판정 단계의 출력을 이용하여 배경 잡음 통계량 추정값에 대해 시변 1차 자기 회귀 필터링을 수행하여 배경 잡음을 추정하는 단계일 수 있다.
또한 본원발명의 제3 양상은 판정 단계의 출력인 1차적인 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리 단계를 더 포함할 수 있고, 이때 상기 1차 추정 단계(a)는 행오버 처리 단계의 출력을 이용하여 배경 잡음 통계량 추정값에 대해 시변 1차 자기 회귀 필터링을 수행하여 배경 잡음을 추정하는 단계일 수 있다.
본원발명에서 개발된 두단계 배경 잡음 추정부의 매 프레임마다의 동작은
C.1) 초기 혹은 행오버 판정부에서의 가능성 비를 이용하여 배경 잡음 통계량 추정값에 대하여 시변 1차 자기 회귀 필터링을 하는 단계와
C.2) 초기 혹은 행오버 판정부에서의 판정 결과가 음성의 부재일 경우 변수 현재 프레임의 플래그 F1을 0으로 한 후 현재 프레임에서의 배경 잡음 추정부의 동작을 종료하고, 음성의 존재일 경우 C.3 단계로 진행하는 단계와
C.3) 현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n차와 2n 차의 모멘트를 구하여 모멘트 비를 계산하는 단계와
C.4) 계산된 모멘트 비를 적당한 값 T1,T2에 대하여 (T1 < 이론적 모멘트비 값 <T2) T2 보다 작고 T1 보다 크면 F1을 1로 하고 아니면 0으로 하는 단계와
C.5) 현재부터 적당한 K1개 과거 프레임들까지의 플래그를 관찰하여 1인 플래그의 개수가 K2개 이상일 경우 배경 잡음의 갑작스러운 변화로 간주하여 단계 C.3에서 계산된 n차 모멘트로부터 배경 잡음 통계량 추정값을 계산하고 최종 판정을 음성이 없는 것으로 수정하며, K2 미만일 경우 현재 프레임에서의 배경 잡음 추정부 동작을 종료하는 단계로 구성된다.
본원발명의 특정 구현에서 n번째 프레임에 대한 시변 1차 자기 회귀 필터링은 식 (7)과 같이 구현된다. 단로 초기화된다.
위에서 δ는 1보다 조금 작은 값으로 0.98을 사용하였고 β는 4를 사용하였다. 또한 C.3 단계의 특정 구현에서는 m번째 프레임부터 음성 프레임이 계속되었을경우 1차와 2차 모멘트를 식 (8),(9)와 같이 구하고,
모멘트 비M r(n)는 식 (10)과 같이 구한다.
단계 C.4에서는 2차 모멘트 대 1차 모멘트 제곱의 비를 사용하였는데 레일레이 분포의 이론적 값은 4/π=1.273이다. 특정구현에서 T1=1.20, T2=1.44를 C.5 단계에서는 K1=36, K2=32를 사용하였다. 그리고, 배경 잡음의 갑작스러운 변화로 간주될 경우로 배경 잡음 추정값을 갱신하고 최종 판정을 음성이 없는 것으로 수정한다.
본원발명에서 전체 음성 검출장치의 동작은 다음과 같다.
D.1) 이전 프레임에서 추정된 배경 잡음 정보와 현재 프레임 입력 신호로부터 A.1에서 A.6까지의 단계를 거쳐 초기 가능성 비를 구한다.
D.2) 사후 확률 비와 현재 프레임의 가능성 비를 이용하여 B.1에서 B.3까지 단계를 거쳐 행오버 가능성 비를 구하고 이에 따라 음성의 유무에 대한 판정을 한다.
D.3) 행오버 가능성비를 이용하여 C.1에서 C.5까지의 단계로 배경잡음 추정부를 동작시켜 다음 프레임을 위한 배경 잡음 추정값을 계산한다.
음성 유무 검출장치의 세 구성 요소에 대한 본원발명으로 인해 음성 검출장치의 미검출 대 오경보 동작 특성이 크게 향상되었다. 특히 이동통신 환경과 같이 배경잡음의 신호 레벨이 높은 경우에 본원발명으로 인한 음성 검출장치의 성능향상이 현저하다. 음성 유무 검출장치에서 배경 잡음 추정부의 출력은 판정 규칙의 기준이 되고, 판정부 및 행오버 처리된 판정 결과가 배경 잡음 추정시 고려되는 되먹임(feedback) 관계가 형성되기 때문에, 한 구성 요소의 성능 향상은 다른 구성 요소의 성능 향상을 유발하는 효과가 있다. 그러므로, 세 구성 요소에 걸친 본원발명은 각 구성 요소들의 발명뿐만 아니라 각 구성 요소들의 조합들도 하나의 시스템으로서의 발명의 의미를 갖는다고 할 수 있다.
[발명에 대한 참고문헌]
[1] US Patent No.5,276,765, 'Voice activity detection,' Freeman et al, Jan. 1994.
[2] Jongseo Sohn and Wonyong Sung, 'A voice activity detector employing soft-decision based noise spectrum adaptation,' in Proc. Int. Conf. Acoustics, Speech, and Signal Processing, 1998, pp. 365-368.
[3] US Patent No. 5,410,632, 'Variable hangover time in a voice activity detector,' Daehyoung Hong et al, Apr. 1995.
[4] TIA/EIA/IS-127, Enhanced Variable Rate Codec, Speech ServiceOption3 for Wideband Spread Spectrum Digital Systems, 1996.
[5] Y. Ephraim et al, 'Speech enhancement using a minimum mean square error short-time spectral amplitude estimator,', IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 1109-1121, Dec. 1984.
[6] O. Cappe, 'Elimination of the musical noise phenomenon with the Ephraim and Malah noise suppressor,' IEEE Trans. Speech Audio Processing, vol. 2, pp. 345-349, Apr. 1994.
[7] Jongseo Sohn,Nam Soo Kim, and Wonyong Sung, 'A Statistical model based voice activity detection,' IEEE Signal Processing Letters, Vol. 6, No. 1, pp. 1-3, Jan. 1999.
[8] 손종서, 김남수, 성원용 '통계적 모델에 근거한 음성 검출기의 설계,' 제 15회 음성통신 및 신호처리 워크샵 논문지, 1998년 8월 21일~22일.

Claims (14)

  1. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 배경 잡음 추정부(12)의 출력을 비교하여 음성 유무를 판정하는 판정부(11);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 판정부(11)가:
    판정 지향 추정 방식으로 사전 신호 대 잡음비를 추정하는 사전 신호 대 잡음비 추정부(21)와;
    상기 사전 신호 대 잡음비로부터 현 프레임의 가능성 비를 계산하는 가능성비 산출부(22)와;
    상기 가능성 비를 소정의 문턱치와 비교하여 움성 신호의 유무를 판정하는 비교부(23); 및
    현 프레임의 신호 성분을 추정하고 다음 프레임의 처리를 위하여 저장하는 신호 성분 추정부(24);
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  2. 청구항 1의 음성 유무 검출 장치에서
    상기 사전 신호 대 잡음비 추정부(21)가:
    현재 프레임의 사전 신호 대 잡음비를 최대 가능성 추정 방식으로 추정하는 제1 추정부(31)와;
    상기 신호 성분 추정부(24)에서 추정되고 저장된 이전 프레임의 음성 신호 성분 값을 이용하여 이전 프레임의 음성 신호 성분 대 잡음 비를 계산하는 제2 추정부(32)와;
    상기 제1 추정부의 출력과 제2 추정부의 출력의 가중화된 평균값으로 최종 사전 신호 대 잡음비를 구하여 출력하는 가중 평균부(33);
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  3. 청구항 2의 음성 유무 검출 장치에서
    상기 신호 성분 추정부(24)에서의 현재 프레임의 음성 신호 성분 추정이 최대 가능성 추정 방식으로 이루어지는 것을 특징으로 하는 음성 유무 검출 장치.
  4. 청구항 2의 음성 유무 검출 장치에서
    상기 신호 성분 추정부(24)에서의 현재 프레임의 음성 신호 성분 추정이 최소 평균 자승 오차 방식(Minimum Mean Square Error Method)으로 이루어지는 것을 특징으로 하는 음성 유무 검출 장치.
  5. 청구항1부터 청구항4 중 한 항의 음성 유무 검출장치에서 판정부(11)의 출력인 1차적인 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13)를 더 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  6. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11)와;
    상기 판정부(11)의 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13):
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 행오버 처리부(13)가:
    음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하고 상기 판정 단계에서의 가능성 비와 현재 까지의 모든 프레임 입력을 고려하여 행오버 가능성 비를 구하는 행오버 가능성 비 산출부(51)와;
    상기 행오버 가능성 비를 소정의 임계치와 비교하여 음성 유무를 판정하는 결정부(52)
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  7. 청구항 6의 음성 유무 검출 장치에 있어서, 상기 행오버 가능성 비 산출부(51)가:
    1차 마르코프 과정으로 모델링된 음성 프레임 발생 사건들에서의 행오버 가능성 비를 숨겨진 마르코프 과정(HMM)의 전향 절차(forward procedure) 방식에 의해 매 프레임마다 회귀적(recursive)으로 구하는 것을 특징으로 하는 음성 유무 검출 장치.
  8. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성 신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 배경 잡음 추정부(12)가:
    배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정부(61)와;
    현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산부(62)와;
    상기 n 차 혹은 2n 차 모멘트로부터 되먹임을 형성하지 않고 독립적으로 배경잡음 통계량을 추정하는 2차 독립 추정부(63)와;
    상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교부(64)와;
    현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교부(64)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교부(66)와;
    상기 판정부(11)의 출력이 음성 부재인 경우에는 상기 1차 되먹임 추정부(61)의 출력을, 음성 존재인 경우에는 상기 제2 비교부(64)의 출력에 따라 상기 1차 되먹임 추정부(61)의 출력과 2차 독립 추정부(63)의 출력을 선택 출력하는 선택부(65)
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  9. 청구항 8의 음성 유무 검출 장치에 있어서, 상기 1차 되먹임 추정부(61)는 판정부(11)의 출력을 이용하여 배경 잡음 통계량 추정값에 대해 시변 1차 자기 회귀 필터링을 수행하여 배경 잡음을 추정하는 것을 특징으로 하는 음성 유무 검출 장치.
  10. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11)와;
    판정부(11)의 출력인 1차적인 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 배경 잡음 추정부(12)가:
    배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정부(61)와;
    현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산부(62)와;
    상기 n차 혹은 2n차 모멘트로부터 되먹임을 형성하지 않고 독립적으로 배경잡음 통계량을 추정하는 2차 독립 추정부(63)와;
    상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교부(64)와;
    현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교부(64)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교부(66)와;
    상기 판정부(11)의 음성 부재인 경우에는 상기 1차 되먹임 추정부(61)의 출력을, 음성 존재인 경우에는 상기 제2 비교부(64)의 출력에 따라 상기 1차 되먹임 추정부(61)의 출력과 2차 독립 추정부(63)의 출력을 선택 출력하는 선택부(65)
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  11. 청구항 10의 음성 유무 검출 장치에 있어서, 상기 1차 되먹임 추정부(61)는 행오버 처리부(13)의 출력을 이용하여 배경 잡음 통계량 추정값에 대해 시변 1차 자기 회귀 필터링을 수행하여 배경 잡음을 추정하는 것을 특징으로 하는 음성 유무 검출 장치.
  12. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11)와;
    상기 판정부(11)의 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 판정부(11)가:
    판정 지향 추정 방식으로 사전 신호 대 잡음비를 추정하는 사전 신호 대 잡음비 추정부(21)와;
    상기 사전 신호 대 잡음비로부터 현 프레임의 가능성 비를 계산하는 가능성비 산출부(22)와;
    상기 가능성 비를 소정의 문턱치와 비교하여 음성 신호의 유무를 판정하는 비교부(23); 및
    현 프레임의 신호 성분을 추정하고 다음 프레임의 처리를 위하여 저장하는 신호 성분 추정부(24);
    를 포함하고;
    상기 행오버 처리부(13)가:
    음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하고 상기 판정 단계에서의 가능성 비와 현재 까지의 모든 프레임 입력을 고려하여 행오버 가능성 비를 구하는 행오버 가능성 비 산출부(51)와;
    상기 행오버 가능성 비를 소정의 임계치와 비교하여 음성 유무를 판정하는 결정부(52)
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  13. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 상기 배경 잡음 추정부(12)의 출력으로 부터 가능성 비를 구하고 이에 의해 음성 유무를 판정하는 판정부(11)와;
    상기 판정부(11)의 판정 결과를 과거의 판정결과를 고려하여 수정하여 출력하는 행오버 처리부(13);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 배경 잡음 추정부(12)가:
    배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정부(61)와;
    현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n 차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산부(62)와;
    상기 n 차 혹은 2n 차 모멘트로부터 되먹임을 형성하지 않고 독립적으로 추정한는 2차 독립 추정부(63)와;
    상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교부(64)와;
    현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교부(64)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교부(66)와;
    상기 판정부(11)의 출력이 음성 부재인 경우에는 상기 1차 되먹임 추정부(61)의 출력을, 음성 존재인 경우에는 상기 제2 비교부(64)의 출력에 따라 상기 1차 되먹임 추정부(61)의 출력과 2차 독립 추정부(63)의 출력을 선택 출력하는 선택부(65)
    를 포함하고;
    상기 행오버 처리부(13)가:
    음성 프레임 발생 사건간의 상관적 특성을 1차의 마르코프 과정으로 모델링하고 상기 판정 단계에서의 가능성 비와 현재 까지의 모든 프레임 입력을 고려하여 행오버 가능성 비를 구하는 행오버 가능성 비 산출부(51)와;
    상기 행오버 가능성 비를 소정의 임계치와 비교하여 음성 유무를 판정하는 결정부(52)
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
  14. 입력 신호를 소정 샘플 길이의 프레임으로 구분하여 각 프레임 별로 음성 신호의 존재 유무를 판정하여 그 판정결과를 출력하는 음성 유무 검출 장치로,
    배경 잡음의 통계량을 추정하는 배경 잡음 추정부(12)와;
    입력 프레임의 통계량과 배경 잡음 추정부(12)의 출력을 비교하여 음성 유무를 판정하는 판정부(11);
    를 포함하는 음성 유무 검출 장치에 있어서, 상기 배경 잡음 추정부(12)가:
    배경 잡음 통계량을 판정 결과를 이용하여 1차적으로 추정하는 1차 되먹임 추정부(61)와;
    현재 프레임까지 연속되는 과거 음성 프레임들의 입력 크기 스펙트럼들의 n 차와 2n 차 모멘트를 구하여 모멘트 비를 계산하는 모멘트 비 계산부(62)와;
    상기 n 차 혹은 2n 차 모멘트로부터 되먹임을 형성하지 않고 독립적으로 추정한는 2차 독립 추정부(63)와;
    상기 모멘트 비를 제1 임계치 및 이보다 큰 값인 제2 임계치와 비교하여 두 임계치 사이의 값인지 여부를 판단하는 제1 비교부(64)와;
    현재부터 소정 개수만큼의 과거 프레임까지의 상기 제1 비교부(64)의 출력값을 누산하여 모멘트 비가 상기 제1,2 임계치 사이값인 경우의 횟수를 제3 임계치와 비교하는 제2 비교부(66)와;
    상기 판정부(11)의 출력이 음성 부재인 경우에는 상기 1차 되먹임 추정부(61)의 출력을, 음성 존재인 경우에는 상기 제2 비교부(64)의 출력에 따라 상기 1차 되먹임 추정부(61)의 출력과 2차 독립 추정부(63)의 출력을 선택 출력하는 선택부(65)
    를 포함하고;
    상기 판정부(11)가:
    판정 지향 추정 방식으로 사전 신호 대 잡음비를 추정하는 사전 신호 대 잡음비 추정부(21)와;
    상기 사전 신호 대 잡음비로부터 현 프레임의 가능성 비를 계산하는 가능성비 산출부(22)와;
    상기 가능성 비를 소정의 문턱치와 비교하여 음성 신호의 유무를 판정하는 비교부(23); 및
    현 프레임의 신호 성분을 추정하고 다음 프레임의 처리를 위하여 저장하는신호 성분 추정부(24);
    를 포함하는 것을 특징으로 하는 음성 유무 검출 장치.
KR1019990005624A 1999-02-19 1999-02-19 가능성비 검사에 근거한 음성 유무 검출 장치 KR100303477B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990005624A KR100303477B1 (ko) 1999-02-19 1999-02-19 가능성비 검사에 근거한 음성 유무 검출 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990005624A KR100303477B1 (ko) 1999-02-19 1999-02-19 가능성비 검사에 근거한 음성 유무 검출 장치

Publications (2)

Publication Number Publication Date
KR20000056371A KR20000056371A (ko) 2000-09-15
KR100303477B1 true KR100303477B1 (ko) 2001-09-26

Family

ID=19574642

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990005624A KR100303477B1 (ko) 1999-02-19 1999-02-19 가능성비 검사에 근거한 음성 유무 검출 장치

Country Status (1)

Country Link
KR (1) KR100303477B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761294B2 (en) 2004-11-25 2010-07-20 Lg Electronics Inc. Speech distinction method
WO2018038379A1 (ko) * 2016-08-26 2018-03-01 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 이의 제어 방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100494564B1 (ko) * 2000-12-28 2005-06-10 엘지전자 주식회사 보코더 가변 정보율을 이용한 반향 제거 장치 및 방법
KR100355384B1 (ko) * 2001-01-05 2002-10-12 삼성전자 주식회사 음성 신호에서의 유성화 확률 결정 장치 및 그 방법
KR100421013B1 (ko) * 2001-08-10 2004-03-04 삼성전자주식회사 음성 향상 시스템 및 방법
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
KR100881355B1 (ko) * 2004-05-25 2009-02-02 노키아 코포레이션 다중 누화 잡음 검출 시스템 및 방법
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761294B2 (en) 2004-11-25 2010-07-20 Lg Electronics Inc. Speech distinction method
WO2018038379A1 (ko) * 2016-08-26 2018-03-01 삼성전자 주식회사 음성 인식을 위한 전자 장치 및 이의 제어 방법
US11087755B2 (en) 2016-08-26 2021-08-10 Samsung Electronics Co., Ltd. Electronic device for voice recognition, and control method therefor

Also Published As

Publication number Publication date
KR20000056371A (ko) 2000-09-15

Similar Documents

Publication Publication Date Title
US9208780B2 (en) Audio signal section estimating apparatus, audio signal section estimating method, and recording medium
Moattar et al. A simple but efficient real-time voice activity detection algorithm
EP2089877B1 (en) Voice activity detection system and method
Sohn et al. A statistical model-based voice activity detection
US7769585B2 (en) System and method of voice activity detection in noisy environments
Fujimoto et al. Noise robust voice activity detection based on switching Kalman filter
WO2000036592A1 (en) Improved noise spectrum tracking for speech enhancement
US20060165202A1 (en) Signal processor for robust pattern recognition
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
JP3451146B2 (ja) スペクトルサブトラクションを用いた雑音除去システムおよび方法
Mai et al. Robust estimation of non-stationary noise power spectrum for speech enhancement
Fujimoto et al. A voice activity detection based on the adaptive integration of multiple speech features and a signal decision scheme
Ramírez et al. Speech/non-speech discrimination based on contextual information integrated bispectrum LRT
KR100303477B1 (ko) 가능성비 검사에 근거한 음성 유무 검출 장치
Thakare Voice activity detector and noise trackers for speech recognition system in noisy environment
Kotnik et al. Robust MFCC feature extraction algorithm using efficient additive and convolutional noise reduction procedures
Hizlisoy et al. Noise robust speech recognition using parallel model compensation and voice activity detection methods
Tashev et al. Unified framework for single channel speech enhancement
Arakawa et al. Model-basedwiener filter for noise robust speech recognition
Deisher et al. Speech enhancement using state-based estimation and sinusoidal modeling
Farahani et al. Robust feature extraction of speech via noise reduction in autocorrelation domain
Kim et al. Feature compensation based on soft decision
Lee et al. Signal and feature domain enhancement approaches for robust speech recognition
Borisagar et al. Speech enhancement in noisy environment using voice activity detection and wavelet thresholding
Chelloug et al. Real Time Implementation of Voice Activity Detection based on False Acceptance Regulation.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120718

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee