KR100308028B1 - 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체 - Google Patents

적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체 Download PDF

Info

Publication number
KR100308028B1
KR100308028B1 KR1019980050092A KR19980050092A KR100308028B1 KR 100308028 B1 KR100308028 B1 KR 100308028B1 KR 1019980050092 A KR1019980050092 A KR 1019980050092A KR 19980050092 A KR19980050092 A KR 19980050092A KR 100308028 B1 KR100308028 B1 KR 100308028B1
Authority
KR
South Korea
Prior art keywords
frames
signal
speech detection
adaptive speech
modified
Prior art date
Application number
KR1019980050092A
Other languages
English (en)
Other versions
KR19990045490A (ko
Inventor
파라 루카스
디 바리어스 알버트
Original Assignee
구자홍
엘지전자주식회사
윌리암 제이. 뷰케
사노프 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구자홍, 엘지전자주식회사, 윌리암 제이. 뷰케, 사노프 코포레이션 filed Critical 구자홍
Publication of KR19990045490A publication Critical patent/KR19990045490A/ko
Application granted granted Critical
Publication of KR100308028B1 publication Critical patent/KR100308028B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

본 발명은 적응 음성 검출장치 및 방법과 그 방법을 이용한 읽기 가능한 컴퓨터 매체에 관한 것으로, 입력 신호내에서 분류의 확률 분포을 적용하고, 다양한 신호 성분들(예를 들어, 검출을 원하는 신호 성분 대 원하지 않는 신호 성분)를 추적함에 의하여 소정의 신호 성분의 존재를 검출한다. 다시 말해, N-혼합 모델(예를 들어, N=2인 이중 혼합)이 사용되어지는 데, 이 모델 밀도는 N 신호 성분, 예를 들어 과거의 오디오 프레임과 같이 과거에 관찰되었던 음성과 비음성(non-speech) 특징들을 갖는 두 개의 신호 성분를 포착한다. 새로운 프레임의 분류는 이후 단순히 새로운 프레임이 다른 클래스에 대응하는 확률을 계산하는 문제이다. 이후, 최적화된 문턱값은 적용가능하게 발생될 수 있으며 개선될 수 있다.

Description

적응 음성 검출장치 및 방법과 그 방법을 이용한 읽기 가능한 컴퓨터 매체{method and apparatus for adaptive speech detection and computer-readable medium using the method}
본 발명은 둘 이상의 신호 성분를 갖는 신호 처리를 위한 장치 및 방법에 관한 것으로, 특히 적용가능하도록 개선된 결정 기능을 사용하는 신호에서 음성 성분와 같은 소정의 신호 성분를 검출하는 적응 음성 검출장치 및 방법과 그 방법을 이용한 읽기 가능한 컴퓨터 매체에 관한 것이다.
일반적으로 실생활에서 관찰되는 많은 신호들은 다수개의 신호 성분들의 합성이다. 예를 들어, 한 사람이 이동하는 차량내에서 오디오 신호를 기록한다면, 측정된 오디오 신호는 길 표면 위를 구르는 타이어에서 비롯된 오디오 신호, 바람 소리, 다른 차량의 소리, 차량 내에서의 사람들의 음성 신호 등과 같은 다수의 신호 성분로 구성될 것이다. 또한, 측정된 오디오 신호은 일정하지 않게 되는데, 이는 차량이 움직이면서 신호 성분가 다양하게 변화하기 때문이다.
오디오 신호에서의 음성 성분 등과 같은 소정의 신호 성분를 검출하는 것은 실생활에서 많은 효과가 있다. 음성 검출은 음성 또는 명령 인식 적용 등 많은 실용적인 적용을 가지고 있다. 그러나, 음성 검출 방법들은 일반적으로 전체 또는성분-방식 신호 파워(component-wise signal power)를 식별함에 기초하고 있다. 예를 들어, 성분-방식 신호 파워는 미리 결정된 애드-혹(ad-hoc) 결정 기능에 결합되어 현재의 프레임이 음성을 포함하는 가의 여부에 대한 결정을 하게 된다.
그러나, 애드-혹(ad-hoc) 결정 기능에 연관하여 적어도 몇가지의 어려움이 있다. 첫째, 애드-혹(ad-hoc) 결정 기능은 많은 경우 시간에 따라 변화하는 신호대 잡음비(SNR)에 종속적이 되는 문턱값을 조정할 것을 요구한다. 둘째, 많은 애드-혹(ad-hoc) 결정기능이 긴 비음성 구간 동안에 음성을 잘못 검출하는 경향이 있음이 지적되어 왔다.
따라서, 적용가능하도록 개선된 결정 기능을 사용하여 일정하지 않은 신호에서 음성 성분와 같은 소정의 신호 성분를 검출하는 것이 필요할 것으로 보인다.
본 발명은 이와 같은 문제들을 해결하기 위한 것으로, 적용가능하도록 개선된 결정 기능을 사용하여 일정하지 않은 신호에서 음성 성분와 같은 소정의 신호 성분를 검출할 수 있는 적응 음성 검출장치 및 방법을 제공하는데 그 목적이 있다.
도 1은 본 발명에 따른 신호 처리 시스템을 보여주는 블록구성도
도 2는 본 발명에 따른 음성 검출 모듈을 보여주는 블록구성도
도 3은 잡음 성분와 음성 성분의 전력 스펙트럼의 확률 분포를 보여주는 그래프
도 4는 일정하지 않은 신호에서 소정의 신호 성분를 검출하는 방법을 보여주는 흐름도
도 5는 일반용 컴퓨터를 사용할때 적용되어지는 본 발명의 신호 처리 시스템을 보여주는 블록구성도
도면의 주요부분에 대한 부호의 설명
100 : 신호 처리시스템 104 : 전처리 신호 수신부
106 : 신호 처리부 110 : 필터
120 : 검출 모듈 135 : 신호 발생기
210 : 선택 잡음 필터 220 : 윈도우 기능부
225 : 특징 선택부 230 : FFT
240 : 특징 추출부 250 : 검출부
510 : 일반용 컴퓨터 512 : CPU
514 : 메모리 516 : 신호 처리부
520 : 입출력 장치
본 발명에 따른 적응 음성 검출방법의 특징은 하나 이상의 신호 성분를 가지는 입력 신호로부터 소정의 신호 성분를 검출하는 음성 검출방법에 있어서, 다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 제 1 단계와, 다수개의 프레임들을 처리하기 위해 적어도 하나의 특징을 선택하는 제 2 단계와, 확률적 표현을 사용하여 프레임들을 분류함으로써 선택된 특징에 상응하는 프레임들 중에서 원하는 신호 성분를 검출하는 제 3 단계로 이루어지는데 있다.
본 발명에 따른 적응 음성 검출장치의 특징은 하나 이상의 신호 성분를 가지는 입력 신호로부터 소정의 신호 성분를 검출하는 음성 검출장치에 있어서, 다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 윈도우부와, 다수개의 프레임들을 처리하기 위해 적어도 하나의 특징을 선택하는 특징 선택부와, 확률적 표현을 사용하여 프레임들을 분류함으로써 선택된 특징에 상응하는 프레임들 중에서 원하는 신호 성분를 검출하는 검출부로 구성되는데 있다.
본 발명에 따른 읽기 가능한 컴퓨터 매체의 특징은 프로세서 실행시, 다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 제 1 단계와; 상기 다수개의 프레임들을 처리하기 위해 적어도 하나의 특징을 선택하는 제 2 단계와; 확률적 표현을 사용하여 상기 프레임들을 분류함으로써 상기 선택된 특징에 상응하는 상기 프레임들 중에서 소정의 신호 성분를 검출하는 제 3 단계들을 구비하는 단계를 상기 프로세서가 수행하도록 하는 명령어를 포함하는 저장된 복수개의 명령어를 갖는데 있다.
상기와 같은 특징을 갖는 본 발명에 따른 적응 음성 검출장치 및 방법과 읽기 가능한 컴퓨터 매체을 첨부된 도면을 참조하여 설명하면 다음과 같다.
도 1은 본 발명의 신호 처리 시스템을 보여주는 블록구성도로서, 도 1에 도시된 바와 같이, 신호 처리 시스템(100)은 선택 신호 전처리 수신부(104)와 신호 처리부(106)으로 구성된다.
전처리 수신부(104)는 패스(path)(102)를 통해 음성 신호들, 재정 데이터 신호들, 또는 지리적 신호들과 같은 일정하지 않은 신호들을 수신한다.
전처리 수신부(104)는 모뎀, 아날로그/디지탈 변환기, 마이크로폰, 레코더, 또는 RAM(random access memory), 자기 또는 광 드라이브 등의 저장 장치와 같은 다수의 장치들로 구성될 수 있다. 즉, 전처리 수신부(104)는 일정하지 않은 입력 신호를 불연속 신호로 전환하고 수신하는데, 이 불연속 신호는 이후 후속 처리를 위해 신호 처리부(106)으로 이동된다. 그러므로, 처리되는 일정하지 않은 신호들에 따라 전처리 수신부(104)는 입력 신호를 적절한 불연속적인 형태로 전환하고 수신하는데 필요한 하나 이상의 성분들로 구성될 수 있다. 예를 들면, 입력 신호가 저장 장치로부터 저장된 불연속 신호를 회복하는 것처럼 이미 적절한 불연속적인 형태로 되어 있다면, 이후 전처리 수신부(104)는 모두 생략되어질 수 있다.
이어, 패스(105)를 통해 일정치 않은 불연속적 신호는 신호 처리부(106)로 송신된다.
여기서, 신호 처리부(106)는 다른 목적을 가지고 다른 형태로 있는 일정치 않은 신호를 처리하기 위해 하나 이상의 필터(110)들을 적용할 수 있다.
예를 들어, 신호 처리부(106)는 입력 신호의 신호 성분들의 추정된 파워 스팩트럼(power spectrum)을 나타내는 출력을 갖는 다수의 GDL(Gamma Delay Line)을 적용할 수 있다. 다시 말해, 각각의 GDL 필터의 출력은 특정 신호 성분의 현 오디오 프레임을 위한 파워 스팩트럼의 추정치이다. 필터(110)들의 출력은 이후 가산/감산기(130)로 인가된다. 여기서, 가산/감산기(130)는 입력 신호의 파워 스팩트럼에서 신호 성분들의 하나 이상의 파워 스팩트럼들을 분리 또는 억제(부가 또는 감소)시킨다. 제거되거나 억제되어지는 하나 이상의 신호 성분들을 갖는 나머지 파워 스팩트럼 신호는 이후 신호 발생기(135)로 송신되는데, 이 신호 발생기(135)는 나머지 파워 스팩트럼 신호를 패스(140)를 통해 "출력 신호가 감소된 신호 성분"로 전환된다. 다시 말해, 파워 스팩트럼을 발생시키는 과정은 출력 신호를 획득하기 위해 역전되어진다. 만일 억제된 신호 성분가 잡음으로 생각되면, 이후 패스(140)의 출력 신호는 출력 신호가 감소된 잡음이다. 일정치 않은 신호들을 처리하기 위해 GDL을 사용하는 것에 관한 상세한 설명은 "Method And Apparatus For Filtering Signals Using A Gamma Delay Line Based Estimation Of Power Spectrum"의 제목을 가진 1998년 3월 3일자 미국특허출원에 기재되어 있다.(대리인 도켓 SAR 12777 ; 시리얼 번호 09/055,043)
또한, 신호 처리부(106)는 필터(110)에 연결되는 본 발명의 주요 특징인 검출 모듈(120)을 포함한다. 검출 모듈(120)은 입력 신호의 현재 부분에서 소정의 신호 성분, 예를 들어 오디오 신호내의 음성 성분의 존재를 검출하고 추정한다. 상기 "존재" 정보는, 예를 들어 특정 신호 성분에 대한 파워 스팩트럼의 추정내에서 각각의 GDL 필터(110)에 의하여 다른 적용들을 위하여 사용될 수 있다. 또는, "존재" 정보는 다른 신호 처리 시스템, 예를 들어 음성 또는 명령 인식 시스템(도시되어있지 않음)에 의해 사용되는 패스(150)를 통해 전달될 수 있다.
일 실시예로서, 신호 처리 시스템(100)은 음성 강화 시스템으로써 적용되기도 한다. 좀 더 상세히 설명하면, 측정된 음성 신호는 "잡음"으로 나타나는 음성 신호내의 신호 성분를 제거 또는 억제하도록 처리되어진다.
예를 들어, 이동 차량내에서 측정된 오디오 신호는 화자의 음성 신호와 "잡음"으로 넓게 분류되는 다른 신호 성분들로 구성될 수 있다. 바람직한 특징은 화자의 분명한 음성 신호를 발생시키기 위해 오디오 신호내의 "잡음"을 억제하는 것이 될 것이다. 화자의 분리된 음성 신호는 이후 텔레커뮤니케이션(telecommunication) 적용내의 음성 신호로 전송되어지거나 또는 음성 명령 또는 음성 인식 시스템, 예를 들어 음성 명령시 자동적으로 셀룰라 폰(cellular phone)을 다이알(dial)하는 시스템을 활성화하는 데 사용될 수 있다.
본 발명이 음성 강화 시스템에 적용될 수 있음에도 불구하고, 본 발명은 다른 일정치 않은 신호들을 처리하는 데에 적용될 수 있는 것으로 이해되어야 한다. 다시 말해, 본 발명은 소정의 신호 성분, 예를 들어 음성 성분를 검출하는 것에 관한 것이다. 일단 이 소정의 신호 성분의 존재가 주어진 시간 간격, 예를 들어 오디오 프레임동안 검출되어지면, 상기 "존재" 정보는 본 발명의 신호 처리 시스템에 의하여 효과적으로 활용되어질 수 있다.
간략하게 설명하면, 본 발명은 소정의 신호 성분를 분류하고 트랙킹(tracking)하기 위해 확률적 표현을 사용한다. 즉, 이중 혼합 모델이 사용되어지는데, 상기 모델의 밀도는 두 개의 신호 성분, 예를 들어 예전의 오디오 프레임과 같이 예전에 관찰되었던 음성와 비음성 특징들을 가진다. 새로운 프레임의 분류는 이후 단순히 새로운 프레임이 다른 클래스(class)에 대응하는 우도(likelihood)를 계산하는 문제이다. 이 문제가 통계적인 모델링 태스크(modeling task)로 공식화되기 때문에, 어떠한 임의적인 문턱값도 포함되지않는다.
본 발명의 원리는 도 3에 도시된 바와 같이, 잡음 성분(310)와 음성 성분(320)의 파워 스팩트럼에 대한 확률 분포를 표시하는 두 개의 곡선으로 나타난다.
전형적으로, 오직 잡음 성분만을 가지는 오디오 프레임의 파워 스팩트럼은 잡음과 음성 성분를 갖는 오디오 프레임의 파워 스팩트럼에 비해 상대적으로 작다. 보다 중요한 것은, 도 3의 곡선은 전형적으로 일반 검출 모듈에는 적용되지 않는다는 것이다.
대부분의 검출 방법들은 단순히 분별되는 잡음과 평균 잡음 파워 스팩트럼, 예를 들어 잡음 성분의 평균 전력 스팩트럼의 3db 이상의 어느 곳에 위치하는 음성에 대한 문턱값을 할당한다. 불행히도, 이와 같이 고정된 문턱값의 최적화는 많은 경우에 시간에 따라 변화하는 신호 대 잡음비에 종속되어진다.
하지만, 알 수 있는 것처럼, 두 곡선이 교차하는 면적내에서 잡음과 음성을 구별하기 위한 문턱값을 선택하는 것은 여전히 잘못된 분류, 즉, 음성을 갖는 프레임으로 분류된 잡음만의 프레임 또는 그 반대의 상황을 초래할 것이다. 하지만, 특정 분포, 예를 들어, 특정 신호 성분에 대한 전력 분포에 대해 알맞는 가우시안을 잘 알고 있다면, 가장 적절한 문턱값을 선택하기 위해 두 개의 가우시안 사이에서 교차점, 예를 들어, 도면 번호 330을 추론해낼 수 있다.
가장 적절한 문턱값을 선택하는 것은 특정 적용임이 이해되어져야 한다. 즉, 하나의 적용은 음성을 갖는 모든 프레임을 확인해서 선택해야 하는 반면, 다른적용은 잡음을 갖는 모든 프레임을 제거해야 한다. 그럼에도 불구하고, 관련된 가우시안의 지식을 가지고 있으면 검출 모듈이 특정 적용의 요구에 충족하는 최선의 문턱값(가우시안의 교차이거나 아닌 것)을 선택하도록 한다.
도 2는 본 발명에 따른 검출 모듈을 보여주는 블록구성도로서, 도 2에 도시된 바와 같이 선택 잡음 필터부(210), 윈도우 기능부(220), 특징 선택부(225) 및 검출 또는 분류부(250)로 구성된다. 본 발명의 음성 검출 모듈(120)은 신호에 맞게 적응되고 동시에 결정 문턱값을 조정하는 결정 기능을 알아냄으로써 음성 검출 임계(criticalities)을 지정한다. 즉, 본 발명은 그것의 과거를 기준으로 얼마나 조정하는지에 대해 능동 결정을 하게 한다. 따라서, 이것은 전에 트레이닝 또는 민감한 매개변수 조정을 필요로하지 않는 완전히 관리되지 않은 적응가능한 방법이다.
더욱 상세하게는, 잡음과 음성 성분들이 혼합된 입력 신호(예를들면, 오디오 신호)가 검출 모듈(120)에 의해 수신되고 선택 잡음 필터부(210)에 의해 선택적으로 걸러진다. 검출 또는 분류부(250)가 피드백 패스(260)를 통해 잡음 성분에 대한 다양한 정보를 제공할 수 있기 때문에, 선택 잡음 필터부(210)는 피드백 신호에 따라 조정될 수 있다.
하지만, 선택 잡음 필터부(210)는 일반적으로 검출 또는 분류부(250)가 다수의 프레임을 처리하기에 충분한 시간을 가질 때까지 활성화되지 않는다. 즉, 입력 신호를 걸러냄으로써 발생할 수 있는 에러를 유발하지 않고 처음 그대로의 입력 신호를 처음으로 분석할 수 있도록 검출 또는 분류부(250)에 충분한 시간이 제공된다는 사실은 중요하다. 그럼에도 불구하고, 일단 검출 또는 분류부(250)가 입력 신호, 예를 들면, 입력 신호에 대한 축적 통계 데이터를 분석하도록 충분한 시간을 받는다. 검출 또는 분류부(250)에 의해 만든 분류 결정은 선택 잡음 필터부(210)에 의해 활용되어 검출 또는 분류부(250)의 검출 및/또는 분류 능력을 더욱 증대시킬 수 있다.
윈도우 기능부(220)는 윈도우 기능, 예를 들면, 하닝(Hanning) 기능을 입력 오디오 신호에 적용한다. 즉, 입력 오디오 신호는 다수의 프레임, 예를 들어, 오디오 프레임으로 분리된다.
다음으로, 특징 선택부(225)는 입력 신호의 현재 프레임의 분류에서 정보를 제공할 하나 이상의 입력 신호의 특징을 타겟(target)으로 삼거나 선택한다. 즉, 원하는 신호 성분은 원하지 않는 신호 성분과 구별되거나 다른 몇가지 구별되는 특징을 갖는 것으로 생각된다. 예를 들면, 위에서 설명한 바와 같이, 잡음 프레임의 평균 전력 스펙트럼은 일반적으로 잡음 및 음성을 갖는 프레임의 평균 전력 스펙트럼보다 적다. 하지만, 다른 관찰(즉, 특징)이 입력 신호의 다른 유형에 대해 존재하기 때문에 특징 선택부(225)의 선택 기준이 구동된다고 이해되어야 한다.
바람직한 실시예에서, 특징 선택부(225)는 입력 오디오 신호의 각 프레임에 대해 빠른 푸리에 변환(FFT, Fast Fourier Transform)(230) 및 각 프레임에 대한 특징 벡터를 전산처리하기 위해 특징 추출부(240) 또는 컴퓨테이션(computation) 모듈을 사용한다. 즉, 기본 가정은 현재 프레임을 설명하는 특징 벡터는 음성 상태 및 비음성 상태, 즉, 잡음 성분만을 가진 프레임 또는 잡음 성분과 음성 성분을가진 프레임에 해당하는 두 개의 개별적인 클러스터(cluster) 또는 카테고리(category)로 분리된다.
본 발명의 실시예로, 온-라인(on-line) EM(Expectation-Maximaization) 알고리즘 또는 방법 (M. Feder, E.Weinstein, and M.V.Oppenheim "A new class of sequentail and adaptive algorithms with applicatiohn to noise cancellation", in ICASSP 88, 페이지 557-560, 1998년)이 검출부(250)에서 논의된 두 가우시안 밀도(Gaussian densities)의 혼합(mixture)을 추적하는데 이용된다. 그것만으로, 분류의 근거를 두는 상이한 특성 벡터들이 이용될 수 있다. 발명의 실시예에서, 하부 주파수대(frequency subbands)의 로그 거듭제곱(logarithmic powers)이 이용되는데, 이는 음성 신호에 있어서 가우시안(Gaussian) 분포에 의해 통상적으로 모형화되는 것이다. 따라서, 도 2에 도시된 바와 같이, 현재의 신호 프레임에 대한 FFT(Fast Fourier Transformation)를 수행한 다음 (소정 시스템의 계산 복잡성에 따라) 10-20 하부 주파수대의 로그 거듭제곱의 계산을 행함으로써 제시된 특성들이 계산된다.
따라서, 특성 y는 검출부(250)에서 이중의 가우시안 혼합 밀도에 의해 다음과 같이 모형화된다.
그러므로, 상기의 가정에 부합하는 특징 공간(feature space)이라면 어느것이나 이용될 수 있다. 평균 μ와 공분산 ∑ 와 함께 d-차원 특성 벡터 y 에 대한정규 분포(normall distribution)가 다음과 같이 정의된다. N(y;μ,∑) = (2π)-d/2│∑│-1/2exp((y-μ)T-1(y-μ)). 표준 EM 알고리즘을 이용하여 한정된 개수의 프레임 특성 y(1),....,y(N) 으로부터 혼합 계수, m1, m2, 평균 μ1, μ2, 그리고 공분산 ∑1, ∑2가 얻어질 수 있다.
일단 변수들이 발견되면, 분류(classification)는 소정의 특성 샘플에 대해 두 개의 클러스터(cluster) i = 1, 2 중에서 어디에 속하는가 그 해당 확률 N(y; μI, ∑I)을 비교하는 것으로 이루어진다. 보다 큰 평균 제곱 │μ│을 갖는 클러스터는 음성에 해당하는 것으로 추정된다.
그러나, 표준 EM 알고리즘은 수렴하기 전에 여러 횟수로 모든 N 샘플을 거쳐 반복될 필요가 있다. 그러한 반복은 계산상 비용이 많이 들고 실시간(real-time) 또는 온-라인 응용에서 실용적이지 못하다.
다르게는, 본 발명의 다른 실시예로, EM 업데이트 방정식(update equation)을 변형한(예, 온-라인) 버전이 이용된다. 다시 말해서,변형된 방법은 반복이 필요없는 충분한 어림값을 제공함으로써 복잡성을 줄이고 처리시간을 단축시킨다.
좀더 구체적으로 말하자면, 프레임 1,2...,k 에 대해 계산된 변수들 mi(k + 1),μi(k),∑i(k),i = 1,2 라고 가정하면, 프레임 k + 1 에 대한 새로운 변수가 다음과 같이 y(k +1) 로부터 계산될 수 있다.
변수 β(k)는 새로운 변수들이 지나간 샘플을 얼마나 고려하고 있는가를 통제하는 기억삭제 성분(forgetting factor)이다. 하지만, 중요하게 결정해야 하는 것은 기억삭제 성분 β(k)를 적절히 선택해야 한다는 것이다. 가장 적합한 알고리즘은 일정한 기억삭제 성분를 이용하는데, 이는 객관적인 기준이 없기 때문이다. 가변적인 기억삭제 성분를 이전의 히스토리 기능으로 선택하는 것은, 얼마나 획득하고 얼마나 기억을 삭제할 것인지를 알고리즘이 결정한다는 의미에서 능동적인 획득(active learning)으로 간주된다.
본 발명은 능동적인 획득 기준을 이용하고, 이는 모든 새로은 프레임에 대해서 얼마나 획득할 것인가를 결정하게 된다. 이것은, 새로운 샘플이 과거에 비해 유용한 정보를 가질 경우에만 알고리즘이 획득하도록 기억삭제 성분 β(k)를 모든 단계 (즉, 모든 프레임)에서 조정함으로써 달성된다. 이것은 다음으 식으로 얻어진다.
위에서 언급한 바와 같이(잡음 또는 음성이 있는 잡음), 실예가 되는 이중 결정 시나리오에 기인하여, 표현은 i = 1, 2에서 상호대칭이며, 어떠한 i 도 사용할 수 있다. 상기 표현은 다음 경우들 사이를 대략적으로 보간(interfolate)할 수 있다: (a) 매우 신규한 특성 (zi (k+1) >> mi (k)), 따라서, Neff=N/2, 및 (b) 이미 (zi (k+1)≒ mi (k)로 잘 나타낸 새로운 특징, 따라서, Neff = ∞.
바꾸어 말하여, 두 개의 클러스터들 또는 카테고리들을 위한 가우시안(gaussian)이 추측될 수 있고 문턱값이 결과적으로 나온 가우시안, 예를 들어 가우시안의 교차점에서 또는 특정 적용에 의해 요구되는 어떤 다른 점에서 발생될 수 있다.
도 4는 입력 신호의 소정 신호 성분, 예를 들어 일정치 않은 신호를 검출하기 위한 방법을 보여주는 흐름도이다. 도 4에 도시된 바와 같이 검출 방법은 단계(405)에서 시작하여 하닝 기능(Hanning function)과 같은 윈도우 기능이 다수의 프레임들을 발생시키기 위해 입력 신호에 적용되어진 단계(410)까지 진행된다. 다른 윈도잉 기능(windowing function)들이 적용되어질 수 있다.
단계(420)에서, 검출 방법은 각 프레임을 N 클러스터들(예를 들어, 음성과 비음성 프레임의 N=2)중의 하나로 분류시킨다. 바람직한 실시예로는, EM 알고리즘이 적용된다. 다른 한편으로, EM 알고리즘의 근사치가 위에서 언급되어진 바와 같이 적용가능하다.
단계(440)에서, N 클러스터들을 위한 가우시안을 발생하며, 문턱값은 상기 가우시안에 기초한 단계(450)에서 발생되거나 개선되어진다.
단계(460)에서, 추가의 프레임이 존재하는지의 여부를 질문한다. 답변이 부정적이라면 검출 방법은 단계(465)로 끝난다. 만약 질문의 대답이 "예"이면 단계(430)으로 되돌아가서 모든 프레임이 진행되어질 때까지 계속적으로 수행된다.
도 5는 본 발명에 따른 신호 처리 시스템을 보여주는 도면이다. 도 5에 도시된 바와 같이, 신호 처리 시스템은 일반용 컴퓨터(510)와 다양한 입/출력 장치(520)들로 구성된다. 일반용 컴퓨터(510)는 중앙 처리 장치(CPU)(512), 메모리(514), 그리고 일정치 않은(non-stationary) 입력 신호를 처리하고 수신하는 신호 처리부(516)로 구성된다.
일실시예로서, 신호 처리부(516)는 단순히 도 1에 도시된 신호 처리부(106)와 같은 것이다. 신호 처리부(516)는 통신 채널을 통해 중앙 처리 장치(512)로 연결되는 물리적 소자라 할 수도 있으며, 저장 매개체(자기 또는 광 드라이버 또는 디스켓 등)로부터 로드(load)되는 적용 소프트웨어로 나타날 수도 있어 본 발명의 신호 처리부(516)는 읽기 가능한 컴퓨터 매개체에 저장될 수 있다.
컴퓨터(510)는 키보드, 마우스, 오디오 레코더, 카메라, 캠코더, 비디오 모니터, 영상 장치들이나 또는 테잎 드라이브(tape drive), 플로피 드라이브(floppy drive), 하드 디스크 드라이브, 컴펙트 디스크 드라이브 등을 포함하는 저장 장치들과 같은 다수개의 입/출력 장치들에 연결될 수 있다. 사실, 도 1의 전처리 신호 수신부에서 이미 설명된 여러 장치들이 입/출력 장치(520)들 사이에 포함될 수 있다. 이 입력 장치들은 출력 신호를 줄인 신호 성분가 발생하도록 컴퓨터에 입력을 제공한다.
또한, 본 발명은 ASIC(Application Specific Integrated Circuits)을 사용하여 실행될 수도 있다.
지금까지 본 발명의 기술들을 통합한 여러 실시예들이 설명되었을지라도 이 분야의 당업자들은 다른 다양한 실시예들이 고안될 수 있다.
본 발명에 따른 적응 음성 검출장치 및 방법과 읽기 가능한 컴퓨터 매체에 있어서는 다음과 같은 효과가 있다.
적용가능하도록 개선된 결정 기능을 사용하여 일정하지 않은 신호에서 음성 성분와 같은 소정의 신호 성분를 쉽게 검출할 수 있다.

Claims (20)

  1. 하나 이상의 신호 성분를 가지는 입력 신호로부터 소정의 신호 성분를 검출하는 적응 음성 검출방법에 있어서,
    다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 제 1 단계;
    상기 다수개의 프레임들을 처리하기 위해 적어도 하나의 특징을 선택하는 제 2 단계;
    확률적 표현을 사용하여 상기 프레임들을 분류함으로써 선택된 특징에 상응하는 상기 프레임들 중에서 소정의 신호 성분를 검출하는 제 3 단계로 이루어지는 것을 특징으로 하는 적응 음성 검출방법.
  2. 제 1 항에 있어서, 상기 제 3 단계는 EM(Expectation-Maximization)방법을 사용하는 것을 특징으로 하는 적응 음성 검출방법.
  3. 제 2 항에 있어서, 상기 제 3 단계는
    인 확률적 표현을 갖는 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출방법.
  4. 제 3 항에 있어서, 상기 제 3 단계는 변형된 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출방법.
  5. 제 4 항에 있어서, 상기 제 3 단계는 하기 파라미터들을 갖는 변형된 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출방법.
  6. 제 5 항에 있어서, 상기 제 3 단계는
    기억삭제 성분(forgetting factor)를 갖는 변형된 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출방법.
  7. 제 1 항에 있어서, 상기 제 3 단계는 음성 성분인 소정의 신호 성분를 검출하는 것을 특징으로 하는 적응 음성 검출방법.
  8. 하나 이상의 신호 성분를 가지는 입력 신호로부터 소정의 신호 성분를 검출하는 적응 음성 검출장치에 있어서,
    다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 윈도우 기능부;
    상기 다수개의 프레임들을 처리하기 위해 적어도 하나의 특징을 선택하는 특징 선택부;
    확률적 표현을 사용하여 상기 프레임들을 분류함으로써 상기 선택된 특징에 상응하는 상기 프레임들 중에서 소정의 신호 성분를 검출하는 검출부로 구성되는 것을 특징으로 하는 적응 음성 검출장치.
  9. 제 8 항에 있어서, 상기 확률적 표현은 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출장치.
  10. 제 9 항에 있어서, 상기 확률적 표현은
    인 것을 특징으로 하는 적응 음성 검출장치.
  11. 제 10 항에 있어서, 상기 확률적 표현은 변형된 EM방법을 사용하는 것을 특징으로 하는 적응 음성 검출장치.
  12. 제 11 항에 있어서, 상기 변형된 EM방법은 하기 파라미터를 갖는 것을 특징으로 하는 적응 음성 검출장치.
  13. 제 12 항에 있어서, 상기 변형된 EM방법은
    인 기억삭제 성분를 갖는 것을 특징으로 하는 적응 음성 검출장치.
  14. 제 8 항에 있어서, 상기 소정의 신호 성분는 음성 성분인 것을 특징으로 하는 적응 음성 검출장치.
  15. 프로세서 실행시, 다수개의 프레임들이 발생하도록 입력 신호에 윈도우 기능을 적용하는 제 1 단계와; 상기 다수개의 프레임들을 처리하기 위해 적어도 하나의특징을 선택하는 제 2 단계와; 확률적 표현을 사용하여 상기 프레임들을 분류함으로써 상기 선택된 특징에 상응하는 상기 프레임들 중에서 소정의 신호 성분를 검출하는 제 3 단계들을 구비하는 단계를 상기 프로세서가 수행하도록 하는 명령어를 포함하는 저장된 복수개의 명령어를 갖는 읽기 가능한 컴퓨터 매체.
  16. 제 15 항에 있어서, 상기 제 3 단계는 EM(Expectation-Maximization)방법을 사용하는 것을 특징으로 하는 읽기 가능한 컴퓨터 매체.
  17. 제 16 항에 있어서, 상기 제 3 단계는
    인 확률적 표현을 갖는 EM방법을 사용하는 것을 특징으로 하는 읽기 가능한 컴퓨터 매체.
  18. 제 17 항에 있어서, 상기 제 3 단계는 변형된 EM방법을 사용하는 것을 특징으로 하는 읽기 가능한 컴퓨터 매체.
  19. 제 18 항에 있어서, 상기 제 3 단계는 하기 파라미터들을 갖는 변형된 EM방법을 사용하는 것을 특징으로 하는 읽기 가능한 컴퓨터 매체.
  20. 제 19 항에 있어서, 상기 제 3 단계는
    기억삭제 성분(forgetting factor)를 갖는 변형된 EM방법을 사용하는 것을 특징으로 하는 읽기 가능한 컴퓨터 매체.
KR1019980050092A 1997-11-21 1998-11-21 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체 KR100308028B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US6632497P 1997-11-21 1997-11-21
US60/066,324 1997-11-21
US09/163,697 US6691087B2 (en) 1997-11-21 1998-09-30 Method and apparatus for adaptive speech detection by applying a probabilistic description to the classification and tracking of signal components
US9/163,697 1998-09-30
US09/163,697 1998-09-30

Publications (2)

Publication Number Publication Date
KR19990045490A KR19990045490A (ko) 1999-06-25
KR100308028B1 true KR100308028B1 (ko) 2001-10-20

Family

ID=26746619

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980050092A KR100308028B1 (ko) 1997-11-21 1998-11-21 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체

Country Status (2)

Country Link
US (1) US6691087B2 (ko)
KR (1) KR100308028B1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6922660B2 (en) * 2000-12-01 2005-07-26 Microsoft Corporation Determining near-optimal block size for incremental-type expectation maximization (EM) algorithms
KR100400226B1 (ko) * 2001-10-15 2003-10-01 삼성전자주식회사 음성 부재 확률 계산 장치 및 방법과 이 장치 및 방법을이용한 잡음 제거 장치 및 방법
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
US7107088B2 (en) * 2003-08-25 2006-09-12 Sarnoff Corporation Pulse oximetry methods and apparatus for use within an auditory canal
US20050059870A1 (en) * 2003-08-25 2005-03-17 Aceti John Gregory Processing methods and apparatus for monitoring physiological parameters using physiological characteristics present within an auditory canal
KR100631608B1 (ko) * 2004-11-25 2006-10-09 엘지전자 주식회사 음성 판별 방법
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
KR100745977B1 (ko) * 2005-09-26 2007-08-06 삼성전자주식회사 음성 구간 검출 장치 및 방법
JP5772591B2 (ja) * 2009-03-18 2015-09-02 日本電気株式会社 音声信号処理装置
US8886528B2 (en) * 2009-06-04 2014-11-11 Panasonic Corporation Audio signal processing device and method
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
JP2871561B2 (ja) * 1995-11-30 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 不特定話者モデル生成装置及び音声認識装置
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components

Also Published As

Publication number Publication date
KR19990045490A (ko) 1999-06-25
US6691087B2 (en) 2004-02-10
US20020184014A1 (en) 2002-12-05

Similar Documents

Publication Publication Date Title
EP0886263B1 (en) Environmentally compensated speech processing
US6820053B1 (en) Method and apparatus for suppressing audible noise in speech transmission
Viikki et al. Cepstral domain segmental feature vector normalization for noise robust speech recognition
US5727072A (en) Use of noise segmentation for noise cancellation
US7072833B2 (en) Speech processing system
US8214205B2 (en) Speech enhancement apparatus and method
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
US11257512B2 (en) Adaptive spatial VAD and time-frequency mask estimation for highly non-stationary noise sources
KR100308028B1 (ko) 적응음성검출장치및방법과그방법을이용한읽기가능한컴퓨터매체
US6073152A (en) Method and apparatus for filtering signals using a gamma delay line based estimation of power spectrum
Mokbel et al. Towards improving ASR robustness for PSN and GSM telephone applications
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US6826528B1 (en) Weighted frequency-channel background noise suppressor
Hu et al. An iterative model-based approach to cochannel speech separation
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
US6868378B1 (en) Process for voice recognition in a noisy acoustic signal and system implementing this process
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
CN112992153B (zh) 音频处理方法、声纹识别方法、装置、计算机设备
KR100784456B1 (ko) Gmm을 이용한 음질향상 시스템
GB2426167A (en) Quantile based noise estimation
Krishnakumar et al. A comparison of boosted deep neural networks for voice activity detection
Hirsch HMM adaptation for applications in telecommunication
Rose et al. Robust speaker identification in noisy environments using noise adaptive speaker models
von Zeddelmann A feature-based approach to noise robust speech detection
Chen et al. Distribution-based feature compensation for robust speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070629

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee