KR101054704B1

KR101054704B1 - 음성 활성도 검출 시스템 및 방법

Info

Publication number: KR101054704B1
Application number: KR1020097009548A
Authority: KR
Inventors: 지카 발산
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2006-11-16
Filing date: 2007-10-26
Publication date: 2011-08-08
Also published as: US8554560B2; CN101548313A; KR20090083367A; ATE463820T1; JP4568371B2; CA2663568A1; WO2008058842A1; US20120330656A1; JP2010510534A; US8311813B2; CA2663568C; US20100057453A1; DE602007005833D1; EP2089877B1; EP2089877A1; CN101548313B

Abstract

입력 신호의 적어도 2개의 이벤트 클래스의 구분이 아래의 방법으로 수행된다. 입력 신호를 포함하는 한 세트의 프레임이 수신되고, 적어도 2개의 상이한 특징 벡터들이 상기 프레임 각각에 대해 결정된다. 상기 적어도 2개의 상이한 특징 벡터들은 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자 세트를 이용하여 분류된다. 적어도 하나의 가중치 인자에 대한 값은 상기 프레임 각각에 대해 상기 선행 분류자들의 출력에 기초하여 결정된다. 상기 적어도 하나의 가중치 인자를 상기 적어도 2개의 상이한 특징 벡터들에 적용함으로써, 상기 프레임 각각에 대해, 결합된 특징 벡터가 계산된다. 상기 결합된 특징 벡터는 상기 적어도 2개의 이벤트 클래스에 대해 트레이팅된 한 세트의 분류자들을 이용하여 분류된다.

Description

음성 활성도 검출 시스템 및 방법{VOICE ACTIVITY DETECTION SYSTEM AND METHOD}

본 발명은 일반적으로 음성 활성도 검출에 관한 것이다. 특히, 본 발명은 스피치 및 잡음과 같은 이벤트 타입의 구분에 관한 것이지만 이에 한정되는 것은 아니다.

음성 활성도 검출(VAD, voice activity detection)은 스피치 코딩, 핸즈프리 전화통신, 및 스피치 인식과 같은 많은 스피치 처리 임무의 본질적인 부분이다. 예를 들어, 모바일 통신에서, 모바일 장치가 스피치의 부재를 검출할 때 무선 인터페이스를 통한 송신 대역폭은 상당히 감소된다. 제2 예는 자동 스피치 인식 시스템(ASR)이다. VAD는 메모리 및 정확도에 관한 제약 때문에 ASR에서 중요하다. 정확하지 않은 스피치 경계의 검출은 인식 성능의 열하(degradation) 및 스피치 품질의 저하(deterioration)와 같은 심각한 문제들을 야기한다.

VAD는 스피치 인식에서 상당한 관심을 끈다. 일반적으로, 이와 같은 시스템을 설계하기 위해서는 2가지의 중요한 접근방식, 즉 문턱값 비교 기술 및 모델 기반의 기술이 이용된다. 문턱값 비교 접근방식을 위해, 예컨대 에너지, 영교차(zero crossing), 자동상관 계수 등과 같은 다양한 특징 요소들이 입력 신호로부터 추출 된 다음, 몇몇 문턱값들과 비교된다. 몇몇 접근방식들은 아래의 간행물들에서 찾아볼 수 있다: Li, Q., Zheng, J., Zhou, Q., 및 Lee C-H.의 "A robust, real-time endpoint detector with energy normalization for ASR in adverse environments"(2001년, ICASSP의 회보, pp.233-236); L. R. Rabiner 등의 "Application of an LPC Distance Measure to the Voiced-Unvoiced-Silence Detection Problem"(1977년 8월, IEEE Trans. On ASSP, vol.ASSP-25, no.4, pp.338-343).

문턱값들은 보통, 오직 잡음에서만 추출되고 동적으로 업데이트된다. 적응성 문턱값 또는 적합한 필터링을 이용함으로써, 그들의 성능이 향상될 수 있다. 예컨대, Martin, A., Charlet, D., 및 Mauuary, L의 "Robust Speech/Nonspeech Detection Using LDA applied to MFCC(2001년, ICASSP의 회보, pp.237-240)"; Monkowski, M.의 미국 특허 제US6314396호, 발명의 명칭, Automatic Gain Control in a Speech Recognition System; 및 Lie Lu, Hong-Jiang Zhang, H. Jiang의 "Content Analysis for Audio Classification and Segmentation(2002년 10월, IEEE Trans. Speech & Audio Processing, Vol.10, NO.7, pp.504-516)"을 참조할 수 있다.

대안으로서, 다른 복잡한 환경 사운드로부터 스피치를 신뢰성있게 구분하기 위한 모델 기반의 VAD가 널리 도입되었다. 후속하는 간행물들에서 몇몇 접근 방식들을 찾아볼 수 있다: J. Ajmera, I. McCowan의 "Speech/Music Discrimination Using Entropy and Dynamism Features in a HMM Classification Framework(2001년, 스위스 마티니 IDIAP, IDIAP-RR 01-26)" 및 T. Hain, S. Johnson, A. Tuerk, P. Woodland, S. Young의 "Segment Generation and Clustering in the HTK Broadcast News Transcription System(1998년, DARPA Broadcast News Transcription and Understanding Workshop, pp.133-137)". 전대역 에너지, 하위 대역 에너지, 선형 예측 잔류 에너지 또는 MFCC(Mel Frequency Cepstral Coefficient)와 같은 주파수 기반의 특징들과 같은 특징들이 보통 이와 같은 시스템에 이용된다.

(단어 인식을 위한 스피치 인식과 함께) 단어의 시작부분/종료부분의 검출이 AU 697062(AU-E-23284/95)에서 논의된다. 특징 벡터는 적어도 2개의 현재 특징, 즉 신호 에너지의 함수인 특징, 및 현재 블럭의 선형 예층 코딩(LPC, linear predictive coding) 켑스트럽 계수와 평균 LPC 켑스트럼 계수의 제곱 차(squared difference)의 함수인 적어도 하나의 다른 현재 특징을 포함하는 것으로 형성된다.
문턱값 적응화 및 에너지 특징 기반의 VAD 기술은, 신호 에너지 레벨이 통상 매우 동적이고, 음악 및 비 정지 잡음과 같은 배경 사운드가 흔한, 많은 실제 생활의 용례들에서 직면하게 되는 복잡한 음향 상황들을 다루는데 실패하였다. 결과적으로, 잡음 이벤트는 종종 삽입 오류를 야기하는 단어로서 인식되는 반면, 이웃하는 잡음 이벤트에 의해 변조된(corrupt) 스피치 이벤트는 대체 오류(substitution error)들을 야기한다. 모델 기반의 VAD 기술들은 잡음이 있는 상태에서 더욱 잘 동작하지만, 한 언어에 대한 이러한 기술들의 의존성은 (이러한 기술들이 음소(phoneme) 레벨 정보를 인코딩하기 때문에) 그들의 기능성을 상당히 감소시킨다.

VAD 정확도에서 환경 타입은 중요한 역할을 한다. 예를 들어, 높은 신호 대 잡음비(SNR) 상태들이 흔히 직면하는 자동차 환경에서, 자동차가 정지하고 있는 경우에는 정확한 검출이 가능하다. SNR이 매우 낮고, 자동차 엔진으로부터의 강한 세기의 반 정지 배경 잡음, 및 도로상의 충돌, 와이퍼 잡음, 문닫는 소리와 같은 높은 일시적인 잡음(transient noise)을 갖는 것이 보통인 경우, 음성 활성도 검출은 도전과제가 된다. SNR이 낮고, 배경 잡음 및 높은 일시적인 잡음이 존재하는 다른 상황에서의 음성 활성도 검출 또한 도전과제 이다.

따라서, 다양한 환경에 대해 잘 수행되고, 확고함(robustness) 및 정확도가 매우 중요한 고려 사항이 되는, VAD 방법/시스템을 개발하는 것이 매우 바람직하다.

본 발명의 실시예들의 목적은 상기 논의한 문제들 중 하나 이상을 해결하는 것이다.

본 발명의 제1 양태에 따라, 적어도 2개의 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법이 제공되는데, 이 방법은,

입력 신호를 포함하는 한 세트의 프레임을 수신하는 단계,

상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,

상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자 세트를 이용하여 상기 적어도 2개의 상이한 특징 벡터들을 분류하는 단계,

상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해 결합된 특징 벡터를 계산하는 단계, 및

상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계를 포함한다.

이 컴퓨터 처리 방법은, 상기 선행 분류자의 세트 각각의 출력들 간의 적어도 하나의 거리를 결정하는 단계, 및 상기 적어도 하나의 거리에 기초하여 상기 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계를 포함할 수 있다.

이 방법은, 상기 적어도 하나의 거리를 적어도 하나의 미리 정의된 문턱값과 비교하는 단계, 및 상기 비교에 의존하는 식(formula)을 이용하여 상기 적어도 하나의 가중치 인자에 대한 값을 계산하는 단계를 더 포함할 수 있다. 상기 식은 상기 적어도 하나의 문턱값들 중 적어도 하나를 입력으로서 사용할 수 있다.

상기 적어도 하나의 거리는, Kullback-Leibler 거리, Mahalanobis 거리, 및 Euclidian 거리 중 적어도 하나에 기초할 수 있다.

에너지 기반의 특징 벡터는 상기 프레임 각각에 대해 결정될 수 있다. 상기 에너지 기반의 특징 벡터는, 상이한 주파수대의 에너지, 로그 에너지, 및 스피치 에너지 컨투어(contour) 중 적어도 하나에 기초할 수 있다.

모델 기반의 특징 벡터는 상기 프레임 각각에 대해 결정될 수 있다. 상기 모델 기반의 기술은, 음향 모델, 신경망(neural network), 및 하이브리드 신경망 및 히든 마르코프 (hidden Markow) 모델 방식 중 적어도 하나에 기초할 수 있다.

일 특정 실시예에서, 상이한 주파수대의 에너지에 기초하는 제1 특징 벡터 및 음향 모델에 기초하는 제2 특징 벡터는 상기 프레임 각각에 대해 결정된다. 이러한 특정 실시예의 상기 음향 모델은, 단일 언어의(monolingual) 음향 모델, 및 다중 언어의(multilingual) 음향 모델 중 하나일 수 있다.

본 발명의 제2 양태는,

음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법을 제공하는데, 이 방법은,

트레이닝 신호를 포함하는 한 세트의 프레임을 수신하는 단계,

상기 프레임 각각에 대해 품질 인자를 결정하는 단계,

상기 트레이닝 신호의 콘텐츠에 기초하여 상기 프레임을 적어도 2개의 이벤트 클래스로 라벨링하는 단계,

상기 적어도 2개의 이벤트 클래스에 대해 상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위한 선행 분류자 세트 각각을 트레이닝하는 단계,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터를 계산하는 단계, 및

상기 결합된 특징 벡터를 적어도 2개의 이벤트 클래스로 분류하기 위한 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계를 포함한다.

이 방법은, 상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대해 문턱값을 결정하는 단계를 포함할 수 있다.

본 발명의 제3 양태는 적어도 2개의 클래스 이벤트를 구분하기 위한 음성 활성도 검출 시스템을 제공하는데, 이 시스템은,

입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 특징 벡터 유닛,

상기 적어도 2개의 상이한 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,

상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 가중치 인자 값 계산기,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 결합된 특징 벡터 계산기, 및

상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 포함한다.

음성 활성도 검출 시스템에서, 상기 가중치 인자 값 계산기는, 상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대해 문턱값을 포함할 수 있다.

본 발명의 추가 양태는, 컴퓨터 이용 가능한 매체 및 컴퓨터 판독 가능한 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하는데, 상기 컴퓨터 판독 가능한 프로그램은, 데이터 처리 시스템 상에서 실행될 때 상기 데이터 처리 시스템으로 하여금 상술한 바와 같은 방법의 단계들을 수행하게 한다.

본 발명의 더 나은 이해를 위해, 그리고 본 발명이 실시될 수 있는 방법의 더 나은 이해를 위해, 오직 예로서 첨부한 도면들에 대한 참조가 행해질 것이다.

도 1은 본 발명의 일 실시예에 따른 음성 활성도 검출 시스템의 일례를 개략적으로 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 음성 활성도 검출 방법의 일례의 순서도를 도시한 도면이다.

도 3은 본 발명의 일 실시예에 따라 음성 활성도 검출 시스템을 트레이닝하는 일례를 개략적으로 도시한 도면이다.

도 4는 본 발명의 일 실시예에 따라 음성 활성도 검출 시스템을 트레이팅하는 추가 예를 개략적으로 도시한 도면이다.

본 발명의 실시예들은 모델 기반의 음성 활성도 검출 기술과, 상이한 주파수대의 신호 에너지에 기초한 음성 활성도 검출 기술을 결합한다. 이러한 결합은, 상이한 에너지띠의 신호 에너지 및 음향 모델에 의해 제공된 정보가 서로 보완하기 때문에 환경 변화에 대한 확고함(robustness)을 제공한다. 신호 에너지 및 음향 모델로부터 획득된 2가지 타입의 특징 벡터들은 환경의 변화에 따른다. 또한, 본 명세서에 제시되는 음성 활성도 검출 기술은, 입력 신호에 연관된 환경을 반영하는 동적 가중치 인자를 이용한다. 2가지 타입의 특징 벡터들을 이와 같은 동적 가중치 인자와 결합함으로써, 음성 활성도 검출 기술은 환경 변화에 적응한다.

음향 모델 및 상이한 주파수대의 에너지에 기초한 특징 벡터가 구체적인 예 로서 아래에서 상세히 논의되지만, 특징 벡터의 타입이 서로 상이한 한, 임의의 다른 특징 벡터 종류가 이용될 수 있으며, 이 특징 벡터들은 입력 신호 상에 보완 정보를 제공한다.

높은 SNR 상태에서의 스피치 검출을 위한 단순하고 효과적 특징은 신호 에너지이다. 에너지에 기초한 임의의 확고한 메커니즘은 상대적인 신호 및 잡음 레벨 및 신호의 전체 이득에 적응해야 한다. 또한, 상이한 주파수대로 전달된 정보는 음소(공명음, 마찰음, 운음 등)의 타입에 따라 상이하기 때문에, 에너지띠는 이러한 특징 타입을 계산하는데 이용된다. m개의 컴포넌트를 가진 특징 벡터는 (En₁, En₂, En₃, ..., En_m)처럼 표현할 수 있는데, 여기서 m은 띠의 번호이다. 신호 에너지에 기초한 특징 벡터는 본 발명의 실시예들에 따른 음성 활성도 검출 시스템에서 사용된 제1 타입의 특징 벡터이다. 에너지에 기초한 다른 특징 벡터의 타입은, 로그 에너지 및 스피치 에너지 컨투어와 같은 스펙트럼 진폭이다. 원칙적으로, 잡음에 민감한 모든 특징 벡터가 사용될 수 있다.

MFCC(mel frequency cepstral coefficient) 및 이 MFCC의 도함수, 즉 PLP(Perceptual Linear Predictive coefficient)와 같은 주파수 기반의 스피치 특징은 스피치 인식 시스템의 잡음에 대한 향상된 확고함을 달성하는데 매우 효과적인 것으로 알려져 있다. 안타깝게도, 주파수 기반의 스피치 특징은, VAD 시스템에서 바로 사용될 때는 다른 환경 사운드로부터 스피치를 구분하는데 그리 효과적이지 않다. 따라서, VAD 시스템에서 주파수 기반의 스피치 특징을 이용하는 방법은 음향 모델(AM, acoustic model)을 통해 실시된다.

음향 모델이 이용될 때, VAD의 기능성은 통상적으로 AM이 트레이팅되었던 언어만으로 한정된다. 다른 언어에 대한 특징 기반의 VAD의 이용은, 새로운 AM 및 계산 비용이 증가되는 전체 VAD 시스템의 재트레이닝(re-training)을 요구할 수 있다. 따라서, 하나보다 많은 언어를 다룰 수 있는 공통 음운론(phonology)에 대해 트레이닝된 AM을 이용하는 것이 이롭다. 이는 저비용으로 정확도를 달성하는데 요구되는 노력을 최소화한다.

다중 언어의 AM은 모든 언어 전반에 대해 공통인 알파벳에 기초한 스피치 전사(transcription)를 요구한다. 공통 알파벳을 이루기 위한 한 방법은, 관련 언어들 각각에 대해 기존의 알파벳에서부터 시작할 수 있는데, 이 관련 언어들 중 일부는 간략화된 다음, 동일한 IPA 기호에 대응하는 몇몇 언어에 존재하는 음들을 병합할 필요가 있다. 이러한 접근 방식은 F. Palou Cambra, P. Bravetti, 0. Emam, V. Fischer, 및 E. Janke의 "Towards a common alphabet for multilingual speech recognition(2000년, 베이징, 제6차 Spoken Language Processing 컨퍼런스의 회보)"에서 논의된다. 넓은 범위까지의 다중 언어의 스피치 인식을 위한 음향 모델링은, (반-히든 마르코프 모델 트레이닝 또는) 지속적인 히든 마르코프 모델 트레이닝을 위해 잘 구축된 방법을 이용하지만, 이러한 임무를 위해, 각각의 클래스에 대해 사후 클래스 확률(posterior class probability)을 생성할 신경망 또한 고려될 수 있다. 이러한 접근 방식은 V. Fischer, J. Gonzalez, E. Janke, M. Villani, 및 C. Waast-Richard의 "Towards Multilingual Acoustic Modeling for Large Vocabulary Continuous Speech Recognition(2000년, 일본, 교토, Multilingual Speech Communications IEEE 워크샵의 회보)"; S. Kunzmann, V. Fischer, J. Gonzalez, O. Emam, C. Gunther, 및 E. Janke의 "Multilingual Acoustic Models for Speech Recognition and Synthesis(2004년, 몬트리올, Acoustics, Speech, and Signal Processing IEEE 국제 컨퍼런스의 회보)"에서 논의된다.

스피치와 잡음 관측 모두, 개개의 가우시안 혼합 밀도 분포 함수에 의해 특성이 기술될 수 있다고 가정하면, VAD 시스템 또한, 통계 AM이 히든 마르코프 모델 프레임워크 내의 가우시안 모델 혼합(GMM)으로서 모델링되는 기존의 스피치 인식 시스템으로부터 이익을 얻을 수 있다. E. Marcheret, K. Visweswariah, G. Potamianos의 "Speech Activity Detection fusing Acoustic Phonetic and Energy Features(Proc. /ICASLP 2005)"에서 그 일례를 찾을 수 있다. 스피치/잡음 이벤트에 대한 클래스 사후 확률(class posterior probabilit)은 프레임마다 계산되며, 본 발명에서는 (P₁, P₂)로 부른다. 이들은 제2 타입의 FV이다.

후속하는 설명에서, 다중 언어의 음향 모델은 종종, 특징 벡터들을 제공하는 모델의 일례로서 이용된다. 다중 언어의 음향 모델로부터 단일 언어의 음향 모델을 유도하는 것은 수월하다는 것을 이해해야 한다. 또한, 본 발명의 일 실시예에 따른 음성 검출 시스템에서 특정한 단일 언어의 음향 모델을 이용하는 것이 가능하다.

주파수대의 에너지와 관련된 제1 특징 벡터들(En₁, En₂, En₃, ..., En_m)이 제1 세트의 선행 분류자들에 입력된다. 음향 모델 또는 다른 관련 모델에 의해 제공 된 2개의 이벤트 타입에 대한 제2 특징 벡터들, 예컨대(P₁, P₂)는 제2 세트의 선행 분류자들에 입력된다. 선행 분류자들은 통상적으로 가우시안 혼합 선행 분류자들로서, 가우시안 혼합 분포를 출력한다. 본 발명의 실시예들에서 사용되는 가우시안 혼합 모델들 중 임의의 어느 하나는, 예컨대 클래스 각각의 사후 확률을 추정하기 위해 신경망을 이용할 수 있다.

이러한 세트들의 선행 분류자들의 수는, 음성 활성도 검출 시스템이 검출할 필요가 있는 이벤트 클래스들의 수에 대응한다. 통상적으로, 2개의 이벤트 클래스, 즉 스피치 및 넌-스피치(non-speech)(또는 다른 말로, 스피치 및 잡음)가 존재한다. 하지만 애플리케이션에 따라, 많은 수의 이벤트 클래스들에 대한 필요성이 존재할 수 있다. 매우 흔한 예는, 3개의 이벤트 클래스, 즉 스피치, 잡음, 정적(silence)을 갖는 것이다. 선행 분류자들은 각각의 이벤트 클래스에 대해 트레이닝되었다. 트레이닝은 아래에서 일부 상세한 부분들이 논의된다.

높은 SNR (잡음이 없는 깨끗한 환경)에서, 2개의 클래스의 분포는 잘 분리되어 있고, 에너지 기반의 모델과 연관된 임의의 선행 분류자는 신뢰할 수 있는 출력을 제공할 것이다. (다중 언어의) 음향 모델과 연관된 분류 모델이 상당히 양호한 클래스 분리를 제공할 것이라고 예상된다. 낮은 SNR(잡음이 있는 환경)에서, 에너지띠와 연관된 2개의 클래스의 분포는 상당히 오버랩되어, 에너지띠하고만 단독으로 연관된 선행 분류자들에 기초한 결정을 의심스럽게 만들 수 있다.

FV 타입 중 하나가 환경 타입(잡음이 있는 환경 또는 잡음이 없는 깨끗한 환 경)에 의존하는 다른 타입보다 더욱 효과적인 것으로 보인다. 하지만 실제 애플리케이션에서, 환경의 변화는 매우 자주 발생하기 때문에, 이러한 변화에 대한 음성 활성도 검출 시스템의 확고함을 증가시키기 위하여 양쪽 FV 타입 모두의 존재가 요구된다. 따라서, 2개의 FV 타입이 환경 타입에 따라 동적으로 가중되는 방식이 본 발명의 실시예들에서 이용될 것이다.

어느 FV가 가장 안정한 결정을 제공할 것인지 판단하기 위해 환경을 정의하는 문제가 남아있다. 환경의 타입을 추론하는 간단하고 효과적인 방법은, 이벤트 타입 분포들 간의 거리, 예컨대 스피치/잡음 분포들 간의 거리를 계산하는 단계를 포함한다. 더 잘 구분되는 클래스들을 제공하고 분포들 간에 먼 거리를 야기하는 잘 구분되는 특징 벡터들은, 분포들 간을 그렇게 잘 구분하지는 못하는 특징 벡터들에 비하여 강조된다. 선행 분류자들의 모델들 간의 거리에 기초하여, 가중치 인자에 대한 값이 결정된다.

도 1은 본 발명의 일 실시예에 따른 음성 활성도 검출 시스템(100)을 개략적으로 도시한 것이다. 도 2는 음성 활성도 검출 방법(200)의 순서도이다.

방법(200)의 단계들의 순서는 바뀔 수 있다는 것이 이해될 것이다. 또한, 블럭의 구성도, 그 블럭에 의해 제공되는 기능성이 음성 활성도 시스템(100)에 존재하는 한, 도 1에 도시된 순서에서 변경될 수 있다.

음성 활성도 검출 시스템(100)은 입력 데이터(101)를 수신한다(단계 201). 입력 데이터는 통상적으로, 10 내지 30ms 사이에서 변하는 크기의 스피치(입력 신호)의 연속 세그먼트를 오버랩핑하는 프레임들로 분할된다. 신호 에너지 블럭(104) 은 각각의 프레임에 대해 제1 특징 벡터(En₁, En₂, En₃, ..., En_m)를 결정한다(단계 202). 프론트엔드(102)는 통상적으로, 각각의 프레임에 대해 MFCC 계수들 및 그들의 도함수 또는 PLP(perceptual linear predictive) 계수들을 계산한다(단계 204). 이러한 계수들은 음향 모델(AM)(103)에 입력된다. 도 1에서, 예로서, 음향 모델은 다중 언어의 음향 모델인 것으로 도시되어 있다. 음향 모델(103)은 각각의 프레임에 대해 제2 특징 벡터로서 음성 음향적 우도(phonetic acoustic likelihood)를 제공한다(단계 205). 다중 언어의 음향 모델은, 적어도 그 모델이 트레이닝된 임의의 언어에 대해 VAD에 의존하는 모델의 이용을 보증한다.

에너지띠 블럭(104)에 의해 제공된 제1 특징 벡터들(En₁, En₂, En₃, ..., En_m)은 제1 세트의 선행 분류자들(M₃, M₄)(121, 122)에 입력된다(단계 203). 음향 모델(103)에 의해 제공된 제2 특징 벡터들(P₁, P₂)은 제2 세트의 선행 분류자들(M₁, M₂)(111, 112)에 입력된다(단계 206). 선행 분류자들(M₁, M₂, M₃, M₄)은 통상적으로, 가우시안 혼합 선행 분류자들로서, 가우시안 혼합 분포를 출력한다. 클래스 각각의 사후 확률들을 제공하기 위해 신경망이 또한 이용될 수 있다. 이러한 세트들 내의 선행 분류자들의 수는 음성 활성도 검출 시스템(100)이 검출할 필요가 있는 이벤트 클래스들의 수에 대응한다. 도 1은 일례로서 이벤트 클래스 스피치/잡음을 도시한다. 하지만 애플리케이션에 따라, 많은 수의 이벤트 클래스들에 대한 필요성이 존재할 수 있다. 선행 분류자들은 각각의 이벤트 클래스에 대해 트레이닝되었다. 도 1의 예에서, M₁은 오직 (P₁, P₂)과 트레이닝된 스피치 모델이고, M₂는 오직 (P₁, P₂)과 트레이닝된 잡음 모델이며, M₃는 오직 (En₁, En₂, En₃, ..., En_m)과 트레이팅된 스피치 모델이고, M₄는 오직 (En₁, En₂, En₃, ..., En_m)과 트레이팅된 잡음 모델이다.

음성 활성도 검출 시스템(100)은 각 세트의 선행 분류자들에 의해 출력된 분포들 간의 거리를 계산한다(단계 207). 즉, 선행 분류자 M₁과 M₂의 출력들 간의 거리 KL₁₂가 계산되며, 유사하게 선행 분류자 M₃과 M₄의 출력들 간의 거리 KL₃₄가 계산된다. 2개보다 많은 이벤트 타입의 클래스가 존재한다면, 한 세트 내의 선행 분류자의 모든 쌍들 간의 거리가 계산되거나, 또는 대안으로서, 일부 미리 결정된 선행 분류자의 쌍들 간의 거리만이 계산될 수 있다. 예컨대, 거리들은 Kullback-Leibler 거리, Mahalanobis 거리, 또는 Euclidian 거리일 수 있다. 통상적으로, 선행 분류자들의 양 세트 모두에 대해 동일한 거리 타입이 이용된다.

VAD 시스템(100)은 특징 벡터들 상에 가중치 인자 k를 적용함으로써, 특징 벡터(P₁, P₂) 및 (En₁, En₂, En₃, ..., En_m)를 결합된 특징 벡터로 결합한다. 결합된 특징 벡터는, 예컨대 아래와 같은 형태일 수 있다.

(k* En₁ k*En₂ k*En₃ ... k*En_m (l-k)*P₁ (l - k)*P₂)

가중치 인자 k에 대한 값은 거리 KL₁₂와 KL₃₄에 기초하여 결정된다(단계 208). 가중치 인자 k에 대해 결정된 값의 일례는 아래와 같다. 트레이닝 단계 동 안, 트레이닝 신호의 SNR이 계산될 수 있는 경우, 데이터 구조는 SNR 클래스 라벨, 및 대응하는 KL₁₂ 및 KL₃₄ 거리를 포함하는 것으로 구성된다. 표 1은 이와 같은 데이터 구조의 일례이다.

거리/SNR 대응을 위한 룩업 테이블

각 프레임에 대한 SNR 클래스	SNR 값(dB)	KL_12L	KL_12H	KL_34L	KL_34H
로우(Low)		KL_12L-frame-1		KL_34L-frame-1
로우		KL_12L-frame-2		KL_34L-frame-2
로우		KL_12L-frame-3		KL_34L-frame-3
........	.....	........	........	........
로우		KL_12L-frame-n		KL_34L-frame-n
THRESHOLD₁		TH_12L	TH_12H	TH_34L	TH_34H
하이(High)			KL_{12H-frame-n+1}		KL_{34H-frame-n+1}
하이			KL_{12H-frame-n+2}		KL_{34H-frame-n+2}
하이			KL_{12H-frame-n+3}		KL_{34H-frame-n+3}
........	.....	........	........	........	........
하이			KL_{12H-frame-n+m}		KL_{34H-frame-n+m}

표 1에서 보이는 바와 같이, SNR 공간을 범위들로 나누는 문턱값이 존재할 수 있다. 표 1에서, 문턱값 THRESHOLD₁은 SNR 공간을, 2개의 범위, 즉 로우 SNR과 하이 SNR로 나눈다. 거리 값 KL₁₂와 KL₃₄는, 현재의 환경 타입을 예상하는데 이용되며, 각각의 입력 스피치 프레임에 대해 계산된다(예컨대, 10ms).

표 1에서, 각각의 SNR 클래스와 거리의 쌍에 대해 1개의 열이 존재한다. 즉, 이 특정 예에서, 거리 KL₁₂에 대해 2개의 열(SNR 하이, SNR 로우) 및 거리 KL₃₄에 대해 2개의 열(SNR 하이, SNR 로우)이 존재한다. 표 1의 포맷에 대한 추가 옵션으로서, 트레이닝 단계 동안, 1개 열에 모든 거리 값들 KL₁₂을 수집하고, 추가 열에 모든 거리 값들 KL₃₄를 수집하는 것이 가능하다. SNR 클래스 열에 있는 엔트리에 의해 SNR 로우/하이를 구분하는 것이 가능하다.

트레이닝 단계와 표 1을 다시 참조하면, 프레임 x에서 환경에 잡음이 있다면(로우 SNR), 오직 (KL_12L-frame-x 및 KL_34L-frame-x) 쌍만이 계산될 것이다. 그 다음 프레임(x+1)에서, 환경에 여전히 잡음이 있다면, (KL_{12L-frame-x+1} 및 KL_{34L-frame-x+1}) 쌍이 계산될 것이고, 그렇지 않다면(하이 SNR), (KL_{12H-frame-x+1} 및 KL_{34H-frame-x+1}) 쌍이 계산된다. 트레이닝 단계에서 각각의 프레임에 대해 환경 타입이 계산되며, 대응하는 KL 거리가 룩업 테이블(표 1) 내로 수집된다. 런타임시, SNR에 대한 정보가 분실되는 경우, 각각의 스피치 프레임에 대해 거리 값 KL₁₂ 및 KL₃₄가 계산된다. 룩업 테이블 내의 대응하는 문턱값과 KL₁₂ 및 KL₃₄값과의 비교에 기초하여, SNR 타입에 대한 정보가 검색된다. 이러한 방법으로, 환경 타입(SNR 클래스)가 검색될 수 있다.

요약하면, 표 1 또는 유사한 데이터 구조의 값들은 트레이닝 단계 동안에 수집되고, 문턱값들은 트레이닝 단계에서 결정된다. 런타임 단계에서, 음성 활성도 검출이 수행되는 경우, 거리 값 KL₁₂과 KL₃₄는 표 1 (또는 유사한 데이터 구조)의 문턱값들과 비교되며, 그 비교에 기초하여, 어느 SNR 클래스가 현재 프레임의 환경을 기술하는지 결정된다.

현재 환경(SNR 범위)을 결정한 후, 아래의 관계들을 이용하여, 환경 타입에 기초하여, 예컨대 문턱값 자체에 기초하여 가중치 인자에 대한 값이 결정될 수 있다.

1. SNR < THRESHOLD₁인 경우, k = min (TH_12-L, TH_34-L)

2. SNR > THRESHOLD₁인 경우, k = max (TH_12-H, TH_34-H)

가중치 인자 값의 계산시 문턱값을 이용하는 것의 대안으로서, 거리 값 KL₁₂와 KL₃₄가 이용될 수 있다. 예를 들어, k에 대한 값은, SNR < THRESHOLD₁인 경우, k = min(KL₁₂, KL₃₄)일 수 있고, SNR > THRESHOLD₁인 경우, max(KL₁₂, KL₃₄)일 수 있다. 이러한 음성 활성도 검출 시스템의 방법은 환경의 변화를 고려하면 훨씬 더 동적이다.

결합된 특징 벡터(가중 FV*)가 한 세트의 분류자들(131, 132)에 입력되는데(단계 210), 이 분류자들은 스피치 및 잡음에 대해 트레이닝되었다. 2개보다 많은 이벤트 타입이 존재한다면, 결합된 특징 벡터에 작용하는 분류자 세트에 있는 선행 분류자 및 분류자의 수는 이벤트 타입의 수와 일치할 것이다. 결합된 특징 벡터를 위한 분류자 세트는 통상적으로, 휴리스틱(heuristic) 결정 규칙, 가우시안 혼합 모델, 퍼셉트론(perceptron), 지지 벡터 머신 또는 다른 신경망을 이용한다. 분류자들(131, 132)에 의해 제공된 스코어는 통상적으로, 몇몇의 프레임 상에서 평활화(smooth)된다(단계 211). 그 다음, 음성 활성도 검출 시스템은 평활화된 스코어에 기초하여 이벤트 타입을 결정한다(단계 212).

도 3은 음성 활성도 검출 시스템(100)의 트레이닝을 개략적으로 도시한다. 바람직하게, 음성 활성도 검출 시스템(100)의 트레이닝은, 트레이닝 신호(301)를 입력하고, 시스템(100)을 트레이닝 모드로 변환함으로써, 자동으로 발생한다. 프론트엔드(102)에서 각 프레임에 대해 계산된 음향 FV들은, 2가지 이유에서, 즉 데이터를 스피치/잡음으로 라벨링하기 위해, 그리고 다른 잡음으로부터 스피치를 구분하는데 더욱 효과적인 다른 FV 타입을 생성하기 위해, 음향 모델(103)에 입력된다. 후자의 이유는 또한, VAD 시스템의 런타임 단계에도 적용된다.

각 프레임에 대한 라벨들은, 수동으로, 강제 정렬(forced alignment) 모드(도 3의 강제 정렬 블럭(302))로 스피치 인식 시스템을 구동시키거나 또는 이미 존재하는 스피치 디코더의 출력을 이용하는 방법들 중 하나로부터 획득될 수 있다. 예시를 목적으로, 트레이닝 데이터를 라벨링하는 두 번째 방법은 도 3을 참조하여 아래에서 더욱 상세히 논의된다.

블럭(303)에서 실시되는 "음에서 클래스로의" 맵핑을 고려해보자. 모든 언어를 위한 적소의 음향적 음성 공간은 모든 음소를 목록(inventory)에서부터, 구분되는 클래스들로 맵핑함으로써 정의된다. 우리는 예로서 2개의 클래스들(스피치/잡음)을 선택했지만, 이벤트 클래스 및 그들의 수는 음성 활성도 검출이 실행되려는 환경에 의해 부과되는 필요성에 의존할 수 있다. 트레이닝 데이터의 음성 전사가 이 단계에서 필요하다. 예를 들어, 순수한 정적의 음소, 무성 마찰음, 및 파열음이 잡음 클래스를 위해 선택되는 반면, 음소의 나머지는 스피치 클래스를 위해 선택된다.

다음으로, 다중 언어의 음향 모델 블럭(103)에서 발생하는 클래스 우도 발생을 고려해보자. 음향 모델(103)로부터의 결과 및 음향 특징(예컨대, 다중 언어의 AM(블럭 103)에 입력된 MFCC 계수)에 기초하여, 스피치 검출 클래스 사후 확률들은, AM 가우시안 전체를, 대응하는 음으로 맵핑한 다음, 대응하는 클래스로 맵핑함으로써 유도된다. 예를 들어, 잡음 클래스에 대해, 잡음 및 정적 클래스에 속하는 모든 가우시안은 잡음으로 맵핑되며, 클래스의 나머지는 스피치 클래스로 맵핑된다.

비터비 정렬이 강제 정렬 블럭(302)에서 발생한다. 신호의 올바른 전사가 주어지면, 강제 정렬은 스피치 인식을 위한 메커니즘과 동일한 메커니즘을 이용하여 각각의 신호 세그먼트(프레임)에 대해 음성 정보를 결정한다. 이는 특징들을 (AM으로부터) 이음(allophone)으로 정렬시킨다. 그 다음, 음으로부터 클래스로의 맵핑(블럭 303)은 이음으로부터 음으로, 그리고 최종적으로 클래스로의 맵핑을 제공한다. 강제 정렬로부터의 스피치/잡음 라벨들은 올바른 라벨로 간주된다.

그 다음, 언어와 무관한 정의된 클래스들에 대해 가우시안 모델(블럭 111, 112)이 트레이닝될 수 있다.

따라서, 각각의 입력 프레임에 대해, MFCC 계수들에 기초하여, 제2 특징 벡터들(P_l, P₂)은 블럭(103)의 다중 언어의 음향 모델에 의해 계산되고, 블럭(302 및 303)에 의해 대응하는 클래스로 정렬된다. 또한, SNR도 이 단계에서 계산된다. 블럭(302)은 선행 트레이닝된 스피치/잡음 가우시안 혼합인 제2 세트의 선행 분류자들(111, 112)에게 SNR 정보와 함께 제2 특징 벡터들을 출력한다.

음성 활성도 검출 시스템(100)은, 상이한 주파수대의 신호의 에너지를 결정하는 에너지띠 블럭(104)에도 트레이닝 신호(301)를 입력한다. 에너지띠 블럭(104)은, 관련 이벤트 타입에 대해 이전에 트레이닝되었던 제1 세트의 선행 분류자들(121, 122)에 제1 특징 벡터들을 입력한다.

트레이닝 단계에서 음성 활성도 검출 시스템(100)은 선행 분류자들(111, 112)의 출력들 간의 거리 KL₁₂ 및 선행 분류자들(121, 122)의 출력들 간의 거리 KL₃₄를 계산한다. SNR에 대한 정보는 거리 KL₁₂ 및 KL₃₄와 함께 전달된다. 음성 활성도 검출 시스템(100)은, 선행 분류자들의 출력들 간의 거리 KL₁₂ 및 KL₃₄와 SNR에 기초하여 데이터 구조, 예컨대 룩업 테이블을 발생시킨다.

데이터 구조는 통상적으로, 다양한 환경 타입, 및 이러한 환경 타입에 연관된 거리 KL₁₂ 및 KL₃₄의 값들을 갖는다. 예로서, 표 1은 2개의 환경 타입(SNR 로우, 및 SNR 하이)을 포함한다. 이러한 환경 타입들을 분리하기 위해 문턱값들이 트레이닝 단계에서 결정된다. 트레이닝 단계 동안, 거리 KL₁₂ 및 KL₃₄는, 각각의 KL₁₂ 및 KL₃₄의 값에 연관된 SNR에 따라, 표 1의 열들에 수집된다. 이러한 방식으로, 열 KL_12l, KL_12h, KL_34l, 및 KL_34h가 형성된다.

음성 활성도 검출 시스템(100)은 상기 논의한 바와 같이, 제1 및 제2 특징 벡터들에 가중치 인자를 적용함으로써, 결합된 특징 벡터를 결정한다. 결합된 특징 벡터는 분류자 세트(131, 132)에 입력된다.

상기 언급한 바와 같이, 2개보다 많은 SNR 클래스들을 갖는 것이 가능하다. 또한 이러한 경우, SNR 클래스들 각각을 구분하기 위해 문턱값들이 트레이닝 단계 동안 결정된다. 표 2는, 2개의 이벤트 클래스 및 3개의 SNR 클래스가 이용되는 일례를 보여준다. 이 예에서, 2개의 SNR 문턱값들(THRESHOLD₁, THRESHOLD₂) 및 거리 값들에 대한 8개의 문턱값들에 존재한다. 이하의 식은 이 예의 가중치 인자에 대한 값을 결정하기 위한 식의 일례이다.

1. SNR < THRESHOLD₁의 경우, k = min ( TH_12-L , TH_34-L)

2. THRESHOLD₁ < SNR < THRESHOLD₂의 경우,

3. SNR > THRESHOLD₂의 경우, k = max ( TH_12-H , TH_34-H )

거리/SNR 대응을 위한 룩업 테이블의 추가 예시

SNR 클래스	SNR값(dB)	KL_12low	KL_12med	KL_12hi	KL_34low	KL_34med	KL_34hi
로우 .....
THRESHOLD₁		TH_{12_L}	TH_{12_LM}		TH_{34_L}	TH_{34_LM}
미디엄 .....
THRESHOLD₂			TH_{12_H}	TH_{12_MH}		TH_{34_MH}	TH_{34_H}
하이 .....

2개보다 많은 이벤트 클래스들을 갖는 것이 또한 가능하다. 이러한 경우, 음성 활성도 검출 시스템에 더 많은 선행 분류자들 및 분류자들이 존재한다. 예를 들어, 3개의 이벤트 클래스(스피치, 잡음, 정적)에 대해, 3개의 거리, KL(스피치, 잡음), KL(스피치, 정적), KL(잡음, 정적)이 고려된다. 도 4는, 예로서, 3개의 이벤트 클래스 및 2개의 SNR 클래스(환경 타입)가 존재하는 음성 활성도 검출 시스템의 트레이닝 단계를 도시한다. 각각의 특징 벡터 타입, 즉 모델들(111,112,113) 및 모델들(121, 122, 123)에 대해 3개의 선행 분류자들(즉, 이벤트 클래스의 수)이 존재한다. 도 4에서, 트레이닝 단계 동안 모니터링된 거리의 수는, 각각의 특징 벡터 타입에 대해 6개, 예를 들어, 음향 모델로부터 획득에 특징 벡터에 대해 KL_12H, KL_12L, KL_13H, KL_13L KL_23H, KL_23L이다. FV들 간의 가중치 인자는 SNR 및 FV 타입에 따라 달라진다. 따라서, 정의된 SNR 클래스의 수 및 특징 벡터의 수가 변경되지 않는다면, 가중 절차 또한 변경되지 않는다. 제3 SNR 클래스가 미디엄이라면, 에너지 타입 FV에 대해 최대 값은 0.5로 권장되지만, 이는 애플리케이션에 따라 약간 조정될 수 있다.

한 프레임에 대해 2개보다 많은 특징 벡터들을 갖는 것 또한 가능하다. 최종 가중 FV는, (k₁*FV_l, k₂*FV₂, k₃*FV₃, .., k_nFV_n)의 형태인데, 여기서, k_l+k₂+k₃+.... +k_n= l이다. 더 많은 FV를 이용함으로써 고려될 필요가 있는 것은, 상이한 SNR 클래스들에 관한 그 FV들의 거동(behaviour)이다. 따라서, SNR 클래스의 수는 FV의 선택에 영향을 줄 수 있다. 한 클래스에 대해 하나의 FV가 이상적일 수 있다. 그러나, 현재 음성 활성도 검출 분야에서 이와 같이 미세한 분류는 존재하지 않는다.

본 발명은, 전체가 하드웨어로 구성된 실시예, 전체가 소프트웨어로 구성된 실시예, 또는 하드웨어와 소프트웨어 요소를 모두 포함하는 실시예의 형태를 취할 수 있다. 바람직한 일 실시예에서, 본 발명은 펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함하는 소프트웨어로 구현되지만, 이에 한정되는 것은 아니다.

또한, 본 발명은, 컴퓨터 또는 임의의 명령어 실행 시스템에 의해 또는 이들과 함께 사용되기 위해 프로그램 코드를 제공하는 컴퓨터 이용 가능한 매체 또는 컴퓨터 판독 가능한 매체로부터 액세스 가능한 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 이를 목적으로, 컴퓨터 이용 가능한 매체 또는 컴퓨터 판독 가능한 매체는, 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 이들과 함께 사용되기 위해 프로그램을 포함, 저장, 전달, 전파, 또는 운송할 수 있는 임의의 장치일 수 있다.

매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템 (또는 장치 또는 디바이스) 또는 전파 매체일 수 있다. 컴퓨터 판독 가능한 매체의 예들은 반도체 또는 고체 상태 메모리, 자기 테이프, 탈착 가능한 컴퓨터 디스켓, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 강성 자기 디스크, 및 광 디스크를 포함한다. 광 디스크의 현재의 예들은 콤팩트 디스크-판독 전용 메모리(CD-ROM), 콤팩트 디스크-판독/기록 (CD-R/W) 및 DVD를 포함한다.

프로그램 코드를 저장 및/또는 실행하는데 적합한 데이터 처리 시스템은 시스템 버스를 통해 메모리 소자에 직접적으로 또는 간접적으로 결합된 적어도 하나의 프로세서를 포함할 것이다. 메모리 소자는, 프로그램 코드의 실제 실행 동안에 이용되는 로컬 메모리, 벌크 저장장치, 및 실행 동안 코드가 벌크 저장장치로부터 검색되어야하는 횟수를 감소시키기 위하여 적어도 일부의 프로그램 코드를 임시로 저장하는 캐시 메모리를 포함할 수 있다.

(키보드, 디스플레이, 포인팅 장치 등을 포함하지만 이들로 한정되는 것은 아닌) 입/출력 또는 I/O 장치는, 직접적으로 또는 개재하는 I/O 제어기를 통해 시스템에 결합될 수 있다. 데이터 처리 시스템이, 다른 데이터 처리 시스템, 또는 개재하는 사유 또는 공유 네트워크를 통해 원격 프린터 또는 저장 장치에 결합되는 것이 가능하도록, 네트워크 어뎁터가 또한 시스템에 결합될 수 있다. 모뎀, 케이블 모뎀, 및 이더넷 카드는 일부의 현재 이용 가능한 타입의 네트워크 어뎁터일 뿐이다.

본 발명의 실시예들이, 동적 가중치 계수에 대한 값이 각 프레임마다 업데이트된다는 가정하에 논의되었지만, 이는 필수적인 것은 아니라는 것을 이해해야 한다. 예컨대 모든 3번째 프레임마다 가중치 인자에 대한 값을 결정하는 것이 가능하다. 첨부한 청구범위에서 "프레임 세트"는 반드시, 엄격히 서로에 후속하는 프레임의 세트를 언급할 필요는 없다. 클래스를 정확하게 분리하면서도, 하나보다 많은 프레임에 대해 가중처리가 행해질 수 있다. 가중치 인사 값들을 낮은 빈도수로 업데이트하는 것은, 음성 활성도 검출의 정확도를 감소시킬 수 있지만, 애플리케이션에 따라, 정확도는 여전히 충분할 수 있다.

상기 설명에서, 입력 신호와 연관된 환경을 반영하는 품질 인자로서 신호 대 잡음비가 이용되었지만, 다른 품질 인자들이 추가로 또는 대안으로서 적용 가능할 수 있다는 것이 이해되어야 한다.

본 설명은 명시적으로, 본 명세서에서 논의된 다양한 특징들의 일부 조합을 기술한 것이다. 본 설명을 연구하는 당업자들에게는 다양한 다른 조합들도 명백할 것이라는 것을 이해해야 한다.

첨부한 청구범위에서, 컴퓨터 처리 방법은, 하나 이상의 프로세서, 메모리 수단, 및 저장 수단의 적합한 조합을 포함하는 컴퓨팅 시스템에 의해 수행되는 단계들을 갖는 방법을 언급한다.

상술한 내용들은 본 발명의 특정 실시예들을 참조하여 기술되었지만, 당업자들은 이러한 실시예들의 변경이 본 발명의 원리 및 정신을 벗어나지 않고도 행해질 수 있다는 것을 이해할 것이며, 본 발명의 범위는 첨부한 청구범위에 의해 정의된다.

Claims

적어도 2개의 이벤트 클래스를 구분하기(discriminate) 위한 컴퓨터 처리 방법에 있어서,

입력 신호를 포함하는 한 세트의 프레임을 수신하는 단계,

상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델(acoustic model)에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,

상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자(preclassifier) 세트를 이용하여 상기 적어도 2개의 상이한 특징 벡터들을 분류하는 단계,

상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자(weighting factor)에 대한 값을 결정하는 단계,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터(combined feature vector)를 계산하는 단계, 및

상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계

를 포함하는 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
제1항에 있어서, 상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계는,

상기 선행 분류자 세트 각각의 출력들 간의 적어도 하나의 거리를 결정하는 단계, 및

상기 적어도 하나의 거리에 기초하여 상기 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계

를 포함하는 것인, 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
제2항에 있어서,

상기 적어도 하나의 거리를 적어도 하나의 미리 정의된 문턱값과 비교하는 단계, 및

상기 비교에 의존하는 식(formula)을 이용하여 상기 적어도 하나의 가중치 인자에 대한 값을 계산하는 단계

를 포함하는 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
제1항에 있어서, 상기 제1 특징 벡터는 상이한 주파수대의 에너지에 기초하고, 상기 제2 특징 벡터에 대한 음향 모델은 단일 언어의(monolingual) 음향 모델과 다중 언어의(multilingual) 음향 모델 중 하나인 것인, 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
음성 활성도 검출(voice activity detection) 시스템을 트레이닝하기 위한 컴퓨터 처리 방법에 있어서,

트레이닝 신호를 포함하는 한 세트의 프레임을 수신하는 단계,

상기 프레임 각각에 대해 품질 인자를 결정하는 단계,

상기 트레이닝 신호의 콘텐츠에 기초하여, 상기 프레임을 적어도 2개의 이벤트 클래스로 라벨링하는 단계,

상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,

상기 적어도 2개의 이벤트 클래스에 대해 상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위한 각각의 선행 분류자 세트를 트레이닝하는 단계,

상기 선행 분류자 세트의 출력에 기초하여 상기 프레임 각각에 대해 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터를 계산하는 단계, 및

상기 결합된 특징 벡터를 상기 적어도 2개의 이벤트 클래스로 분류하기 위해 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계

를 포함하는 음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법.
제5항에 있어서,

상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대한 문턱값을 결정하는 단계를 포함하는 음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법.
적어도 2개의 이벤트 클래스를 구분하기 위한 음성 활성도 검출 시스템에 있어서,

입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 특징 벡터 유닛으로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 특징 벡터 유닛,

상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,

상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 가중치 인자 값 계산기,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 결합된 특징 벡터 계산기, 및

상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자

를 포함하는 음성 활성도 검출 시스템.
적어도 2개의 이벤트 클래스를 구분하기 위한 음성 활성도 검출 시스템에 있어서,

입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 수단으로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 수단,

상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,

상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 수단,

상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 수단, 및

상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자

를 포함하는 음성 활성도 검출 시스템.
제7항 또는 제8항에 있어서,

상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대한 문턱값을 포함하는 음성 활성도 검출 시스템.
데이터 처리 시스템 상에서 실행될 때, 상기 데이터 처리 시스템으로 하여금 제1항 내지 제6항 중 어느 한 항의 방법의 단계들을 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.