KR101054704B1 - 음성 활성도 검출 시스템 및 방법 - Google Patents

음성 활성도 검출 시스템 및 방법 Download PDF

Info

Publication number
KR101054704B1
KR101054704B1 KR1020097009548A KR20097009548A KR101054704B1 KR 101054704 B1 KR101054704 B1 KR 101054704B1 KR 1020097009548 A KR1020097009548 A KR 1020097009548A KR 20097009548 A KR20097009548 A KR 20097009548A KR 101054704 B1 KR101054704 B1 KR 101054704B1
Authority
KR
South Korea
Prior art keywords
feature vector
frames
feature vectors
determining
weighting factor
Prior art date
Application number
KR1020097009548A
Other languages
English (en)
Other versions
KR20090083367A (ko
Inventor
지카 발산
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20090083367A publication Critical patent/KR20090083367A/ko
Application granted granted Critical
Publication of KR101054704B1 publication Critical patent/KR101054704B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

입력 신호의 적어도 2개의 이벤트 클래스의 구분이 아래의 방법으로 수행된다. 입력 신호를 포함하는 한 세트의 프레임이 수신되고, 적어도 2개의 상이한 특징 벡터들이 상기 프레임 각각에 대해 결정된다. 상기 적어도 2개의 상이한 특징 벡터들은 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자 세트를 이용하여 분류된다. 적어도 하나의 가중치 인자에 대한 값은 상기 프레임 각각에 대해 상기 선행 분류자들의 출력에 기초하여 결정된다. 상기 적어도 하나의 가중치 인자를 상기 적어도 2개의 상이한 특징 벡터들에 적용함으로써, 상기 프레임 각각에 대해, 결합된 특징 벡터가 계산된다. 상기 결합된 특징 벡터는 상기 적어도 2개의 이벤트 클래스에 대해 트레이팅된 한 세트의 분류자들을 이용하여 분류된다.

Description

음성 활성도 검출 시스템 및 방법{VOICE ACTIVITY DETECTION SYSTEM AND METHOD}
본 발명은 일반적으로 음성 활성도 검출에 관한 것이다. 특히, 본 발명은 스피치 및 잡음과 같은 이벤트 타입의 구분에 관한 것이지만 이에 한정되는 것은 아니다.
음성 활성도 검출(VAD, voice activity detection)은 스피치 코딩, 핸즈프리 전화통신, 및 스피치 인식과 같은 많은 스피치 처리 임무의 본질적인 부분이다. 예를 들어, 모바일 통신에서, 모바일 장치가 스피치의 부재를 검출할 때 무선 인터페이스를 통한 송신 대역폭은 상당히 감소된다. 제2 예는 자동 스피치 인식 시스템(ASR)이다. VAD는 메모리 및 정확도에 관한 제약 때문에 ASR에서 중요하다. 정확하지 않은 스피치 경계의 검출은 인식 성능의 열하(degradation) 및 스피치 품질의 저하(deterioration)와 같은 심각한 문제들을 야기한다.
VAD는 스피치 인식에서 상당한 관심을 끈다. 일반적으로, 이와 같은 시스템을 설계하기 위해서는 2가지의 중요한 접근방식, 즉 문턱값 비교 기술 및 모델 기반의 기술이 이용된다. 문턱값 비교 접근방식을 위해, 예컨대 에너지, 영교차(zero crossing), 자동상관 계수 등과 같은 다양한 특징 요소들이 입력 신호로부터 추출 된 다음, 몇몇 문턱값들과 비교된다. 몇몇 접근방식들은 아래의 간행물들에서 찾아볼 수 있다: Li, Q., Zheng, J., Zhou, Q., 및 Lee C-H.의 "A robust, real-time endpoint detector with energy normalization for ASR in adverse environments"(2001년, ICASSP의 회보, pp.233-236); L. R. Rabiner 등의 "Application of an LPC Distance Measure to the Voiced-Unvoiced-Silence Detection Problem"(1977년 8월, IEEE Trans. On ASSP, vol.ASSP-25, no.4, pp.338-343).
문턱값들은 보통, 오직 잡음에서만 추출되고 동적으로 업데이트된다. 적응성 문턱값 또는 적합한 필터링을 이용함으로써, 그들의 성능이 향상될 수 있다. 예컨대, Martin, A., Charlet, D., 및 Mauuary, L의 "Robust Speech/Nonspeech Detection Using LDA applied to MFCC(2001년, ICASSP의 회보, pp.237-240)"; Monkowski, M.의 미국 특허 제US6314396호, 발명의 명칭, Automatic Gain Control in a Speech Recognition System; 및 Lie Lu, Hong-Jiang Zhang, H. Jiang의 "Content Analysis for Audio Classification and Segmentation(2002년 10월, IEEE Trans. Speech & Audio Processing, Vol.10, NO.7, pp.504-516)"을 참조할 수 있다.
대안으로서, 다른 복잡한 환경 사운드로부터 스피치를 신뢰성있게 구분하기 위한 모델 기반의 VAD가 널리 도입되었다. 후속하는 간행물들에서 몇몇 접근 방식들을 찾아볼 수 있다: J. Ajmera, I. McCowan의 "Speech/Music Discrimination Using Entropy and Dynamism Features in a HMM Classification Framework(2001년, 스위스 마티니 IDIAP, IDIAP-RR 01-26)" 및 T. Hain, S. Johnson, A. Tuerk, P. Woodland, S. Young의 "Segment Generation and Clustering in the HTK Broadcast News Transcription System(1998년, DARPA Broadcast News Transcription and Understanding Workshop, pp.133-137)". 전대역 에너지, 하위 대역 에너지, 선형 예측 잔류 에너지 또는 MFCC(Mel Frequency Cepstral Coefficient)와 같은 주파수 기반의 특징들과 같은 특징들이 보통 이와 같은 시스템에 이용된다.
(단어 인식을 위한 스피치 인식과 함께) 단어의 시작부분/종료부분의 검출이 AU 697062(AU-E-23284/95)에서 논의된다. 특징 벡터는 적어도 2개의 현재 특징, 즉 신호 에너지의 함수인 특징, 및 현재 블럭의 선형 예층 코딩(LPC, linear predictive coding) 켑스트럽 계수와 평균 LPC 켑스트럼 계수의 제곱 차(squared difference)의 함수인 적어도 하나의 다른 현재 특징을 포함하는 것으로 형성된다.
문턱값 적응화 및 에너지 특징 기반의 VAD 기술은, 신호 에너지 레벨이 통상 매우 동적이고, 음악 및 비 정지 잡음과 같은 배경 사운드가 흔한, 많은 실제 생활의 용례들에서 직면하게 되는 복잡한 음향 상황들을 다루는데 실패하였다. 결과적으로, 잡음 이벤트는 종종 삽입 오류를 야기하는 단어로서 인식되는 반면, 이웃하는 잡음 이벤트에 의해 변조된(corrupt) 스피치 이벤트는 대체 오류(substitution error)들을 야기한다. 모델 기반의 VAD 기술들은 잡음이 있는 상태에서 더욱 잘 동작하지만, 한 언어에 대한 이러한 기술들의 의존성은 (이러한 기술들이 음소(phoneme) 레벨 정보를 인코딩하기 때문에) 그들의 기능성을 상당히 감소시킨다.
VAD 정확도에서 환경 타입은 중요한 역할을 한다. 예를 들어, 높은 신호 대 잡음비(SNR) 상태들이 흔히 직면하는 자동차 환경에서, 자동차가 정지하고 있는 경우에는 정확한 검출이 가능하다. SNR이 매우 낮고, 자동차 엔진으로부터의 강한 세기의 반 정지 배경 잡음, 및 도로상의 충돌, 와이퍼 잡음, 문닫는 소리와 같은 높은 일시적인 잡음(transient noise)을 갖는 것이 보통인 경우, 음성 활성도 검출은 도전과제가 된다. SNR이 낮고, 배경 잡음 및 높은 일시적인 잡음이 존재하는 다른 상황에서의 음성 활성도 검출 또한 도전과제 이다.
따라서, 다양한 환경에 대해 잘 수행되고, 확고함(robustness) 및 정확도가 매우 중요한 고려 사항이 되는, VAD 방법/시스템을 개발하는 것이 매우 바람직하다.
본 발명의 실시예들의 목적은 상기 논의한 문제들 중 하나 이상을 해결하는 것이다.
본 발명의 제1 양태에 따라, 적어도 2개의 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법이 제공되는데, 이 방법은,
입력 신호를 포함하는 한 세트의 프레임을 수신하는 단계,
상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,
상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자 세트를 이용하여 상기 적어도 2개의 상이한 특징 벡터들을 분류하는 단계,
상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계,
상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해 결합된 특징 벡터를 계산하는 단계, 및
상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계를 포함한다.
이 컴퓨터 처리 방법은, 상기 선행 분류자의 세트 각각의 출력들 간의 적어도 하나의 거리를 결정하는 단계, 및 상기 적어도 하나의 거리에 기초하여 상기 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계를 포함할 수 있다.
이 방법은, 상기 적어도 하나의 거리를 적어도 하나의 미리 정의된 문턱값과 비교하는 단계, 및 상기 비교에 의존하는 식(formula)을 이용하여 상기 적어도 하나의 가중치 인자에 대한 값을 계산하는 단계를 더 포함할 수 있다. 상기 식은 상기 적어도 하나의 문턱값들 중 적어도 하나를 입력으로서 사용할 수 있다.
상기 적어도 하나의 거리는, Kullback-Leibler 거리, Mahalanobis 거리, 및 Euclidian 거리 중 적어도 하나에 기초할 수 있다.
에너지 기반의 특징 벡터는 상기 프레임 각각에 대해 결정될 수 있다. 상기 에너지 기반의 특징 벡터는, 상이한 주파수대의 에너지, 로그 에너지, 및 스피치 에너지 컨투어(contour) 중 적어도 하나에 기초할 수 있다.
모델 기반의 특징 벡터는 상기 프레임 각각에 대해 결정될 수 있다. 상기 모델 기반의 기술은, 음향 모델, 신경망(neural network), 및 하이브리드 신경망 및 히든 마르코프 (hidden Markow) 모델 방식 중 적어도 하나에 기초할 수 있다.
일 특정 실시예에서, 상이한 주파수대의 에너지에 기초하는 제1 특징 벡터 및 음향 모델에 기초하는 제2 특징 벡터는 상기 프레임 각각에 대해 결정된다. 이러한 특정 실시예의 상기 음향 모델은, 단일 언어의(monolingual) 음향 모델, 및 다중 언어의(multilingual) 음향 모델 중 하나일 수 있다.
본 발명의 제2 양태는,
음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법을 제공하는데, 이 방법은,
트레이닝 신호를 포함하는 한 세트의 프레임을 수신하는 단계,
상기 프레임 각각에 대해 품질 인자를 결정하는 단계,
상기 트레이닝 신호의 콘텐츠에 기초하여 상기 프레임을 적어도 2개의 이벤트 클래스로 라벨링하는 단계,
상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,
상기 적어도 2개의 이벤트 클래스에 대해 상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위한 선행 분류자 세트 각각을 트레이닝하는 단계,
상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계,
상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터를 계산하는 단계, 및
상기 결합된 특징 벡터를 적어도 2개의 이벤트 클래스로 분류하기 위한 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계를 포함한다.
이 방법은, 상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대해 문턱값을 결정하는 단계를 포함할 수 있다.
본 발명의 제3 양태는 적어도 2개의 클래스 이벤트를 구분하기 위한 음성 활성도 검출 시스템을 제공하는데, 이 시스템은,
입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 특징 벡터 유닛,
상기 적어도 2개의 상이한 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,
상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 가중치 인자 값 계산기,
상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 결합된 특징 벡터 계산기, 및
상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 포함한다.
음성 활성도 검출 시스템에서, 상기 가중치 인자 값 계산기는, 상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대해 문턱값을 포함할 수 있다.
본 발명의 추가 양태는, 컴퓨터 이용 가능한 매체 및 컴퓨터 판독 가능한 프로그램을 포함하는 컴퓨터 프로그램 제품을 제공하는데, 상기 컴퓨터 판독 가능한 프로그램은, 데이터 처리 시스템 상에서 실행될 때 상기 데이터 처리 시스템으로 하여금 상술한 바와 같은 방법의 단계들을 수행하게 한다.
본 발명의 더 나은 이해를 위해, 그리고 본 발명이 실시될 수 있는 방법의 더 나은 이해를 위해, 오직 예로서 첨부한 도면들에 대한 참조가 행해질 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 활성도 검출 시스템의 일례를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 음성 활성도 검출 방법의 일례의 순서도를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따라 음성 활성도 검출 시스템을 트레이닝하는 일례를 개략적으로 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따라 음성 활성도 검출 시스템을 트레이팅하는 추가 예를 개략적으로 도시한 도면이다.
본 발명의 실시예들은 모델 기반의 음성 활성도 검출 기술과, 상이한 주파수대의 신호 에너지에 기초한 음성 활성도 검출 기술을 결합한다. 이러한 결합은, 상이한 에너지띠의 신호 에너지 및 음향 모델에 의해 제공된 정보가 서로 보완하기 때문에 환경 변화에 대한 확고함(robustness)을 제공한다. 신호 에너지 및 음향 모델로부터 획득된 2가지 타입의 특징 벡터들은 환경의 변화에 따른다. 또한, 본 명세서에 제시되는 음성 활성도 검출 기술은, 입력 신호에 연관된 환경을 반영하는 동적 가중치 인자를 이용한다. 2가지 타입의 특징 벡터들을 이와 같은 동적 가중치 인자와 결합함으로써, 음성 활성도 검출 기술은 환경 변화에 적응한다.
음향 모델 및 상이한 주파수대의 에너지에 기초한 특징 벡터가 구체적인 예 로서 아래에서 상세히 논의되지만, 특징 벡터의 타입이 서로 상이한 한, 임의의 다른 특징 벡터 종류가 이용될 수 있으며, 이 특징 벡터들은 입력 신호 상에 보완 정보를 제공한다.
높은 SNR 상태에서의 스피치 검출을 위한 단순하고 효과적 특징은 신호 에너지이다. 에너지에 기초한 임의의 확고한 메커니즘은 상대적인 신호 및 잡음 레벨 및 신호의 전체 이득에 적응해야 한다. 또한, 상이한 주파수대로 전달된 정보는 음소(공명음, 마찰음, 운음 등)의 타입에 따라 상이하기 때문에, 에너지띠는 이러한 특징 타입을 계산하는데 이용된다. m개의 컴포넌트를 가진 특징 벡터는 (En1, En2, En3, ..., Enm)처럼 표현할 수 있는데, 여기서 m은 띠의 번호이다. 신호 에너지에 기초한 특징 벡터는 본 발명의 실시예들에 따른 음성 활성도 검출 시스템에서 사용된 제1 타입의 특징 벡터이다. 에너지에 기초한 다른 특징 벡터의 타입은, 로그 에너지 및 스피치 에너지 컨투어와 같은 스펙트럼 진폭이다. 원칙적으로, 잡음에 민감한 모든 특징 벡터가 사용될 수 있다.
MFCC(mel frequency cepstral coefficient) 및 이 MFCC의 도함수, 즉 PLP(Perceptual Linear Predictive coefficient)와 같은 주파수 기반의 스피치 특징은 스피치 인식 시스템의 잡음에 대한 향상된 확고함을 달성하는데 매우 효과적인 것으로 알려져 있다. 안타깝게도, 주파수 기반의 스피치 특징은, VAD 시스템에서 바로 사용될 때는 다른 환경 사운드로부터 스피치를 구분하는데 그리 효과적이지 않다. 따라서, VAD 시스템에서 주파수 기반의 스피치 특징을 이용하는 방법은 음향 모델(AM, acoustic model)을 통해 실시된다.
음향 모델이 이용될 때, VAD의 기능성은 통상적으로 AM이 트레이팅되었던 언어만으로 한정된다. 다른 언어에 대한 특징 기반의 VAD의 이용은, 새로운 AM 및 계산 비용이 증가되는 전체 VAD 시스템의 재트레이닝(re-training)을 요구할 수 있다. 따라서, 하나보다 많은 언어를 다룰 수 있는 공통 음운론(phonology)에 대해 트레이닝된 AM을 이용하는 것이 이롭다. 이는 저비용으로 정확도를 달성하는데 요구되는 노력을 최소화한다.
다중 언어의 AM은 모든 언어 전반에 대해 공통인 알파벳에 기초한 스피치 전사(transcription)를 요구한다. 공통 알파벳을 이루기 위한 한 방법은, 관련 언어들 각각에 대해 기존의 알파벳에서부터 시작할 수 있는데, 이 관련 언어들 중 일부는 간략화된 다음, 동일한 IPA 기호에 대응하는 몇몇 언어에 존재하는 음들을 병합할 필요가 있다. 이러한 접근 방식은 F. Palou Cambra, P. Bravetti, 0. Emam, V. Fischer, 및 E. Janke의 "Towards a common alphabet for multilingual speech recognition(2000년, 베이징, 제6차 Spoken Language Processing 컨퍼런스의 회보)"에서 논의된다. 넓은 범위까지의 다중 언어의 스피치 인식을 위한 음향 모델링은, (반-히든 마르코프 모델 트레이닝 또는) 지속적인 히든 마르코프 모델 트레이닝을 위해 잘 구축된 방법을 이용하지만, 이러한 임무를 위해, 각각의 클래스에 대해 사후 클래스 확률(posterior class probability)을 생성할 신경망 또한 고려될 수 있다. 이러한 접근 방식은 V. Fischer, J. Gonzalez, E. Janke, M. Villani, 및 C. Waast-Richard의 "Towards Multilingual Acoustic Modeling for Large Vocabulary Continuous Speech Recognition(2000년, 일본, 교토, Multilingual Speech Communications IEEE 워크샵의 회보)"; S. Kunzmann, V. Fischer, J. Gonzalez, O. Emam, C. Gunther, 및 E. Janke의 "Multilingual Acoustic Models for Speech Recognition and Synthesis(2004년, 몬트리올, Acoustics, Speech, and Signal Processing IEEE 국제 컨퍼런스의 회보)"에서 논의된다.
스피치와 잡음 관측 모두, 개개의 가우시안 혼합 밀도 분포 함수에 의해 특성이 기술될 수 있다고 가정하면, VAD 시스템 또한, 통계 AM이 히든 마르코프 모델 프레임워크 내의 가우시안 모델 혼합(GMM)으로서 모델링되는 기존의 스피치 인식 시스템으로부터 이익을 얻을 수 있다. E. Marcheret, K. Visweswariah, G. Potamianos의 "Speech Activity Detection fusing Acoustic Phonetic and Energy Features(Proc. /ICASLP 2005)"에서 그 일례를 찾을 수 있다. 스피치/잡음 이벤트에 대한 클래스 사후 확률(class posterior probabilit)은 프레임마다 계산되며, 본 발명에서는 (P1, P2)로 부른다. 이들은 제2 타입의 FV이다.
후속하는 설명에서, 다중 언어의 음향 모델은 종종, 특징 벡터들을 제공하는 모델의 일례로서 이용된다. 다중 언어의 음향 모델로부터 단일 언어의 음향 모델을 유도하는 것은 수월하다는 것을 이해해야 한다. 또한, 본 발명의 일 실시예에 따른 음성 검출 시스템에서 특정한 단일 언어의 음향 모델을 이용하는 것이 가능하다.
주파수대의 에너지와 관련된 제1 특징 벡터들(En1, En2, En3, ..., Enm)이 제1 세트의 선행 분류자들에 입력된다. 음향 모델 또는 다른 관련 모델에 의해 제공 된 2개의 이벤트 타입에 대한 제2 특징 벡터들, 예컨대(P1, P2)는 제2 세트의 선행 분류자들에 입력된다. 선행 분류자들은 통상적으로 가우시안 혼합 선행 분류자들로서, 가우시안 혼합 분포를 출력한다. 본 발명의 실시예들에서 사용되는 가우시안 혼합 모델들 중 임의의 어느 하나는, 예컨대 클래스 각각의 사후 확률을 추정하기 위해 신경망을 이용할 수 있다.
이러한 세트들의 선행 분류자들의 수는, 음성 활성도 검출 시스템이 검출할 필요가 있는 이벤트 클래스들의 수에 대응한다. 통상적으로, 2개의 이벤트 클래스, 즉 스피치 및 넌-스피치(non-speech)(또는 다른 말로, 스피치 및 잡음)가 존재한다. 하지만 애플리케이션에 따라, 많은 수의 이벤트 클래스들에 대한 필요성이 존재할 수 있다. 매우 흔한 예는, 3개의 이벤트 클래스, 즉 스피치, 잡음, 정적(silence)을 갖는 것이다. 선행 분류자들은 각각의 이벤트 클래스에 대해 트레이닝되었다. 트레이닝은 아래에서 일부 상세한 부분들이 논의된다.
높은 SNR (잡음이 없는 깨끗한 환경)에서, 2개의 클래스의 분포는 잘 분리되어 있고, 에너지 기반의 모델과 연관된 임의의 선행 분류자는 신뢰할 수 있는 출력을 제공할 것이다. (다중 언어의) 음향 모델과 연관된 분류 모델이 상당히 양호한 클래스 분리를 제공할 것이라고 예상된다. 낮은 SNR(잡음이 있는 환경)에서, 에너지띠와 연관된 2개의 클래스의 분포는 상당히 오버랩되어, 에너지띠하고만 단독으로 연관된 선행 분류자들에 기초한 결정을 의심스럽게 만들 수 있다.
FV 타입 중 하나가 환경 타입(잡음이 있는 환경 또는 잡음이 없는 깨끗한 환 경)에 의존하는 다른 타입보다 더욱 효과적인 것으로 보인다. 하지만 실제 애플리케이션에서, 환경의 변화는 매우 자주 발생하기 때문에, 이러한 변화에 대한 음성 활성도 검출 시스템의 확고함을 증가시키기 위하여 양쪽 FV 타입 모두의 존재가 요구된다. 따라서, 2개의 FV 타입이 환경 타입에 따라 동적으로 가중되는 방식이 본 발명의 실시예들에서 이용될 것이다.
어느 FV가 가장 안정한 결정을 제공할 것인지 판단하기 위해 환경을 정의하는 문제가 남아있다. 환경의 타입을 추론하는 간단하고 효과적인 방법은, 이벤트 타입 분포들 간의 거리, 예컨대 스피치/잡음 분포들 간의 거리를 계산하는 단계를 포함한다. 더 잘 구분되는 클래스들을 제공하고 분포들 간에 먼 거리를 야기하는 잘 구분되는 특징 벡터들은, 분포들 간을 그렇게 잘 구분하지는 못하는 특징 벡터들에 비하여 강조된다. 선행 분류자들의 모델들 간의 거리에 기초하여, 가중치 인자에 대한 값이 결정된다.
도 1은 본 발명의 일 실시예에 따른 음성 활성도 검출 시스템(100)을 개략적으로 도시한 것이다. 도 2는 음성 활성도 검출 방법(200)의 순서도이다.
방법(200)의 단계들의 순서는 바뀔 수 있다는 것이 이해될 것이다. 또한, 블럭의 구성도, 그 블럭에 의해 제공되는 기능성이 음성 활성도 시스템(100)에 존재하는 한, 도 1에 도시된 순서에서 변경될 수 있다.
음성 활성도 검출 시스템(100)은 입력 데이터(101)를 수신한다(단계 201). 입력 데이터는 통상적으로, 10 내지 30ms 사이에서 변하는 크기의 스피치(입력 신호)의 연속 세그먼트를 오버랩핑하는 프레임들로 분할된다. 신호 에너지 블럭(104) 은 각각의 프레임에 대해 제1 특징 벡터(En1, En2, En3, ..., Enm)를 결정한다(단계 202). 프론트엔드(102)는 통상적으로, 각각의 프레임에 대해 MFCC 계수들 및 그들의 도함수 또는 PLP(perceptual linear predictive) 계수들을 계산한다(단계 204). 이러한 계수들은 음향 모델(AM)(103)에 입력된다. 도 1에서, 예로서, 음향 모델은 다중 언어의 음향 모델인 것으로 도시되어 있다. 음향 모델(103)은 각각의 프레임에 대해 제2 특징 벡터로서 음성 음향적 우도(phonetic acoustic likelihood)를 제공한다(단계 205). 다중 언어의 음향 모델은, 적어도 그 모델이 트레이닝된 임의의 언어에 대해 VAD에 의존하는 모델의 이용을 보증한다.
에너지띠 블럭(104)에 의해 제공된 제1 특징 벡터들(En1, En2, En3, ..., Enm)은 제1 세트의 선행 분류자들(M3, M4)(121, 122)에 입력된다(단계 203). 음향 모델(103)에 의해 제공된 제2 특징 벡터들(P1, P2)은 제2 세트의 선행 분류자들(M1, M2)(111, 112)에 입력된다(단계 206). 선행 분류자들(M1, M2, M3, M4)은 통상적으로, 가우시안 혼합 선행 분류자들로서, 가우시안 혼합 분포를 출력한다. 클래스 각각의 사후 확률들을 제공하기 위해 신경망이 또한 이용될 수 있다. 이러한 세트들 내의 선행 분류자들의 수는 음성 활성도 검출 시스템(100)이 검출할 필요가 있는 이벤트 클래스들의 수에 대응한다. 도 1은 일례로서 이벤트 클래스 스피치/잡음을 도시한다. 하지만 애플리케이션에 따라, 많은 수의 이벤트 클래스들에 대한 필요성이 존재할 수 있다. 선행 분류자들은 각각의 이벤트 클래스에 대해 트레이닝되었다. 도 1의 예에서, M1은 오직 (P1, P2)과 트레이닝된 스피치 모델이고, M2는 오직 (P1, P2)과 트레이닝된 잡음 모델이며, M3는 오직 (En1, En2, En3, ..., Enm)과 트레이팅된 스피치 모델이고, M4는 오직 (En1, En2, En3, ..., Enm)과 트레이팅된 잡음 모델이다.
음성 활성도 검출 시스템(100)은 각 세트의 선행 분류자들에 의해 출력된 분포들 간의 거리를 계산한다(단계 207). 즉, 선행 분류자 M1과 M2의 출력들 간의 거리 KL12가 계산되며, 유사하게 선행 분류자 M3과 M4의 출력들 간의 거리 KL34가 계산된다. 2개보다 많은 이벤트 타입의 클래스가 존재한다면, 한 세트 내의 선행 분류자의 모든 쌍들 간의 거리가 계산되거나, 또는 대안으로서, 일부 미리 결정된 선행 분류자의 쌍들 간의 거리만이 계산될 수 있다. 예컨대, 거리들은 Kullback-Leibler 거리, Mahalanobis 거리, 또는 Euclidian 거리일 수 있다. 통상적으로, 선행 분류자들의 양 세트 모두에 대해 동일한 거리 타입이 이용된다.
VAD 시스템(100)은 특징 벡터들 상에 가중치 인자 k를 적용함으로써, 특징 벡터(P1, P2) 및 (En1, En2, En3, ..., Enm)를 결합된 특징 벡터로 결합한다. 결합된 특징 벡터는, 예컨대 아래와 같은 형태일 수 있다.
(k* En1 k*En2 k*En3 ... k*Enm (l-k)*P1 (l - k)*P2)
가중치 인자 k에 대한 값은 거리 KL12와 KL34에 기초하여 결정된다(단계 208). 가중치 인자 k에 대해 결정된 값의 일례는 아래와 같다. 트레이닝 단계 동 안, 트레이닝 신호의 SNR이 계산될 수 있는 경우, 데이터 구조는 SNR 클래스 라벨, 및 대응하는 KL12 및 KL34 거리를 포함하는 것으로 구성된다. 표 1은 이와 같은 데이터 구조의 일례이다.
거리/SNR 대응을 위한 룩업 테이블
각 프레임에 대한 SNR 클래스 SNR 값(dB) KL12L KL12H KL34L KL34H
로우(Low) KL12L-frame-1 KL34L-frame-1
로우 KL12L-frame-2 KL34L-frame-2
로우 KL12L-frame-3 KL34L-frame-3
........ ..... ........ ........ ........
로우 KL12L-frame-n KL34L-frame-n
THRESHOLD1 TH12L TH12H TH34L TH34H
하이(High) KL12H-frame-n+1 KL34H-frame-n+1
하이 KL12H-frame-n+2 KL34H-frame-n+2
하이 KL12H-frame-n+3 KL34H-frame-n+3
........ ..... ........ ........ ........ ........
하이 KL12H-frame-n+m KL34H-frame-n+m
표 1에서 보이는 바와 같이, SNR 공간을 범위들로 나누는 문턱값이 존재할 수 있다. 표 1에서, 문턱값 THRESHOLD1은 SNR 공간을, 2개의 범위, 즉 로우 SNR과 하이 SNR로 나눈다. 거리 값 KL12와 KL34는, 현재의 환경 타입을 예상하는데 이용되며, 각각의 입력 스피치 프레임에 대해 계산된다(예컨대, 10ms).
표 1에서, 각각의 SNR 클래스와 거리의 쌍에 대해 1개의 열이 존재한다. 즉, 이 특정 예에서, 거리 KL12에 대해 2개의 열(SNR 하이, SNR 로우) 및 거리 KL34에 대해 2개의 열(SNR 하이, SNR 로우)이 존재한다. 표 1의 포맷에 대한 추가 옵션으로서, 트레이닝 단계 동안, 1개 열에 모든 거리 값들 KL12을 수집하고, 추가 열에 모든 거리 값들 KL34를 수집하는 것이 가능하다. SNR 클래스 열에 있는 엔트리에 의해 SNR 로우/하이를 구분하는 것이 가능하다.
트레이닝 단계와 표 1을 다시 참조하면, 프레임 x에서 환경에 잡음이 있다면(로우 SNR), 오직 (KL12L-frame-x 및 KL34L-frame-x) 쌍만이 계산될 것이다. 그 다음 프레임(x+1)에서, 환경에 여전히 잡음이 있다면, (KL12L-frame-x+1 및 KL34L-frame-x+1) 쌍이 계산될 것이고, 그렇지 않다면(하이 SNR), (KL12H-frame-x+1 및 KL34H-frame-x+1) 쌍이 계산된다. 트레이닝 단계에서 각각의 프레임에 대해 환경 타입이 계산되며, 대응하는 KL 거리가 룩업 테이블(표 1) 내로 수집된다. 런타임시, SNR에 대한 정보가 분실되는 경우, 각각의 스피치 프레임에 대해 거리 값 KL12 및 KL34가 계산된다. 룩업 테이블 내의 대응하는 문턱값과 KL12 및 KL34 값과의 비교에 기초하여, SNR 타입에 대한 정보가 검색된다. 이러한 방법으로, 환경 타입(SNR 클래스)가 검색될 수 있다.
요약하면, 표 1 또는 유사한 데이터 구조의 값들은 트레이닝 단계 동안에 수집되고, 문턱값들은 트레이닝 단계에서 결정된다. 런타임 단계에서, 음성 활성도 검출이 수행되는 경우, 거리 값 KL12과 KL34는 표 1 (또는 유사한 데이터 구조)의 문턱값들과 비교되며, 그 비교에 기초하여, 어느 SNR 클래스가 현재 프레임의 환경을 기술하는지 결정된다.
현재 환경(SNR 범위)을 결정한 후, 아래의 관계들을 이용하여, 환경 타입에 기초하여, 예컨대 문턱값 자체에 기초하여 가중치 인자에 대한 값이 결정될 수 있다.
1. SNR < THRESHOLD1인 경우, k = min (TH12-L, TH34-L)
2. SNR > THRESHOLD1인 경우, k = max (TH12-H, TH34-H)
가중치 인자 값의 계산시 문턱값을 이용하는 것의 대안으로서, 거리 값 KL12와 KL34가 이용될 수 있다. 예를 들어, k에 대한 값은, SNR < THRESHOLD1인 경우, k = min(KL12, KL34)일 수 있고, SNR > THRESHOLD1인 경우, max(KL12, KL34)일 수 있다. 이러한 음성 활성도 검출 시스템의 방법은 환경의 변화를 고려하면 훨씬 더 동적이다.
결합된 특징 벡터(가중 FV*)가 한 세트의 분류자들(131, 132)에 입력되는데(단계 210), 이 분류자들은 스피치 및 잡음에 대해 트레이닝되었다. 2개보다 많은 이벤트 타입이 존재한다면, 결합된 특징 벡터에 작용하는 분류자 세트에 있는 선행 분류자 및 분류자의 수는 이벤트 타입의 수와 일치할 것이다. 결합된 특징 벡터를 위한 분류자 세트는 통상적으로, 휴리스틱(heuristic) 결정 규칙, 가우시안 혼합 모델, 퍼셉트론(perceptron), 지지 벡터 머신 또는 다른 신경망을 이용한다. 분류자들(131, 132)에 의해 제공된 스코어는 통상적으로, 몇몇의 프레임 상에서 평활화(smooth)된다(단계 211). 그 다음, 음성 활성도 검출 시스템은 평활화된 스코어에 기초하여 이벤트 타입을 결정한다(단계 212).
도 3은 음성 활성도 검출 시스템(100)의 트레이닝을 개략적으로 도시한다. 바람직하게, 음성 활성도 검출 시스템(100)의 트레이닝은, 트레이닝 신호(301)를 입력하고, 시스템(100)을 트레이닝 모드로 변환함으로써, 자동으로 발생한다. 프론트엔드(102)에서 각 프레임에 대해 계산된 음향 FV들은, 2가지 이유에서, 즉 데이터를 스피치/잡음으로 라벨링하기 위해, 그리고 다른 잡음으로부터 스피치를 구분하는데 더욱 효과적인 다른 FV 타입을 생성하기 위해, 음향 모델(103)에 입력된다. 후자의 이유는 또한, VAD 시스템의 런타임 단계에도 적용된다.
각 프레임에 대한 라벨들은, 수동으로, 강제 정렬(forced alignment) 모드(도 3의 강제 정렬 블럭(302))로 스피치 인식 시스템을 구동시키거나 또는 이미 존재하는 스피치 디코더의 출력을 이용하는 방법들 중 하나로부터 획득될 수 있다. 예시를 목적으로, 트레이닝 데이터를 라벨링하는 두 번째 방법은 도 3을 참조하여 아래에서 더욱 상세히 논의된다.
블럭(303)에서 실시되는 "음에서 클래스로의" 맵핑을 고려해보자. 모든 언어를 위한 적소의 음향적 음성 공간은 모든 음소를 목록(inventory)에서부터, 구분되는 클래스들로 맵핑함으로써 정의된다. 우리는 예로서 2개의 클래스들(스피치/잡음)을 선택했지만, 이벤트 클래스 및 그들의 수는 음성 활성도 검출이 실행되려는 환경에 의해 부과되는 필요성에 의존할 수 있다. 트레이닝 데이터의 음성 전사가 이 단계에서 필요하다. 예를 들어, 순수한 정적의 음소, 무성 마찰음, 및 파열음이 잡음 클래스를 위해 선택되는 반면, 음소의 나머지는 스피치 클래스를 위해 선택된다.
다음으로, 다중 언어의 음향 모델 블럭(103)에서 발생하는 클래스 우도 발생을 고려해보자. 음향 모델(103)로부터의 결과 및 음향 특징(예컨대, 다중 언어의 AM(블럭 103)에 입력된 MFCC 계수)에 기초하여, 스피치 검출 클래스 사후 확률들은, AM 가우시안 전체를, 대응하는 음으로 맵핑한 다음, 대응하는 클래스로 맵핑함으로써 유도된다. 예를 들어, 잡음 클래스에 대해, 잡음 및 정적 클래스에 속하는 모든 가우시안은 잡음으로 맵핑되며, 클래스의 나머지는 스피치 클래스로 맵핑된다.
비터비 정렬이 강제 정렬 블럭(302)에서 발생한다. 신호의 올바른 전사가 주어지면, 강제 정렬은 스피치 인식을 위한 메커니즘과 동일한 메커니즘을 이용하여 각각의 신호 세그먼트(프레임)에 대해 음성 정보를 결정한다. 이는 특징들을 (AM으로부터) 이음(allophone)으로 정렬시킨다. 그 다음, 음으로부터 클래스로의 맵핑(블럭 303)은 이음으로부터 음으로, 그리고 최종적으로 클래스로의 맵핑을 제공한다. 강제 정렬로부터의 스피치/잡음 라벨들은 올바른 라벨로 간주된다.
그 다음, 언어와 무관한 정의된 클래스들에 대해 가우시안 모델(블럭 111, 112)이 트레이닝될 수 있다.
따라서, 각각의 입력 프레임에 대해, MFCC 계수들에 기초하여, 제2 특징 벡터들(Pl, P2)은 블럭(103)의 다중 언어의 음향 모델에 의해 계산되고, 블럭(302 및 303)에 의해 대응하는 클래스로 정렬된다. 또한, SNR도 이 단계에서 계산된다. 블럭(302)은 선행 트레이닝된 스피치/잡음 가우시안 혼합인 제2 세트의 선행 분류자들(111, 112)에게 SNR 정보와 함께 제2 특징 벡터들을 출력한다.
음성 활성도 검출 시스템(100)은, 상이한 주파수대의 신호의 에너지를 결정하는 에너지띠 블럭(104)에도 트레이닝 신호(301)를 입력한다. 에너지띠 블럭(104)은, 관련 이벤트 타입에 대해 이전에 트레이닝되었던 제1 세트의 선행 분류자들(121, 122)에 제1 특징 벡터들을 입력한다.
트레이닝 단계에서 음성 활성도 검출 시스템(100)은 선행 분류자들(111, 112)의 출력들 간의 거리 KL12 및 선행 분류자들(121, 122)의 출력들 간의 거리 KL34를 계산한다. SNR에 대한 정보는 거리 KL12 및 KL34와 함께 전달된다. 음성 활성도 검출 시스템(100)은, 선행 분류자들의 출력들 간의 거리 KL12 및 KL34와 SNR에 기초하여 데이터 구조, 예컨대 룩업 테이블을 발생시킨다.
데이터 구조는 통상적으로, 다양한 환경 타입, 및 이러한 환경 타입에 연관된 거리 KL12 및 KL34의 값들을 갖는다. 예로서, 표 1은 2개의 환경 타입(SNR 로우, 및 SNR 하이)을 포함한다. 이러한 환경 타입들을 분리하기 위해 문턱값들이 트레이닝 단계에서 결정된다. 트레이닝 단계 동안, 거리 KL12 및 KL34는, 각각의 KL12 및 KL34의 값에 연관된 SNR에 따라, 표 1의 열들에 수집된다. 이러한 방식으로, 열 KL12l, KL12h, KL34l, 및 KL34h가 형성된다.
음성 활성도 검출 시스템(100)은 상기 논의한 바와 같이, 제1 및 제2 특징 벡터들에 가중치 인자를 적용함으로써, 결합된 특징 벡터를 결정한다. 결합된 특징 벡터는 분류자 세트(131, 132)에 입력된다.
상기 언급한 바와 같이, 2개보다 많은 SNR 클래스들을 갖는 것이 가능하다. 또한 이러한 경우, SNR 클래스들 각각을 구분하기 위해 문턱값들이 트레이닝 단계 동안 결정된다. 표 2는, 2개의 이벤트 클래스 및 3개의 SNR 클래스가 이용되는 일례를 보여준다. 이 예에서, 2개의 SNR 문턱값들(THRESHOLD1, THRESHOLD2) 및 거리 값들에 대한 8개의 문턱값들에 존재한다. 이하의 식은 이 예의 가중치 인자에 대한 값을 결정하기 위한 식의 일례이다.
1. SNR < THRESHOLD1의 경우, k = min ( TH12-L , TH34-L)
2. THRESHOLD1 < SNR < THRESHOLD2의 경우,
Figure 112009027762175-pct00001
3. SNR > THRESHOLD2의 경우, k = max ( TH12-H , TH34-H )
거리/SNR 대응을 위한 룩업 테이블의 추가 예시
SNR 클래스 SNR값(dB) KL12low KL12med KL12hi KL34low KL34med KL34hi
로우
.....
THRESHOLD1 TH12_L TH12_LM TH34_L TH34_LM
미디엄
.....
THRESHOLD2 TH12_H TH12_MH TH34_MH TH34_H
하이
.....
2개보다 많은 이벤트 클래스들을 갖는 것이 또한 가능하다. 이러한 경우, 음성 활성도 검출 시스템에 더 많은 선행 분류자들 및 분류자들이 존재한다. 예를 들어, 3개의 이벤트 클래스(스피치, 잡음, 정적)에 대해, 3개의 거리, KL(스피치, 잡음), KL(스피치, 정적), KL(잡음, 정적)이 고려된다. 도 4는, 예로서, 3개의 이벤트 클래스 및 2개의 SNR 클래스(환경 타입)가 존재하는 음성 활성도 검출 시스템의 트레이닝 단계를 도시한다. 각각의 특징 벡터 타입, 즉 모델들(111,112,113) 및 모델들(121, 122, 123)에 대해 3개의 선행 분류자들(즉, 이벤트 클래스의 수)이 존재한다. 도 4에서, 트레이닝 단계 동안 모니터링된 거리의 수는, 각각의 특징 벡터 타입에 대해 6개, 예를 들어, 음향 모델로부터 획득에 특징 벡터에 대해 KL12H, KL12L, KL13H, KL13L KL23H, KL23L이다. FV들 간의 가중치 인자는 SNR 및 FV 타입에 따라 달라진다. 따라서, 정의된 SNR 클래스의 수 및 특징 벡터의 수가 변경되지 않는다면, 가중 절차 또한 변경되지 않는다. 제3 SNR 클래스가 미디엄이라면, 에너지 타입 FV에 대해 최대 값은 0.5로 권장되지만, 이는 애플리케이션에 따라 약간 조정될 수 있다.
한 프레임에 대해 2개보다 많은 특징 벡터들을 갖는 것 또한 가능하다. 최종 가중 FV는, (k1*FVl, k2*FV2, k3*FV3, .., knFVn)의 형태인데, 여기서, kl+k2+k3+.... +kn = l이다. 더 많은 FV를 이용함으로써 고려될 필요가 있는 것은, 상이한 SNR 클래스들에 관한 그 FV들의 거동(behaviour)이다. 따라서, SNR 클래스의 수는 FV의 선택에 영향을 줄 수 있다. 한 클래스에 대해 하나의 FV가 이상적일 수 있다. 그러나, 현재 음성 활성도 검출 분야에서 이와 같이 미세한 분류는 존재하지 않는다.
본 발명은, 전체가 하드웨어로 구성된 실시예, 전체가 소프트웨어로 구성된 실시예, 또는 하드웨어와 소프트웨어 요소를 모두 포함하는 실시예의 형태를 취할 수 있다. 바람직한 일 실시예에서, 본 발명은 펌웨어, 상주 소프트웨어, 마이크로코드 등을 포함하는 소프트웨어로 구현되지만, 이에 한정되는 것은 아니다.
또한, 본 발명은, 컴퓨터 또는 임의의 명령어 실행 시스템에 의해 또는 이들과 함께 사용되기 위해 프로그램 코드를 제공하는 컴퓨터 이용 가능한 매체 또는 컴퓨터 판독 가능한 매체로부터 액세스 가능한 컴퓨터 프로그램 제품의 형태를 취할 수 있다. 이를 목적으로, 컴퓨터 이용 가능한 매체 또는 컴퓨터 판독 가능한 매체는, 명령어 실행 시스템, 장치, 또는 디바이스에 의해 또는 이들과 함께 사용되기 위해 프로그램을 포함, 저장, 전달, 전파, 또는 운송할 수 있는 임의의 장치일 수 있다.
매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템 (또는 장치 또는 디바이스) 또는 전파 매체일 수 있다. 컴퓨터 판독 가능한 매체의 예들은 반도체 또는 고체 상태 메모리, 자기 테이프, 탈착 가능한 컴퓨터 디스켓, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 강성 자기 디스크, 및 광 디스크를 포함한다. 광 디스크의 현재의 예들은 콤팩트 디스크-판독 전용 메모리(CD-ROM), 콤팩트 디스크-판독/기록 (CD-R/W) 및 DVD를 포함한다.
프로그램 코드를 저장 및/또는 실행하는데 적합한 데이터 처리 시스템은 시스템 버스를 통해 메모리 소자에 직접적으로 또는 간접적으로 결합된 적어도 하나의 프로세서를 포함할 것이다. 메모리 소자는, 프로그램 코드의 실제 실행 동안에 이용되는 로컬 메모리, 벌크 저장장치, 및 실행 동안 코드가 벌크 저장장치로부터 검색되어야하는 횟수를 감소시키기 위하여 적어도 일부의 프로그램 코드를 임시로 저장하는 캐시 메모리를 포함할 수 있다.
(키보드, 디스플레이, 포인팅 장치 등을 포함하지만 이들로 한정되는 것은 아닌) 입/출력 또는 I/O 장치는, 직접적으로 또는 개재하는 I/O 제어기를 통해 시스템에 결합될 수 있다. 데이터 처리 시스템이, 다른 데이터 처리 시스템, 또는 개재하는 사유 또는 공유 네트워크를 통해 원격 프린터 또는 저장 장치에 결합되는 것이 가능하도록, 네트워크 어뎁터가 또한 시스템에 결합될 수 있다. 모뎀, 케이블 모뎀, 및 이더넷 카드는 일부의 현재 이용 가능한 타입의 네트워크 어뎁터일 뿐이다.
본 발명의 실시예들이, 동적 가중치 계수에 대한 값이 각 프레임마다 업데이트된다는 가정하에 논의되었지만, 이는 필수적인 것은 아니라는 것을 이해해야 한다. 예컨대 모든 3번째 프레임마다 가중치 인자에 대한 값을 결정하는 것이 가능하다. 첨부한 청구범위에서 "프레임 세트"는 반드시, 엄격히 서로에 후속하는 프레임의 세트를 언급할 필요는 없다. 클래스를 정확하게 분리하면서도, 하나보다 많은 프레임에 대해 가중처리가 행해질 수 있다. 가중치 인사 값들을 낮은 빈도수로 업데이트하는 것은, 음성 활성도 검출의 정확도를 감소시킬 수 있지만, 애플리케이션에 따라, 정확도는 여전히 충분할 수 있다.
상기 설명에서, 입력 신호와 연관된 환경을 반영하는 품질 인자로서 신호 대 잡음비가 이용되었지만, 다른 품질 인자들이 추가로 또는 대안으로서 적용 가능할 수 있다는 것이 이해되어야 한다.
본 설명은 명시적으로, 본 명세서에서 논의된 다양한 특징들의 일부 조합을 기술한 것이다. 본 설명을 연구하는 당업자들에게는 다양한 다른 조합들도 명백할 것이라는 것을 이해해야 한다.
첨부한 청구범위에서, 컴퓨터 처리 방법은, 하나 이상의 프로세서, 메모리 수단, 및 저장 수단의 적합한 조합을 포함하는 컴퓨팅 시스템에 의해 수행되는 단계들을 갖는 방법을 언급한다.
상술한 내용들은 본 발명의 특정 실시예들을 참조하여 기술되었지만, 당업자들은 이러한 실시예들의 변경이 본 발명의 원리 및 정신을 벗어나지 않고도 행해질 수 있다는 것을 이해할 것이며, 본 발명의 범위는 첨부한 청구범위에 의해 정의된다.

Claims (10)

  1. 적어도 2개의 이벤트 클래스를 구분하기(discriminate) 위한 컴퓨터 처리 방법에 있어서,
    입력 신호를 포함하는 한 세트의 프레임을 수신하는 단계,
    상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델(acoustic model)에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,
    상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 각각의 선행 분류자(preclassifier) 세트를 이용하여 상기 적어도 2개의 상이한 특징 벡터들을 분류하는 단계,
    상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자(weighting factor)에 대한 값을 결정하는 단계,
    상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터(combined feature vector)를 계산하는 단계, 및
    상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계
    를 포함하는 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
  2. 제1항에 있어서, 상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계는,
    상기 선행 분류자 세트 각각의 출력들 간의 적어도 하나의 거리를 결정하는 단계, 및
    상기 적어도 하나의 거리에 기초하여 상기 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계
    를 포함하는 것인, 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
  3. 제2항에 있어서,
    상기 적어도 하나의 거리를 적어도 하나의 미리 정의된 문턱값과 비교하는 단계, 및
    상기 비교에 의존하는 식(formula)을 이용하여 상기 적어도 하나의 가중치 인자에 대한 값을 계산하는 단계
    를 포함하는 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
  4. 제1항에 있어서, 상기 제1 특징 벡터는 상이한 주파수대의 에너지에 기초하고, 상기 제2 특징 벡터에 대한 음향 모델은 단일 언어의(monolingual) 음향 모델과 다중 언어의(multilingual) 음향 모델 중 하나인 것인, 이벤트 클래스를 구분하기 위한 컴퓨터 처리 방법.
  5. 음성 활성도 검출(voice activity detection) 시스템을 트레이닝하기 위한 컴퓨터 처리 방법에 있어서,
    트레이닝 신호를 포함하는 한 세트의 프레임을 수신하는 단계,
    상기 프레임 각각에 대해 품질 인자를 결정하는 단계,
    상기 트레이닝 신호의 콘텐츠에 기초하여, 상기 프레임을 적어도 2개의 이벤트 클래스로 라벨링하는 단계,
    상기 프레임 각각에 대해 적어도 2개의 상이한 특징 벡터들을 결정하는 단계로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하는 단계,
    상기 적어도 2개의 이벤트 클래스에 대해 상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위한 각각의 선행 분류자 세트를 트레이닝하는 단계,
    상기 선행 분류자 세트의 출력에 기초하여 상기 프레임 각각에 대해 적어도 하나의 가중치 인자에 대한 값을 결정하는 단계,
    상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터를 계산하는 단계, 및
    상기 결합된 특징 벡터를 상기 적어도 2개의 이벤트 클래스로 분류하기 위해 한 세트의 분류자를 이용하여 상기 결합된 특징 벡터를 분류하는 단계
    를 포함하는 음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법.
  6. 제5항에 있어서,
    상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대한 문턱값을 결정하는 단계를 포함하는 음성 활성도 검출 시스템을 트레이닝하기 위한 컴퓨터 처리 방법.
  7. 적어도 2개의 이벤트 클래스를 구분하기 위한 음성 활성도 검출 시스템에 있어서,
    입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 특징 벡터 유닛으로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 특징 벡터 유닛,
    상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,
    상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 가중치 인자 값 계산기,
    상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 결합된 특징 벡터 계산기, 및
    상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자
    를 포함하는 음성 활성도 검출 시스템.
  8. 적어도 2개의 이벤트 클래스를 구분하기 위한 음성 활성도 검출 시스템에 있어서,
    입력 신호를 포함하는 한 세트의 프레임의 각각의 프레임에 대해 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 수단으로서, 상기 적어도 2개의 상이한 특징 벡터들 중 제1 특징 벡터는 에너지 기반의 특징 벡터이고, 제2 특징 벡터는 음향 모델에 기초하는 것인, 상기 적어도 2개의 상이한 특징 벡터들을 결정하기 위한 수단,
    상기 적어도 2개의 상이한 특징 벡터들을 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 선행 분류자 세트,
    상기 프레임 각각에 대해 상기 선행 분류자 세트의 출력에 기초하여 적어도 하나의 가중치 인자에 대한 값을 결정하기 위한 수단,
    상기 적어도 2개의 상이한 특징 벡터들에 상기 적어도 하나의 가중치 인자를 적용함으로써 상기 프레임 각각에 대해, 결합된 특징 벡터에 대한 값을 계산하기 위한 수단, 및
    상기 결합된 특징 벡터를 분류하기 위해 상기 적어도 2개의 이벤트 클래스에 대해 트레이닝된 한 세트의 분류자
    를 포함하는 음성 활성도 검출 시스템.
  9. 제7항 또는 제8항에 있어서,
    상기 적어도 하나의 가중치 인자에 대한 값을 결정하기 위해 상기 선행 분류자 세트의 출력들 간의 거리에 대한 문턱값을 포함하는 음성 활성도 검출 시스템.
  10. 데이터 처리 시스템 상에서 실행될 때, 상기 데이터 처리 시스템으로 하여금 제1항 내지 제6항 중 어느 한 항의 방법의 단계들을 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020097009548A 2006-11-16 2007-10-26 음성 활성도 검출 시스템 및 방법 KR101054704B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06124228 2006-11-16
EP06124228.5 2006-11-16
PCT/EP2007/061534 WO2008058842A1 (en) 2006-11-16 2007-10-26 Voice activity detection system and method

Publications (2)

Publication Number Publication Date
KR20090083367A KR20090083367A (ko) 2009-08-03
KR101054704B1 true KR101054704B1 (ko) 2011-08-08

Family

ID=38857912

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097009548A KR101054704B1 (ko) 2006-11-16 2007-10-26 음성 활성도 검출 시스템 및 방법

Country Status (9)

Country Link
US (2) US8311813B2 (ko)
EP (1) EP2089877B1 (ko)
JP (1) JP4568371B2 (ko)
KR (1) KR101054704B1 (ko)
CN (1) CN101548313B (ko)
AT (1) ATE463820T1 (ko)
CA (1) CA2663568C (ko)
DE (1) DE602007005833D1 (ko)
WO (1) WO2008058842A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010103333A (ko) * 2000-05-09 2001-11-23 류영선 즉석두부용 분말 제조방법
KR102318642B1 (ko) * 2021-04-16 2021-10-28 (주)엠제이티 음성 분석 결과를 이용하는 온라인 플랫폼

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection
US8938389B2 (en) * 2008-12-17 2015-01-20 Nec Corporation Voice activity detector, voice activity detection program, and parameter adjusting method
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
JP5334142B2 (ja) * 2009-07-21 2013-11-06 独立行政法人産業技術総合研究所 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
WO2011044848A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 信号处理的方法、装置和系统
JP2013508773A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声エンコーダの方法およびボイス活動検出器
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
EP2561508A1 (en) 2010-04-22 2013-02-27 Qualcomm Incorporated Voice activity detection
US8762144B2 (en) * 2010-07-21 2014-06-24 Samsung Electronics Co., Ltd. Method and apparatus for voice activity detection
CN102446506B (zh) * 2010-10-11 2013-06-05 华为技术有限公司 音频信号的分类识别方法及装置
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
EP2494545A4 (en) * 2010-12-24 2012-11-21 Huawei Tech Co Ltd METHOD AND DEVICE FOR DETECTING LANGUAGE ACTIVITIES
SI3493205T1 (sl) * 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
CN102097095A (zh) * 2010-12-28 2011-06-15 天津市亚安科技电子有限公司 一种语音端点检测方法及装置
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US10381001B2 (en) 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10373615B2 (en) 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US9570087B2 (en) * 2013-03-15 2017-02-14 Broadcom Corporation Single channel suppression of interfering sources
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
US9997172B2 (en) * 2013-12-02 2018-06-12 Nuance Communications, Inc. Voice activity detection (VAD) for a coded speech bitstream without decoding
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
EP2945303A1 (en) 2014-05-16 2015-11-18 Thomson Licensing Method and apparatus for selecting or removing audio component types
WO2016039751A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
US9324320B1 (en) * 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
CN105529038A (zh) * 2014-10-21 2016-04-27 阿里巴巴集团控股有限公司 对用户语音信号进行处理的方法及其系统
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US10515301B2 (en) 2015-04-17 2019-12-24 Microsoft Technology Licensing, Llc Small-footprint deep neural network
CN104980211B (zh) * 2015-06-29 2017-12-12 北京航天易联科技发展有限公司 一种信号处理方法和装置
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10339921B2 (en) 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection
US10347271B2 (en) * 2015-12-04 2019-07-09 Synaptics Incorporated Semi-supervised system for multichannel source enhancement through configurable unsupervised adaptive transformations and supervised deep neural network
US9959887B2 (en) 2016-03-08 2018-05-01 International Business Machines Corporation Multi-pass speech activity detection strategy to improve automatic speech recognition
US10490209B2 (en) * 2016-05-02 2019-11-26 Google Llc Automatic determination of timing windows for speech captions in an audio stream
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
WO2018118744A1 (en) * 2016-12-19 2018-06-28 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
CN106782529B (zh) * 2016-12-23 2020-03-10 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
US10810995B2 (en) * 2017-04-27 2020-10-20 Marchex, Inc. Automatic speech recognition (ASR) model training
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
US10403303B1 (en) * 2017-11-02 2019-09-03 Gopro, Inc. Systems and methods for identifying speech based on cepstral coefficients and support vector machines
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN109065027B (zh) * 2018-06-04 2023-05-02 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
US20210264939A1 (en) * 2018-06-21 2021-08-26 Nec Corporation Attribute identifying device, attribute identifying method, and program storage medium
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
US20200074997A1 (en) * 2018-08-31 2020-03-05 CloudMinds Technology, Inc. Method and system for detecting voice activity in noisy conditions
CN111199733A (zh) * 2018-11-19 2020-05-26 珠海全志科技股份有限公司 多级识别语音唤醒方法及装置、计算机存储介质及设备
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN109754823A (zh) * 2019-02-26 2019-05-14 维沃移动通信有限公司 一种语音活动检测方法、移动终端
US12014728B2 (en) * 2019-03-25 2024-06-18 Microsoft Technology Licensing, Llc Dynamic combination of acoustic model states
CN110349597B (zh) * 2019-07-03 2021-06-25 山东师范大学 一种语音检测方法及装置
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
US11270720B2 (en) * 2019-12-30 2022-03-08 Texas Instruments Incorporated Background noise estimation and voice activity detection system
CN112420022B (zh) * 2020-10-21 2024-05-10 浙江同花顺智能科技有限公司 一种噪声提取方法、装置、设备和存储介质
CN112509598B (zh) * 2020-11-20 2024-06-18 北京小米松果电子有限公司 音频检测方法及装置、存储介质
CN112466056B (zh) * 2020-12-01 2022-04-05 上海旷日网络科技有限公司 一种基于语音识别的自助柜取件系统及方法
CN112820324B (zh) * 2020-12-31 2024-06-25 平安科技(深圳)有限公司 多标签语音活动检测方法、装置及存储介质
KR102637025B1 (ko) * 2021-03-26 2024-02-16 구글 엘엘씨 자동 음성 인식을 위한 다언어 리스코어링 모델들
US12022016B2 (en) * 2022-04-07 2024-06-25 Bank Of America Corporation System and method for managing exception request blocks in a blockchain network

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
US6314396B1 (en) 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6615170B1 (en) * 2000-03-07 2003-09-02 International Business Machines Corporation Model-based voice activity detection system and method using a log-likelihood ratio and pitch
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
JP3721948B2 (ja) * 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
FI20045315A (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US20070036342A1 (en) * 2005-08-05 2007-02-15 Boillot Marc A Method and system for operation of a voice activity detector
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
US20080300875A1 (en) * 2007-06-04 2008-12-04 Texas Instruments Incorporated Efficient Speech Recognition with Cluster Methods
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
US8131543B1 (en) * 2008-04-14 2012-03-06 Google Inc. Speech detection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Pascal et al., 'Comparing models for audiovisual fusion in a noisy vowel recognition task', IEEE Trans. on Speech and Audio Processing, Vol.7, No.6, November 1999

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010103333A (ko) * 2000-05-09 2001-11-23 류영선 즉석두부용 분말 제조방법
KR102318642B1 (ko) * 2021-04-16 2021-10-28 (주)엠제이티 음성 분석 결과를 이용하는 온라인 플랫폼

Also Published As

Publication number Publication date
US8554560B2 (en) 2013-10-08
CN101548313A (zh) 2009-09-30
KR20090083367A (ko) 2009-08-03
ATE463820T1 (de) 2010-04-15
JP4568371B2 (ja) 2010-10-27
CA2663568A1 (en) 2008-05-22
WO2008058842A1 (en) 2008-05-22
US20120330656A1 (en) 2012-12-27
JP2010510534A (ja) 2010-04-02
US8311813B2 (en) 2012-11-13
CA2663568C (en) 2016-01-05
US20100057453A1 (en) 2010-03-04
DE602007005833D1 (de) 2010-05-20
EP2089877B1 (en) 2010-04-07
EP2089877A1 (en) 2009-08-19
CN101548313B (zh) 2011-07-13

Similar Documents

Publication Publication Date Title
KR101054704B1 (ko) 음성 활성도 검출 시스템 및 방법
US6615170B1 (en) Model-based voice activity detection system and method using a log-likelihood ratio and pitch
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US6078884A (en) Pattern recognition
US20080300875A1 (en) Efficient Speech Recognition with Cluster Methods
Novoa et al. Uncertainty weighting and propagation in DNN–HMM-based speech recognition
Chowdhury et al. Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
Liao et al. Uncertainty decoding for noise robust speech recognition
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
Ghahabi et al. A robust voice activity detection for real-time automatic speech recognition
Deligne et al. A robust high accuracy speech recognition system for mobile applications
Siniscalchi et al. A study on lattice rescoring with knowledge scores for automatic speech recognition.
US20210225366A1 (en) Speech recognition system with fine-grained decoding
Odriozola et al. An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods
Sarikaya Robust and efficient techniques for speech recognition in noise
Skorik et al. On a cepstrum-based speech detector robust to white noise
Akbacak et al. Environmental sniffing: robust digit recognition for an in-vehicle environment.
Sahu et al. An overview: context-dependent acoustic modeling for LVCSR
Kosaka et al. Lecture speech recognition using discrete‐mixture HMMs
WO2002001549A1 (en) Speaker adaptation using weighted feedback
Fukuda et al. Combining feature space discriminative training with long-term spectro-temporal features for noise-robust speech recognition
Zeng et al. Robust children and adults speech classification
Nattanun et al. SIMULATED-DATA ADAPTATION BASED PIECEWISE LINEAR TRANSFORMATION FOR ROBUST SPEECH RECOGNITION
Pohjalainen A new HMM-based approach to broad phonetic classification of speech.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140725

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee