KR100719650B1 - 잡음 신호에서 음성의 엔드포인팅 방법 - Google Patents

잡음 신호에서 음성의 엔드포인팅 방법 Download PDF

Info

Publication number
KR100719650B1
KR100719650B1 KR1020017009971A KR20017009971A KR100719650B1 KR 100719650 B1 KR100719650 B1 KR 100719650B1 KR 1020017009971 A KR1020017009971 A KR 1020017009971A KR 20017009971 A KR20017009971 A KR 20017009971A KR 100719650 B1 KR100719650 B1 KR 100719650B1
Authority
KR
South Korea
Prior art keywords
utterance
threshold
frame
end point
speech
Prior art date
Application number
KR1020017009971A
Other languages
English (en)
Other versions
KR20010093334A (ko
Inventor
닝 바이.
치엔충 장
앤드류 피. 데자코
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20010093334A publication Critical patent/KR20010093334A/ko
Application granted granted Critical
Publication of KR100719650B1 publication Critical patent/KR100719650B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

잡음의 존재시에 정확한 음성의 엔드포인팅 장치는 처리기 및 소프트웨어 모듈을 포함한다. 상기 처리기는 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 신호 대 잡음비(SNR) 임계값과 상기 발성을 비교하기 위해 소프트웨어 모듈의 명령들을 실행한다. 상기 처리기는 그후에 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 SNR 임계값을 미교한다. 상기 처리기는 또한 그후에 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트에 뒤따르는 발성의 일부와 제 2 SNR 임계값을 비교한다. 상기 제 1 및 제 2 SNR 임계값은 SNR 조건들을 반영하기 위해 주기적으로 재계산된다. 상기 제 1 SNR 임계값은 유용하게는 상기 제 2 SNR 임계값을 초과한다.

Description

잡음 신호에서 음성의 엔드포인팅 방법{ENDPOINTING OF SPEECH IN A NOISY SIGNAL}
본 발명은 일반적으로 통신 분야에 관한 것이며, 더 구체적으로 잡음이 있는 상황에서 음성의 엔드포인팅에 관한 것이다.
음성 인식(VR)은 사용자 또는 사용자 음성 명령을 인식하기 위한 시뮬레이팅된 지능을 기계에 부여하고 인간이 기계와 인터페이싱하기 용이하게 하도록 하는 가장 중요한 기술 중 하나를 나타낸다. VR은 또한 인간 음성 이해를 위한 핵심 기술을 나타낸다. 음향 음성 신호로부터의 언어 메세지를 복구하기 위한 기술들을 사용하는 시스템은 음성 인식기라 지칭된다. 음성 인식기는 일반적으로 들어오는 원래의(raw) 음성의 VR을 달성하는데 필요한 정보-관련 특징(feature) 또는 벡터의 시퀀스를 추출하는 음향 처리기, 및 입력되는 발성(utterance)에 대응하는 언어적인 단어들의 시퀀스와 같은 의미있고 원하는 출력 포맷을 산출하기 위해 상기 특징 또는 벡터의 시퀀스를 디코딩하는 워드 디코더를 포함한다. 주어진 시스템의 성능을 배가하기 위해서는 상기 시스템이 유용한 파라미터들을 갖추도록 하는 트레이닝이 요구된다. 즉, 상기 시스템은 최적으로 기능할 수 있기 전에 학습을 필요로 한다.
음향 처리기는 음성 인식기의 전단(front-end) 음성 분석 서브시스템을 나타낸다. 입력 음성 신호에 응답하여, 음향 처리기는 시변 음성 신호를 특성화하기 위해 적절한 표현을 제공한다. 음향 처리기는 배경 잡음, 채널 왜곡, 스피커 특성 및 말하는 방식과 같은 관계없는 정보를 버려야 한다. 효율적인 음향 처리는 강화된 음향 구별 능력을 갖는 음성 인식기를 갖춘다. 이를 위해서, 분석되는 유용한 특성은 단시간 분광 포락선이다. 단시간 분광 포락선을 특성화하는 두 가지의 일반적으로 사용되는 분광 분석 기술은 선형 예측 코딩(LPC) 및 필터뱅크 기반 분광 모델링이다. 전형적인 LPC 기술은 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 No. 5,414,796 및 역시 여기서 참조로 통합되는 L.B. Rabiner & R.W. Schafer, "음성 신호의 디지털 처리(396-453면)(1978)"에 기술되어 있다.
VR(일반적으로 음성 인식으로 지칭됨)의 사용은 보안상의 이유로 점점 중요해지고 있다. 예를 들어, VR은 무선 전화 키패드상의 버튼을 누르는 수동 작업을 대체하는데 사용될 수 있다. 이것은 특히 사용자가 차를 운전하면서 전화 호출을 개시할 때 중요하다. VR없이 전화기를 사용할 때, 운전자는 전화를 다이얼하기 위해 버튼을 누르는 동안 핸들에서 한손을 떼고 전화기 키패드를 주시해야 한다. 이러한 동작들은 자동차 사고를 발생시키기 쉽다. 음성 가능 전화(즉, 음성 인식을 위해 설계된 전화기)는 운전자가 계속해서 도로를 주시하면서 전화 호출을 할 수 있도록 한다. 그리고 핸즈프리 자동차-키트(car-kit) 시스템은 부가적으로 운전자가 호출을 개시하는 동안 핸들상에 양손을 유지하도록 할 수 있다.
음성 인식 디바이스들은 통화자 의존 또는 통화자 독립 디바이스로 분류된다. 통화자 독립 디바이스는 임의의 사용자로부터의 음성 명령도 승인할 수 있다. 더 일반적인 통화자 의존 디바이스는 특정 사용자들로부터의 명령을 인식하도록 트레이닝된다. 통화자 의존 VR 디바이스는 일반적으로 두가지 단계, 즉 트레이닝 단계 및 인식 단계로 동작한다. 트레이닝 단계에서, VR 시스템은 사용자가 시스템의 단어집의 각 단어를 한번 또는 두번 말하도록 해서 상기 시스템이 상기 특정 단어 또는 어구에 대해 사용자 음성의 특성을 습득할 수 있도록 촉진한다. 선택적으로, 음성 VR 디바이스에 대해, 언어의 모든 음소들을 커버하도록 특별하게 각색된 하나 이상의 간단한 기사들을 판독함으로써 트레이닝이 달성된다. 핸즈프리 카킷에 대한 전형적인 단어집은 키패드상의 디지트들을 포함할 수 있다. 키워드는 "호출", "송신", "다이얼", "취소", "클리어", "부가", "삭제", "히스토리", "프로그램", "예", "아니오"이며, 미리 결정된 수의 일반적으로 지칭되는 동료, 친구, 또는 가족의 이름이다. 일단 트레이닝이 완료되면, 사용자는 트레이닝된 키워드를 말함으로써 인식 단계의 호출을 개시할 수 있다. 예를 들어, "존"이란 이름이 트레이닝된 이름의 하나라면, 사용자는 어구 "존을 호출"이라고 말함으로써 존에게 호출을 개시할 수 있다. VR 시스템은 단어 "호출" 및 "존"을 인식할 것이며, 사용자가 이전에 존의 전화 번호로 입력했던 번호를 다이얼링할 것이다.
인식을 위해 음성의 발성을 정확하게 포착하기 위해, 음성 가능 품목들은 일반적으로 발성의 시작 및 종료 포인트를 설정하기 위해 엔트포인트 탐지기를 사용한다. 종래의 VR 디바이스에서, 엔드포인트 탐지기는 발성의 엔드포인트를 결정하기 위해 단일 신호 대 잡음비(SNR) 임계값에 의존한다. 그러한 종래의 VR 디바이스들은 Jean Claude Junqua 등에 의한 "2 IEEE 음성 및 오디오 처리상의 송신, 잡음이 있을때 단어 경계 탐지를 위한 강화된 알고리즘"(1994년 7월) 및 "TIA/EIA 잠정협정 표준 IS-733 2-35에서 2-50"(1998년 3월)에 기술되어 있다. SNR 임계값이 너무 낮게 세팅되면, VR 디바이스는 엔드포인트 탐지기를 트리거링할 수 있는 배경 잡음에 너무 민감하게 되고, 그로인해 인식이 잘못될 수 있게 된다. 반대로, 임계값이 너무 높게 설정되면, VR 디바이스는 발성의 시작 및 엔드포인트에서 약한 자음을 빠뜨리기 쉬워진다. 따라서, 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의, 조절가능한 SNR 임계값을 사용하는 것이 VR 디바이스에 필요하게 된다.
본 발명은 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의 조절가능한 SNR 임계값들을 사용하는 VR 디바이스에 관한 것이다. 따라서, 본 발명의 일 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 프로세서 및 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하고, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트보다 먼저오는 발성의 일부와 제 2 임계값을 비교하고, 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트보다 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하도록 상기 프로세서에 의해 실행가능한 소프트웨어 모듈을 포함한다.
본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 방법은 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 발성을 비교하는 단계, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하는 단계 및 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트보다 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함한다.
본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 발성을 비교하는 수단, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트보다 먼저오는 발성의 일부와 제 2 임계값을 비교하는 수단 및 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트보다 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함한다.
도 1은 음성 인식 시스템의 블록선도이다.
도 2는 발성의 엔드포인트를 탐지하기 위해 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법의 단계들을 도시하는 흐름도이다.
도 3은 발성의 신호 증폭 및 여러 주파수 대역에 대해 시간에 대한 제 1 및 제 2 조절가능 SNR 임계값의 그래프이다.
도 4는 순간적인 SNR과 조절가능한 SNR 임계값을 비교하도록 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법 단계를 도시하는 흐름도이다.
도 5는 무선 전화기의 음성 엔드포인트 탐지기에 대한 순간적인 신호-대-잡음비 (dB) 대 신호-대-잡음 추정치(dB)의 그래프이다.
도 6은 핸즈프리 카킷의 음성 엔드포인트 탐지기에 대한 순간적인 신호-대-잡음비(dB) 대 신호-대-잡음 추정치(dB)의 그래프이다.
도 1에 도시된 본 발명의 일 실시예에 따라, 음성 인식 시스템(10)은 아날로그 대 디지털 변환기(A/D)(12), 음향 처리기(14), VR 템플릿 데이터베이스(16), 패턴 비교 로직(18) 및 결정 로직(20)을 포함한다. 음향 처리기(14)는 엔드포인트 탐지기(22)를 포함한다. VR 시스템(10)은 예를 들어, 무선 전화기 또는 핸즈프리 카킷에 내장될 수 있다.
VR 시스템(10)이 음성 인식 단계에 있을때, 사람(도시되지 않음)이 단어나 어구를 말하여 음성 신호를 생성한다. 상기 음성 신호는 종래의 변환기(또한 도시되지 않음)에 의해 전기적 음성 신호 s(t)로 변환된다. 음성 신호 s(t)는 예를 들어, 펄스 코딩 변조(PCM)와 같은 공지된 샘플링 방법에 따라 음성 신호 s(t)를 디지털화된 음성 샘플 s(n)로 변환하는 A/D(12)에 제공된다.
음성 샘플 s(n)은 파라미터 결정을 위해 음향 처리기(14)에 제공된다. 음향 처리기(14)는 입력 음성 신호 s(t)의 특성들을 모델링하는 파라미터들의 세트를 생성한다. 상기 파라미터들은 예를 들어, 상기에 언급된 미국 특허 No. 5,414,796에 기술된 바와 같이 고속 퓨리에 변환(FFT)-기반 셉스트럼(cepstrum) 계수들을 엔코딩하여 사용하는 음성 코더를 포함해서 다수의 공지된 음성 파라미터 결정 기술들 중 임의의 기술에 따라 결정될 수 있다. 음향 처리기(14)는 디지털 신호 처리기(DSP)로서 형성될 수 있다. DSP는 음성 코더를 포함할 수 있다. 선택적으로, 음향 처리기(14)는 음성 코더로서 형성될 수 있다.
파라미터 결정은 또한 VR 시스템(10)의 트레이닝동안 수행되고, VR 시스템 (10)의 모든 단어집 단어들에 대한 템플릿 세트는 영구 저장을 위해 VR 템플릿 데이터베이스(16)에 라우팅된다. VR 템플릿 데이터베이스(16)는 유용하게는 예를 들어, 플래시 메모리와 같은 임의의 종래 형태의 비휘발성 저장 매체로서 형성된다. 이것은 VR 시스템(10)에 대한 전력이 턴 오프될 때 템플릿들이 VR 템플릿 데이터베이스(16)에 남아있도록 한다.
파라미터들 세트는 패턴 비교 로직(18)에 제공된다. 패턴 비교 로직(18)은 유용하게는 발성의 시작 및 종료 포인트를 탐지하고, 동적인 음향 특징(예를 들어, 시간 도함수, 제 2 시간 도함수 등과 같은)를 계산하고, 관련 프레임들을 선택함으로써 음향 특징들을 압축하며 고정 및 동적인 음향 특징들을 양자화한다. 엔드포인트 탐지, 동적인 음향 특징 유도, 패턴 압축 및 패턴 양자화의 다양한 공지된 방법들은 여기서 참조로 통합되는 Lawrence Rabiner & Biing-Hwang Juang의 "음성 인식의 기초(1993)"에 기술되어 있다. 패턴 비교 로직(18)은 파라미터들 세트와 VR 템플릿 데이터베이스(16)에 저장된 모든 템플릿들을 비교한다. 파라미터들의 세트와 VR 템플릿 데이터베이스(16)에 저장된 모든 템플릿간의 비교 결과 또는 거리는 결정 로직(20)에 제공된다. 결정 로직(20)은 파라미터들 세트와 가장 가깝게 매칭하는 템플릿을 VR 템플릿 데이터베이스(16)로부터 선택한다. 선택적으로, 결정 로직(20)은 미리 정의된 매칭 임계값내에서 N번째로 가장 가까운 매치들을 선택하는 종래의 "N 최상" 선택 알고리즘을 사용할 수 있다. 사람은 그후에 어느 선택을 원하는지를 문의받는다. 결정 로직(20)의 출력은 단어집의 어느 단어가 말해졌는지에 대한 결정이다.
패턴 비교 로직(18) 및 결정 로직(20)은 유용하게는 마이크로프로세서로 형성될 수 있다. VR 시스템(10)은 예를 들어, 응용 주문형 집적 회로(ASIC)일 수 있다. VR 시스템(10)의 인식 정확도는 VR 시스템(10)이 얼마나 정확하게 단어집의 말해진 단어 또는 어구들을 인식하는지의 측정치이다. 예를 들어, 95%의 인식 정확도는 VR 시스템(10)이 100번 중에 95번 단어집의 단어들을 정확하게 인식한다는 것을 나타낸다.
음향 처리기(14)내의 엔드포인트 탐지기(22)는 음성의 각 발성의 시작 포인트 및 종료 포인트에 속하는 파라미터들을 결정한다. 엔드포인트 탐지기(22)는 음성 트레이닝 어구의 음성 템플릿으로 사용되거나 또는 음성 인식 단계에서 최상의 매칭을 찾기 위해 음성 템플릿들과 비교되는 유효한 발성을 포착하는 역할을 한다. 엔드포인트 탐지기(22)는 배경 잡음이 있을시의 VR 시스템(10)의 오류를 감소시키며, 그로인해 예를 들어, 무선 전화기의 음성 다이얼 및 음성 제어와 같은 기능들의 강화를 배가시킨다. 도 2를 참조하여 하기에 상세히 기술되는 바와 같이, 두개의 조절가능한 신호 대 잡음비 임계값들이 유효 발성을 포착하기 위해 엔드포인트 탐지기(22)에서 형성된다. 제 1 임계값은 제 2 임계값보다 더 높다. 제 1 임계값은 발성의 상대적으로 강한 음성 세그먼트를 포착하는데 사용되고, 제 2 임계값은 예를 들어 자음과 같이 발성의 상대적으로 약한 세그먼트들을 찾는데 사용된다. 두개의 조절가능한 SNR 임계값은 VR 시스템(10)이 잡음에 강하도록 또는 어떤 음성 세그먼트에도 민감하도록 적절하게 조절될 수 있다.
일 실시예에서, 제 2 임계값은 앞서 언급된 미국 특허 No. 5,414,796에 기술된 보코더와 같은 13 kbps 보코더의 1/2-레이트 임계값이고, 제 1 임계값은 13 kbps 보코더의 최대-레이트보다 4 내지 10 dB 더 크다. 임계값들은 유용하게는 매 10 또는 20 밀리세컨즈마다 평가될 수 있는 배경 SNR에 대해 조절가능하다. 배경 잡음(즉, 도로 잡음)은 자동차 내부에서 변하기 때문에 상기의 것이 바람직하다. 일 실시예에서 VR 시스템(10)은 무선 전화기 핸드셋의 보코더에 내장되며, 엔드포인트 탐지기(22)는 두개의 주파수 대역, 0.3-2 kHz 및 2-4 kHz에서 SNR을 계산한다. 또 다른 실시예에서, VR 시스템(10)은 핸즈프리 카 킷에 내장되고 엔드포인트 탐지기(22)는 세개의 주파수 대역, 0.3-2 kHz, 2-3 kHz 및 3-4 kHz에서 SNR을 계산한다.
일 실시예에 따라, 엔드포인트 탐지기는 발성의 엔드포인트를 탐지하기 위해 도 2의 흐름도에 도시된 방법 단계들을 수행한다. 도 2에 기술된 알고리즘 단계들은 유용하게는 종래의 디지털 신호 처리 기술들로 구현될 수 있다.
단계(100)에서 데이터 버퍼 및 GAP으로 지칭되는 파라미터가 비워진다. LENGTH로 표시된 파라미터는 HEADER_LENGTH로 지칭되는 파라미터와 동일하게 세팅된다. LENGTH라 지칭되는 파라미터는 엔드포인트가 탐지되는 발성의 길이를 추적한다. 여러 파라미터들이 유용하게 엔드포인트 탐지기의 레지스터에 저장될 수 있다. 데이터 버퍼는 아무도 대화하지 않는 경우에 메모리 공간을 절약하는 원형 버퍼일 수 있다. 엔드포인트 탐지기를 포함하는 음향 처리기(도시되지 않음)는 발성당 고정된 수의 프레임들에서 실시간의 음성 발성을 처리한다. 일 실시예에서 프레임당 10밀리세컨즈가 존재한다. 엔드포인트 탐지기는 시작 포인트로부터 특정 수의 음성 프레임들을 "재검토"해야 하는데 이것은 음향 처리기(도시되지 않음)가 실시간 처리를 수행하기 때문이다. HEADER의 길이는 시작 포인트로부터 재검토할 프레임들이 얼마나 많은지를 결정한다. HEADER의 길이는 예를 들어 10에서 20 프레임일 수 있다. 단계(100)를 완료한 후에, 알고리즘은 단계(102)로 진행한다.
단계(102)에서 음성 데이터의 프레임은 로딩되고 SNR 평가는 도 4를 참조하여 하기에 기술된 바와 같이 업데이팅되거나, 재계산된다. 따라서, SNR 평가는 SNR 조건을 변경하는데 적합하도록 매 프레임당 업데이팅된다. 제 1 및 제 2 SNR 임계값은 도 4-6을 참조하여 하기에 기술된대로 계산된다. 제 1 SNR 임계값은 제 2 SNR 임계값보다 높다. 단계(102)를 완료한후에, 알고리즘은 단계(104)로 진행한다.
단계(104)에서 현재 또는 순간적인 SNR은 제 1 SNR 임계값과 비교된다. 미리 정의된 수 N의 연속 프레임들의 SNR이 제 1 SNR 임계값보다 크면, 알고리즘은 단계 (106)로 진행한다. 반면에, N개의 연속 프레임들의 SNR이 제 1 임계값보다 크지 않으면, 알고리즘은 단계(108)로 진행한다. 단계(108)에서 알고리즘은 HEADER에 포함된 프레임들로 데이터 버퍼를 업데이팅한다. 알고리즘은 그후에 단계(104)로 복귀한다. 일 실시예에서 N의 수는 3이다. 세개의 연속 프레임들과의 비교는 목적물들을 평균시키기 위해 이루어진다. 예를 들어, 하나의 프레임만이 사용되면, 상기 프레임은 잡음 피크를 포함할 수 있다. 그 결과적인 SNR은 세개의 연속 프레임에 걸쳐서 평균된 SNR의 표시가 아닐 것이다.
단계(106)에서 다음 음성 데이터 프레임이 로딩되고 SNR 평가가 업데이팅된다. 알고리즘은 그후에 단계(110)로 진행한다. 단계(110)에서 현재 SNR은 발성의 엔드포인트를 결정하기 위해 제 1 SNR 임계값과 비교된다. SNR이 제 1 SNR 임계값보다 작으면, 알고리즘은 단계(112)로 진행한다. 반면에, SNR이 제 1 SNR 임계값보다 작지 않으면, 알고리즘은 단계(114)로 진행한다. 단계(114)에서 파라미터 GAP은 비워지고 파라미터 LENGTH는 1만큼 증가한다. 알고리즘은 그후에 단계(106)로 복귀한다.
단계(112)에서 파라미터 GAP은 1만큼 증가된다. 상기 알고리즘은 그후에 단계(116)로 진행한다. 단계(116)에서 파라미터 GAP은 GAP_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_THRESHOLD는 대화하는 동안의 단어간의 갭을 표시한다. 파라미터 GAP_THRESHOLD는 유용하게는 200에서 400 밀리세컨즈로 세팅될 수 있다. GAP이 GAP_THRESHOLD보다 크면, 알고리즘은 단계(118)로 진행한다. 또한 단계(116)에서, 파라미터 LENGTH는 단계(154)와 연관하여 하기에 기술되는 MAX_LENGTH로 지칭되는 파라미터와 비교된다. LENGTH가 MAX_LENGTH보다 크거나 또는 같으면, 알고리즘은 단계(118)로 진행한다. 그러나, 단계(116)에서 GAP이 GAP_THRESHOLD보다 크지 않으면, 그리고 LENGTH가 MAX_LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(120)로 진행한다. 단계(120)에서 파라미터 LENGTH는 1만큼 증가된다. 알고리즘은 그후에 그 다음 음성 데이터 프레임을 로딩하도록 단계(106)로 복귀한다.
단계(118)에서 알고리즘은 발성의 시작 포인트에 대한 재검색을 시작한다. 상기 알고리즘은 유용하게는 20개 프레임을 바람직하게 포함할 수 있는 HEADER에 저장된 프레임들을 재검색한다. PRE_START로 지칭되는 파라미터는 HEADER와 동일하게 세팅된다. 상기 알고리즘은 또한 상기 발성의 엔드포인트를 탐색하고, LENGTH와 GAP의 차와 동일한 PRE_END로 지칭되는 파라미터를 세팅하기 시작한다. 상기 알고리즘은 그후에 단계(122, 124)로 진행한다.
단계(122)에서 포인터 i는 PRE_START 에서 1을 뺀값과 동일하게 세팅되고, GAP_START로 지칭되는 파라미터는 비워진다(즉, GAP_START는 0으로 세팅된다). 포인터 i는 발성의 시작 포인트를 표시한다. 상기 알고리즘은 그후에 단계(126)로 진행한다. 유사하게, 단계(124)에서 포인터 j는 PRE_END와 같은 값으로 세팅되고, GAP_END로 지칭되는 파라미터는 비워진다. 상기 포인터 j는 발성의 엔드포인트를 표시한다. 상기 알고리즘은 그후에 단계(128)로 진행한다. 도 3에 도시된 바와 같이, 마주하는 끝부분들에서 화살표를 갖는 제 1 라인 세그먼트는 발성의 길이를 도시한다. 상기 라인의 끝부분들은 발성의 실제 시작 및 종료 포인트(즉, END - START)를 표시한다. 제 1 라인 세그먼트 아래에 도시된, 마주하는 끝부분들에서 화살표를 갖는 제 2 라인 세그먼트는 포인터 i의 시작 값을 표시하는 좌측 끝부분 및 포인터 j의 시작 값을 표시하는 우측 끝부분을 갖는 PRE_END와 PRE_START의 감산 값을 표시한다.
단계(126)에서 알고리즘은 프레임 번호 i의 현재 SNR을 로딩한다. 상기 알고리즘은 그후에 단계(130)로 진행한다. 유사하게, 단계(128)에서 알고리즘은 프레임 번호 j의 현재 SNR을 로딩한다. 상기 알고리즘은 단계(132)로 진행한다.
단계(130)에서 알고리즘은 프레임 번호 i의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(134)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(136)로 진행한다. 유사하게, 단계(132)에서 알고리즘은 프레임 번호 j의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(138)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(140)로 진행한다.
단계(136)에서 GAP_START는 비워지고 포인터 i는 1만큼 감소한다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 유사하게, 단계(140)에서 GAP_END는 비워지고 포인터 j는 1만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.
단계(134)에서 GAP_START는 1만큼 증가한다. 상기 알고리즘은 그후에 단계(142)로 진행한다. 유사하게, 단계(138)에서 GAP_END는 1만큼 증가된다. 상기 알고리즘은 그후에 단계(144)로 진행한다.
단계(142)에서 GAP_START는 GAP_START_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_START_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한다. GAP_START가 GAP_START_THRESHOLD보다 크거나, 또는 포인터 i가 0보다 작거나 같으면, 알고리즘은 단계(146)로 진행한다. 반면에, GAP_START가 GAP_START_THRESHOLD보다 크지 않고, 포인터 i가 0보다 작지 않거나 같으면, 알고리즘은 단계(148)로 진행한다. 유사하게, 단계(144)에서 GAP_END는 GAP_END_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_END_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한 다. GAP_END가 GAP_END_THRESHOLD보다 크거나, 또는 포인터 j가 LENGTH보다 크거나 같으면, 알고리즘은 단계(150)로 진행한다. 반면에, GAP_END가 GAP_END_THRESHOLD보다 크지 않고, 포인터 j가 LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(152)로 진행한다.
단계(148)에서 포인터 i는 1만큼 감소된다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 단계(152)에서 포인터 j는 1만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.
단계(146)에서 발성의 실제 시작 포인트를 표시하는 START로 지칭되는 파라미터는 포인터 i에서 GAP_START를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다. 유사하게, 단계(150)에서 발성의 실제 종료 포인트를 표시하는 END로 지칭되는 파라미터는 포인터 j에서 GAP_END를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다.
단계(154)에서 END에서 START를 뺀 값은 VR 디바이스의 단어집내의 가장 짧은 단어의 길이보다 작은 길이를 표시하는 미리 정의된 값인 MIN_LENGTH로 지칭되는 파라미터와 비교된다. END에서 START를 뺀 값은 또한 VR 디바이스의 단어집내의 가장 긴 단어보다 더 큰 길이를 표시하는 미리 정의된 값인 파라미터 MAX_LENGTH와 비교된다. 일 실시예에서 MIN_LENGTH는 100 밀리세컨즈이고 MAX_LENGTH는 2.5 초이다. END에서 START를 뺀 값이 MIN_LENGTH 보다 크거나 같고 MAX_LENGTH 보다 작거나 같으면, 유효한 발성이 포착된다. 반면에, END에서 START를 뺀 값이 MIN_LENGTH보다 작거나 또는 MAX_LENGTH보다 크면, 발성은 무효화된다.
도 5에서, SNR 평가(dB)는 무선 전화기에 내장되는 엔드포인트 탐지기에 대한 순간적인 SNR(dB)에 대해 형성되며, SNR 평가상에 기초한 제 1 및 제 2 SNR 임계값의 전형적인 세트가 도시된다. 예를 들어, SNR 평가가 40 dB이면, 제 1 임계값은 19 dB가 되고 제 2 임계값은 대략 8.9 dB일 것이다. 도 6에서, SNR 평가(dB)는 핸즈프리 카 킷에 내장되는 엔드포인트 탐지기에 대한 순간적인 SNR(dB)에 대해 형성되며, 상기 SNR 평가에 기초한 제 1 및 제 2 SNR 임계값들의 전형적인 세트가 도시된다. 예를 들어, 순간적인 SNR이 15 dB라면, 제 1 임계값은 약 15 dB이고 제 2 임계값은 대략 8.2 dB일 것이다.
일 실시예에서, 도 3과 연관하여 기술된 평가 단계(102, 106) 및 비교 단계(104, 110, 130, 132)는 도 4의 흐름도에 도시된 단계들에 따라 수행된다. 도 4에서, SNR 평가 단계(도 3의 단계(102) 또는 단계(106))는 참조 번호 102(간략화를 위해)로 라벨링되고 점선으로 표시되어 도시된 다음의 단계들에 의해 수행된다. 단계(200)에서 이전의 프레임에 대한 대역 에너지(BE) 값 및 평활(smoothed) 대역 에너지 값(ESM)은 다음과 같은 현재 프레임에 대한 평활 대역 에너지 값(ESM)을 계산하는데 사용된다.
ESM = 0.6ESM + 0.4BE
단계(200)의 계산이 완료된 후에, 단계(202)가 수행된다. 단계(202)에서 현재 프레임에 대한 평활화 배경 에너지 값(BSM)이 다음과 같이 이전 프레임에 대한 평활화 배경 에너지 값(BSM)의 1.03배 및 현재 프레임에 대한 평활화 대역 에너지 값(ESM)의 최소값으로 결정된다.
BSM = min(1.03BSM, ESM)
단계(202)의 계산이 완료된 후에, 단계(204)가 수행된다. 단계(204)에서 현재 프레임에 대한 평활화 신호 에너지 값(SSM)은 다음과 같이 이전 프레임에 대한 평활화 신호 에너지 값(SSM)의 0.97배 및 현재 프레임에 대한 평활화 대역 에너지 값(ESM)의 최대값으로 결정된다.
SSM = max(0.97SSM, ESM)
단계(204)의 계산이 완료된 후에, 단계(206)가 수행된다. 단계(206)에서 현재 프레임에 대한 SNR 평가(SNREST)는 현재 프레임에 대한 평활화 신호 에너지 값(SSM) 및 현재 프레임에 대한 평활화 배경 에너지 값(BSM)으로부터 계산된다.
SNREST = 10log10(SSM/BSM)
단계(206)의 계산이 완료된 후에, 제 1 또는 제 2 SNR 임계값을 형성하기 위해(제 1 SNR 임계값에 대한 도 3의 단계(104) 또는 단계(110), 제 2 SNR 임계값에 대한 도 3의 단계(130) 또는 단계(132)) 순간적인 SNR과 평가된 SNR(SNREST)을 비교하는 단계는 참조 숫자 104(간략화를 위해)로 라벨링되고 점선으로 표시되어 있는 단계(208)의 비교를 행함으로써 수행된다. 단계(208)의 비교는 순간적인 SNR(SNRINST)에 대한 다음의 식을 사용한다.
SNRINST = 10log10(BE/BSM)
따라서, 단계(208)에서 현재 프레임에 대한 순간적인 SNR(SNRINST)은 다음의 식에 따라 제 1 또는 제 2 SNR 임계값과 비교된다.
SNRINST > Threshold(SNREST)?
일 실시예에서, VR 시스템은 무선 전화기에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상에 현재 프레임에 대해 SNR 평가(SNREST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 5의 그래프로부터 얻어질 수 있다. 또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상의 현재 프레임에 대해 SNR 평가(SNREST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 6의 그래프로부터 얻어질 수 있다.
순간적인 SNR(SNRINST)은 예를 들어, 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 Nos. 5,742,734 및 5,341,456에 기술된 SNR 계산 방법을 포함하는 임의의 공지된 방법에 따라서도 계산될 수 있다. SNR 평가(SNREST)는 어떠한 값으로도 초기화될 수 있지만, 유용하게는 하기에 기술된 바와 같이 초기화될 수 있다.
일 실시예에서, VR 시스템은 무선 전화기에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 고주파수 대역(2-4 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(BSM)의 초기 값은 저주파수 대역에 대해 5059644로 세팅되고 고주파수 대역에 대해 5059644로 세팅된다(상기 유니트들은 입력 신호의 디지털화된 샘플들의 자승의 합으로부터 계산되는 신호 에너지의 양자화 레벨이다). 평활화된 신호 에너지(SSM)의 초기 값은 저주파수 대역에 대해 3200000으로 세팅되고 고주파수 대역에 대해 320000으로 세팅된다.
또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 중간 주파수 대역(2-3 kHz) 및 고주파수 대역(3-4 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(BSM)의 초기 값은 저주파수 대역에 대해 5059644로 세팅되고 중간주파수 대역에 대해 5059644로 세팅되고, 고주파수 대역에 대해 5059644로 세팅된다. 평활화된 신호 에너지(SSM)의 초기 값은 저주파수 대역에 대해 3200000으로 세팅되고, 중간주파수 대역에 대해 250000으로 세팅되고, 고주파수 대역에 대해 70000으로 세팅된다.
따라서, 잡음이 있을 때 음성의 정확한 엔드포인팅을 위한 신규하고 개선된 방법 및 장치가 기술되었다. 상기 기술된 실시예들은 유용하게는 적절하게 높은 제 1 SNR 임계값을 세팅함으로써 엔드포인트 탐지기의 잘못된 트리거링을 피하거나, 또는 적절하게 낮은 제 2 SNR 임계값을 세팅함으로써 임의의 약한 음성 세그먼트를 빠뜨리지 않는다.
당업자는 여기에 개시된 실시예들과 관련하여 기술된 여러 예시적인 로직 블록 및 알고리즘 단계들이 디지털 신호 처리기(DSP), 응용 주문형 집적 회로(ASIC), 분리 게이트 또는 트랜지스터 로직, 예를 들어, 레지스터 및 FIFO와 같은 분리 하드웨어 소자, 펌웨어(firmware) 명령 세트를 실행하는 처리기 또는 종래의 어떠한 프로그램가능 소프트웨어 모듈 및 처리기로 실행되거나 수행될 수 있다. 처리기는 유용하게는 마이크로프로세서일 수 있지만 선택적으로 상기 처리기는 종래의 처리기, 제어기, 마이크로제어기, 또는 상태 컴퓨터일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 기술분야에 공지된 기록가능한 저장 매체의 어떤 다른 형태로 내장될 수 있다. 당업자는 상기 기술을 통해 참조될 수 있는 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 기호 및 칩들이 전압, 전류, 전자기파, 자기장 또는 자기입자들, 광필드 또는 입자 또는 다른 조합으로 표시된다.
본 발명의 바람직한 실시예들이 도시되고 기술되었다. 그러나, 수많은 변형들이 본 발명의 정신 또는 범위를 벗어나지 않고서 여기에 개시된 실시예들에 제조될 수 있음을 알 것이다. 따라서, 본 발명은 다음의 청구항에 따른 범위를 제외하고는 제한되지 않는다.

Claims (15)

  1. 수신된 신호의 프레임들에서 발성(utterance)의 엔드포인트(endpoints)를 탐지하는 장치로서,
    처리기; 및
    발성의 제 1 시작 포인트 및 제 1 종료 포인트(ending point)를 결정하기 위해 상기 발성과 제 1 임계값을 비교하고, 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 상기 제 1 임계값보다 낮은 제 2 임계값을 비교하고, 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하도록 상기 처리기에 의해 실행가능한 소프트웨어 모듈을 기록한 컴퓨터-판독가능 매체를 포함하고,
    상기 제 1 및 제 2 임계값들이 프레임마다 계산되는 상기 발성에 대한 신호-대-잡음비로부터 프레임마다 계산되는 장치.
  2. 삭제
  3. 제 1 항에 있어서, 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이는 미리 정의된 최대 및 최소 길이 한도(bound)에 의해 제한되는 것을 특징으로 하는 장치.
  4. 수신된 신호의 프레임들에서 발성의 엔드포인트를 탐지하는 방법으로서,
    발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 단계;
    상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 상기 제 1 임계값보다 낮은 제 2 임계값을 비교하는 단계; 및
    상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함하고,
    상기 제 1 및 제 2 임계값들이 프레임마다 계산되는 상기 발성에 대한 신호-대-잡음비로부터 프레임마다 계산되는 방법.
  5. 삭제
  6. 제 4 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  7. 수신된 신호의 프레임들에서 발성의 엔드포인트를 탐지하는 장치로서,
    상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 수단;
    상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 상기 제 1 임계값보다 낮은 제 2 임계값을 비교하는 수단; 및
    상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함하고,
    상기 제 1 및 제 2 임계값들이 프레임마다 계산되는 상기 발성에 대한 신호-대-잡음비로부터 프레임마다 계산되는 장치.
  8. 삭제
  9. 제 7 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 수단을 더 포함하는 것을 특징으로 하는 장치.
  10. 음성 신호의 수신되는 프레임들에 포함된 발성의 파라미터들을 결정하도록 구성되는 음향 처리기 - 상기 음향 처리기는 상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 상기 발성과 제 1 임계값을 비교하고 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 상기 제 1 임계값보다 낮은 제 2 임계값을 비교하며 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하도록 구성된 엔트포인트 탐지기를 포함하고, 상기 제 1 및 제 2 임계값들이 프레임마다 계산되는 상기 발성에 대한 신호-대-잡음비로부터 프레임마다 계산됨 -;
    상기 음향 처리기와 연결되면서, 상기 발성과 관련된 파라미터들과 저장된 워드 템플릿(word templates)을 비교하도록 구성되는 패턴 비교 로직 회로; 및
    상기 패턴 비교 로직에 연결되면서, 상기 워드 템플릿을 저장하도록 구성되는 데이터베이스를 포함하는 음성 인식 시스템.
  11. 제 10항에 있어서, 상기 패턴 비교 로직 회로에 연결되면서 어떤 워드 템플릿이 상기 파라미터에 가장 근접하게 일치하는지를 결정하도록 구성되는 결정 로직을 더 포함하는 것을 특징으로 하는 음성 인식 시스템.
  12. 삭제
  13. 제 10항에 있어서, 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이가 미리 정의된 최대 및 최소 길이 한도에 의해 제한되는 것을 특징으로 하는 음성 인식 시스템.
  14. 삭제
  15. 삭제
KR1020017009971A 1999-02-08 2000-02-08 잡음 신호에서 음성의 엔드포인팅 방법 KR100719650B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/246,414 US6324509B1 (en) 1999-02-08 1999-02-08 Method and apparatus for accurate endpointing of speech in the presence of noise
US09/246,414 1999-02-08

Publications (2)

Publication Number Publication Date
KR20010093334A KR20010093334A (ko) 2001-10-27
KR100719650B1 true KR100719650B1 (ko) 2007-05-17

Family

ID=22930583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017009971A KR100719650B1 (ko) 1999-02-08 2000-02-08 잡음 신호에서 음성의 엔드포인팅 방법

Country Status (11)

Country Link
US (1) US6324509B1 (ko)
EP (1) EP1159732B1 (ko)
JP (1) JP2003524794A (ko)
KR (1) KR100719650B1 (ko)
CN (1) CN1160698C (ko)
AT (1) ATE311008T1 (ko)
AU (1) AU2875200A (ko)
DE (1) DE60024236T2 (ko)
ES (1) ES2255982T3 (ko)
HK (1) HK1044404B (ko)
WO (1) WO2000046790A1 (ko)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
EP1226578A4 (en) * 1999-12-31 2005-09-21 Octiv Inc TECHNIQUES TO IMPROVE THE CLARITY AND UNDERSTANDING OF AUDIO-REDUCED AUDIO SIGNALS IN A DIGITAL NETWORK
JP4201471B2 (ja) 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US20020075965A1 (en) * 2000-12-20 2002-06-20 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
DE10063079A1 (de) * 2000-12-18 2002-07-11 Infineon Technologies Ag Verfahren zum Erkennen von Identifikationsmustern
US20030023429A1 (en) * 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置
US7433462B2 (en) * 2002-10-31 2008-10-07 Plantronics, Inc Techniques for improving telephone audio quality
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
GB2417812B (en) * 2003-05-08 2007-04-18 Voice Signal Technologies Inc A signal-to-noise mediated speech recognition algorithm
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US20050286443A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Conferencing system
EP1770688B1 (en) * 2004-07-21 2013-03-06 Fujitsu Limited Speed converter, speed converting method and program
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
JP4630876B2 (ja) * 2005-01-18 2011-02-09 富士通株式会社 話速変換方法及び話速変換装置
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
JP4804052B2 (ja) * 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US8300834B2 (en) * 2005-07-15 2012-10-30 Yamaha Corporation Audio signal processing device and audio signal processing method for specifying sound generating period
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
ES2525427T3 (es) * 2006-02-10 2014-12-22 Telefonaktiebolaget L M Ericsson (Publ) Un detector de voz y un método para suprimir sub-bandas en un detector de voz
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102073635B (zh) * 2009-10-30 2015-08-26 索尼株式会社 节目端点时间检测装置和方法以及节目信息检索系统
SI3493205T1 (sl) 2010-12-24 2021-03-31 Huawei Technologies Co., Ltd. Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
CN102522081B (zh) * 2011-12-29 2015-08-05 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9418650B2 (en) * 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
CN103886871B (zh) * 2014-01-28 2017-01-25 华为技术有限公司 语音端点的检测方法和装置
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
CN110895930B (zh) * 2015-05-25 2022-01-28 展讯通信(上海)有限公司 语音识别方法及装置
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
CN105551491A (zh) * 2016-02-15 2016-05-04 海信集团有限公司 语音识别方法和设备
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
KR102516391B1 (ko) 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS615394B2 (ko) * 1978-06-01 1986-02-18 Idemitsu Kosan Co
US4881266A (en) * 1986-03-19 1989-11-14 Kabushiki Kaisha Toshiba Speech recognition system
JPH06105394A (ja) * 1992-09-17 1994-04-15 Star Micronics Co Ltd 電気音響変換器
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4567606A (en) 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
FR2571191B1 (fr) 1984-10-02 1986-12-26 Renault Systeme de radiotelephone, notamment pour vehicule automobile
JPS61105671A (ja) 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US4991217A (en) 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
JPH07109559B2 (ja) * 1985-08-20 1995-11-22 松下電器産業株式会社 音声区間検出方法
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
JPH0711759B2 (ja) * 1985-12-17 1995-02-08 松下電器産業株式会社 音声認識等における音声区間検出方法
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
JPH01138600A (ja) * 1987-11-25 1989-05-31 Nec Corp 音声ファイル方式
US5321840A (en) 1988-05-05 1994-06-14 Transaction Technology, Inc. Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal
US5040212A (en) 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5325524A (en) 1989-04-06 1994-06-28 Digital Equipment Corporation Locating mobile objects in a distributed computer system
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
JPH0754434B2 (ja) * 1989-05-08 1995-06-07 松下電器産業株式会社 音声認識装置
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5146538A (en) 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
JP2966460B2 (ja) * 1990-02-09 1999-10-25 三洋電機株式会社 音声切り出し方法及び音声認識装置
US5280585A (en) 1990-09-28 1994-01-18 Hewlett-Packard Company Device sharing system using PCL macros
DE69232202T2 (de) 1991-06-11 2002-07-25 Qualcomm Inc Vocoder mit veraendlicher bitrate
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
SG93215A1 (en) * 1993-03-25 2002-12-17 British Telecomm Speech recognition
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS615394B2 (ko) * 1978-06-01 1986-02-18 Idemitsu Kosan Co
US4881266A (en) * 1986-03-19 1989-11-14 Kabushiki Kaisha Toshiba Speech recognition system
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
JPH06105394A (ja) * 1992-09-17 1994-04-15 Star Micronics Co Ltd 電気音響変換器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
04881266

Also Published As

Publication number Publication date
CN1354870A (zh) 2002-06-19
AU2875200A (en) 2000-08-25
DE60024236D1 (de) 2005-12-29
KR20010093334A (ko) 2001-10-27
CN1160698C (zh) 2004-08-04
EP1159732A1 (en) 2001-12-05
ES2255982T3 (es) 2006-07-16
DE60024236T2 (de) 2006-08-17
HK1044404A1 (en) 2002-10-18
ATE311008T1 (de) 2005-12-15
JP2003524794A (ja) 2003-08-19
HK1044404B (zh) 2005-04-22
WO2000046790A1 (en) 2000-08-10
EP1159732B1 (en) 2005-11-23
US6324509B1 (en) 2001-11-27

Similar Documents

Publication Publication Date Title
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
KR100629669B1 (ko) 분산 음성인식 시스템
US6671669B1 (en) combined engine system and method for voice recognition
US6735563B1 (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
JPH09106296A (ja) 音声認識装置及び方法
KR100698811B1 (ko) 음성 인식 거부 방식
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP4354072B2 (ja) 音声認識システムおよび方法
Hariharan et al. Robust end-of-utterance detection for real-time speech recognition applications
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JP2001242879A (ja) 音声検出装置
JPH054680B2 (ko)
JPH0540495A (ja) 音声区間検出方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100429

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee