KR20010093334A - 잡음 신호에서 음성의 엔드포인팅 방법 - Google Patents

잡음 신호에서 음성의 엔드포인팅 방법 Download PDF

Info

Publication number
KR20010093334A
KR20010093334A KR1020017009971A KR20017009971A KR20010093334A KR 20010093334 A KR20010093334 A KR 20010093334A KR 1020017009971 A KR1020017009971 A KR 1020017009971A KR 20017009971 A KR20017009971 A KR 20017009971A KR 20010093334 A KR20010093334 A KR 20010093334A
Authority
KR
South Korea
Prior art keywords
utterance
threshold
snr
speech
point
Prior art date
Application number
KR1020017009971A
Other languages
English (en)
Other versions
KR100719650B1 (ko
Inventor
닝 바이.
치엔충 장
앤드류 피. 데자코
Original Assignee
러셀 비. 밀러
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 러셀 비. 밀러, 콸콤 인코포레이티드 filed Critical 러셀 비. 밀러
Publication of KR20010093334A publication Critical patent/KR20010093334A/ko
Application granted granted Critical
Publication of KR100719650B1 publication Critical patent/KR100719650B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Noise Elimination (AREA)
  • Machine Translation (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)

Abstract

잡음의 존재시에 정확한 음성의 엔드포인팅 장치는 처리기 및 소프트웨어 모듈을 포함한다. 상기 처리기는 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 신호 대 잡음비(SNR) 임계값과 상기 발성을 비교하기 위해 소프트웨어 모듈의 명령들을 실행한다. 상기 처리기는 그후에 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 SNR 임계값을 미교한다. 상기 처리기는 또한 그후에 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트에 뒤따르는 발성의 일부와 제 2 SNR 임계값을 비교한다. 상기 제 1 및 제 2 SNR 임계값은 SNR 조건들을 반영하기 위해 주기적으로 재계산된다. 상기 제 1 SNR 임계값은 유용하게는 상기 제 2 SNR 임계값을 초과한다.

Description

잡음 신호에서 음성의 엔드포인팅 방법{ENDPOINTING OF SPEECH IN A NOISY SIGNAL}
음성 인식(VR)은 기계가 사용자 또는 사용자 음성 명령을 인식하고 인간과 기계의 인터페이싱을 용이하게 하기 위해 시뮬레이팅된 지능을 기계에 부여하는 가장 중요한 기술 중 하나를 나타낸다. VR은 또한 인간 음성 이해를 위한 핵심 기술을 나타낸다. 음향 음성 신호로부터의 언어 메세지를 복구하기 위한 기술들을 사용하는 시스템은 음성 인식기라 지칭된다. 음성 인식기는 일반적으로 들어오는 원래의 음성의 VR을 달성하는데 필요한 정보 함유 피쳐(feature) 또는 벡터의 시퀀스를 추출하는 음향 처리기, 입력 발성에 대응하는 언어적인 단어들의 시퀀스와 같은 의미있고 원하는 출력 포맷을 산출하기 위한 피쳐 또는 벡터의 시퀀스를 디코딩하는 워드 디코더를 포함한다. 주어진 시스템의 성능을 배가하기 위해서는 상기 시스템에 유용한 파라미터들을 갖추도록 트레이닝이 요구된다. 즉, 상기 시스템은 최적으로 기능할 수 있기 전에 학습을 필요로 한다.
음향 처리기는 음성 인식기의 전단(front-end) 음성 분석 부속시스템을 나타낸다. 입력 음성 신호에 응답하여, 음향 처리기는 시변 음성 신호를 특성화하기 위해 적절한 표현을 제공한다. 음향 처리기는 배경 잡음, 채널 왜곡, 스피커 특성 및 화술과 같은 관계없는 정보를 버려야 한다. 효율적인 음향 처리는 강화된 음향 차별 전력을 갖는 음성 인식기를 제공한다. 분석되는 유용한 특성은 단시간 분광 포락선이다. 단시간 분광 포락선을 특성화하는 두개의 일반적으로 사용되는 분광 분석 기술은 선형 예측 코딩(LPC) 및 필터뱅크 기반 분광 모델링이다. 전형적인 LPC 기술은 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 No. 5,414,796 및 여기서 참조로 통합되는 L.B. Rabiner & R.W. Schafer, "음성 신호의 디지털 처리(396-453면)(1978)"에 기술된다.
VR(일반적으로 음성 인식으로 지칭되는)의 사용은 안전의 이유로 점점 중요해지고 있다. 예를 들어, VR은 무선 전화 키패드상의 버튼을 누르는 수동 작업을 대체하는데 사용될 수 있다. 이것은 특히 사용자가 차를 운전하면서 전화 호출을 개시할 때 중요하다. VR없이 전화기를 사용할 때, 운전자는 전화를 다이얼하기 위해 버튼을 누르는 동안 핸들에서 한손을 떼고 전화기 키패드를 주시해야 한다. 이러한 동작들은 자동차 사고를 발생시키기 쉽다. 음성 가능 전화(즉, 음성 인식을 위해 설계된 전화기)는 운전자가 계속해서 도로를 주시하면서 전화 호출을 할 수 있도록 한다. 그리고 핸즈프리 카킷 시스템은 부가적으로 운전자가 호출을 개시하는 동안 핸들상에 양손을 유지하도록 할 수 있다.
음성 인식 디바이스들은 통화자 의존 또는 통화자 독립 디바이스로 분류된다. 통화자 독립 디바이스는 어느 사용자로부터의 음성 명령도 승인할 수 있다.더 일반적인 통화자 의존 디바이스는 특정 사용자들로부터의 명령을 인식하도록 트레이닝된다. 통화자 의존 VR 디바이스는 일반적으로 두가지 단계, 즉 트레이닝 단계 및 인식 상태로 동작한다. 트레이닝 단계에서, VR 시스템은 사용자가 시스템의 어휘의 각 단어를 한번 또는 두번 말하도록 해서 상기 시스템이 상기 특정 단어 또는 어구에 대해 사용자 음성의 특성을 학습할 수 있도록 촉진한다. 선택적으로, 음성 VR 디바이스에 대해, 언어의 모든 음소들을 커버하도록 특별하게 각색된 하나 이상의 간단한 기사들을 판독함으로써 달성된다. 핸즈프리 카킷에 대한 전형적인 어휘는 키패드상의 디지트들을 포함할 수 있다. 키워드는 "호출", "송신", "다이얼", "취소", "클리어", "부가", "삭제", "히스토리", "프로그램", "예", "아니오"이며, 미리 결정된 수의 일반적으로 지칭되는 동료, 친구, 또는 가족의 이름이다. 일단 트레이닝이 완료되면, 사용자는 트레이닝된 키워드를 말함으로써 인식 상태의 호출을 개시할 수 있다. 예를 들어, "존"이란 이름이 트레이닝된 이름의 하나라면, 사용자는 어구 "존을 호출"이라고 말함으로써 존에게 호출을 개시할 수 있다. VR 시스템은 단어 "호출" 및 "존"을 인식할 것이며, 사용자가 이전에 존의 전화 번호로 입력했던 번호를 다이얼링할 것이다.
인식을 위해 음성의 발성을 정확하게 포착하기 위해, 음성 가능 품목들은 일반적으로 발성의 시작 및 종료 포인트를 설정하기 위해 엔트포인트 탐지기를 사용한다. 종래의 VR 디바이스에서, 엔드포인트 탐지기는 발성의 엔드포인트를 결정하기 위해 단일 신호 대 잡음비(SNR) 임계값에 의존한다. 그러한 종래의 VR 디바이스들은 Jean Claude Junqua 등에 의한 "2 IEEE 음성 및 오디오 처리상의 송신, 잡음이 있을때 단어 경계 탐지를 위한 강화된 알고리즘"(1994년 7월) 및 "TIA/EIA 잠정협정 표준 IS-733 2-35에서 2-50"(1998년 3월)에 기술된다. SNR 임계값이 너무 낮게 세팅되면, VR 디바이스는 엔드포인트 탐지기를 트리거링할 수 있는 배경 잡음에 너무 민감하게 되고, 그로인해 인식이 잘못될 수 있게 된다. 반대로, 임계값이 너무 높으면, VR 디바이스는 발성의 시작 및 엔드포인트에서 약한 자음을 빠뜨리기 쉬워진다. 따라서, 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의, 조절가능한 SNR 임계값을 사용하는 VR 디바이스가 필요하게 된다.
본 발명은 일반적으로 통신 분야에 관한 것이며, 더 구체적으로 잡음이 있는 음성의 엔드포인팅에 관한 것이다.
도 1은 음성 인식 시스템의 블록선도이다.
도 2는 발성의 엔드포인트를 탐지하기 위해 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법의 단계들을 도시하는 흐름도이다.
도 3은 발성의 신호 증폭 및 여러 주파수 대역에 대한 시간에 있어서 제 1 및 제 2 조절가능 SNR 임계값의 그래프이다.
도 4는 순간의 SNR과 조절가능한 SNR 임계값을 비교하도록 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법 단계를 도시하는 흐름도이다.
도 5는 무선 전화기의 음성 엔드포인트 탐지기에 대한 순간 신호 대 잡음비 (dB) 대 신호 대 잡음 평가(dB)의 그래프이다.
도 6은 핸즈프리 카킷의 음성 엔드포인트 탐지기에 대한 순간 신호 대 잡음비(dB) 대 신호 대 잡음 평가(dB)의 그래프이다.
본 발명은 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의 조절가능한 SNR 임계값들을 사용하는 VR 디바이스에 관한 것이다. 따라서, 본 발명의 일 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 프로세서 및 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하고, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하고, 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하도록 상기 프로세서에 의해 실행가능한 소프트웨어 모듈을 포함한다.
본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 방법은 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하는 단계, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하는 단계 및 발성의 제 2 종료포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함한다.
본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하는 수단, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하는 수단 및 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함한다.
도 1에 도시된 본 발명의 일 실시예에 따라, 음성 인식 시스템(10)은 아날로그 대 디지털 변환기(A/D)(12), 음향 처리기(14), VR 템플릿 데이터베이스(16), 패턴 비교 로직(18) 및 결정 로직(20)을 포함한다. 음향 처리기(14)는 엔드포인트 탐지기(22)를 포함한다. VR 시스템(10)은 예를 들어, 무선 전화기 또는 핸즈프리 카킷에 내장될 수 있다.
VR 시스템(10)이 음성 인식 상태에 있을때, 사람(도시되지 않음)이 단어나 어구를 말하여 음성 신호를 생성한다. 상기 음성 신호는 종래의 변환기(또한 도시되지 않음)에 의해 전기적 음성 신호 s(t)로 변환된다. 음성 신호 s(t)는 예를 들어, 펄스 코딩 변조(PCM)와 같은 공지된 샘플링 방법에 따라 음성 신호 s(t)를 디지털화된 음성 샘플 s(n)로 변환하는 A/D(12)에 제공된다.
음성 샘플 s(n)은 파라미터 결정을 위해 음향 처리기(14)에 제공된다. 음향 처리기(14)는 입력 음성 신호 s(t)의 특성들을 모델링하는 파라미터들의 세트를 생성한다. 상기 파라미터들은 예를 들어, 상기에 언급된 미국 특허 No. 5,414,796에 기술된 바와 같이 급속 퓨리에 변환(FFT) 기반 셉스트럼(cepstrum) 계수들을 엔코딩하고 사용하는 음성 코더를 포함하여 다수의 공지된 음성 파라미터 결정 기술들 중 어느것에 따라 결정될 수 있다. 음향 처리기(14)는 디지털 신호 처리기(DSP)로서 형성될 수 있다. DSP는 음성 코더를 포함할 수 있다. 선택적으로, 음향 처리기(14)는 음성 코더로서 형성될 수 있다.
파라미터 결정은 또한 VR 시스템(10)의 트레이닝동안 수행되고, VR 시스템(10)의 모든 어휘 단어들에 대한 템플릿의 세트는 영구 저장을 위해 VR 템플릿 데이터베이스(16)에 라우팅된다. VR 템플릿 데이터베이스(16)는 유용하게는 예를 들어, 플래시 메모리와 같은 비휘발성 저장 매체의 어떠한 종래 형태로서 형성된다. 이것은 VR 시스템(10)에 대한 전력이 턴 오프될 때 템플릿들이 VR 템플릿 데이터베이스에 남아있도록 한다.
파라미터들의 세트는 패턴 비교 로직(18)에 제공된다. 패턴 비교 로직(18)은 유용하게는 발성의 시작 및 종료 포인트를 탐지하고, 유동 음향 피쳐(예를 들어, 시간 도함수, 제 2 시간 도함수 등과 같은)를 계산하고, 관련 프레임들을 선택함으로써 음향 피쳐들을 압축하며 고정 및 유동 음향 피쳐들을 양자화한다. 엔드포인트 탐지, 유동 음향 피쳐 유도, 패턴 압축 및 패턴 양자화의 다양한 공지된 방법들은 여기서 참조로 통합되는 Lawrence Rabiner & Biing-Hwang Juang의 "음성 인식의 기초(1993)"에 기술된다. 패턴 비교 로직(18)은 파라미터들의 세트와 VR 템플릿 데이터베이스(16)에 저장된 템플릿들을 비교한다. 파라미터들의 세트와 VR 템플릿 데이터베이스(16)에 저장된 모든 템플릿간의 비교 결과 또는 거리는 결정 로직(20)에 제공된다. 결정 로직(20)은 VR 템플릿 데이터베이스(16)로부터 파라미터들의 세트와 가장 가깝게 매칭하는 템플릿을 선택한다. 선택적으로, 결정 로직(20)은 종래의 미리 정의된 매칭 임계값내에서 N번째 가까운 매치들을 선택하는 종래의 "N 최상" 선택 알고리즘을 사용할 수 있다. 상기 사람은 그후에 어느 선택을 원하는지를 문의받는다. 결정 로직(20)의 출력은 어휘의 단어가 어느것이 구술되는지의 결정이다.
패턴 비교 로직(18) 및 결정 로직(20)은 유용하게는 마이크로프로세서로 형성될 수 있다. VR 시스템(10)은 예를 들어, 응용 주문형 집적 회로(ASIC)일 수 있다. VR 시스템(10)의 인식 정확도는 VR 시스템(10)이 얼마나 정확하게 어휘의 구술된 단어 또는 어구들을 인식하는지의 측정이다. 예를 들어, 95%의 인식 정확도는 VR 시스템(10)이 100개중에 95번의 어휘 단어들을 정확하게 인식하는 것을 표시한다.
음향 처리기(14)내의 엔드포인트 탐지기(22)는 음성의 각 발성의 시작 포인트 및 종료 포인트에 포함되는 파라미터들을 결정한다. 엔드포인트 탐지기(22)는 음성 트레이닝 어구의 음성 템플릿으로 사용되거나 또는 음성 인식 상태의 최상의 매칭을 착기 위해 음성 템플릿들과 비교되는 유효한 발성을 포착하는 역할을 한다. 엔드포인트 탐지기(22)는 배경 잡음이 있을시의 VR 시스템(10)의 오류를 감소시키며, 그로인해 예를 들어, 음성 다이얼 및 무선 전화기의 음성 제어와 같은 기능들의 강화를 배가시킨다. 도 2를 참조하여 하기에 상세히 기술되는 바와 같이, 두개의 조절가능한 신호 대 잡음비 임계값들은 유효 발성을 포착하기 위해 엔드포인트 탐지기(22)에 형성된다. 제 1 임계값은 제 2 임계값보다 더 높다. 제 1 임계값은 발성의 상대적으로 강한 음성 세그먼트를 포착하는데 사용되고, 제 2 임계값은 예를 들어 자음과 같이 발성의 상대적으로 약한 세그먼트들을 찾는데 사용된다. 두개의 조절가능한 SNR 임계값은 VR 시스템(10)이 잡음에 강하도록 또는 어떤 음성 세그먼트에도 민감하도록 적절하게 조절될 수 있다.
일 실시예에서, 제 2 임계값은 앞서 언급된 미국 특허 No. 5,414,796에 기술된 보코더와 같은 13 kbps 보코더의 하프-레이트 임계값이고, 제 1 임계값은 13 kbps 보코더의 풀-레이트보다 4에서 10 dB 더 크다. 임계값들은 유용하게는 매 10 또는 20 밀리세컨즈마다 평가될 수 있는 배경 SNR에 조절가능하다. 배경 잡음(즉, 도로 잡음)은 자동차에서 변하기 때문에 상기의 것이 바람직하다. 일 실시예에서 VR 시스템(10)은 무선 전화기 핸드셋의 보코더에 내장되며, 엔드포인트 탐지기(22)는 두개의 주파수 대역, 0.3-2 kHz 및 2-4 kHz에서 SNR을 계산한다. 또 다른 실시예에서, VR 시스템(10)은 핸즈프리 카 킷에 내장되고 엔드포인트 탐지기(22)는 세개의 주파수 대역, 0.3-2 kHz, 2-3 kHz 및 3-4 kHz의 SNR을 계산한다.
일 실시예에 따라, 엔드포인트 탐지기는 발성의 엔드포인트를 탐지하기 위해 도 2의 흐름도에 도시된 방법 단계들을 수행한다. 도 2에 기술된 알고리즘 단계들은 유용하게는 종래의 디지털 신호 처리 기술들로 형성될 수 있다.
단계(100)에서 데이터 버퍼 및 GAP으로 지칭되는 파라미터가 비워진다. LENGTH로 표시된 파라미터는 HEADER_LENGTH로 지칭되는 파라미터와 동일하게 세팅된다. LENGTH라 지칭되는 파라미터는 엔드포인트가 탐지되는 발성의 길이를 추적한다. 여러 파라미터들이 유용하게 엔드포인트 탐지기의 레지스터에 저장될 수 있다. 데이터 버퍼는 아무도 대화하지 않는 경우에 메모리 공간을 절약하는 원형 버퍼일 수 있다. 엔드포인트 탐지기를 포함하는 음향 처리기(도시되지 않음)는 발성당 고정된 수의 프레임들에서 실시간의 음성 발성을 처리한다. 일 실시예에서 프레임당 10밀리세컨즈가 존재한다. 엔드포인트 탐지기는 시작 포인트로부터 어떤 수의 음성 프레임들을 "재검토"해야 하는데 이것은 음향 처리기(도시되지 않음)가실시간 처리를 수행하기 때문이다. HEADER의 길이는 시작 포인트로부터 재검토할 프레임들이 얼마인지를 결정한다. HEADER의 길이는 예를 들어 10에서 20 프레임일 수 있다. 단계(100)를 완료한 후에, 알고리즘은 단계(102)로 진행한다.
단계(102)에서 음성 데이터의 프레임은 로딩되고 SNR 평가는 도 4를 참조하여 하기에 기술된 바와 같이 업데이팅되거나, 재계산된다. 따라서, SNR 평가는 SNR 조건을 변경하는데 조절하도록 매 프레임당 업데이팅된다. 제 1 및 제 2 SNR 임계값은 도 4-6을 참조하여 하기에 기술된대로 계산된다. 제 1 SNR 임계값은 제 2 SNR 임계값보다 높다. 단계(102)를 완료한후에, 알고리즘은 단계(104)로 진행한다.
단계(104)에서 현재 또는 순간의 SNR은 제 1 SNR 임계값과 비교된다. 미리 정의된 수 N의 연속 프레임들의 SNR이 제 1 SNR 임계값보다 크면, 알고리즘은 단계 (106)로 진행한다. 반면에, N개의 연속 프레임들의 SNR이 제 1 임계값보다 크지 않으면, 알고리즘은 단계(108)로 진행한다. 단계(108)에서 알고리즘은 HEADER에 포함된 프레임들을 갖는 데이터 버퍼를 업데이팅한다. 알고리즘은 그후에 단계(104)로 복귀한다. 일 실시예에서 N의 수는 3이다. 세개의 연속 프레임들과의 비교는 목적물들을 평균시켜서 이루어진다. 예를 들어, 하나의 프레임만이 사용되면, 상기 프레임은 잡음 피크를 포함할 수 있다. 결과 SNR은 세개의 연속 프레임을 통해 평균된 SNR의 표시가 아닐 것이다.
단계(106)에서 음성 데이터의 다음 프레임이 로딩되고 SNR 평가가 업데이팅된다. 알고리즘은 그후에 단계(110)로 진행한다. 단계(110)에서 현재 SNR은 발성의 엔드포인트를 결정하기 위해 제 1 SNR 임계값과 비교된다. SNR이 제 1 SNR 임계값보다 작으면, 알고리즘은 단계(112)로 진행한다. 반면에, SNR이 제 1 SNR 임계값보다 작지 않으면, 알고리즘은 단계(114)로 진행한다. 단계(114)에서 파라미터 GAP은 비워지고 파라미터 LENGTH는 하나만큼 증가한다. 알고리즘은 그후에 단계(106)로 복귀한다.
단계(112)에서 파라미터 GAP은 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(116)로 진행한다. 단계(116)에서 파라미터 GAP은 GAP_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_THRESHOLD는 대화하는 동안의 단어간의 갭을 표시한다. 파라미터 GAP_THRESHOLD는 유용하게는 200에서 400 밀리세컨즈로 세팅될 수 있다. GAP이 GAP_THRESHOLD보다 크면, 알고리즘은 단계(118)로 진행한다. 또한 단계(116)에서, 파라미터 LENGTH는 단계(154)와 연관하여 하기에 기술되는 MAX_LENGTH로 지칭되는 파라미터와 비교된다. LENGTH가 MAX_LENGTH보다 크거나 또는 같으면, 알고리즘은 단계(118)로 진행한다. 그러나, 단계(116)에서 GAP이 GAP_THRESHOLD보다 크지 않으면, 그리고 LENGTH가 MAX_LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(120)로 진행한다. 단계(120)에서 파라미터 LENGTH는 하나만큼 증가된다. 알고리즘은 그후에 음성 데이터의 다음 프레임을 로딩하도록 단계(106)로 복귀한다.
단계(118)에서 알고리즘은 발성의 시작 포인트에 대한 재검색을 시작한다. 상기 알고리즘은 유용하게는 20개 프레임을 포함할 수 있는 HEADER에 저장된 프레임들을 재검색한다. PRE_START는 HEADER와 동일하게 세팅된다. 상기 알고리즘은또한 상기 발성의 엔드포인트를 탐색하고, LENGTH와 GAP의 차와 동일한 PRE_END로 지칭되는 파라미터를 세팅하기 시작한다. 상기 알고리즘은 그후에 단계(122, 124)로 진행한다.
단계(122)에서 포인터 i는 PRE_START 에서 하나를 뺀값과 동일하게 세팅되고, GAP_START로 지칭되는 파라미터는 비워진다(즉, GAP_START는 0으로 세팅된다). 포인터 i는 발성의 시작 포인트를 표시한다. 상기 알고리즘은 그후에 단계(126)로 진행한다. 유사하게, 단계(124)에서 포인터 j는 PRE_END와 같은 값으로 세팅되고, GAP_END로 지칭되는 파라미터는 비워진다. 상기 포인터 j는 발성의 엔드포인트를 표시한다. 상기 알고리즘은 그후에 단계(128)로 진행한다. 도 3에 도시된 바와 같이, 마주하는 단부에서 화살표를 갖는 제 1 라인 세그먼트는 발성의 길이를 도시한다. 상기 라인의 단부는 발성의 실제 시작 및 종료 포인트(즉, END - START)를 표시한다. 제 1 라인 세그먼트 아래에 도시된, 마주하는 단부에서 화살표를 갖는 제 2 라인 세그먼트는 포인터 i의 시작 값을 표시하는 좌측끝 단부 및 포인터 j의 시작 값을 표시하는 우측끝 단부를 갖는 PRE_END 빼기 PRE_START 값을 표시한다.
단계(126)에서 알고리즘은 프레임 번호 i의 현재 SNR을 로딩한다. 상기 알고리즘은 그후에 단계(130)로 진행한다. 유사하게, 단계(128)에서 알고리즘은 프레임 수 j의 현재 SNR을 로딩한다. 상기 알고리즘은 단계(132)로 진행한다.
단계(130)에서 알고리즘은 프레임 수 i의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(134)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(136)로 진행한다. 유사하게, 단계(132)에서 알고리즘은 프레임 수 j의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(138)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(140)로 진행한다.
단계(136)에서 GAP_START는 비워지고 포인터 i는 하나만큼 감소한다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 유사하게, 단계(140)에서 GAP_END는 비워지고 포인터 j는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.
단계(134)에서 GAP_START는 하나만큼 증가한다. 상기 알고리즘은 그후에 단계(142)로 진행한다. 유사하게, 단계(138)에서 GAP_END는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(144)로 진행한다.
단계(142)에서 GAP_START는 GAP_START_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_START_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한다. GAP_START가 GAP_START_THRESHOLD보다 크거나, 또는 포인터 i가 0보다 작거나 같으면, 알고리즘은 단계(146)로 진행한다. 반면에, GAP_START가 GAP_START_THRESHOLD보다 크지 않고, 포인터 i가 0보다 작지 않거나 같으면, 알고리즘은 단계(148)로 진행한다. 유사하게, 단계(144)에서 GAP_END는 GAP_END_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_END_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한다. GAP_END가 GAP_END_THRESHOLD보다 크거나, 또는 포인터 j가 LENGTH보다 크거나 같으면, 알고리즘은 단계(150)로 진행한다. 반면에, GAP_END가 GAP_END_THRESHOLD보다 크지 않고, 포인터 j가 LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(152)로 진행한다.
단계(148)에서 포인터 i는 하나만큼 감소된다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 단계(152)에서 포인터 j는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.
단계(146)에서 발성의 실제 시작 포인트를 표시하는 START로 지칭되는 파라미터는 포인터 i에서 GAP_START를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다. 유사하게, 단계(150)에서 발성의 실제 종료 포인트를 표시한느 END로 지칭되는 파라미터는 포인터 j에서 GAP_END를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다.
단계(154)에서 END에서 START를 뺀 값은 VR 디바이스의 어휘내의 가장 짧은 단어의 길이보다 작은 길이를 표시하는 미리 정의된 값인 MIN_LENGTH로 지칭되는 파라미터와 비교된다. END에서 START를 뺀 값은 또한 VR 디바이스의 어휘내의 가장 긴 단어보다 더 큰 길이를 표시하는 미리 정의된 값인 파라미터 MAX_LENGTH와 비교된다. 일 실시예에서 MIN_LENGTH는 100 밀리세컨즈이고 MAX_LENGTH는 2.5 초이다. END에서 START를 뺀 값이 MIN_LENGTH 보다 크거나 같고 MAX_LENGTH 보다 작거나 같으면, 유효한 발성이 포착된다. 반면에, END에서 START를 뺀 값이 MIN_LENGTH보다 작거나 또는 MAX_LENGTH보다 크면, 발성은 무효화된다.
도 5에서, SNR 평가(dB)는 무선 전화기에 내장되는 엔드포인트 탐지기에 대한 순간 SNR(dB)에 대해 형성되며, SNR 평가상에 기초한 제 1 및 제 2 SNR 임계값의 전형적인 세트가 도시된다. 예를 들어, SNR 평가가 40 dB아면, 제 1 임계값은 19 dB가 되고 제 2 임계값은 대략 8.9 dB일 것이다. 도 6에서, SNR 평가(dB)는 핸즈프리 카 킷에 내장되는 엔드포인트 탐지기에 대한 순간 SNR(dB)에 대해 형성되며, 상기 SNR 평가에 기초한 제 1 및 제 2 SNR 임계값들의 전형적인 세트가 도시된다. 예를 들어, 순간 SNR이 15 dB라면, 제 1 임계값은 약 15 dB이고 제 2 임계값은 대략 8.2 dB일 것이다.
일 실시예에서, 도 3과 연관하여 기술된 평가 단계(102, 106) 및 비교 단계(104, 110, 130, 132)는 도 4의 흐름도에 도시된 단계들에 따라 수행된다. 도 4에서, SNR 평가 단계(도 3의 단계(102) 또는 단계(106))는 참조 숫자 102(간략화를 위해)로 라벨링되고 띠선으로 표시되어 도시된 다음의 단계들에 의해 수행된다. 단계(200)에서 이전의 프레임에 대한 대역 에너지(BE) 값 및 평활 대역 에너지 값(ESM)은 다음과 같은 현재 프레임에 대한 평활 대역 에너지 값(ESM)을 계산하는데 사용된다.
ESM= 0.6ESM+ 0.4BE
단계(200)의 계산이 완료된 후에, 단계(202)가 수행된다. 단계(202)에서 현재 프레임에 대한 평활화 배경 에너지 값(BSM)이 이전 프레임에 대한 평활화 배경에너지 값(BSM)의 1.03배가 최소값으로 결정되고 현재 프레임에 대한 평활화 대역 에너지 값(ESM)은 다음과 같다.
BSM= min(1.03BSM, ESM)
단계(202)의 계산이 완료된 후에, 단계(204)가 수행된다. 단계(204)에서 현재 프레임에 대한 평활화 신호 에너지 값(SSM)은 이전 프레임에 대한 평활화 신호 에너지 값(SSM)의 0.97배가 최대값으로 결정되고 현재 프레임에 대한 평활화 대역 에너지 값(ESM)은 다음과 같다.
SSM= max(0.97SSM, ESM)
단계(204)의 계산이 완료된 후에, 단계(206)가 수행된다. 단계(206)에서 현재 프레임에 대한 SNR 평가(SNREST)는 현재 프레임에 대한 평활화 신호 에너지 값(SSM)으로부터 계산되고 현재 프레임에 대한 평활화 배경 에너지 값(BSM)은 다음과 같다.
SNREST= 10log10(SSM/BSM)
단계(206)의 계산이 완료된 후에, 제 1 또는 제 2 SNR 임계값을 형성하기 위해(제 1 SNR 임계값에 대한 도 3의 단계(104) 또는 단계(110), 제 2 SNR 임계값에대한 도 3의 단계(130) 또는 단계(132)) 순간 SNR과 평가된 SNR(SNREST)을 비교하는 단계는 참조 숫자 104(간략화를 위해)로 라벨링되고 띠선으로 표시되어 있는 단계(208)의 비교를 행함으로써 수행된다. 단계(208)의 비교는 순간 SNR(SNRINST)에 대한 다음의 식을 사용한다.
SNRINST= 10log10(BE/BSM)
따라서, 단계(208)에서 현재 프레임에 대한 순간 SNR(SNRINST)은 다음의 식에 따라 제 1 또는 제 2 SNR 임계값과 비교된다.
SNRINST> Threshold(SNREST)?
일 실시예에서, VR 시스템은 무선 전화기에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상의 현재 프레임에 대해 SNR 평가(SNREST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 5의 그래프로부터 얻어질 수 있다. 또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상의 현재 프레임에 대해 SNR 평가(SNREST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 6의 그래프로부터 얻어질 수 있다.
순간 SNR(SNRINST)은 예를 들어, 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 Nos. 5,742,734 및 5,341,456에 기술된 SNR 계산 방법을 포함하는 어떤 공지된 방법에 따라서도 계산될 수 있다. SNR 평가(SNREST)는 어떠한 값으로도 초기화될 수 있지만, 유용하게는 하기에 기술된 바와 같이 초기화될 수 있다.
일 실시예에서, VR 시스템은 무선 전화기에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 고주파수 대역(2-4 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(BSM)의 초기 값은 저주파수 대역에 대해 5059644로 고주파수 대역에 대해 5059644로 세팅된다(상기 유니트들은 입력 신호의 디지털화된 샘플들의 자승의 합으로부터 계산되는 신호 에너지의 양자화 레벨이다). 평활화된 신호 에너지(SSM)의 초기 값은 저주파수 대역에 대해 3200000으로 고주파수 대역에 대해 3200000으로 세팅된다.
또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 중간 주파수 대역(2-3 kHz) 및 고주파수 대역(3-4 kHz)에 대한 평활화 대역 에너지(ESM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(BSM)의 초기 값은 저주파수 대역에 대해 5059644로 고주파수 대역에 대해 5059644로 세팅된다. 평활화된 신호 에너지(SSM)의 초기 값은 저주파수 대역에 대해 3200000으로 중간주파수 대역에 대해 250000으로, 고주파수 대역에 대해 70000으로 세팅된다.
따라서, 잡음이 있을 때 음성의 정확한 엔드포인팅을 위한 신규하고 개선된 방법 및 장치가 기술되었다. 상기 기술된 실시예들은 유용하게는 적절하게 높은 제 1 SNR 임계값을 세팅함으로써 엔드포인트 탐지기의 잘못된 트리거링을 피하거나, 또는 적절하게 낮은 제 2 SNR 임계값을 세팅함으로써 어떤 약한 음성 세그먼트를 빠뜨리지 않는다.
당업자는 여기에 개시된 실시예들과 관련하여 기술된 여러 예시적인 로직 블록 및 알고리즘 단계들이 디지털 신호 처리기(DSP), 응용 주문형 집적 회로(ASIC), 분리 게이트 또는 트랜지스터 로직, 예를 들어, 레지스터 및 FIFO와 같은 분리 하드웨어 소자, 펌웨어(firmware) 명령 세트를 실행하는 처리기 또는 종래의 어떠한 프로그램가능 소프트웨어 모듈 및 처리기로 실행되거나 수행될 수 있다. 처리기는 유용하게는 마이크로프로세서일 수 있지만 선택적으로 상기 처리기는 종래의 처리기, 제어기, 마이크로제어기, 또는 상태 컴퓨터일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 기술분야에 공지된 기록가능한 저장 매체의 어떤 다른 형태로 내장될 수 있다. 당업자는 상기 기술을 통해 참조될 수있는 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 기호 및 칩들이 전압, 전류, 전자기파, 자기장 또는 자기입자들, 광필드 또는 입자 또는 다른 조합으로 표시된다.
본 발명의 바람직한 실시예들이 도시되고 기술되었다. 그러나, 수많은 변형들이 본 발명의 정신 또는 범위를 벗어나지 않고서 여기에 개시된 실시예들에 제조될 수 있음을 알 것이다. 따라서, 본 발명은 다음의 청구항에 따른 범위를 제외하고는 제한되지 않는다.

Claims (15)

  1. 발성의 엔드포인트를 탐지하는 장치로서,
    처리기; 및
    발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 상기 발성과 제 1 임계값을 비교하고, 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하고, 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하기 위해 상기 처리기에 의해 실행가능한 소프트웨어 모듈을 포함하는 장치.
  2. 제 1 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 장치.
  3. 제 1 항에 있어서, 상기 제 1 및 제 2 임계값들은 주기적으로 재계산되는 것을 특징으로 하는 장치.
  4. 제 1 항에 있어서, 상기 제 1 임계값은 제 2 임계값을 초과하는 것을 특징으로 하는 장치.
  5. 제 1 항에 있어서, 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이는 미리 정의된 최대 및 최소 길이 한도에 의해 제약되는 것을 특징으로 하는 장치.
  6. 발성의 엔드포인트를 탐지하는 방법으로서,
    상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 단계;
    상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하는 단계; 및
    상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함하는 방법.
  7. 제 6 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 방법.
  8. 제 6 항에 있어서, 주기적으로 제 1 및 제 2 임계값들을 재계산하는 단계를 더 포함하는 방법.
  9. 제 6 항에 있어서, 상기 제 1 임계값은 상기 제 2 임계값을 초과하는 것을 특징으로 하는 방법.
  10. 제 6 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 단계를 더 포함하는 방법.
  11. 발성의 엔드포인트를 탐지하는 장치로서,
    상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 수단;
    상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하는 수단; 및
    상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함하는 장치.
  12. 제 11 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 장치.
  13. 제 11 항에 있어서, 상기 제 1 및 제 2 임계값들을 주기적으로 재계산하는 수단을 더 포함하는 장치.
  14. 제 11 항에 있어서, 상기 제 1 임계값은 상기 제 2 임계값을 초과하는 것을특징으로 하는 장치.
  15. 제 11 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 수단을 더 포함하는 장치.
KR1020017009971A 1999-02-08 2000-02-08 잡음 신호에서 음성의 엔드포인팅 방법 KR100719650B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/246,414 US6324509B1 (en) 1999-02-08 1999-02-08 Method and apparatus for accurate endpointing of speech in the presence of noise
US09/246,414 1999-02-08

Publications (2)

Publication Number Publication Date
KR20010093334A true KR20010093334A (ko) 2001-10-27
KR100719650B1 KR100719650B1 (ko) 2007-05-17

Family

ID=22930583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017009971A KR100719650B1 (ko) 1999-02-08 2000-02-08 잡음 신호에서 음성의 엔드포인팅 방법

Country Status (11)

Country Link
US (1) US6324509B1 (ko)
EP (1) EP1159732B1 (ko)
JP (1) JP2003524794A (ko)
KR (1) KR100719650B1 (ko)
CN (1) CN1160698C (ko)
AT (1) ATE311008T1 (ko)
AU (1) AU2875200A (ko)
DE (1) DE60024236T2 (ko)
ES (1) ES2255982T3 (ko)
HK (1) HK1044404B (ko)
WO (1) WO2000046790A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11145305B2 (en) 2018-12-18 2021-10-12 Yandex Europe Ag Methods of and electronic devices for identifying an end-of-utterance moment in a digital audio signal

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
AU4904801A (en) * 1999-12-31 2001-07-16 Octiv, Inc. Techniques for improving audio clarity and intelligibility at reduced bit rates over a digital network
JP4201471B2 (ja) 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US20020075965A1 (en) * 2000-12-20 2002-06-20 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
DE10063079A1 (de) * 2000-12-18 2002-07-11 Infineon Technologies Ag Verfahren zum Erkennen von Identifikationsmustern
US20030023429A1 (en) * 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
JP4858663B2 (ja) * 2001-06-08 2012-01-18 日本電気株式会社 音声認識方法及び音声認識装置
US7433462B2 (en) * 2002-10-31 2008-10-07 Plantronics, Inc Techniques for improving telephone audio quality
JP4265908B2 (ja) * 2002-12-12 2009-05-20 アルパイン株式会社 音声認識装置及び音声認識性能改善方法
CN1802694A (zh) * 2003-05-08 2006-07-12 语音信号科技公司 信噪比中介的语音识别算法
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US20050286443A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Conferencing system
EP1770688B1 (en) * 2004-07-21 2013-03-06 Fujitsu Limited Speed converter, speed converting method and program
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
WO2006077626A1 (ja) * 2005-01-18 2006-07-27 Fujitsu Limited 話速変換方法及び話速変換装置
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US8311819B2 (en) * 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
JP4804052B2 (ja) * 2005-07-08 2011-10-26 アルパイン株式会社 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
KR20080009331A (ko) * 2005-07-15 2008-01-28 야마하 가부시키가이샤 발음 기간을 특정하는 오디오 신호 처리 장치 및 오디오신호 처리 방법
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
WO2007091956A2 (en) * 2006-02-10 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) A voice detector and a method for suppressing sub-bands in a voice detector
JP4671898B2 (ja) * 2006-03-30 2011-04-20 富士通株式会社 音声認識装置、音声認識方法、音声認識プログラム
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
CN101636784B (zh) * 2007-03-20 2011-12-28 富士通株式会社 语音识别系统及语音识别方法
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8103503B2 (en) * 2007-11-01 2012-01-24 Microsoft Corporation Speech recognition for determining if a user has correctly read a target sentence string
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102073635B (zh) * 2009-10-30 2015-08-26 索尼株式会社 节目端点时间检测装置和方法以及节目信息检索系统
WO2012083555A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
KR20130014893A (ko) * 2011-08-01 2013-02-12 한국전자통신연구원 음성 인식 장치 및 방법
CN102522081B (zh) * 2011-12-29 2015-08-05 北京百度网讯科技有限公司 一种检测语音端点的方法及系统
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9418650B2 (en) * 2013-09-25 2016-08-16 Verizon Patent And Licensing Inc. Training speech recognition using captions
US8843369B1 (en) 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
CN103886871B (zh) * 2014-01-28 2017-01-25 华为技术有限公司 语音端点的检测方法和装置
CN107293287B (zh) 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
CN106297795B (zh) * 2015-05-25 2019-09-27 展讯通信(上海)有限公司 语音识别方法及装置
CN105989849B (zh) * 2015-06-03 2019-12-03 乐融致新电子科技(天津)有限公司 一种语音增强方法、语音识别方法、聚类方法及装置
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
CN105551491A (zh) * 2016-02-15 2016-05-04 海信集团有限公司 语音识别方法和设备
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
EP4083998A1 (en) 2017-06-06 2022-11-02 Google LLC End of query detection
KR102516391B1 (ko) 2022-09-02 2023-04-03 주식회사 액션파워 음성 구간 길이를 고려하여 오디오에서 음성 구간을 검출하는 방법

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5533A (en) * 1978-06-01 1980-01-05 Idemitsu Kosan Co Ltd Preparation of beta-phenetyl alcohol
US4567606A (en) 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition
FR2571191B1 (fr) 1984-10-02 1986-12-26 Renault Systeme de radiotelephone, notamment pour vehicule automobile
JPS61105671A (ja) 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
US4991217A (en) 1984-11-30 1991-02-05 Ibm Corporation Dual processor speech recognition system with dedicated data acquisition bus
JPH07109559B2 (ja) * 1985-08-20 1995-11-22 松下電器産業株式会社 音声区間検出方法
JPS6269297A (ja) 1985-09-24 1987-03-30 日本電気株式会社 話者確認タ−ミナル
JPH0711759B2 (ja) * 1985-12-17 1995-02-08 松下電器産業株式会社 音声認識等における音声区間検出方法
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US5231670A (en) 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
JPH01138600A (ja) * 1987-11-25 1989-05-31 Nec Corp 音声ファイル方式
US5321840A (en) 1988-05-05 1994-06-14 Transaction Technology, Inc. Distributed-intelligence computer system including remotely reconfigurable, telephone-type user terminal
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
US5040212A (en) 1988-06-30 1991-08-13 Motorola, Inc. Methods and apparatus for programming devices to recognize voice commands
US5325524A (en) 1989-04-06 1994-06-28 Digital Equipment Corporation Locating mobile objects in a distributed computer system
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
JPH0754434B2 (ja) * 1989-05-08 1995-06-07 松下電器産業株式会社 音声認識装置
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US5146538A (en) 1989-08-31 1992-09-08 Motorola, Inc. Communication system and method with voice steering
JP2966460B2 (ja) * 1990-02-09 1999-10-25 三洋電機株式会社 音声切り出し方法及び音声認識装置
US5280585A (en) 1990-09-28 1994-01-18 Hewlett-Packard Company Device sharing system using PCL macros
CA2568984C (en) 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
WO1993001664A1 (en) 1991-07-08 1993-01-21 Motorola, Inc. Remote voice control system
US5305420A (en) 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH05130067A (ja) * 1991-10-31 1993-05-25 Nec Corp 可変閾値型音声検出器
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
JP2907362B2 (ja) * 1992-09-17 1999-06-21 スター精密 株式会社 電気音響変換器
US5692104A (en) * 1992-12-31 1997-11-25 Apple Computer, Inc. Method and apparatus for detecting end points of speech activity
ES2141824T3 (es) * 1993-03-25 2000-04-01 British Telecomm Reconocimiento de voz con deteccion de pausas.
DE4422545A1 (de) * 1994-06-28 1996-01-04 Sel Alcatel Ag Start-/Endpunkt-Detektion zur Worterkennung
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11145305B2 (en) 2018-12-18 2021-10-12 Yandex Europe Ag Methods of and electronic devices for identifying an end-of-utterance moment in a digital audio signal
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу

Also Published As

Publication number Publication date
DE60024236D1 (de) 2005-12-29
ATE311008T1 (de) 2005-12-15
DE60024236T2 (de) 2006-08-17
JP2003524794A (ja) 2003-08-19
ES2255982T3 (es) 2006-07-16
HK1044404B (zh) 2005-04-22
WO2000046790A1 (en) 2000-08-10
CN1160698C (zh) 2004-08-04
KR100719650B1 (ko) 2007-05-17
EP1159732A1 (en) 2001-12-05
HK1044404A1 (en) 2002-10-18
CN1354870A (zh) 2002-06-19
EP1159732B1 (en) 2005-11-23
US6324509B1 (en) 2001-11-27
AU2875200A (en) 2000-08-25

Similar Documents

Publication Publication Date Title
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
KR100629669B1 (ko) 분산 음성인식 시스템
US6671669B1 (en) combined engine system and method for voice recognition
JPH09106296A (ja) 音声認識装置及び方法
KR100698811B1 (ko) 음성 인식 거부 방식
KR20010040669A (ko) 잡음 보상되는 음성 인식 시스템 및 방법
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6681207B2 (en) System and method for lossy compression of voice recognition models
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
KR100278640B1 (ko) 이동 전화기를 위한 음성 다이얼링 장치 및방법
JPH0540495A (ja) 音声区間検出方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100429

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee