KR20010093334A

KR20010093334A - 잡음 신호에서 음성의 엔드포인팅 방법

Info

Publication number: KR20010093334A
Application number: KR1020017009971A
Authority: KR
Inventors: 닝 바이.; 치엔충 장; 앤드류 피. 데자코
Original assignee: 러셀 비. 밀러; 콸콤 인코포레이티드
Priority date: 1999-02-08
Filing date: 2000-02-08
Publication date: 2001-10-27
Also published as: DE60024236D1; ATE311008T1; DE60024236T2; JP2003524794A; ES2255982T3; HK1044404B; WO2000046790A1; CN1160698C; KR100719650B1; EP1159732A1; HK1044404A1; CN1354870A; EP1159732B1; US6324509B1; AU2875200A

Abstract

잡음의 존재시에 정확한 음성의 엔드포인팅 장치는 처리기 및 소프트웨어 모듈을 포함한다. 상기 처리기는 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 신호 대 잡음비(SNR) 임계값과 상기 발성을 비교하기 위해 소프트웨어 모듈의 명령들을 실행한다. 상기 처리기는 그후에 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 SNR 임계값을 미교한다. 상기 처리기는 또한 그후에 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트에 뒤따르는 발성의 일부와 제 2 SNR 임계값을 비교한다. 상기 제 1 및 제 2 SNR 임계값은 SNR 조건들을 반영하기 위해 주기적으로 재계산된다. 상기 제 1 SNR 임계값은 유용하게는 상기 제 2 SNR 임계값을 초과한다.

Description

잡음 신호에서 음성의 엔드포인팅 방법{ENDPOINTING OF SPEECH IN A NOISY SIGNAL}

음성 인식(VR)은 기계가 사용자 또는 사용자 음성 명령을 인식하고 인간과 기계의 인터페이싱을 용이하게 하기 위해 시뮬레이팅된 지능을 기계에 부여하는 가장 중요한 기술 중 하나를 나타낸다. VR은 또한 인간 음성 이해를 위한 핵심 기술을 나타낸다. 음향 음성 신호로부터의 언어 메세지를 복구하기 위한 기술들을 사용하는 시스템은 음성 인식기라 지칭된다. 음성 인식기는 일반적으로 들어오는 원래의 음성의 VR을 달성하는데 필요한 정보 함유 피쳐(feature) 또는 벡터의 시퀀스를 추출하는 음향 처리기, 입력 발성에 대응하는 언어적인 단어들의 시퀀스와 같은 의미있고 원하는 출력 포맷을 산출하기 위한 피쳐 또는 벡터의 시퀀스를 디코딩하는 워드 디코더를 포함한다. 주어진 시스템의 성능을 배가하기 위해서는 상기 시스템에 유용한 파라미터들을 갖추도록 트레이닝이 요구된다. 즉, 상기 시스템은 최적으로 기능할 수 있기 전에 학습을 필요로 한다.

음향 처리기는 음성 인식기의 전단(front-end) 음성 분석 부속시스템을 나타낸다. 입력 음성 신호에 응답하여, 음향 처리기는 시변 음성 신호를 특성화하기 위해 적절한 표현을 제공한다. 음향 처리기는 배경 잡음, 채널 왜곡, 스피커 특성 및 화술과 같은 관계없는 정보를 버려야 한다. 효율적인 음향 처리는 강화된 음향 차별 전력을 갖는 음성 인식기를 제공한다. 분석되는 유용한 특성은 단시간 분광 포락선이다. 단시간 분광 포락선을 특성화하는 두개의 일반적으로 사용되는 분광 분석 기술은 선형 예측 코딩(LPC) 및 필터뱅크 기반 분광 모델링이다. 전형적인 LPC 기술은 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 No. 5,414,796 및 여기서 참조로 통합되는 L.B. Rabiner & R.W. Schafer, "음성 신호의 디지털 처리(396-453면)(1978)"에 기술된다.

VR(일반적으로 음성 인식으로 지칭되는)의 사용은 안전의 이유로 점점 중요해지고 있다. 예를 들어, VR은 무선 전화 키패드상의 버튼을 누르는 수동 작업을 대체하는데 사용될 수 있다. 이것은 특히 사용자가 차를 운전하면서 전화 호출을 개시할 때 중요하다. VR없이 전화기를 사용할 때, 운전자는 전화를 다이얼하기 위해 버튼을 누르는 동안 핸들에서 한손을 떼고 전화기 키패드를 주시해야 한다. 이러한 동작들은 자동차 사고를 발생시키기 쉽다. 음성 가능 전화(즉, 음성 인식을 위해 설계된 전화기)는 운전자가 계속해서 도로를 주시하면서 전화 호출을 할 수 있도록 한다. 그리고 핸즈프리 카킷 시스템은 부가적으로 운전자가 호출을 개시하는 동안 핸들상에 양손을 유지하도록 할 수 있다.

음성 인식 디바이스들은 통화자 의존 또는 통화자 독립 디바이스로 분류된다. 통화자 독립 디바이스는 어느 사용자로부터의 음성 명령도 승인할 수 있다.더 일반적인 통화자 의존 디바이스는 특정 사용자들로부터의 명령을 인식하도록 트레이닝된다. 통화자 의존 VR 디바이스는 일반적으로 두가지 단계, 즉 트레이닝 단계 및 인식 상태로 동작한다. 트레이닝 단계에서, VR 시스템은 사용자가 시스템의 어휘의 각 단어를 한번 또는 두번 말하도록 해서 상기 시스템이 상기 특정 단어 또는 어구에 대해 사용자 음성의 특성을 학습할 수 있도록 촉진한다. 선택적으로, 음성 VR 디바이스에 대해, 언어의 모든 음소들을 커버하도록 특별하게 각색된 하나 이상의 간단한 기사들을 판독함으로써 달성된다. 핸즈프리 카킷에 대한 전형적인 어휘는 키패드상의 디지트들을 포함할 수 있다. 키워드는 "호출", "송신", "다이얼", "취소", "클리어", "부가", "삭제", "히스토리", "프로그램", "예", "아니오"이며, 미리 결정된 수의 일반적으로 지칭되는 동료, 친구, 또는 가족의 이름이다. 일단 트레이닝이 완료되면, 사용자는 트레이닝된 키워드를 말함으로써 인식 상태의 호출을 개시할 수 있다. 예를 들어, "존"이란 이름이 트레이닝된 이름의 하나라면, 사용자는 어구 "존을 호출"이라고 말함으로써 존에게 호출을 개시할 수 있다. VR 시스템은 단어 "호출" 및 "존"을 인식할 것이며, 사용자가 이전에 존의 전화 번호로 입력했던 번호를 다이얼링할 것이다.

인식을 위해 음성의 발성을 정확하게 포착하기 위해, 음성 가능 품목들은 일반적으로 발성의 시작 및 종료 포인트를 설정하기 위해 엔트포인트 탐지기를 사용한다. 종래의 VR 디바이스에서, 엔드포인트 탐지기는 발성의 엔드포인트를 결정하기 위해 단일 신호 대 잡음비(SNR) 임계값에 의존한다. 그러한 종래의 VR 디바이스들은 Jean Claude Junqua 등에 의한 "2 IEEE 음성 및 오디오 처리상의 송신, 잡음이 있을때 단어 경계 탐지를 위한 강화된 알고리즘"(1994년 7월) 및 "TIA/EIA 잠정협정 표준 IS-733 2-35에서 2-50"(1998년 3월)에 기술된다. SNR 임계값이 너무 낮게 세팅되면, VR 디바이스는 엔드포인트 탐지기를 트리거링할 수 있는 배경 잡음에 너무 민감하게 되고, 그로인해 인식이 잘못될 수 있게 된다. 반대로, 임계값이 너무 높으면, VR 디바이스는 발성의 시작 및 엔드포인트에서 약한 자음을 빠뜨리기 쉬워진다. 따라서, 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의, 조절가능한 SNR 임계값을 사용하는 VR 디바이스가 필요하게 된다.

본 발명은 일반적으로 통신 분야에 관한 것이며, 더 구체적으로 잡음이 있는 음성의 엔드포인팅에 관한 것이다.

도 1은 음성 인식 시스템의 블록선도이다.

도 2는 발성의 엔드포인트를 탐지하기 위해 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법의 단계들을 도시하는 흐름도이다.

도 3은 발성의 신호 증폭 및 여러 주파수 대역에 대한 시간에 있어서 제 1 및 제 2 조절가능 SNR 임계값의 그래프이다.

도 4는 순간의 SNR과 조절가능한 SNR 임계값을 비교하도록 도 1의 시스템과 같은 음성 인식 시스템에 의해 수행되는 방법 단계를 도시하는 흐름도이다.

도 5는 무선 전화기의 음성 엔드포인트 탐지기에 대한 순간 신호 대 잡음비 (dB) 대 신호 대 잡음 평가(dB)의 그래프이다.

도 6은 핸즈프리 카킷의 음성 엔드포인트 탐지기에 대한 순간 신호 대 잡음비(dB) 대 신호 대 잡음 평가(dB)의 그래프이다.

본 발명은 배경 잡음의 존재시에 음성의 엔드포인트를 정확하게 탐지하기 위해 다수의 조절가능한 SNR 임계값들을 사용하는 VR 디바이스에 관한 것이다. 따라서, 본 발명의 일 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 프로세서 및 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하고, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하고, 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하도록 상기 프로세서에 의해 실행가능한 소프트웨어 모듈을 포함한다.

본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 방법은 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하는 단계, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하는 단계 및 발성의 제 2 종료포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함한다.

본 발명의 또 다른 측면에서, 유용하게 발성의 엔드포인트를 탐지하는 디바이스는 발성의 제 1 시작 포인트와 제 1 종료 포인트를 결정하기 위한 제 1 임계값과 발성을 비교하는 수단, 발성의 제 2 시작 포인트를 결정하기 위해 제 1 시작 포인트가 먼저오는 발성의 일부와 제 2 임계값을 비교하는 수단 및 발성의 제 2 종료 포인트를 결정하기 위해 제 1 엔드포인트가 나중에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함한다.

도 1에 도시된 본 발명의 일 실시예에 따라, 음성 인식 시스템(10)은 아날로그 대 디지털 변환기(A/D)(12), 음향 처리기(14), VR 템플릿 데이터베이스(16), 패턴 비교 로직(18) 및 결정 로직(20)을 포함한다. 음향 처리기(14)는 엔드포인트 탐지기(22)를 포함한다. VR 시스템(10)은 예를 들어, 무선 전화기 또는 핸즈프리 카킷에 내장될 수 있다.

VR 시스템(10)이 음성 인식 상태에 있을때, 사람(도시되지 않음)이 단어나 어구를 말하여 음성 신호를 생성한다. 상기 음성 신호는 종래의 변환기(또한 도시되지 않음)에 의해 전기적 음성 신호 s(t)로 변환된다. 음성 신호 s(t)는 예를 들어, 펄스 코딩 변조(PCM)와 같은 공지된 샘플링 방법에 따라 음성 신호 s(t)를 디지털화된 음성 샘플 s(n)로 변환하는 A/D(12)에 제공된다.

음성 샘플 s(n)은 파라미터 결정을 위해 음향 처리기(14)에 제공된다. 음향 처리기(14)는 입력 음성 신호 s(t)의 특성들을 모델링하는 파라미터들의 세트를 생성한다. 상기 파라미터들은 예를 들어, 상기에 언급된 미국 특허 No. 5,414,796에 기술된 바와 같이 급속 퓨리에 변환(FFT) 기반 셉스트럼(cepstrum) 계수들을 엔코딩하고 사용하는 음성 코더를 포함하여 다수의 공지된 음성 파라미터 결정 기술들 중 어느것에 따라 결정될 수 있다. 음향 처리기(14)는 디지털 신호 처리기(DSP)로서 형성될 수 있다. DSP는 음성 코더를 포함할 수 있다. 선택적으로, 음향 처리기(14)는 음성 코더로서 형성될 수 있다.

파라미터 결정은 또한 VR 시스템(10)의 트레이닝동안 수행되고, VR 시스템(10)의 모든 어휘 단어들에 대한 템플릿의 세트는 영구 저장을 위해 VR 템플릿 데이터베이스(16)에 라우팅된다. VR 템플릿 데이터베이스(16)는 유용하게는 예를 들어, 플래시 메모리와 같은 비휘발성 저장 매체의 어떠한 종래 형태로서 형성된다. 이것은 VR 시스템(10)에 대한 전력이 턴 오프될 때 템플릿들이 VR 템플릿 데이터베이스에 남아있도록 한다.

파라미터들의 세트는 패턴 비교 로직(18)에 제공된다. 패턴 비교 로직(18)은 유용하게는 발성의 시작 및 종료 포인트를 탐지하고, 유동 음향 피쳐(예를 들어, 시간 도함수, 제 2 시간 도함수 등과 같은)를 계산하고, 관련 프레임들을 선택함으로써 음향 피쳐들을 압축하며 고정 및 유동 음향 피쳐들을 양자화한다. 엔드포인트 탐지, 유동 음향 피쳐 유도, 패턴 압축 및 패턴 양자화의 다양한 공지된 방법들은 여기서 참조로 통합되는 Lawrence Rabiner & Biing-Hwang Juang의 "음성 인식의 기초(1993)"에 기술된다. 패턴 비교 로직(18)은 파라미터들의 세트와 VR 템플릿 데이터베이스(16)에 저장된 템플릿들을 비교한다. 파라미터들의 세트와 VR 템플릿 데이터베이스(16)에 저장된 모든 템플릿간의 비교 결과 또는 거리는 결정 로직(20)에 제공된다. 결정 로직(20)은 VR 템플릿 데이터베이스(16)로부터 파라미터들의 세트와 가장 가깝게 매칭하는 템플릿을 선택한다. 선택적으로, 결정 로직(20)은 종래의 미리 정의된 매칭 임계값내에서 N번째 가까운 매치들을 선택하는 종래의 "N 최상" 선택 알고리즘을 사용할 수 있다. 상기 사람은 그후에 어느 선택을 원하는지를 문의받는다. 결정 로직(20)의 출력은 어휘의 단어가 어느것이 구술되는지의 결정이다.

패턴 비교 로직(18) 및 결정 로직(20)은 유용하게는 마이크로프로세서로 형성될 수 있다. VR 시스템(10)은 예를 들어, 응용 주문형 집적 회로(ASIC)일 수 있다. VR 시스템(10)의 인식 정확도는 VR 시스템(10)이 얼마나 정확하게 어휘의 구술된 단어 또는 어구들을 인식하는지의 측정이다. 예를 들어, 95%의 인식 정확도는 VR 시스템(10)이 100개중에 95번의 어휘 단어들을 정확하게 인식하는 것을 표시한다.

음향 처리기(14)내의 엔드포인트 탐지기(22)는 음성의 각 발성의 시작 포인트 및 종료 포인트에 포함되는 파라미터들을 결정한다. 엔드포인트 탐지기(22)는 음성 트레이닝 어구의 음성 템플릿으로 사용되거나 또는 음성 인식 상태의 최상의 매칭을 착기 위해 음성 템플릿들과 비교되는 유효한 발성을 포착하는 역할을 한다. 엔드포인트 탐지기(22)는 배경 잡음이 있을시의 VR 시스템(10)의 오류를 감소시키며, 그로인해 예를 들어, 음성 다이얼 및 무선 전화기의 음성 제어와 같은 기능들의 강화를 배가시킨다. 도 2를 참조하여 하기에 상세히 기술되는 바와 같이, 두개의 조절가능한 신호 대 잡음비 임계값들은 유효 발성을 포착하기 위해 엔드포인트 탐지기(22)에 형성된다. 제 1 임계값은 제 2 임계값보다 더 높다. 제 1 임계값은 발성의 상대적으로 강한 음성 세그먼트를 포착하는데 사용되고, 제 2 임계값은 예를 들어 자음과 같이 발성의 상대적으로 약한 세그먼트들을 찾는데 사용된다. 두개의 조절가능한 SNR 임계값은 VR 시스템(10)이 잡음에 강하도록 또는 어떤 음성 세그먼트에도 민감하도록 적절하게 조절될 수 있다.

일 실시예에서, 제 2 임계값은 앞서 언급된 미국 특허 No. 5,414,796에 기술된 보코더와 같은 13 kbps 보코더의 하프-레이트 임계값이고, 제 1 임계값은 13 kbps 보코더의 풀-레이트보다 4에서 10 dB 더 크다. 임계값들은 유용하게는 매 10 또는 20 밀리세컨즈마다 평가될 수 있는 배경 SNR에 조절가능하다. 배경 잡음(즉, 도로 잡음)은 자동차에서 변하기 때문에 상기의 것이 바람직하다. 일 실시예에서 VR 시스템(10)은 무선 전화기 핸드셋의 보코더에 내장되며, 엔드포인트 탐지기(22)는 두개의 주파수 대역, 0.3-2 kHz 및 2-4 kHz에서 SNR을 계산한다. 또 다른 실시예에서, VR 시스템(10)은 핸즈프리 카 킷에 내장되고 엔드포인트 탐지기(22)는 세개의 주파수 대역, 0.3-2 kHz, 2-3 kHz 및 3-4 kHz의 SNR을 계산한다.

일 실시예에 따라, 엔드포인트 탐지기는 발성의 엔드포인트를 탐지하기 위해 도 2의 흐름도에 도시된 방법 단계들을 수행한다. 도 2에 기술된 알고리즘 단계들은 유용하게는 종래의 디지털 신호 처리 기술들로 형성될 수 있다.

단계(100)에서 데이터 버퍼 및 GAP으로 지칭되는 파라미터가 비워진다. LENGTH로 표시된 파라미터는 HEADER_LENGTH로 지칭되는 파라미터와 동일하게 세팅된다. LENGTH라 지칭되는 파라미터는 엔드포인트가 탐지되는 발성의 길이를 추적한다. 여러 파라미터들이 유용하게 엔드포인트 탐지기의 레지스터에 저장될 수 있다. 데이터 버퍼는 아무도 대화하지 않는 경우에 메모리 공간을 절약하는 원형 버퍼일 수 있다. 엔드포인트 탐지기를 포함하는 음향 처리기(도시되지 않음)는 발성당 고정된 수의 프레임들에서 실시간의 음성 발성을 처리한다. 일 실시예에서 프레임당 10밀리세컨즈가 존재한다. 엔드포인트 탐지기는 시작 포인트로부터 어떤 수의 음성 프레임들을 "재검토"해야 하는데 이것은 음향 처리기(도시되지 않음)가실시간 처리를 수행하기 때문이다. HEADER의 길이는 시작 포인트로부터 재검토할 프레임들이 얼마인지를 결정한다. HEADER의 길이는 예를 들어 10에서 20 프레임일 수 있다. 단계(100)를 완료한 후에, 알고리즘은 단계(102)로 진행한다.

단계(102)에서 음성 데이터의 프레임은 로딩되고 SNR 평가는 도 4를 참조하여 하기에 기술된 바와 같이 업데이팅되거나, 재계산된다. 따라서, SNR 평가는 SNR 조건을 변경하는데 조절하도록 매 프레임당 업데이팅된다. 제 1 및 제 2 SNR 임계값은 도 4-6을 참조하여 하기에 기술된대로 계산된다. 제 1 SNR 임계값은 제 2 SNR 임계값보다 높다. 단계(102)를 완료한후에, 알고리즘은 단계(104)로 진행한다.

단계(104)에서 현재 또는 순간의 SNR은 제 1 SNR 임계값과 비교된다. 미리 정의된 수 N의 연속 프레임들의 SNR이 제 1 SNR 임계값보다 크면, 알고리즘은 단계 (106)로 진행한다. 반면에, N개의 연속 프레임들의 SNR이 제 1 임계값보다 크지 않으면, 알고리즘은 단계(108)로 진행한다. 단계(108)에서 알고리즘은 HEADER에 포함된 프레임들을 갖는 데이터 버퍼를 업데이팅한다. 알고리즘은 그후에 단계(104)로 복귀한다. 일 실시예에서 N의 수는 3이다. 세개의 연속 프레임들과의 비교는 목적물들을 평균시켜서 이루어진다. 예를 들어, 하나의 프레임만이 사용되면, 상기 프레임은 잡음 피크를 포함할 수 있다. 결과 SNR은 세개의 연속 프레임을 통해 평균된 SNR의 표시가 아닐 것이다.

단계(106)에서 음성 데이터의 다음 프레임이 로딩되고 SNR 평가가 업데이팅된다. 알고리즘은 그후에 단계(110)로 진행한다. 단계(110)에서 현재 SNR은 발성의 엔드포인트를 결정하기 위해 제 1 SNR 임계값과 비교된다. SNR이 제 1 SNR 임계값보다 작으면, 알고리즘은 단계(112)로 진행한다. 반면에, SNR이 제 1 SNR 임계값보다 작지 않으면, 알고리즘은 단계(114)로 진행한다. 단계(114)에서 파라미터 GAP은 비워지고 파라미터 LENGTH는 하나만큼 증가한다. 알고리즘은 그후에 단계(106)로 복귀한다.

단계(112)에서 파라미터 GAP은 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(116)로 진행한다. 단계(116)에서 파라미터 GAP은 GAP_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_THRESHOLD는 대화하는 동안의 단어간의 갭을 표시한다. 파라미터 GAP_THRESHOLD는 유용하게는 200에서 400 밀리세컨즈로 세팅될 수 있다. GAP이 GAP_THRESHOLD보다 크면, 알고리즘은 단계(118)로 진행한다. 또한 단계(116)에서, 파라미터 LENGTH는 단계(154)와 연관하여 하기에 기술되는 MAX_LENGTH로 지칭되는 파라미터와 비교된다. LENGTH가 MAX_LENGTH보다 크거나 또는 같으면, 알고리즘은 단계(118)로 진행한다. 그러나, 단계(116)에서 GAP이 GAP_THRESHOLD보다 크지 않으면, 그리고 LENGTH가 MAX_LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(120)로 진행한다. 단계(120)에서 파라미터 LENGTH는 하나만큼 증가된다. 알고리즘은 그후에 음성 데이터의 다음 프레임을 로딩하도록 단계(106)로 복귀한다.

단계(118)에서 알고리즘은 발성의 시작 포인트에 대한 재검색을 시작한다. 상기 알고리즘은 유용하게는 20개 프레임을 포함할 수 있는 HEADER에 저장된 프레임들을 재검색한다. PRE_START는 HEADER와 동일하게 세팅된다. 상기 알고리즘은또한 상기 발성의 엔드포인트를 탐색하고, LENGTH와 GAP의 차와 동일한 PRE_END로 지칭되는 파라미터를 세팅하기 시작한다. 상기 알고리즘은 그후에 단계(122, 124)로 진행한다.

단계(122)에서 포인터 i는 PRE_START 에서 하나를 뺀값과 동일하게 세팅되고, GAP_START로 지칭되는 파라미터는 비워진다(즉, GAP_START는 0으로 세팅된다). 포인터 i는 발성의 시작 포인트를 표시한다. 상기 알고리즘은 그후에 단계(126)로 진행한다. 유사하게, 단계(124)에서 포인터 j는 PRE_END와 같은 값으로 세팅되고, GAP_END로 지칭되는 파라미터는 비워진다. 상기 포인터 j는 발성의 엔드포인트를 표시한다. 상기 알고리즘은 그후에 단계(128)로 진행한다. 도 3에 도시된 바와 같이, 마주하는 단부에서 화살표를 갖는 제 1 라인 세그먼트는 발성의 길이를 도시한다. 상기 라인의 단부는 발성의 실제 시작 및 종료 포인트(즉, END - START)를 표시한다. 제 1 라인 세그먼트 아래에 도시된, 마주하는 단부에서 화살표를 갖는 제 2 라인 세그먼트는 포인터 i의 시작 값을 표시하는 좌측끝 단부 및 포인터 j의 시작 값을 표시하는 우측끝 단부를 갖는 PRE_END 빼기 PRE_START 값을 표시한다.

단계(126)에서 알고리즘은 프레임 번호 i의 현재 SNR을 로딩한다. 상기 알고리즘은 그후에 단계(130)로 진행한다. 유사하게, 단계(128)에서 알고리즘은 프레임 수 j의 현재 SNR을 로딩한다. 상기 알고리즘은 단계(132)로 진행한다.

단계(130)에서 알고리즘은 프레임 수 i의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(134)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(136)로 진행한다. 유사하게, 단계(132)에서 알고리즘은 프레임 수 j의 현재 SNR과 제 2 SNR 임계값을 비교한다. 현재 SNR이 제 2 SNR 임계값보다 작으면, 알고리즘은 단계(138)로 진행한다. 반면에, 현재 SNR이 제 2 SNR 임계값보다 작지 않으면, 알고리즘은 단계(140)로 진행한다.

단계(136)에서 GAP_START는 비워지고 포인터 i는 하나만큼 감소한다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 유사하게, 단계(140)에서 GAP_END는 비워지고 포인터 j는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.

단계(134)에서 GAP_START는 하나만큼 증가한다. 상기 알고리즘은 그후에 단계(142)로 진행한다. 유사하게, 단계(138)에서 GAP_END는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(144)로 진행한다.

단계(142)에서 GAP_START는 GAP_START_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_START_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한다. GAP_START가 GAP_START_THRESHOLD보다 크거나, 또는 포인터 i가 0보다 작거나 같으면, 알고리즘은 단계(146)로 진행한다. 반면에, GAP_START가 GAP_START_THRESHOLD보다 크지 않고, 포인터 i가 0보다 작지 않거나 같으면, 알고리즘은 단계(148)로 진행한다. 유사하게, 단계(144)에서 GAP_END는 GAP_END_THRESHOLD로 지칭되는 파라미터와 비교된다. 상기 파라미터 GAP_END_THRESHOLD는 구술된 단어들내의 음소들간의 갭, 또는 빠르게 연속하여 구술된 대화에서 근접한 단어들간의 갭을 표시한다. GAP_END가 GAP_END_THRESHOLD보다 크거나, 또는 포인터 j가 LENGTH보다 크거나 같으면, 알고리즘은 단계(150)로 진행한다. 반면에, GAP_END가 GAP_END_THRESHOLD보다 크지 않고, 포인터 j가 LENGTH보다 크지 않거나 또는 같으면, 알고리즘은 단계(152)로 진행한다.

단계(148)에서 포인터 i는 하나만큼 감소된다. 상기 알고리즘은 그후에 단계(126)로 복귀한다. 단계(152)에서 포인터 j는 하나만큼 증가된다. 상기 알고리즘은 그후에 단계(128)로 복귀한다.

단계(146)에서 발성의 실제 시작 포인트를 표시하는 START로 지칭되는 파라미터는 포인터 i에서 GAP_START를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다. 유사하게, 단계(150)에서 발성의 실제 종료 포인트를 표시한느 END로 지칭되는 파라미터는 포인터 j에서 GAP_END를 뺀 값과 동일하게 세팅된다. 상기 알고리즘은 그후에 단계(154)로 진행한다.

단계(154)에서 END에서 START를 뺀 값은 VR 디바이스의 어휘내의 가장 짧은 단어의 길이보다 작은 길이를 표시하는 미리 정의된 값인 MIN_LENGTH로 지칭되는 파라미터와 비교된다. END에서 START를 뺀 값은 또한 VR 디바이스의 어휘내의 가장 긴 단어보다 더 큰 길이를 표시하는 미리 정의된 값인 파라미터 MAX_LENGTH와 비교된다. 일 실시예에서 MIN_LENGTH는 100 밀리세컨즈이고 MAX_LENGTH는 2.5 초이다. END에서 START를 뺀 값이 MIN_LENGTH 보다 크거나 같고 MAX_LENGTH 보다 작거나 같으면, 유효한 발성이 포착된다. 반면에, END에서 START를 뺀 값이 MIN_LENGTH보다 작거나 또는 MAX_LENGTH보다 크면, 발성은 무효화된다.

도 5에서, SNR 평가(dB)는 무선 전화기에 내장되는 엔드포인트 탐지기에 대한 순간 SNR(dB)에 대해 형성되며, SNR 평가상에 기초한 제 1 및 제 2 SNR 임계값의 전형적인 세트가 도시된다. 예를 들어, SNR 평가가 40 dB아면, 제 1 임계값은 19 dB가 되고 제 2 임계값은 대략 8.9 dB일 것이다. 도 6에서, SNR 평가(dB)는 핸즈프리 카 킷에 내장되는 엔드포인트 탐지기에 대한 순간 SNR(dB)에 대해 형성되며, 상기 SNR 평가에 기초한 제 1 및 제 2 SNR 임계값들의 전형적인 세트가 도시된다. 예를 들어, 순간 SNR이 15 dB라면, 제 1 임계값은 약 15 dB이고 제 2 임계값은 대략 8.2 dB일 것이다.

일 실시예에서, 도 3과 연관하여 기술된 평가 단계(102, 106) 및 비교 단계(104, 110, 130, 132)는 도 4의 흐름도에 도시된 단계들에 따라 수행된다. 도 4에서, SNR 평가 단계(도 3의 단계(102) 또는 단계(106))는 참조 숫자 102(간략화를 위해)로 라벨링되고 띠선으로 표시되어 도시된 다음의 단계들에 의해 수행된다. 단계(200)에서 이전의 프레임에 대한 대역 에너지(BE) 값 및 평활 대역 에너지 값(E^SM)은 다음과 같은 현재 프레임에 대한 평활 대역 에너지 값(E^SM)을 계산하는데 사용된다.

E^SM= 0.6E^SM+ 0.4BE

단계(200)의 계산이 완료된 후에, 단계(202)가 수행된다. 단계(202)에서 현재 프레임에 대한 평활화 배경 에너지 값(B^SM)이 이전 프레임에 대한 평활화 배경에너지 값(B^SM)의 1.03배가 최소값으로 결정되고 현재 프레임에 대한 평활화 대역 에너지 값(E^SM)은 다음과 같다.

B^SM= min(1.03B^SM, E^SM)

단계(202)의 계산이 완료된 후에, 단계(204)가 수행된다. 단계(204)에서 현재 프레임에 대한 평활화 신호 에너지 값(S^SM)은 이전 프레임에 대한 평활화 신호 에너지 값(S^SM)의 0.97배가 최대값으로 결정되고 현재 프레임에 대한 평활화 대역 에너지 값(E^SM)은 다음과 같다.

S^SM= max(0.97S^SM, E^SM)

단계(204)의 계산이 완료된 후에, 단계(206)가 수행된다. 단계(206)에서 현재 프레임에 대한 SNR 평가(SNR^EST)는 현재 프레임에 대한 평활화 신호 에너지 값(S^SM)으로부터 계산되고 현재 프레임에 대한 평활화 배경 에너지 값(B^SM)은 다음과 같다.

SNR^EST= 10log₁₀(S^SM/B^SM)

단계(206)의 계산이 완료된 후에, 제 1 또는 제 2 SNR 임계값을 형성하기 위해(제 1 SNR 임계값에 대한 도 3의 단계(104) 또는 단계(110), 제 2 SNR 임계값에대한 도 3의 단계(130) 또는 단계(132)) 순간 SNR과 평가된 SNR(SNR^EST)을 비교하는 단계는 참조 숫자 104(간략화를 위해)로 라벨링되고 띠선으로 표시되어 있는 단계(208)의 비교를 행함으로써 수행된다. 단계(208)의 비교는 순간 SNR(SNR^INST)에 대한 다음의 식을 사용한다.

SNR^INST= 10log₁₀(BE/B^SM)

따라서, 단계(208)에서 현재 프레임에 대한 순간 SNR(SNR^INST)은 다음의 식에 따라 제 1 또는 제 2 SNR 임계값과 비교된다.

SNR^INST> Threshold(SNR^EST)?

일 실시예에서, VR 시스템은 무선 전화기에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상의 현재 프레임에 대해 SNR 평가(SNR^EST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 5의 그래프로부터 얻어질 수 있다. 또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되어 있고, 제 1 및 제 2 SNR 임계값들은 수평축상의 현재 프레임에 대해 SNR 평가(SNR^EST)를 위치시키고 도시된 제 1 및 제 2 임계값 곡선을 갖는 교차 포인트로서 제 1 및 제 2 임계값들을 처리함으로써 도 6의 그래프로부터 얻어질 수 있다.

순간 SNR(SNRINST)은 예를 들어, 본 발명의 양수인에게 양도되고 여기서 참조로 통합되는 미국 특허 Nos. 5,742,734 및 5,341,456에 기술된 SNR 계산 방법을 포함하는 어떤 공지된 방법에 따라서도 계산될 수 있다. SNR 평가(SNR^EST)는 어떠한 값으로도 초기화될 수 있지만, 유용하게는 하기에 기술된 바와 같이 초기화될 수 있다.

일 실시예에서, VR 시스템은 무선 전화기에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(E^SM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 고주파수 대역(2-4 kHz)에 대한 평활화 대역 에너지(E^SM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(B^SM)의 초기 값은 저주파수 대역에 대해 5059644로 고주파수 대역에 대해 5059644로 세팅된다(상기 유니트들은 입력 신호의 디지털화된 샘플들의 자승의 합으로부터 계산되는 신호 에너지의 양자화 레벨이다). 평활화된 신호 에너지(S^SM)의 초기 값은 저주파수 대역에 대해 3200000으로 고주파수 대역에 대해 3200000으로 세팅된다.

또 다른 실시예에서, VR 시스템은 핸즈프리 카 킷에 내장되고, 저주파수 대역(0.3-2 kHz)에 대한 평활화 대역 에너지(E^SM)의 초기 값(즉, 제 1 프레임의 값)은 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일하게 세팅된다. 중간 주파수 대역(2-3 kHz) 및 고주파수 대역(3-4 kHz)에 대한 평활화 대역 에너지(E^SM)의 초기 값은 또한 제 1 프레임에 대한 입력 신호 대역 에너지(BE)와 동일한 값으로 세팅된다. 평활화 배경 에너지(B^SM)의 초기 값은 저주파수 대역에 대해 5059644로 고주파수 대역에 대해 5059644로 세팅된다. 평활화된 신호 에너지(S^SM)의 초기 값은 저주파수 대역에 대해 3200000으로 중간주파수 대역에 대해 250000으로, 고주파수 대역에 대해 70000으로 세팅된다.

따라서, 잡음이 있을 때 음성의 정확한 엔드포인팅을 위한 신규하고 개선된 방법 및 장치가 기술되었다. 상기 기술된 실시예들은 유용하게는 적절하게 높은 제 1 SNR 임계값을 세팅함으로써 엔드포인트 탐지기의 잘못된 트리거링을 피하거나, 또는 적절하게 낮은 제 2 SNR 임계값을 세팅함으로써 어떤 약한 음성 세그먼트를 빠뜨리지 않는다.

당업자는 여기에 개시된 실시예들과 관련하여 기술된 여러 예시적인 로직 블록 및 알고리즘 단계들이 디지털 신호 처리기(DSP), 응용 주문형 집적 회로(ASIC), 분리 게이트 또는 트랜지스터 로직, 예를 들어, 레지스터 및 FIFO와 같은 분리 하드웨어 소자, 펌웨어(firmware) 명령 세트를 실행하는 처리기 또는 종래의 어떠한 프로그램가능 소프트웨어 모듈 및 처리기로 실행되거나 수행될 수 있다. 처리기는 유용하게는 마이크로프로세서일 수 있지만 선택적으로 상기 처리기는 종래의 처리기, 제어기, 마이크로제어기, 또는 상태 컴퓨터일 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, 레지스터, 또는 기술분야에 공지된 기록가능한 저장 매체의 어떤 다른 형태로 내장될 수 있다. 당업자는 상기 기술을 통해 참조될 수있는 데이터, 인스트럭션, 명령, 정보, 신호, 비트, 기호 및 칩들이 전압, 전류, 전자기파, 자기장 또는 자기입자들, 광필드 또는 입자 또는 다른 조합으로 표시된다.

본 발명의 바람직한 실시예들이 도시되고 기술되었다. 그러나, 수많은 변형들이 본 발명의 정신 또는 범위를 벗어나지 않고서 여기에 개시된 실시예들에 제조될 수 있음을 알 것이다. 따라서, 본 발명은 다음의 청구항에 따른 범위를 제외하고는 제한되지 않는다.

Claims

발성의 엔드포인트를 탐지하는 장치로서,

처리기; 및

발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 상기 발성과 제 1 임계값을 비교하고, 상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하고, 상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하기 위해 상기 처리기에 의해 실행가능한 소프트웨어 모듈을 포함하는 장치.
제 1 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 장치.
제 1 항에 있어서, 상기 제 1 및 제 2 임계값들은 주기적으로 재계산되는 것을 특징으로 하는 장치.
제 1 항에 있어서, 상기 제 1 임계값은 제 2 임계값을 초과하는 것을 특징으로 하는 장치.
제 1 항에 있어서, 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이는 미리 정의된 최대 및 최소 길이 한도에 의해 제약되는 것을 특징으로 하는 장치.
발성의 엔드포인트를 탐지하는 방법으로서,

상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 단계;

상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하는 단계; 및

상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 단계를 포함하는 방법.
제 6 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 방법.
제 6 항에 있어서, 주기적으로 제 1 및 제 2 임계값들을 재계산하는 단계를 더 포함하는 방법.
제 6 항에 있어서, 상기 제 1 임계값은 상기 제 2 임계값을 초과하는 것을 특징으로 하는 방법.
제 6 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 단계를 더 포함하는 방법.
발성의 엔드포인트를 탐지하는 장치로서,

상기 발성의 제 1 시작 포인트 및 제 1 종료 포인트를 결정하기 위해 제 1 임계값과 상기 발성을 비교하는 수단;

상기 발성의 제 2 시작 포인트를 결정하기 위해 상기 제 1 시작 포인트에 앞서 오는 발성의 일부와 제 2 임계값을 비교하는 수단; 및

상기 발성의 제 2 종료 포인트를 결정하기 위해 상기 제 1 종료 포인트의 뒤에 오는 발성의 일부와 상기 제 2 임계값을 비교하는 수단을 포함하는 장치.
제 11 항에 있어서, 상기 제 1 및 제 2 임계값들은 신호 대 잡음비에 기초하는 것을 특징으로 하는 장치.
제 11 항에 있어서, 상기 제 1 및 제 2 임계값들을 주기적으로 재계산하는 수단을 더 포함하는 장치.
제 11 항에 있어서, 상기 제 1 임계값은 상기 제 2 임계값을 초과하는 것을특징으로 하는 장치.
제 11 항에 있어서, 미리 정의된 최대 및 최소 길이 한도에 의해 상기 제 2 종료 포인트 및 상기 제 2 시작 포인트간의 차이를 제한하는 수단을 더 포함하는 장치.