KR100854044B1 - 음성 인식 시스템에서의 발성 끝 검출 - Google Patents
음성 인식 시스템에서의 발성 끝 검출 Download PDFInfo
- Publication number
- KR100854044B1 KR100854044B1 KR1020067023520A KR20067023520A KR100854044B1 KR 100854044 B1 KR100854044 B1 KR 100854044B1 KR 1020067023520 A KR1020067023520 A KR 1020067023520A KR 20067023520 A KR20067023520 A KR 20067023520A KR 100854044 B1 KR100854044 B1 KR 100854044B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- token
- score
- speech recognizer
- scores
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006641 stabilisation Effects 0.000 claims description 6
- 238000011105 stabilization Methods 0.000 claims description 6
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013138 pruning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 인식 시스템들에 관한 것이며, 특히 그러한 시스템들에서 발성 끝 검출을 구성하는 것에 관한 것이다. 상기 시스템의 음성 인식기는 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성된다. 상기 음성 인식기는 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하도록 구성된다. 또한, 상기 인식 결과가 안정화된 것이면, 상기 음성 인식기는 상기 처리를 기반으로 하여, 발성 끝이 검출될 것인지 여부를 결정하도록 구성된다.
Description
본 발명은 음성 인식 시스템들에 관한 것이며, 더 상세하게는 음성 인식 시스템들에서의 발성 끝을 검출하는 것에 관한 것이다.
최근 몇 년간 여러 음성 인식 애플리케이션들, 예컨대 자동차 사용자 인터페이스들 및 이동 단말기들, 이를테면 이동 전화들, PDA장치들 및 포터블 컴퓨터들을 위한 음성 인식 애플리케이션들이 개발되어 왔다. 이동 단말기용으로 공지된 애플리케이션들은, 그/그녀의 이름을 이동 단말기의 마이크로폰에 소리 내어 말함으로써 그리고 사용자에 의한 음성 입력에 가장 상응하는 모델과 관련된 이름/번호에 따른 번호에 대해 호출(call)을 설정함으로써 특정인을 호출하는 방법들을 포함한다. 그러나 화자-의존(speacker-dependent) 방법들은 음성 인식 시스템들로 하여금 각각의 단어의 발음을 인식하도록 학습(train) 될 것을 요구하는 것이 일반적이다. 화자-독립(speacker-independent) 음성 인식은 음성-제어 사용자 인터페이스(speech-controlled interface)의 유용성을 개선한다. 왜냐하면, 상기 학습 단계가 생략될 수 있기 때문이다. 화자-독립 단어 인식에 있어서, 단어들의 발음은 사전에 저장될 수 있으며, 사용자에 의해 발성된 단어는 미리 정의된 발음, 이를테면 음소 시퀀스(phoneme sequence)에 의해 식별될 수 있다. 대부분의 음성 인식 시스템들은 HMM(Hidden Markov Model)들의 네트워크를 통해 검색을 구축하는 그리고 상기 네트워크의 각각의 상태에서 각각의 프레임 또는 타임 스텝에 대해 가장 적당한 경로 스코어(path score)를 유지하는 비터비 검색 알고리즘(Viterbi search algorithm)을 사용한다.
발성 끝(end of utterance; EOU) 검출은 음성 인식과 관련하여 중요한 측면이다. EOU 검출의 목적은 가능한 신뢰성 높게 그리고 가능한 빠르게 음성의 끝을 검출하는 것이다. EOU 검출이 이루어지면, 음성 인식기(speech recognizer)는 디코딩을 정지할 수 있고 그리고 사용자는 인식 결과를 얻게 된다. EOU 검출이 잘 이루어짐으로써, 인식률(recognition rate) 또한 개선될 수 있다. 왜냐하면 음성 후의 노이즈 부분이 생략되기 때문이다.
지금까지, 여러 가지 기술들이 EOU 검출용으로 개발되어 왔다. 예컨대, EOU 검출은 검출된 에너지, 검출된 부호 변환점(zero crossing)들, 또는 검출된 엔트로피 레벨을 기반으로 할 수 있다. 그러나 상기 방법들은 종종 이동 전화들과 같이 처리 능력이 한정된 제한적인 장치용으로 너무 복잡한 것으로 판명된다. 이동 장치에서 수행되는 음성 인식의 경우에 있어서, EOU 검출을 위한 정보를 모으는 적당한 장소는 음성 인식기의 디코더부이다. 각각의 타임 인덱스(한 프레임)에 대한 인식 결과가 발전하고 나면 인식 처리가 진행될 수 있다. 소정 수의 프레임들이 (실질적으로)동일한 인식 결과를 생성했을 때 EOU가 검출될 수 있고 그리고 디코딩이 정지될 수 있다. EOU 검출에 관한 이런 종류의 접근법은 출판물 "Top-Down Speech Detection and N-Best Meaning Search in a Voice Activated Telephone Extension System". ESCA. EuroSpeech 1995, Madrid, Sep. 1995.에서 Takeda K., Kuroiwa S., Naito M. 및 Yamamoto S.에 의해 제시되어 있다.
본 명세서에서 상기 접근법은 "인식 결과에 대한 안정성 검사"로 지칭된다. 그러나 상기 접근법이 실패하는 특정 상황들이 존재한다: 음성 데이터가 수신되기 전에 충분히 긴 침묵 부분(silence portion)이 존재하면, 알고리즘은 EOU 검출 신호를 송신한다. 따라서, 심지어 사용자가 말을 시작하기도 전에 음성의 끝이 잘못 검출될 수 있다. 안정성 검사 기반 EOU 검출을 사용할 때 특정 상황들에서 이름들/단어들 사이의 지연 또는 심지어 음성 중의 지연에 기인하여 EOU 검출들이 너무 빨리 일어날 수 있다. 잡음 많은 환경들에서는 이는 그러한 EOU 검출 알고리즘이 EOU를 전혀 검출할 수 없는 경우일 수 있다.
이하에서, 향상된 EOU 검출용 방법 및 장치가 제공된다. 본 발명의 여러 태양들은 음성 인식 시스템, 방법, 전자 장치, 및 컴퓨터 프로그램 생성물을 포함하며, 이들은 독립항들로 개시된 것을 특징으로 한다. 본 발명의 몇몇 실시예들은 종속항들로 개시되어 있다.
본 발명의 일 태양에 따르면, 데이터 처리 장치의 음성 인식기(speech recognizer)는 수신 음성 데이터로부터 결정되는 인식 결과가 안정화된 것인지를 결정하도록 구성된다. 또한, 상기 음성 인식기는 발성 끝(end of utterance) 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성된다. 인식 결과가 안정화된 것이면, 상기 음성 인식기는 최상 상태 스코어들 및 최상 토큰 스코어들의 처리를 기반으로, 발성 끝이 검출될 것인지 여부를 결정하도록 구성된다. 일반적으로 최상 상태 스코어란 음성 인식용 상태 모델(state model)의 다수 상태들 중에서 최고 확률을 가지는 상태를 말한다. 일반적으로 최상 토큰 스코어란 음성 인식용으로 사용되는 다수 토큰들 중에서 최고 확률의 토큰을 말한다. 상기 스코어들은 음성 정보를 포함하는 각각의 프레임을 위해 업데이트될 수 있다.
이와 같이 발성 끝에 대한 검출을 구성하는 장점은 음성 데이터가 수신되기 전의 침묵 기간(silent period)들, 음성 세그먼트들 사이의 지연들, 음성 중의 EOU 검출들, 및 (예컨대, 잡음에 의한)EOU 검출 실패들과 관련된 에러들을 감소시킬 수 있다는 것 또는 심지어 방지할 수 있다는 것이다. 또한, 미리 계산된 상태 스코어들 및 토큰 스코어들이 사용될 수 있기 때문에, 본 발명은 EOU 검출을 위한 계산 경제적인 방식을 제공한다. 따라서, 본 발명은 또한 이동 전화들 및 PDA 장치들 같은 소형 포터블 장치용으로 매우 적합하다.
본 발명의 일 실시예에 따르면, 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)이 계산된다. 인식 결과가 안정화된 것에 대한 응답으로, 상기 최상 상태 스코어 합은 소정의 임계 합 값(threshold sum value)과 비교된다. 상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 발성 끝 검출이 결정된다. 본 실시예는 위에서 언급한 에러들을 적어도 감소시킬 수 있으며, 특히 음성 데이터가 수신되기 전의 침묵 기간들과 관련된 에러들 및 통화 중 EOU 검출들과 관련된 에러들에 대해 유용하다.
본 발명의 일 실시예에 따르면, 최상 토큰 스코어 값들이 반복적으로 결정되고, 그리고 상기 최상 토큰 스코어 값들의 기울기가 2 이상의 최상 토큰 스코어 값들을 기반으로 결정된다. 상기 기울기는 소정의 임계 기울기값(threshold slope value)과 비교된다. 상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면 발성 끝 검출이 결정된다. 본 실시예는 음성 데이터가 수신되기 전의 침묵 기간들 및 또한 단어들 사이의 긴 중단 시간들과 관련된 에러들을 적어도 감소시킬 수 있다. 상기 최상 토큰 스코어 기울기가 잡음을 매우 잘 견디기 때문에, 본 실시예는 특히 음성 중의 EOU 검출들과 관련된 에러들에 대해 유용하다(그리고 상기 실시예보다 더 유용하다).
이하, 첨부도면들을 참조하면서 바람직한 실시예들을 통해 본 발명을 더욱 상세하게 설명한다.
도 1은 본 발명에 따른 음성 인식 시스템이 구현될 수 있는 데이터 처리 장치를 보여주는 도면이다.
도 2는 본 발명의 몇몇 태양에 따른 방법에 관한 흐름도이다.
도 3a 내지 도 3c는 본 발명의 일 태양에 따른 몇몇 실시예들을 예시하는 흐름도들이다.
도 4a 및 도 4b는 본 발명의 일 태양에 따른 몇몇 실시예들을 예시하는 흐름 도들이다.
도 5는 본 발명의 일 태양에 따른 일 실시예에 관한 흐름도이다.
도 6은 본 발명의 일 실시예에 관한 흐름도이다.
도 1에는 본 발명의 일 실시예에 따른 데이터 처리 장치(TE)의 간략화된 구조가 도시되어 있다. 상기 데이터 처리 장치(TE)는 예컨대, 이동 전화, PDA 장치 또는 그 밖의 몇몇 타입의 포터블 전자 장치, 또는 그들의 일부이거나 보조 모듈일 수 있다. 다른 몇몇 실시예들에 있어서 상기 데이터 처리 장치(TE)는 랩탑/데스크탑 컴퓨터 또는 다른 시스템의 통합 부분, 예컨대 차량 정보 제어 시스템의 일부일 수 있다. 상기 데이터 처리 장치(TE)는 I/O 수단(I/O), 중앙 처리 장치(CPU) 및 메모리(MEM)을 포함한다. 상기 메모리(MEM)는 ROM부(read only memory portion) 및 재기록가능부(rewriteable portion), 이를테면 RAM(random access memory) 및 플래시 메모리를 포함한다. 다른 외부 파티들, 예컨대 CD-ROM, 그 밖의 장치들 및 사용자와 통신하는데 사용되는 정보는 상기 I/O 수단(I/O)을 통해 상기 중앙 처리 장치(CPU)로/로부터 전송된다. 상기 데이터 처리 장치가 이동국으로 구현된다면, 이는 트랜시버(Tx/Rx)를 포함하는 것이 전형적이며, 상기 트랜시버는 안테나를 통해 무선 네트워크와, 전형적으로는 기지 트랜시버 국과 통신한다. 사용자 인터페이스(user interface; UI) 장치는 디스플레이, 키패드, 마이크로폰 및 확성기 를 포함하는 것이 전형적이다. 상기 데이터 처리 장치(TE)는 여러 하드웨어 모듈을 위한 연결 수단(MMC), 이를테면 표준형 슬롯을 포함할 수 있으며, 상기 하드웨어 모듈들 은 여러 가지 애플리케이션들을 제공하여 상기 데이터 처리 장치에서 실행되도록 할 수 있다.
상기 데이터 처리 장치(TE)는 중앙 처리 장치(CPU)에서 실행되는 소프트웨어에 의해 구현될 수 있는 음성 인식기(SR)를 포함한다. 상기 SR은 음성 인식기 장치와 관련되는 전형적 기능들을 구현하며, 본질적으로 이는 음성 시퀀스들 및 심볼 시퀀스들의 소정 모델들 사이의 매핑을 발견한다. 아래에서 가정하겠지만, 음성 인식기(SR)에는 아래 예시된 기능들 중 적어도 몇몇 기능들을 지니는 발성 끝 검출 수단이 제공된다. 또한 발성 끝 검출기가 개별 엔티티로 구현되는 것도 가능하다.
따라서, 발성 끝 검출과 관련되는 그리고 아래에서 더 상세히 설명되는 본 발명의 기능은 데이터 처리 장치(TE)에서 컴퓨터 프로그램에 의해 구현될 수 있으며, 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)에서 실행될 때, 상기 컴퓨터 프로그램은 상기 데이터 처리 장치에 본 발명의 절차들을 구현하도록 작용한다. 상기 컴퓨터 프로그램의 기능들은 서로 통신하는 몇몇 개별 프로그램 컴포넌트에 분배될 수 있다. 일 실시예에 있어서, 본 발명의 기능들을 발생시키는 컴퓨터 프로그램 코드 부분들은 음성 인식기(SR) 소프트웨어의 일부일 수 있다. 상기 컴퓨터 프로그램은 임의의 메모리 수단, 예컨대 PC의 하드디스크 또는 CD-ROM 디스크에 저장될 수 있으며, 상기 컴퓨터 프로그램은 상기 메모리 수단으로부터 이동국(MS)의 메모리(MEM)로 다운로드될 수 있다. 또한, 상기 컴퓨터 프로그램은 예컨대, TCP/IP 프로토콜 스택을 사용하여 네트워크를 통해 다운로드될 수 있다.
또한, 본 발명의 수단을 구현하기 위해 하드웨어 솔루션들 또는 하드웨어 및 소프트웨어 솔루션들의 조합을 사용하는 것이 가능하다. 따라서, 하드웨어 모듈로서 상기 하드웨어 모듈을 전자 장치와 연결하는 수단 및 상기 프로그램 코드 태스크들을 수행하는 여러 수단들을 포함하는 하드웨어 모듈에서, 상기 컴퓨터 프로그램 생성물들은 각각 적어도 부분적으로는 하드웨어 솔루션, 예컨대 ASIC 또는 FPGA 회로들로 구현될 수 있으며, 상기 수단들은 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
일 실시예에 있어서, 음성 인식은 SR에서 HMM(Hidden Markov model)들을 사용함으로써 구성된다. 비터비 검색 알고리즘(Viterbi search algorithm)은 목표 단어들에 대한 매치(match)를 발견하기 위해 사용될 수 있다. 상기 알고리즘은 HMM(Hidden Markov Model)들의 네트워크들 통해 검색을 구축하고 그리고 각각의 프레임 또는 타임 스텝에 대해 상기 네트워크의 각각의 상태에서 가장 적당한 경로 스코어를 유지하는 동적 알고리즘이다. 상기 검색 처리는 타임-동기식(time-synchronous)이다: 이는 다음 프레임으로 이동하기 전에 현재 프레임에서 모든 상태(state)들을 완전히 처리한다. 각각의 프레임에서, 현재 모든 경로들에 대한 경로 스코어들이 관리 음향 및 언어 모델(governing acoustic and language model)들과의 비교를 기반으로 하여 계산된다. 모든 음성 데이터가 처리되었을 때, 최고 스코어를 지니는 경로가 최상의 가정(best hypothesis)이다. 비터비 검색 공간을 감소시키기 위해 그리고 검색 속도를 개선하기 위해 몇몇 프루닝 기술(pruning technique)들이 사용될 수 있다. 전형적으로, 상기 검색에서 각각의 프레임에 임계치가 설정되며, 그에 의해 스코어가 상기 임계치보다 높은 경로들만이 다음 프레임 으로 확장되도록 한다. 다른 모든 경로들은 제거된다. 가장 흔히 사용되는 프루닝 기술은 스코어가 지정된 범위에 속하는 경로들만을 발전시키는 빔 프루닝(beam pruning)이다. 음성 인식을 기반으로 하는 HMM에 관한 더 상세한 설명을 위해서는, HTK(Hidden Markov Model Toolkit) 홈페이지 http://htk.eng.cam.ac.uk/에서 이용할 수 있는 HTK를 참조한다.
도 2에는 향상된 다언어 자동 음성 인식 시스템(multilingual automatic speech recognition system)에 관한 일 실시예로서, 예컨대 상기 데이터 처리 장치(TE)에 적용가능한 일 실시예가 예시되어 있다.
도 2에 도시된 예시된 방법에서, 음성 인식기(SR)는 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 계산(201)하도록 구성된다. 상태 스코어 계산에 관한 더 상세한 설명을 위해서는, 본 명세서에 참조로서 통합되어 있는 HTK의 제1.2장 및 제1.3장을 참조한다. 더 구체적으로, 다음의 공식(HTK의 제1.8장)은 상태 스코어들이 어떻게 계산될 수 있는지를 결정한다. HTK는 타임 t에서의 각각의 관찰 벡터(observation vector)로 하여금 S개의 독립 데이터 스트림들(o st )로 분리되도록 한다. 그때 출력 분포 b j (o t )를 계산하는 공식은,
이며, 상기 공식 (1)에서 M s 는 스트림(s)의 혼합 컴포넌트(mixture component)들의 수이고, c jsm 은 m번째 컴포넌트의 웨이트(weight)이고 그리고 N(.;μ,Σ)은 평균 벡터(mean vector; μ) 및 공분산 매트릭스(covariance matrix; Σ)를 지니는 다변수 가우시안(multivariate Gaussian), 즉:
이며, 상기 공식 (2)에서 n은 o의 차수(dimensionality)이다. 상기 지수 r s 는 스트림 웨이트이다. 최상 상태 스코어를 결정하기 위해서, 상태 스코어들에 관한 정보가 유지된다. 최상 상태 스코어를 주는 상태 스코어가 최상 상태 스코어로서 결정된다. 유의할 점은, 상기 공식들을 엄격하게 따를 필요는 없으며, 상태 스코어들은 다른 방식들로도 계산될 수 있다는 것이다. 예컨대, 공식 (1)에서의 s에 관한 프로덕트(product)는 계산에서 생략될 수 있다.
토큰 패싱(token passing)은 상태들 사이의 스코어 정보를 전송하기 위해 사용된다. (타임 프레임 t에서)HMM의 각각의 상태는 부분 로그 확률(partial log probability)에 관한 정보를 포함하는 토큰을 보유한다. 토큰은 (타임 t에 이르기까지의)관찰 시퀀스(observation) 및 모델 사이의 부분 매치(partial match)를 나타낸다. 토큰 패싱 알고리즘(token passing algorithm)은 각각의 타임 프레임에서 토큰들을 전달하고 업데이트하며, 그리고 (타임 t-1에서 최고 확률을 가지는)최상 토큰을 (타임 t에서)다음 상태로 통과시킨다. 각각의 타임 프레임에서, 토큰의 로그 확률은 대응 전이 확률(transition probability)들 및 방출 확률(emission probability)들에 의해 축적된다. 따라서 모든 가능 토큰들을 검사하고 그리고 최상 스코어들을 지니는 토큰들을 선택함으로써 최상 토큰 스코어들이 발견된다. 각각의 토큰은 검색 트리(네트워크)를 통과하기 때문에, 상기 각각의 토큰은 자신의 경로(route)를 기록하는 히스토리(history)를 유지한다. 토큰 패싱 및 토큰 스코어들에 관한 더 상세한 설명을 위해서는, "Token passing: a Simple Conceptual model for Connected Speech Recognition System", Young, Russell, Thonton, Cambridge University Engineering Department, july 31, 1989를 참조하며, 이는 본 명세서에 참조로서 통합되어 있다.
음성 인식기(SR)는 또한, 수신 음성 데이터에 의해 결정된 인식 결과들이 안정화된 것인지를 결정(202, 203)하도록 구성된다. 인식 결과들이 불안정하다면, 음성 처리가 계속될 수 있으며(205), 또한 다음 프레임들에 대해 다시 단계(201)로 들어갈 수 있다. 단계(202)에서 전형적인 안정화 검사 기술들이 사용될 수 있다. 인식 결과가 안정화된 것이면, 상기 음성 인식기는 최상 상태 스코어 및 최상 토큰의 처리를 기반으로 발성 끝이 검출될 것인지 여부를 결정(204)하도록 구성된다. 최상 상태 스코어들 및 최상 토큰 스코어들의 처리가 또한 음성이 끝났음을 지시한다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정하고 그리고 음성 처리를 끝내도록 구성된다. 그렇지 않은 경우라면 음성 처리는 계속되고, 또한 다음 음성 프레임들에 대해 단계(201)로 되돌아갈 수 있다. 또한, 최상 상태 스코어들 및 최상 토큰 스코어들과 적절한 임계값들을 사용함으로써, 오직 안정화 검사만을 사용하는 EOU 검출과 관련된 에러들이 적어도 감소될 수 있다. 단계(204)에서 음성 인식용으 로 이미 계산된 값들이 사용될 수 있다. 인식 결과가 안정화된 경우에만 몇몇 또는 모든 최상 상태 스코어 및/또는 최상 토큰 스코어의 처리가 EOU 검출을 위해 수행되는 것이 가능하며, 그렇지 않은 경우 이들은 새로운 프레임들을 고려하여 지속적으로 처리될 수 있다. 이하에서, 더 상세한 몇몇 실시예들이 예시된다.
도 3a에는, 최상 상태 스코어들과 관련된 일 실시예가 예시되어 있다. 음성 인식기(SR)는 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산(301)하도록 구성된다. 이는 각각의 프레임에 대해 계속적으로 수행될 수 있다.
음성 인식기(SR)는 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교(302, 303)하도록 구성된다. 도 3a에 도시되지 않았지만, 일 실시예에 있어서, 인식 결과가 안정화된 것에 대한 응답으로 상기 단계로 들어간다. 상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정(304)하도록 구성된다.
도 3b에는, 도 3a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 단계(310)에서, 음성 인식기(SR)는 최상 상태 스코어 합을 정규화하도록 구성된다. 상기 정규화는 검출된 침묵 모델(silence model)들의 수에 의해 수행될 수 있다. 상기 단계(310)는 단계(301) 이후에 수행될 수 있다. 단계(311)에서 음성 인식기(SR)는 상기 정규화 최상 상태 스코어 합을 소정의 임계 합 값과 비교하도록 구성된다. 따라서, 단계(311)은 도 3a의 실시예에서 단계(302)를 대체할 수 있다.
도 3c에는, 도 3a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 음성 인식기(SR)는 또한 상기 임계 합 값을 초과하는 (가능한 한 정규화된)최상 상태 스코어 합들의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합들의 최소 필요 수를 정의하는 소정의 최소 수 값(minimum number value)과 비교(320)하도록 구성된다. 예컨대, "예"가 검출되면 단계(303) 이후, 그러나 단계(304) 전에 상기 단계(320)로 들어갈 수 있다. (따라서, 단계(304)를 대체할 수 있는)단계(321)에서, 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하거나 또는 상기 소정의 최소 수 값보다 더 크다면, 상기 음성 인식기는 발성 끝 검출을 결정하도록 구성된다. 또한, 본 실시예는 너무 이른 발성 끝 검출들을 방지할 수 있도록 한다.
아래에는 최종#BSS 값들의 정규화된 합을 계산하는 알고리즘이 예시되어 있다.
상기 모범적인 알고리즘에 있어서, 정규화는 BSS 버퍼의 사이즈를 기반으로 수행된다.
도 4a에는, 발성 끝 검출을 위해 최상 토큰 스코어(best token score)들을 사용하는 일 실시예가 예시되어 있다. 단계(401)에서 음성 인식기(SR)는 (타임 T에서의)현재 프레임에 대해 최상 토큰 스코어 값을 결정하도록 구성된다. 상기 음성 인식기(SR)는 2 이상의 최상 토큰 스코어 값들을 기반으로 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산(402)하도록 구성된다. 상기 계산에서 사용되는 최상 토큰 스코어 값들의 양은 변경될 수 있다; 실험에 의하면 10보다 적은 최종의 최상 토큰 스코어 값들을 사용하는 것이 적당한 것으로 나타난다. 단계(403)에서 상기 음성 인식기(SR)는 상기 기울기를 소정의 임계 기울기 값(threshold slope value)과 비교하도록 구성된다. 상기 비교(403, 404)를 기반으로, 상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정할 수 있다(405). 그렇지 않다면, 음성 처리가 계속되고(406) 또한, 단계(401)이 계속될 수 있다.
도 4b에는, 도 4a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 단계(410)에서 음성 인식기(SR)는 또한 상기 임계 기울기 값을 초과하는 기울기들의 수를 상기 임계 기울기 값을 초과하는 기울기들의 소정의 최소 수와 비교하도록 구성된다. "예"가 검출된다면 단계(404) 이후에 그러나 단계(405) 전에 상기 단계(410)로 들어갈 수 있다. (따라서, 단계(405)를 대체할 수 있는)단계(411)에서, 상기 음성 인식기(SR)는 상기 임계 기울기 값을 초과하는 최상 상태 스코어 합들의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정하도록 구성된다.
다른 일 실시예에 있어서, 음성 인식기(SR)는 오직 소정 수의 프레임들이 수신된 후에만 기울기 계산들을 시작하도록 구성된다. 최상 토큰 스코어들과 관련된 상기 기능들 중 몇몇 또는 모든 기능들은 각각의 프레임에 대해 또는 단지 몇몇 프레임에 대해 반복될 수 있다.
아래에는 기울기 계산을 구성하는 알고리즘이 예시되어 있다:
상기 알고리즘에서 기울기 계산용 공식은:
도 5에 예시된 일 실시예에 따르면, 음성 인식기(SR)는 인터-워드 토큰(inter-word token)의 1 이상의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 1 이상의 최상 토큰 스코어를 결정(501)하도록 구성된다. 단계(502)에서 상기 음성 인식기(SR)는 상기 최상 토큰 스코어들을 비교하도록 구성된다. 오직 상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어보다 높은 경우에만, 상기 음성 인식기(SR)가 발성 끝 검출을 결정(503)하도록 구성된다. 본 실시예는 보충적인 실시예일 수 있으며, 예컨대 단계(404)로 들어가기 전에 구현될 수 있다. 본 실시예를 사용함으로써, 오직 엑시트 토큰이 최상 전체 스코어(best overall score)를 제공하는 경우에만, 상기 음성 인식기(SR)가 발성 끝을 검출하도록 구성될 수 있다. 또한, 본 실시예는 발음된 단어들 사이의 정지기간(pause)들과 관련된 문제들을 완화시키는 것 또는 심지어 방지하는 것을 가능하게 한다. 다시 말하면, 음성 처리 시작 후 EOU 검출을 허용하기 전에 소정의 타임 기간(time period)을 기다리는 것 또는 오직 소정 수의 프레임들이 수신된 후에만 평가(evaluation)를 시작함으로써 소정의 타임 기간을 기다리는 것이 가능하다.
도 6에 도시된 바와 같이, 일 실시예에 따르면 음성 인식기(SR)는 인식 결과가 거부(reject)될 것인지를 검사(601)하도록 구성된다. 단계(601)은 다른 응용 발성 끝 관련 검사 기능들 전후에 개시될 수 있다. 상기 음성 인식기(SR)는 오직 상 기 인식 결과가 거부되지 않는 경우에만 발성 끝 검출을 결정(602)하도록 구성될 수 있다. 예컨대, 상기 검사를 기반으로 상기 음성 인식기(SR)는, 다른 응용 EOU 검사들이 EOU 검출을 결정하더라도 EOU 검출을 결정하지 않도록 구성된다. 다른 실시예에 있어서, 현재의 프레임에 대한 본 실시예의 결과(거부)를 기반으로 상기 음성 인식기(SR)는 다른 응용 EOU 검사들을 계속 실시하는 것이 아니라, 음성 처리를 계속한다. 본 실시예는 말을 시작하기 전의 지연에 의해 야기되는 에러들을 방지하는 것 즉, 음성 전의 EOU 검출을 방지하는 것을 가능하게 한다.
일 실시예에 따르면, 음성 인식기(SR)는 음성 처리의 개시시부터 발성 끝 검출 결정 전에 소정의 타임 기간(time period)을 기다리도록 구성된다. 이는 상기 음성 인식기(SR)가 발성 끝 검출과 관련된 상기 기능들의 일부 또는 전부를 수행하지 않도록 그렇게 구현될 수 있으며, 또는 상기 타임 기간이 경과하기 전에는 상기 음성 인식기(SR)가 긍정적인(positive) 발성 끝 검출 결정을 내리지 않도록 그렇게 구현될 수 있다. 본 실시예는 음성 전의 EOU 검출들 및 음성 처리의 초기 단계에서 신뢰할 수 없는 결과들에 기인한 에러들을 방지할 수 있도록 한다. 예컨대, 토큰들은 그들이 적당한 스코어들을 제공하기 전에 얼마간의 시간을 진행시켜야 한다. 이미 언급한 바와 같이, 음성 처리 개시시부터 특정 수의 수신 프레임들을 시작 기준(starting criterion)으로서 사용하는 것이 가능하다.
다른 일 실시예에 따르면, 음성 인식기(SR)는 실질적으로 동일한 인식 결과를 생성하는 최대 수의 프레임들이 수신된 후에 발성 끝 검출이 결정되도록 구성된다. 본 실시예는 위에서 설명한 기능들 중 어떠한 기능과도 조합하여 사용될 수 있 다. 상기 최대 수를 적당히 높게 설정함으로써, 본 실시예는 심지어 발성 끝 검출을 위한 어떤 기준이 예컨대, EOU 검출을 방해하는 어떤 예기치 못한 상황에 기인하여 달성되지 못하더라도 충분히 긴 "침묵(silence)" 기간 후에 음성 처리를 끝내는 것을 가능하게 할 수 있다.
안정성 검사 기반 발성 끝 검출(stability-check-based end of utterance detection)과 관련된 문제들은 적어도 위에서 예시한 대부분의 기능들을 결합함으로써 최선으로 방지될 수 있다는 점을 유념하는 것은 중요하다. 따라서, 상기 기능들은 본 발명의 범위 내에서 여러 방식으로 결합될 수 있으며, 그 때문에 발성 끝이 검출되도록 결정하기 전에 충족시켜야 하는 여러 조건들을 야기할 수 있다. 상기 기능들은 화자-종속(speaker-dependent) 및 화자-독립(speaker-independent) 음성 인식 양자 모두에 적합하다. 상기 임계값들은 여러 사용 상태들을 위해 그리고 상기 여러 상태들에서 발성 끝의 기능을 테스트하기 위해 최적화될 수 있다.
상기 방법들에 관한 실험들은, 특히 잡음 많은 환경들에서, 상기 방법들을 결합함으로써 잘못된 EOU 검출의 양을 현저히 감소시킬 수 있음을 보여주었다. 또한, 실제 종점(end-point) 이후의 발성 끝 검출에서의 지연들이 상기 방법에 의하지 않은 EOU 검출에서보다 적었다.
과학 기술이 발전함에 따라 본 발명의 개념이 여러 방식으로 구현될 수 있음은 당업자에게 자명할 것이다. 본 발명 및 본 발명의 실시예들은 상기 예들에 한정되는 것이 아니며, 청구의 범위의 기재범위 내에서 변경될 수 있다.
Claims (31)
- 발성 끝 검출(end of utterance detection)을 하는 음성 인식기(speech recognizer)를 포함하는 음성 인식 시스템에 있어서,상기 음성 인식기가 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성되고,상기 음성 인식기가 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성되고,상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정이,수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하고,음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 음성 인식기가 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산하도록 구성되고,상기 인식 결과가 안정화된 것에 대한 응답으로, 상기 음성 인식기가 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교하도록 구성되고, 그리고상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음 성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제2항에 있어서,상기 음성 인식기가 검출된 침묵 모델(silence model)의 수에 의해 상기 최상 상태 스코어 합을 정규화하도록 구성되고, 그리고상기 음성 인식기가 상기 정규화 최상 상태 스코어 합을 상기 소정 임계 합 값과 비교하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제2항에 있어서,상기 음성 인식기가 또한 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 최소 필요 수를 정의하는 소정의 최소 수 값과 비교하도록 구성되고, 그리고상기 임계 합 값을 초과하는 상기 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하다면 또는 상기 소정의 최소 수 값보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 음성 인식기가 발성 끝 검출을 결정하기 전에 소정의 타임 기간(time period)을 기다리도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 음성 인식기가 최상 토큰 스코어 값들을 반복적으로 결정하도록 구성되고,상기 음성 인식기가 2 이상의 최상 토큰 스코어 값들을 기반으로 하여 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산하도록 구성되고,상기 음성 인식기가 상기 기울기를 소정의 임계 기울기 값(threshold slope value)과 비교하도록 구성되고, 그리고상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제6항에 있어서,상기 기울기가 각각의 프레임에 대해 계산되는 것을 특징으로 하는 음성 인식 시스템.
- 제6항에 있어서,상기 음성 인식기가 또한 상기 임계 기울기 값을 초과하는 기울기의 수를 상기 임계 기울기 값을 초과하는 기울기의 소정의 최소 수와 비교하도록 구성되고, 그리고상기 임계 기울기 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제6항에 있어서,상기 음성 인식기가 오직 소정 수의 프레임들이 수신된 후에만 기울기 계산들을 시작하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 음성 인식기가 1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어를 결정하도록 구성되고, 그리고상기 엑시트 토큰의 최상 토큰 스코어가 상기 인터-워드 토큰의 최상 토큰 스코어보다 높다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 인식 결과가 거부(reject)되지 않는 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 제1항에 있어서,상기 음성 인식기가 실질적으로 동일한 인식 결과를 생성하는 최대 수의 프레임들을 수신한 후에 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
- 음성 인식 시스템에서 발성 끝(end of utterance) 검출을 구성하는 방법에 있어서,발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하는 단계를 포함하고,상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 단계가,수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하는 단계,음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하는 단계,수신 음성 데이터로부터 결정된 인식 결과가 안정화되었는지 여부를 결정하는 단계,음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 발성 끝 검출 구성 방법.
- 제13항에 있어서,소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)이 계산되고,상기 인식 결과가 안정화된 것에 대한 응답으로, 상기 최상 상태 스코어 합 이 소정의 임계 합 값과 비교되고, 그리고상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
- 제13항에 있어서,상기 최상 토큰 스코어 값들이 반복적으로 계산되고,2 이상의 최상 토큰 스코어 값들을 기반으로 상기 최상 토큰 스코어 값들의 기울기(slope)가 계산되고,상기 기울기가 소정의 임계 기울기 값(threshold slope value)과 비교되고, 그리고상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
- 제13항에 있어서,1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어가 결정되고, 그리고상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어 값보다 높은 경우에만, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
- 제13항에 있어서,상기 인식 결과가 거부(reject)되지 않는 경우에만, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
- 음성 인식기(speech recognizer)를 포함하는 전자 장치에 있어서,상기 음성 인식기가 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성되고,상기 음성 인식기가 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성되고,상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정이,수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하고,음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 음성 인식기가 소정 수의 프레임의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산하도록 구성되고,상기 인식 결과가 안정한 것에 대한 응답으로, 상기 음성 인식기가 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교하도록 구성되고, 그리고상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제19항에 있어서,상기 음성 인식기가 검출된 침묵 모델(silence model)들의 수에 의해 상기 최상 상태 스코어 합을 정규화하도록 구성되고, 그리고상기 음성 인식기가 상기 정규화 최상 상태 스코어 합을 상기 소정의 임계 합 값과 비교하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제19항에 있어서,상기 음성 인식기가 또한 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 최소 필요 수를 정의 하는 소정의 최소 수 값(minimum number value)과 비교하도록 구성되고, 그리고상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하다면 또는 상기 소정의 최소 수 값보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 음성 인식기가 발성 끝 검출을 결정하기 전에 소정의 타임 기간(time period)을 기다리도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 음성 인식기가 최상 토큰 스코어 값들을 반복적으로 결정하도록 구성되고,상기 음성 인식기가 2 이상의 최상 토큰 스코어 값들을 기반으로 하여 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산하도록 구성되고,상기 음성 인식기가 상기 기울기를 소정의 임계 기울기 값과 비교하도록 구성되고, 그리고상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제23항에 있어서,상기 기울기가 각각의 프레임에 대해 계산되는 것을 특징으로 하는 전자 장치.
- 제23항에 있어서,상기 음성 인식기가 또한 상기 임계 기울기 값을 초과하는 기울기의 수를 상기 임계 기울기 값을 초과하는 기울기의 소정의 최소 수와 비교하도록 구성되고, 그리고상기 임계 기울기 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제23항에 있어서,소정 수의 프레임이 수신된 후에만 상기 음성 인식기가 기울기 계산들을 시작하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 음성 인식기가 1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어를 결정하도록 구성되고, 그리고상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어보다 높은 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 인식 결과가 거부(reject)되지 않는 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 음성 인식기가 실질적으로 동일한 인식 결과를 생성하는 프레임들의 최대 수를 수신한 후에 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
- 제18항에 있어서,상기 전자 장치는 이동 전화 또는 PDA 장치인 것을 특징으로 하는 전자 장치.
- 음성 인식기(speech recognizer)를 포함하는 전자 장치에서 발성 끝(end of utterance) 검출을 구성하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체에 있어서, 상기 컴퓨터 프로그램이,발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하기 위한 프로그램 코드;수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하기 위한 프로그램 코드; 및상기 인식 결과의 안정화에 응답하여, 상기 최상 상태 스코어들 및 상기 최상 토큰 스코어들의 처리된 값에 기초하여 발성 끝이 검출되었는지 여부를 결정하기 위한 프로그램 코드를 포함하고,상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정은,수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하는 것을 특징으로 하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/844,211 US9117460B2 (en) | 2004-05-12 | 2004-05-12 | Detection of end of utterance in speech recognition system |
US10/844,211 | 2004-05-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20070009688A KR20070009688A (ko) | 2007-01-18 |
KR100854044B1 true KR100854044B1 (ko) | 2008-08-26 |
Family
ID=35310477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020067023520A KR100854044B1 (ko) | 2004-05-12 | 2005-05-10 | 음성 인식 시스템에서의 발성 끝 검출 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9117460B2 (ko) |
EP (1) | EP1747553A4 (ko) |
KR (1) | KR100854044B1 (ko) |
CN (1) | CN1950882B (ko) |
WO (1) | WO2005109400A1 (ko) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7409332B2 (en) * | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
US8065146B2 (en) * | 2006-07-12 | 2011-11-22 | Microsoft Corporation | Detecting an answering machine using speech recognition |
US20090198490A1 (en) * | 2008-02-06 | 2009-08-06 | International Business Machines Corporation | Response time when using a dual factor end of utterance determination technique |
KR20130101943A (ko) | 2012-03-06 | 2013-09-16 | 삼성전자주식회사 | 음원 끝점 검출 장치 및 그 방법 |
KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US9607613B2 (en) | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
KR102267405B1 (ko) * | 2014-11-21 | 2021-06-22 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
CN105427870B (zh) * | 2015-12-23 | 2019-08-30 | 北京奇虎科技有限公司 | 一种针对停顿的语音识别方法和装置 |
CN106710606B (zh) * | 2016-12-29 | 2019-11-08 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音处理方法及装置 |
US10283150B2 (en) | 2017-08-02 | 2019-05-07 | Western Digital Technologies, Inc. | Suspension adjacent-conductors differential-signal-coupling attenuation structures |
US11682416B2 (en) | 2018-08-03 | 2023-06-20 | International Business Machines Corporation | Voice interactions in noisy environments |
JP7007617B2 (ja) * | 2018-08-15 | 2022-01-24 | 日本電信電話株式会社 | 話し終わり判定装置、話し終わり判定方法およびプログラム |
CN110875033A (zh) * | 2018-09-04 | 2020-03-10 | 蔚来汽车有限公司 | 用于确定语音结束点的方法、装置和计算机存储介质 |
US11648951B2 (en) | 2018-10-29 | 2023-05-16 | Motional Ad Llc | Systems and methods for controlling actuators based on load characteristics and passenger comfort |
RU2761940C1 (ru) | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
GB2607172B (en) | 2019-04-25 | 2023-11-01 | Motional Ad Llc | Graphical user interface for display of autonomous vehicle behaviors |
US11472291B2 (en) | 2019-04-25 | 2022-10-18 | Motional Ad Llc | Graphical user interface for display of autonomous vehicle behaviors |
CN112825248B (zh) * | 2019-11-19 | 2024-08-02 | 阿里巴巴集团控股有限公司 | 语音处理方法、模型训练方法、界面显示方法及设备 |
US11615239B2 (en) * | 2020-03-31 | 2023-03-28 | Adobe Inc. | Accuracy of natural language input classification utilizing response delay |
US11705125B2 (en) | 2021-03-26 | 2023-07-18 | International Business Machines Corporation | Dynamic voice input detection for conversation assistants |
CN113763960B (zh) * | 2021-11-09 | 2022-04-26 | 深圳市友杰智新科技有限公司 | 模型输出的后处理方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5740318A (en) * | 1994-10-18 | 1998-04-14 | Kokusai Denshin Denwa Co., Ltd. | Speech endpoint detection method and apparatus and continuous speech recognition method and apparatus |
EP0895224A2 (en) * | 1997-07-31 | 1999-02-03 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
KR20040029318A (ko) * | 2001-11-14 | 2004-04-06 | 마쯔시다덴기산교 가부시키가이샤 | 오디오 부호화 및 복호화 |
US6873953B1 (en) | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
ES2141824T3 (es) | 1993-03-25 | 2000-04-01 | British Telecomm | Reconocimiento de voz con deteccion de pausas. |
DE69421077T2 (de) * | 1993-03-31 | 2000-07-06 | British Telecommunications P.L.C., London | Wortkettenerkennung |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
JP4180110B2 (ja) * | 1995-03-07 | 2008-11-12 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 言語認識 |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
US6374219B1 (en) * | 1997-09-19 | 2002-04-16 | Microsoft Corporation | System for using silence in speech recognition |
US6076056A (en) * | 1997-09-19 | 2000-06-13 | Microsoft Corporation | Speech recognition system for recognizing continuous and isolated speech |
WO2001020597A1 (en) * | 1999-09-15 | 2001-03-22 | Conexant Systems, Inc. | Automatic speech recognition to control integrated communication devices |
US6405168B1 (en) * | 1999-09-30 | 2002-06-11 | Conexant Systems, Inc. | Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection |
GB2370401A (en) * | 2000-12-19 | 2002-06-26 | Nokia Mobile Phones Ltd | Speech recognition |
US7050975B2 (en) * | 2002-07-23 | 2006-05-23 | Microsoft Corporation | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
JP4433704B2 (ja) | 2003-06-27 | 2010-03-17 | 日産自動車株式会社 | 音声認識装置および音声認識用プログラム |
US20050049873A1 (en) * | 2003-08-28 | 2005-03-03 | Itamar Bartur | Dynamic ranges for viterbi calculations |
GB2409750B (en) * | 2004-01-05 | 2006-03-15 | Toshiba Res Europ Ltd | Speech recognition system and technique |
-
2004
- 2004-05-12 US US10/844,211 patent/US9117460B2/en active Active
-
2005
- 2005-05-10 WO PCT/FI2005/000212 patent/WO2005109400A1/en active Application Filing
- 2005-05-10 EP EP05739485A patent/EP1747553A4/en not_active Withdrawn
- 2005-05-10 KR KR1020067023520A patent/KR100854044B1/ko not_active IP Right Cessation
- 2005-05-10 CN CN2005800146093A patent/CN1950882B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5740318A (en) * | 1994-10-18 | 1998-04-14 | Kokusai Denshin Denwa Co., Ltd. | Speech endpoint detection method and apparatus and continuous speech recognition method and apparatus |
EP0895224A2 (en) * | 1997-07-31 | 1999-02-03 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6873953B1 (en) | 2000-05-22 | 2005-03-29 | Nuance Communications | Prosody based endpoint detection |
KR20040029318A (ko) * | 2001-11-14 | 2004-04-06 | 마쯔시다덴기산교 가부시키가이샤 | 오디오 부호화 및 복호화 |
Non-Patent Citations (1)
Title |
---|
10-2004-29318 |
Also Published As
Publication number | Publication date |
---|---|
US20050256711A1 (en) | 2005-11-17 |
US9117460B2 (en) | 2015-08-25 |
CN1950882B (zh) | 2010-06-16 |
EP1747553A4 (en) | 2007-11-07 |
EP1747553A1 (en) | 2007-01-31 |
KR20070009688A (ko) | 2007-01-18 |
CN1950882A (zh) | 2007-04-18 |
WO2005109400A1 (en) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100854044B1 (ko) | 음성 인식 시스템에서의 발성 끝 검출 | |
CN107810529B (zh) | 语言模型语音端点确定 | |
EP3433855B1 (en) | Speaker verification method and system | |
EP2089877B1 (en) | Voice activity detection system and method | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US10134425B1 (en) | Direction-based speech endpointing | |
US9373321B2 (en) | Generation of wake-up words | |
US7529665B2 (en) | Two stage utterance verification device and method thereof in speech recognition system | |
US7555430B2 (en) | Selective multi-pass speech recognition system and method | |
JP3363630B2 (ja) | 音声認識方法 | |
US9031841B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
EP1220197A2 (en) | Speech recognition method and system | |
US10854192B1 (en) | Domain specific endpointing | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
KR20170007107A (ko) | 음성인식 시스템 및 방법 | |
WO2014018004A1 (en) | Feature normalization inputs to front end processing for automatic speech recognition | |
Irtza et al. | Phonemes frequency based PLLR dimensionality reduction for language recognition. | |
KR101060162B1 (ko) | 화자 인식 장치 및 방법 | |
KR101229108B1 (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
JP2006010739A (ja) | 音声認識装置 | |
JP2004309504A (ja) | 音声キーワード認識装置 | |
JP2002323899A (ja) | 音声認識装置、プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20120802 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20130801 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20150717 Year of fee payment: 8 |
|
LAPS | Lapse due to unpaid annual fee |