KR100854044B1 - 음성 인식 시스템에서의 발성 끝 검출 - Google Patents

음성 인식 시스템에서의 발성 끝 검출 Download PDF

Info

Publication number
KR100854044B1
KR100854044B1 KR1020067023520A KR20067023520A KR100854044B1 KR 100854044 B1 KR100854044 B1 KR 100854044B1 KR 1020067023520 A KR1020067023520 A KR 1020067023520A KR 20067023520 A KR20067023520 A KR 20067023520A KR 100854044 B1 KR100854044 B1 KR 100854044B1
Authority
KR
South Korea
Prior art keywords
speech
token
score
speech recognizer
scores
Prior art date
Application number
KR1020067023520A
Other languages
English (en)
Other versions
KR20070009688A (ko
Inventor
토미 라흐티
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20070009688A publication Critical patent/KR20070009688A/ko
Application granted granted Critical
Publication of KR100854044B1 publication Critical patent/KR100854044B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 인식 시스템들에 관한 것이며, 특히 그러한 시스템들에서 발성 끝 검출을 구성하는 것에 관한 것이다. 상기 시스템의 음성 인식기는 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성된다. 상기 음성 인식기는 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하도록 구성된다. 또한, 상기 인식 결과가 안정화된 것이면, 상기 음성 인식기는 상기 처리를 기반으로 하여, 발성 끝이 검출될 것인지 여부를 결정하도록 구성된다.

Description

음성 인식 시스템에서의 발성 끝 검출{Detection of end of utterance in speech recognition system}
본 발명은 음성 인식 시스템들에 관한 것이며, 더 상세하게는 음성 인식 시스템들에서의 발성 끝을 검출하는 것에 관한 것이다.
최근 몇 년간 여러 음성 인식 애플리케이션들, 예컨대 자동차 사용자 인터페이스들 및 이동 단말기들, 이를테면 이동 전화들, PDA장치들 및 포터블 컴퓨터들을 위한 음성 인식 애플리케이션들이 개발되어 왔다. 이동 단말기용으로 공지된 애플리케이션들은, 그/그녀의 이름을 이동 단말기의 마이크로폰에 소리 내어 말함으로써 그리고 사용자에 의한 음성 입력에 가장 상응하는 모델과 관련된 이름/번호에 따른 번호에 대해 호출(call)을 설정함으로써 특정인을 호출하는 방법들을 포함한다. 그러나 화자-의존(speacker-dependent) 방법들은 음성 인식 시스템들로 하여금 각각의 단어의 발음을 인식하도록 학습(train) 될 것을 요구하는 것이 일반적이다. 화자-독립(speacker-independent) 음성 인식은 음성-제어 사용자 인터페이스(speech-controlled interface)의 유용성을 개선한다. 왜냐하면, 상기 학습 단계가 생략될 수 있기 때문이다. 화자-독립 단어 인식에 있어서, 단어들의 발음은 사전에 저장될 수 있으며, 사용자에 의해 발성된 단어는 미리 정의된 발음, 이를테면 음소 시퀀스(phoneme sequence)에 의해 식별될 수 있다. 대부분의 음성 인식 시스템들은 HMM(Hidden Markov Model)들의 네트워크를 통해 검색을 구축하는 그리고 상기 네트워크의 각각의 상태에서 각각의 프레임 또는 타임 스텝에 대해 가장 적당한 경로 스코어(path score)를 유지하는 비터비 검색 알고리즘(Viterbi search algorithm)을 사용한다.
발성 끝(end of utterance; EOU) 검출은 음성 인식과 관련하여 중요한 측면이다. EOU 검출의 목적은 가능한 신뢰성 높게 그리고 가능한 빠르게 음성의 끝을 검출하는 것이다. EOU 검출이 이루어지면, 음성 인식기(speech recognizer)는 디코딩을 정지할 수 있고 그리고 사용자는 인식 결과를 얻게 된다. EOU 검출이 잘 이루어짐으로써, 인식률(recognition rate) 또한 개선될 수 있다. 왜냐하면 음성 후의 노이즈 부분이 생략되기 때문이다.
지금까지, 여러 가지 기술들이 EOU 검출용으로 개발되어 왔다. 예컨대, EOU 검출은 검출된 에너지, 검출된 부호 변환점(zero crossing)들, 또는 검출된 엔트로피 레벨을 기반으로 할 수 있다. 그러나 상기 방법들은 종종 이동 전화들과 같이 처리 능력이 한정된 제한적인 장치용으로 너무 복잡한 것으로 판명된다. 이동 장치에서 수행되는 음성 인식의 경우에 있어서, EOU 검출을 위한 정보를 모으는 적당한 장소는 음성 인식기의 디코더부이다. 각각의 타임 인덱스(한 프레임)에 대한 인식 결과가 발전하고 나면 인식 처리가 진행될 수 있다. 소정 수의 프레임들이 (실질적으로)동일한 인식 결과를 생성했을 때 EOU가 검출될 수 있고 그리고 디코딩이 정지될 수 있다. EOU 검출에 관한 이런 종류의 접근법은 출판물 "Top-Down Speech Detection and N-Best Meaning Search in a Voice Activated Telephone Extension System". ESCA. EuroSpeech 1995, Madrid, Sep. 1995.에서 Takeda K., Kuroiwa S., Naito M. 및 Yamamoto S.에 의해 제시되어 있다.
본 명세서에서 상기 접근법은 "인식 결과에 대한 안정성 검사"로 지칭된다. 그러나 상기 접근법이 실패하는 특정 상황들이 존재한다: 음성 데이터가 수신되기 전에 충분히 긴 침묵 부분(silence portion)이 존재하면, 알고리즘은 EOU 검출 신호를 송신한다. 따라서, 심지어 사용자가 말을 시작하기도 전에 음성의 끝이 잘못 검출될 수 있다. 안정성 검사 기반 EOU 검출을 사용할 때 특정 상황들에서 이름들/단어들 사이의 지연 또는 심지어 음성 중의 지연에 기인하여 EOU 검출들이 너무 빨리 일어날 수 있다. 잡음 많은 환경들에서는 이는 그러한 EOU 검출 알고리즘이 EOU를 전혀 검출할 수 없는 경우일 수 있다.
이하에서, 향상된 EOU 검출용 방법 및 장치가 제공된다. 본 발명의 여러 태양들은 음성 인식 시스템, 방법, 전자 장치, 및 컴퓨터 프로그램 생성물을 포함하며, 이들은 독립항들로 개시된 것을 특징으로 한다. 본 발명의 몇몇 실시예들은 종속항들로 개시되어 있다.
본 발명의 일 태양에 따르면, 데이터 처리 장치의 음성 인식기(speech recognizer)는 수신 음성 데이터로부터 결정되는 인식 결과가 안정화된 것인지를 결정하도록 구성된다. 또한, 상기 음성 인식기는 발성 끝(end of utterance) 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성된다. 인식 결과가 안정화된 것이면, 상기 음성 인식기는 최상 상태 스코어들 및 최상 토큰 스코어들의 처리를 기반으로, 발성 끝이 검출될 것인지 여부를 결정하도록 구성된다. 일반적으로 최상 상태 스코어란 음성 인식용 상태 모델(state model)의 다수 상태들 중에서 최고 확률을 가지는 상태를 말한다. 일반적으로 최상 토큰 스코어란 음성 인식용으로 사용되는 다수 토큰들 중에서 최고 확률의 토큰을 말한다. 상기 스코어들은 음성 정보를 포함하는 각각의 프레임을 위해 업데이트될 수 있다.
이와 같이 발성 끝에 대한 검출을 구성하는 장점은 음성 데이터가 수신되기 전의 침묵 기간(silent period)들, 음성 세그먼트들 사이의 지연들, 음성 중의 EOU 검출들, 및 (예컨대, 잡음에 의한)EOU 검출 실패들과 관련된 에러들을 감소시킬 수 있다는 것 또는 심지어 방지할 수 있다는 것이다. 또한, 미리 계산된 상태 스코어들 및 토큰 스코어들이 사용될 수 있기 때문에, 본 발명은 EOU 검출을 위한 계산 경제적인 방식을 제공한다. 따라서, 본 발명은 또한 이동 전화들 및 PDA 장치들 같은 소형 포터블 장치용으로 매우 적합하다.
본 발명의 일 실시예에 따르면, 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)이 계산된다. 인식 결과가 안정화된 것에 대한 응답으로, 상기 최상 상태 스코어 합은 소정의 임계 합 값(threshold sum value)과 비교된다. 상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 발성 끝 검출이 결정된다. 본 실시예는 위에서 언급한 에러들을 적어도 감소시킬 수 있으며, 특히 음성 데이터가 수신되기 전의 침묵 기간들과 관련된 에러들 및 통화 중 EOU 검출들과 관련된 에러들에 대해 유용하다.
본 발명의 일 실시예에 따르면, 최상 토큰 스코어 값들이 반복적으로 결정되고, 그리고 상기 최상 토큰 스코어 값들의 기울기가 2 이상의 최상 토큰 스코어 값들을 기반으로 결정된다. 상기 기울기는 소정의 임계 기울기값(threshold slope value)과 비교된다. 상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면 발성 끝 검출이 결정된다. 본 실시예는 음성 데이터가 수신되기 전의 침묵 기간들 및 또한 단어들 사이의 긴 중단 시간들과 관련된 에러들을 적어도 감소시킬 수 있다. 상기 최상 토큰 스코어 기울기가 잡음을 매우 잘 견디기 때문에, 본 실시예는 특히 음성 중의 EOU 검출들과 관련된 에러들에 대해 유용하다(그리고 상기 실시예보다 더 유용하다).
이하, 첨부도면들을 참조하면서 바람직한 실시예들을 통해 본 발명을 더욱 상세하게 설명한다.
도 1은 본 발명에 따른 음성 인식 시스템이 구현될 수 있는 데이터 처리 장치를 보여주는 도면이다.
도 2는 본 발명의 몇몇 태양에 따른 방법에 관한 흐름도이다.
도 3a 내지 도 3c는 본 발명의 일 태양에 따른 몇몇 실시예들을 예시하는 흐름도들이다.
도 4a 및 도 4b는 본 발명의 일 태양에 따른 몇몇 실시예들을 예시하는 흐름 도들이다.
도 5는 본 발명의 일 태양에 따른 일 실시예에 관한 흐름도이다.
도 6은 본 발명의 일 실시예에 관한 흐름도이다.
도 1에는 본 발명의 일 실시예에 따른 데이터 처리 장치(TE)의 간략화된 구조가 도시되어 있다. 상기 데이터 처리 장치(TE)는 예컨대, 이동 전화, PDA 장치 또는 그 밖의 몇몇 타입의 포터블 전자 장치, 또는 그들의 일부이거나 보조 모듈일 수 있다. 다른 몇몇 실시예들에 있어서 상기 데이터 처리 장치(TE)는 랩탑/데스크탑 컴퓨터 또는 다른 시스템의 통합 부분, 예컨대 차량 정보 제어 시스템의 일부일 수 있다. 상기 데이터 처리 장치(TE)는 I/O 수단(I/O), 중앙 처리 장치(CPU) 및 메모리(MEM)을 포함한다. 상기 메모리(MEM)는 ROM부(read only memory portion) 및 재기록가능부(rewriteable portion), 이를테면 RAM(random access memory) 및 플래시 메모리를 포함한다. 다른 외부 파티들, 예컨대 CD-ROM, 그 밖의 장치들 및 사용자와 통신하는데 사용되는 정보는 상기 I/O 수단(I/O)을 통해 상기 중앙 처리 장치(CPU)로/로부터 전송된다. 상기 데이터 처리 장치가 이동국으로 구현된다면, 이는 트랜시버(Tx/Rx)를 포함하는 것이 전형적이며, 상기 트랜시버는 안테나를 통해 무선 네트워크와, 전형적으로는 기지 트랜시버 국과 통신한다. 사용자 인터페이스(user interface; UI) 장치는 디스플레이, 키패드, 마이크로폰 및 확성기 를 포함하는 것이 전형적이다. 상기 데이터 처리 장치(TE)는 여러 하드웨어 모듈을 위한 연결 수단(MMC), 이를테면 표준형 슬롯을 포함할 수 있으며, 상기 하드웨어 모듈들 은 여러 가지 애플리케이션들을 제공하여 상기 데이터 처리 장치에서 실행되도록 할 수 있다.
상기 데이터 처리 장치(TE)는 중앙 처리 장치(CPU)에서 실행되는 소프트웨어에 의해 구현될 수 있는 음성 인식기(SR)를 포함한다. 상기 SR은 음성 인식기 장치와 관련되는 전형적 기능들을 구현하며, 본질적으로 이는 음성 시퀀스들 및 심볼 시퀀스들의 소정 모델들 사이의 매핑을 발견한다. 아래에서 가정하겠지만, 음성 인식기(SR)에는 아래 예시된 기능들 중 적어도 몇몇 기능들을 지니는 발성 끝 검출 수단이 제공된다. 또한 발성 끝 검출기가 개별 엔티티로 구현되는 것도 가능하다.
따라서, 발성 끝 검출과 관련되는 그리고 아래에서 더 상세히 설명되는 본 발명의 기능은 데이터 처리 장치(TE)에서 컴퓨터 프로그램에 의해 구현될 수 있으며, 상기 컴퓨터 프로그램이 중앙 처리 장치(CPU)에서 실행될 때, 상기 컴퓨터 프로그램은 상기 데이터 처리 장치에 본 발명의 절차들을 구현하도록 작용한다. 상기 컴퓨터 프로그램의 기능들은 서로 통신하는 몇몇 개별 프로그램 컴포넌트에 분배될 수 있다. 일 실시예에 있어서, 본 발명의 기능들을 발생시키는 컴퓨터 프로그램 코드 부분들은 음성 인식기(SR) 소프트웨어의 일부일 수 있다. 상기 컴퓨터 프로그램은 임의의 메모리 수단, 예컨대 PC의 하드디스크 또는 CD-ROM 디스크에 저장될 수 있으며, 상기 컴퓨터 프로그램은 상기 메모리 수단으로부터 이동국(MS)의 메모리(MEM)로 다운로드될 수 있다. 또한, 상기 컴퓨터 프로그램은 예컨대, TCP/IP 프로토콜 스택을 사용하여 네트워크를 통해 다운로드될 수 있다.
또한, 본 발명의 수단을 구현하기 위해 하드웨어 솔루션들 또는 하드웨어 및 소프트웨어 솔루션들의 조합을 사용하는 것이 가능하다. 따라서, 하드웨어 모듈로서 상기 하드웨어 모듈을 전자 장치와 연결하는 수단 및 상기 프로그램 코드 태스크들을 수행하는 여러 수단들을 포함하는 하드웨어 모듈에서, 상기 컴퓨터 프로그램 생성물들은 각각 적어도 부분적으로는 하드웨어 솔루션, 예컨대 ASIC 또는 FPGA 회로들로 구현될 수 있으며, 상기 수단들은 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
일 실시예에 있어서, 음성 인식은 SR에서 HMM(Hidden Markov model)들을 사용함으로써 구성된다. 비터비 검색 알고리즘(Viterbi search algorithm)은 목표 단어들에 대한 매치(match)를 발견하기 위해 사용될 수 있다. 상기 알고리즘은 HMM(Hidden Markov Model)들의 네트워크들 통해 검색을 구축하고 그리고 각각의 프레임 또는 타임 스텝에 대해 상기 네트워크의 각각의 상태에서 가장 적당한 경로 스코어를 유지하는 동적 알고리즘이다. 상기 검색 처리는 타임-동기식(time-synchronous)이다: 이는 다음 프레임으로 이동하기 전에 현재 프레임에서 모든 상태(state)들을 완전히 처리한다. 각각의 프레임에서, 현재 모든 경로들에 대한 경로 스코어들이 관리 음향 및 언어 모델(governing acoustic and language model)들과의 비교를 기반으로 하여 계산된다. 모든 음성 데이터가 처리되었을 때, 최고 스코어를 지니는 경로가 최상의 가정(best hypothesis)이다. 비터비 검색 공간을 감소시키기 위해 그리고 검색 속도를 개선하기 위해 몇몇 프루닝 기술(pruning technique)들이 사용될 수 있다. 전형적으로, 상기 검색에서 각각의 프레임에 임계치가 설정되며, 그에 의해 스코어가 상기 임계치보다 높은 경로들만이 다음 프레임 으로 확장되도록 한다. 다른 모든 경로들은 제거된다. 가장 흔히 사용되는 프루닝 기술은 스코어가 지정된 범위에 속하는 경로들만을 발전시키는 빔 프루닝(beam pruning)이다. 음성 인식을 기반으로 하는 HMM에 관한 더 상세한 설명을 위해서는, HTK(Hidden Markov Model Toolkit) 홈페이지 http://htk.eng.cam.ac.uk/에서 이용할 수 있는 HTK를 참조한다.
도 2에는 향상된 다언어 자동 음성 인식 시스템(multilingual automatic speech recognition system)에 관한 일 실시예로서, 예컨대 상기 데이터 처리 장치(TE)에 적용가능한 일 실시예가 예시되어 있다.
도 2에 도시된 예시된 방법에서, 음성 인식기(SR)는 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 계산(201)하도록 구성된다. 상태 스코어 계산에 관한 더 상세한 설명을 위해서는, 본 명세서에 참조로서 통합되어 있는 HTK의 제1.2장 및 제1.3장을 참조한다. 더 구체적으로, 다음의 공식(HTK의 제1.8장)은 상태 스코어들이 어떻게 계산될 수 있는지를 결정한다. HTK는 타임 t에서의 각각의 관찰 벡터(observation vector)로 하여금 S개의 독립 데이터 스트림들(o st )로 분리되도록 한다. 그때 출력 분포 b j (o t )를 계산하는 공식은,
Figure 112006082159869-pct00001
(1)
이며, 상기 공식 (1)에서 M s 는 스트림(s)의 혼합 컴포넌트(mixture component)들의 수이고, c jsm m번째 컴포넌트의 웨이트(weight)이고 그리고 N(.;μ,Σ)은 평균 벡터(mean vector; μ) 및 공분산 매트릭스(covariance matrix; Σ)를 지니는 다변수 가우시안(multivariate Gaussian), 즉:
Figure 112006082159869-pct00002
(2)
이며, 상기 공식 (2)에서 no의 차수(dimensionality)이다. 상기 지수 r s 는 스트림 웨이트이다. 최상 상태 스코어를 결정하기 위해서, 상태 스코어들에 관한 정보가 유지된다. 최상 상태 스코어를 주는 상태 스코어가 최상 상태 스코어로서 결정된다. 유의할 점은, 상기 공식들을 엄격하게 따를 필요는 없으며, 상태 스코어들은 다른 방식들로도 계산될 수 있다는 것이다. 예컨대, 공식 (1)에서의 s에 관한 프로덕트(product)는 계산에서 생략될 수 있다.
토큰 패싱(token passing)은 상태들 사이의 스코어 정보를 전송하기 위해 사용된다. (타임 프레임 t에서)HMM의 각각의 상태는 부분 로그 확률(partial log probability)에 관한 정보를 포함하는 토큰을 보유한다. 토큰은 (타임 t에 이르기까지의)관찰 시퀀스(observation) 및 모델 사이의 부분 매치(partial match)를 나타낸다. 토큰 패싱 알고리즘(token passing algorithm)은 각각의 타임 프레임에서 토큰들을 전달하고 업데이트하며, 그리고 (타임 t-1에서 최고 확률을 가지는)최상 토큰을 (타임 t에서)다음 상태로 통과시킨다. 각각의 타임 프레임에서, 토큰의 로그 확률은 대응 전이 확률(transition probability)들 및 방출 확률(emission probability)들에 의해 축적된다. 따라서 모든 가능 토큰들을 검사하고 그리고 최상 스코어들을 지니는 토큰들을 선택함으로써 최상 토큰 스코어들이 발견된다. 각각의 토큰은 검색 트리(네트워크)를 통과하기 때문에, 상기 각각의 토큰은 자신의 경로(route)를 기록하는 히스토리(history)를 유지한다. 토큰 패싱 및 토큰 스코어들에 관한 더 상세한 설명을 위해서는, "Token passing: a Simple Conceptual model for Connected Speech Recognition System", Young, Russell, Thonton, Cambridge University Engineering Department, july 31, 1989를 참조하며, 이는 본 명세서에 참조로서 통합되어 있다.
음성 인식기(SR)는 또한, 수신 음성 데이터에 의해 결정된 인식 결과들이 안정화된 것인지를 결정(202, 203)하도록 구성된다. 인식 결과들이 불안정하다면, 음성 처리가 계속될 수 있으며(205), 또한 다음 프레임들에 대해 다시 단계(201)로 들어갈 수 있다. 단계(202)에서 전형적인 안정화 검사 기술들이 사용될 수 있다. 인식 결과가 안정화된 것이면, 상기 음성 인식기는 최상 상태 스코어 및 최상 토큰의 처리를 기반으로 발성 끝이 검출될 것인지 여부를 결정(204)하도록 구성된다. 최상 상태 스코어들 및 최상 토큰 스코어들의 처리가 또한 음성이 끝났음을 지시한다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정하고 그리고 음성 처리를 끝내도록 구성된다. 그렇지 않은 경우라면 음성 처리는 계속되고, 또한 다음 음성 프레임들에 대해 단계(201)로 되돌아갈 수 있다. 또한, 최상 상태 스코어들 및 최상 토큰 스코어들과 적절한 임계값들을 사용함으로써, 오직 안정화 검사만을 사용하는 EOU 검출과 관련된 에러들이 적어도 감소될 수 있다. 단계(204)에서 음성 인식용으 로 이미 계산된 값들이 사용될 수 있다. 인식 결과가 안정화된 경우에만 몇몇 또는 모든 최상 상태 스코어 및/또는 최상 토큰 스코어의 처리가 EOU 검출을 위해 수행되는 것이 가능하며, 그렇지 않은 경우 이들은 새로운 프레임들을 고려하여 지속적으로 처리될 수 있다. 이하에서, 더 상세한 몇몇 실시예들이 예시된다.
도 3a에는, 최상 상태 스코어들과 관련된 일 실시예가 예시되어 있다. 음성 인식기(SR)는 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산(301)하도록 구성된다. 이는 각각의 프레임에 대해 계속적으로 수행될 수 있다.
음성 인식기(SR)는 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교(302, 303)하도록 구성된다. 도 3a에 도시되지 않았지만, 일 실시예에 있어서, 인식 결과가 안정화된 것에 대한 응답으로 상기 단계로 들어간다. 상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정(304)하도록 구성된다.
도 3b에는, 도 3a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 단계(310)에서, 음성 인식기(SR)는 최상 상태 스코어 합을 정규화하도록 구성된다. 상기 정규화는 검출된 침묵 모델(silence model)들의 수에 의해 수행될 수 있다. 상기 단계(310)는 단계(301) 이후에 수행될 수 있다. 단계(311)에서 음성 인식기(SR)는 상기 정규화 최상 상태 스코어 합을 소정의 임계 합 값과 비교하도록 구성된다. 따라서, 단계(311)은 도 3a의 실시예에서 단계(302)를 대체할 수 있다.
도 3c에는, 도 3a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 음성 인식기(SR)는 또한 상기 임계 합 값을 초과하는 (가능한 한 정규화된)최상 상태 스코어 합들의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합들의 최소 필요 수를 정의하는 소정의 최소 수 값(minimum number value)과 비교(320)하도록 구성된다. 예컨대, "예"가 검출되면 단계(303) 이후, 그러나 단계(304) 전에 상기 단계(320)로 들어갈 수 있다. (따라서, 단계(304)를 대체할 수 있는)단계(321)에서, 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하거나 또는 상기 소정의 최소 수 값보다 더 크다면, 상기 음성 인식기는 발성 끝 검출을 결정하도록 구성된다. 또한, 본 실시예는 너무 이른 발성 끝 검출들을 방지할 수 있도록 한다.
아래에는 최종#BSS 값들의 정규화된 합을 계산하는 알고리즘이 예시되어 있다.
Figure 112006082159869-pct00003
Figure 112006082159869-pct00004
상기 모범적인 알고리즘에 있어서, 정규화는 BSS 버퍼의 사이즈를 기반으로 수행된다.
도 4a에는, 발성 끝 검출을 위해 최상 토큰 스코어(best token score)들을 사용하는 일 실시예가 예시되어 있다. 단계(401)에서 음성 인식기(SR)는 (타임 T에서의)현재 프레임에 대해 최상 토큰 스코어 값을 결정하도록 구성된다. 상기 음성 인식기(SR)는 2 이상의 최상 토큰 스코어 값들을 기반으로 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산(402)하도록 구성된다. 상기 계산에서 사용되는 최상 토큰 스코어 값들의 양은 변경될 수 있다; 실험에 의하면 10보다 적은 최종의 최상 토큰 스코어 값들을 사용하는 것이 적당한 것으로 나타난다. 단계(403)에서 상기 음성 인식기(SR)는 상기 기울기를 소정의 임계 기울기 값(threshold slope value)과 비교하도록 구성된다. 상기 비교(403, 404)를 기반으로, 상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정할 수 있다(405). 그렇지 않다면, 음성 처리가 계속되고(406) 또한, 단계(401)이 계속될 수 있다.
도 4b에는, 도 4a의 방법과 관련된 다른 일 실시예가 예시되어 있다. 단계(410)에서 음성 인식기(SR)는 또한 상기 임계 기울기 값을 초과하는 기울기들의 수를 상기 임계 기울기 값을 초과하는 기울기들의 소정의 최소 수와 비교하도록 구성된다. "예"가 검출된다면 단계(404) 이후에 그러나 단계(405) 전에 상기 단계(410)로 들어갈 수 있다. (따라서, 단계(405)를 대체할 수 있는)단계(411)에서, 상기 음성 인식기(SR)는 상기 임계 기울기 값을 초과하는 최상 상태 스코어 합들의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기(SR)는 발성 끝 검출을 결정하도록 구성된다.
다른 일 실시예에 있어서, 음성 인식기(SR)는 오직 소정 수의 프레임들이 수신된 후에만 기울기 계산들을 시작하도록 구성된다. 최상 토큰 스코어들과 관련된 상기 기능들 중 몇몇 또는 모든 기능들은 각각의 프레임에 대해 또는 단지 몇몇 프레임에 대해 반복될 수 있다.
아래에는 기울기 계산을 구성하는 알고리즘이 예시되어 있다:
Figure 112006082159869-pct00005
상기 알고리즘에서 기울기 계산용 공식은:
Figure 112006082159869-pct00006
(3) 이다.
도 5에 예시된 일 실시예에 따르면, 음성 인식기(SR)는 인터-워드 토큰(inter-word token)의 1 이상의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 1 이상의 최상 토큰 스코어를 결정(501)하도록 구성된다. 단계(502)에서 상기 음성 인식기(SR)는 상기 최상 토큰 스코어들을 비교하도록 구성된다. 오직 상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어보다 높은 경우에만, 상기 음성 인식기(SR)가 발성 끝 검출을 결정(503)하도록 구성된다. 본 실시예는 보충적인 실시예일 수 있으며, 예컨대 단계(404)로 들어가기 전에 구현될 수 있다. 본 실시예를 사용함으로써, 오직 엑시트 토큰이 최상 전체 스코어(best overall score)를 제공하는 경우에만, 상기 음성 인식기(SR)가 발성 끝을 검출하도록 구성될 수 있다. 또한, 본 실시예는 발음된 단어들 사이의 정지기간(pause)들과 관련된 문제들을 완화시키는 것 또는 심지어 방지하는 것을 가능하게 한다. 다시 말하면, 음성 처리 시작 후 EOU 검출을 허용하기 전에 소정의 타임 기간(time period)을 기다리는 것 또는 오직 소정 수의 프레임들이 수신된 후에만 평가(evaluation)를 시작함으로써 소정의 타임 기간을 기다리는 것이 가능하다.
도 6에 도시된 바와 같이, 일 실시예에 따르면 음성 인식기(SR)는 인식 결과가 거부(reject)될 것인지를 검사(601)하도록 구성된다. 단계(601)은 다른 응용 발성 끝 관련 검사 기능들 전후에 개시될 수 있다. 상기 음성 인식기(SR)는 오직 상 기 인식 결과가 거부되지 않는 경우에만 발성 끝 검출을 결정(602)하도록 구성될 수 있다. 예컨대, 상기 검사를 기반으로 상기 음성 인식기(SR)는, 다른 응용 EOU 검사들이 EOU 검출을 결정하더라도 EOU 검출을 결정하지 않도록 구성된다. 다른 실시예에 있어서, 현재의 프레임에 대한 본 실시예의 결과(거부)를 기반으로 상기 음성 인식기(SR)는 다른 응용 EOU 검사들을 계속 실시하는 것이 아니라, 음성 처리를 계속한다. 본 실시예는 말을 시작하기 전의 지연에 의해 야기되는 에러들을 방지하는 것 즉, 음성 전의 EOU 검출을 방지하는 것을 가능하게 한다.
일 실시예에 따르면, 음성 인식기(SR)는 음성 처리의 개시시부터 발성 끝 검출 결정 전에 소정의 타임 기간(time period)을 기다리도록 구성된다. 이는 상기 음성 인식기(SR)가 발성 끝 검출과 관련된 상기 기능들의 일부 또는 전부를 수행하지 않도록 그렇게 구현될 수 있으며, 또는 상기 타임 기간이 경과하기 전에는 상기 음성 인식기(SR)가 긍정적인(positive) 발성 끝 검출 결정을 내리지 않도록 그렇게 구현될 수 있다. 본 실시예는 음성 전의 EOU 검출들 및 음성 처리의 초기 단계에서 신뢰할 수 없는 결과들에 기인한 에러들을 방지할 수 있도록 한다. 예컨대, 토큰들은 그들이 적당한 스코어들을 제공하기 전에 얼마간의 시간을 진행시켜야 한다. 이미 언급한 바와 같이, 음성 처리 개시시부터 특정 수의 수신 프레임들을 시작 기준(starting criterion)으로서 사용하는 것이 가능하다.
다른 일 실시예에 따르면, 음성 인식기(SR)는 실질적으로 동일한 인식 결과를 생성하는 최대 수의 프레임들이 수신된 후에 발성 끝 검출이 결정되도록 구성된다. 본 실시예는 위에서 설명한 기능들 중 어떠한 기능과도 조합하여 사용될 수 있 다. 상기 최대 수를 적당히 높게 설정함으로써, 본 실시예는 심지어 발성 끝 검출을 위한 어떤 기준이 예컨대, EOU 검출을 방해하는 어떤 예기치 못한 상황에 기인하여 달성되지 못하더라도 충분히 긴 "침묵(silence)" 기간 후에 음성 처리를 끝내는 것을 가능하게 할 수 있다.
안정성 검사 기반 발성 끝 검출(stability-check-based end of utterance detection)과 관련된 문제들은 적어도 위에서 예시한 대부분의 기능들을 결합함으로써 최선으로 방지될 수 있다는 점을 유념하는 것은 중요하다. 따라서, 상기 기능들은 본 발명의 범위 내에서 여러 방식으로 결합될 수 있으며, 그 때문에 발성 끝이 검출되도록 결정하기 전에 충족시켜야 하는 여러 조건들을 야기할 수 있다. 상기 기능들은 화자-종속(speaker-dependent) 및 화자-독립(speaker-independent) 음성 인식 양자 모두에 적합하다. 상기 임계값들은 여러 사용 상태들을 위해 그리고 상기 여러 상태들에서 발성 끝의 기능을 테스트하기 위해 최적화될 수 있다.
상기 방법들에 관한 실험들은, 특히 잡음 많은 환경들에서, 상기 방법들을 결합함으로써 잘못된 EOU 검출의 양을 현저히 감소시킬 수 있음을 보여주었다. 또한, 실제 종점(end-point) 이후의 발성 끝 검출에서의 지연들이 상기 방법에 의하지 않은 EOU 검출에서보다 적었다.
과학 기술이 발전함에 따라 본 발명의 개념이 여러 방식으로 구현될 수 있음은 당업자에게 자명할 것이다. 본 발명 및 본 발명의 실시예들은 상기 예들에 한정되는 것이 아니며, 청구의 범위의 기재범위 내에서 변경될 수 있다.

Claims (31)

  1. 발성 끝 검출(end of utterance detection)을 하는 음성 인식기(speech recognizer)를 포함하는 음성 인식 시스템에 있어서,
    상기 음성 인식기가 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성되고,
    상기 음성 인식기가 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성되고,
    상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정이,
    수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,
    음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하고,
    음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  2. 제1항에 있어서,
    상기 음성 인식기가 소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산하도록 구성되고,
    상기 인식 결과가 안정화된 것에 대한 응답으로, 상기 음성 인식기가 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교하도록 구성되고, 그리고
    상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음 성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  3. 제2항에 있어서,
    상기 음성 인식기가 검출된 침묵 모델(silence model)의 수에 의해 상기 최상 상태 스코어 합을 정규화하도록 구성되고, 그리고
    상기 음성 인식기가 상기 정규화 최상 상태 스코어 합을 상기 소정 임계 합 값과 비교하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  4. 제2항에 있어서,
    상기 음성 인식기가 또한 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 최소 필요 수를 정의하는 소정의 최소 수 값과 비교하도록 구성되고, 그리고
    상기 임계 합 값을 초과하는 상기 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하다면 또는 상기 소정의 최소 수 값보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  5. 제1항에 있어서,
    상기 음성 인식기가 발성 끝 검출을 결정하기 전에 소정의 타임 기간(time period)을 기다리도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  6. 제1항에 있어서,
    상기 음성 인식기가 최상 토큰 스코어 값들을 반복적으로 결정하도록 구성되고,
    상기 음성 인식기가 2 이상의 최상 토큰 스코어 값들을 기반으로 하여 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산하도록 구성되고,
    상기 음성 인식기가 상기 기울기를 소정의 임계 기울기 값(threshold slope value)과 비교하도록 구성되고, 그리고
    상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  7. 제6항에 있어서,
    상기 기울기가 각각의 프레임에 대해 계산되는 것을 특징으로 하는 음성 인식 시스템.
  8. 제6항에 있어서,
    상기 음성 인식기가 또한 상기 임계 기울기 값을 초과하는 기울기의 수를 상기 임계 기울기 값을 초과하는 기울기의 소정의 최소 수와 비교하도록 구성되고, 그리고
    상기 임계 기울기 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  9. 제6항에 있어서,
    상기 음성 인식기가 오직 소정 수의 프레임들이 수신된 후에만 기울기 계산들을 시작하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  10. 제1항에 있어서,
    상기 음성 인식기가 1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어를 결정하도록 구성되고, 그리고
    상기 엑시트 토큰의 최상 토큰 스코어가 상기 인터-워드 토큰의 최상 토큰 스코어보다 높다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  11. 제1항에 있어서,
    상기 인식 결과가 거부(reject)되지 않는 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  12. 제1항에 있어서,
    상기 음성 인식기가 실질적으로 동일한 인식 결과를 생성하는 최대 수의 프레임들을 수신한 후에 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 음성 인식 시스템.
  13. 음성 인식 시스템에서 발성 끝(end of utterance) 검출을 구성하는 방법에 있어서,
    발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하는 단계를 포함하고,
    상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 단계가,
    수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하는 단계,
    음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하는 단계,
    수신 음성 데이터로부터 결정된 인식 결과가 안정화되었는지 여부를 결정하는 단계,
    음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 발성 끝 검출 구성 방법.
  14. 제13항에 있어서,
    소정 수의 프레임들의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)이 계산되고,
    상기 인식 결과가 안정화된 것에 대한 응답으로, 상기 최상 상태 스코어 합 이 소정의 임계 합 값과 비교되고, 그리고
    상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
  15. 제13항에 있어서,
    상기 최상 토큰 스코어 값들이 반복적으로 계산되고,
    2 이상의 최상 토큰 스코어 값들을 기반으로 상기 최상 토큰 스코어 값들의 기울기(slope)가 계산되고,
    상기 기울기가 소정의 임계 기울기 값(threshold slope value)과 비교되고, 그리고
    상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
  16. 제13항에 있어서,
    1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어가 결정되고, 그리고
    상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어 값보다 높은 경우에만, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
  17. 제13항에 있어서,
    상기 인식 결과가 거부(reject)되지 않는 경우에만, 발성 끝 검출이 결정되는 것을 특징으로 하는 발성 끝 검출 구성 방법.
  18. 음성 인식기(speech recognizer)를 포함하는 전자 장치에 있어서,
    상기 음성 인식기가 수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하도록 구성되고,
    상기 음성 인식기가 발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하도록 구성되고,
    상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정이,
    수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,
    음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하고,
    음성 인식 결과의 안정화에 응답하여, 상기 음성 인식기가 상기 최상 상태 스코어 및 상기 최상 토큰 스코어의 처리된 값들에 기초하여, 발성 끝이 검출된 것인지 여부를 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  19. 제18항에 있어서,
    상기 음성 인식기가 소정 수의 프레임의 최상 상태 스코어 값들을 합산함으로써 최상 상태 스코어 합(best state score sum)을 계산하도록 구성되고,
    상기 인식 결과가 안정한 것에 대한 응답으로, 상기 음성 인식기가 상기 최상 상태 스코어 합을 소정의 임계 합 값(threshold sum value)과 비교하도록 구성되고, 그리고
    상기 최상 상태 스코어 합이 상기 임계 합 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  20. 제19항에 있어서,
    상기 음성 인식기가 검출된 침묵 모델(silence model)들의 수에 의해 상기 최상 상태 스코어 합을 정규화하도록 구성되고, 그리고
    상기 음성 인식기가 상기 정규화 최상 상태 스코어 합을 상기 소정의 임계 합 값과 비교하도록 구성되는 것을 특징으로 하는 전자 장치.
  21. 제19항에 있어서,
    상기 음성 인식기가 또한 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수를 상기 임계 합 값을 초과하는 최상 상태 스코어 합의 최소 필요 수를 정의 하는 소정의 최소 수 값(minimum number value)과 비교하도록 구성되고, 그리고
    상기 임계 합 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수 값과 동일하다면 또는 상기 소정의 최소 수 값보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  22. 제18항에 있어서,
    상기 음성 인식기가 발성 끝 검출을 결정하기 전에 소정의 타임 기간(time period)을 기다리도록 구성되는 것을 특징으로 하는 전자 장치.
  23. 제18항에 있어서,
    상기 음성 인식기가 최상 토큰 스코어 값들을 반복적으로 결정하도록 구성되고,
    상기 음성 인식기가 2 이상의 최상 토큰 스코어 값들을 기반으로 하여 상기 최상 토큰 스코어 값들의 기울기(slope)를 계산하도록 구성되고,
    상기 음성 인식기가 상기 기울기를 소정의 임계 기울기 값과 비교하도록 구성되고, 그리고
    상기 기울기가 상기 임계 기울기 값을 초과하지 않는다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  24. 제23항에 있어서,
    상기 기울기가 각각의 프레임에 대해 계산되는 것을 특징으로 하는 전자 장치.
  25. 제23항에 있어서,
    상기 음성 인식기가 또한 상기 임계 기울기 값을 초과하는 기울기의 수를 상기 임계 기울기 값을 초과하는 기울기의 소정의 최소 수와 비교하도록 구성되고, 그리고
    상기 임계 기울기 값을 초과하는 최상 상태 스코어 합의 수가 상기 소정의 최소 수와 동일하다면 또는 상기 소정의 최소 수보다 크다면, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  26. 제23항에 있어서,
    소정 수의 프레임이 수신된 후에만 상기 음성 인식기가 기울기 계산들을 시작하도록 구성되는 것을 특징으로 하는 전자 장치.
  27. 제18항에 있어서,
    상기 음성 인식기가 1 이상의 인터-워드 토큰(inter-word token)의 최상 토큰 스코어 및 엑시트 토큰(exit token)의 최상 토큰 스코어를 결정하도록 구성되고, 그리고
    상기 엑시트 토큰의 최상 토큰 스코어 값이 상기 인터-워드 토큰의 최상 토큰 스코어보다 높은 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  28. 제18항에 있어서,
    상기 인식 결과가 거부(reject)되지 않는 경우에만, 상기 음성 인식기가 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  29. 제18항에 있어서,
    상기 음성 인식기가 실질적으로 동일한 인식 결과를 생성하는 프레임들의 최대 수를 수신한 후에 발성 끝 검출을 결정하도록 구성되는 것을 특징으로 하는 전자 장치.
  30. 제18항에 있어서,
    상기 전자 장치는 이동 전화 또는 PDA 장치인 것을 특징으로 하는 전자 장치.
  31. 음성 인식기(speech recognizer)를 포함하는 전자 장치에서 발성 끝(end of utterance) 검출을 구성하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체에 있어서, 상기 컴퓨터 프로그램이,
    발성 끝 검출 목적들을 위해 수신 음성 데이터의 프레임들과 관련되는 최상 상태 스코어(best state score)들 및 최상 토큰 스코어(best token score)들의 값들을 처리하기 위한 프로그램 코드;
    수신 음성 데이터에 의해 결정된 인식 결과가 안정화된 것인지를 결정하기 위한 프로그램 코드; 및
    상기 인식 결과의 안정화에 응답하여, 상기 최상 상태 스코어들 및 상기 최상 토큰 스코어들의 처리된 값에 기초하여 발성 끝이 검출되었는지 여부를 결정하기 위한 프로그램 코드를 포함하고,
    상기 최상 상태 스코어들 및 최상 토큰 스코어들의 값들을 처리하는 과정은,
    수신 음성 데이터의 프레임들과 관련된 상태 스코어들 및 토큰 스코어들의 값들을 계산하고,
    음성 인식 목적을 위해 사용되는 상태 모델의 다수의 상태들 중에서 가장 높은 확률을 갖는 상태인 최상 상태 스코어 및 음성 인식 목적을 위해 사용되는 다수의 토큰들 중에서 가장 높은 확률을 갖는 최상 토큰 스코어들을 결정하는 것을 특징으로 하는 컴퓨터 프로그램을 저장한 컴퓨터에 의해 판독가능한 저장매체.
KR1020067023520A 2004-05-12 2005-05-10 음성 인식 시스템에서의 발성 끝 검출 KR100854044B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/844,211 US9117460B2 (en) 2004-05-12 2004-05-12 Detection of end of utterance in speech recognition system
US10/844,211 2004-05-12

Publications (2)

Publication Number Publication Date
KR20070009688A KR20070009688A (ko) 2007-01-18
KR100854044B1 true KR100854044B1 (ko) 2008-08-26

Family

ID=35310477

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067023520A KR100854044B1 (ko) 2004-05-12 2005-05-10 음성 인식 시스템에서의 발성 끝 검출

Country Status (5)

Country Link
US (1) US9117460B2 (ko)
EP (1) EP1747553A4 (ko)
KR (1) KR100854044B1 (ko)
CN (1) CN1950882B (ko)
WO (1) WO2005109400A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US8065146B2 (en) * 2006-07-12 2011-11-22 Microsoft Corporation Detecting an answering machine using speech recognition
US20090198490A1 (en) * 2008-02-06 2009-08-06 International Business Machines Corporation Response time when using a dual factor end of utterance determination technique
KR20130101943A (ko) 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
KR102267405B1 (ko) * 2014-11-21 2021-06-22 삼성전자주식회사 음성 인식 장치 및 음성 인식 장치의 제어 방법
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
US10283150B2 (en) 2017-08-02 2019-05-07 Western Digital Technologies, Inc. Suspension adjacent-conductors differential-signal-coupling attenuation structures
US11682416B2 (en) 2018-08-03 2023-06-20 International Business Machines Corporation Voice interactions in noisy environments
JP7007617B2 (ja) * 2018-08-15 2022-01-24 日本電信電話株式会社 話し終わり判定装置、話し終わり判定方法およびプログラム
CN110875033A (zh) * 2018-09-04 2020-03-10 蔚来汽车有限公司 用于确定语音结束点的方法、装置和计算机存储介质
US11648951B2 (en) 2018-10-29 2023-05-16 Motional Ad Llc Systems and methods for controlling actuators based on load characteristics and passenger comfort
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
GB2607172B (en) 2019-04-25 2023-11-01 Motional Ad Llc Graphical user interface for display of autonomous vehicle behaviors
US11472291B2 (en) 2019-04-25 2022-10-18 Motional Ad Llc Graphical user interface for display of autonomous vehicle behaviors
CN112825248B (zh) * 2019-11-19 2024-08-02 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
US11615239B2 (en) * 2020-03-31 2023-03-28 Adobe Inc. Accuracy of natural language input classification utilizing response delay
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants
CN113763960B (zh) * 2021-11-09 2022-04-26 深圳市友杰智新科技有限公司 模型输出的后处理方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5740318A (en) * 1994-10-18 1998-04-14 Kokusai Denshin Denwa Co., Ltd. Speech endpoint detection method and apparatus and continuous speech recognition method and apparatus
EP0895224A2 (en) * 1997-07-31 1999-02-03 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
KR20040029318A (ko) * 2001-11-14 2004-04-06 마쯔시다덴기산교 가부시키가이샤 오디오 부호화 및 복호화
US6873953B1 (en) 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
ES2141824T3 (es) 1993-03-25 2000-04-01 British Telecomm Reconocimiento de voz con deteccion de pausas.
DE69421077T2 (de) * 1993-03-31 2000-07-06 British Telecommunications P.L.C., London Wortkettenerkennung
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP4180110B2 (ja) * 1995-03-07 2008-11-12 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語認識
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
WO2001020597A1 (en) * 1999-09-15 2001-03-22 Conexant Systems, Inc. Automatic speech recognition to control integrated communication devices
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
US7050975B2 (en) * 2002-07-23 2006-05-23 Microsoft Corporation Method of speech recognition using time-dependent interpolation and hidden dynamic value classes
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
JP4433704B2 (ja) 2003-06-27 2010-03-17 日産自動車株式会社 音声認識装置および音声認識用プログラム
US20050049873A1 (en) * 2003-08-28 2005-03-03 Itamar Bartur Dynamic ranges for viterbi calculations
GB2409750B (en) * 2004-01-05 2006-03-15 Toshiba Res Europ Ltd Speech recognition system and technique

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5740318A (en) * 1994-10-18 1998-04-14 Kokusai Denshin Denwa Co., Ltd. Speech endpoint detection method and apparatus and continuous speech recognition method and apparatus
EP0895224A2 (en) * 1997-07-31 1999-02-03 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6873953B1 (en) 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
KR20040029318A (ko) * 2001-11-14 2004-04-06 마쯔시다덴기산교 가부시키가이샤 오디오 부호화 및 복호화

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
10-2004-29318

Also Published As

Publication number Publication date
US20050256711A1 (en) 2005-11-17
US9117460B2 (en) 2015-08-25
CN1950882B (zh) 2010-06-16
EP1747553A4 (en) 2007-11-07
EP1747553A1 (en) 2007-01-31
KR20070009688A (ko) 2007-01-18
CN1950882A (zh) 2007-04-18
WO2005109400A1 (en) 2005-11-17

Similar Documents

Publication Publication Date Title
KR100854044B1 (ko) 음성 인식 시스템에서의 발성 끝 검출
CN107810529B (zh) 语言模型语音端点确定
EP3433855B1 (en) Speaker verification method and system
EP2089877B1 (en) Voice activity detection system and method
RU2393549C2 (ru) Способ и устройство для распознавания речи
US10134425B1 (en) Direction-based speech endpointing
US9373321B2 (en) Generation of wake-up words
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
US7555430B2 (en) Selective multi-pass speech recognition system and method
JP3363630B2 (ja) 音声認識方法
US9031841B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
EP1220197A2 (en) Speech recognition method and system
US10854192B1 (en) Domain specific endpointing
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR20170007107A (ko) 음성인식 시스템 및 방법
WO2014018004A1 (en) Feature normalization inputs to front end processing for automatic speech recognition
Irtza et al. Phonemes frequency based PLLR dimensionality reduction for language recognition.
KR101060162B1 (ko) 화자 인식 장치 및 방법
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
JP2006010739A (ja) 音声認識装置
JP2004309504A (ja) 音声キーワード認識装置
JP2002323899A (ja) 音声認識装置、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120802

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130801

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150717

Year of fee payment: 8

LAPS Lapse due to unpaid annual fee