KR101153129B1 - 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정 - Google Patents

자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정 Download PDF

Info

Publication number
KR101153129B1
KR101153129B1 KR1020050078664A KR20050078664A KR101153129B1 KR 101153129 B1 KR101153129 B1 KR 101153129B1 KR 1020050078664 A KR1020050078664 A KR 1020050078664A KR 20050078664 A KR20050078664 A KR 20050078664A KR 101153129 B1 KR101153129 B1 KR 101153129B1
Authority
KR
South Korea
Prior art keywords
text
sequence
model
pronunciation
phonemes
Prior art date
Application number
KR1020050078664A
Other languages
English (en)
Other versions
KR20060050689A (ko
Inventor
리카르도 로페즈-바쿠일라
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060050689A publication Critical patent/KR20060050689A/ko
Application granted granted Critical
Publication of KR101153129B1 publication Critical patent/KR101153129B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

발음들을 음성 인식기에 제공하는 것에 의해, 음성 인식 시스템을 시험하고 조정하는 시스템 및 방법을 제공한다. 먼저, 텍스트 문서가 시스템에 제공되어 텍스트의 단어들을 표현하는 음소들의 시퀀스로 변환된다. 그 다음, 음소들은, HMM들(Hidden Markov Models)과 같은, 모델 단위들로 변환된다. 모델들로부터, 각 모델 또는 상태에 대한 확률이 획득되고, 특징 벡터들이 판정된다. 각 상태에 대한 가장 유망한 벡터와 일치하는 특징 벡터가 각 모델에 대해 선택된다. 이러한 이상적 특징 벡터들이 음성 인식기에 제공되어 프로세싱된다. 최종 결과가 원래의 텍스트와 비교되며, 출력 텍스트에 기초해, 시스템에 대한 변경들이 수행될 수 있다.
Figure R1020050078664
음성 인식기, 텍스트, 음소, Hidden Markov Model, 특징 벡터

Description

자동 음성 인식 시스템들의 음향 모델들로부터 발생된 합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험 및 조정 {TESTING AND TUNING OF AUTOMATIC SPEECH RECOGNITION SYSTEMS USING SYNTHETIC INPUTS GENERATED FROM ITS ACOUSTIC MODELS}
도 1은 본 발명이 사용될 수 있는 예시적인 환경의 블록도.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시험 시스템의 컴포넌트들을 도시하는 블록도.
도 3은 본 발명에 사용될 수 있는 텍스트-음성 엔진의 컴포넌트들을 도시하는 블록도.
도 4는 본 발명이 사용될 수 있는 하나의 예시적 음성 인식 시스템을 도시하는 블록도.
도 5는 본 발명의 일 실시예에 따른 시험 시스템에 의해 실행되는 단계들을 도시하는 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
201 : 텍스트
210 : 발음 툴
214 : 발음들의 데이터베이스
216 : 텍스트-음성 컴포넌트
220 : 모델 단위 발생기
224, 234 : 데이터베이스
230 : 이상적 벡터 발생기
240 : 음성 인식기
[특허 문헌] 미국특허공보 제6,163,769호
[비특허 문헌] CSR-III Text Language Model, University of Penn., 1994.
본 발명은 음성 인식에 관한 것이다. 보다 구체적으로, 본 발명은 음성 인식기의 시험(testing) 및 조정(tuning)에 관한 것이다.
먼저, 음성 인식 시스템에서 사용되는 프로세스들의 기본적인 설명이 이루어질 것이다. 음성 인식 시스템들에서, 입력 음성 신호는, 음성 신호의 언어적 내용을 표현하는 단어들로 변환된다. 이러한 변환은, 아날로그 음성 신호를 일련의 디지털 값들로 변환하는 것에 의해 시작된다. 다음으로, 디지털 값들은, 디지털 값들에 기초해 특징 벡터들의 시퀀스를 계산하는 특징 추출 단위로 전달된다. 각각의 특징 벡터는 통상적으로 다차원이며 음성 신호의 단일 프레임을 표현한다.
단어들의 가장 유망한 시퀀스를 식별하기 위해, 특징 벡터들은, 트레이닝 텍 스트를 사용해 트레이닝된 하나 이상의 모델들에 적용된다. 통상적으로, 이것은, 하나의 프레임 상태가 하나의 특징 벡터와 관련되는 프레임-기반 음향 모델(frame-based acoustic model)에 특징 벡터들을 적용하는 단계를 수반한다. 그러나, 최근에는, 다수의 특징 벡터들을 하나의 세그먼트 상태와 관련짓는 세그먼트 모델들이 도입되었다. 세그먼트 모델들은 인간 음성에서의 대규모 변화들에 대한 좀더 정확한 모델을 제공하는 것으로 판단된다.
모든 모델들은, 프레임 기반이든 세그먼트 기반이든, 음향 단위(acoustic unit)에 대한 확률을 판정한다. 초창기의 음성 인식 시스템들에서는, 음향 단위가 전체 단어였다. 그러나, 이러한 시스템들은, 언어의 각 단어가 개별적으로 모델링되어야 했기 때문에, 다량의 모델링 데이터를 필요로 했다. 예를 들어, 언어가 10,000개의 단어들을 포함한다면, 인식 시스템은 10,000개의 모델들을 필요로 했다.
필요한 모델들의 수를 줄이기 위해, 더 작은 음향 단위들을 사용하기 시작했다. 이와 같은 더 작은 단위들의 예로는 단어들에서의 개별 사운드들을 표현하는 음소들(phonemes) 및 음소들내에서의 개별 상태들을 표현하는 세논들(senones)을 들 수 있다. 다른 인식 시스템들은, 1개 음소의 중앙으로부터 인접 음소의 중앙에 이르는 음향 단위를 표현하는 이-단음들(diphones)을 사용했다. 좀더 최근의 인식 시스템들은, (일 음소의 중앙으로부터 일차 음소를 통해 후속 음소의 중앙에 이르는 것과 같은) 3개 음소들에 이르는 음향 단위를 표현하는 삼-단음들(triphones)을 사용하고 있다.
특징 벡터들의 시퀀스에 대한 확률을 판정할 때, 종래 기술의 음성 인식 시스템들은 음향 단위들의 상이한 유형들을 혼합하지 않았다. 따라서, 음소 음향 모델을 사용해 확률을 판정할 경우, 고려되는 모든 음향 단위들은 음소들이었다. 종래 기술은 음성 신호의 일부 세그먼트들에 대해서는 음소들을 사용하지 않았고, 음성 신호의 다른 부분들에 대해서는 세논들을 사용하지 않았다. 이 때문에, 개발자들은 세그먼트 모델들에 적합한 좀더 큰 단위들을 사용하는 것과, 트레이닝이 좀더 용이하며 좀더 적은 데이터를 필요로 하는 좀더 작은 단위들을 사용하는 것 중에서 결정해야 했다.
음성 인식 동안, 개별 음향 단위의 확률은 대부분, 한 세트의 가우시안 분포들을 사용해 판정된다. 최소한, 하나의 가우시안 분포가, 음향 단위들에 의해 확장되는 각각의 특징 벡터에 대해 제공된다.
가우시안 분포들은 트레이닝 데이터로부터 형성되며 소정 음향 단위에 대해 소정 값을 갖는 특징 벡터의 확률을 지시한다. 분포들은, 상이한 장소들에서 발견되는 상이한 음향 단위들, 상이한 화자들에 의한 문맥들, 및 상이한 음향 조건들에 대한 수천번의 반복들에 의한 것을 예시하는 것으로 이루어진 트레이닝 데이터로부터 형성된다. 최종적인 분포는 소정 모델링 단위의 발생들 모두에 대한 모든 벡터들의 히스토그램에 대한 근사치로서 설명될 수 있다. 예를 들어, 트레이닝 텍스트에서의 "th" 음소의 모든 발생에 대해, 특징 벡터들의 결과적인 값들이 측정되어 가우시안 분포를 발생시키는데 사용된다.
상이한 화자들은 상이한 음성 신호들을 발생시키기 때문에, 때로는 음향 단 위에 대한 하나의 가우시안 분포가, 관찰된 특징 벡터들이 시스템을 트레이닝하는데 사용되는 화자가 아닌 상이한 화자에 의해 발생되었다는 이유만으로, 음성 인식에서의 높은 오류율을 발생시킬 수도 있다. 이를 극복하기 위해, 종래 기술은 각각의 음향 단위에 대한 가우시안 분포들의 혼합(mixture)을 도입했다. 각각의 혼합내에서, 화자들의 일 그룹에 대해 개개의 가우시안이 발생된다. 예를 들어, 남성 화자들에 대한 하나의 가우시안 및 여성 화자들에 대한 하나의 가우시안이 존재할 수 있다.
가우시안들의 혼합을 사용하면, 각각의 음향 단위는 각 가우시안의 평균에 위치하는 다수의 타깃을 가진다. 따라서, 일례로서, 특정 음향 단위의 경우, 하나의 타깃은 남성용 트레이닝 보이스로부터, 그리고 또 다른 타깃은 여성용 트레이닝 보이스로부터 유래할 수 있다.
그러나, 음성 인식기들의 개발이 발전하고 있음에도 불구하고, 여전히, 소정 유형의 단어들이 제시될 경우의 인식기들의 정확도와 관련된 많은 문제점들이 존재한다. 벡터들의 정확도가 증가하기는 했지만, 벡터들의 패키징 및 패키징된 벡터들의 해석으로 인해, 여전히 오류들이 발생한다. 이러한 문제점들은 음향 모델과 발화된 발성들간의 불일치, 언어 모델과 예상 텍스트간의 불일치, 양자의 조합 또는, 발음법들에서의 오류들 또는 음성 인식기 엔진에서의 오류들과 같은, 다른 문제점들로 인한 오류들을 포함할 수 있다. 언어 모델과 관련된 문제점들 중에서, 특히 어려운 문제는 동음 이의어들(homonyms)에 관한 문제이다.
동음 이의어들은, 발음은 비슷하지만 철자와 의미가 상이한 단어들이다. 예 를 들어, 흔히 보는 동음 이의어들로는 read/reed, read/red, their/there, here/hear, cue/queue, whether/weather, 및 fore/for/four를 들 수 있다. 이 단어들은 정확히 동일하게 발음되기 때문에, 인식기는 단어들 중에서 하나를 선택해 발화된 발성과 매칭시켜야 한다. 대부분의 경우, 인식기는, 바람직한 단어로서 지시되는 단어를 선택한다. 이러한 선택은, 예를 들어, 어떤 단어가 그 단어의 가장 흔하게 사용되는 버전인지에 따라, 또는 언어 모델 정보를 사용해 어떤 단어가 언어학적으로 적절해 보이는지에 따라 이루어질 수 있다.
언어 모델 관련 오류들은, 입력된 데이터에도 불구하고, 음성 인식 시스템이 어떤 문맥에서 개개 단어들을 인식할 수 없는 경우에 발생한다. 이러한 상황에서는, 예상 단어가 대안들의 리스트에 표시되지만 이것이 최선의 선택은 아니다. 언어 모델의 비중을 감소시키기만 한다면, 이 단어들은 인식될 수 있다. 언어 모델 도입형 오류들은, 음성 인식 시스템이, 단어들이 시험에서 제시되는 문맥이 아니라 분리하여 제시될 때의 개개 단어들을 인식할 수 있는 경우들이다. 예를 들어, 언어 모델이 "want to hose"가 아니라 "to hose"를 분리하여 인식할 수 있다면, (예를 들어, 시스템은 이 입력을 "want to hose"로서 인식할 수 있다) 이것은 언어 모델 오류이다. 이와 같은 오류의 제2 예는, 언어 모델이 "July 25th."가 아니라 "July 25th"를 적절하게 인식하는 경우일 것이다.
다른 오류들이 음향 모델 불일치, 화자, 및 다른 소스들에 기인할 수 있다. 이러한 오류들의 대부분은 화자 발생 발성들과 상이한 발음, 강세, 잡음 환경 등으 로 인한 모델들간의 불일치로 인한 것이며, 시스템에서의 어떠한 내부 오류에 의해 발생되는 것이 아니다. 그러나, 음성 인식 시스템들의 특징으로 인해, 이러한 유형의 오류들이 상기 오류들과 유사해 보일 수도 있다. 따라서, 개발자는, 오류들이 음향 불일치에서 유래했을 확률을 고려할 필요없이 나머지 오류 유형들을 식별할 필요가 있고, 본 발명은 이러한 문제점들 중 적어도 일부를 다룬다.
본 발명의 일 실시예는 직접적으로, 텍스트 문서들에 기초해 음성 인식기를 시험하고 조정하는 시스템 및 방법에 관한 것이다. 본 발명은, 값비싼 사운드 파일들을 사용해 음성 인식기를 시험하는 대신에, 텍스트 문서들의 기존의 대용량 언어 자료를 차입한다. 텍스트 문서들을 차입하는 이점들로는, 음성 인식기 시스템들에서의 결과들, 처음 결과가 틀렸을 경우의 다른 결과들 등의 포매팅에 기초해 시스템들의 특징들을 기능적으로 시험하고, 언어의 어떤 화자들에 대한 필요없이 시스템을 시험하며, 시스템이 실제 상황들에서 갖게 될 오류들의 일부를 예측하는 능력을 들 수 있다.
일 실시예에서, 텍스트 문서는 발음 툴(pronunciation tool)에서 시스템에 의해 수신된다. 발음 툴은 텍스트 문서의 각 단어에 대한 발음을 판정한다. 이것을 실현하기 위해, 도구는 단어들의 데이터베이스와 관련 발음들 또는 텍스트-음성 합성기를 조회할 수 있다. 그 다음, 이러한 발음들은 음소들의 시퀀스로 변환된다. 음소들의 시퀀스는 단어의 발음으로부터 판정되거나 단어에 대한 데이터베이스 엔트리에 저장될 수 있다.
다음으로, 음소들의 시퀀스는 모델 단위 발생기(model unit generator)에 의해 모델들로 변환된다. 모델 단위 발생기는 모델들의 데이터베이스로부터 모델들을 획득할 수 있다. 각각의 음소에 대해, 그 음소를 표현하는 하나 이상의 모델이 식별된다. 이러한 모델들은 "단음(phone)" 모델에 기초한다. 다시 말해, 모델 단위 발생기는 이-단음들, 삼-단음들, 사-단음들 등을 사용한다. 따라서, 음소들의 시퀀스가 구성되는 방법에 따라, 모델 단위 발생기는 선택적으로 음소들의 시퀀스를 단음들로 변환할 필요가 있을 수도 있다. 일 실시예에서, 모델 단위 발생기는 각 음소에 대해 HMM들(Hidden Markov Models)을 획득하고, 삼-단음들을 사용해 음소를 표현한다. 삼-단음들을 사용하는 것은 3개의 Markov 상태들을 가진 HMM들을 발생시킨다. 또한, 모델 단위 발생기는 Markov 상태들 각각에 대한 확률 분포를 획득한다. HMM 및 확률들은 이상적 벡터 발생기로 전달된다. 일 실시예에서, 각각의 삼-단음은 3개의 세논들로써 표현된다. 세논은 HMM의 상태이다. 각각의 세논은 다차원 가우시안들의 선형 조합으로서 설명되는 확률 분포 함수에 대한 묘사이다.
이상적 벡터 발생기는 음소들의 시퀀스의 각 음소에 대한 벡터들의 시퀀스를 다같이 패키징한다. 이상적 벡터 발생기는 특징 벡터들의 데이터베이스에 액세스하여, 분포 곡선의 최고 확률을 가진 포인트에 일치되는 또는 가장 근접하게 일치되는 특징 벡터를 판정한다. 이러한 특징 벡터들은 실례적으로 가장 가능한 상태에 기초하기 때문에, 이들을 이상적 벡터들이라고 한다. 이상적 벡터 발생기는 실례적으로 특징 벡터들의 데이터베이스를 위해 음성 인식기의 음향 모델을 사용한 다. 특징 벡터들에 대해 음향 모델을 사용하는 것에 의해, 본 발명은, 단어를 표현하는 각 음소에 대해 본 발명이 예상하는 특징 벡터들을 음성 인식기에 제공한다. 이것은 음향 불일치들을 방지한다.
다음으로는, 패키징된 이상적 벡터들이 음성 인식기에 제공된다. 이들은, 특징 추출 모듈 이후, 특징 벡터들에 대한 임의의 추가적 프로세싱 이전에 음성 인식기에 제공된다. 이것이 본질적으로 음성 인식기에 대해서는, 벡터들이 내부적으로 판정된 것처럼 보인다. 이상적 벡터들은 음성 인식기의 통상적인 규칙들에 따라 후속적으로 프로세싱된 다음, 텍스트로서 출력된다. 그 다음, 개발자는 인식 결과들에 기초해 음성 인식기를 시험하고 조정할 수 있다. 음성 인식기 관점의 음향 포인트로부터 완전한 입력을 제공하는 것에 의해, 개발자는, 시험시의 모든 오류가 언어 모델에서의 불일치나 취약점으로부터 또는 시스템의 내부 오류로부터 기인한다는 것을 알 수 있을 것이다. 이러한 오류들은, 시험을 위해 실제 오디오 파일들을 사용하는 경우에 직면하게 되는 음향 불일치로 인한 예상 오류들과는 구별된다.
본 발명은 개별적으로 발생된 특징 벡터들에 기초해 음성 인식기를 시험하거나 조정하는 것을 다룬다. 본 발명을 상세하게 설명하기 전에, 본 발명이 사용될 수 있는 예시적인 환경이 논의될 것이다.
도 1은, 본 발명이 구현될 수 있는 적당한 컴퓨팅 시스템 환경(100)의 일례를 도시한다. 컴퓨팅 시스템 환경(100)은 적당한 컴퓨팅 환경들의 일례일 뿐이며 본 발명의 사용 또는 기능 범위에 대해 어떤 제한을 두려는 것은 아니다. 컴퓨팅 환경(100)은 예시적인 동작 환경(100)에 도시된 컴포넌트들 중의 어느 하나 또는 컴포넌트들의 조합과 관련하여 어떠한 의존성이나 요구 사항을 갖는 것으로 해석되어서는 안된다.
본 발명은 다수의 여타 범용 또는 특수 목적 컴퓨팅 시스템 환경들 또는 구성들과도 동작할 수 있다. 본 발명에 사용하기에 적당할 수 있는 주지의 다른 컴퓨팅 시스템들, 환경들, 및/또는 구성들로는 퍼스널 컴퓨터들, 서버 컴퓨터들, 핸드-헬드 또는 랩탑 장치들, 멀티-프로세서 시스템들, 마이크로프로세서-기반 시스템들, 셋톱 박스들, 프로그램 가능한 상용 전자 장치들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 상기 시스템들 또는 장치들 중 하나를 포함하는 분산형 컴퓨팅 환경들 등을 들 수 있지만, 이에 한정되는 것은 아니다.
본 발명은 컴퓨터에 의해 실행되는, 프로그램 모듈들과 같은, 컴퓨터-실행 가능 명령어들의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정한 태스크들을 수행하거나 특정한 추상적 데이터형들을 구현하는 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등을 포함한다. 또한, 본 발명은, 태스크들이 통신 네트워크를 통해 링크되어 있는 원격 프로세싱 장치들에 의해 수행되는 분산 컴퓨팅 환경들에서 실시될 수도 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 장치들을 포함하는 로컬 및 원격 컴퓨터 저장 매체들 모두에 배치될 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적 시스템은 컴퓨터(110) 형 태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함하는 다양한 시스템 컴포넌트들을 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 들 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 다양한 버스 아키텍처들 중 하나를 사용하는 로컬 버스를 포함하는 몇가지 유형의 버스 구조들 중 하나일 수 있다. 한정이 아닌 일례로서, 이러한 아키텍처들로는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 Mezzanine 버스라고도 하는 PCI(peripheral Component Interconnects) 버스를 들 수 있다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독 가능 매체들을 포함한다. 컴퓨터 판독 가능 매체들은 컴퓨터(110)에 의해 액세스될 수 있는 이용 가능한 임의의 매체들일 수 있으며, 휘발성 및 비휘발성 매체들, 분리형 및 비분리형 매체들 모두를 포함한다. 한정이 아닌 일례로서, 컴퓨터 판독 가능 매체들은 컴퓨터 저장 매체들 및 통신 매체들을 구비할 수 있다. 컴퓨터 저장 매체들은 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체들 모두를 포함한다. 컴퓨터 저장 매체들은 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD(digital versatile disks) 또는 다른 광학 디스크 저장 장치, 자기 카세트들, 자기 테이프, 자기 디스크 저장 장치 또는 다른 자기 저장 장치들, 또는 소정 정보를 저장하는데 사용될 수 있으며 컴퓨터(110)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 한정되는 것은 아니다. 통신 매체들은 통상적으로 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 반송파와 같은 변조 데이터 신호나 다른 전송 방식의 다른 데이터를 구현하며 임의의 정보 전달 매체들을 포함한다. "변조 데이터 신호"라는 용어는, 하나 이상의 특징들의 세트를 가지며 정보를 신호로 인코딩하는 방식으로 변경된 신호를 의미한다. 한정이 아닌 일례로서, 통신 매체들은 유선 네트워크 또는 직접-유선 접속과 같은 유선 매체들, 및 음향, RF, 적외선 및 다른 무선 매체들과 같은 무선 매체들을 포함한다. 상기한 것들의 임의 조합들 또한 컴퓨터 판독 가능 매체들의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(read only memory;131) 및 RAM(random access memory;132)과 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체들을 포함한다. 스타트-업(start-up) 동안과 같은 때에, 컴퓨터(110)내의 요소들 사이에서 정보 전달을 돕는 기본적 루틴을 포함하는 BIOS(basic input/output system;133)는 ROM(131)에 저장된다. RAM(132)은 통상적으로, 프로세싱 유닛(120)으로 즉시 액세스될 수 있거나 및/또는 프로세싱 유닛(120)에 의해 현재 연산되고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 한정이 아닌 일례로서, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체들 을 포함할 수도 있다. 단지 일례로서, 도 1은 비분리형, 비휘발성 자기 매체들로부터 판독하고 그에 기입하는 하드 디스크 드라이브(141), 분리형, 비휘발성 자기 디스크(152)로부터 판독하고 그에 기입하는 자기 디스크 드라이브(151) 및, CD-ROM 또는 다른 광학 매체들과 같은, 분리형, 비휘발성 광학 디스크(156)로부터 판독하고 그에 기입하는 광학 디스크 드라이브(155)를 도시한다. 예시적 동작 환경에 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체들로는 자기 테이프 카세트들, 플래시 메모리 카드들, DVD들, 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 들 수 있지만, 이에 한정되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 통상적으로, 인터페이스(150)와 같은, 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
상술되고 도 1에 도시된 드라이브들 및 그들과 관련된 컴퓨터 저장 매체들은 컴퓨터(110)에 컴퓨터 판독 가능 명령어들, 데이터 구조들, 프로그램 모듈들, 및 다른 데이터의 저장을 제공한다. 도 1에서는, 예를 들어, 하드 디스크 드라이브(141)가 오퍼레이팅 시스템(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 이들 컴포넌트들은 오퍼레이팅 시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)와 동일하거나 상이할 수 있다. 여기에서는, 최소한, 이들이 상이한 사본들임을 나타내기 위해, 오퍼레이팅 시스템 (144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)에 상이한 번호가 부여되어 있다.
사용자는 키보드(162), 마이크로폰(163) 및, 마우스, 트랙볼 또는 터치패드 등의 포인팅 장치(161)와 같은 입력 장치를 통해 명령들 및 정보를 컴퓨터(110)에 입력할 수 있다. (나타내지 않은) 다른 입력 장치들로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 들 수 있다. 이들 및 다른 입력 장치들은 대개, 시스템 버스에 결합되어 있는 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus)와 같은, 다른 인터페이스 및 버스 구조들에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치 또한, 비디오 인터페이스(190)와 같은, 인터페이스를 통해 버스(121)에 접속되어 있다. 모니터 이외에, 컴퓨터는 출력 주변 장치 인터페이스(195)를 통해 접속될 수 있는, 스피커들(197) 및 프린터(196)와 같은, 다른 주변 출력 장치들도 포함할 수 있다.
컴퓨터(110)는, 원격 컴퓨터(180)와 같은, 하나 이상의 원격 컴퓨터들로의 논리적 접속을 사용하는 네트워크 환경에서 동작할 수도 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치, 또는 다른 공통 네트워크 노드일 수 있으며, 통상적으로 컴퓨터(110)와 관련하여 상술한 요소들 중 많은 것을 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속들은 LAN(local area network;171) 및 WAN(wide area network;173)을 포함하지만, 다른 네트워크들을 포함할 수도 있다. 이러한 네트워킹 환경들은 사무실들, 기업-범위 의 컴퓨터 네트워크들, 인트라넷들, 및 인터넷에서 흔히 볼 수 있다.
LAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 통상적으로, 모뎀(172) 또는, 인터넷과 같은, WAN(173)을 통해 통신을 확립하기 위한 다른 수단을 포함한다. 내장형이거나 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서는, 컴퓨터(110)와 관련하여 도시된 프로그램 모듈들 또는 그 일부분들은 원격 메모리 저장 장치에 저장될 수 있다. 한정이 아닌 일례로서, 도 1은 원격 애플리케이션 프로그램들(185)을 메모리 장치(181)에 상주하는 것으로 도시하고 있다. 나타낸 네트워크 접속은 예시적인 것이며 컴퓨터들간에 통신 링크를 확립하는 다른 수단이 사용될 수도 있다는 것을 알 수 있을 것이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시험 및 조정 시스템(200)의 컴포넌트들을 도시하는 블록도이다. 시험 컴포넌트(200)는 발음 툴(210), 모델 단위 발생기(220), 이상적 벡터 발생기(230), 및 음성 인식기(240)와의 인터페이스들을 포함한다. 이러한 컴포넌트들 각각에 대한 세부 사항들이 다음에서 제공된다.
텍스트(201)가 시험 컴포넌트(200)에 제공된다. 이러한 텍스트(201)는, 개발자가 시험 또는 조정 중인 시스템 부분들에 따라, 다수 형태들을 취할 수 있다. 일 실시예에서, 개발자는 텍스트(201)를 손으로 입력한다. 그러나, 다른 실시예에서는, 컴포넌트(200)에 복수개의 텍스트 입력들이 공급된다. 이러한 예시적 실시 예에서, 텍스트는, 개발자가 통상적인 음성 인식 시스템에 대해 문제점들을 발생시킬 수 있을 것으로 판정한 복수개 단어들을 포함하는 파일로서 컴포넌트에 전달된다. 텍스트는 임의의 언어일 수 있지만, 음성 인식기가 작용하는 언어의 텍스트인 것이 바람직하다.
발음 툴(210)는, 소정 텍스트(201)에 대한 발음 또는 다수 발음들을 식별하도록 구성되어 있는 시험 시스템(200)의 컴포넌트이다. 텍스트(201)가 발음 툴(210)에서 수신됨에 따라, 텍스트의 각 단어에 대한 발음이 실례적으로 발음들(214)의 데이터베이스 또는 텍스트-음성 합성기(216)로부터 획득된다. 그러나, 발음을 획득하기 전에, 발음 툴(210)는 텍스트에서 단어들을 식별하며 임의의 구두점도 단어 포맷으로 변환한다. 발음들의 데이터베이스(214) 또는 텍스트-음성 합성기(216)에 의해 리턴되는 결과는, 텍스트의 단어 또는 단어들의 발음을 표현하는 음소들의 시퀀스이다. 그 다음, 이러한 음소들은 모델 단위 발생기(220)로 출력된다.
일 실시예에서, 데이터베이스(214)는, 음성 인식 컴포넌트(240)에 의해 사용자로부터의 소정 음성 입력과 관련된 단어들을 식별하는데 사용되는 것과 동일한 데이터베이스이다. 그러나, 다른 데이터베이스가 사용될 수도 있다. 데이터베이스(214)는 실례적으로, 음성 인식 시스템이 인식할 수 있는 각 단어에 대한 엔트리를 포함한다. 시스템이 인식할 수 있는 각 단어에 대해, 데이터베이스(214)는, 단어의 발음을 표현하는 음소들의 하나 이상의 시퀀스도 포함한다. 음소들의 이 시퀀스는 발음 툴(210)로 리턴된다.
예시적인 텍스트-음성 합성기(216)가 도 3에 도시되어 있다. 그러나, 다른 텍스트-음성 합성기들 또는 문자-사운드 컴포넌트들이 사용될 수도 있다. 일반적으로, 발생기(216)는 텍스트 분석기(320) 및 단위 결합 모듈(330)을 포함한다. 합성형 음성(synthetic speech)으로 변환될 텍스트가 텍스트 분석기(320)에 대한 입력(310)으로서 제공된다. 텍스트 분석기(320)는, 약어들을 그들의 공식적인 형태들로 확장하는 것 뿐만 아니라 숫자들, 금액들, 구두점 및 다른 비-알파벳 문자들을 그들의 완전한 단어 등가물들로 확장하는 것을 포함할 수 있는, 텍스트 정규화를 수행한다. 그 다음, 텍스트 분석기(320)는 정규화된 텍스트 입력을, 공지 기술들에 의해, 음소들과 같은, 하부-단어 요소들의 스트링으로 변환한다. 그 다음, 음소들의 스트링은 단위 결합 모듈(330)로 제공된다. 원한다면, 텍스트 분석기(320)는 (설명되지 않은) 운율 템플릿들을 사용해 음소들의 스트링에 강세 파라미터들을 할당할 수 있다.
단위 결합 모듈(330)은 음소 스트링을 수신하여 대응되는 합성형 음성을 구성하는데, 합성형 음성은 출력 신호로서 디지털-아날로그 컨버터(370)에 제공되고, 디지털-아날로그 컨버터(370)는 스피커(83)에 아날로그 신호(375)를 제공한다. 그러나, 본 애플리케이션에서는, 합성형 음성의 출력 신호가 발음 툴(210)에 제공된다.
텍스트 분석기(320)로부터의 스트링 입력에 기초해, 단위 결합 모듈(330)은, 350에 저장되어 있는 해당 판정 트리들을 통해 작업한 후, 단위 목록(340;unit inventory)으로부터 대표적 인스턴스들(representative instances)을 선택한다. 단위 목록(340)은 실제 음향 데이터의 대표적인 문맥-의존형 음소-기반 단위들의 저장 공간이다. 일 실시예에서는, 삼-단음들(그것에 즉각적으로 선행하고 후행하는 음소들을 문맥으로서 가진 음소)이 문맥-의존형 음소-기반 단위들에 사용된다. 음소-기반 단위들의 다른 형태들로는 오-단음들, 이-단음들, 또는 n-단음들을 들 수 있다. 판정 트리들(350)은, 어떤 음소-기반 단위가 단위 결합 모듈(330)에 의해 사용될 것인지를 판정하기 위해 액세스된다. 일 실시예에서는, 음소-기반 단위가, 총 45개의 음소 판정 트리들이 발생되어 350에서 저장되는 일 음소이다.
음소 판정 트리(350)는 실례적으로 각각의 노드와 관련된 언어적 질문으로써, 루트 노드 및 연속적인 노드들 각각을 분할하는 것에 의해 성장되는 이진 트리(binary tree)이며, 각 질문은 왼쪽(선행) 또는 오른쪽(후행) 음소의 카테고리에 관해 질문한다. 음소의 왼쪽 또는 오른쪽 문맥에 관한 언어적 질문들은 일반적으로, 설계시에 언어학의 전문가에 의해 문맥 효과들의 언어적 클래스들을 캡처하도록 발생된다. 일 실시예에서는, 각각의 고유한 문맥-의존형 음소-기반 단위에 대해 HMM들이 발생된다. 단위 목록(340) 및 판정 트리들(350)을 발생시키는 일례가, 여기에 참조로서 포함되어 있으며, 본 출원과 동일한 양수인에게 양도된, "TEXT-TO-SPEECH USING CLUSTERED CONTEXT-DEPENDENT PHONEME-BASED UNITS"라는 명칭의 미국특허 제6,163,769호에 제공되어 있다. 그러나, 다른 방법들이 사용될 수도 있다.
상술한 바와 같이, 단위 결합 모듈(330)은, 판정 트리들(350)을 통해 작업한 후, 단위 목록(340)으로부터 대표적 인스턴스를 선택한다. 실행 시간 동안, 단위 결합 모듈(330)은 사전 선택된 최선의 음소-기반 단위를 결합하거나, 복수개 인스턴스들로부터 결합 왜곡 펑크션을 최소화하는 이용 가능한 최선의 음소-기반 단위를 동적으로 선택할 수 있다. 일 실시예에서, 결합 왜곡 펑크션은 HMM 스코어, 음소-기반 단위 결합 왜곡 및 운율 불일치 왜곡의 조합이다. 텍스트-음성 합성기(216)가 컴퓨터(110)에 구현될 수도 있는데, 이 경우, 텍스트 분석기(320) 및 단위 결합 모듈(330)은 하드웨어 또는 소프트웨어 모듈들이고, 단위 목록(340) 및 판정 트리들(350)은 컴퓨터(110)와 관련하여 설명된 저장 장치들 중 하나를 사용해 저장될 수 있다. 당업자들에게 명백한 바와 같이, 다른 형태의 텍스트-음성 합성기들이 사용될 수도 있다. 상술되어 있는 결합 합성기(216) 이외에, 조음 기관 합성기들(articulator synthesizers) 및 포맷 합성기들(format synthesizers)을 사용해 오디오 교정 피드백(audio proofreading feedback)을 제공할 수도 있다.
모델 단위 발생기(220)는 음소들 시퀀스의 음소들 각각에 대해 모델들을 발생시키도록 구성된다. 일 실시예에서, 모델 단위 발생기(220)는 음소들 각각에 대해 삼-단음들을 구성한다. 삼-단음으로부터, 모델 단위 발생기는 발생된 삼-단음을 표현하는 HMM들을 획득하기 위해 데이터베이스(224)에 액세스한다. 일 실시예에서, 데이터베이스(224)는 음성 인식 시스템의 음향 모델이다. 그러나, 음소들에 대한 HMM들 또는 다른 모델들을 포함하는 다른 데이터베이스들이 사용될 수도 있다. (예를 들어, 음소들이 텍스트-음성 합성기(216)를 사용해 발생된다면, 계산된 HMM들이 사용될 수 있다.) 발생된 각각의 삼-단음은 그와 관련된 다수의 HMM을 가질 수 있으므로, 삼-단음에 대한 관련 HMM들의 상태들 모두가 검색된다. 이러한 HMM 상태들은 이상적 벡터 발생기(230)로 전달된다.
이상적 벡터 발생기(230)는 모델 단위 발생기에 의해 발생된 HMM 모두를 수신한다. 각각의 HMM에 대해, 이상적 벡터 발생기(230)는 3개의 Markov 상태들 또는 세논들을 식별한다. 그러나, 다른 실시예들에서는, 음소에 대해 더 많거나 적은 Markov 상태들이 존재할 수 있다. 그 다음, 이상적 벡터 발생기(230)는 각각의 HMM에 대한 Markov 상태들 각각의 상대적 확률을 판정한다. 그 다음, 이상적 벡터 발생기(230)는, 각각의 상태에 대해, 최대의 가능성을 발생시키는 포인트들의 벡터를 선택한다. 그러나, 다른 모델들이 사용된다면, 이상적 벡터 발생기(230)는 그 모델의 상대적 확률을 판정한다.
HMM들의 경우, 이상적 벡터 발생기(230)는, 각 차원에 대해, 각 Markov 상태의 출력 확률 분포에서 최대의 가능성을 가진 포인트를 선택한다. 그러나, 예를 들어, 확률이 다변량 혼합 가우시안 분포들에 기초해 표현되는 경우, 이상적 벡터 발생기(230)는 가중치 및 Gconst의 최고 조합을 가진 혼합을 선택한다. 최선의 혼합이 식별되고 나면, 이상적 벡터 발생기(230)는 음성 인식기의 음향 모델 또는 다른 데이터베이스(234)에서, 판정된 혼합을 Markov 상태에 대해 가장 근접하게 매칭하는 특징 벡터 또는 코드 워드(code word)를 찾는다. 특징 벡터가 식별되고 나면, 이들은 다같이 패키징되어 음성 인식 컴포넌트(240)로 전송된다.
음성 인식 시스템(240)의 일 실시예가 도 4에 도시되어 있다. 음성 인식 시스템(240)은 마이크로폰(92), 아날로그-디지털(A/D) 컨버터(401), 트레이닝 모듈(415), 특징 추출 모듈(410), 어휘 목록 저장 모듈(430), 세논 트리들(senone trees)에 따른 음향 모델(440), 트리 검색 엔진(420), 및 언어 모델(450)을 포함한다. 전체 시스템(240) 또는 음성 인식 시스템(240)의 일부가 도 1에 도시되어 있는 환경에 구현될 수 있다는 것에 주의해야 한다. 예를 들어, 마이크로폰(92)은, 적절한 인터페이스 및 A/D 컨버터(401)를 통해, 입력 장치로서 컴퓨터(110)에 제공되는 것이 바람직할 수 있다. 트레이닝 모듈(415) 및 특징 추출 모듈(410)은 컴퓨터(110)의 하드웨어 모듈들이거나 도 1에 개시되어 있는 정보 저장 장치들 중 하나에 저장되어 프로세싱 유닛(120) 또는 적당한 여타 프로세서에 의해 액세스될 수 있는 소프트웨어 모듈들일 수 있다. 또한, 어휘 목록 저장 모듈(430), 음향 모델(440), 및 언어 모델(450) 또한 도 1에 나타낸 메모리 장치들 중 하나에 저장되는 것이 바람직하다. 더 나아가, 트리 검색 엔진(420)은 (하나 이상의 프로세서들을 포함할 수 있는) 프로세싱 유닛(120)에 구현되거나 퍼스널 컴퓨터(110)에 의해 이용되는 전용의 음성 인식 프로세서에 의해 수행될 수 있다.
도시된 실시예에서는, 음성 인식 동안, 가청 보이스 신호 형태의 음성이 시스템으로의 입력으로서 사용자에 의해 마이크로폰(92)으로 제공된다. 마이크로폰(92)은 가청 음성 신호를, A/D 컨버터(401)에 제공되는 아날로그 전자 신호로 변환한다. A/D 컨버터(401)는 아날로그 음성 신호를, 특징 추출 모듈(410)에 제공되는 디지털 신호들의 시퀀스로 변환한다. 일 실시예에서, 특징 추출 모듈(410)은, 디지털 신호들에 대해 스펙트럼 분석을 수행하고 주파수 스펙트럼의 각 주파수 대역에 대해 크기 값을 계산하는 통상적인 어레이 프로세서이다. 일 실시예에서, 신호들은 A/D 컨버터(401)에 의해 대략 16kHz의 샘플 속도로 특징 추출 모듈(410)에 제 공된다.
특징 추출 모듈(410)은 A/D 컨버터(401)로부터 수신된 디지털 신호를, 복수개 디지털 샘플들을 포함하는 프레임들로 분할한다. 각 프레임의 길이는 대략 10 밀리초이다. 그 다음, 프레임들은 특징 추출 모듈(410)에 의해 복수개 주파수 대역들에 대한 스펙트럼 특징들을 반영하는 특징 벡터로 인코딩된다. 이산적이며 준연속적인 HMM(Hidden Markov Modeling)의 경우, 특징 추출 모듈(410)은 또한, 벡터 양자화 기술들 및 트레이닝 데이터로부터 유도된 코드북을 사용해 특징 벡터들을 하나 이상의 코드 워드들로 인코딩한다. 따라서, 특징 추출 모듈(410)은 그것의 출력에서 각각의 발화된 발성에 대한 특징 벡터들(또는 코드 워드들)을 제공한다. 특징 추출 모듈(410)은 대략적으로 매 10 밀리초마다 하나의 특징 벡터(또는 코드 워드)의 속도로 특징 벡터들(또는 코드 워드들)을 제공한다.
다음으로는, 분석 중인 소정 프레임의 특징 벡터(또는 코드 워드들)를 사용해 HMM들에 대한 출력 확률 분포들이 계산된다. 이러한 확률 분포들은 나중에, 비터비(Viterbi) 또는 유사한 유형의 프로세싱 기술을 실행하는데 사용된다.
본 발명은 음성 인식기(240)를 시험하고 조정하도록 설계되기 때문에, 특징 벡터들을 표현하는 디지털 신호들이 이상적 벡터 발생기(230)로부터 음성 인식기(240)로 직접적으로 제공된다. 이러한 벡터들이 발생되기 때문에, 음성 신호들에 대한 상기 프로세싱은 불필요하다. 그러나, 음성 인식기 발음들의 정확도에 대한 제2 점검으로서 음성 인식기에 제공될 수도 있다. 그럼에도 불구하고, 특징 벡터들은 트리 검색 엔진(420)으로 제공된다.
(시스템이 시험되는 방법에 따라) 특징 추출 모듈(410) 또는 벡터 발생기(230)로부터 코드 워드들이 수신될 때, 트리 검색 엔진(420)은 음향 모델(440)에 저장되어 있는 정보에 액세스한다. 모델(440)은, HMM들과 같은, 음향 모델들을 저장하는데, 이것은 음성 인식 시스템(240)에 의해 검출될 음성 단위들을 표현한다. 일 실시예에서, 음향 모델(440)은 HMM에서의 각각의 Markov 상태와 관련된 세논 트리를 포함한다. 일 실시예에서, HMM들은 음소들을 표현한다. 음향 모델(440)의 세논들에 기초해, 트리 검색 엔진(420)은 특징 추출 모듈(410)로부터 수신되는 특징 벡터들(또는 코드 워드들) 및 그에 따라 시스템의 사용자로부터 수신되는 발성 표현에 의해 표현되는 가장 유망한 음소들을 판정한다.
또한, 트리 검색 엔진(420)은 모듈(430)에 저장되어 있는 어휘 목록에도 액세스한다. 음향 모델(440)의 액세싱에 기초해 트리 검색 엔진(420)에 의해 수신되는 정보는 어휘 목록 저장 모듈(430)을 검색하여 특징 추출 모듈(410)로부터 수신되는 코드 워드들 또는 특징 벡터를 가장 근접하게 표현하는 단어를 판정하는데 사용된다. 또한, 검색 엔진(420)은 언어 모델(450)에 액세스하는데, 이것은 예시적으로, North American Business News Corpus로부터 유도되며 CSR-III Text Language Model, University of Penn., 1994라는 제목의 간행물에 보다 상세하게 기술되어 있는 60,000 단어 삼중음자(trigram) 언어 모델 또는 임의의 여타 언어 자료이다. 또한, 언어 모델(450)은 입력 언어에 의해 표현하는 가장 유망한 단어를 식별하는데도 사용된다. 가장 유망한 단어는 출력 텍스트로서 제공된다.
여기에는 음성 인식 시스템(240)이 HMM 모델링 및 세논 트리들을 사용하는 경우가 설명되어 있지만, 음성 인식 시스템(240)은 복수의 형태들을 취할 수 있으며, 요구되는 것은 사용자에 의해 발화되거나 시험 시스템(200)에 의해 제공되는 텍스트를 출력으로서 제공하는 것이 전부라는 것에 주의해야 한다.
도 5는 본 발명의 일 실시예에 따라 시험 시스템(200)에 의해 실행되는 단계들을 도시하는 흐름도이다. 먼저, 개발자는 단계 501에서 시험 시스템(200)에 텍스트(201)를 제공한다. 이 텍스트는, 개발자가 음성 인식기에 의한 인식시에 오류를 발생시킬 것으로 예상하는 단어 또는 일련의 단어들일 수 있다. 예를 들어, 입력될 수 있는 텍스트는 "Hi Becky. I am sending you this e-mail to give you the latest update from Seattle. After four months of house searching I bought a house last week. The house is grey and has four bedrooms, three bathrooms, and a great big deck with a view of the lake."일 수 있다. 이 텍스트는 장황함을 유발하는 오류로 종결되며, 통상적인 음성 인식기에 의해 "Hideki I am sending you this e-mail to give you the latest update from Seattle. After four months of house searching a bought a house last week. The house is gray and has four bedrooms, three bathrooms, and a great big back with a view of the lake."와 같은 것으로 잘못 인식될 수 있다.
이 텍스트는 먼저 발음 툴(210)에 의해 수신된다. 발음 툴(210)는 먼저, 텍스트의 각 단어를 식별하기 위해 텍스트를 파싱하고, 존재하는 모든 구두점은 그 구두점의 표현으로 변환한다. 예를 들어, ","는 "comma" 단어로 변환된다. 텍스트의 이러한 파싱 및 변환이 단계 520에 도시되어 있다.
텍스트가 파싱되고 변환되고 나면, 발음 툴(210)는 텍스트의 각 단어와 관련된 발음 및 음소들의 시퀀스를 식별하기 위해 발음들의 데이터베이스(214)를 검색한다. 식별된 단어에 대해 다수의 발음들이 존재하면, 발음 툴(210)는 첫번째 것을 선택한다. 그러나, 발음을 선택하는 다른 방법들이 사용될 수도 있다. 이것이 단계 525에 도시되어 있다. 일치가 발견되면, 단어에 대한 음소들의 관련 시퀀스가 발음 툴(210)로 리턴된다. 그러나, 일치가 발견되지 않으면, 단어는 텍스트-음성 합성기(216)로 전달된다. 텍스트-음성 합성기(216)는 단어에 대해 음소들의 시퀀스를 발생시켜, 이 시퀀스를 발음 툴(210)로 역전달한다. 이것이 단계 526에 도시되어 있다. 단어에 대한 발음 및 음소들의 시퀀스를 발생시키는 프로세스는 상기 도 3과 관련하여 부연되어 있다. 텍스트-음성 합성기(216)에 의한 음소들의 발생이 단계 527에 도시되어 있다. 음소들은 단계 526에서 발음 툴(210)로 리턴된다.
그 다음, 발음 툴(210)는 음소들의 시퀀스를 모델 단위 발생기(220)로 전달한다. 모델 단위 발생기(220)는 음소들 시퀀스의 음소들 각각을 취해 음소들 각각에 대한 삼-단음 표현을 발생한다. 그 다음, 모델 단위 발생기(220)는 삼-단음들 각각에 대한 HMM을 획득하기 위해 데이터베이스(224) 또는 음향 모델(440)에 액세스한다. 이러한 단계들이 단계 530에 도시되어 있다. HMM들이 획득되고 나면, 모델들은 이상적 벡터 발생기(230)로 전달된다.
이상적 벡터 발생기(230)는, HMM들에 의해 표현되는 삼-단음들을 모델링하는데 사용되는 세논들 각각에 대해 이상적 벡터를 발생한다. 이상적 벡터를 발생시 키기 위해, 삼-단음들의 Markov 상태들 각각에 대한 확률 분포가 획득된다. 각각의 Markov 상태와 관련된 이러한 확률 분포는 단계 540에서 음향 모델(440)로부터 검색될 수 있다. 그러나, 다른 실시예들에서는, Markov 모델 및 관련 삼-단음에 대한 확률 분포를 판정하기 위한 임의의 방법을 사용해, 이들이 계산될 수 있다.
일 실시예에서, 각각의 HMM은 3개의 Markov 상태들(세논들)을 포함한다. Markov 상태들 각각에 대한 확률이 판정되거나 획득되고 나면, 확률 분포에서의 최대 확률 위치가 차원으로서 선택된다. 최대 확률 포인트에 가장 근접하게 일치하는 특징 벡터(또는 코드 워드)를 식별하는 것에 의해, 트레이닝 동안 발생된 음성 인식기(240)의 음향 모델로부터 특징 벡터가 선택된다. 각각의 Markov 상태에 대해 특징 벡터들을 발생시키는 이러한 프로세스가 단계 550에 도시되어 있다. 발생된 벡터들이 실례적으로, 삼-단음을 구비하는 Markov 상태들 각각에 대한 분포상의 최대 포인트에 기초하기 때문에, 이 프로세스는 이상적 벡터들을 발생한다.
텍스트에 대한 이상적 벡터들이 모두 발생되고 나면, 이들은 다같이 패키징되어 음성 인식기(240)로 전달된다. 그러나, 보통의 음성 인식에서와 같이, 사운드 패턴들로서 음성 인식기(240)로 입력되는 대신에, 이들은 트리 검색 엔진(474)에 직접적으로 제공된다. 벡터들을 트리 검색 엔진(474)에 제공하는 것에 의해, 본 발명은, 벡터들이 다른 곳에서 발생된 것이 아니라, 음성 인식기 자신의 특징 추출 모듈로부터 수신된 것이라고 믿도록, 음성 인식기를 "속일" 수 있다. 이상적 벡터들을 음성 인식기에 제공하는 것이 단계 555에 도시되어 있다.
제공된 특징 벡터들을 사용해, 음성 인식기는 단계 560에서 인식 결과들을 출력한다. 그 다음, 이 출력은 음성 인식기 프로그래밍에서의 오류들 또는 문제점들을 확인하기 위해 개발자에 의해 분석될 수 있다. 시스템의 추가적 조정 또는 시험이 단계 570에서 수행될 수도 있다.
소정 실시예들을 참조하여 본 발명을 설명하였지만, 당업자들은, 본 발명의 사상 및 범위를 벗어나지 않으면서, 형태 및 세부 사항이 변경될 수 있다는 것을 알 수 있을 것이다.
본 발명은, 값비싼 사운드 파일들을 사용해 음성 인식기를 시험하는 대신에, 텍스트 문서들의 기존의 대용량 언어 자료를 차입한다. 텍스트 문서들을 차입함으로써, 음성 인식기 시스템들에서의 결과들, 처음 결과가 틀렸을 경우의 다른 결과들 등의 포매팅에 기초해 시스템들의 특징들을 기능적으로 시험하고, 언어의 어떤 화자들에 대한 필요없이 시스템을 시험하며, 시스템이 실제 상황들에서 갖게 될 오류들의 일부를 예측하는 능력과 같은 이점이 있다.

Claims (25)

  1. 음성 인식 시험 시스템으로서,
    특징 벡터들(feature vectors)의 시퀀스에 기초하여 출력을 제공하는 음성 인식기,
    적어도 하나의 단어를 갖는 제공된 텍스트에 대해 발음을 제공하는 발음 툴 - 상기 발음은 복수의 음소(plurality of phonemes)를 포함하고, 상기 발음 툴은 단어들에 대한 발음을 저장하는 발음들의 데이터베이스와 텍스트로부터 음소들을 발생시키는 텍스트-음성 합성기(text-to-speech synthesizer)를 포함하고, 상기 발음 툴은 우선 상기 텍스트 내에 식별된 단어들에 대한 상기 발음을 얻기 위해 상기 발음들의 데이터베이스를 액세스하고, 만일 상기 발음들의 데이터베이스가 상기 발음을 포함하지 않는 경우 상기 텍스트-음성 합성기를 이용하여 상기 텍스트에 대한 상기 발음을 얻음 -,
    상기 제공된 발음으로부터 상기 복수의 음소 각각에 대한 모델을 발생시키고 상기 발생된 모델들 각각을 대표하는 Hidden Markov Model(HMM)에 대한 Hidden Markov Model 상태들의 시퀀스를 선택하는 모델 유닛 발생기(model unit generator) - 상기 선택된 HMM 상태들의 시퀀스는 상기 텍스트를 발생시키도록 인식된 음성의 인식 도중에 상기 음성 인식기가 베스트 시퀀스(best sequence)로 선정하는 시퀀스이고, 상기 모델을 발생시키는 것은 상기 발생된 모델들 중 적어도 하나에 대하여 복수의 후보 HMM을 선택하는 것을 포함함 -,
    특징 벡터들을 저장하는 특징 벡터들의 데이터베이스, 및
    상기 제공된 텍스트의 상기 제공된 발음으로부터 상기 음성 인식기로 제공될 상기 특징 벡터들의 시퀀스를 발생시키는 벡터 발생기 - 상기 HMM 상태들의 시퀀스 각각의 상태에 대하여, 상기 발생된 모델 중 하나에서의 Markov 상태의 주어진 혼합(mixture)과 가장 가까운 확률 분포 매치(probability distribution match)를 가지는 특징 벡터를 상기 특징 벡터들의 데이터베이스로부터 선택하는 것에 의해 상기 특징 벡터들 중 적어도 하나가 발생되고, 이로써 상기 텍스트의 인식 도중에 상기 선택된 특징 벡터들을 상기 음성 인식기에 제공할 때, 상기 선택된 특징 벡터들이 상기 텍스트에 대한 베스트 스코어(best score)를 형성하게 됨 -
    를 포함하고,
    상기 선택된 특징 벡터들을 상기 음성 인식기에 의해서 이용되는 포맷으로 포맷하고,
    상기 포맷되고 선택된 특징 벡터들을 이용하여 상기 음성 인식기를 시험하는, 음성 인식 시험 시스템.
  2. 제1항에 있어서,
    상기 발음 툴은 상기 발음에 대한 음소들의 시퀀스를 발생시키고,
    상기 모델 유닛 발생기는 상기 음소들의 시퀀스에 있는 각 음소에 대한 모델들을 식별하는, 음성 인식 시험 시스템.
  3. 제2항에 있어서,
    상기 모델 유닛 발생기는 상기 음소들의 시퀀스에 있는 음소들 각각에 대한 모델들의 발생시에 모델들의 데이터베이스에 액세스하는, 음성 인식 시험 시스템.
  4. 제3항에 있어서,
    상기 특징 벡터들의 데이터베이스는 상기 음성 인식기의 음향 모델을 포함하는, 음성 인식 시험 시스템.
  5. 음성 인식 시스템을 시험하는 방법으로서,
    적어도 하나의 단어를 갖는 텍스트를 수신하는 단계;
    우선 상기 적어도 하나의 단어의 발음을 표시하는(indicating) 음소들을 얻기 위해 발음들의 데이터베이스에 액세스하고 만일 상기 발음들의 데이터베이스가 상기 적어도 하나의 단어에 대한 음소들을 포함하지 않는 경우라면, 상기 적어도 하나의 단어의 상기 발음을 표시하는 상기 음소들을 얻기 위해 상기 수신된 텍스트를 텍스트-음성 합성기에 제공하여, 복수의 음소를 포함하는 상기 텍스트에 대한 발음을 발음 툴을 사용하여 발생시키는 단계;
    상기 발음의 상기 음소들 각각에 대한 모델을 발생시키고 상기 발생된 모델들 각각을 대표하는 Hidden Markov Model(HMM)에 대한 Hidden Markov Model 상태들의 시퀀스들을 선택하는 단계 - 상기 선택된 HMM 상태들의 시퀀스는 상기 적어도 하나의 단어를 포함하는 음성의 인식 도중에 음성 인식기가 베스트 시퀀스로 선정하는 시퀀스이고, 상기 모델을 발생시키는 것은 상기 발생된 모델들 중 적어도 하나에 대하여 복수의 후보 HMM을 선택하는 것을 포함함 -;
    상기 모델로부터 상기 발음에 대해 특징 벡터들의 시퀀스를 발생시키는 단계 - 상기 HMM 상태들의 시퀀스 각각의 상태에 대하여, 상기 발생된 모델 중 하나에서 Markov 상태의 주어진 혼합과 가장 가까운 확률 분포 매치를 가지는 특징 벡터를 특징 벡터들의 데이터베이스로부터 선택하는 것에 의해 상기 특징 벡터들 중 적어도 하나가 발생되고, 이로써 상기 적어도 하나의 단어의 인식 도중에 상기 선택된 특징 벡터들을 상기 음성 인식기에 제공할 때, 상기 선택된 특징 벡터들이 상기 텍스트에 대한 베스트 스코어를 형성하게 됨 -;
    상기 벡터들의 시퀀스를 상기 음성 인식 시스템에 제공하는 단계; 및
    시험 평가(testing evaluation)를 위해, 상기 제공된 벡터들의 시퀀스에 응답하여 상기 음성 인식 시스템으로부터 텍스트를 출력하는 단계
    를 포함하는, 시험 방법.
  6. 제5항에 있어서,
    상기 모델을 발생시키는 단계는 상기 음소들의 시퀀스에 대해 모델 유닛들의 시퀀스를 발생시키는 단계를 더 포함하는, 시험 방법.
  7. 제6항에 있어서,
    상기 음소들의 시퀀스에 대해 모델 유닛들의 시퀀스를 발생시키는 단계는,
    모델들의 데이터베이스에 액세스하는 단계;
    상기 모델들의 데이터베이스에서 상기 음소들의 시퀀스의 일 음소와 매치하는 모델을 식별하는 단계; 및
    그 식별된 모델을 해당 모델로서 리턴하는 단계
    를 더 포함하는, 시험 방법.
  8. 제6항에 있어서,
    상기 모델 유닛들의 시퀀스의 각 모델 유닛 마다 적어도 하나의 확률을 얻는 단계를 더 포함하는, 시험 방법.
  9. 제8항에 있어서,
    상기 얻은 모델은 HMM(Hidden Markov Model)이고,
    상기 HMM의 Markov 상태 각각마다 확률이 얻어지는, 시험 방법.
  10. 제9항에 있어서,
    상기 Markov 상태 각각에 대한 확률은 해당 상태에 대한 확률 분포로부터 얻어지는, 시험 방법.
  11. 제10항에 있어서,
    상기 특징 벡터들의 데이터베이스는 상기 음성 인식 시스템의 음향 모델인, 시험 방법.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
KR1020050078664A 2004-10-15 2005-08-26 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정 KR101153129B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/965,987 US7684988B2 (en) 2004-10-15 2004-10-15 Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models
US10/965,987 2004-10-15

Publications (2)

Publication Number Publication Date
KR20060050689A KR20060050689A (ko) 2006-05-19
KR101153129B1 true KR101153129B1 (ko) 2012-06-04

Family

ID=35517507

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050078664A KR101153129B1 (ko) 2004-10-15 2005-08-26 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정

Country Status (5)

Country Link
US (1) US7684988B2 (ko)
EP (1) EP1647969A1 (ko)
JP (1) JP4936696B2 (ko)
KR (1) KR101153129B1 (ko)
CN (1) CN1760972A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017111386A1 (ko) * 2015-12-22 2017-06-29 경상대학교산학협력단 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치

Families Citing this family (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20050125486A1 (en) * 2003-11-20 2005-06-09 Microsoft Corporation Decentralized operating system
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
US7885817B2 (en) * 2005-03-08 2011-02-08 Microsoft Corporation Easy generation and automatic training of spoken dialog systems using text-to-speech
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8719021B2 (en) * 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5177561B2 (ja) * 2007-02-06 2013-04-03 日本電気株式会社 認識器重み学習装置および音声認識装置、ならびに、システム
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9460708B2 (en) 2008-09-19 2016-10-04 Microsoft Technology Licensing, Llc Automated data cleanup by substitution of words of the same pronunciation and different spelling in speech recognition
US8355919B2 (en) * 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8364487B2 (en) * 2008-10-21 2013-01-29 Microsoft Corporation Speech recognition system with display information
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8224653B2 (en) * 2008-12-19 2012-07-17 Honeywell International Inc. Method and system for operating a vehicular electronic system with categorized voice commands
US8990088B2 (en) * 2009-01-28 2015-03-24 Microsoft Corporation Tool and framework for creating consistent normalization maps and grammars
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8725766B2 (en) * 2010-03-25 2014-05-13 Rovi Technologies Corporation Searching text and other types of content by using a frequency domain
KR101021216B1 (ko) 2010-04-05 2011-03-11 주식회사 예스피치 음성인식 그래마 자동 튜닝 장치, 방법 및 이를 적용한 자동응답시스템
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9558738B2 (en) * 2011-03-08 2017-01-31 At&T Intellectual Property I, L.P. System and method for speech recognition modeling for mobile voice search
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8438029B1 (en) * 2012-08-22 2013-05-07 Google Inc. Confidence tying for unsupervised synthetic speech adaptation
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014093778A1 (en) * 2012-12-14 2014-06-19 Robert Bosch Gmbh System and method for event summarization using observer social media messages
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9349365B2 (en) 2013-03-14 2016-05-24 Accenture Global Services Limited Voice based automation testing for hands free module
US9772919B2 (en) 2013-03-14 2017-09-26 Accenture Global Services Limited Automation of D-bus communication testing for bluetooth profiles
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
CN104347081B (zh) * 2013-08-07 2019-07-02 腾讯科技(深圳)有限公司 一种测试场景说法覆盖度的方法和装置
GB2517503B (en) * 2013-08-23 2016-12-28 Toshiba Res Europe Ltd A speech processing system and method
US10068565B2 (en) * 2013-12-06 2018-09-04 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10199034B2 (en) * 2014-08-18 2019-02-05 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
DE102014114845A1 (de) * 2014-10-14 2016-04-14 Deutsche Telekom Ag Verfahren zur Interpretation von automatischer Spracherkennung
KR20160058470A (ko) * 2014-11-17 2016-05-25 삼성전자주식회사 음성 합성 장치 및 그 제어 방법
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9940926B2 (en) 2015-06-02 2018-04-10 International Business Machines Corporation Rapid speech recognition adaptation using acoustic input
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US9734821B2 (en) 2015-06-30 2017-08-15 International Business Machines Corporation Testing words in a pronunciation lexicon
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109313891B (zh) * 2017-05-16 2023-02-21 北京嘀嘀无限科技发展有限公司 用于语音合成的系统和方法
CN107086040B (zh) * 2017-06-23 2021-03-02 歌尔股份有限公司 语音识别能力测试方法和装置
US10553203B2 (en) * 2017-11-09 2020-02-04 International Business Machines Corporation Training data optimization for voice enablement of applications
US10565982B2 (en) * 2017-11-09 2020-02-18 International Business Machines Corporation Training data optimization in a service computing system for voice enablement of applications
EP3690875B1 (en) * 2018-04-12 2024-03-20 Spotify AB Training and testing utterance-based frameworks
CN108877770B (zh) * 2018-05-31 2020-01-07 北京百度网讯科技有限公司 用于测试智能语音设备的方法、装置和系统
CN109326305B (zh) * 2018-09-18 2023-04-07 易诚博睿(南京)科技有限公司 一种批量测试语音识别和文本合成的方法和测试系统
US10210861B1 (en) * 2018-09-28 2019-02-19 Apprente, Inc. Conversational agent pipeline trained on synthetic data
CN111145737B (zh) * 2018-11-06 2022-07-01 中移(杭州)信息技术有限公司 语音测试方法、装置和电子设备
US10573296B1 (en) 2018-12-10 2020-02-25 Apprente Llc Reconciliation between simulator and speech recognition output using sequence-to-sequence mapping
CN109493852A (zh) * 2018-12-11 2019-03-19 北京搜狗科技发展有限公司 一种语音识别的评测方法及装置
US11545132B2 (en) 2019-08-28 2023-01-03 International Business Machines Corporation Speech characterization using a synthesized reference audio signal
KR20210158382A (ko) * 2019-11-28 2021-12-30 주식회사 엘솔루 음성인식을 위한 전자장치와 그 데이터 처리 방법
JP2022074509A (ja) * 2020-11-04 2022-05-18 株式会社東芝 差分抽出装置、方法及びプログラム
CN112712798B (zh) * 2020-12-23 2022-08-05 思必驰科技股份有限公司 私有化数据获取方法及装置
CN113409826B (zh) * 2021-08-04 2023-09-19 美的集团(上海)有限公司 一种tts系统性能测试方法、装置、设备及介质
CN116665675B (zh) * 2023-07-25 2023-12-12 上海蜜度信息技术有限公司 语音转写方法、系统、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119085A (en) 1998-03-27 2000-09-12 International Business Machines Corporation Reconciling recognition and text to speech vocabularies

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0481107B1 (en) * 1990-10-16 1995-09-06 International Business Machines Corporation A phonetic Hidden Markov Model speech synthesizer
GB2290684A (en) * 1994-06-22 1996-01-03 Ibm Speech synthesis using hidden Markov model to determine speech unit durations
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6622121B1 (en) 1999-08-20 2003-09-16 International Business Machines Corporation Testing speech recognition systems using test data generated by text-to-speech conversion
JP2001134284A (ja) * 1999-11-02 2001-05-18 Advanced Telecommunication Research Institute International 音声認識装置の学習方法及び学習装置、音声認識装置、並びに音声認識処理装置
GB2376554B (en) * 2001-06-12 2005-01-05 Hewlett Packard Co Artificial language generation and evaluation
US20050049868A1 (en) * 2003-08-25 2005-03-03 Bellsouth Intellectual Property Corporation Speech recognition error identification method and system
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
JP2005283646A (ja) * 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 音声認識率推定装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6119085A (en) 1998-03-27 2000-09-12 International Business Machines Corporation Reconciling recognition and text to speech vocabularies

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017111386A1 (ko) * 2015-12-22 2017-06-29 경상대학교산학협력단 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치

Also Published As

Publication number Publication date
CN1760972A (zh) 2006-04-19
JP2006113569A (ja) 2006-04-27
US7684988B2 (en) 2010-03-23
JP4936696B2 (ja) 2012-05-23
EP1647969A1 (en) 2006-04-19
KR20060050689A (ko) 2006-05-19
US20060085187A1 (en) 2006-04-20

Similar Documents

Publication Publication Date Title
KR101153129B1 (ko) 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정
JP5208352B2 (ja) 声調言語用分節声調モデリング
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6684187B1 (en) Method and system for preselection of suitable units for concatenative speech
US6571210B2 (en) Confidence measure system using a near-miss pattern
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
JP5014785B2 (ja) 表音ベース音声認識システム及び方法
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US20020128831A1 (en) Disambiguation language model
US9390709B2 (en) Voice recognition device and method, and semiconductor integrated circuit device
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US20040006469A1 (en) Apparatus and method for updating lexicon
JP2004139033A (ja) 音声合成方法、音声合成装置および音声合成プログラム
US20150170644A1 (en) Method and apparatus for classifying lexical stress
JP5028599B2 (ja) 音声処理装置、およびプログラム
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Lyu et al. Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition
Simões Modelo acústico de língua inglesa falada por portugueses

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160427

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170504

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee