KR20080049826A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20080049826A
KR20080049826A KR1020087009164A KR20087009164A KR20080049826A KR 20080049826 A KR20080049826 A KR 20080049826A KR 1020087009164 A KR1020087009164 A KR 1020087009164A KR 20087009164 A KR20087009164 A KR 20087009164A KR 20080049826 A KR20080049826 A KR 20080049826A
Authority
KR
South Korea
Prior art keywords
vector
recognition result
probability
subspace
models
Prior art date
Application number
KR1020087009164A
Other languages
English (en)
Inventor
제스페르 올센
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20080049826A publication Critical patent/KR20080049826A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Abstract

오디오 신호의 샘플들을 구비한 프레임들을 입력하는 단계; 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하는 단계; 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 단계; 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 (mixture) 모델들의 집합을 정의하는 단계; 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 단계를 포함하는 음성 인식 방법이 제공된다. 인식 결과가 얻어질 때, 이 방법은 인식 결과가 정확할 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 집합 가운데 한 믹스춰 모델을 선택함으로써 정규화 항 (normalizing term)을 결정하고; 정규화 항으로 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 단계; 인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 신뢰도 측정치를 한 문턱치와 비교하는 단계를 포함한다.

Description

음성 인식 방법 및 장치{A method and a device for speech recognition}
본 발명은 음성 인식 방법에 관한 것이다. 또한 본 발명은 전자 기기 및 컴퓨터 프로그램 제품과도 관련이 있다.
음성 인식은, 모바일 단말에서의 이름 다이얼링 (name dialing), 전화선을 통한 법인 데이터 액세스, 웹 페이지들의 멀티-모드 음성 브라우징, 단문 메시지 (SMS) 구술, 이메일 메시지 등등의 많은 어플리케이션들에서 활용되고 있다.
음성 인식시 한 가지 문제점은 음향 파형 신호의 형태로 발설된 한 어조 (utterance)를 발설된 말들을 나타내는 텍스트 스트링으로 전환하는 것과 관련이 있다. 실제로 이러한 것은 인식 에러들 없이 수행하기가 매우 어렵다. 주어진 한 말 (word)이나 문장이 잘못 인식되었을 확률을 가리키는 정확한 신뢰도 (accurate confidence) 측정값들이 산출될 수 있다면, 에러들이 한 어플리케이션 안에서 심각한 결과로서 받아들여질 필요가 없다.
음성 인식시, 에러들은 보통 세 가지 카테고리들로서 분류된다:
삽입 에러 (Insertion Error)
사용자가 아무것도 말하지 않았는데도 불구하고 한 명령어가 인식되거나, 사용자가 명령어 아닌 한 워드 를 말했는데 계속 한 명령어가 인식됨.
삭제 에러 (Deletion Error)
사용자가 한 명령어를 말했는데 아무것도 인식되지 않음.
대체 에러 (Substitution Error)
사용자에 의해 발언 된 명령어가 다른 명령어로 인식됨.
이론적으로 최적의 해법에서는, 음성 인식기가 상술한 에러들 가운데 어느 것도 일으키지 않는다. 그러나, 실제 상황하에서 음성 인식기는 상기와 같은 모든 종류의 에러들을 일으킬 수 있다. 사용자 인터페이스의 유용성을 위해, 상이한 에러 타입들의 상대적 비율들 (relative shares)이 적절하도록 음성 인식기를 설계하는 것이 중요하다. 예를 들어, 음성 작동형 장치가 심지어 수시간 동안 소정 작동 워드 (activation word)를 기다리는 음성 작동시, 그 장치가 무작위적으로 잘못 작동되지 않는 것이 중요하다. 또, 사용자에 의해 발설된 명령어들이 높은 정확도로 인식되는 것이 중요하다. 그러나 이 경우, 어떠한 틀린 작동들도 일어나지 않는다는 것이 훨씬 중요한 일이다. 실제 상에서, 이것은 사용자가 발설한 명령어를 그것이 충분한 확률로 정확하게 인식될 수 있도록 좀 더 자주 반복해야 한다는 것을 의미한다.
수치 시퀀스 (numerical sequence) 인식시, 거의 모든 에러들은 똑같이 심각하다. 일련의 숫자들에 대한 인식시 어떤 에러든 잘못된 수치 시퀀스 결과를 가져온다. 또, 사용자가 아무것도 말하지 않았는데도 한 숫자가 인식되는 상황은 사용자에게는 불편한 상황이다. 그러나, 사용자가 한 숫자를 명확하게 발설했는데 그 숫자가 인식되지 않은 상황은 사용자가 그 숫자들을 더 명확하게 발설함으로써 바로 잡을 수 있다.
하나의 명령어에 대한 인식은 현재 음성 인식에 의해 구현되는 매우 일반적인 기능이다. 예를 들어, 음성 인식기가 사용자에게, 사용자가 "예" 아니면 "아니오"로 응답하게 되어 있는 "전화를 받으실 겁니까?"라는 질문을 할 수 있다. 매우 소수의 대안 명령어들이 존재하는 그러한 상황들에서, 그 명령어들은 어쨌든 대게 정확히 인식될 수 있다. 달리 말해, 그러한 상황에서 대체 에러들의 횟수는 매우 적다. 단일 명령어들의 인식시 한 가지 문제라면, 발설된 명령이 전혀 인식되지 않거나, 관련이 없는 말이 명령어로서 인식된다는 것이다.
기존의 여러 자동 오디오 작동 인식 시스템들 (ASR)은 오디오 활동 파형을 특성 (feature) 파라미터들로 변환하는 신호 처리 프론트-엔드 (front-end)를 포함한다. 가장 많이 사용되는 특성들 중 하나가 MFCC (Mel Frequency Cepstrum Coefficients)이다. 켑스트럼 (ceptrum)은 신호의 단기 전력 스펙트럼 로그 함수의 역 이산 코사인 변환 (IDCT, Inverse Discrete Cosine Transform)이다. 그러한 계수들을 이용하는 데 따른 한 이점은, 이들이 오디오 활동 스펙트럼 벡터의 차원(dimension)을 줄인다는 것이다.
음성 인식은 보통 음성 신호의 확률 모형론 (stochastic modeling) - 가령, HMM (Hidden Markov Models, 은닉 마르코프 모델들) 이용-에 의존하다. HMM 방법에서는, 미지의 음성 패턴이 알려진 참조 패턴들과 비교된다 (패턴 매칭). HMM 방법에서, 음성 패턴들이 생성되고, 이 음성 패턴 생성의 단계는 마르코프 (Markov) 방법에 따른 상태 변경 모델로써 모델링 된다. 문제의 상태 변경 모델이 바로 HMM이다. 이 경우, 수신된 음성 패턴들에 대한 음성 인식은 은닉 마르코프 모델에 따라 음성 패턴들에 대한 지각 확률을 정의함으로써 수행된다. 음성 인식시 HMM 방법을 이용함에 따라, 먼저, 인식될 각 워드 (word), 즉 각 참조 워드에 대한 HMM 모델이 형성된다. 이 HMM 모델들은 음성 인식기의 메모리에 저장된다. 음성 인식기가 음성 패턴을 수신할 때, 메모리의 각 HMM 모델에 대한 지각 확률이 산출되고, 인식 결과로서, 최대 지각 확률을 갖는 HMM 모델의 해당 (counterpart) 워드가 획득된다. 따라서, 각 참조 워드마다, 그것이 사용자에 의해 발언 된 워드일 확률이 계산된다. 상술한 최대 지각 확률은 수신된 음성 패턴 및 가장 가까운 HMM 모델, 즉 가장 가까운 참조 음성 패턴의 유사도를 설명한다. 즉, HMM들은 일련의 특성 벡터들을, 각 정지 세그먼트가 특정 HMM 상태와 결부될 불연속 정지 프로세스로서 모델링한다. 특성 벡터들은 보통, 입력되는 오디오 신호로부터 형성되는 개별 프레임 단위의 프레임들로 이뤄진다. 모델 M을 이용할 때, 어조 (발음) O={O1,..,OT}는 연속적인 이산 정지 상태들 S={S1,..,SN} (N≤T)로서 모델링되고, 이들 상태들 사이에서는 순간적 천이가 이뤄진다.
이상적으로, 모든 가능한 어조 (utteracne)에 대해 HMM이 있어야 한다. 그러나, 보통 전부는 아니고 다만 일부 매우 제한된 작업들에 대해서만 그것이 실현 가능하다. 문장 (sentence)은 일련의 워드 (word)들로서 모델링 될 수 있다. 파라미터들의 개수를 추가로 더 줄이고 새 워드가 어휘 목록에 추가될 때마다 새로운 트레이닝의 필요성을 피하기 위해, 워드 모델들은 흔히 연쇄적 서브-워드 (concatenated sub-word) 유닛들로 이뤄진다. 가장 보편적으로 사용되는 유닛은 음소 (phoneme)들이라고 불리는 언어학적 카테고리들의 음향학적 구현인, 음성 사운드 (speech sound)들 (언어음, phones)이다. 언어음들은 한 언어 내 상이한 워드들을 구별하기 충분한 음성 사운드 카테고리들이다. 하나 이상의 HMM 상태들이 한 언어음에 해당하는 세그먼트를 모델링하는데 보통 사용된다. 워드 모델들은 연쇄적 언어음 및 음소 모델들 (어휘 목록으로부터 발음 별로 구속됨)로 이뤄지고, 문장 (sentence) 모델들은 연쇄적 워드 모델들 (문법에 의해 구속됨)로 이뤄진다.
음성 인식기는 가장 있을법한 워드 시퀀스를 계산하기 위해 음향학적 음성 신호에 대한 패턴 매칭을 수행한다. 어조의 우도 스코어 (likelihood score)는 디코딩의 부산물로서, 그 자체로서 그 매치가 얼마나 신뢰할 수 있는 것인지를 나타낸다. 유용한 신뢰도 (confidence) 측정(치)이 되기 위해, 우도 스코어는 선택가능한 모든 경합 어조들의 우도 스코어와 비교되어야 한다, 예를 들어,
Figure 112008027194588-PCT00001
여기서 O는 음향 신호를 나타내고, s1은 특정 어조이고,
Figure 112008027194588-PCT00002
은 어조 s1의 음향적 우도이고,
Figure 112008027194588-PCT00003
은 어조의 이전 확률이다. 상기 식에서 분모는 정규화 항 (normalizing term)으로, 발언 될 수 있었던 임의의 어조 (s1 포함)의 합성 스코어를 나타낸다. 실제로, 정규화 항은 바로는 산출될 수 없는데, 이는 합산을 행해야 할 어조들의 수가 무한정이기 때문이다.
그러나, 정규화 항은 가령, 특수 텍스트 무관 음성 모델 (special text independent speech model)을 트레이닝하고, 그 모델을 가진 음성 어조를 정규화 항으로 디코딩함으로써 획득되는 우도 스코어를 이용함으로써, 근사화될 수 있다. 음성 모델이 충분히 종합적이고 잘 트레이닝 되어 있으면, 우도 스코어가 수학식 1의 분모에 대한 양호한 근사값이라고 기대된다.
신뢰도 추정에 대한 상기 접근 방식의 단점은, 음성을 디코딩하는데 특수한 음성 모델이 사용되어야 한다는 것이다. 이것은 산출된 정규화 항이 인식기에 의해 어떤 어조가 가장 가능한 것으로 선택되는지와 무관하다는데 따른, 디코딩 프로세스의 계산상의 부담을 나타낸다. 그것은 단지 신뢰도 스코어 평가를 위해서만 필요로 된다.
이와 달리, 근사화가, 모델 집합에서 평가되는 가우시안 믹스춰들 (Gaussian mixtures)에 기반할 수도 있는데, 일부가 되는 것이 어떤 워드들인가와는 무관하다. 어떤 추가 가우시안 믹스춰들도 평가될 필요가 없기 때문에 그것이 더 쉬운 근사화에 해당한다. 단점이라면, 평가되는 가우시안 믹스춰들이 그 모델 집합 내 가우시안 믹스춰들의 매우 작은 부분집합에 속할 수 있고, 그에 따라 근사화가 편 향되고 부정확하게 될 수 있다는 것이다.
대량의 어휘 작업에 대한, 은닉 마르코프 모델들 (Hidden Markov Models) 같은 음향학적 모델 집합은 보통 25,000-100,000 개의 가우시안 믹스춰들을 포함할 수 있다. HMM 우도들은 그러한 개별 가우시안 믹스춰 우도들의 합으로서 산출될 수 있고
Figure 112008027194588-PCT00004
, 여기서 o는 D 차원의 지각 벡터 (observation vector)이고, m은 평균 벡터이고, σ는 분산 (variance) 벡터이다.
본 발명은 수학식 1의 정규화 항의 근사화가 평가 및 활용되는 음성 인식 장치를 제안한다. 근사화는 음향학적 모델링을 위해 소위 서브 스페이스 은닉 마르코프 모델들 (subspace HMMs)을 이용할 때 가능하게 된다. 서브 스페이스 은닉 마르코프 모델들에 대해서는, 2001년 3월 음성 및 오디오 처리에 관한 IEEE 회보 제9권 제3호에 공개된 Enrico Bocchieri와 Brian Mak의 "Subspace Distribution Clustering Hidden Markov Model"에 상세히 개시되어 있다.
본 발명의 제1양태에 따른 음성 인식 방법은,
- 오디오 신호의 샘플들을 구비한 프레임들을 입력하는 단계;
- 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하는 단계;
- 상기 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 단계;
- 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 (mixture) 모델들의 집합을 정의하는 단계;
- 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 단계;
- 인식 결과가 얻어질 때, 인식 결과가 정확할 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택함으로써 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 단계를 포함하고,
상기 방법은, 인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 단계를 더 포함한다.
본 발명의 제2양태에 의한 전자 기기는,
- 오디오 신호를 입력하기 위한 입력부;
- 오디오 신호로부터 샘플들을 형성하기 위한 아날로그-디지털 변환기;
- 오디오 신호의 샘플들을 프레임들 안에 배치하는 편성기;
- 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하고, 그 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 특성 추출기;
- 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 모델들의 집합을 정의하고, 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 확률 산출기;
- 인식 결과가 정확할 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택하여 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 신뢰도 결정기; 및
인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 비교기를 포함한다.
본 발명의 제3양태에 따라, 음성 인식을 수행하기 위한 머신 실행 단계들을 포함하는 컴퓨터 프로그램 제품이 제안되고, 상기 단계들은,
- 오디오 신호의 샘플들을 구비한 프레임들을 입력하는 단계;
- 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하는 단계;
- 상기 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 단계;
- 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 모델들의 집합을 정의하는 단계;
- 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 단계;
- 인식 결과가 얻어질 때, 인식 결과가 정확하다는 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택하여 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 단계를 포함하고,
상기 컴퓨터 프로그램 제품은, 인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 단계에 대한 머신 실행 단계들을 더 포함한다.
본 발명을 이용할 때, 종래의 방식들 및 음성 인식기들과 비교해 음성 인식의 신뢰성이 향상될 것이다. 또한 참조 패턴들을 저장하기 위한 메모리 요건들 역시, 더 많은 참조 패턴들이 필요로 되는 음성 인식기들과 비교해 더 소규모로 된다. 본 발명의 음성 인식 방법은 또한 종래의 음성 인식 방법들에 비해 빠른 음성 인식을 수행할 수 있다.
이하에서, 본 발명에 대해 첨부된 도면들을 참조하여 보다 상세히 설명할 것이다.
도 1은 본 발명의 전형적 실시예에 의한 무선 통신 장치를 축약된 개략도로서 도시한 것이다.
도 2는 본 발명의 전형적 실시예에 따른 방법을 흐름도로서 보인 것이다.
이하에서, 본 발명의 방법에 사용되는 서브 스페이스 HMM들에 대한 몇몇 이 론적 배경이 논의될 것이다. 서브 스페이스 HMM들은 보통의 HMM들과 비교해 보다 컴팩트한 모델 표현이라고 간주 된다. 그것은 여러 서브 스페이스들 (n) 안에 D 차원 특성 벡터의 특성 벡터 성분들을 클러스터링 (clustering) 함으로써 이뤄진다. n=1 (D 차원의 한 서브 스페이스)에 있어서, 서브 스페이스 HMM 모델은 D 차원 특성 스페이스 내 일반 HMM 모델로 일반화된다. 서브 스페이스의 최대 수는 오리지널 특성 스페이스의 차원과 동일하고, 이 경우 각 서브 스페이스는 차원 1을 포함한다.
서브 스페이스 표현은 상대적으로 작은 코드 북들-가령, 서브 스페이스 당 16-256 개의 요소들을 가진 코드 북들-을 사용해 서브 스페이스를 양자화하는 것을 가능하게 한다. 각각의 믹스춰 (mixture, 혼합)는 이때 N 서브 스페이스 코드 북들의 코드워드들에 대한 인덱스들 (m1,...,mN)로 표현된다. 이러한 표현은 두 가지 결과를 가져온다. 첫째, 모델 집합이 매우 컴팩트한 형식으로 표현될 수 있고, 둘째, 중간 결과들을 미리 산출하고 공유함으로써 각 HMM 상태의 믹스춰들에 대한 우도 산출이 더 효율적으로 (더 빠르게) 계산될 수 있다.
본 발명은 주로 상술한 두 번째 특성을 기반으로 한다. 인지된 특성 벡터 O에 대해, 가우시안 믹스춰 (m1,...,mN)의 우도는 다음과 같이 계산된다:
Figure 112008027194588-PCT00005
위의 수학식 2에서, 대각 공분산 (diagonal covariance)이 전제되었다. 수학식 2의 인덱스 k와의 제1곱이 서브 스페이스들의 개수 (K)에 걸쳐 계산되고, 인덱스 d(1,...,N)와의 제2곱이 한 서브 스페이스 내 개별 특성 성분들에 걸쳐 계산된다.
Figure 112008027194588-PCT00006
Figure 112008027194588-PCT00007
은 각각, k 번째 스트림 상으로의 지각된 특성 벡터의 투사, s 번째 상태의 m 번째 믹스춰 성분의 평균 및 분산 벡터이다. N() 항은 상태 s의 가우스 확률 밀도 함수이다. 서브 스페이스 코드 북들이 상대적으로 작기 때문에,
Figure 112008027194588-PCT00008
항은 개별 믹스춰 우도들을 평가하기 전에 미리 계산되어 캐싱될 (cached) 수 있다. 이것이, 서브 스페이스 HMM 모델 집합에서의 믹스춰 우도들에 대한 평가를 일반적인 모델 집합에서보다 신속하게 만들게 하는 것이다.
이 내용에서 이미 언급했다시피, 신뢰도 측정치는 어떤 주어진 워드나 문장이 잘못 인식되었을 확률을 가리킨다. 따라서, 그 신뢰도 측정치는 인식 결과가 충분히 신뢰할 수 있는지 없는지 여부를 평가하도록 산출되어야 한다. 본 발명에서 신뢰도 측정치는 서브 스페이스 HMM들을 이용할 때 어쨌거나 계산되는 서브 스페이스 캐시 (cache)에 기초한다.
어조에 대한 수학식 1의 정규화 항은 다음과 같이 계산된다.
Figure 112008027194588-PCT00009
이 정규화 항은 고려 중인 오디오 신호 내 프레임들 (T)의 개수와 같은 수의 상태들 (s)을 가지고 상태당 한 믹스춰 성분을 가진 HMM 모델에 해당한다. 믹스춰 성분 m은 서브 스페이스 구획이 주어진 모델 집합에서 가고 가능한 우도를 가진다. 이 특별한 HMM의 믹스춰들은 실제로 모델 집합의 다른 HMM들 가운데 어느 것에서도 발생하지 않을 것이고, 궁극적으로 정규화 항은 항상 어떤 주어진 어조의 우도보다 높거나 동일한 우도이다. 달리 말해, 정규화 항은 훨씬 더 비용이 드는 계산의 근사치로서, 상기 계산 중에 각 프레임마다 다음과 같은 단계들이 수행된다: 최고 스코어 믹스춰가 식별되는데, 그것은 가령 25,000 개의 믹스춰들이 존재하는 경우, 가장 높은 스코어의 믹스춰를 찾기 위해 25,000 번의 우도 계산이 수행되어야 한다는 것을 의미한다. 서브 스페이스 HMM들이 사용될 때, 수학식 3의 정규화 항이 훨씬 신속하게 계산될 수 있는데, 이는 그 계산 시간이 믹스춰들의 수에 의존하지 않기 때문이다. 그것은 단지 스트림들의 수 (수학식 3의 K)와 사용된 코드 북들의 사이즈에만 의존한다. 예를 들어, 39 개의 1 차원 스트림들이 형성되었고 32 개의 엘리먼트 (element) 코드 북이 각 스트림마다 사용되었으면, 각 코드 북마다 한 믹스춰 우도가 평가되며, 이는, 단 32개의 믹스춰 우도들만을 평가하면 된다는 것을 의미한다.
이하에서, 본 발명의 바람직한 한 실시예에 따른 음성 인식기(8)의 기능이 도 1의 전자 기기(1) 및 도 2의 흐름도를 참조해 보다 상세히 설명될 것이다. 음성 인식기(8)는 무선 통신 장치 같은 전자 기기(1)에 연결되어 있으나, 음성 인식기(8)가, 음성 인식기(8) 및 전자 기기(1) 둘 모두에 대해 일부 동작 블록들이 공 통될 수 있는 전자 기기(1)의 일부일 수도 있다는 것은 자명한 사실이다. 음성 인식기(8)는 또한 전자 기기(1)와 외재적으로나 내재적으로 연결될 수 있는 모듈로서 구현될 수도 있다. 전자 기기(1)가 꼭 무선 통신 장치인 것은 아니며, 음성 인식 특성이 활용될 수 있는 컴퓨터, 로크 (lock), TV, 장난감 등등일 수도 있다.
음성 인식기(8)에서 음성 인식을 수행하기 위해, 인식될 각 워드마다, 즉, 각 참조 워드마다 HMM 모델이 생성되어 있다 (201 단계). 이들은 가령, 소정 트레이닝 자료를 통해 음성 인식기(8)를 트레이닝하는 등의 동작을 통해 생성될 수 있다. 또, 그러한 HMM 모델들을 기초로 서브 스페이스 (subspace) HMM 모델들이 생성된다 (202 단계). 본 발명의 전형적 구성 안에서, N-스트림 서브 스페이스 HMM들은, D 차원 특성 스페이스가
Figure 112008027194588-PCT00010
방식의 dk 특성들을 갖는 N 개의 부분 집합들로 나눠지도록 도출될 수 있다. 오리지널 가우시안 믹스춰들 각각이 각 특성 서브 스페이스 상에 투사되어, n 개의 서브 스페이스 가우시안 믹스춰들을 얻게 된다. 그 결과에 따른 서브 스페이스 HMM 모델들이 가령 코드 북들을 사용해 양자화되고, 양자화된 HMM 모델들은 음성 인식기(8)의 메모리(14) 안에 저장된다 (203 단계).
음성 인식을 수행하기 위해, 음향 신호 (오디오 신호, 음성)가 자체적으로 알려져 있는 방식으로, 무선 통신 장치(1)의 마이크로 폰(2) 같은 마이크로 폰에 의해 전기 신호로 변환된다. 음성 신호의 주파수 응답은 보통 100 Hz에서 10 kHz 까지의 주파수 범위 같은 10 kHz 이하의 주파수 범위로 제한되나, 본 발명이 그와 같은 주파수 범위로만 한정되는 것은 아니다. 그러나, 음성의 주파수 응답은 전체 주파수 범위에 걸쳐 일정하지 않으며, 보통 고 주파수대보다 저 주파수대들이 더 많다. 또, 음성의 주파수 응답은 상이한 사람들 간에 서로 다르다.
마이크로 폰(2)에 의해 생성된 전기 신호는 필요시 증폭기(3)에서 증폭된다. 증폭된 신호는 아날로그/디지털 컨버터(4) (ADC)에 의해 디지털 형식으로 변환된다. 아날로그/디지털 컨버터(4)는 샘플링 시점에 그 신호의 크기를 나타내는 샘플들을 생성한다. 아날로그/디지털 변환기(4)는 보통 그 신호로부터 소정 인터벌, 즉 소정 샘플링 레이트의 샘플들을 생성한다. 신호는 음성 프레임들로 나눠지는데, 이는 소정 길이의 오디오 신호가 한 번에 처리됨을 의미한다. 프레임 길이는 보통 20 ms 등의 수 밀리 초가 된다. 이 전형적 예에서, 프레임들은 I/O 블록들 (6a, 6b) 및 인터페이스 버스(7)를 통해 음성 인식기(8)로 전송된다.
음성 인식기(8)는 음성 인식 계산이 수행되는 음성 처리기(9)를 또한 포함한다. 음성 프로세서(9)는, 가령, 디지털 신호 처리기 (DSP)를 말한다.
오디오 신호의 샘플들은 음성 처리기(9)로 입력된다 (204 단계). 음성 프로세서(9)에서 샘플들은 프레임 단위로 처리된다, 즉, 한 프레임의 각 샘플이 음성 프레임의 특성 추출을 수행하도록 처리된다. 특성 추출 단계(205)에서, 음성 인식기(8)로 입력된 각 음성 프레임에 대한 특성 벡터가 생성된다. 특성 벡터의 계수들은 프레임의 어떤 스펙트럼 기반 특성들과 관련된다. 특성 벡터들은 음성 처리기의 특성 추출 블록(10)에서 오디오 신호의 샘플들을 이용함으로써 생성된다. 이 특성 추출 블록(10)은 가령 각각이 소정 대역폭을 가진 일련의 필터들로서 구현될 수 있다. 모든 필터들이 오디오 신호의 전체 대역폭을 커버한다. 필터들의 대역폭들은 부분적으로 특성 추출 블록(10)의 일부 다른 필터들과 중첩될 수 있다. 필터들의 출력들은, 이산 코사인 변환 (DCT)과 같이 변환되고, 그 변환 결과가 특성 벡터가 된다. 이러한 본 발명의 전형적 실시예에서, 특성 벡터들은 39 차원 (39-dimensional) 벡터들이지만, 본 발명이 그러한 벡터들에만 한정되는 것은 아니라는 것은 자명한 사실이다. 이 전형적 실시예에서, 특성 벡터들은 멜 주파수 켑스트럼 계수들 (Mel Frequency Cepstrum Coefficients, MFCCs)이다. 39 차원 벡터들은 따라서 39개의 특성들을 포함한다: 12 개의 MFCC들, 정규화된 전력, 및 이들의 일차 및 이차 시간의 도함수들 (12+1+13+13=39).
음성 프로세서(9)에서, 특성 벡터들을 이용해 메모리 내 각 HMM 모델에 대한 지각 확률이 가령 확률 산출 블록(11)에서 산출되고, 인식 결과로서 가장 높은 지각 확률을 가진 HMM모델의 해당 워드가 구해진다 (206 단계). 따라서, 각 참조 워드마다, 그것이 사용자에 의해 발설된 워드일 확률이 산출된다. 상술한 가장 높은 지각 확률은, 수신된 음성 패턴 및 최근접 HMM 모델, 즉 최근접 참조 음성 패턴의 유사성을 설명한다. 해당 워드 (또는 워드들)를 찾으면, 음성 처리기(9)의 신뢰도 측정치 산출 블록(12)이 인식 결과의 신뢰성을 평가하기 위해 상기 해당 워드에 대한 신뢰도 측정치를 산출한다 (207 단계). 신뢰도 측정치는 분모가 수학식 3으로 대체되는 수학식 1을 통해 산출된다.
Figure 112008027194588-PCT00011
산출된 신뢰도는 이제 음성 처리기(9)의 비교기 블록(13) 등에서 한 문턱치와 비교될 수 있다. 비교 결과가 신뢰도가 충분히 높은 인식 결과임을 가리키면, 해당 워드(들)은 이제 그 어조의 인식 결과로서 사용될 수 있게 된다 (209 단계). 해당 워드(들)이나 해당 워드(들)에 대한 표시 (가령, 테이블에 대한 인덱스)는 무선 통신 장치(1)로 전송되고, 여기서, 제어 블록(5) 등이 그 해당 워드에 기초해 수행될 필요가 있는 동작들을 결정한다. 해당 워드는 그 해당 워드 관련 명령이 수행되는 명령어일 수 있다. 그 명령은 예를 들어, 통화 응답, 전화 걸기, 어플리케이션 시작, 단문 메시지 작성 등등이 될 수 있다.
비교 결과가 너무 낮은 값을 나타내는 상황에서는, 인식 결과를 충분히 신뢰할 수 없을 것이라고 판단된다. 이 경우 음성 처리기(9)는 무선 통신 장치(1)로 인식이 성공하지 못했다고 알려주어 (210 단계) 가령 사용자에게 그 어조를 반복하도록 요청할 수 있다.
음성 처리기(9)는 또 발설된 워드를 판단함에 있어 어떤 언어 모델을 사용할 수 있다. 언어 모델은 산출된 지각 확률들이, 둘 이상의 워드들이 발성되었을 수 있음을 가리킬 때 특히 유용할 수 있다. 그 이유는, 가령, 그 둘 이상의 워드들의 어조가 거의 동일하다는 데 있다. 이때, 그 언어 모델은 워드들 가운데 어느 것이 그 특정 문맥에서 가장 적절한 워드일 수 있는지를 나타낼 수 있다. 예를 들어, "too"라는 말과 "two"라는 말의 발음은 서로 매우 가까우며, 어느 것이 맞는 말인지는 문맥이 알려줄 것이다.
본 발명은 가령 음성 프로세서(9) 및/또는 제어 블록(5)의 머신 실행가능 단계들인 소프트웨어로서 대부분 구현될 수 있다.

Claims (14)

  1. 음성 인식 방법에 있어서,
    - 오디오 신호의 샘플들을 구비한 프레임들을 입력하는 단계;
    - 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하는 단계;
    - 상기 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 단계;
    - 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 (mixture) 모델들의 집합을 정의하는 단계;
    - 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 단계;
    - 인식 결과가 얻어질 때, 인식 결과가 정확할 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택함으로써 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 단계를 포함하고,
    상기 방법은, 인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 단계를 더 포함함을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 신뢰도 측정치는,
    Figure 112008027194588-PCT00012
    에 의해 산출되고,
    위에서,
    O는 상기 음향 신호의 특성 벡터이고;
    s1은 상기 음향 신호의 특정 어조이고;
    Figure 112008027194588-PCT00013
    은 상기 어조 s1의 음향 우도이고;
    P(s1)은 상기 특정 어조의 이전 확률이고;
    Ok는 k 번째 서브 스페이스로의 특성 벡터의 투사 (projection)이고;
    Figure 112008027194588-PCT00014
    는 k 번째 서브 스페이스로의 s 번째 상태의 m 번째 믹스춰 성분의 평균이고;
    Figure 112008027194588-PCT00015
    는 k 번째 서브 스페이스로의 s 번째 상태의 m 번째 믹스춰 성분의 분산 벡터이고;
    N()은 상태 s의 가우스 확률 밀도이고;
    K는 서브 스페이스의 개수이고;
    T는 상기 음향 신호 내 프레임들의 개수임을 특징으로 하는 방법.
  3. 제1항 또는 제2항에 있어서, 각각의 서브 스페이스는 코드 북 (codebook)으로 표현되고, 상기 믹스춰 모델들은 상기 코드북에 대한 인덱스에 의해 지시됨을 특징으로 하는 방법.
  4. 제1항, 제2항, 또는 제3항에 있어서, 상기 특성 벡터들은 각 프레임에 대한 MFCC (Mel Frequency Cepstrum Coefficients)를 결정함으로써 생성됨을 특징으로 하는 방법.
  5. 전자 기기에 있어서,
    - 오디오 신호를 입력하기 위한 입력부;
    - 오디오 신호로부터 샘플들을 형성하기 위한 아날로그-디지털 변환기;
    - 오디오 신호의 샘플들을 프레임들 안에 배치하는 편성기;
    - 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하고, 그 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 특성 추출기;
    - 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 모델들의 집합을 정의하고, 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 확률 산출기;
    - 인식 결과가 정확할 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택하여 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 신뢰도 결정기; 및
    인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 비교기를 포함함을 특징으로 하는 장치.
  6. 제5항에 있어서,
    각 서브 스페이스에 대한 코드 북을 더 포함함을 특징으로 하는 장치.
  7. 제6항에 있어서, 상기 믹스춰 모델들은 상기 코드 북에 대한 인덱스에 의해 지시됨을 특징으로 하는 장치.
  8. 제5항, 제6항 또는 제7항에 있어서, 상기 특성 추출기는 각 프레임에 대한 MFCC (Mel Frequency Cepstrum Coefficients)를 결정함으로써 특성 벡터들을 형성하는 수단을 포함함을 특징으로 하는 장치.
  9. 제5항 내지 제8항 중 어느 한 항에 있어서, 무선 단말임을 특징으로 하는 장치.
  10. 제5항 내지 제8항 중 어느 한 항에 있어서, 음성 인식 장치임을 특징으로 하는 장치.
  11. 판독 가능한 매체에 저장되어 프로세서상에서 실행될 머신 (machine) 실행가능 단계들을 구비한 컴퓨터 프로그램 제품에 있어서,
    상기 단계들은, 음성 인식을 위해 상기 프로세서에 의해 실행시,
    - 오디오 신호의 샘플들을 구비한 프레임들을 입력하는 단계;
    - 각 프레임 당 제1개수의 벡터 성분들을 구비한 특성 벡터를 형성하는 단계;
    - 상기 특성 벡터를 적어도 두 서브 스페이스들 상에 투사하여, 각각의 투사(된) 벡터 성분들의 개수가 제1개수보다 적고, 투사된 특성 벡터들의 성분들의 총 개수는 제1개수와 동일하도록 하는 단계;
    - 가장 높은 지각 (observation) 확률을 제공하는 각 투사 벡터에 대한 믹스춰 모델들의 집합을 정의하는 단계;
    - 인식 결과를 판단하기 위해 믹스춰 모델들의 집합을 분석하는 단계;
    - 인식 결과가 얻어질 때, 인식 결과가 정확하다는 확률을 판단하고; 각각의 상태마다, 가장 높은 우도를 제공하는 믹스춰 모델들의 상기 집합 가운데 한 믹스춰 모델을 선택하여 정규화 항 (normalizing term)을 결정하고; 상기 정규화 항으로 상기 확률을 나누어, 인식 결과에 대한 신뢰도 측정치를 판단하는 단계를 포함하고,
    상기 컴퓨터 프로그램 제품은, 인식 결과가 충분히 신뢰성이 있는지 여부를 판단하기 위해 상기 신뢰도 측정치를 한 문턱치와 비교하는 단계에 대한 머신 실행 단계들을 더 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  12. 제11항에 있어서, 상기 인식 결과에 대한 신뢰도 측정치를 판단하는 단계는,
    Figure 112008027194588-PCT00016
    에 의한 신뢰도 측정치를 산출하는 머신 실행가능 단계들을 포함하고,
    위에서,
    O는 상기 음향 신호의 특성 벡터이고;
    s1은 상기 음향 신호의 특정 어조이고;
    Figure 112008027194588-PCT00017
    은 상기 어조 s1의 음향 우도이고;
    P(s1)은 상기 특정 어조의 이전 확률이고;
    Ok는 k 번째 서브 스페이스로의 특성 벡터의 투사 (projection)이고;
    Figure 112008027194588-PCT00018
    는 k 번째 서브 스페이스로의 s 번째 상태의 m 번째 믹스춰 성분의 평균이고;
    Figure 112008027194588-PCT00019
    는 k 번째 서브 스페이스로의 s 번째 상태의 m 번째 믹스춰 성분의 분산 벡터이고;
    N()은 상태 s의 가우스 확률 밀도이고;
    K는 서브 스페이스의 개수이고;
    T는 상기 음향 신호 내 프레임들의 개수임을 특징으로 하는 컴퓨터 프로그램 제품.
  13. 제11항 또는 제12항에 있어서, 각각의 서브 스페이스를 코드 북 (codebook)으로 표현하고, 상기 믹스춰 모델들을 상기 코드북에 대한 인덱스에 의해 지시하는 머신 실행가능 단계들을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
  14. 제11항, 제12항, 또는 제13항에 있어서, 각 프레임에 대한 MFCC (Mel Frequency Cepstrum Coefficients)를 결정해 특성 벡터들을 생성하는 머신 실행가능 단계들을 포함함을 특징으로 하는 컴퓨터 프로그램 제품.
KR1020087009164A 2005-10-17 2006-10-17 음성 인식 방법 및 장치 KR20080049826A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/252,475 2005-10-17
US11/252,475 US20070088552A1 (en) 2005-10-17 2005-10-17 Method and a device for speech recognition

Publications (1)

Publication Number Publication Date
KR20080049826A true KR20080049826A (ko) 2008-06-04

Family

ID=37949210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087009164A KR20080049826A (ko) 2005-10-17 2006-10-17 음성 인식 방법 및 장치

Country Status (5)

Country Link
US (1) US20070088552A1 (ko)
EP (1) EP1949365A1 (ko)
KR (1) KR20080049826A (ko)
RU (1) RU2393549C2 (ko)
WO (1) WO2007045723A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101056511B1 (ko) 2008-05-28 2011-08-11 (주)파워보이스 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8239195B2 (en) * 2008-09-23 2012-08-07 Microsoft Corporation Adapting a compressed model for use in speech recognition
US9858922B2 (en) 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
RU2571588C2 (ru) * 2014-07-24 2015-12-20 Владимир Анатольевич Ефремов Электронное устройство для автоматического перевода устной речи с одного языка на другой
US9299347B1 (en) 2014-10-22 2016-03-29 Google Inc. Speech recognition using associative mapping
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
US9997161B2 (en) 2015-09-11 2018-06-12 Microsoft Technology Licensing, Llc Automatic speech recognition confidence classifier
US10706852B2 (en) 2015-11-13 2020-07-07 Microsoft Technology Licensing, Llc Confidence features for automated speech recognition arbitration
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
KR20180068467A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
RU210836U1 (ru) * 2020-12-03 2022-05-06 Публичное Акционерное Общество "Сбербанк России" (Пао Сбербанк) Аудиобейдж с детектором механических колебаний акустической частоты для выделения речи оператора
RU207166U1 (ru) * 2021-04-30 2021-10-14 Общество с ограниченной ответственностью "ВОКА-ТЕК" Аудиобейдж, регистрирующий речь пользователя

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450523A (en) * 1990-11-15 1995-09-12 Matsushita Electric Industrial Co., Ltd. Training module for estimating mixture Gaussian densities for speech unit models in speech recognition systems
US5263120A (en) * 1991-04-29 1993-11-16 Bickel Michael A Adaptive fast fuzzy clustering system
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US5946656A (en) * 1997-11-17 1999-08-31 At & T Corp. Speech and speaker recognition using factor analysis to model covariance structure of mixture components
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
US6151574A (en) * 1997-12-05 2000-11-21 Lucent Technologies Inc. Technique for adaptation of hidden markov models for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
EP0953971A1 (en) * 1998-05-01 1999-11-03 Entropic Cambridge Research Laboratory Ltd. Speech recognition system and method
US6401063B1 (en) * 1999-11-09 2002-06-04 Nortel Networks Limited Method and apparatus for use in speaker verification
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US7571097B2 (en) * 2003-03-13 2009-08-04 Microsoft Corporation Method for training of subspace coded gaussian models
US7499857B2 (en) * 2003-05-15 2009-03-03 Microsoft Corporation Adaptation of compressed acoustic models

Also Published As

Publication number Publication date
WO2007045723A1 (en) 2007-04-26
RU2008114596A (ru) 2009-11-27
EP1949365A1 (en) 2008-07-30
RU2393549C2 (ru) 2010-06-27
US20070088552A1 (en) 2007-04-19

Similar Documents

Publication Publication Date Title
KR20080049826A (ko) 음성 인식 방법 및 장치
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
TWI253056B (en) Combined engine system and method for voice recognition
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4221379B2 (ja) 音声特性に基づく電話発信者の自動識別
US7319960B2 (en) Speech recognition method and system
US20020178004A1 (en) Method and apparatus for voice recognition
US20070239444A1 (en) Voice signal perturbation for speech recognition
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
EP1734509A1 (en) Method and system for speech recognition
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR100901640B1 (ko) 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
Sivaraman et al. Higher Accuracy of Hindi Speech Recognition Due to Online Speaker Adaptation
Álvarez et al. Long audio alignment for automatic subtitling using different phone-relatedness measures
Boves et al. ASR for automatic directory assistance: the SMADA project
JP4749990B2 (ja) 音声認識装置
Abdulwahab et al. Acoustic Comparison of Malaysian and Nigerian English Accents
Ishaq Voice activity detection and garbage modelling for a mobile automatic speech recognition application
Vardanyan Noise-robust speech recognition system for armenian language
Kawai et al. Recognition of connected digit speech in japanese collected over the telephone network
Holmes Segmental HMMs: Modeling dynamics and underlying structure in speech
JP2002006883A (ja) 音声認識装置および音声認識方法、並びに、プログラム記録媒体
Kaleem et al. SPEECH TO TEXT CONVERSION FOR CHEMICAL ENTITIES

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application