KR101237799B1 - 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 - Google Patents

문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 Download PDF

Info

Publication number
KR101237799B1
KR101237799B1 KR1020110031775A KR20110031775A KR101237799B1 KR 101237799 B1 KR101237799 B1 KR 101237799B1 KR 1020110031775 A KR1020110031775 A KR 1020110031775A KR 20110031775 A KR20110031775 A KR 20110031775A KR 101237799 B1 KR101237799 B1 KR 101237799B1
Authority
KR
South Korea
Prior art keywords
state
hmm
states
uniform
final
Prior art date
Application number
KR1020110031775A
Other languages
English (en)
Other versions
KR20110128229A (ko
Inventor
피달 제비에 메네데즈
루신 첸
Original Assignee
소니 컴퓨터 엔터테인먼트 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 컴퓨터 엔터테인먼트 인코포레이티드 filed Critical 소니 컴퓨터 엔터테인먼트 인코포레이티드
Publication of KR20110128229A publication Critical patent/KR20110128229A/ko
Application granted granted Critical
Publication of KR101237799B1 publication Critical patent/KR101237799B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

어플리케이션을 위한 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 장치이다. 이러한 장치는 음성 인식 훈련을 위한 음향들을 저장하는 훈련 데이터베이스, 음성 인식기에 의해 지원되는 단어들을 저장하는 사전 및 훈련 데이터베이스 및 사전을 사용하여 일군의 하나 이상의 다중 상태 은닉 마코브 모델들(Hidden Markov Models; HMMs)을 훈련시키는 음성 인식기 훈련 모듈을 구비한다. 음성 인식기 훈련 모듈은 각각의 HMM의 상태들 각각에 대하여 비균일 상태 클러스터링 공정을 수행한다. 이때 음성 인식기 훈련 모듈은 각각의 HMM의 상태들 중 적어도 소정의 상태들에 대하여 상이한 비균일 클러스터 임계치를 사용하여 하나 이상의 문맥 종속성들에 의해 보다 적게 실증적으로 영향을 받은, 각각의 HMM의 상태들에 대한 관측 분포들을 더욱 집중적으로 클러스터링하고 관측 분포들의 수를 줄인다.

Description

문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 {Improving the robustness to environmental changes of a context dependent speech recognizer}
본 발명의 실시예들은 음성 인식 분야에 관련되고, 더 구체적으로는 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법에 관한 것이다.
많은 범용 음성 인식기들은 은닉 마코브 모델(Hidden Markov Model; HMM)을 사용하여 만들어지고 음성 단위 수준, 예컨대 음소, 단어, 기능어(function word), 음절, 시작 음절(beginning syllable) 및 마침 음절(final syllable) 등에서 음성을 처리한다. 음소 음성 단위(phone speech unit)는 일반적으로 단어로부터 분리된, 지각적으로 독특한(perceptually unique) 일련의 음향들의 오디오(예. 음성) 중 일부이다. 예를 들면, 'I want'의 문구는 다섯 개의 구별되는 음소들을 포함할 수 있다. 이때 음소들은 TIMIT 음소 시스템에서의'ay', 'w', 'ao', 'n', 및 't'이다. 음소 각각은 다중 특징들 또는 프레임들에 포함될 수 있다. 여기서 그 수는 주로 음소의 길이에 의존하고, 보통 화자(speaker), 음성 속도, 감정 상태 등에 따라 다르다. HMM들은 보통 다수의 상태들을 포함하여 음소 각각의 다른 부분들을 처리한다. 예를 들면, 세 개의 상태를 구비한 HMM은 초기 상태, 중간 상태 및 최종 상태에서 음소 각각의 시작, 핵심(nucleus) 및 끝을 처리한다. 좌우향 HMM들(left to right HMMs)은 음성 인식에서 사용된다. 이때 음성 인식에서 초기 HMM 상태들은 자신들을 제외한 다른 어떠한 진입 상태들(entry states)과 연결되지 않은 진입 모델 상태들(entry model states)로 정의된다. 또한 음성 인식에서 최종 HMM 상태들은 자신들을 제외한 다른 어떠한 상태들과 연결되지 않은 말단 모델(terminal model) 상태들이다. 그리고 중간(body) HMM 상태들은 기타 중계(intermediary) 상태들이다. 상술된 정의는 상태 생략 연결들(state skipping connections)을 구비한 좌우향 HMM에게도 적용된다.
일반적인 음성 인식기들은 문맥 독립형 HMM, 예컨대 단음소 HMM 또는 문맥 종속형 HMM, 예컨대 바이폰(biphone)(좌측 또는 우측) HMM, 반음소 HMM, 트라이폰(triphone) HMM 등을 사용한다. 문맥 독립형 HMM은 각각의 기본 음성 단위(base speech unit)를 처리할 때 주변 음성 단위들을 감안하지 않는다. 이에 반해 문맥 종속형 HMM은 각각의 기본 음성 단위를 처리할 때 주변 음성 단위들을 감안한다. 예를 들면, 일반적인 바이폰 HMM은 단일의 주변 음소를 고려한다. 이때 좌측 바이폰 HMM들의 경우 이전 음소를, 우측 바이폰 HMM들의 경우 다음 음소를 고려한다. 일반적인 트라이폰 HMM의 상태들 각각은 이전 음소 및 다음 음소들을 감안한다. 상술된 초기 상태, 중간 상태 및 최종 상태의 정의는 모든 좌우향 HMM 단음소, 바이폰 및 트라이폰에도 유효하다. 다른 문맥 종속 HMM들은 반음소들도 포함한다. 여기서 반음소들은 두 개의 연결된 하위 음성 문맥 단위들(sub-phonetic contextual units)이다. 각각의 반음소 부분은 음소의 일부를 모델링하고, 단 하나의 문맥 종속성을 가지며, 일반적인 HMM(normal HMM)이다. 좌측 반음소 부분은 음소의 시작 부분을 모델링하고 이전 음소를 고려하는 반면, 우측 음소 부분은 음소의 끝부분을 모델링하고 다음 음소를 고려한다. 반음소들은 음소의 영역을 균등하게 또는 비균등하게 나누어 모델링할 수 있다. 반음소가 비균등하게 모델링할 때 반음소 부분들 중의 하나는 우월(dominant)하고 다른 것에 비해 더 많은 상태들을 가진다. 예를 들면, 좌측 우월성 반음소(left dominant demiphone)에서 좌측 반음소 부분은 우측 반음소 부분보다 더 많은 상태들을 가진다. 우측 우월성 반음소(right dominant demiphone)에서 우측 반음소 부분은 좌측 반음 부분보다 더 많은 상태들을 가진다. 반음소의 초기 상태는 좌측 반음소 부분에서 진입 모델 상태이고, 자신을 제외한 다른 어떠한 진입 상태들과 연결되지 않는다. 반음소의 최종 상태는 우측 반음소 부분에서 말단 모델 상태이고 자신 이외에 다른 어떠한 상태들과 연결되지 않는다. 반음소의 중간 상태(들)는 반음소의 기타 상태들이다. 여기서 기타 상태들은 초기 상태 및 최종 상태와는 상이하다. 그리고 반음소의 중간 상태(들)는 좌측 반음소 부분 및/또는 우측 반음소 부분에 포함될 수 있다.
하기 표는 일반적인 문맥 독립형 TIMIT 단음소들과 일반적인 문맥 종속형 좌측 바이폰들, 우측 바이폰들, 트라이폰들 및 반음소들을 사용한'I want'라는 문장의 음소 표기를 도시한다.
I want
문맥 독립형 sil ay w ao n t sil
문맥 종속형 좌측 바이폰들 sil sil-ay ay-w w-ao ao-n n-t sil
문맥 종속형 우측 바이폰들 sil ay+w w+ao ao+n n+t t+sil sil
문맥 종속형 트라이폰들 sil sil-ay+w ay-w+ao w-ao+n ao-n+t
n-t+sil sil
문맥 종속형 반음소들 sil sil-ay ay+w ay-w w+ao w-ao ao+n ao-n n+t n-t t+sil sil
기본 음성 단위 각각은 상태 천이 확률들(state transition probabilities), {Aip}과 출력 확률 관측 분포들(output probability observation distribution), {Bip(Ot)}로 표현될 수 있다. 출력 관측 분포들은 주로 가우스 분포의 다변량 혼합물(multivariate mixtures of Gaussian distributions)이고 t 시점에서 Ot 관측(또는 입력 프레임)을 생성하는 확률을 결정한다. 출력 관측들은 상태 인덱스, i 및 음성 단위 인덱스 p로 식별되고 입력 관측은 t 시점이다.
문맥 독립형 HMM에서 각각의 음성 단위(예. 음소 단위, 단어 단위, 기능어 단위, 음절 단위, 시작 및 마침 음절 단위, 등)는 각각의 상태에 대한 단일의 관측 분포를 가진다. 이에 시스템은 영어 음성 인식기를 위해 총 120 개의 관측 분포들을 사용한다. 여기서 영어 음성 인식기는 40 개의 고유 음소들과 매 음소 마다 세 개의 상태 문맥 독립형 HMM을 사용한다. 문맥 종속형 HMM들이 주변 음성 단위(들)을 고려하기 때문에, 그들은 문맥 독립형 HMM들 보다 더 많은 관측 분포들을 사용한다. 일반적인 문맥 종속형 HMM 음성 인식기에서는 보통 1,000 내지 5,000 개의 출력 관측 분포들이 사용된다. 문맥 종속형 HMM들을 위한 관측 분포들의 수는 균일 결정 트리 클러스터링 알고리즘(uniform decision tree clustering algorithm) 또는 균일 데이터 기반 클러스터링 알고리즘(uniform data driven clustering algorithm)을 적용하여 한정될 수 있다. 그러나 이러한 알고리즘들은 음소 상태들 각각마다 동일한 값의 균일한 클러스터 임계값(uniform cluster threshold)을 사용한다.
문맥 종속형 HMM들을 사용하는 음성 인식기들은 문맥 독립형 HMM들을 사용하는 음성 인식기들 보다 일반적으로 더 정확하다. 하지만 문맥 종속형 HMM들을 사용하는 음성 인식기들은 문맥 독립형 HMM들을 사용하는 음성 인식기들 보다 통상 더 많은 메모리와 연산 자원들을 요구한다. 또한 문맥 종속형 HMM들을 훈련시키는 것은 문맥 독립형 HMM들을 훈련시키는 것 보다 상당히 많은 훈련 데이터를 필요로 한다. 그리고 트라이폰 HMM들을 훈련시키는데 요구되는 훈련 데이터는 바이폰 HMM들을 훈련시키는데 요구되는 데이터보다 많은 양이 요구된다.
소정의 음성 인식기들은 시스템이 발매되기 전에 훈련 환경에서 훈련된다. 이는 시스템의 엔드 유저(end user)가 음성 인식 시스템을 훈련시킬 필요가 없게 하거나 조금만 훈련시켜도 되게끔 한다. 이러한 훈련 환경에서는 높은 수준의 정확도가 획득되며, 따라서 음성 인식을 위해서는 최적의 환경이다. 한편 현실의 상업적 시나리오들 속 환경(예. 음성 인식 시스템이 상업적으로 사용되는 환경들)은 보통 훈련 환경(예. 상이한 노이즈 등)과 상이하고, 이에 따라 음성 인식기의 정확도가 떨어진다. 다른 환경적 변수들(예. 상이한 노이즈들, 잔향(reverberation), 채널 효과들(channel effects) 등)이 훈련 환경에 감안될 수 있지만, 결국 엔드 유저들에 의해 사용되는 환경과 다를 수 있고, 또는 훈련 중에 감안되지 못할 수도 있다.
일반적인 문맥 종속형 바이폰들을 사용하는 음성 인식기들은 일치하는 조건들(훈련된 환경과 사용되는 환경이 실질적으로 동일한 경우) 속에서는 정확하다. 하지만, 일치하지 않는 조건들(훈련된 환경과 사용되는 환경이 상이한 경우) 속에서는 부정확하다. 노이즈에 강한(noise robust) 프런트 엔드(front-end) 또는 백 엔드(back-end) 기술(예. 특징 변환 및 정규화(feature transformation and normalization), 노이즈 감쇠(noise attenuation), 음성 향상(speech enhancement), HMM 백 엔드 노이즈 보상(HMM back-end noise compensation), 등)을 사용하여 정확도가 향상될 수 있지만, 일치하지 않는 조건들 속에서의 정확도는 용인 가능하지 않을 수 있다. 그러나 일반적인 문맥 독립형 HMM들(예. 단음소들)을 사용하는 음성 인식기들은 원래 훈련 환경에서보다 낮은 정확도를 가지지만, 일반적인 문맥 종속형 바이폰들 HMM들을 사용하는 음성 인식기들과 비교할 때 환경 변화들에 대하여는 더욱 강인하다.
적은 메모리 사용량을 유지하고 효율적으로 연산하면서, 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상키는 방법 및 장치가 서술된다. 일 실시예에서 향상된 다중 상태 문맥 종속형 은닉 마코브 모델(HMM)이 문맥 종속성(들)에 의해 보다 적게 영향을 받는 예상 관측 분포들(possible observation distributions)의 수를 줄이도록 정의되거나 훈련된다.
소정의 실시예들에서, 비균일 상태 클러스터링 공정은 상이한 상태들에 대하여 다른 클러스터링 임계값들을 사용하는데 사용된다. 문맥 종속성에 의해 보다 적게 영향을 받은 상태들의 클러스터 임계값은 수행되는 비균일 상태 클러스터링 공정에 의해 관측 분포들이 더욱 묶이거나(more tied) 클러스터링 되도록 해서 이러한 상태들을 위한 예상 관측 분포들의 총 개수를 줄인다. 다른 실시예들에서, 문맥 종속성에 의해 보다 적게 영향을 받는, 다중 상태 문맥 종속형 HMM의 하나 이상의 상태들은 문맥 독립형으로 정의되어 이러한 상태들을 위한 예상 관측 분포들의 개수를 단 하나로 감소시킨다.
문맥 종속성에 의해 보다 적게 영향을 받은 상태들의 HMM에 대한 관측 분포들 수를 줄이는 것은 일치하지 않는 조건들 속에서 음성 인식기의 정확도를 향상시키고(이는 환경적 변화들에 대한 그의 강인성을 증가시킨다), 이에 더하여 음성 인식을 위해 요구되는 메모리 및 CPU 자원들을 줄인다.
본 발명은 적은 메모리 사용량을 유지하고 효율적으로 연산하면서, 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상키는 방법 및 장치를 제공한다.
본 발명은 하술되는 상세한 설명과 본 발명의 실시예들을 도시하기 위해 사용되는, 첨부된 도면들을 참조할 때 가장 잘 이해될 것이다. 첨부된 도면들 중:
도 1은 일 실시예에 따른 음성 인식 어플리케이션을 위해 데이터를 훈련시키는데 사용되는 연산 장치의 예시적 구성 요소들을 도시하는 블록도;
도 2는 일 실시예에 따른 HMM을 훈련시키는 동안에 수행되는 예시적 과정들을 도시하는 흐름도;
도 3은 일 실시예에 따른 예시적 향상된 우측 바이폰 HMM을 도시하는 도면;
도 4는 일 실시예에 따른 예시적 향상된 좌측 바이폰 HMM을 도시하는 도면;
도 5는 일 실시예에 따른 대체 가능한 예시적 향상된 우측 바이폰 HMM을 도시하는 도면;
도 6은 일 실시예에 따른 대체 가능한 예시적 향상된 좌측 바이폰 HMM을 도시하는 도면;
도 7은 일 실시예에 따른 예시적 향상된 우측 우월성 반음소 HMM을 도시하는 도면;
도 8은 일 실시예에 따른 예시적 향상된 좌측 우월성 반음소 HMM을 도시하는 도면;
도 9는 일 실시예에 따른 예시적 향상된 트라이폰 HMM을 도시하는 도면;
도 10은 일 실시예에 따른 단음소, 좌측 바이폰, 우측 바이폰 및 트라이폰을 조합한 예시적 병렬 시스템 조합 HMM을 도시하는 도면;
도 11은 일 실시예에 따른 음성을 인식하는, 어플리케이션을 위한 음성 인식기를 구비하는 예시적 연산 장치를 도시하는 도면;
도 12는 일 실시예에 따라 음성 인식 중 수행되는 예시적 과정들을 도시하는 흐름도; 및
도 13은 소정의 실시예들에서 사용될 수 있는 예시적 데이터 처리 시스템을 도시하는 블록도이다.
하술되는 설명에서 다수의 특정 상세한 설명들이 개시된다. 한편, 본 발명의 실시예들은 이러한 특정 상세한 설명들 없이도 실시될 수 있다는 점을 이해해야한다. 다른 경우들에 있어서, 공지된 회로들, 구조물들 및 기술들은 설명의 이해를 모호하게 하지 않기 위해 도시되지 않았다. 당업자는 첨부된 상세한 설명을 참조하여 과도한 실험 없이도 적당한 기능을 실행할 수 있을 것이다.
상세한 설명에서 '일 실시예', '하나의 실시예', '예시적 실시예' 등에 대한 참조들은 서술된 실시예가 특정 특징, 구조 또는 특질(characteristic)을 포함할 수 있지만, 모든 실시예가 이러한 특정 특징, 구조 또는 특질을 포함할 필요는 없다. 또한 이러한 구문들이 동일한 실시예를 가리킬 필요는 없다. 나아가, 특정 특징, 구조 또는 특질이 하나의 실시예와 연결되어 서술될 때, 당업자라면 명시적으로 서술되었던지 그렇지 않던지 간에 이러한 특징, 구조 또는 특질이 다른 실시예들과도 연결되 수 있다는 점을 인지할 수 있을 것이다.
상세한 설명 및 청구항들에서, '결합된(coupled)' 및 '연결(connected)된'이라는 용어들은 그들의 파생어들과 함께 사용될 수 있다. 이러한 용어들은 서로의 동의어들로 이해되어서는 안된다. '결합된'이라는 용어는 직접 물리적 또는 전자적으로 접촉하고 있거나 서로 협력 또는 상호작용할 수 있는 두 개 이상의 구성 요소들을 표시하는데 사용된다. '연결된'이라는 용어는 서로 결합된 두 개 이상의 구성 요소들 사이 통신의 성립을 표시하는 데 사용된다.
적은 메모리 사용량을 유지하면서 효율적으로 연산하는 문맥 종속형 음성 인식기를 위한, 환경적 변화들에 대한 강인성을 향상시키는 방법 및 장치가 서술된다. 하나의 실시예에서, 향상된 다중 상태 문맥 종속형 은닉 마코브 모델(Hidden Markov Model; HMM)은 문맥 종속성(들)에 의해 보다 적게 영향을 받은 상태(들)에 대한 예상 관측 분포들의 수를 감소시키도록 정의되거나 훈련된다. 일반적인 HMM들로부터 구별되게 하기 위해, 이는 본 명세서에서 향상된 HMM으로 지칭된다. 문맥 종속성(들)에 의해 보다 적게 영향을 받은 상태(들)에 대한 예상 관측 분포들의 수를 줄이는 것은 일치하지 않는 조건들 속에서의 음성 인식 정확도를 높인다. 그러므로 음성 인식기에 의해 필요되는 연산 요구들(예. 메모리, CPU 자원들, 등)을 동시에 줄이면서, 환경적 변화들에 대한 음성 인식기의 강인성이 발전된다.
소정의 실시예들에서, 향상된 다중 상태 문맥 종속형 HMM은 하나 이상의 문맥 종속형 상태들과 문맥적으로 독립된 하나 이상 상태들(예. 문맥 종속성(들)에 의해 보다 적게 영향을 받는 HMM의 상태들)의 조합을 포함한다.
소정의 실시예들에서, 상이한 상태들에 대하여 다양한 클러스터링 임계값들을 사용하는 비균일 상태 클러스터링 공정이 사용된다. 문맥 종속성에 보다 적게 영향을 받은 상태들의 클러스터 임계값은, 비균일 상태 클러스터링 공정이 수행됨으로써 더 많은 관측 분포들이 묶이거나 클러스터링 되도록한다. 이에 따라 이러한 상태들의 관측 분포들의 총 개수가 감소된다. 다른 실시예들에서, 문맥 종속성에 의해 보다 적게 영향을 받은, 다중 상태 문맥 종속형 HMM의 하나 이상의 상태들은 문맥 독립형인 것으로 정의된다. 이에 따라 이러한 상태들의 예상 관측 분포들의 수는 단 하나로 감소된다.
소정의 실시예들에서, 향상된 문맥 종속형 HMM의 하나 이상의 상태들은 이러한 상태들로부터의 문맥 종속성(들)을 제거하도록 정의되거나 훈련된다(이에 따라 오직 단일의 관측 분포를 가짐). 소정의 실시예들에서, 이러한 상태들은 완전히 묶여서(fully tied)(클러스터링되서) 오직 단일의 관측 분포를 가진다. 예를 들면, 소정의 실시예들에서 향상된 N 상태 우측 바이폰 HMM은(이때 N은 2 이상임) 다른 상태(들) 보다 문맥 종속성에 더 적게 영향을 받는 초기 상태가 문맥 독립형이 되도록 정의되거나 훈련된다. 그러므로 초기 상태는 오직 단일의 관측 분포를 가진다. 중간 상태(들) 및/또는 최종 상태는 일반적인 균일 결정 트리 클러스터링 알고리즘들 또는 균일 데이터 기반 클러스터링 알고리즘들에 따라 묶이거나 비균일 클러스터링에 따라 묶일 수 있다(자세한 내용은 하술된다). 또한 중간 상태(들) 및/또는 최종 상태는 초기 상태에 비해 더 많은 출력 관측 분포들을 가질 것이다. 그래서 본 실시예에서는 향상된 N 상태 우측 바이폰 HMM이 문맥 독립형인데 반해, 중간 상태(들) 및 최종 상태는 문맥 종속형이다.
소정의 실시예들에서, 향상된 N 상태 좌측 바이폰 HMM은 다른 상태(들)에 비해 문맥 종속성에 보다 적게 영향을 받는 최종 상태가 문맥 독립형이 되도록 정의되거나 훈련된다. 이에 따라 최종 상태는 오직 단일의 관측 분포만 가진다. 초기 상태 및/또는 중간 상태(들)은 일반적인 균일 결정 트리 클러스터링 알고리즘들이나 균일 데이터 기반 클러스터링 알고리즘들에 따라 묶이거나 비균일 클러스터링에 의해 묶일 수 있다(자세한 내용은 하술됨). 그리고 초기 상태 및/또는 중간 상태(들)은 최종 상태 보다 더 많은 출력 관측 분포들을 가질 것이다. 그래서 이러한 실시예들에서 향상된 N 상태 좌측 바이폰 HMM의 최종 상태는 문맥 독립형인데 반해, 초기 상태 및 중간 상태(들)은 문맥 종속형이다. 이에, 소정의 실시예들에서 향상된 바이폰 HMM들은 문맥 독립형 HMM과 문맥 종속형 HMM의 구성 요소들을 조합하도록 변경된다.
소정의 실시예들에서 좌측 우월성 N 상태 반음소들은 중간 상태(들)에 대한 예상 관측 분포들의 수를 상당히 많이 줄이도록 향상된다. 예를 들면, 중간 상태(들)은 문맥 독립형이 되도록 정의되거나 훈련될 수 있다. 또는, 중간 상태(들)이 일반적인 우측 우월성 반음소들의 중간 상태(들)에 비해 더 집중적으로 클러스터링(heavily clustered) 될 수 있다. 이와 유사하게 어떠한 실시예들에서 좌측 우월성 N 상태 반음소들은 중간 상태(들)에 대한 예상 관측 분포들의 수를 상당히 많이 줄이도록 향상된다. 예를 들면, 중간 상태(들)은 문맥 독립형이 되도록 정의되거나 훈련될 수 있다. 또는 중간 상태(들)은 일반적인 좌측 우월성 반음소들의 중간 상태(들)에 비해 더 집중적으로 클러스터링 될 수 있다.
소정의 실시예들에서 향상된 N 상태 트라이폰 HMM은 (초기 상태가 이전 음소와 다음 음소 모두에 대하여 문맥 종속형인 일반적인 트라이폰들과는 달리) 초기 상태가 오직 이전 음소에서 문맥 종속형이 되도록 정의되고, 하나 이상의 중간 상태(들)이 오직 다음 음소에서 문맥 종속형이 되도록 정의되고, (최종 상태가 이전 음소 및 다음 음소 모두에서 문맥 종속형인 일반적인 트라이폰들과는 달리) 최종 상태가 오직 다음 음소에서 문맥 종속형이 되도록 정의된다.
소정의 실시예들에서는, 하술되는 것들 중 하나 이상의 조합으로 구성되는 병렬 시스템 조합 N 상태 트라이폰 HMM이 사용된다: (일반적이거나 향상된) N 상태 좌측 바이폰, (일반적이거나 향상된) N 상태 우측 바이폰, (일반적이거나 향상된) N 상태 트라이폰, 및 단음소. 병렬 시스템 조합 N 상태 트라이폰 HMM에서 음성 훈련 모듈이 일치하고 그리고/또는 일치하지 않는 조건들을 위한 최고의 문맥 종속형 HMM 토폴로지(topology)를 자동적으로 검색 및 선택하도록, 그리고 음성 인식기가 상이한 HMM들 사이에서 무엇이 최상의 경로인지를 역동적으로 결정하도록 새로운 상태 연결들이 성립된다.
도 1은 일 실시예에 따른 음성 인식 어플리케이션을 위해 데이터를 훈련시키는데 사용되는 연산 장치(110)의 예시적 구성 요소들을 도시하는 블록도이다. 일 실시예에 따르면, 훈련은 실험실 조건들 속에서(in the lab conditions) 실행되고 엔드 유저에 의해 수행될 필요가 없다(한편 훈련은 엔드 유저의 특정 환경에 적응되도록 엔드 유저가 훈련을 수행할 수 있다).
연산 장치(110)는 음성 인식기에 의해 사용되기 위한 HMM들을 훈련시키는 음성 인식기 훈련 모듈(150)을 구비한다. 음성 인식기 훈련 모듈(150)은 훈련 데이터에 기초하여 HMM을 위한 다수의 관측 분포들을 생성한다. 소정의 실시예들에서 음성 인식기 훈련 모듈(150)은 표준 훈련 알고리즘(예. 기댓값 최대화(Expectation Maximization), 바움 웰치(Baum Welch), 변별적 훈련(discriminative training), 등)을 실행한다. 음성 인식 훈련 모듈(150)은 훈련 데이터베이스(120), 디지털 신호 처리부(125), 사전(130), 단어 표기(word transcription)(135), HMM 설정 명세 정보 저장부(HMM configuration specification store)(140) 및 훈련된 HMM 저장부(145)와 결합된다. 훈련 데이터베이스(120)는 미리 기록된 음향들을 저장한다. 이러한 음향들은 일반적인 대화들, 일반적인 목적의 읽기 음성 및 음성 인식 어플리케이션 전용 음향들을 포함한다. 소정의 실시예들에서 훈련 데이터베이스(120)의 데이터는 특정 세트의 음성 단위들(예. 음소들, 단어들, 기능어들, 음절들 등)로 표기되어 있다.
소정의 실시예들에서 훈련 데이터베이스(120)에 저장된 음향은 변화하는 환경적 조건들 때문에 디지털 신호 처리부(125)에 의해 특정 환경적 조건들을 감안하도록 개선되거나 변경되어서, 음성 인식기의 강인성을 증가시킨다. 예를 들면 디지털 신호 처리부(125)는 훈련 데이터베이스(120)에 있는 데이터에 대한 특징 변환 및 정규화(normalization), 노이즈 감쇠(noise attenuation), 음성 향상 및/또는 HMM 백 엔드 노이즈 보상(HMM noise back-end noise compensation)을 포함하는 강인성 기술들을 실행할 수 있다. 추가적으로 디지털 신호 프로세서(125)는 특징 추출을 수행할 수 있다. 이때 특징 추출은 훈련 데이터베이스(120)로부터 특징 벡터들(일정 기간 동안 오디오의 일부)을 추출한다.
사전(130)은 단어들, 문장들, 명령어들(commands), 지시어들(instructions), 내레이션들(narrations) 또는 시스템에 의한 음성 인식을 위해 지원되는 다른 가청적 음향들을 포함한다. 단어 표기(word transcription)(135)는 훈련 데이터베이스 (120)에 있는 음성 데이터의 단어 표기들을 포함한다. HMM 설정 명세 정보 저장부(140)는 모델 토폴로지, 천이 파라미터들(transition parameters) 및 출력 분포 파라미터들을 정의하는 하나 이상의 HMM들에 대한 설정 정보를 포함하는 설정 명세 정보들을 포함한다. 소정의 실시예들에서 설정 정보는 하술되는 것들 중 적어도 하나를 포함한다: HMM의 상태들 각각에 대한 상태 설정(예. 각각의 상태들에 대하여 그 상태가 문맥 독립형 또는 문맥 종속형인지 식별하는 것 (또한 종속된 문맥이 무엇인지)), 상태 연결성, 원하는 혼합된 가우스 분포들의 수(number of desired mixed Gaussians) 및 하나 이상의 상태들에 대한 비균일 클러스터 임계치). 비균일 클러스터 임계치는 음소의 상태들에 따라 다양할 수 있다. 비균일 클러스터 임계치는 관측 분포들을 묶어서 관측 분포들의 수를 감소시킬때 사용된다. 완전히 묶인 상태는 오직 단일의 관측 분포를 가진다(본질적으로 단음소 상태를 만듬). 소정의 실시예들에서 HMM의 다양한 상태들에 대한 비균일 클러스터 임계값은 설정 가능하다. 어떠한 실시예들에서 HMM의 다른 파라미터들(예. 상태 설정, 상태 연결성, 상태들의 수, 좌우향 바이폰들, 반음소들, 트라이폰들, 음소 정의 등) 또한 설정 가능하다.
일 실시예에서 훈련을 위한 특정 HMM(예. 향상된 좌측 또는 우측 바이폰, 향상된 트라이폰 등)이 선택되고 음성 인식기 훈련 모듈(150)은 그러한 HMM들을 훈련시켜서 HMM의 파라미터들을 추산하고 훈련된 HMM을 훈련 HMM 저장부(145)에 저장한다. 하나의 실시예에서 음성 인식기 훈련 모듈(150)은 비균일 상태 클러스터링 모듈(155)을 포함한다. 여기서 비균일 상태 클러스터링 모듈(155)은 상태들의 관측 분포들의 수를 줄이기 위해, 비균일한 클러스터 임계치들을 사용해서 음향적으로 유사한 관측 분포들을 (본 명세서에서 묶임으로 설명된)클러스터링 한다.
일 실시예에서 비균일 상태 클러스터링은 비균일 트리 기반 클러스터링 기구이다. 다른 실시예에서 비균일 상태 클러스터링은 비균일 데이터 기반 클러스터링 알고리즘을 사용하여 이루어진다. 비균일 트리 기반 클러스터링 및 비균일 데이터 기반 클러스터링 모두에 있어서, 비균일 클러스터 임계치는 HMM의 상태들 중 적어도 일부에 대하여 정의되고 그 HMM의 비균일 클러스터 임계치들 중 적어도 하나는 그 HMM의 다른 비균일 클러스터 임계치(들)과 상이한 값을 가진다.
비균일 트리 기반 클러스터링에 대한 하나의 실시예에서 결정 트리는 각각의 노드와 연관된 예스/노(yes/no) 음소 질문을 사용하는 이진 트리이다. 각각의 질문은 음소 특징(일례로 모음, 비음, 자음 등) 및 대응하는 종속성 특징(예컨대 좌측 또는 우측)을 포함한다. 각각의 노드에서의 질문은, 훈련 데이터를 설명하는 능력의 발전을 설명하는 로그 우도 게인(log-likelihood gain)을 최대화하도록 디자인된다. 이러한 과정은 로그 우도 게인이 비균일 클러스터 임계치 아래로 떨어질때 까지 지속된다. 질문에 대한 답에 따라서, 동일한 잎 노드를 공유하는 상태들은 묶이게 된다. 일 실시예에서 비균일 상태 클러스터링 공정은 각각의 상태들에 대한 결정 트리를 구축한다. 이때 각 상태들(예컨대, 초기 상태, 중간 상태(들), 및/또는 최종 상태들) 마다 상이한 비균일 클러스터 임계치가 사용될 수 있다.
일 실시예에서 비균일 상태 클러스터링은 비균일 데이터 기반 클러스터링 기술이다. 비균일 데이터 기반 클러스터링 기술은 비균일 방식으로 각각의 상태들을 클러스터링하기 위해, 하향식 계층적 절차(top-down hierarchical procedure)를 사용하여 수행된다. 비균일 데이터 기반 클러시터링에 대한 하나의 실시예에서 초반에는 모든 가능한 상태들이 각각의 클러스터들에 배치된다. 거리 척도(distance metric)를 사용하여, 가장 가까운 클러스터들이 반복적으로 함께 합쳐진다. 이러한 과정은 두 개의 클러스터들 사이의 거리가 정의된 상태마다 비균일 임계치에 다다를 때 까지 또는 상태마다 비균일 클러스터의 수가 획득될 때까지 반복된다.
소정의 실시예들에서 연산 장치(110)는 제한된 자원들(예. 게임 콘솔, 셀룰러 텔레폰, 스마트폰, 랩탑, 팜탑(palmtop), 테블렛, 워크스테이션, 개인 컴퓨터, 엔터테인먼트 로봇, 셋톱 박수, 텔레비전, 오디오 수신기, GPS 장치 또는 한정된 자원들로 구성된 다른 전자 기기들)로 구성된 장치이다. 한편 다른 실시예들에서 연산 장치(110)는 제한된 자원들을 구비한 음성 인식 시스템에 의해 사용되는, HMM들을 훈련시키는데 사용된다.
도 2는 일 실시예에 따른 HMM을 훈련시키는 동안에 수행되는 예시적 과정들을 도시하는 흐름도이다. 도 2의 과정들은 도 1의 예시적 실시예를 참조하여 서술된다. 한편 도 2의 과정들은 도 2를 참조하여 서술된 실시예들과는 다른 실시예들에 의해 실행될 수 있다는 점이 이해되어야 한다. 또한 도 1을 참조하여 서술된 실시예들은 도 2를 참조하여 서술된 과정들과 다른 과정들이 실행할 수 있다는 점도 이해되어야 한다.
음성 인식기 훈련 모듈(150)은 210 과정에서 HMM(예컨대, 향상된 좌측 또는 우측 바이폰 HMM, 향상된 트라이폰 HMM, 향상된 반음소 HMM, 병렬 시스템 조합 HMM 등)을 훈련시키는 선택을 수신한다. 이러한 선택은 사람으로부터 수신되거나, 자동화된 프로그램으로부터 수신될 수 있다. 예를 들어, 도 1에는 단순성을 위해 도시되지 않았지만 훈련 시스템은 사용자가 훈련할 HMM들을 선택하는 것까지 포함하여, 훈련을 설정하도록 하는 인터페이스(일례로, 커맨드 라인 인터페이스(command line interface), 그래픽 유저 인터페이스)를 장착할 수 있다. 일 실시예에 따르면, HMM들은 HMM 설정 명세 정보 저장부(140)에 정의된다. 본 발명의 실시예들에 따른 예시적 HMM들은 도 3 내지 10을 참조하여 설명된다. 그런 다음, 220 과정이 수행된다.
음성 인식기 훈련 모듈(150)은 220 과정에서 설정 명세 정보 저장부(140)로부터 선택된 HMM에 대한 HMM 설정 명세 정보를 추출한다. 소정의 실시예들에서 HMM 설정 명세 정보는 하술되는 것들 중의 하나 이상을 포함한다: 상태들의 수, HMM의 상태들 각각에 대한 상태 설정(각각의 상태들에 대하여 그 상태가 문맥 독립형 또는 문맥 종속형인지 식별하는 것 (또한 종속된 문맥이 무엇인지)), 상태 연결성, 원하는 혼합된 가우스 분포들의 수(number of desired mixed Gaussians) 및 하나 이상의 상태들에 대한 비균일 클러스터 임계치).
소정의 실시예들에서 좌측 및/또는 우측 바이폰 HMM들은 문맥 음소 종속성(들)에 대해서는 실증적으로 무의미한(empirically insignificant) 상태들에 대한 예상 관측 분포들의 수를 (일례로, 이러한 상태들에 대한 문맥 종속성을 제거하거나 이러한 상태들을 집중적으로 묶음으로써) 상당히 많이 줄이도록 정의되거나 훈련된다. 트라이폰 클러스터링 결정 트리들의 분석을 통해 표시된 바와 같이, 바이폰 HMM의 초기 상태는 이전 음소에 주로 의존하고 최종 상태는 다음 음소에 주로 의존한다. 또한 음향 분석(spectrographic analysis)을 통해 음소의 끝부분은 다음 음소에 상당히 많이 의존하고 음소의 앞부분은 이전 음소에 의존한다.
그러므로 실증적으로 무의미한 문맥 음소 종속성들은 주로 우측 바이폰들에서는 초기 상태에서 그리고 좌측 바이폰들에서는 최종 상태에서 발생한다. 이에 본 발명의 소정의 실시예들에서, 향상된 우측 바이폰들에 대하여는 초기 상태에 대한 예상 관측 분포들의 수를 상당히 많이 줄이기 위하여, 그 초기 상태에 있는 문맥 음소 종속성이 제거(예컨대 그 초기 상태는 문맥 독립형으로 정의되거나 비균일 상태 클러스터링 공정에 의해 완전히 묶임)되거나 그 초기 상태가 (향상된 우측 바이폰들의 중간 상태, 최종 상태 및 일반적인 우측 바이폰들의 초기 상태들과 비교해 볼 때)더욱 집중적으로 묶인다. 또한 향상된 좌측 바이폰들에 대하여는 최종 상태에 대한 예상 관측 분포들의 수를 현저히 줄이기 위하여, 그 최종 상태에 있는 문맥 음소 종속성이 제거(일례로, 최종 상태가 문맥 독립형으로 정의되거나 비균일 상태 클러스터링 공정에 의해 완전히 묶임)되거나 그 최종 상태가 (향상된 좌측 바이폰들의 초기 상태, 중간 상태(들) 및 일반적인 좌측 바이폰들의 최종 상태들과 비교해 볼 때)더욱 집중적으로 묶인다.
향상된 우측 바이폰들에 대하여 비균일 상태 클러스터링 공정이 수행되는 실시예들에 있어서, 초기 및/또는 중간 상태들의 비균일 클러스터 임계치(들)는 이러한 상태(들)에 대한 관측 분포들의 수가 한 개가 되도록(예컨대, 완전히 묶임) 정의되거나 최종 상태와 일반적인 우측 바이폰들의 대응하는 초기 및 중간 상태(들)에 비해 현저히 감소된다. 향상된 좌측 바이폰들에 대하여 비균일 상태 클러스터링 공정이 수행되는 실시예들에 있어서, 최종 및/또는 중간 상태들의 비균일 클러스터 임계치(들)는 이러한 상태(들)에 대한 관측 분포들의 수가 한 개가 되도록(예컨대, 완전히 묶임) 정의되거나 초기 상태와 일반적인 좌측 바이폰들의 대응하는 중간 상태(들) 및 최종 상태에 비해 현저히 감소된다.
트라이폰들의 실증적으로 무의미한 문맥 음소 종속성들은 보통 초기 상태(다음 음소 종속성은 실증적으로 무의미함)와 최종 상태(이전 음소 종속성은 실증적으로 무의미함)에서 일어난다. 그러므로 본 발명의 소정의 실시예들에서, 초기 상태에서 다음 음소에 대한 문맥 음소 종속성을 제거하고 최종 상태에서 이전 음소에 대한 음소 종속성을 제거함으로써 트라이폰들이 향상된다. 예를 들면 어떠한 실시예들에서는 향상된 트라이폰 HMM의 초기 상태가 오직 이전 음소에 대하여만 문맥 종속형이고, 중간 상태(들)은 이전 음소 및 다음 음소에 대하여 문맥 종속형이고, 최종 상태는 오직 다음 음소에 대하여만 문맥 종속형인 것으로 정의된다.
반음소들 또한 실증적으로 무의미한 문맥 음소 종속성들을 가진 상태들에 대한 예상 관측 분포들의 수를 줄임으로써 향상될 수 있다. 예를 들면, 반음소(비균일 반음소 및 우측과 좌측 우월성 반음소들 모두)의 중간 상태(들)에서 실증적으로 무의미한 문맥 음소 종속성들이 주로 나타난다. 그러므로 어떠한 실시예들에서 우측 우월성 반음소들의 중간 상태(들)에 있는 다음 음소의 문맥 음소 종속성이 제거되거나 중간 상태(들)에 대한 관측 분포들의 수가 향상된 우측 우월성 반음소의 최종 상태와 일반적인 우측 우월성 반음소들의 중간 상태(들)에 비해 현저히 감소된다. 예를 들면 어떠한 실시예들에서는 우측 우월성 반음소의 중간 상태(들)가 문맥 독립형이 되도록 정의된다(이때 초기 상태는 이전 음소에 대하여 문맥 종속형이고 최종 상태는 다음 음소에 대하여 문맥 종속형인 것으로 유지된다). 다른 실시예들에서, 비균일 클러스터링 공정이 수행된다. 이때 비균일 클러스터링 공정은 중간 상태(들)을 위하여 정의된 비균일 클러스터 임계치들을 사용한다. 또한 비균일 클러스터링 공정은 중간 상태(들)에 대한 관측 분포들의 수가 한 개가 되도록 줄이거나(예. 완전히 묶임) 향상된 우측 우월성 반음소의 최종 상태와 일반적인 우측 우월성 반음소들의 중간 상태(들)에 비해 그 수를 상당히 많이 감소시킨다(예. 일반적인 우측 우월성 반음소들보다 더욱 완전히 묶이고 향상된 우측 우월성 반음소의 최종 상태보다 더욱 완전히 묶임).
어떠한 실시예들에서도 이와 유사하게 좌측 우월성 반음소들의 중간 상태(들)에 있는 이전 음소의 문맥 음소 종속성이 제거되거나 향상된 좌측 우월성 반음소의 초기 상태와 일반적인 좌측 우월성 반음소들의 중간 상태(들)에 비해 중간 상태(들)에 대한 관측 분포들의 수가 상당 부분 감소된다. 예를 들며 소정의 실시예들에서 좌측 우월성 반음소의 중간 상태(들)은 문맥 독립형으로 정의된다(초기 상태는 이전 음소에 대하여 문맥 종속형이고 최종 상태는 다음 음소에 대하여 문맥 종속형으로 유지된다). 다른 실시예들에서 비균일 클러스터링 공정이 수행된다. 이때 비균일 클러스터링 공정은 중간 상태(들)을 위해 정의된 비균일 클러스터 임계치들을 사용하고 중간 상태(들)에 대한 관측 분포들의 수가 한 개(완전히 묶임)가 되도록 줄이거나 향상된 좌측 우월성 반음소의 초기 상태와 일반적인 좌측 우월성 반음소들의 중간 상태(들)에 비해 상당 부분 줄인다(일반적인 좌측 우월성 반음소들 보다 더욱 완전히 묶이고 향상된 좌측 우월성 반음소의 초기 상태 보다 더욱 완전히 묶임).
소정의 실시예들에서 선택된 HMM은 두 개 이상의 상이한 HMM들을 조합하는 병렬 시스템 조합 HMM이다. 이때 조합 가능한 HMM들의 예로는 좌측 바이폰들(향상되거나 일반적인), 우측 바이폰들(향상되거나 일반적인), 단음소들, 트라이폰들(향상되거나 일반적인) 등이 있다. 병렬 시스템 조합 HMM은 새로운 상태 연결성들을 포함한다. 여기서 새로운 상태 연결성들은 훈련 모듈(150)이 일치 및/또는 일치하지 않는 조건들을 위한 최고의 문맥 종속형 HMM 토폴로지를 자동적으로 검색 및 선택하도록 한다. 훈련 모듈(150)은 훈련 중에 선택되지 않은 상태들을 병렬 시스템 조합 HMM 토폴로지에서 가지치기(prune)(또는 제거) 할 수 있다.
도 2를 참조하면 220 과정 후 음성 인식기 훈련 모듈(150)이 (예. 훈련 데이터베이스(120)로부터)음성 데이터를 추출하는 230 과정을 수행한다. 음성 데이터는 미리 기록될 수 있고 특정 환경적 조건들(예. 상이한 노이즈들, 잔향, 노이즈 감쇠, 특징 변환, HMM 백 엔드 노이즈 보상, 등)을 감안하여 향상 및/또는 변경될 수 있다.
그런 다음 240 과정이 수행된다. 음성 인식기 훈련 모듈(150)은 240 과정에서 훈련 데이터베이스(120) 및 사전(130)으로부터의 음성 데이터를 사용하여 HMM 설정 명세 정보에 정의된 파라미터들에 따라 HMM을 훈련한다.
HMM 설정 명세 정보가 비균일 클러스터 임계치(들)을 포함하는 실시예들에서 훈련의 일부로 비균일 상태 클러스터링 모듈(155)이 비균일 상태 클러스터링 공정을 수행하여 문맥 음소 종속성들이 실증적으로 무의미한 상태들에 대한 관측 분포들의 수를 현저히 줄인다. 비균일 상태 클러스터링 공정이 수행된 후의 특정 상태에 대한 예상 관측 분포들의 수는 그 상태와 관련된 비균일 클러스터 임계값에 의존한다. 충분하게 높은 비균일 클러스터 임계치가 주어진다면, 예상 관측 분포들의 수는 한 개로 줄을 수 있다. 이는 그 상태의 문맥 종속성이 제거되었음을 의미한다. 소정의 실시예들에서 선택된 HMM의 적어도 일부 상태들에 대한 비균일 클러스터 임계치는 문맥 종속성에 의해 보다 적게 영향을 받은, HMM의 상태들을 더욱 집중적으로 묶는데 사용된다. 출력 관측들의 수를 줄이는 것은 음성 인식 시스템에서 필요한 연산 요구사항들을 감소시킨다. 일례로, 이는 음성 인식기의 메모리 사용량을 줄이고 더 적은 CPU 자원들을 필요로 한다. 또한 출력 관측들의 수를 줄이는 것은 일치하지 않는 조건들 속에서의 음성 인식 정확도를 향상시킨다.
선택된 HMM이 병렬 시스템 조합 HMM인 실시예들에서 훈련 모듈(150)의 병렬 시스템 조합 모듈(160)은 상태 연결성들을 사용하여 일치 및/또는 일치하지 않는 조건들을 위한 최고의 문맥 종속형 HMM 토폴로지를 자동적으로 검색 및 선택한다. 병렬 시스템 조합 모듈(160)은 (음성 훈련 데이터에 의존하는)훈련 중에 선택되지 않은 상태들을 병렬 시스템 조합 HMM으로부터 가지치기(또는 제거) 할 수 있다.
훈련이 완료된 후, 240 과정 다음으로 음성 인식기에 의해 음성 인식 중에 사용될 훈련된 HMM들은 훈련 HMM 저장부(145)에 저장되는 250 과정이 수행된다. 자세한 내용은 도 11 및 12를 참조하여 후술된다.
도 3은 일 실시예에 따른 예시적 향상된 우측 바이폰 HMM을 도시한다. HMM(310)은 초기 상태(315), 중간 상태(320) 및 최종 상태(325)를 포함한다. 세 개의 상태를 구비한 HMM(310)은 각각 음소의 시작, 핵심 및 끝을 모델링한다. HMM(310)이 세 개의 상태들을 포함하지만, 다른 실시예들에서는 더 많거나 적은 수의 상태들이 존재할 수 있다는 점은 이해되어야 한다. 도 3에 도시된 바와 같이, 각각의 기본 음소는 상태 천이 확률들{Aip} 및 출력 관측 확률 분포들{Bip(Ot)}로 표시된다. 출력 관측 분포들은 주로 가우스 분포들의 다변량 혼합물이고 t 시점에서 Ot 관측을 생성하는 확률을 판단한다. 출력 관측들은 상태 인덱스 i 및 음소 인덱스 p로 식별되고 입력 관측은 t 시간으로 식별된다.
특정 기본 음소 p 를 모델링하는 표준 우측 바이폰 HMM에 있는 상태들 각각은 (기본 음소 p의 바로 우측에 있는)주변의 다음 음소 r 에 대하여 문맥 종속형이다. 그러므로 표준 우측 바이폰 HMM에 있는 각각의 상태에 대한 관측 분포들은 기본 음소와 다음 음소에 연계된다. 균일 결정 트리 클러스터링 알고리즘이나 균일 데이터 기반 클러스터링 알고리즘을 적용함으로써 관측 분포들의 수가 제한될 수 있지만, 이러한 알고리즘들은 각각의 상태들마다 균일한 클러스터 임계치를 사용한다. 이에 따라 이러한 알고리즘들은 소정의 상태들(균일 클러스터 임계치가 상대적으로 작은 경우)에 대한 관측 분포들의 수가 상당히 높게 나올 수 있다. 이에 문맥 종속성에의해 보다 적게 영향을 받는 상태들에게는 불필요하고 중복되는(overlap) 관측 분포들이 초래된다. 그리고 이는 일치하지 않는 조건들 속에 있는 음성 인식기의 정확도를 떨어뜨리고(국부적 훈련 조건들로 지나치게 훈련될 수 있다) 메모리 사용량을 증가시킨다. 또는 소정의 상태들(균일 클러스터 임계치가 상대적으로 큰 경우)에 대한 관측 분포들의 수가 너무 작아서 문맥 종속성에의해 보다 많이 영향을 받은 상태들이 너무 일반적(general)이게 되어 일치하거나 일치하지 않는 조건들 속에 있는 음성 인식기의 정확도가 떨어지게 한다.
바이폰 HMM의 (음소의 시작을 나타내는)초기 상태는 주로 이전 음소에 의존한다. 이에 초기 상태에게 다음 음소와의 문맥 종속성은 별로 중요하지 않다. 그러기 때문에 향상된 우측 바이폰 HMM(310)에서 초기 상태(315)의 문맥 음소 종속성이 제거되었고 단음소 상태인 것처럼 취급된다. 이에 따라 초기 상태(315)는 오직 단일의 관측 분포를 가진다. 도 3에 도시된 바와 같이, 중간 상태(320) 및 최종 상태(325)에 표시된 기본 음소는 다음 음소에 의존한다(p+r 로 표시됨). 우측 바이폰 HMM(310)의 초기 상태에 대한 관측 분포들의 수를 줄이는 것은 음성 인식기의 메모리 사용량을 감소시키고 더 적은양의 CPU 자원을 필요로 하는 것 뿐만 아니라, 일치하지 않는 조건들(실제 사용되는 환경이 훈련 중에 사용된 환경 또는 시뮬레이션된 환경과 상이한 경우들) 속에 있는 음성 인식기의 정확도를 높인다.
일 실시예에서 초기 상태(315)에 대한 관측 분포들의 수를 단일의 관측 분포로 줄이기 위하여, 비균일 클러스터링 공정이 수행됨으로써 초기 상태(315)가 완전히 묶이도록(즉, 단일의 관측 분포를 갖도록) 비균일 클러스터 임계치(350)가 정의된다. 예를 들면 비균일 클러스터 임계치는 무한대(infinity) 또는 상당히 큰 값으로 설정된다. 중간 상태(320) 및 최종 상태(325)의 비균일 클러스터 임계치들(355, 360) 각각은 해당 상태들에 대한 관측 분포들의 수를 줄이며 초기 상태(315)의 비균일 클러스터 임계치(350)와는 상이하다. 중간 상태(320) 및 최종 상태(325)의비균일 클러스터 임계치들(355, 360)은 동일하거나 다른 값들(서로에 비해 크거나 작은 값들)을 가질 수 있다. 한 실시예에서 중간 상태(320) 및 최종 상태(325)의 비균일 클러스터 임계치들(355, 360)은 최종 상태(325)가 중간 상태(320) 보다 대략 3분의 2 정도 더 많은 관측 분포들을 갖도록 정의된다.
다른 실시예에서 초기 상태(315)는 우측 바이폰 HMM(310)의 HMM 설정 명세 정보에 문맥 독립형으로 정의되어서 예상 관측 분포들의 수를 오직 한 개로 줄인다. 이러한 실시예에서 초기 상태(315)의 비균일 임계치(350)는 정의될 필요가 없지만, 중간 상태(320) 및 최종 상태(325)의 비균일 임계치들(355, 360)은 (같거나 다른 값으로)정의될 수 있다.
하나의 실시예에 따르면 좌측 바이폰 HMM들을 향상시키는데 유사한 기구가 사용될 수 있다. 도 4는 일 실시예에 따른 예시적 향상된 좌측 바이폰 HMM(410)을 도시한다. HMM(410)은 초기 상태(415), 중간 상태(420) 및 최종 상태(425)를 포함한다. 세 개의 상태들을 포함하는 HMM(410)은 각각 음소의 시작, 핵심 및 끝을 나타낸다. HMM(410)이 세 개의 상태들만 포함하지만, 다른 실시예들에서 더 많거나 작은 수의 상태들이 있을 수 있다는 점은 이해되어야 한다.
특정 기본 음소 p 를 모델링하는 표준 좌측 바이폰 HMM에 있는 각각의 상태들은 (기본 음소 p 의 바로 좌측에 있는)주변의 이전 음소 l 에 대하여는 문맥 종속형이다. 이에 표준 좌측 바이폰 HMM에 있는 상태들 각각의 관측 분포들은 기본 음소 및 그의 이전 음소와 연계된다. 균일 결정 트리 클러스터링 알고리즘이나 균일 데이터 기반 클러스터링 알고리즘을 적용함으로써 관측 분포들의 수가 제한될 수 있어도, 이러한 알고리즘들은 각각의 상태들마다 균일한 클러스터 임계치를 사용한다. 이에 따라 이러한 알고리즘들에서는 소정의 상태들(균일 클러스터 일계치가 상대적으로 작은 경우)에 대한 관측 분포들의 수가 너무 높게 나올 수 있다. 이에 문맥 종속성에의해 보다 적게 영향을 받는 상태들에게는 불필요하고 중복되는 관측 분포들이 초래된다. 그리고 이는 일치하지 않는 조건들 속에 있는 음성 인식기의 정확도를 떨어뜨리고(국부적 훈련 조건들로 지나치게 훈련될 수 있다) 메모리 사용량을 증가시킨다. 또는 소정의 상태들(균일 클러스터 임계치가 상대적으로 큰 경우)에 대한 관측 분포들의 수가 너무 작아서 문맥 종속성에의해 보다 많이 영향을 받은 상태들이 너무 일반적(general)이게 되어 일치하거나 일치하지 않는 조건들 속에 있는 음성 인식기의 정확도가 떨어지게 한다.
그러나 바이폰 HMM의 (음소의 끝 부분을 모델링하는)최종 상태는 주로 다음 음소에 의존한다. 이에 최종 상태에게 이전 음소와의 문맥 종속성은 별로 중요하지 않다. 그렇기 때문에 향상된 좌측 바이폰 HMM(410)에 있어서 최종 상태(415)의 문맥 음소 종속성은 제거되었고 단음소 상태 처럼 취급된다. 이에 따라 최종 상태(415)는 오직 단일의 관측 분포를 가진다. 도 4에 도시된 바와 같이 초기 상태(415) 및 중간 상태(420)에 표시된 기본 음소는 (l-p 로 표시된)이전 음소에 의존한다. 좌측 바이폰 HMM의 최종 상태에 대한 관측 분포들의 수를 줄이는 것은 음성 인식기의 메모리 사용량을 줄이는 것뿐만 아니라, 일치하지 않는 조건들(실제 사용되는 환경이 훈련 중에 사용된 환경 또는 시뮬레이션된 환경과 상이한 경우들) 속에 있는 음성 인식기의 정확도를 높인다.
일 실시예에서 최종 상태(425)에 대한 관측 분포들의 수를 단일의 관측 분포로 줄이기 위하여, 비균일 클러스터링 공정이 수행됨으로써 최종 상태(425)가 완전히 묶이도록(즉, 단일의 관측 분포를 갖도록) 비균일 클러스터 임계치(460)가 정의된다. 예를 들면 최종 상태(425)의 비균일 클러스터 임계치(460)는 무한대(infinity) 또는 상당히 큰 값으로 설정된다. 초기 상태(415) 및 중간 상태(420)의 비균일 클러스터 임계치들(450, 455)은 각각 해당 상태들에 대한 관측 분포들의 수를 줄이며 최종 상태(425)의 비균일 클러스터 임계치(460)와는 상이하다. 초기 상태(415) 및 중간 상태(420)의 비균일 클러스터 임계치들(450, 455)은 동일하거나 다른 값들(서로에 비해 크거나 작은 값들)을 가질 수 있다. 한 실시예에서 초기 상태(415) 및 중간 상태(420)의 비균일 클러스터 임계치들(450, 455)은 초기 상태(415)가 중간 상태(420) 보다 대략 3분의 2 정도 더 많은 관측 분포들을 갖도록 정의된다.
다른 실시예에서 최종 상태(425)는 문맥 독립형으로 좌측 바이폰 HMM(410)의 HMM 설정 명세 정보에 정의되어서, 예상 관측 분포들의 수를 오직 한 개로 줄인다. 이러한 실시예에서 최종 상태(425)의 비균일 임계치(460)는 정의될 필요가 없지만, 초기 상태(415) 및 중간 상태(420)의 비균일 임계치들(450, 455)은 (같거나 다른 값으로)정의될 수 있다.
도 5는 일 실시예에 따른 대체 가능한 예시적 향상된 우측 바이폰 HMM(510)을 도시한다. 향상된 우측 바이폰 HMM(510)은 초기 상태(515)가 단일의 관측 분포보다 더 많은 관측 분포를 가지고 다음 음소에 대하여 문맥 종속형인 면에서 도 3의 우측 바이폰 HMM(310)과 상이하다. 또한 중간 상태(520)는 초기 상태(515) 보다 더 많은 관측 분포들을 가지지만, 최종 상태(525) 보다는 더 작은 수의 관측 분포들을 가진다. 도 5에 도시된 바와 같이, '+' 기호는 상태가 묶인 상대적 양을 나타낸다. 이에 중간 상태(520)는 최종 상태(525) 보다 더 많이 묶이고, 초기 상태(515)는 중간 상태(520) 보다 더 많이 묶인다. 그러므로 문맥 음소 종속성들이 더 많이 무의미해질수록 우측 바이폰 HMM(510) 상태들의 관측 분포들 수는 점진적으로 감소된다. 다시 말해 클러스터링은 문맥 종속성에 의해 보다 적게 영향을 받은 상태들을 상대로 더욱 집중적으로 수행된다.
비균일 클러스터 임계값(550)은 비균일 클러스터링 공정이 수행됨으로써, 일반적인 우측 바이폰들에 비해 초기 상태(515)에 있는 관측 분포들의 수가 현저히 줄어들도록 정의된다(일례로, 비균일 클러스터 임계값이 일반적인 우측 바이폰들의 일반적인 균일 클러스터 임계치들 보다 높다). 중간 상태(520)의 비균일 클러스터 임계치(555)는 최종 상태(525)의 비균일 클러스터 임계치(560) 보다 더 크다(한편, 두 개의 임계치들 모두는 초기 상태(515)의 임계치(550) 보다는 작다). 한 실시예에서 중간 상태(520) 및 최종 상태(525)의 임계값들(555, 560)은 최종 상태(525)가 중간 상태(520) 보다 3 분의 2 정도 더 많은 관측 분포들을 갖도록 정의된다. 도 5는 중간 상태(520)가 최종 상태(525) 보다 더 많이 묶인 것으로 도시되지만, 실시예들은 이로 한정되지 않는다. 예를 들면 중간 상태(520)와 최종 상태(525)는 동일하게 묶여질 수 있다(예. 중간 상태(520) 및 최종 상태(525)의 비균일 클러스터 임계치들은 동일한 값을 가질 수 있다). 도 5에서는 세 개의 상태들이 도시되었지만, 다른 실시예들에서는 더 많거나 더 적은 수의 상태들이 있을 수 있다는 점은 이해되어야 한다.
도 6은 일 실시예에 따른 대체 가능한 예시적 향상된 좌측 바이폰 HMM(610)을 도시한다. 향상된 좌측 바이폰 HMM(610)은 최종 상태(625)가 단일의 관측 분포보다 더 많은 관측 분포를 가지고 이전 음소에 대하여 문맥 종속형인 면에서 좌측 바이폰 HMM(410)과 상이하다. 또한 중간 상태(620)는 최종 상태(625) 보다 더 많은 관측 분포들을 가지지만, 초기 상태(615) 보다는 더 작은 수의 관측 분포들을 가진다. 도 6에 도시된 바와 같이, '+' 기호는 상태가 묶인 상대적 양을 나타낸다. 이에 중간 상태(620)는 초기 상태(615) 보다 더 많이 묶이고, 최종 상태(625)는 중간 상태(620) 보다 더 많이 묶인다. 그러므로 문맥 음소 종속성들이 더 많이 무의미해질수록 좌측 바이폰 HMM(610)의 상태들의 관측 분포들의 수는 점진적으로 감소된다. 이에 클러스터링은 문맥 종속성에 의해 보다 적게 영향을 받은 상태들을 상대로 더욱 집중적으로 수행된다.
비균일 클러스터 임계값(660)은 비균일 클러스터링 공정이 수행됨으로써, 일반적인 좌측 바이폰들에 비해 최종 상태(625)에 있는 관측 분포들의 수가 현저히 줄어들도록 정의된다(일례로, 비균일 클러스터 임계값이 일반적인 좌측 바이폰들의 일반적인 균일 클러스터 임계치들 보다 높다). 중간 상태(620)의 비균일 클러스터 임계치(655)는 초기 상태(615)의 비균일 클러스터 임계치(650) 보다 더 크다(한편, 두 개의 임계치들 모두는 최종 상태(625)의 임계치(660) 보다는 작다). 한 실시예에서 초기 상태(615) 및 중간 상태(620)의 임계값들(650, 655)은 초기 상태(615)가 중간 상태(620) 보다 3 분의 2 정도 더 많은 관측 분포들을 갖도록 정의된다. 도 6은 중간 상태(620)가 초기 상태(615) 보다 더 많이 묶인 것으로 도시되지만, 실시예들은 이로 한정되지 않는다. 예를 들면 중간 상태(620)와 초기 상태(615)는 동일하게 묶여질 수 있다(예. 중간 상태(520) 및 초기 상태(615)의 비균일 클러스터 임계치들은 동일한 값을 가질 수 있다). 도 6에서는 세 개의 상태들이 도시되었지만, 다른 실시예들에서는 더 많거나 더 적은 수의 상태들이 있을 수 있다는 점은 이해되어야 한다.
본 발명의 실시예들은 바이폰 HMM들로만 한정되지 않는다. 도 7은 일 실시예에 따른 예시적 향상된 우측 우월성 반음소 HMM을 도시한다. 향상된 우측 우월성 반음소 HMM(710)은 초기 상태(715), 중간 상태(720) 및 최종 상태(725)를 포함한다. 초기 상태(715)는 좌측 반음소 부분(712)에, 중간 상태(720) 및 최종 상태(725)는 우측 반음소 부분(714)에 포함된다. 초기 상태(715)는 이전 음소에 대하여 문맥 종속형인 반면 최종 상태(725)는 다음 음소에 대하여 문맥 종속형이다. 소정의 실시예들에서 중간 상태(720)는 문맥 독립형이다(예. 완전히 묶이고, 오직 단일의 관측 분포를 가짐). 다른 실시예들에서 중간 상태(720)는 다음 음소에 대하여 문맥 종속형이지만, 최종 상태(725) 보다 더 집중적으로 묶인다(중간 상태(720)의 비균일 클러스터 임계치(755)가 최종 상태(725)의 비균일 클러스터 임계치(760) 보다 더 높음). 이에 이러한 실시예들에서 최종 상태(725)는 중간 상태(720) 보다 더 많은 관측 분포들을 가진다. 일반적인 우측 우월성 반음소들에서 클러스터 임계치는 각각의 상태들 마다 동일한 것(이에 중간 상태 및 최종 상태에 동일한 임계치가 적용됨)으로 인지되어야 한다. 소정의 실시예들에서 초기 상태(715)의 비균일 클러스터 임계치(750)는 최종 상태(725)의 비균일 클러스터 임계치(760)와 동일한 값을 가지지만, 다른 실시예들에서는 다른 값을 가질 수 있다. 도 7은 세 개의 상태들을 도시하지만, 다른 실시예들에서는 더 많거나 작은 수의 상태들이 있을 수 있다는 점은 이해되어야 한다.
다른 실시예에서 중간 상태(720)는 우측 우월성 반음소 HMM(710)의 HMM 설정 명세 정보에 문맥 독립형이도록 정의되어서, 예상 관측 분포들의 수를 오직 한 개로 줄인다. 이러한 실시예에서 중간 상태(720)의 비균일 임계치(755)는 정의될 필요가 없지만, 초기 상태(715) 및 최종 상태(725)의 비균일 임계치들(750, 760)은 (같거나 다른 값들로)정의될 수 있다.
좌측 우월성 반음소 HMM들에 대하여 유사한 기구가 사용될 수 있다. 도 8은 일 실시예에 따른 예시적 향상된 좌측 우월성 반음소 HMM을 도시한다. 향상된 좌측 우월성 반음소 HMM(810)은 초기 상태(815), 중간 상태(820) 및 최종 상태(825)를 포함한다. 초기 상태(815) 및 중간 상태(820)는 좌측 반음소 부분(812)에, 최종 상태(825)는 우측 반음소 부분(814)에 포함된다. 초기 상태(815)는 이전 음소에 대하여 문맥 종속형인 반면 최종 상태(825)는 다음 음소에 대하여 문맥 종속형이다. 소정의 실시예들에서 중간 상태(820)는 문맥 독립형이다(예. 완전히 묶이고, 오직 단일의 관측 분포를 가짐). 다른 실시예들에서 중간 상태(820)는 이전 음소에 대하여 문맥 종속형이지만, 초기 상태(815) 보다 더 집중적으로 묶인다(중간 상태(820)의 비균일 클러스터 임계치(855)가 초기 상태(815)의 비균일 클러스터 임계치(850) 보다 더 높음). 이에 이러한 실시예들에서 초기 상태(815)는 중간 상태(820) 보다 더 많은 관측 분포들을 가진다. 일반적인 좌측 우월성 반음소들에서 초기 상태 및 중간 상태의 비균일 클러스터 임계값들은 동일하다. 소정의 실시예들에서 초기 상태(815)의 비균일 클러스터 임계치(850)는 최종 상태(825)의 비균일 클러스터 임계치(860)와 동일한 값을 가지지만, 다른 실시예들에서는 다른 값을 가질 수 있다. 도 8은 세 개의 상태들을 도시하지만, 다른 실시예들에서는 더 많거나 작은 수의 상태들이 있을 수 있다는 점은 이해되어야 한다.
다른 실시예에서 중간 상태(820)는 좌측 우월성 반음소 HMM(810)의 HMM 설정 명세 정보에 문맥 독립형이도록 정의되어서, 예상 관측 분포들의 수를 오진 한 개로 줄인다. 이러한 실시예에서 중간 상태(820)의 비균일 임계치(855)는 정의될 필요가 없지만, 초기 상태(815) 및 최종 상태(825)의 비균일 임계치들(850, 860)은 (같거나 다른 값들로)정의될 수 있다.
도 7 및 8은 우측 및 좌측 우월성 반음소를 도시하지만, 본 발명의 실시예들은 좌측 또는 우측 우월성 반음소들로 제한되지는 않는다. 예를 들면, 좌측이나 우측 우월성이 아닌 반음소들은 중간 상태(들)의 예상 관측 분포들의 수를 향상된 좌측 및 우측 우월성 반음소들을 참조하여 전술된 바와 같이 줄임으로써 향상될 수 있다.
소정의 실시예들에서 트라이폰 HMM들은 실증적으로 무의미한 문맥 음소 종속성들을 제거함으로써 향상된다. 도 9는 일 실시예에 따른 예시적 향상된 트라이폰 HMM을 도시한다. 향상된 트라이폰 HMM(910)은 초기 상태(915)에 있는 다음 음소에 대한 문맥 종속성을 제거하고 최종 상태(925)에 있는 이전 음소에 대한 문맥 종속성을 제거함으로써 실증적으로 무의미한 문맥 음소 종속성들을 줄인다. 일 실시예에서 트라이폰 HMM(910)의 HMM 설정 명세 정보는 초기 상태(915)가 오직 이전 음소에 대하여만 문맥 종속형(일반적인 트라이폰 상태와는 다르게 다음 음소에는 의존하지 않음)이고, 중간 상태(920)는 이전 음소 및 다음 음소에 대하여 문맥 종속형이며, 최종 상태(925)는 오직 다음 음소에 대하여만 문맥 종속성(일반적인 트라이폰 상태와는 다르게 이전 음소에는 의존하지 않음)이도록 정의된다. 이에 각각의 상태가 이전 음소 및 다음 음소 모두를 의존하는 일반적인 트라이폰들과는 다르게, 초기 상태(915)는 오직 이전 음소(l-p 로 표시)에만 의존하고 최종 상태(925)는 오직 다음 음소(p+r 로 표시)에만 의존한다. 중간 상태(920)는 이전 음소 및 다음 음소(l-p+r로 표시)에 의존한다. 그러므로 초기 상태(915) 및 최종 상태(925)에 대한 예상 관측 분포들의 수는 표준 트라이폰들에 비해 감소된다. 도 9는 각각의 상태들이 적어도 하나의 문맥에 의존하는 것으로 도시되지만, 다른 실시예들에서는 하나 이상의 상태들이 문맥 독립형이될 수 있다. 도 9는 세 개의 상태들을 도시하지만, 다른 실시예들에서는 더 많거나 작은 수의 상태들이 포함될 수 있다는 점은 이해되어야 한다. 또한 초기 상태(915), 중간 상태(920) 및 최종 상태(925)의 비균일 클러스터링 임계치들은 전술된 바와 같이 비균일 클러스터링 공정에서 사용될 수 있다.
소정의 실시예들에서 다양한 HMM들의 병렬 시스템 조합은 모든 조건들(일치하는 조건 및 일치하지 않는 조건들) 속에서 정확도를 향상시키는데 사용된다. 도 10은 일 실시예에 따른 단음소, 좌측 바이폰, 우측 바이폰 및 트라이폰을 조합한 예시적 병렬 시스템 조합 HMM(1010)을 도시한다. 또한 다양한 HMM들 사이의 새로운 상태 연결성들은 훈련 모듈(150)이 일치하는 조건 및/또는 일치하지 않는 조건들을 위한 최고의 문맥 종속형 HMM 토폴로지를 자동적으로 검색 및 선택하도록 정의된다. 훈련 모듈(150)은 훈련 중에 선택될 확률이 낮은 상태들을 병렬 시스템 조합 HMM(1010)으로부터 가지치기(또는 제거) 할 수 있다. 일례로 도 10은 그에 대응하는 HMM 설정 명세 정보에 정의된 바에 따른 병렬 시스템 조합 HMM(1010)을 도시한다. 그러나 훈련 중에 사용되는 음성 데이터에 따라 훈련 모듈(150)은 훈련 중에 선택될 확률이 낮은 상태들을 가지치기하고 결과물인 훈련된 병렬 시스템 조합 HMM을 훈련된 HMM 저장부(145)에 저장할 수 있다. 어떠한 실시예들에서 훈련 공정은 반복적으로 수행된다. 여기서 훈련 공정은 병렬 시스템 조합 HMM(1010)에서 최고의 상태들이 선택 및 (예. 기댓값 최대화, 바움 웰치, 변별적 훈련 알고리즘들 등을 사용하여)재훈련되어서 시스템 정확성과 병렬 시스템 조합 HMM(1010)의 성능을 더욱 향상시키도록 이러한 상태들에 대한 훈련을 최적화한다. 음성 인식기는 훈련된 병렬 시스템 조합 HMM을 사용하여 훈련된 병렬 시스템 조합 토폴로지의 가장 확률이 높은 경로를 역동적으로 판단한다.
도 10에 도시된 바와 같이 병렬 시스템 조합 HMM(1010)은 (초기 상태(1020), 중간 상태(1030) 및 최종 상태(1040)를 포함하는)단음소 HMM, (초기 상태(1022), 중간 상태(1032) 및 최종 상태(1042)를 포함하는)우측 바이폰 HMM, (초기 상태(1024), 중간 상태(1034) 및 최종 상태(1044)를 포함하는)좌측 바이폰 HMM 및 (초기 상태(1026), 중간 상태(1036) 및 최종 상태(1046)를 포함하는)트라이폰 HMM을 조합한다. 단음소 HMM의 초기 상태(1020)는 문맥 독립형이고, 우측 바이폰 HMM의 초기 상태(1022)는 다음 음소에 대하여 문맥 종속형이고, 좌측 바이폰 HMM의 초기 상태(1024)는 이전 음소에 대하여 문맥 종속형이며, 트라이폰 HMM의 초기 상태(1026)는 이전 음소 및 다음 음소에 대하여 문맥 종속형이다. 각각의 초기 상태들(1020, 1022, 1024, 1026)은 중간 상태(1030, 1032, 1034, 1036)로 천이한다. 단음소 HMM의 중간 상태(1030)는 문맥 독립형이고, 우측 바이폰 HMM의 중간 상태(1032)는 다음 음소에 대하여 문맥 종속형이고, 좌측 바이폰 HMM의 중간 상태(1034)는 이전 음소에 대하여 문맥 종속형이며, 트라이폰 HMM의 중간 상태(1036)는 이전 음소 및 다음 음소에 대하여 문맥 종속형이다. 중간 상태들(1030, 1032, 1034, 1036) 각각은 최종 상태(1040, 1042, 1044, 1046)로 천이한다. 단음소 HMM의 최종상태(1040)는 문맥 독립형이고, 우측 바이폰 HMM의 최종 상태(1042)는 다음 음소에 대하여 문맥 종속형이고, 좌측 바이폰 HMM의 최종 상태(1044)는 이전 음소에 대하여 문맥 종속형이며, 트라이폰 HMM의 최종 상태(1046)는 이전 음소 및 다음 음소에 대하여 문맥 종속형이다.
도 10에 도시된 바와 같이, 일반적으로 좌측 바이폰, 우측 바이폰 및 트라이폰이 정의된다. 그러나 실시예들은 이로 한정되지 않으며 하나 이상의 우측 바이폰, 좌측 바이폰 및 트라이폰이 본 명세서에 서술된 바와 같이 향상될 수 있다. 도 10에 도시된 상태들의 수, HMM들의 수, 상태 연결성들, 문맥 종속성, 상태들 각각의 상태 설정(각각의 상태가 문맥 독립형, 이전 음소 문맥 종속형, 다음 음소 문맥 종속형 또는 이전 및 다음 음소 문맥 독립형인지)은 하나의 예일 뿐이며 다른 실시예들에서는 상이한 토폴로지들 및 조합들이 사용될 수 있다는 점은 이해되어야 한다.
도 11은 일 실시예에 따른 음성을 인식하는, 어플리케이션을 위한 음성 인식기를 구비하는 예시적 연산 장치를 도시한다. 소정의 실시예들에서 연산 장치(1105)는 제한된 자원들(예. 게임 콘솔, 셀룰러 텔레폰, 스마트폰, 랩탑, 팜탑, 테블렛, 워크스테이션, 개인 컴퓨터, 엔터테인먼트 로봇, 셋톱 박수, 텔레비전, 오디오 수신기, GPS 장치 또는 한정된 자원들로 구성된 다른 전자 기기들)을 구비하는 장치이다. 어플리케이션(1165)의 기능성은 연산 장치(1105)의 본질에 따라 다르다. 일례로 어플리케이션은 사무용(문서 작성이나 스프레드시트(spreadsheet) 작성 등), 비디오 게임 및/또는 비디오 게임 시스템, 운영 체제, 멀티미디어 어플리케이션 등이 될 수 있다. 어떠한 실시예들에서 연산 장치(110)의 특징들은 연산 장치(1105)에 포함될 수 있다(예. 연산 장치(1105)도 음성 인식기 훈련 모듈을 포함할 수 있음). 반면에 다른 실시예들에서 음성 인식기 훈련은 연산 장치(1105)와 원격적으로 떨어진 장치에서 수행될 수 있다.
연산 장치(1105)는 마이크(1110)를 사용하여 오디오 음향(어플리케이션(1165)과 연관된 명령어들이나 다른 음향들 및/또는 환경적 음향들(배경 소음 등)을 포함할 수 있음)을 감지한다. 아날로그 오디오 신호는 아날로그 디지털 변환부(ADC)(1115)에 의하여 디지털 데이터로 변환된다. 디지털 오디오 데이터는 디지털 신호 처리부(DSP)(1120)에 의해 처리된다. 일례로, 디지털 신호 처리부(1120)는 디지털 데이터로부터 특징 벡터들(일정 기간 동안 오디오의 일부)을 생성한다. 디지털 신호 처리부(1120)는 디지털 데이터에 대하여 특징 변환 및 정규화, 노이즈 감쇠, 음성 향상 및/또는 HMM 백 엔드 노이즈 보상을 수행한다.
미지 오디오 데이터는 음성 인식기(1130)에 의해 처리되어 어플리케이션(1165)에 적용가능한, 사전(1140)에 정의된 음성 구성 요소들(예. 단어들, 문장들, 명령어들, 지시어들 등)을 인식한다. 일 실시예에서 사전(1140)에 있는 음성 구성 요소들 각각은 대응하는 음소 스트링(string)(하나 이상의 음소들)과 연관된다. 음성 인식기(1130)는 훈련된 HMM 저장부(145)에 저장된 훈련된 HMM(들)을 사용하여 입력 오디오 데이터로부터 일련의 음소들을 식별한다. 훈련된 HMM(들)은 도 3 내지 10를 참조하여 서술된, 향상된 HMM들에 대응할 수 있다.
음성 인식기(1130)는 사전(1140)을 사용하여 식별된 음소 문자열에 대응하는 음성 구성 요소들을 인식한다. 음성 인식기(1130)는 문법(1145) 또는 언어 모델들(1150)을 사용하여 인식된 음성 구성 요소들을 어플리케이션(1165)에서 사용되기 위한(예. 명령 또는 동작을 수행, 스크린에 표시하기 위한) 단어 배열들(sequences), 문장들, 어구들, 명령어들을 형성한다.
소정의 실시예들에서 음성 인식기(1130)는 화자(어플리케이션(1165)의 사용자)로 하여금 훈련된 HMM 저장부(145)에 저장된 HMM(들)의 훈련이 그들의 목소리 및/또는 환경에 적응되도록 할 수 있도록 하는 적응 모듈(1160)을 구비한다. 적응 모듈(1160)은 음성 인식 시스템의 정확도를 높이고 음성 인식 시스템이 특정 환경 및/또는 화자에게 훈련되도록 한다. 하나의 실시예에서 이러한 적응이 자동적으로 수행(주기적으로 화자의 개입 없이)되지만, 다른 실시예들에서는 요청에 의해 수행되고 화자와 함께 상호작용하며 수행된다. 실시예들에서 적응 모듈(1160)은 도 3 내지 10에 서술된 향상된 HMM들을 적응시킨다.
도 12는 일 실시예에 따라 음성 인식 중 수행되는 예시적 과정들을 도시하는 흐름도이다. 도 12의 과정들은 도 11의 예시적 실시예를 참조하여 서술된다. 한편 도 12의 과정들이 도 12를 참조하여 서술된 실시예들 이외의 실시예들에 의해 수행될 수 있다는 점이 이해되어야 하며, 또한 도 11을 참조하여 서술된 실시예들이 도 12를 참조하여 서술된 과정들과 상이한 과정들을 수행할 수 있다는 점 또한 이해되어야 한다.
연산 장치(1105)는 1210 과정에서 마이크(1110)에서 오디오 신호를 수신한다. 오디오 신호는 어플리케이션(1165)을 위한 음성 구성 요소들 및/또는 환경적 음향들을 포함할 수 있다. 이후 1215 과정에서 ADC(1115)는 오디오 신호를 디지털 오디오 데이터로 변환한다. 그런 다음DSP(1120)는 1220 과정에서 디지털 오디오 데이터로부터 특징 벡터들을 생성한다. 소정의 실시예들에서 DSP(1120)는 디지털 데이터에 대하여 특징 변환 및 정규화, 노이즈 감쇠, 음성 향상 및/또는 HMM 백 엔드 노이즈 보상을 수행한다. 1220 과정을 수행한후 1225 과정이 실행된다.
음성 인식기(1130)는 1225 과정에서 훈련된 HMM 저장부(145)로부터 하나 이상의 훈련된 HMM들을 사용하여 특징 벡터들로부터 음성 단위들을 식별한다. 훈련된 HMM(들)은 도 3 내지 10을 참조하여 자세하게 서술된 향상된 HMM(들)이다. 이후 음성 인식기(1130)는 1230 과정에서 음성 단위들을 사전(1140)과 비교 평가하여 단어들을 식별한다. 그 다음 음성 인식기(1130)는 1235 과정에서 문법(1145) 또는 언어 모델(1150)을 사용하여 단어들을 어플리케이션(1165)에서 사용되기 위한 문장들, 어구들, 명령어들 등으로 형성한다. 이어서 어플리케이션(1165)은 1240 과정에서 인식된 문장, 어구, 명령어 등에 기초하여 동작을 수행한다.
음성 인식기(1130)가 음성 인식 중 향상된 HMM을 사용하기 때문에, 음성 인식기(1130)는 환경적 변화들에게 더욱 강인하다. 또한 향상된 HMM이 관측 분포들의 수를 감소시키는 경우, 음성 인식기는 음성 인식을 수행하는데 보다 적은 메모리와 CPU 자원들을 필요로 할 것이다.
도 13은 소정의 실시예들에서 사용될 수 있는 예시적 데이터 처리 시스템을 도시하는 블록도이다. 한 실시예에 따르면 데이터 처리 시스템(1300)의 예시적 구조는 연산 장치(110) 및/또는 연산 장치(1105)에 포함될 수 있다. 데이터 처리 시스템(1300)은 게임 콘솔, 셀룰러 텔레폰, 스마트폰, 랩탑, 팜탑, 테블렛, 워크스테이션, 개인 컴퓨터, 엔터테인먼트 로봇, 셋톱 박수, 텔레비전, 오디오 수신기, GPS 장치 또는 다른 데이터 처리 시스템이 될 수 있다.
데이터 처리 시스템(1300)은 하나 이상의 마이크로프로세서들 및/또는 집적 회로에 설치된 시스템을 포함할 수 있는 처리 시스템(1320)을 구비한다. 처리 시스템(1320)은 광적 캐시 메모리(1310), 전력 공급원(1325)(하나 이상의 배터리들을 포함), 휘발성 메모리(1330)(예. RAM), 비휘발성 메모리(1340)(예. 하드 드라이브, 플래시 드라이브, 상변화 메모리(Phase Change Memory; PCM) 등), 표시 제어부 및 표시부(1370), 입출력 장치들(1380) 및 선택적인 무선 송수신부(들)과 하나 이상의 버스들(1350)을 통해 결합된다. 특정 실시예들에서 도 13에 도시되지 않은 추가적인 구성 요소들 또한 데이터 처리 시스템(1300)의 일부가 될 수 있으며, 도 13에 도시된 구성 요소들 보다 더 적은 수의 구성 요소들이 사용될 수 있다. 또한 도 13에 도시되지 않은 하나 이상의 버스들은 당해 분야에 공지된 다양한 구성 요소들을 상호 연결하는데 사용되는 것이 바람직하다.
메모리(1330) 및/또는 비휘발성 메모리(1340)는 데이터 처리 시스템(1300)에 의해 데이터 및/또는 실행을 위한 프로그램들을 저장할 수 있다. 예를 들면 메모리(1330) 및/또는 비휘발성 메모리(1340)는 음성 인식기 훈련 모듈(150) 및 음성 인식기(1130)에 의해 수행될 명령어들을 저장할 수 있다. 입출력 장치들(1380)은 음성 인식을 위해 오디오를 수신하고 음향을 출력하는 마이크 및/또는 스피커를 포함할 수 있다. 또한 입출력 장치들(1380)은 키패드, 키보드, 터치 패널, 멀티터치 패널 또는 사용자로 하여금 시스템에 입력을 제공할 수 있도록 하는 다른 장치를 포함할 수 있다. 표시 제어부 및 표시부(1370)는 그래픽 사용자 인터페이스(GUI)를 포함할 수 있다. 무선 (예. RF)송수신부들(1390)은 다른 데이터 처리 시스템들과 통신하는데 사용될 수 있다. 이러한 무선 송수신부들(1390)은 선택 사항이며, 일례로 와이파이(WiFi) 송수신부, 적외선 송수신부, 블루투스 송수신부, 무선 셀룰러 텔레폰 송수신부 등이 될 수 있다.
도면들에 도시된 기술들은 코드 및 하나 이상의 연산 장치들(게임 콘솔, 셀룰러 텔레폰, 스마트폰, 랩탑, 팜탑, 테블렛, 워크스테이션, 개인 컴퓨터, 엔터테인먼트 로봇, 셋톱 박수, 텔레비전, 오디오 수신기, GPS 장치 또는 다른 데이터 처리 시스템)에 의해 저장되고 실행되는 데이터를 사용하여 구현될 수 있다. 이러한 연산 장치들은 기계 판독 가능한 매체 및 기계 판독 가능한 통신 매체를 사용하여 코드 및 데이터를 저장 및 (내부적으로 및/또는 네트워크를 통해 다른 전자 장치들과)통신한다. 여기서 기계 판독 가능한 매체는 일례로 자기 디스크들; 광학 디스크들; RAM; ROM; 플래시 메모리 장치들; 상변화 메모리와 같은 기계 판독 가능한 저장 매체가 될 수 있다. 기계 판독 가능한 통신 매체는 일례로, 전자, 광학, 음향 또는 반송파, 적외선 신호들, 디지털 신호들 등의 다른 형태의 전파 신호들일 수 있다. 또한 이러한 연산 장치들은 일반적으로 하나 이상의 구성 요소들과 결합된 하나 이상의 프로세서들을 장착한다. 이러한 구성 요소들은 하나 이상의 사용자 입출력 장치들(예. 마이크, 키보드, 터치스크린 및/또는 표시부) 및 네트워크 연결부들이 될 수 있다. 프로세서들과 다른 구성 요소들의 결합은 주로 하나 이상의 버스들 및 (버스 제어부로 지칭되는)브리지들(bridges)을 통해 구현된다. 저장부 및 네트워크 트래픽(network traffic)을 운반하는 신호들은 각각 하나 이상의 기계 판독 가능한 저장 매체 및 기계 판독 가능한 통신 매체를 대표한다. 이에 특정 전자 장치의 저장부는 일반적으로 그 전자 장치의 하나 이상의 프로세서들의 일군에서 실행되기 위한 코드 및/또는 데이터를 저장한다.
실시예들의 하나 이상의 부분들은 소프트웨어, 펌웨어 및/또는 하드웨어의 다양한 조합을 사용하여 구현될 수 있다. 예를 들면 음성 인식기 훈련 모듈(150) 및 음성 인식기(1130)는 소프트웨어, 펌웨어 및/또는 하드웨어의 다양한 조합들을 사용하여 구현될 수 있다.
실시예들은 음소 기반 인식기들에 대하여 서술되었지만, 다른 연결성들이나 다른 종류의 단위들(예. 단어들, 기능어들, 음절들, 시작 및 마지막 음절들 등)을 사용하는 다른 종류의 음성 인식기들에서의 사용이 제한된 것은 아니다.
도면들에 있는 흐름도는 본 발명의 소정의 실시예들에 의해 수행되는 특정 순서의 과정들이 도시되지만, 이러한 순서는 단지 하나의 예라는 점은 이해되어야 한다. 대체 가능한 실시예들에서는 상이한 순서로 특정 과정들을 조합하거나 특정 과정들을 겹쳐서 수행할 수 있다.
본 발명은 여러 실시예들을 사용하여 서술되었지만, 당업자는 본발명이 서술된 실시예들로만 한정되지 않다는 점을 인식할 것이며, 첨부된 청구항들의 사상과 범위 내에서 변경 및 변형 가능하다는 점 또한 인식할 것이다. 상세한 설명은 본 발명을 한정하기 보다는 도시하기 위한 것으로 고려되어야 한다.

Claims (27)

  1. 어플리케이션을 위해 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 장치로,
    음성 인식 훈련을 위한 음향들을 저장하는 훈련 데이터베이스;
    상기 문맥 종속형 음성 인식기에 의해 지원되는 다수의 단어들을 저장하는 사전; 및
    상기 훈련 데이터베이스 및 상기 사전을 사용하여 일군(一群)의 하나 이상의 다중 상태 은닉 마코브 모델들(Hidden Markov Models; HMMs)을 훈련시키는 음성 인식기 훈련 모듈을 포함하고,
    상기 음성 인식기 훈련 모듈은, 각각의 HMM의 각각의 상기 상태들에 대하여 비균일 상태 클러스터링 공정을 수행하고,
    상기 비균일 상태 클러스터링 공정은, 각각의 HMM의 적어도 소정의 상기 상태들에 대하여 상이한 비균일 클러스터 임계치를 사용함으로써, 하나 이상의 문맥 종속성들에 의한 실증적인 영향을 상대적으로 적게 받는 HMM의 상태들 각각에 대한 관측 분포들을 더욱 집중적으로 클러스터링하고 상기 관측 분포들의 수를 줄이는 것을 특징으로 하는 장치.
  2. 제 1항에 있어서,
    상기 다중 상태 HMM들의 적어도 하나는, 문맥 종속성이 제거된 최종 상태를 가지는 좌측 바이폰 HMM이고,
    상기 최종 상태는, 상기 좌측 바이폰의 말단 모델 상태이고 자신 이외에는 상기 좌측 바이폰의 다른 어떠한 상태들과 연결되지 않는 것을 특징으로 하는 장치.
  3. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 문맥 종속성이 제거된 초기 상태를 가진 우측 바이폰 HMM이고,
    상기 초기 상태는, 상기 우측 바이폰의 진입 모델 상태이고 자신 이외에는 상기 우측 바이폰의 다른 어떠한 상태들과 연결되지 않는 것을 특징으로 하는 장치.
  4. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 각각 상이한 비균일 클러스터 임계치를 가진 초기 상태, 중간 상태 및 최종 상태를 가진 좌측 바이폰 HMM이고,
    상기 초기 상태는, 자신 이외에는 상기 좌측 바이폰의 다른 어떠한 상태들과 연결되지 않고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태(intermediary state)이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태이고,
    상기 비균일 상태 클러스터링 공정은, 상기 최종 상태를 상기 중간 상태 및 상기 초기 상태 보다 더욱 집중적으로 클러스터링하고 상기 중간 상태를 상기 초기 상태 보다 더욱 집중적으로 클러스터링하는 것을 특징으로 하는 장치.
  5. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 각각 상이한 비균일 클러스터 임계치를 가진 초기 상태, 중간 상태 및 최종 상태를 가진 우측 바이폰 HMM이고,
    상기 초기 상태는, 자신 이외에는 상기 우측 바이폰의 다른 어떠한 상태들과 연결되지 않는 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태(intermediary state)이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태이고,
    상기 비균일 상태 클러스터링 공정은, 상기 초기 상태를 상기 중간 상태 및 상기 최종 상태 보다 더욱 집중적으로 클러스터링하고 상기 중간 상태를 상기 최종 상태 보다 더욱 집중적으로 클러스터링하는 것을 특징으로 하는 장치.
  6. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하는 다중 상태 트라이폰이고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 상태들과 연결되지 않는 말단 모델 상태이고,
    상기 음성 인식기 훈련 모듈은, 상기 초기 상태가 이전 음소에 대하여만 문맥 종속형이고 상기 중간 상태는 상기 이전 음소 및 다음 음소에 대하여 문맥 종속형이고 상기 최종 상태는 상기 다음 음소에 대하여만 문맥 종속형이도록 상기 다중 상태 트라이폰을 훈련시키는 것을 특징으로 하는 장치.
  7. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하는 반음소이고,
    상기 중간 상태는, 비균일 클러스터 임계치와 연관되고,
    상기 비균일 상태 클러스터링 공정은, 상기 중간 상태에 대한 관측 분포들의 수를 현저히 줄이고,
    상기 초기 상태는, 상기 반음소의 좌측 반음소 부분의 진입 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 최종 상태는, 상기 반음소의 우측 반음소 부분의 말단 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태와는 상이한 상태이고 상기 좌측 반음소 부분이나 상기 우측 반음소 부분에 포함되는 것을 특징으로 하는 장치.
  8. 제 1항에 있어서,
    상기 다중 상태 HMM들 중 적어도 하나는, 하나 이상의 다중 상태 좌측 바이폰 HMM, 다중 상태 우측 바이폰 HMM, 다중 상태 트라이폰, 및 상기 상태들 중 하나에 있는 적어도 하나의 단음소를 조합하는 다중 상태 병렬 시스템 조합인 것을 특징으로 하는 장치.
  9. 다수의 상태들을 가지며, 상기 다수의 상태들 중 적어도 소정의 상태들은 서로 다른 비균일 클러스터링 임계치와 연관되는 HMM을 훈련시키는 선택을 수신하는 과정;
    상기 HMM을 훈련시키는 과정; 및
    상기 훈련된 HMM을 저장하는 과정을 포함하는 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상시키는 방법으로,
    상기 HMM을 훈련시키는 과정은,
    상기 비균일 클러스터링 임계치들을 사용함으로써, 상기 다수의 상태들 중 하나 이상의 문맥 종속성들에 의한 실증적인 영향을 상대적으로 적게 받는 상태들에 대한 관측 분포들을 더욱 집중적으로 클러스터링하고 상기 관측 분포들의 수를 줄이는, 상기 다수의 상태들 각각에 대하여 비균일 클러스터링 공정을 수행하는 것을 포함하는 것을 특징으로 하는 방법.
  10. 제 9항에 있어서,
    상기 HMM은, 우측 바이폰이고 초기 상태 및 하나 이상의 다른 상태들을 포함하고,
    상기 초기 상태는, 상기 하나 이상의 다른 상태들과 연결되지 않은 진입 모델 상태이고,
    상기 우측 바이폰의 상기 초기 상태는, 비균일 클러스터링 임계치와 연관되고,
    상기 초기 상태의 상기 문맥 종속성은, 상기 비균일 상태 클러스터 공정 중 상기 초기 상태와 연관된 상기 비균일 임계치를 적용함으로써 제거되는 것을 특징으로 하는 방법.
  11. 제 9항에 있어서,
    상기 HMM은, 우측 바이폰이고 각각 상이한 비균일 클러스터 임계치와 연관된, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않은 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않은 말단 모델 상태이고,
    상기 비균일 상태 클러스터링 공정은, 상기 상이한 비균일 클러스터링 임계치들을 사용하여 상기 중간 상태 및 상기 최종 상태보다 상기 초기 상태를 더욱 집중적으로 클러스터링하고, 상기 최종 상태보다 상기 중간 상태를 더욱 집중적으로 클러스터링 하는 것을 특징으로 하는 방법.
  12. 제 9항에 있어서,
    상기 HMM은 좌측 바이폰이고 최종 상태 및 하나 이상의 다른 상태들을 포함하고,
    상기 좌측 바이폰의 상기 최종 상태는, 비균일 클러스터링 임계치와 연관되고,
    상기 최종 상태는, 상기 하나 이상의 다른 상태들과 연결되지 않는 말단 모델 상태이고,
    상기 최종 상태의 상기 문맥 종속성은, 상기 비균일 상태 클러스터링 공정 중 상기 최종 상태와 연관된 상기 비균일 임계치를 적용함으로써 제거되는 것을 특징으로 하는 방법.
  13. 제 9항에 있어서,
    상기 HMM은 좌측 바이폰이고 각각 상이한 비균일 클러스터링 임계치와 연관된, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태이고,
    상기 비균일 상태 클러스터링 공정은, 상기 상이한 비균일 클러스터링 임계치들을 사용하여 상기 초기 상태 및 상기 중간 상태보다 상기 최종 상태를 더욱 집중적으로 클러스터링하고 상기 초기 상태보다 상기 중간 상태를 더욱 집중적으로 클러스터링하는 것을 특징으로 하는 방법.
  14. 제 9항에 있어서,
    상기 HMM은, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태인 것을 특징으로 하는 방법.
  15. 제 9항에 있어서,
    적어도 초기 상태, 중간 상태 및 최종 상태를 포함하는 상기 HMM은 반음소이고,
    상기 초기 상태는, 상기 반음소의 좌측 반음소 부분의 진입 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 최종 상태는, 상기 반음소의 우측 반음소 부분의 말단 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태와는 상이한 상태이고 상기 좌측 반음소 부분 또는 상기 우측 반음소 부분에 포함되고,
    상기 비균일 상태 클러스터링 공정은, 상기 중간 상태에 대한 관측 분포들의 상기 수를 현저히 줄이는 것을 특징으로 하는 방법.
  16. 음성 인식 장치로,
    일군(一群)의 하나 이상의 훈련된 HMM들; 및
    상기 일군의 훈련된 다중 상태 HMM들 중 하나 이상을 음성 인식 중에 사용하고 어플리케이션에게 결과를 제공하는 음성 인식기를 포함하고,
    상기 하나 이상의 훈련된 HMM들 각각은, 다수의 상태들을 가지고,
    상기 훈련된 HMM들의 상기 일군은, 비균일 상태 클러스터링 공정을 사용하여, 하나 이상의 문맥 종속성들에 의해 보다 적게 실증적으로 영향을 받은 상태들에 대한 관측 분포들의 줄어든 수를 가지고,
    상기 비균일 상태 클러스터링 공정은, 상기 하나 이상의 훈련된 HMM들 각각의 상기 다수의 상태들 중 적어도 소정의 상태들에 대하여는 상이한 비균일 클러스터링 임계치를 사용하는 것을 특징으로 하는 장치.
  17. 제 16항에 있어서,
    상기 훈련된 HMM들 중 하나는, 문맥 독립형인 최종 상태 및 문맥 종속형인 하나 이상의 다른 상태들을 포함하는 좌측 바이폰이고,
    상기 최종 상태는, 상기 좌측 바이폰의 말단 모델 상태이고 자신 이외에는 상기 좌측 바이폰 HMM의 다른 어떠한 상태들과 연결되지 않는 것을 특징으로 하는 장치.
  18. 제 16항에 있어서,
    상기 일군의 상기 훈련된 HMM들 중 하나는, 문맥 독립형인 초기 상태 및 문맥 종속형인 하나 이상의 다른 상태들을 포함하는 우측 바이폰이고,
    상기 초기 상태는, 상기 우측 바이폰의 진입 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 것을 특징으로 하는 장치.
  19. 제 16항에 있어서,
    상기 일군의 상기 훈련된 HMM들 중 하나는, 적어도 이전 음소에 대하여만 문맥 종속형인 초기 상태, 상기 이전 음소 및 다음 음소에 대하여 문맥 종속형인 중간 상태 및 상기 다음 음소에 대하여만 문맥 종속형인 최종 상태를 포함하는 트라이폰이고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지않은 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태인 것을 특징으로 하는 장치.
  20. 제 16항에 있어서,
    상기 훈련된 HMM들 중 하나는, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하는 반음소이고,
    상기 초기 상태는, 상기 반음소의 좌측 반음소 부분의 진입 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 최종 상태는 상기 반음소의 우측 반음소 부분의 말단 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태와 상이한 상태이고 상기 좌측 반음소 부분이나 상기 우측 반음소 부분에 포함되고, 비균일 클러스터 임계치와 연관되고,
    상기 비균일 상태 클러스터링 공정은, 상기 중간 상태에 대한 관측 분포들의 수를 현저히 줄이는 것을 특징으로 하는 장치.
  21. 제 16항에 있어서,
    상기 일군의 상기 훈련된 HMM들 중 하나는, 두 개 이상의 좌측 바이폰 HMM, 우측 바이폰 HMM, 트라이폰 HMM 및 단음소 HMM 중 두 개 이상 사이에 연결성을 성립하는 병렬 시스템 조합 HMM이고,
    상기 음성 인식기는, 상기 병렬 시스템 조합 HMM에서 상기 상이한 HMM들 사이에서 최상의 경로를 역동적으로 판단하는 것을 특징으로 하는 장치.
  22. 음성 인식을 수행하는 연산 장치에서 수행되는 방법으로,
    오디오 신호를 수신하는 과정;
    상기 오디오 신호를 디지털 오디오로 변환하는 과정;
    상기 디지털 오디오로부터 특징 벡터들을 생성하는 과정;
    다수의 상태들을 가진, 훈련된 HMM을 사용하여 상기 특징 벡터들로부터 음성 단위들을 식별하는 과정;
    상기 음성 단위들에 의해 형성된 음성 구성 요소들을 식별하는 과정; 및
    상기 음성 구성 요소들을 어플리케이션에 제공하는 과정을 포함하고,
    상기 HMM은, 비균일 상태 클러스터링 공정을 사용하여, 하나 이상의 문맥 종속성들에 의해 보다 적게 실증적으로 영향을 받은 상태들에 대한 관측 분포들의 줄어든 수를 가지고,
    상기 비균일 상태 클러스터링 공정은, 상기 HMM의 상태들 중 적어도 소정의 상태들에 대하여는 상이한 비균일 클러스터링 임계치를 사용하는 것을 특징으로 하는 방법.
  23. 제 22항에 있어서,
    상기 훈련된 HMM은, 문맥 독립형인 최종 상태 및 문맥 종속형이 하나 이상의 다른 상태들을 포함하는 좌측 바이폰이고,
    상기 최종 상태는, 상기 좌측 바이폰의 말단 모델 상태이고 상기 하나 이상의 다른 상태들과 연결되지 않는 것을 특징으로 하는 방법.
  24. 제 22항에 있어서,
    상기 훈련된 HMM은, 문맥 독립형인 초기 상태 및 문맥 종속형인 하나 이상의 다른 상태들을 포함하는 우측 바이폰이고,
    상기 초기 상태는, 상기 우측 바이폰의 진입 모델 상태이고 상기 하나 이상의 다른 상태들과 연결되지 않는 것을 특징으로 하는 방법.
  25. 제 22항에 있어서,
    상기 훈련된 HMM은, 적어도 이전 음소에 대하여만 문맥 종속형인 초기상태, 상기 이전 음소 및 다음 음소에 대하여 문맥 종속형인 중간 상태 및 상기 다음 음소에만 문맥 종속형인 최종 상태를 포함하는 트라이폰이고,
    상기 초기 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 진입 모델 상태이고,
    상기 중간 상태는, 상기 초기 상태 및 상기 최종 상태 사이의 중계 상태이고,
    상기 최종 상태는, 자신 이외에는 다른 어떠한 상태들과 연결되지 않는 말단 모델 상태인 것을 특징으로 하는 방법.
  26. 제 22항에 있어서,
    상기 훈련된 HMM은, 적어도 초기 상태, 중간 상태 및 최종 상태를 포함하는 반음소이고,
    상기 초기 상태는 상기 반음소의 좌측 반음소 부분의 진입 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 최종 상태는, 상기 반음소의 우측 반음소 부분의 말단 모델 상태이고 자신 이외에는 다른 어떠한 상태들과 연결되지 않고,
    상기 중간 상태는 상기 초기 상태 및 상기 최종 상태와는 상이한 상태이고 상기 좌측 반음소 부분이나 상기 우측 반음소 부분에 포함되고,
    상기 중간 상태는, 비균일 클러스터 임계치와 연관되고,
    상기 비균일 상태 클러스터링 공정은, 상기 중간 상태에 대한 관측 분포들의 상기 수를 현저히 줄이는 것을 특징으로 하는 방법.
  27. 제 22항에 있어서,
    상기 훈련된 HMM은, 좌측 바이폰 HMM, 우측 바이폰 HMM, 트라이폰 HMM 및 단음소 HMM 중 두 개 이상 사이의 연결성들을 성립하는 병렬 시스템 조합 HMM이고, 상기 특징 벡터들로부터 음성 단위들을 식별할 때 상기 병렬 시스템 조합 HMM의 상기 상이한 HMM들 사이에서 최상의 경로를 역동적으로 판단하는 것을 특징으로 하는 방법.
KR1020110031775A 2010-05-21 2011-04-06 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 KR101237799B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/785,375 US8719023B2 (en) 2010-05-21 2010-05-21 Robustness to environmental changes of a context dependent speech recognizer
US12/785,375 2010-05-21

Publications (2)

Publication Number Publication Date
KR20110128229A KR20110128229A (ko) 2011-11-29
KR101237799B1 true KR101237799B1 (ko) 2013-02-28

Family

ID=44064298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110031775A KR101237799B1 (ko) 2010-05-21 2011-04-06 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법

Country Status (5)

Country Link
US (1) US8719023B2 (ko)
EP (1) EP2388778B1 (ko)
JP (1) JP5174937B2 (ko)
KR (1) KR101237799B1 (ko)
CN (2) CN102254555B (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
US9640175B2 (en) * 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US20140142925A1 (en) * 2012-11-16 2014-05-22 Raytheon Bbn Technologies Self-organizing unit recognition for speech and other data series
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
US10127927B2 (en) 2014-07-28 2018-11-13 Sony Interactive Entertainment Inc. Emotional speech processing
US10515151B2 (en) * 2014-08-18 2019-12-24 Nuance Communications, Inc. Concept identification and capture
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9516413B1 (en) * 2014-09-30 2016-12-06 Apple Inc. Location based storage and upload of acoustic environment related information
CN106326208B (zh) * 2015-06-30 2019-06-07 芋头科技(杭州)有限公司 一种通过语音对机器人进行训练的系统及方法
US10095682B2 (en) * 2015-07-29 2018-10-09 Mark43, Inc. Determining incident codes using a decision tree
CN106683677B (zh) * 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
KR102069699B1 (ko) * 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
KR102622350B1 (ko) * 2018-10-12 2024-01-09 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7153605B2 (ja) 2019-04-25 2022-10-14 信越ポリマー株式会社 異方導電性シートの製造方法
US20210104237A1 (en) * 2019-10-08 2021-04-08 Zebra Technologies Corporation Method and Apparatus for Providing Modular Speech Input to Client Applications
CN116612747B (zh) * 2023-07-19 2023-09-22 腾讯科技(深圳)有限公司 语音音素识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0387602A2 (en) 1989-03-14 1990-09-19 International Business Machines Corporation Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
KR20030096862A (ko) * 2002-06-18 2003-12-31 정현열 상태분할과 음소결정트리의 결합에 의한 에이치엠-넷모델의 구조결정을 이용한 음성인식방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5825978A (en) 1994-07-18 1998-10-20 Sri International Method and apparatus for speech recognition using optimized partial mixture tying of HMM state functions
DE59704065D1 (de) * 1996-08-27 2001-08-23 Siemens Ag Verfahren zur Spracherkennung mit kontexabhängig modellierten Hidden Markov Modellen
US5999893A (en) * 1997-05-02 1999-12-07 The United States Of America As Represented By The Secretary Of The Navy Classification system and method using combined information testing
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6405168B1 (en) * 1999-09-30 2002-06-11 Conexant Systems, Inc. Speaker dependent speech recognition training using simplified hidden markov modeling and robust end-point detection
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
US7467086B2 (en) 2004-12-16 2008-12-16 Sony Corporation Methodology for generating enhanced demiphone acoustic models for speech recognition
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
JP4528839B2 (ja) 2008-02-29 2010-08-25 株式会社東芝 音素モデルクラスタリング装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0387602A2 (en) 1989-03-14 1990-09-19 International Business Machines Corporation Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
KR20030096862A (ko) * 2002-06-18 2003-12-31 정현열 상태분할과 음소결정트리의 결합에 의한 에이치엠-넷모델의 구조결정을 이용한 음성인식방법

Also Published As

Publication number Publication date
CN102254555A (zh) 2011-11-23
JP5174937B2 (ja) 2013-04-03
CN103280216B (zh) 2016-07-13
EP2388778A1 (en) 2011-11-23
CN102254555B (zh) 2013-06-19
US20110288869A1 (en) 2011-11-24
US8719023B2 (en) 2014-05-06
CN103280216A (zh) 2013-09-04
JP2011248360A (ja) 2011-12-08
KR20110128229A (ko) 2011-11-29
EP2388778B1 (en) 2013-04-17

Similar Documents

Publication Publication Date Title
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP6550068B2 (ja) 音声認識における発音予測
JP6772198B2 (ja) 言語モデルスピーチエンドポインティング
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US9070367B1 (en) Local speech recognition of frequent utterances
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US8019602B2 (en) Automatic speech recognition learning using user corrections
Matassoni et al. Non-native children speech recognition through transfer learning
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
KR20060050361A (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
KR20150001191A (ko) 연속어 음성 인식 장치 및 방법
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP2013182261A (ja) 適応化装置、音声認識装置、およびそのプログラム
CN111933121B (zh) 一种声学模型训练方法及装置
US8600750B2 (en) Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition)
Vancha et al. Word-level speech dataset creation for sourashtra and recognition system using kaldi
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
Jin et al. A syllable lattice approach to speaker verification
Chang et al. A back-off discriminative acoustic model for automatic speech recognition
Sadashivappa MLLR Based Speaker Adaptation for Indian Accents
Alhonen et al. Mandarin short message dictation on symbian series 60 mobile phones
Kim et al. Non-native pronunciation variation modeling for automatic speech recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160205

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180207

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200213

Year of fee payment: 8