KR101183344B1 - 사용자 정정들을 이용한 자동 음성 인식 학습 - Google Patents
사용자 정정들을 이용한 자동 음성 인식 학습 Download PDFInfo
- Publication number
- KR101183344B1 KR101183344B1 KR1020050005345A KR20050005345A KR101183344B1 KR 101183344 B1 KR101183344 B1 KR 101183344B1 KR 1020050005345 A KR1020050005345 A KR 1020050005345A KR 20050005345 A KR20050005345 A KR 20050005345A KR 101183344 B1 KR101183344 B1 KR 101183344B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- pronunciation
- speech recognition
- word
- lexicon
- Prior art date
Links
- 238000012937 correction Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000013139 quantization Methods 0.000 description 11
- 230000007704 transition Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D35/00—Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
- B01D35/30—Filter housing constructions
- B01D35/306—Filter mounting adapter
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D35/00—Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
- B01D35/14—Safety devices specially adapted for filtration; Devices for indicating clogging
- B01D35/153—Anti-leakage or anti-return valves
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16K—VALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
- F16K15/00—Check valves
- F16K15/02—Check valves with guided rigid valve members
- F16K15/06—Check valves with guided rigid valve members with guided stems
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16K—VALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
- F16K27/00—Construction of housing; Use of materials therefor
- F16K27/02—Construction of housing; Use of materials therefor of lift valves
- F16K27/0209—Check valves or pivoted valves
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D2201/00—Details relating to filtering apparatus
- B01D2201/16—Valves
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B01—PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
- B01D—SEPARATION
- B01D2201/00—Details relating to filtering apparatus
- B01D2201/29—Filter cartridge constructions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Abstract
자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경을 인식하고 그 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 인식 에러의 결과인지를 추론한다. 인식 에러가 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회를 감소시킨다. 따라서, 본 시스템 및 방법은 추가적인 사용자 상호작용이 거의 없거나 전혀 없이 중대한 음성 인식 학습을 제공한다.
자동 음성 인식 시스템, 인식 에러, 어휘집
Description
도 1은 본 발명이 실행될 수 있는 하나의 컴퓨팅 환경의 블록도.
도 2는 본 발명이 실행될 수 있는 다른 컴퓨팅 환경의 블록도.
도 3은 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 블록도.
도 4는 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 일부의 블록도.
*도면의 주요부분에 대한 부호의 설명*
200: 이동 장치
202: 마이크로프로세서
204: 메모리
206: 입출력 컴포넌트
208: 통신 인터페이스
212: 오퍼레이팅 시스템
본 발명은 컴퓨터 음성 인식에 관한 것으로, 특히 컴퓨터 음성 인식 시스템의 훈련에 관한 것이다.
컴퓨터 시스템에 의한 신속하고 정확한 인간 음성의 인식은 컴퓨터 시스템의 개발자가 오랫동안 추구해온 목표이다. 이러한 컴퓨터 음성 인식(CSR) 시스템의 이점은 상당하다. 예를 들어, 컴퓨터 시스템으로 문서를 타이핑하기보다는, 사람이 문서의 단어들을 단순히 말하고, CSR 시스템이 그 단어들을 인식하여 마치 그 단어들이 타이핑된 것처럼 각각의 단어의 문자를 저장할 것이다. 사람은 일반적으로 타이핑보다 빠르게 말할 수 있으므로, 효율이 개선될 수 있다. 또한 사람이 더이상 타이핑하는 방법을 학습할 필요가 없어질 수 있다. 컴퓨터는 또한 사람의 손이 타이핑 이외의 업무를 처리하고 있어서 그 컴퓨터의 사용이 현재 실행불가능한 많은 애플리케이션에 사용될 수 있다.
일반적인 CSR 시스템은 말한 발언(utterance)과 어휘의 각 단어의 모델을 비교함으로써 단어를 인식한다. 발언에 가장 잘 매칭하는 모델의 단어가 말한 단어로서 인식된다. CSR 시스템은 단어를 구성하는 음소(phoneme)의 시퀀스로서 각각의 단어를 모델링할 수 있다. 발언을 인식하기 위하여, CSR 시스템은 발언에 가장 잘 매칭되는 음소들의 단어 시퀀스를 식별한다. 그러나, 이 음소들은 단어를 구성하는 음소에 정확하게 대응하지 않을 수 있다. 따라서, CSR 시스템은 일반적으로 확률 분석을 사용하여 어떤 단어가 식별된 음소에 가장 근접하게 대응하는 지를 판 정한다.
발언을 인식할 때, CSR 시스템은 발언을 나타내는 아날로그 신호를 또다른 처리를 위한 더 유용한 형태로 변환한다. CSR 시스템은 먼저 아날로그 신호를 디지털 형태로 변환한다. CSR 시스템은 그후 고속 푸리에 변환(FFT), 선형 예측 코딩(LPC) 또는 필터 뱅크 등의 신호 처리 기술을 디지털 형태에 적용시켜 발언의 적절한 파라메트릭 표시를 추출한다. 통상 사용되는 표현은 발언의 주파수 및/또는 에너지 밴드를 다양한 간격("프레임"으로 지칭됨)으로 표시하는 FFT 또는 LPC 계수를 갖는 "특징 벡터"이다. 간격은 컴퓨터 시스템의 계산 용량과 원하는 인식 프로세스의 정확도에 기초하여 짧을 수도 있고 길 수도 있다. 일반적인 간격은 10 밀리초의 범위내에 있을 수 있다. 즉, CSR 시스템은 발언의 10 밀리초마다 특징을 발생시킬 수 있다. 각각의 프레임은 일반적으로 25 ms로 길다. 따라서, 25 ms 길이의 프레임은 10 ms마다 발생된다. 연속적인 프레임 사이에 중첩부가 있다.
특징 벡터의 처리를 용이하게 하기 위하여, 각각의 특징 벡터는 제한된 수(예를 들어, 256)의 "양자화 벡터" 중 하나로 양자화된다. 즉, CSR 시스템은 일반적인 또는 평균 범위의 특징 벡터를 표현하기 위해 선택된 다수의 양자화 벡터를 정의한다. 그후, CSR 시스템은 각각의 특징 벡터를 각각의 양자화 벡터와 비교하고 특징 벡터와 가장 유사한 양자화 벡터를 선택하여 특징 벡터를 나타낸다. 각각의 양자화 벡터는 "코드워드(codeword)라 지칭되는 다수(예를 들어, 1과 256 사이)에 의해 고유하게 식별된다. 특징 벡터가 양자화 벡터로서 표현될 때, 많은 상이한 특징 벡터가 동일한 양자화 벡터로 맵핑되기 때문에 정보 손실이 있다. 이 정 보 손실이 인식에 심각하게 영향을 주지 않도록, CSR 시스템은 수천 또는 수백만 양자화 벡터를 정의할 수 있다. 이러한 다수의 양자화 벡터의 정의를 저장하는데 필요한 저장장치의 양은 상당할 수 있다. 따라서, 필요한 저장장치의 양을 감소시키기 위하여, CSR 시스템은 특징 벡터를 세그먼트화하고 각각의 세그먼트를 작은 수(예를 들어, 256)의 양자화 벡터 중의 하나로 양자화한다. 따라서, 각각의 특징 벡터는 각각의 세그먼트에 대한 (코드워드에 의해 식별된) 양자화 벡터에 의해 표시된다. 설명의 간략화를 위하여, 특징 벡터를 세그먼트하지 않아서 특징 벡터(또는 프레임)당 하나의 코드워드만을 갖는 CSR 시스템이 기재된다.
상술한 바와 같이, 말한 발언은 종종 단어의 모델에 정확하게 대응하지 않는다. 정확한 대응을 찾기 어려운 것은, 단어 모델에 의해 완전하고 정확하게 캡쳐되지 않는 음성의 큰 변화에 기인한다. 이들 변화는 예를 들어 화자의 액세트, 사람이 말하는 속도 및 피치, 화자의 현재 건강(예를 들어, 감기), 화자의 나이와 성별로터 기인한다. 확률(probabilistic) 기술을 사용하는 CSR 시스템은 정확한 대응을 찾는 기술보다 정확하게 음성을 정확하게 인식하는데 더 성공적이었다.
음성 인식에 일반적으로 사용되는 이러한 확률 기술중의 하나는 히든 마르코프 모델링(hidden Markov modeling)이다. CSR 시스템은 어휘 내의 각 단어에 대하여 히든 마르코프 모델("HMM")을 사용할 수 있다. 단어에 대한 HMM은 임의의 코드워드 시퀀스가 그 단어에 대응하는 확률을 도출할 수 있는 확률 정보를 포함한다. 따라서, 발언을 인식하기 위하여, CSR 시스템은 발언을 코드워드의 시퀀스로 변환한 후 각각의 단어에 대한 HMM을 사용하여 단어가 발언에 대응하는 확률을 판정한 다. CSR 시스템은 가장 높은 확률을 갖는 단어로 발언을 인식한다.
HMM은 상태도로 표현된다. 상태도는 일반적으로 입력의 시퀀스를 수신한 후의 시스템의 상태를 판정하는데 사용된다. 상태도는 상태들을 포함하고 소스 상태 및 목적 상태 사이를 천이한다. 각각의 천이는 상태와 입력을 관련시켜서 시스템이 그 입력을 수신하고 시스템이 소스 상태에 있을 때, 시스템이 목적 상태로 천이할 것이라는 것을 나타낸다. 이러한 상태도는 예를 들어 어휘의 단어를 구성하는 코드워드 시퀀스의 각각을 인식하는 시스템에 의해 사용될 수 있다. 시스템이 각각의 코드워드를 처리함에 따라, 시스템은 현재의 상태 및 처리되는 코드워드에 기초하여 다음 상태를 판정한다. 이 예에서, 상태도는 각각의 단어에 대응하는 소정의 최종 상태를 가질 것이다. 그러나, 한 단어가 다수 발음으로 표현되면, 각각의 단어는 다수의 최종 상태를 가질 수 있다. 코드워드를 처리한 후, 시스템이 하나의 단어에 대응하는 최종 상태에 있으면, 그 코드워드의 시퀀스는 최종 상태의 단어로서 인식될 것이다.
그러나, HMM은 각각의 코드워드에 대하여 하나의 상태로부터 다른 상태로의 각각의 천이와 관련된 확률을 갖는다. 예를 들어, HMM이 상태 2에 있으면, 소정의 코드워드가 현재의 상태로부터 다음 상태로 천이를 일으키는 확률은 0.1일 수 있으며, 동일한 코드워드가 현재의 상태로부터 상이한 다음 상태로 천이를 일으키는 확률은 0.2일 수 있다. 마찬가지로, 다른 코드워드가 현재 상태로부터 다음 상태로 천이를 일으키는 확률은 0.01일 수 있다. HMM이 그 상태도와 관련된 확률을 가지므로, 주어진 일련의 코드워드에 대한 최종 상태의 결정은 오직 확률로 표현될 수 있다. 따라서, 일련의 코드워드에 대한 각각의 가능한 최종 상태의 확률을 결정하기 위하여, HMM의 상태도에 대한 각각의 가능한 일련의 상태는 식별되어야 하며 관련된 확률은 계산되어야 한다. 각각의 이러한 일련의 상태는 상태 경로로서 지칭된다.
일련의 코드워드가 음소를 표현하는 확률을 판정하기 위하여, CSR 시스템은 확률 격자(probability lattice)를 발생할 수 있다. 음소의 HMM에 대한 확률 격자는 일련의 코드워드에 대한 각각의 가능한 상태 경로에 대한 확률의 계산을 나타낸다. 확률 격자는 HMM이 코드워드마다 시퀀스내에 있을 수 있는 각각의 가능한 상태에 대한 노드를 포함한다. 각각의 노드는 지금까지 처리된 코드워드가 그 노드와 관련된 상태에 있는 HMM을 초래할 누적된 확률을 포함한다. 특정 코드워드에 대한 노드의 확률의 합은 지금까지 처리된 코드워드가 음소의 접두사를 나타낼 가능성을 나타낸다.
CSR 시스템의 정확도는 부분적으로 음소마다 HMM의 천이 확률 및 출력의 정확도에 의존한다. 일반적인 CSR 시스템은 출력 및 천이 확률이 평균 화자의 음성을 정확하게 반영하도록 CSR 시스템을 "훈련"한다. 훈련하는 동안, CSR 시스템은 많은 단어에 대하여 많은 화자로부터의 코드워드 시퀀스를 수집한다. 단어를 선택하여 각각의 음소를 다수회 말하도록 한다. 이들 코드워드 시퀀스로부터, CSR 시스템은 각각의 HMM에 대한 출력 및 천이 확률을 계산한다. 이들 확률을 계산하는 많은 반복적인 접근법은 공지되어 있다.
그러나, 이러한 훈련 기술의 문제점은 이러한 평균 HMM이 평균과 다른 음성 패턴을 갖는 사람의 음성을 정확히 모델링할 수 없다는 것이다. 일반적으로, 모든 사람은 평균과 다른 소정의 음성 패턴을 가질 것이다. 결과적으로, CSR 시스템은 화자의 음성 패턴에 적응하도록 화자가 HMM을 훈련시키도록 한다. 이 훈련에서, CSR 시스템은 시스템의 실제 사용자가 말한 훈련 발언을 사용하여 코드워드에 의해 표현되는 양자화 벡터 및 출력 및 천이 확률 등의 HMM 파라미터를 개량한다. 적응된 파라미터는 사용자 공급 데이터 뿐만 아니라 많은 양의 화자 독립 데이터로부터 발생된 정보와 파라미터를 사용하여 도출된다. 따라서, 확률은 화자 독립 특성을 반영한다.
CSR 시스템은 일반적으로 화자에게 미리 선택된 많은 단어를 제시함으로써 훈련된다. 이들 단어는 각각의 음소에 대응하는 음성의 대표 샘플이 수집될 수 있도록 선택된다. 이 대표 샘플로, CSR 시스템은 그 음소에 대한 화자의 발음을 정확하게 반영하지 않는 임의의 HMM가 적절히 적응될 수 있도록 한다. CSR 시스템은 확률로 작용하므로, 더 많은 훈련이 제공될수록, 후속의 음성 인식이 더 정확하게 된다. 그러나, 점점 더 많은 훈련이 수행됨에 따라, 주어진 양의 추가 훈련에 대하여 인식 정확도가 증가하는 정도는 감소하기 시작한다. 또한, 사용자에게 훈련시간에 상당한 투자를 요구하는 것은 사용자의 경험을 감소시킬 수 있다.
따라서, 시스템을 훈련하도록 사용자가 요청받은 정도와 사용자가 시스템을 효율적으로 사용할 수 있는 정도 사이에 균형을 이루어야 한다. 인간 언어의 복잡성때문에, 광대한 훈련후에도 시스템은 종종 에러를 발생할 수 있다. 말한 발언이 대응하는 단어의 모델과 매칭하지 않도록 하는 다른 이유는 언어가 새로운 것일 때 이다. 가능한 솔루션은 어휘 크기를 증가시키는 것을 포함하며, 이는 인식 정확도를 낮출 수 있다. 또다른 솔루션은 사용자가 새로운 단어를 추가하는 사용자 훈련을 통해서 이루어진다. 현재의 시스템은, 그 어휘집이 시스템 어휘집이건, 판매자 또는 애플리케이션 어휘집이건, 사용자가 추가/삭제 단어 다이알로그 박스처럼 단어를 추가하거나 삭제하도록 하는 사용자 인터페이스를 사용하는 사용자 특정 어휘집이건간에, 사용자가 그의 발음으로 새로운 단어를 적절한 어휘집에 수동으로 추가하도록 한다. 그러나, 이것은 사용자가 상당한 수의 단어를 추가해야 할 필요가 있는 경우에 번거로울 수 있다. 또한 사용자에 의해 오서링된(authored) 문서 및 이메일을 사용하는 언어 모델(LM)을 적응시키는 것이 공지되어 있다. 이 접근법은 발음이 어휘집에 추가되지 않고 언어 모델 적응성의 품질이 소스 문서의 필터링에 크게 의존한다는 점에서 한계가 있다.
따라서, 상당한 사용자 개입을 요구하지 않고 사용자로부터의 발음 및 새로운 단어를 용이하게 학습할 수 있는 시스템에 대한 요구가 존재한다. 이 목적을 달성하기 위하여 과도한 훈련 노력을 요구함으로써 사용자 경험을 저감시키지 않고 향상된 자동 음성 인식 시스템을 허용한다.
자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경를 인식하고 이 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 이 변경이 인식 에러를 정정한 결과인지를 추론한다. 인식 에러로부터의 정정이 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회 를 감소시킨다. 따라서, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공한다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 일예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일예일 뿐이며 본 발명의 기능 또는 사용의 범위에 대하여 임의의 제한을 제공하기 위한 것이 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 나타낸 컴포넌트들 중의 임의의 하나 또는 조합에 관한 임의의 의존성 및 요구사항을 갖는 것으로 해석되지 않는다.
본 발명은 다른 많은 범용 또는 특수 목적 컴퓨팅 환경 또는 구성에서 동작한다. 본 발명에 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋탑박스, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템 또는 장치 중의 임의의 것을 포함하는 분산 컴퓨팅 환경을 포함하지만 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈 등의 컴퓨터 실행가능 명령의 일반적인 컨텍스트에서 기재될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 태스크가 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실행 될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 배치될 수 있다.
도 1을 참조하면, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트는 중앙 프로세싱 유닛(120), 시스템 메모리(130) 및 시스템 메모리를 포함하는 많은 시스템 컴포넌트를 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 포함할 수 있지만, 이에 한정되는 것은 아니다.
시스템 버스(121)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 및 로컬 버스를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 제한되는 것은 아니지만, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스 및 메자닌 버스(Mezzanine bus)로서 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함한다.
컴퓨터(110)는 일반적으로 많은 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는, 컴퓨터(110)에 의해 액세스될 수 있고 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함하는 이용가능한 임의의 매체일 수 있다. 예로서, 제한되는 것은 아니지만, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보를 저장하기 위한 임의의 방법 또는 기술로 구 현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기 타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광 디스크(156)로부터 판독하거나 그 광 디스크에 기록하는 광 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 패럴렐 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(181)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적인 컴퓨팅 환경인 이동 장치(200)의 블록도이다. 이동 장치(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 컴포넌트(206) 및 원격 컴퓨터 또는 기타 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술한 컴포넌트들은 적합한 버스(210)를 통해 서로 통신하도록 결합된다.
메모리(204)는 메모리(204)에 저장된 정보가 이동 장치(200)로의 일반적인 전력이 끊겼을 때 손실되지 않도록 배터리 백업 모듈(도시하지 않음)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부는 바람직하게 프로그램 실행을 위한 어스레스가능 메모리로서 할당되지만, 메모리(204)의 다른 부분은 바람직하게 디스크 드라이브 상의 저장장치를 시뮬레이팅하기 위한 저장장치에 사용된다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 및 오브젝트 스토어(216)를 포함한다. 동작하는 동안, 오퍼레이팅 시스템(212)은 바람직하게 메모리(204)로부터 프로세서(202)에 의해 바람직하게 실행된다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트 코포레이션으로부터 상용가능한 WINDOWS CE 브랜드 오퍼레이텅 시스템이다. 오퍼레이팅 시스템(212)은 이동 장치를 위해 바람직하게 설계되며 노출 애플리케이션 프로그래밍 인터페이스 및 메소드의 세트를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징을 구현한다. 오브젝트 스토어(216) 내의 오브젝트는 적어도 부분적으로 노출 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 이동 장치(200)가 정보를 송수신하도록 하는 많은 장치 및 기술을 나타낸다. 이 장치는 예를 들면 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 이동 장치(200)는 또한 컴퓨터에 직접 접속되어 컴퓨터와 데이터를 교환한다. 이 경우, 통신 인터페이스(208)는 직렬 또는 병렬 통신 접 속부 또는 적외선 트랜시버일 수 있으며, 이들 모두는 스트리밍 정보를 송신할 수 있다.
입출력 컴포넌트(206)는 터치식 스크린, 버튼, 롤러 및 마이크로폰 등의 많은 입력 장치 뿐만 아니라 오디오 발생기, 진동 장치 및 디스플레이를 포함하는 많은 출력 장치를 포함한다. 상기에서 열거한 장치는 예이며 이동 장치(200) 상에 모두 존재할 필요는 없다. 또한, 다른 입출력 장치는 본 발명의 범위 내에서 이동 장치에 부착되거나 존재한다.
본 발명의 형태는 일반적으로 새로운 단어, 발음 및 단어쌍을 자동적으로 학습하기 위한 자연적인 사용자 상호작용에 영향을 준다. 일반적으로 이것은 사용자가 생각을 바꾸어 사용자가 텍스트를 변경하였는지 또는 사용자의 음성을 인식하는 시스템의 무능에 의해 사용자가 정정을 하였는지를 추론함으로써 달성된다.
도 3은 본 발명의 일 실시예에 따른 시스템으로 사용자 상호작용으로부터 자동적으로 학습하는 방법의 흐름도이다. 본 방법은 구술된 텍스트의 사용자 변경을 시스템에 의해 인식하는 블록(300)에서 시작된다. 이 변경은 일반적으로 사용자가 다른 리스트로부터 새로운 단어를 선택하거나, 사용자가 단어 또는 구(phrase)를 재구술하거나, 사용자가 몇개의 단어를 삭제하거나, 사용자가 기존의 단어를 변경하거나, 사용자가 새로운 몇개의 단어를 타이핑하는 형태로 이루어질 것이다. 일단 변경이 인식되면, 제어는, 사용자가 실제 정정을 할 것인지 또는 단순히 사용자의 생각이 변경된 것인지를 시스템이 추론하는 블록(302)으로 진행한다. 다수의 힌트 또는 표시가 추론을 알리는데 사용될 수 있다. 예를 들어, 사용자가 다른 리 스트로부터 선택할 때는 사용자가 정정을 하는 것이다. 다른 예로는, 본래의 구술과 정정된 단어간의 음향 특성이 유사할 때는 사용자가 정정을 하는 것이다. 한편, 텍스트가 구술된 후 비교적 긴 시간이 지나 사용자가 변경을 하면, 사용자의 생각이 바뀌어서 편집(editing)하는 것일 가능성이 있다. 또한, 사용자가 구술된 문장에서 다수의 단어를 변경하면, 사용자의 생각이 바뀌어서 편집하는 것일 가능성이 있다. 선택적으로, 시스템은 사용자의 의도에 관한 확인을 위하여 사용자에게 간단히 물어볼 수 있다.
정정이 발생하는 세그먼트(들)을 식별하기 위하여, 동적 시간 와핑(Dynamic Time Warping; DTW)이 예시적으로 사용된다. 그후, 구술된 텍스트와 정정된 텍스트의 음성 인식 엔진 스코어가 비교될 수 있다. 이것은 시스템으로 하여금 사용자의 생각이 바뀌어 새로운 단어를 편집하는지 또는 유사한 사운드의 단어로 정정하는지를 판정하도록 한다. 원하면, 추가의 신뢰 스코어 또는 메트릭(metrics)이 정정 대 편집간의 추론을 개선하는데 사용될 수 있다. 그 결과로서 시스템이 사용자가 단순히 자신의 생각을 바꾼 것으로 결정한 경우에는, 제어는 라인(303)을 통해 블록(300)으로 되돌아간다.
블록(304)에서, 시스템은 어휘집을 참조하여 정정된 단어가 어휘집내에 있는지를 판정한다. 정정된 단어가 사용자 어휘집에 없으면, 제어는 블록(306)으로 진행하고, 블록(306)에서는, 단어가 어휘집에 추가되고 새로운 발음을 선택적으로 추가하며 따라서 언어 모델이 적응된다. 새로운 발음을 추가할지를 판정하는 프로세스는 또한 도 4를 참조하여 상세히 설명될 것이다. 블록(306)후에, 제어는 블록 (300)으로 되돌아간다.
그러나, 정정된 단어가 사용자 어휘집에 있으면, 제어는 블록(308)로 진행하고, 블록(308)에서, 시스템은 발음이 새로운 것인지를 판정한다. 새로운 발음이 새로운 단어의 발음 또는 기존 단어의 사용자 특정 발음에 의해 발생될 수 있다. 발음이 새로운 것인지를 판정하는 프로세스는 도 4를 참조하여 상세히 설명될 것이다. 발음이 새로운 발음이면, 제어는 블록(310)으로 진행하고, 블록(310)에서, 새로운 발음이 선택적으로 학습될 수 있다. 블록(310)후에, 제어는 블록(300)으로 되돌아간다.
발음이 새로운 것이 아니면, 제어는 블록(308)으로부터 블록(312)으로 진행한다. 이것은 정정된 단어가 사용자 어휘집에 있는 상황이며, 정정된 단어의 발음은 또한 공지된 것이다. 이 경우, 단어쌍 및/또는 구가 어휘집에 추가되거나 정정된 텍스트와 관련된 언어 모델 스코어가 갱신되어 단어가 연결되는 기회를 상승시킨다. 대부분의 경우, 이것은 예를 들어 하루 이틀동안 지속되는 일시적인 변경이다. 따라서, "wave two"가 "wave too"로 잘못 인식되어 사용자에 의해 정정되면, 시스템은 "wave two"를 사용자 어휘집에 자동적이고 일시적으로 추가한다. "일시적으로"는 그 단어쌍이 관찰되는 가장 최근 시간 및 그 쌍이 과거에 관찰된 상대적인 빈도에 기초하여 다소 동적이다. 단어쌍 및/또는 구를 추가하는 것외에, 시스템이 그 발음을 지원하면, 새롭게 관찰된 공지된 발음의 확률은 증가될 수 있다. 도 3에 도시된 모든 단계는 최상의 결과를 위해 단일 시스템에서 구현될 수 있지만, 본 발명의 실시예는 단일 시스템에 이러한 단계들이 반드시 공존하지 않고도 실행될 수 있다. 블록(312)후에, 제어는 블록(300)으로 진행한다.
도 4는 도 3을 참조하여 설명한 방법의 일부분의 도면이다. 도 4는 블록(308 및 310)을 더 상세히 설명한다. 블록(308)내에서, 블록(400)은 먼저 컨텍스트 워드에 기반한 파동(디지털화된 사운드)을 강제적으로 정렬하도록 동작한다. 컨텍스트 단어는 일반적으로 정정된 단어 전후의 단일 단어이다. 예를 들어, 구술된 문장이 "This is a text .\period"이고 사용자가 "text"를 "test"로 정정하면, 구(phrase) "a test .\period" 및 대응하는 파동은 정렬하는데 사용되어 단어마다 정정 한도를 결정한다. 강제 정렬이 완료되고 한도가 결정되면, 제어는 블록(402)으로 진행하고, 블록(402)에서, 정정된 단어의 발음이 격자를 사용하여 바람직하게 식별된다. 격자는 LTS(Letter to Speech) 컴포넌트에 의해 발생된 가능한 발음으로 만들어진다. 이것은 텍스트 입력에 기초하여 음소의 시퀀스를 발생시킬 수 있는 임의의 적절한 컴포넌트일 수 있다. 격자는 또한 기본 음소 인식기로부터 또는 인식 결과의 음소 시퀀스를 사용하여 구성된다. 그렇게 구성된 음소 격자는 시스템으로 하여금 정확한 발음으로서 격자 내의 최상의 음소 경로를 선택하도록 한다. 최상의 음소가 선택되면, 제어는 블록(404)으로 진행하고, 블록(404)에서, 새롭게 식별된 발음과 기존의 발음간의 간격이 산출된다.
블록(404)에서, 폰 컨퓨전 매트릭스(phone confusion matrix) 및 동적 시간 와핑은 새롭게 식별된 발음과 기존의 발음 사이의 간격을 산출하는데 사용된다. 또한, 다른 간격 산출 방법이 사용될 수 있다. 예를 들어, 간격은 새로운 발음 및 기존의 발음에 대한 음향 모델 스코어에 기초하여 산출될 수 있다. 간격은 바람직 하게 미리 선택된 또는 동적 임계치에 비교되어 발음이 학습되어야 하는지를 판정한다. 따라서, 간격은 임의의 임계치를 초과하는 발음만 학습될 것이다.
블록(406)에서, 시스템은 새로운 발음이 추가되어야 하는지를 판정한다. 이 판정은 바람직하게 블록(404)로부터의 산출된 간격, 가장 근접한 기존의 발음, 음향 모델(AM) 신뢰도, 및 새로운 발음이 사용자의 구술에 나타나는 빈도에 기초한다. 이들 인자에 기초하여 발음을 선택적으로 추가할지를 판정하는 것은 오정렬에 의한 에러 및/또는 사용자가 정정할 것인지에 대한 부정확한 추론이 시스템 효율을 감소시키는 학습을 일으키지 않도록 할 것이다. 발음 신뢰도 산출의 예는 다음을 포함한다.
C(pron) = 1-(1-p(d, AM)f; 및
C(pron) = 1/[d/f/log(len1+len2)]
여기서, d는 인식된 발음과 어휘집 내의 최상 매칭간의 간격이고, f는 인식된 동일한 발음이 발음되는 빈도이고, p(d, AM)은 이러한 간격(d)과 AM 스코어를 갖는 발음이 정확한 발음일 확률이다. Len1과 Len2는 각각 새로운 발음과 가장 근접한 발음의 음소의 길이이다. P(d, AM)은 훈련으로 학습된다.
블록(408)에서, 시스템은 새로운 발음을 선택적으로 추가한다. 바람직하게, 블록(406)에서 산출된 신뢰도 스코어가 충분히 높고 새로운 발음이 사용자의 구술에서 선택된 수(N)만큼 발생하였으면, 발음이 추가된다.
산출된 신뢰도 스코어에 임계치를 적용함으로써, 본 발명의 실시예에 따른 시스템은 사용자가 생각을 단순히 바꿈으로써 사용자 편집으로부터 학습함으로써 시스템이 부적절하게 영향을 받지 않도록 하기 위하여 최소량만을 학습할 것이다.
본 발명은 특정 실시예를 참조하여 설명하였지만, 본 기술에 숙련된 자는 본 발명의 사상 및 범위를 벗어나지 않고 그 형태 및 상세에 변경이 이루어질 수 있다는 것을 인식할 것이다. 예를 들어, 상술한 설명의 대부분은 시스템에 정보를 추가하여 정확도를 개선하는 것에 초점을 맞추었지만, 본 발명의 실시예는 또한 시스템으로부터 단어를 삭제하는 것도 포함한다.
상술한 바와 같이, 본 발명에 따르면, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공하는 효과가 있다.
Claims (22)
- 컴퓨터 구현 음성 인식 시스템으로서,사용자 음성을 수신하기 위한 마이크로폰; 및상기 마이크로폰에 결합되어, 상기 사용자 음성을 인식하고 사용자 인터페이스 상에 텍스트 출력을 제공하도록 적응되는 음성 인식 엔진을 포함하고,상기 시스템은 사용자가 상기 텍스트 출력을 변경하는 것을 자동으로 인식하고, 상기 변경이 정정(correction)인지 또는 편집(editing)인지를 추론하고 - 상기 추론은 구술과 상기 변경 사이의 시간량의 측정, 및 변경된 단어들의 수의 검출을 포함함 -, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초하여, 상기 변경이 인식 에러에 의한 것으로 추론되는 경우에만, 상기 음성 인식 엔진을 상기 변경으로부터 학습하도록 선택적으로 적응시키도록 적응되는 컴퓨터 구현 음성 인식 시스템.
- 삭제
- 제1항에 있어서, 상기 음성 인식 엔진은 사용자 어휘집(lexicon)을 포함하고, 상기 정정이 상기 사용자 어휘집에 없는 단어인 경우 상기 사용자 어휘집은 갱신되는 컴퓨터 구현 음성 인식 시스템.
- 제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 새로운 발음을 선택적으로 학습하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
- 제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 기존의 발음과 관련된 확률을 선택적으로 변경하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
- 제1항에 있어서, 상기 정정이 새로운 단어 또는 새로운 발음에 의한 것이 아닌 경우, 상기 시스템은 적어도 하나의 단어쌍을 상기 음성 인식 엔진에 포함된 사용자 어휘집에 추가하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
- 자동 음성 인식 시스템에 의해 학습하는 방법으로서,구술된 텍스트에 대한 변경을 검출하는 단계;상기 변경이 정정인지 또는 편집인지를 추론하는 단계 - 상기 추론하는 단계는 구술과 상기 변경 사이의 시간량을 측정하는 단계, 및 변경된 단어들의 수를 검출하는 단계를 포함하고, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초함 -; 및상기 변경이 정정인 것으로 추론된 경우, 추가의 사용자 상호작용없이 상기 정정의 특징(nature)으로부터 선택적으로 학습하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 사용자가 상기 변경을 수행하기 위하여 다른 리스트로부터 선택했는지를 검출하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 삭제
- 제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 구술된 텍스트와 변경된 텍스트의 음성 인식 엔진 스코어를 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 삭제
- 제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 정정된 단어가 사용자의 어휘집에 존재하는지를 판정하는 단계, 및 상기 정정된 단어가 상기 사용자의 어휘집에 존재하지 않으면 상기 정정된 단어를 상기 어휘집에 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제12항에 있어서, 상기 정정된 단어가 상기 사용자의 어휘집에 존재하면, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 상기 사용자의 발음이 상기 시스템에 의해 공지된 기존의 발음들로부터 벗어났는지를 판정하는 단계와, 상기 발음을 선택적으로 학습하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 적어도 하나의 컨텍스트 단어가 존재하면 상기 적어도 하나의 컨텍스트 단어에 기반한 파동(wave)의 강제 정렬(forced alignment)을 수행하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 상기 정정된 단어의 발음을 파동 내에서 식별하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제15항에 있어서, 인식 결과와 상기 정정된 단어의 가능한 발음들에 기초하여 격자를 형성하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음간의 간격에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음의 음향 모델 스코어(Acoustic Model score)에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제17항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 신뢰도 스코어를 임계치와 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제19항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 새롭게 식별된 발음이 미리 선택된 횟수만큼 발생했는지를 판정하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 사용자의 어휘집에 적어도 하나의 단어쌍을 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
- 제21항에 있어서, 적어도 하나의 단어쌍이 상기 사용자의 어휘집에 일시적으로 추가되는 자동 음성 인식 시스템에 의한 학습 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/761,451 | 2004-01-20 | ||
US10/761,451 US8019602B2 (en) | 2004-01-20 | 2004-01-20 | Automatic speech recognition learning using user corrections |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20050076697A KR20050076697A (ko) | 2005-07-26 |
KR101183344B1 true KR101183344B1 (ko) | 2012-09-14 |
Family
ID=34634575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020050005345A KR101183344B1 (ko) | 2004-01-20 | 2005-01-20 | 사용자 정정들을 이용한 자동 음성 인식 학습 |
Country Status (6)
Country | Link |
---|---|
US (2) | US8019602B2 (ko) |
EP (1) | EP1557822B1 (ko) |
JP (1) | JP4657736B2 (ko) |
KR (1) | KR101183344B1 (ko) |
CN (1) | CN1645477B (ko) |
AT (1) | ATE511177T1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015102127A1 (ko) * | 2013-12-31 | 2015-07-09 | 엘지전자 주식회사 | 음성 인식 시스템 및 방법 |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1745424A1 (en) * | 2004-03-02 | 2007-01-24 | Cloudmark, Inc. | Method and apparatus to use a genetic algorithm to generate an improved statistical model |
WO2005086438A1 (en) * | 2004-03-02 | 2005-09-15 | Cloudmark, Inc. | A method and apparatus to use a statistical model to classify electronic communications |
KR100717385B1 (ko) | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템 |
JPWO2007105409A1 (ja) * | 2006-02-27 | 2009-07-30 | 日本電気株式会社 | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム |
US7756708B2 (en) * | 2006-04-03 | 2010-07-13 | Google Inc. | Automatic language model update |
CA2644666A1 (en) * | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
US7774202B2 (en) | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US8719027B2 (en) * | 2007-02-28 | 2014-05-06 | Microsoft Corporation | Name synthesis |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US20080221880A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile music environment speech processing facility |
US8457946B2 (en) * | 2007-04-26 | 2013-06-04 | Microsoft Corporation | Recognition architecture for generating Asian characters |
US20090037171A1 (en) * | 2007-08-03 | 2009-02-05 | Mcfarland Tim J | Real-time voice transcription system |
WO2009136440A1 (ja) * | 2008-05-09 | 2009-11-12 | 富士通株式会社 | 音声認識辞書作成支援装置,処理プログラム,および処理方法 |
JP5054711B2 (ja) * | 2009-01-29 | 2012-10-24 | 日本放送協会 | 音声認識装置および音声認識プログラム |
US8798983B2 (en) * | 2009-03-30 | 2014-08-05 | Microsoft Corporation | Adaptation for statistical language model |
US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
CN101950376B (zh) * | 2009-07-09 | 2014-10-29 | 索尼公司 | 隐马尔可夫模型学习设备和方法 |
US9218807B2 (en) * | 2010-01-08 | 2015-12-22 | Nuance Communications, Inc. | Calibration of a speech recognition engine using validated text |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US9263034B1 (en) * | 2010-07-13 | 2016-02-16 | Google Inc. | Adapting enhanced acoustic models |
JP5158174B2 (ja) * | 2010-10-25 | 2013-03-06 | 株式会社デンソー | 音声認識装置 |
US9396725B2 (en) | 2011-05-09 | 2016-07-19 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US8738375B2 (en) | 2011-05-09 | 2014-05-27 | At&T Intellectual Property I, L.P. | System and method for optimizing speech recognition and natural language parameters with user feedback |
US8954329B2 (en) * | 2011-05-23 | 2015-02-10 | Nuance Communications, Inc. | Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information |
US8676580B2 (en) * | 2011-08-16 | 2014-03-18 | International Business Machines Corporation | Automatic speech and concept recognition |
CN103000052A (zh) * | 2011-09-16 | 2013-03-27 | 上海先先信息科技有限公司 | 人机互动的口语对话系统及其实现方法 |
US8515751B2 (en) * | 2011-09-28 | 2013-08-20 | Google Inc. | Selective feedback for text recognition systems |
US9640175B2 (en) | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
CN103165129B (zh) * | 2011-12-13 | 2015-07-01 | 北京百度网讯科技有限公司 | 一种优化语音识别声学模型的方法及系统 |
US9082403B2 (en) * | 2011-12-15 | 2015-07-14 | Microsoft Technology Licensing, Llc | Spoken utterance classification training for a speech recognition system |
CN103366741B (zh) * | 2012-03-31 | 2019-05-17 | 上海果壳电子有限公司 | 语音输入纠错方法及系统 |
KR101971513B1 (ko) * | 2012-07-05 | 2019-04-23 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 오류 수정 방법 |
US9093072B2 (en) | 2012-07-20 | 2015-07-28 | Microsoft Technology Licensing, Llc | Speech and gesture recognition enhancement |
US20140067394A1 (en) * | 2012-08-28 | 2014-03-06 | King Abdulaziz City For Science And Technology | System and method for decoding speech |
CN104871240A (zh) * | 2012-12-28 | 2015-08-26 | 索尼公司 | 信息处理设备、信息处理方法、以及程序 |
CN103903618B (zh) * | 2012-12-28 | 2017-08-29 | 联想(北京)有限公司 | 一种语音输入方法及电子设备 |
KR101892734B1 (ko) * | 2013-01-04 | 2018-08-28 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
US20140317467A1 (en) * | 2013-04-22 | 2014-10-23 | Storart Technology Co., Ltd. | Method of detecting and correcting errors with bch engines for flash storage system |
US10394442B2 (en) * | 2013-11-13 | 2019-08-27 | International Business Machines Corporation | Adjustment of user interface elements based on user accuracy and content consumption |
CN103941868B (zh) * | 2014-04-14 | 2017-08-18 | 美的集团股份有限公司 | 语音控制准确率调整方法和系统 |
US20160063990A1 (en) * | 2014-08-26 | 2016-03-03 | Honeywell International Inc. | Methods and apparatus for interpreting clipped speech using speech recognition |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
WO2016054230A1 (en) | 2014-10-01 | 2016-04-07 | XBrain, Inc. | Voice and connection platform |
US10048934B2 (en) | 2015-02-16 | 2018-08-14 | International Business Machines Corporation | Learning intended user actions |
US10410629B2 (en) * | 2015-08-19 | 2019-09-10 | Hand Held Products, Inc. | Auto-complete methods for spoken complete value entries |
CN106683677B (zh) | 2015-11-06 | 2021-11-12 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US10769189B2 (en) | 2015-11-13 | 2020-09-08 | Microsoft Technology Licensing, Llc | Computer speech recognition and semantic understanding from activity patterns |
US11429883B2 (en) | 2015-11-13 | 2022-08-30 | Microsoft Technology Licensing, Llc | Enhanced computer experience from activity prediction |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
EP3469519A4 (en) | 2016-06-14 | 2020-07-01 | Omry Netzer | AUTOMATIC VOICE RECOGNITION |
US10468015B2 (en) * | 2017-01-12 | 2019-11-05 | Vocollect, Inc. | Automated TTS self correction system |
US9741337B1 (en) * | 2017-04-03 | 2017-08-22 | Green Key Technologies Llc | Adaptive self-trained computer engines with associated databases and methods of use thereof |
CN107291867B (zh) * | 2017-06-13 | 2021-07-20 | 北京百度网讯科技有限公司 | 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质 |
CN107463601B (zh) * | 2017-06-13 | 2021-02-12 | 北京百度网讯科技有限公司 | 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质 |
CN107909995B (zh) * | 2017-11-16 | 2021-08-17 | 北京小米移动软件有限公司 | 语音交互方法和装置 |
CN107993653A (zh) * | 2017-11-30 | 2018-05-04 | 南京云游智能科技有限公司 | 语音识别设备的错误发音自动纠正更新方法和更新系统 |
CN108417205B (zh) * | 2018-01-19 | 2020-12-18 | 苏州思必驰信息科技有限公司 | 语义理解训练方法和系统 |
CN108733649B (zh) * | 2018-04-25 | 2022-05-06 | 北京华夏电通科技股份有限公司 | 一种语音识别文本插入笔录文档的方法、装置及系统 |
KR102114064B1 (ko) * | 2018-06-11 | 2020-05-22 | 엘지전자 주식회사 | 이동 단말기 |
CN108984529B (zh) * | 2018-07-16 | 2022-06-03 | 北京华宇信息技术有限公司 | 实时庭审语音识别自动纠错方法、存储介质及计算装置 |
KR20210064928A (ko) * | 2019-11-26 | 2021-06-03 | 삼성전자주식회사 | 전자장치와 그의 제어방법, 및 기록매체 |
CN113744718A (zh) * | 2020-05-27 | 2021-12-03 | 海尔优家智能科技(北京)有限公司 | 语音文本的输出方法及装置、存储介质、电子装置 |
KR20220013732A (ko) * | 2020-07-27 | 2022-02-04 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
WO2022085296A1 (ja) * | 2020-10-19 | 2022-04-28 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置 |
US20230267918A1 (en) * | 2022-02-24 | 2023-08-24 | Cisco Technology, Inc. | Automatic out of vocabulary word detection in speech recognition |
CN115083437B (zh) * | 2022-05-17 | 2023-04-07 | 北京语言大学 | 一种确定学习者发音的不确定性的方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003504674A (ja) * | 1999-07-08 | 2003-02-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | スピーチ認識装置とテキスト比較手段 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5029406A (en) * | 1990-05-15 | 1991-07-09 | Eldon Industries | Sign structures |
US5748840A (en) * | 1990-12-03 | 1998-05-05 | Audio Navigation Systems, Inc. | Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
US5855000A (en) * | 1995-09-08 | 1998-12-29 | Carnegie Mellon University | Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input |
US5852801A (en) * | 1995-10-04 | 1998-12-22 | Apple Computer, Inc. | Method and apparatus for automatically invoking a new word module for unrecognized user input |
US6064959A (en) | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
US5794189A (en) | 1995-11-13 | 1998-08-11 | Dragon Systems, Inc. | Continuous speech recognition |
US5963903A (en) * | 1996-06-28 | 1999-10-05 | Microsoft Corporation | Method and system for dynamically adjusted training for speech recognition |
US5857099A (en) * | 1996-09-27 | 1999-01-05 | Allvoice Computing Plc | Speech-to-text dictation system with audio message capability |
US5950160A (en) * | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
US5884258A (en) * | 1996-10-31 | 1999-03-16 | Microsoft Corporation | Method and system for editing phrases during continuous speech recognition |
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
US6490555B1 (en) * | 1997-03-14 | 2002-12-03 | Scansoft, Inc. | Discriminatively trained mixture models in continuous speech recognition |
US6092044A (en) * | 1997-03-28 | 2000-07-18 | Dragon Systems, Inc. | Pronunciation generation in speech recognition |
JP4267101B2 (ja) * | 1997-11-17 | 2009-05-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声識別装置、発音矯正装置およびこれらの方法 |
US6377921B1 (en) * | 1998-06-26 | 2002-04-23 | International Business Machines Corporation | Identifying mismatches between assumed and actual pronunciations of words |
US6195635B1 (en) * | 1998-08-13 | 2001-02-27 | Dragon Systems, Inc. | User-cued speech recognition |
US6138099A (en) | 1998-10-19 | 2000-10-24 | International Business Machines Corp. | Automatically updating language models |
US6253177B1 (en) * | 1999-03-08 | 2001-06-26 | International Business Machines Corp. | Method and system for automatically determining whether to update a language model based upon user amendments to dictated text |
US6577999B1 (en) * | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US6507816B2 (en) * | 1999-05-04 | 2003-01-14 | International Business Machines Corporation | Method and apparatus for evaluating the accuracy of a speech recognition system |
US6434521B1 (en) * | 1999-06-24 | 2002-08-13 | Speechworks International, Inc. | Automatically determining words for updating in a pronunciation dictionary in a speech recognition system |
US6370503B1 (en) * | 1999-06-30 | 2002-04-09 | International Business Machines Corp. | Method and apparatus for improving speech recognition accuracy |
ATE320650T1 (de) * | 1999-06-30 | 2006-04-15 | Ibm | Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems |
CN1207664C (zh) * | 1999-07-27 | 2005-06-22 | 国际商业机器公司 | 对语音识别结果中的错误进行校正的方法和语音识别系统 |
JP3718088B2 (ja) * | 1999-09-24 | 2005-11-16 | アルパイン株式会社 | 音声認識修正方式 |
US6418410B1 (en) * | 1999-09-27 | 2002-07-09 | International Business Machines Corporation | Smart correction of dictated speech |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6912498B2 (en) * | 2000-05-02 | 2005-06-28 | Scansoft, Inc. | Error correction in speech recognition by correcting text around selected area |
US6859774B2 (en) * | 2001-05-02 | 2005-02-22 | International Business Machines Corporation | Error corrective mechanisms for consensus decoding of speech |
US6941264B2 (en) * | 2001-08-16 | 2005-09-06 | Sony Electronics Inc. | Retraining and updating speech models for speech recognition |
DE50104036D1 (de) * | 2001-12-12 | 2004-11-11 | Siemens Ag | Spracherkennungssystem und Verfahren zum Betrieb eines solchen |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
US7219059B2 (en) * | 2002-07-03 | 2007-05-15 | Lucent Technologies Inc. | Automatic pronunciation scoring for language learning |
US7389228B2 (en) * | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
US7409345B2 (en) * | 2003-04-04 | 2008-08-05 | International Business Machines Corporation | Methods for reducing spurious insertions in speech recognition |
JP4390248B2 (ja) | 2003-06-17 | 2009-12-24 | キヤノン株式会社 | データ管理装置及びその制御方法並びにプログラム |
US7266795B2 (en) * | 2005-03-17 | 2007-09-04 | International Business Machines Corporation | System and method for engine-controlled case splitting within multiple-engine based verification framework |
-
2004
- 2004-01-20 US US10/761,451 patent/US8019602B2/en not_active Expired - Fee Related
-
2005
- 2005-01-12 EP EP05100140A patent/EP1557822B1/en not_active Not-in-force
- 2005-01-12 AT AT05100140T patent/ATE511177T1/de not_active IP Right Cessation
- 2005-01-18 JP JP2005010922A patent/JP4657736B2/ja not_active Expired - Fee Related
- 2005-01-20 CN CN2005100059379A patent/CN1645477B/zh not_active Expired - Fee Related
- 2005-01-20 KR KR1020050005345A patent/KR101183344B1/ko active IP Right Grant
-
2010
- 2010-09-17 US US12/884,434 patent/US8280733B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003504674A (ja) * | 1999-07-08 | 2003-02-04 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | スピーチ認識装置とテキスト比較手段 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015102127A1 (ko) * | 2013-12-31 | 2015-07-09 | 엘지전자 주식회사 | 음성 인식 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
EP1557822A1 (en) | 2005-07-27 |
EP1557822B1 (en) | 2011-05-25 |
JP2005208643A (ja) | 2005-08-04 |
ATE511177T1 (de) | 2011-06-15 |
JP4657736B2 (ja) | 2011-03-23 |
US8280733B2 (en) | 2012-10-02 |
CN1645477A (zh) | 2005-07-27 |
US8019602B2 (en) | 2011-09-13 |
US20110015927A1 (en) | 2011-01-20 |
US20050159949A1 (en) | 2005-07-21 |
KR20050076697A (ko) | 2005-07-26 |
CN1645477B (zh) | 2012-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
KR101120716B1 (ko) | 음성 특성에 기초한 전화 호출자들의 자동 식별 | |
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US20090240499A1 (en) | Large vocabulary quick learning speech recognition system | |
US7076422B2 (en) | Modelling and processing filled pauses and noises in speech recognition | |
US7016838B2 (en) | Method and system for frame alignment and unsupervised adaptation of acoustic models | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
US7617104B2 (en) | Method of speech recognition using hidden trajectory Hidden Markov Models | |
US6963834B2 (en) | Method of speech recognition using empirically determined word candidates | |
US20100324897A1 (en) | Audio recognition device and audio recognition method | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6183988B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
US20230252971A1 (en) | System and method for speech processing | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
US11043212B2 (en) | Speech signal processing and evaluation | |
Sarikaya et al. | Word level confidence measurement using semantic features | |
JPH08211891A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH07121192A (ja) | ヒドン・マルコフ・モデルの学習方法 | |
JPH07239695A (ja) | ヒドン・マルコフ・モデルの学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150819 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160818 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20170818 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20180816 Year of fee payment: 7 |