KR101183344B1 - 사용자 정정들을 이용한 자동 음성 인식 학습 - Google Patents

사용자 정정들을 이용한 자동 음성 인식 학습 Download PDF

Info

Publication number
KR101183344B1
KR101183344B1 KR1020050005345A KR20050005345A KR101183344B1 KR 101183344 B1 KR101183344 B1 KR 101183344B1 KR 1020050005345 A KR1020050005345 A KR 1020050005345A KR 20050005345 A KR20050005345 A KR 20050005345A KR 101183344 B1 KR101183344 B1 KR 101183344B1
Authority
KR
South Korea
Prior art keywords
user
pronunciation
speech recognition
word
lexicon
Prior art date
Application number
KR1020050005345A
Other languages
English (en)
Other versions
KR20050076697A (ko
Inventor
알레잔드로 아세로
동 유
메이-유 황
피터 마우
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050076697A publication Critical patent/KR20050076697A/ko
Application granted granted Critical
Publication of KR101183344B1 publication Critical patent/KR101183344B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/30Filter housing constructions
    • B01D35/306Filter mounting adapter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D35/00Filtering devices having features not specifically covered by groups B01D24/00 - B01D33/00, or for applications not specifically covered by groups B01D24/00 - B01D33/00; Auxiliary devices for filtration; Filter housing constructions
    • B01D35/14Safety devices specially adapted for filtration; Devices for indicating clogging
    • B01D35/153Anti-leakage or anti-return valves
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16KVALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
    • F16K15/00Check valves
    • F16K15/02Check valves with guided rigid valve members
    • F16K15/06Check valves with guided rigid valve members with guided stems
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F16ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
    • F16KVALVES; TAPS; COCKS; ACTUATING-FLOATS; DEVICES FOR VENTING OR AERATING
    • F16K27/00Construction of housing; Use of materials therefor
    • F16K27/02Construction of housing; Use of materials therefor of lift valves
    • F16K27/0209Check valves or pivoted valves
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/16Valves
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01DSEPARATION
    • B01D2201/00Details relating to filtering apparatus
    • B01D2201/29Filter cartridge constructions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경을 인식하고 그 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 인식 에러의 결과인지를 추론한다. 인식 에러가 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회를 감소시킨다. 따라서, 본 시스템 및 방법은 추가적인 사용자 상호작용이 거의 없거나 전혀 없이 중대한 음성 인식 학습을 제공한다.
자동 음성 인식 시스템, 인식 에러, 어휘집

Description

사용자 정정들을 이용한 자동 음성 인식 학습{AUTOMATIC SPEECH RECOGNITION LEARNING USING USER CORRECTIONS}
도 1은 본 발명이 실행될 수 있는 하나의 컴퓨팅 환경의 블록도.
도 2는 본 발명이 실행될 수 있는 다른 컴퓨팅 환경의 블록도.
도 3은 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 블록도.
도 4는 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 일부의 블록도.
*도면의 주요부분에 대한 부호의 설명*
200: 이동 장치
202: 마이크로프로세서
204: 메모리
206: 입출력 컴포넌트
208: 통신 인터페이스
212: 오퍼레이팅 시스템
본 발명은 컴퓨터 음성 인식에 관한 것으로, 특히 컴퓨터 음성 인식 시스템의 훈련에 관한 것이다.
컴퓨터 시스템에 의한 신속하고 정확한 인간 음성의 인식은 컴퓨터 시스템의 개발자가 오랫동안 추구해온 목표이다. 이러한 컴퓨터 음성 인식(CSR) 시스템의 이점은 상당하다. 예를 들어, 컴퓨터 시스템으로 문서를 타이핑하기보다는, 사람이 문서의 단어들을 단순히 말하고, CSR 시스템이 그 단어들을 인식하여 마치 그 단어들이 타이핑된 것처럼 각각의 단어의 문자를 저장할 것이다. 사람은 일반적으로 타이핑보다 빠르게 말할 수 있으므로, 효율이 개선될 수 있다. 또한 사람이 더이상 타이핑하는 방법을 학습할 필요가 없어질 수 있다. 컴퓨터는 또한 사람의 손이 타이핑 이외의 업무를 처리하고 있어서 그 컴퓨터의 사용이 현재 실행불가능한 많은 애플리케이션에 사용될 수 있다.
일반적인 CSR 시스템은 말한 발언(utterance)과 어휘의 각 단어의 모델을 비교함으로써 단어를 인식한다. 발언에 가장 잘 매칭하는 모델의 단어가 말한 단어로서 인식된다. CSR 시스템은 단어를 구성하는 음소(phoneme)의 시퀀스로서 각각의 단어를 모델링할 수 있다. 발언을 인식하기 위하여, CSR 시스템은 발언에 가장 잘 매칭되는 음소들의 단어 시퀀스를 식별한다. 그러나, 이 음소들은 단어를 구성하는 음소에 정확하게 대응하지 않을 수 있다. 따라서, CSR 시스템은 일반적으로 확률 분석을 사용하여 어떤 단어가 식별된 음소에 가장 근접하게 대응하는 지를 판 정한다.
발언을 인식할 때, CSR 시스템은 발언을 나타내는 아날로그 신호를 또다른 처리를 위한 더 유용한 형태로 변환한다. CSR 시스템은 먼저 아날로그 신호를 디지털 형태로 변환한다. CSR 시스템은 그후 고속 푸리에 변환(FFT), 선형 예측 코딩(LPC) 또는 필터 뱅크 등의 신호 처리 기술을 디지털 형태에 적용시켜 발언의 적절한 파라메트릭 표시를 추출한다. 통상 사용되는 표현은 발언의 주파수 및/또는 에너지 밴드를 다양한 간격("프레임"으로 지칭됨)으로 표시하는 FFT 또는 LPC 계수를 갖는 "특징 벡터"이다. 간격은 컴퓨터 시스템의 계산 용량과 원하는 인식 프로세스의 정확도에 기초하여 짧을 수도 있고 길 수도 있다. 일반적인 간격은 10 밀리초의 범위내에 있을 수 있다. 즉, CSR 시스템은 발언의 10 밀리초마다 특징을 발생시킬 수 있다. 각각의 프레임은 일반적으로 25 ms로 길다. 따라서, 25 ms 길이의 프레임은 10 ms마다 발생된다. 연속적인 프레임 사이에 중첩부가 있다.
특징 벡터의 처리를 용이하게 하기 위하여, 각각의 특징 벡터는 제한된 수(예를 들어, 256)의 "양자화 벡터" 중 하나로 양자화된다. 즉, CSR 시스템은 일반적인 또는 평균 범위의 특징 벡터를 표현하기 위해 선택된 다수의 양자화 벡터를 정의한다. 그후, CSR 시스템은 각각의 특징 벡터를 각각의 양자화 벡터와 비교하고 특징 벡터와 가장 유사한 양자화 벡터를 선택하여 특징 벡터를 나타낸다. 각각의 양자화 벡터는 "코드워드(codeword)라 지칭되는 다수(예를 들어, 1과 256 사이)에 의해 고유하게 식별된다. 특징 벡터가 양자화 벡터로서 표현될 때, 많은 상이한 특징 벡터가 동일한 양자화 벡터로 맵핑되기 때문에 정보 손실이 있다. 이 정 보 손실이 인식에 심각하게 영향을 주지 않도록, CSR 시스템은 수천 또는 수백만 양자화 벡터를 정의할 수 있다. 이러한 다수의 양자화 벡터의 정의를 저장하는데 필요한 저장장치의 양은 상당할 수 있다. 따라서, 필요한 저장장치의 양을 감소시키기 위하여, CSR 시스템은 특징 벡터를 세그먼트화하고 각각의 세그먼트를 작은 수(예를 들어, 256)의 양자화 벡터 중의 하나로 양자화한다. 따라서, 각각의 특징 벡터는 각각의 세그먼트에 대한 (코드워드에 의해 식별된) 양자화 벡터에 의해 표시된다. 설명의 간략화를 위하여, 특징 벡터를 세그먼트하지 않아서 특징 벡터(또는 프레임)당 하나의 코드워드만을 갖는 CSR 시스템이 기재된다.
상술한 바와 같이, 말한 발언은 종종 단어의 모델에 정확하게 대응하지 않는다. 정확한 대응을 찾기 어려운 것은, 단어 모델에 의해 완전하고 정확하게 캡쳐되지 않는 음성의 큰 변화에 기인한다. 이들 변화는 예를 들어 화자의 액세트, 사람이 말하는 속도 및 피치, 화자의 현재 건강(예를 들어, 감기), 화자의 나이와 성별로터 기인한다. 확률(probabilistic) 기술을 사용하는 CSR 시스템은 정확한 대응을 찾는 기술보다 정확하게 음성을 정확하게 인식하는데 더 성공적이었다.
음성 인식에 일반적으로 사용되는 이러한 확률 기술중의 하나는 히든 마르코프 모델링(hidden Markov modeling)이다. CSR 시스템은 어휘 내의 각 단어에 대하여 히든 마르코프 모델("HMM")을 사용할 수 있다. 단어에 대한 HMM은 임의의 코드워드 시퀀스가 그 단어에 대응하는 확률을 도출할 수 있는 확률 정보를 포함한다. 따라서, 발언을 인식하기 위하여, CSR 시스템은 발언을 코드워드의 시퀀스로 변환한 후 각각의 단어에 대한 HMM을 사용하여 단어가 발언에 대응하는 확률을 판정한 다. CSR 시스템은 가장 높은 확률을 갖는 단어로 발언을 인식한다.
HMM은 상태도로 표현된다. 상태도는 일반적으로 입력의 시퀀스를 수신한 후의 시스템의 상태를 판정하는데 사용된다. 상태도는 상태들을 포함하고 소스 상태 및 목적 상태 사이를 천이한다. 각각의 천이는 상태와 입력을 관련시켜서 시스템이 그 입력을 수신하고 시스템이 소스 상태에 있을 때, 시스템이 목적 상태로 천이할 것이라는 것을 나타낸다. 이러한 상태도는 예를 들어 어휘의 단어를 구성하는 코드워드 시퀀스의 각각을 인식하는 시스템에 의해 사용될 수 있다. 시스템이 각각의 코드워드를 처리함에 따라, 시스템은 현재의 상태 및 처리되는 코드워드에 기초하여 다음 상태를 판정한다. 이 예에서, 상태도는 각각의 단어에 대응하는 소정의 최종 상태를 가질 것이다. 그러나, 한 단어가 다수 발음으로 표현되면, 각각의 단어는 다수의 최종 상태를 가질 수 있다. 코드워드를 처리한 후, 시스템이 하나의 단어에 대응하는 최종 상태에 있으면, 그 코드워드의 시퀀스는 최종 상태의 단어로서 인식될 것이다.
그러나, HMM은 각각의 코드워드에 대하여 하나의 상태로부터 다른 상태로의 각각의 천이와 관련된 확률을 갖는다. 예를 들어, HMM이 상태 2에 있으면, 소정의 코드워드가 현재의 상태로부터 다음 상태로 천이를 일으키는 확률은 0.1일 수 있으며, 동일한 코드워드가 현재의 상태로부터 상이한 다음 상태로 천이를 일으키는 확률은 0.2일 수 있다. 마찬가지로, 다른 코드워드가 현재 상태로부터 다음 상태로 천이를 일으키는 확률은 0.01일 수 있다. HMM이 그 상태도와 관련된 확률을 가지므로, 주어진 일련의 코드워드에 대한 최종 상태의 결정은 오직 확률로 표현될 수 있다. 따라서, 일련의 코드워드에 대한 각각의 가능한 최종 상태의 확률을 결정하기 위하여, HMM의 상태도에 대한 각각의 가능한 일련의 상태는 식별되어야 하며 관련된 확률은 계산되어야 한다. 각각의 이러한 일련의 상태는 상태 경로로서 지칭된다.
일련의 코드워드가 음소를 표현하는 확률을 판정하기 위하여, CSR 시스템은 확률 격자(probability lattice)를 발생할 수 있다. 음소의 HMM에 대한 확률 격자는 일련의 코드워드에 대한 각각의 가능한 상태 경로에 대한 확률의 계산을 나타낸다. 확률 격자는 HMM이 코드워드마다 시퀀스내에 있을 수 있는 각각의 가능한 상태에 대한 노드를 포함한다. 각각의 노드는 지금까지 처리된 코드워드가 그 노드와 관련된 상태에 있는 HMM을 초래할 누적된 확률을 포함한다. 특정 코드워드에 대한 노드의 확률의 합은 지금까지 처리된 코드워드가 음소의 접두사를 나타낼 가능성을 나타낸다.
CSR 시스템의 정확도는 부분적으로 음소마다 HMM의 천이 확률 및 출력의 정확도에 의존한다. 일반적인 CSR 시스템은 출력 및 천이 확률이 평균 화자의 음성을 정확하게 반영하도록 CSR 시스템을 "훈련"한다. 훈련하는 동안, CSR 시스템은 많은 단어에 대하여 많은 화자로부터의 코드워드 시퀀스를 수집한다. 단어를 선택하여 각각의 음소를 다수회 말하도록 한다. 이들 코드워드 시퀀스로부터, CSR 시스템은 각각의 HMM에 대한 출력 및 천이 확률을 계산한다. 이들 확률을 계산하는 많은 반복적인 접근법은 공지되어 있다.
그러나, 이러한 훈련 기술의 문제점은 이러한 평균 HMM이 평균과 다른 음성 패턴을 갖는 사람의 음성을 정확히 모델링할 수 없다는 것이다. 일반적으로, 모든 사람은 평균과 다른 소정의 음성 패턴을 가질 것이다. 결과적으로, CSR 시스템은 화자의 음성 패턴에 적응하도록 화자가 HMM을 훈련시키도록 한다. 이 훈련에서, CSR 시스템은 시스템의 실제 사용자가 말한 훈련 발언을 사용하여 코드워드에 의해 표현되는 양자화 벡터 및 출력 및 천이 확률 등의 HMM 파라미터를 개량한다. 적응된 파라미터는 사용자 공급 데이터 뿐만 아니라 많은 양의 화자 독립 데이터로부터 발생된 정보와 파라미터를 사용하여 도출된다. 따라서, 확률은 화자 독립 특성을 반영한다.
CSR 시스템은 일반적으로 화자에게 미리 선택된 많은 단어를 제시함으로써 훈련된다. 이들 단어는 각각의 음소에 대응하는 음성의 대표 샘플이 수집될 수 있도록 선택된다. 이 대표 샘플로, CSR 시스템은 그 음소에 대한 화자의 발음을 정확하게 반영하지 않는 임의의 HMM가 적절히 적응될 수 있도록 한다. CSR 시스템은 확률로 작용하므로, 더 많은 훈련이 제공될수록, 후속의 음성 인식이 더 정확하게 된다. 그러나, 점점 더 많은 훈련이 수행됨에 따라, 주어진 양의 추가 훈련에 대하여 인식 정확도가 증가하는 정도는 감소하기 시작한다. 또한, 사용자에게 훈련시간에 상당한 투자를 요구하는 것은 사용자의 경험을 감소시킬 수 있다.
따라서, 시스템을 훈련하도록 사용자가 요청받은 정도와 사용자가 시스템을 효율적으로 사용할 수 있는 정도 사이에 균형을 이루어야 한다. 인간 언어의 복잡성때문에, 광대한 훈련후에도 시스템은 종종 에러를 발생할 수 있다. 말한 발언이 대응하는 단어의 모델과 매칭하지 않도록 하는 다른 이유는 언어가 새로운 것일 때 이다. 가능한 솔루션은 어휘 크기를 증가시키는 것을 포함하며, 이는 인식 정확도를 낮출 수 있다. 또다른 솔루션은 사용자가 새로운 단어를 추가하는 사용자 훈련을 통해서 이루어진다. 현재의 시스템은, 그 어휘집이 시스템 어휘집이건, 판매자 또는 애플리케이션 어휘집이건, 사용자가 추가/삭제 단어 다이알로그 박스처럼 단어를 추가하거나 삭제하도록 하는 사용자 인터페이스를 사용하는 사용자 특정 어휘집이건간에, 사용자가 그의 발음으로 새로운 단어를 적절한 어휘집에 수동으로 추가하도록 한다. 그러나, 이것은 사용자가 상당한 수의 단어를 추가해야 할 필요가 있는 경우에 번거로울 수 있다. 또한 사용자에 의해 오서링된(authored) 문서 및 이메일을 사용하는 언어 모델(LM)을 적응시키는 것이 공지되어 있다. 이 접근법은 발음이 어휘집에 추가되지 않고 언어 모델 적응성의 품질이 소스 문서의 필터링에 크게 의존한다는 점에서 한계가 있다.
따라서, 상당한 사용자 개입을 요구하지 않고 사용자로부터의 발음 및 새로운 단어를 용이하게 학습할 수 있는 시스템에 대한 요구가 존재한다. 이 목적을 달성하기 위하여 과도한 훈련 노력을 요구함으로써 사용자 경험을 저감시키지 않고 향상된 자동 음성 인식 시스템을 허용한다.
자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경를 인식하고 이 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 이 변경이 인식 에러를 정정한 결과인지를 추론한다. 인식 에러로부터의 정정이 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회 를 감소시킨다. 따라서, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공한다.
도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 일예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일예일 뿐이며 본 발명의 기능 또는 사용의 범위에 대하여 임의의 제한을 제공하기 위한 것이 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 나타낸 컴포넌트들 중의 임의의 하나 또는 조합에 관한 임의의 의존성 및 요구사항을 갖는 것으로 해석되지 않는다.
본 발명은 다른 많은 범용 또는 특수 목적 컴퓨팅 환경 또는 구성에서 동작한다. 본 발명에 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋탑박스, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템 또는 장치 중의 임의의 것을 포함하는 분산 컴퓨팅 환경을 포함하지만 이에 한정되지 않는다.
본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈 등의 컴퓨터 실행가능 명령의 일반적인 컨텍스트에서 기재될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 태스크가 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실행 될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 배치될 수 있다.
도 1을 참조하면, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트는 중앙 프로세싱 유닛(120), 시스템 메모리(130) 및 시스템 메모리를 포함하는 많은 시스템 컴포넌트를 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 포함할 수 있지만, 이에 한정되는 것은 아니다.
시스템 버스(121)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 및 로컬 버스를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 제한되는 것은 아니지만, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스 및 메자닌 버스(Mezzanine bus)로서 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함한다.
컴퓨터(110)는 일반적으로 많은 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는, 컴퓨터(110)에 의해 액세스될 수 있고 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함하는 이용가능한 임의의 매체일 수 있다. 예로서, 제한되는 것은 아니지만, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보를 저장하기 위한 임의의 방법 또는 기술로 구 현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기 타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광 디스크(156)로부터 판독하거나 그 광 디스크에 기록하는 광 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.
사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 패럴렐 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(181)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.
도 2는 예시적인 컴퓨팅 환경인 이동 장치(200)의 블록도이다. 이동 장치(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 컴포넌트(206) 및 원격 컴퓨터 또는 기타 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술한 컴포넌트들은 적합한 버스(210)를 통해 서로 통신하도록 결합된다.
메모리(204)는 메모리(204)에 저장된 정보가 이동 장치(200)로의 일반적인 전력이 끊겼을 때 손실되지 않도록 배터리 백업 모듈(도시하지 않음)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부는 바람직하게 프로그램 실행을 위한 어스레스가능 메모리로서 할당되지만, 메모리(204)의 다른 부분은 바람직하게 디스크 드라이브 상의 저장장치를 시뮬레이팅하기 위한 저장장치에 사용된다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 및 오브젝트 스토어(216)를 포함한다. 동작하는 동안, 오퍼레이팅 시스템(212)은 바람직하게 메모리(204)로부터 프로세서(202)에 의해 바람직하게 실행된다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트 코포레이션으로부터 상용가능한 WINDOWS
Figure 112005003280114-pat00001
CE 브랜드 오퍼레이텅 시스템이다. 오퍼레이팅 시스템(212)은 이동 장치를 위해 바람직하게 설계되며 노출 애플리케이션 프로그래밍 인터페이스 및 메소드의 세트를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징을 구현한다. 오브젝트 스토어(216) 내의 오브젝트는 적어도 부분적으로 노출 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.
통신 인터페이스(208)는 이동 장치(200)가 정보를 송수신하도록 하는 많은 장치 및 기술을 나타낸다. 이 장치는 예를 들면 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 이동 장치(200)는 또한 컴퓨터에 직접 접속되어 컴퓨터와 데이터를 교환한다. 이 경우, 통신 인터페이스(208)는 직렬 또는 병렬 통신 접 속부 또는 적외선 트랜시버일 수 있으며, 이들 모두는 스트리밍 정보를 송신할 수 있다.
입출력 컴포넌트(206)는 터치식 스크린, 버튼, 롤러 및 마이크로폰 등의 많은 입력 장치 뿐만 아니라 오디오 발생기, 진동 장치 및 디스플레이를 포함하는 많은 출력 장치를 포함한다. 상기에서 열거한 장치는 예이며 이동 장치(200) 상에 모두 존재할 필요는 없다. 또한, 다른 입출력 장치는 본 발명의 범위 내에서 이동 장치에 부착되거나 존재한다.
본 발명의 형태는 일반적으로 새로운 단어, 발음 및 단어쌍을 자동적으로 학습하기 위한 자연적인 사용자 상호작용에 영향을 준다. 일반적으로 이것은 사용자가 생각을 바꾸어 사용자가 텍스트를 변경하였는지 또는 사용자의 음성을 인식하는 시스템의 무능에 의해 사용자가 정정을 하였는지를 추론함으로써 달성된다.
도 3은 본 발명의 일 실시예에 따른 시스템으로 사용자 상호작용으로부터 자동적으로 학습하는 방법의 흐름도이다. 본 방법은 구술된 텍스트의 사용자 변경을 시스템에 의해 인식하는 블록(300)에서 시작된다. 이 변경은 일반적으로 사용자가 다른 리스트로부터 새로운 단어를 선택하거나, 사용자가 단어 또는 구(phrase)를 재구술하거나, 사용자가 몇개의 단어를 삭제하거나, 사용자가 기존의 단어를 변경하거나, 사용자가 새로운 몇개의 단어를 타이핑하는 형태로 이루어질 것이다. 일단 변경이 인식되면, 제어는, 사용자가 실제 정정을 할 것인지 또는 단순히 사용자의 생각이 변경된 것인지를 시스템이 추론하는 블록(302)으로 진행한다. 다수의 힌트 또는 표시가 추론을 알리는데 사용될 수 있다. 예를 들어, 사용자가 다른 리 스트로부터 선택할 때는 사용자가 정정을 하는 것이다. 다른 예로는, 본래의 구술과 정정된 단어간의 음향 특성이 유사할 때는 사용자가 정정을 하는 것이다. 한편, 텍스트가 구술된 후 비교적 긴 시간이 지나 사용자가 변경을 하면, 사용자의 생각이 바뀌어서 편집(editing)하는 것일 가능성이 있다. 또한, 사용자가 구술된 문장에서 다수의 단어를 변경하면, 사용자의 생각이 바뀌어서 편집하는 것일 가능성이 있다. 선택적으로, 시스템은 사용자의 의도에 관한 확인을 위하여 사용자에게 간단히 물어볼 수 있다.
정정이 발생하는 세그먼트(들)을 식별하기 위하여, 동적 시간 와핑(Dynamic Time Warping; DTW)이 예시적으로 사용된다. 그후, 구술된 텍스트와 정정된 텍스트의 음성 인식 엔진 스코어가 비교될 수 있다. 이것은 시스템으로 하여금 사용자의 생각이 바뀌어 새로운 단어를 편집하는지 또는 유사한 사운드의 단어로 정정하는지를 판정하도록 한다. 원하면, 추가의 신뢰 스코어 또는 메트릭(metrics)이 정정 대 편집간의 추론을 개선하는데 사용될 수 있다. 그 결과로서 시스템이 사용자가 단순히 자신의 생각을 바꾼 것으로 결정한 경우에는, 제어는 라인(303)을 통해 블록(300)으로 되돌아간다.
블록(304)에서, 시스템은 어휘집을 참조하여 정정된 단어가 어휘집내에 있는지를 판정한다. 정정된 단어가 사용자 어휘집에 없으면, 제어는 블록(306)으로 진행하고, 블록(306)에서는, 단어가 어휘집에 추가되고 새로운 발음을 선택적으로 추가하며 따라서 언어 모델이 적응된다. 새로운 발음을 추가할지를 판정하는 프로세스는 또한 도 4를 참조하여 상세히 설명될 것이다. 블록(306)후에, 제어는 블록 (300)으로 되돌아간다.
그러나, 정정된 단어가 사용자 어휘집에 있으면, 제어는 블록(308)로 진행하고, 블록(308)에서, 시스템은 발음이 새로운 것인지를 판정한다. 새로운 발음이 새로운 단어의 발음 또는 기존 단어의 사용자 특정 발음에 의해 발생될 수 있다. 발음이 새로운 것인지를 판정하는 프로세스는 도 4를 참조하여 상세히 설명될 것이다. 발음이 새로운 발음이면, 제어는 블록(310)으로 진행하고, 블록(310)에서, 새로운 발음이 선택적으로 학습될 수 있다. 블록(310)후에, 제어는 블록(300)으로 되돌아간다.
발음이 새로운 것이 아니면, 제어는 블록(308)으로부터 블록(312)으로 진행한다. 이것은 정정된 단어가 사용자 어휘집에 있는 상황이며, 정정된 단어의 발음은 또한 공지된 것이다. 이 경우, 단어쌍 및/또는 구가 어휘집에 추가되거나 정정된 텍스트와 관련된 언어 모델 스코어가 갱신되어 단어가 연결되는 기회를 상승시킨다. 대부분의 경우, 이것은 예를 들어 하루 이틀동안 지속되는 일시적인 변경이다. 따라서, "wave two"가 "wave too"로 잘못 인식되어 사용자에 의해 정정되면, 시스템은 "wave two"를 사용자 어휘집에 자동적이고 일시적으로 추가한다. "일시적으로"는 그 단어쌍이 관찰되는 가장 최근 시간 및 그 쌍이 과거에 관찰된 상대적인 빈도에 기초하여 다소 동적이다. 단어쌍 및/또는 구를 추가하는 것외에, 시스템이 그 발음을 지원하면, 새롭게 관찰된 공지된 발음의 확률은 증가될 수 있다. 도 3에 도시된 모든 단계는 최상의 결과를 위해 단일 시스템에서 구현될 수 있지만, 본 발명의 실시예는 단일 시스템에 이러한 단계들이 반드시 공존하지 않고도 실행될 수 있다. 블록(312)후에, 제어는 블록(300)으로 진행한다.
도 4는 도 3을 참조하여 설명한 방법의 일부분의 도면이다. 도 4는 블록(308 및 310)을 더 상세히 설명한다. 블록(308)내에서, 블록(400)은 먼저 컨텍스트 워드에 기반한 파동(디지털화된 사운드)을 강제적으로 정렬하도록 동작한다. 컨텍스트 단어는 일반적으로 정정된 단어 전후의 단일 단어이다. 예를 들어, 구술된 문장이 "This is a text .\period"이고 사용자가 "text"를 "test"로 정정하면, 구(phrase) "a test .\period" 및 대응하는 파동은 정렬하는데 사용되어 단어마다 정정 한도를 결정한다. 강제 정렬이 완료되고 한도가 결정되면, 제어는 블록(402)으로 진행하고, 블록(402)에서, 정정된 단어의 발음이 격자를 사용하여 바람직하게 식별된다. 격자는 LTS(Letter to Speech) 컴포넌트에 의해 발생된 가능한 발음으로 만들어진다. 이것은 텍스트 입력에 기초하여 음소의 시퀀스를 발생시킬 수 있는 임의의 적절한 컴포넌트일 수 있다. 격자는 또한 기본 음소 인식기로부터 또는 인식 결과의 음소 시퀀스를 사용하여 구성된다. 그렇게 구성된 음소 격자는 시스템으로 하여금 정확한 발음으로서 격자 내의 최상의 음소 경로를 선택하도록 한다. 최상의 음소가 선택되면, 제어는 블록(404)으로 진행하고, 블록(404)에서, 새롭게 식별된 발음과 기존의 발음간의 간격이 산출된다.
블록(404)에서, 폰 컨퓨전 매트릭스(phone confusion matrix) 및 동적 시간 와핑은 새롭게 식별된 발음과 기존의 발음 사이의 간격을 산출하는데 사용된다. 또한, 다른 간격 산출 방법이 사용될 수 있다. 예를 들어, 간격은 새로운 발음 및 기존의 발음에 대한 음향 모델 스코어에 기초하여 산출될 수 있다. 간격은 바람직 하게 미리 선택된 또는 동적 임계치에 비교되어 발음이 학습되어야 하는지를 판정한다. 따라서, 간격은 임의의 임계치를 초과하는 발음만 학습될 것이다.
블록(406)에서, 시스템은 새로운 발음이 추가되어야 하는지를 판정한다. 이 판정은 바람직하게 블록(404)로부터의 산출된 간격, 가장 근접한 기존의 발음, 음향 모델(AM) 신뢰도, 및 새로운 발음이 사용자의 구술에 나타나는 빈도에 기초한다. 이들 인자에 기초하여 발음을 선택적으로 추가할지를 판정하는 것은 오정렬에 의한 에러 및/또는 사용자가 정정할 것인지에 대한 부정확한 추론이 시스템 효율을 감소시키는 학습을 일으키지 않도록 할 것이다. 발음 신뢰도 산출의 예는 다음을 포함한다.
C(pron) = 1-(1-p(d, AM)f; 및
C(pron) = 1/[d/f/log(len1+len2)]
여기서, d는 인식된 발음과 어휘집 내의 최상 매칭간의 간격이고, f는 인식된 동일한 발음이 발음되는 빈도이고, p(d, AM)은 이러한 간격(d)과 AM 스코어를 갖는 발음이 정확한 발음일 확률이다. Len1과 Len2는 각각 새로운 발음과 가장 근접한 발음의 음소의 길이이다. P(d, AM)은 훈련으로 학습된다.
블록(408)에서, 시스템은 새로운 발음을 선택적으로 추가한다. 바람직하게, 블록(406)에서 산출된 신뢰도 스코어가 충분히 높고 새로운 발음이 사용자의 구술에서 선택된 수(N)만큼 발생하였으면, 발음이 추가된다.
산출된 신뢰도 스코어에 임계치를 적용함으로써, 본 발명의 실시예에 따른 시스템은 사용자가 생각을 단순히 바꿈으로써 사용자 편집으로부터 학습함으로써 시스템이 부적절하게 영향을 받지 않도록 하기 위하여 최소량만을 학습할 것이다.
본 발명은 특정 실시예를 참조하여 설명하였지만, 본 기술에 숙련된 자는 본 발명의 사상 및 범위를 벗어나지 않고 그 형태 및 상세에 변경이 이루어질 수 있다는 것을 인식할 것이다. 예를 들어, 상술한 설명의 대부분은 시스템에 정보를 추가하여 정확도를 개선하는 것에 초점을 맞추었지만, 본 발명의 실시예는 또한 시스템으로부터 단어를 삭제하는 것도 포함한다.
상술한 바와 같이, 본 발명에 따르면, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공하는 효과가 있다.

Claims (22)

  1. 컴퓨터 구현 음성 인식 시스템으로서,
    사용자 음성을 수신하기 위한 마이크로폰; 및
    상기 마이크로폰에 결합되어, 상기 사용자 음성을 인식하고 사용자 인터페이스 상에 텍스트 출력을 제공하도록 적응되는 음성 인식 엔진
    을 포함하고,
    상기 시스템은 사용자가 상기 텍스트 출력을 변경하는 것을 자동으로 인식하고, 상기 변경이 정정(correction)인지 또는 편집(editing)인지를 추론하고 - 상기 추론은 구술과 상기 변경 사이의 시간량의 측정, 및 변경된 단어들의 수의 검출을 포함함 -, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초하여, 상기 변경이 인식 에러에 의한 것으로 추론되는 경우에만, 상기 음성 인식 엔진을 상기 변경으로부터 학습하도록 선택적으로 적응시키도록 적응되는 컴퓨터 구현 음성 인식 시스템.
  2. 삭제
  3. 제1항에 있어서, 상기 음성 인식 엔진은 사용자 어휘집(lexicon)을 포함하고, 상기 정정이 상기 사용자 어휘집에 없는 단어인 경우 상기 사용자 어휘집은 갱신되는 컴퓨터 구현 음성 인식 시스템.
  4. 제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 새로운 발음을 선택적으로 학습하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
  5. 제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 기존의 발음과 관련된 확률을 선택적으로 변경하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
  6. 제1항에 있어서, 상기 정정이 새로운 단어 또는 새로운 발음에 의한 것이 아닌 경우, 상기 시스템은 적어도 하나의 단어쌍을 상기 음성 인식 엔진에 포함된 사용자 어휘집에 추가하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
  7. 자동 음성 인식 시스템에 의해 학습하는 방법으로서,
    구술된 텍스트에 대한 변경을 검출하는 단계;
    상기 변경이 정정인지 또는 편집인지를 추론하는 단계 - 상기 추론하는 단계는 구술과 상기 변경 사이의 시간량을 측정하는 단계, 및 변경된 단어들의 수를 검출하는 단계를 포함하고, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초함 -; 및
    상기 변경이 정정인 것으로 추론된 경우, 추가의 사용자 상호작용없이 상기 정정의 특징(nature)으로부터 선택적으로 학습하는 단계
    를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  8. 제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 사용자가 상기 변경을 수행하기 위하여 다른 리스트로부터 선택했는지를 검출하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  9. 삭제
  10. 제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 구술된 텍스트와 변경된 텍스트의 음성 인식 엔진 스코어를 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  11. 삭제
  12. 제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 정정된 단어가 사용자의 어휘집에 존재하는지를 판정하는 단계, 및 상기 정정된 단어가 상기 사용자의 어휘집에 존재하지 않으면 상기 정정된 단어를 상기 어휘집에 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  13. 제12항에 있어서, 상기 정정된 단어가 상기 사용자의 어휘집에 존재하면, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 상기 사용자의 발음이 상기 시스템에 의해 공지된 기존의 발음들로부터 벗어났는지를 판정하는 단계와, 상기 발음을 선택적으로 학습하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  14. 제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 적어도 하나의 컨텍스트 단어가 존재하면 상기 적어도 하나의 컨텍스트 단어에 기반한 파동(wave)의 강제 정렬(forced alignment)을 수행하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  15. 제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 상기 정정된 단어의 발음을 파동 내에서 식별하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  16. 제15항에 있어서, 인식 결과와 상기 정정된 단어의 가능한 발음들에 기초하여 격자를 형성하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  17. 제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음간의 간격에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  18. 제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음의 음향 모델 스코어(Acoustic Model score)에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  19. 제17항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 신뢰도 스코어를 임계치와 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  20. 제19항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 새롭게 식별된 발음이 미리 선택된 횟수만큼 발생했는지를 판정하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  21. 제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 사용자의 어휘집에 적어도 하나의 단어쌍을 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
  22. 제21항에 있어서, 적어도 하나의 단어쌍이 상기 사용자의 어휘집에 일시적으로 추가되는 자동 음성 인식 시스템에 의한 학습 방법.
KR1020050005345A 2004-01-20 2005-01-20 사용자 정정들을 이용한 자동 음성 인식 학습 KR101183344B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/761,451 2004-01-20
US10/761,451 US8019602B2 (en) 2004-01-20 2004-01-20 Automatic speech recognition learning using user corrections

Publications (2)

Publication Number Publication Date
KR20050076697A KR20050076697A (ko) 2005-07-26
KR101183344B1 true KR101183344B1 (ko) 2012-09-14

Family

ID=34634575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050005345A KR101183344B1 (ko) 2004-01-20 2005-01-20 사용자 정정들을 이용한 자동 음성 인식 학습

Country Status (6)

Country Link
US (2) US8019602B2 (ko)
EP (1) EP1557822B1 (ko)
JP (1) JP4657736B2 (ko)
KR (1) KR101183344B1 (ko)
CN (1) CN1645477B (ko)
AT (1) ATE511177T1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102127A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 음성 인식 시스템 및 방법

Families Citing this family (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1745424A1 (en) * 2004-03-02 2007-01-24 Cloudmark, Inc. Method and apparatus to use a genetic algorithm to generate an improved statistical model
WO2005086438A1 (en) * 2004-03-02 2005-09-15 Cloudmark, Inc. A method and apparatus to use a statistical model to classify electronic communications
KR100717385B1 (ko) 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
JPWO2007105409A1 (ja) * 2006-02-27 2009-07-30 日本電気株式会社 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
CA2644666A1 (en) * 2006-04-17 2007-10-25 Vovision Llc Methods and systems for correcting transcribed audio files
US7774202B2 (en) 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8719027B2 (en) * 2007-02-28 2014-05-06 Microsoft Corporation Name synthesis
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US8457946B2 (en) * 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
WO2009136440A1 (ja) * 2008-05-09 2009-11-12 富士通株式会社 音声認識辞書作成支援装置,処理プログラム,および処理方法
JP5054711B2 (ja) * 2009-01-29 2012-10-24 日本放送協会 音声認識装置および音声認識プログラム
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
CN101950376B (zh) * 2009-07-09 2014-10-29 索尼公司 隐马尔可夫模型学习设备和方法
US9218807B2 (en) * 2010-01-08 2015-12-22 Nuance Communications, Inc. Calibration of a speech recognition engine using validated text
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8738375B2 (en) 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US8954329B2 (en) * 2011-05-23 2015-02-10 Nuance Communications, Inc. Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
CN103000052A (zh) * 2011-09-16 2013-03-27 上海先先信息科技有限公司 人机互动的口语对话系统及其实现方法
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US9640175B2 (en) 2011-10-07 2017-05-02 Microsoft Technology Licensing, Llc Pronunciation learning from user correction
CN103165129B (zh) * 2011-12-13 2015-07-01 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
US9082403B2 (en) * 2011-12-15 2015-07-14 Microsoft Technology Licensing, Llc Spoken utterance classification training for a speech recognition system
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
KR101971513B1 (ko) * 2012-07-05 2019-04-23 삼성전자주식회사 전자 장치 및 이의 음성 인식 오류 수정 방법
US9093072B2 (en) 2012-07-20 2015-07-28 Microsoft Technology Licensing, Llc Speech and gesture recognition enhancement
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
CN104871240A (zh) * 2012-12-28 2015-08-26 索尼公司 信息处理设备、信息处理方法、以及程序
CN103903618B (zh) * 2012-12-28 2017-08-29 联想(北京)有限公司 一种语音输入方法及电子设备
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US20140317467A1 (en) * 2013-04-22 2014-10-23 Storart Technology Co., Ltd. Method of detecting and correcting errors with bch engines for flash storage system
US10394442B2 (en) * 2013-11-13 2019-08-27 International Business Machines Corporation Adjustment of user interface elements based on user accuracy and content consumption
CN103941868B (zh) * 2014-04-14 2017-08-18 美的集团股份有限公司 语音控制准确率调整方法和系统
US20160063990A1 (en) * 2014-08-26 2016-03-03 Honeywell International Inc. Methods and apparatus for interpreting clipped speech using speech recognition
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
WO2016054230A1 (en) 2014-10-01 2016-04-07 XBrain, Inc. Voice and connection platform
US10048934B2 (en) 2015-02-16 2018-08-14 International Business Machines Corporation Learning intended user actions
US10410629B2 (en) * 2015-08-19 2019-09-10 Hand Held Products, Inc. Auto-complete methods for spoken complete value entries
CN106683677B (zh) 2015-11-06 2021-11-12 阿里巴巴集团控股有限公司 语音识别方法及装置
US10769189B2 (en) 2015-11-13 2020-09-08 Microsoft Technology Licensing, Llc Computer speech recognition and semantic understanding from activity patterns
US11429883B2 (en) 2015-11-13 2022-08-30 Microsoft Technology Licensing, Llc Enhanced computer experience from activity prediction
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
EP3469519A4 (en) 2016-06-14 2020-07-01 Omry Netzer AUTOMATIC VOICE RECOGNITION
US10468015B2 (en) * 2017-01-12 2019-11-05 Vocollect, Inc. Automated TTS self correction system
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
CN107291867B (zh) * 2017-06-13 2021-07-20 北京百度网讯科技有限公司 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN107463601B (zh) * 2017-06-13 2021-02-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
CN107993653A (zh) * 2017-11-30 2018-05-04 南京云游智能科技有限公司 语音识别设备的错误发音自动纠正更新方法和更新系统
CN108417205B (zh) * 2018-01-19 2020-12-18 苏州思必驰信息科技有限公司 语义理解训练方法和系统
CN108733649B (zh) * 2018-04-25 2022-05-06 北京华夏电通科技股份有限公司 一种语音识别文本插入笔录文档的方法、装置及系统
KR102114064B1 (ko) * 2018-06-11 2020-05-22 엘지전자 주식회사 이동 단말기
CN108984529B (zh) * 2018-07-16 2022-06-03 北京华宇信息技术有限公司 实时庭审语音识别自动纠错方法、存储介质及计算装置
KR20210064928A (ko) * 2019-11-26 2021-06-03 삼성전자주식회사 전자장치와 그의 제어방법, 및 기록매체
CN113744718A (zh) * 2020-05-27 2021-12-03 海尔优家智能科技(北京)有限公司 语音文本的输出方法及装置、存储介质、电子装置
KR20220013732A (ko) * 2020-07-27 2022-02-04 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2022085296A1 (ja) * 2020-10-19 2022-04-28 ソニーグループ株式会社 情報処理装置及び情報処理方法、コンピュータプログラム、フォーマット変換装置、オーディオコンテンツ自動転記システム、学習済みモデル、並びに表示装置
US20230267918A1 (en) * 2022-02-24 2023-08-24 Cisco Technology, Inc. Automatic out of vocabulary word detection in speech recognition
CN115083437B (zh) * 2022-05-17 2023-04-07 北京语言大学 一种确定学习者发音的不确定性的方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504674A (ja) * 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識装置とテキスト比較手段

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029406A (en) * 1990-05-15 1991-07-09 Eldon Industries Sign structures
US5748840A (en) * 1990-12-03 1998-05-05 Audio Navigation Systems, Inc. Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6064959A (en) 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5794189A (en) 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6490555B1 (en) * 1997-03-14 2002-12-03 Scansoft, Inc. Discriminatively trained mixture models in continuous speech recognition
US6092044A (en) * 1997-03-28 2000-07-18 Dragon Systems, Inc. Pronunciation generation in speech recognition
JP4267101B2 (ja) * 1997-11-17 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声識別装置、発音矯正装置およびこれらの方法
US6377921B1 (en) * 1998-06-26 2002-04-23 International Business Machines Corporation Identifying mismatches between assumed and actual pronunciations of words
US6195635B1 (en) * 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US6138099A (en) 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US6253177B1 (en) * 1999-03-08 2001-06-26 International Business Machines Corp. Method and system for automatically determining whether to update a language model based upon user amendments to dictated text
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US6507816B2 (en) * 1999-05-04 2003-01-14 International Business Machines Corporation Method and apparatus for evaluating the accuracy of a speech recognition system
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
JP3718088B2 (ja) * 1999-09-24 2005-11-16 アルパイン株式会社 音声認識修正方式
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US6859774B2 (en) * 2001-05-02 2005-02-22 International Business Machines Corporation Error corrective mechanisms for consensus decoding of speech
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
DE50104036D1 (de) * 2001-12-12 2004-11-11 Siemens Ag Spracherkennungssystem und Verfahren zum Betrieb eines solchen
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US7219059B2 (en) * 2002-07-03 2007-05-15 Lucent Technologies Inc. Automatic pronunciation scoring for language learning
US7389228B2 (en) * 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
US7409345B2 (en) * 2003-04-04 2008-08-05 International Business Machines Corporation Methods for reducing spurious insertions in speech recognition
JP4390248B2 (ja) 2003-06-17 2009-12-24 キヤノン株式会社 データ管理装置及びその制御方法並びにプログラム
US7266795B2 (en) * 2005-03-17 2007-09-04 International Business Machines Corporation System and method for engine-controlled case splitting within multiple-engine based verification framework

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003504674A (ja) * 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ スピーチ認識装置とテキスト比較手段

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015102127A1 (ko) * 2013-12-31 2015-07-09 엘지전자 주식회사 음성 인식 시스템 및 방법

Also Published As

Publication number Publication date
EP1557822A1 (en) 2005-07-27
EP1557822B1 (en) 2011-05-25
JP2005208643A (ja) 2005-08-04
ATE511177T1 (de) 2011-06-15
JP4657736B2 (ja) 2011-03-23
US8280733B2 (en) 2012-10-02
CN1645477A (zh) 2005-07-27
US8019602B2 (en) 2011-09-13
US20110015927A1 (en) 2011-01-20
US20050159949A1 (en) 2005-07-21
KR20050076697A (ko) 2005-07-26
CN1645477B (zh) 2012-01-11

Similar Documents

Publication Publication Date Title
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
RU2393549C2 (ru) Способ и устройство для распознавания речи
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
US7076422B2 (en) Modelling and processing filled pauses and noises in speech recognition
US7016838B2 (en) Method and system for frame alignment and unsupervised adaptation of acoustic models
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
US20100324897A1 (en) Audio recognition device and audio recognition method
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6183988B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
US20230252971A1 (en) System and method for speech processing
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
US11043212B2 (en) Speech signal processing and evaluation
Sarikaya et al. Word level confidence measurement using semantic features
JPH08211891A (ja) ヒドン・マルコフ・モデルの学習方法
JPH07121192A (ja) ヒドン・マルコフ・モデルの学習方法
JPH07239695A (ja) ヒドン・マルコフ・モデルの学習方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150819

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160818

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170818

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180816

Year of fee payment: 7