KR101183344B1

KR101183344B1 - 사용자 정정들을 이용한 자동 음성 인식 학습

Info

Publication number: KR101183344B1
Application number: KR1020050005345A
Authority: KR
Inventors: 알레잔드로 아세로; 동 유; 메이-유 황; 피터 마우
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-01-20
Filing date: 2005-01-20
Publication date: 2012-09-14
Also published as: CN1645477A; US8280733B2; US8019602B2; EP1557822A1; US20110015927A1; CN1645477B; ATE511177T1; US20050159949A1; JP2005208643A; KR20050076697A; JP4657736B2; EP1557822B1

Abstract

자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경을 인식하고 그 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 인식 에러의 결과인지를 추론한다. 인식 에러가 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회를 감소시킨다. 따라서, 본 시스템 및 방법은 추가적인 사용자 상호작용이 거의 없거나 전혀 없이 중대한 음성 인식 학습을 제공한다.

자동 음성 인식 시스템, 인식 에러, 어휘집

Description

사용자 정정들을 이용한 자동 음성 인식 학습{AUTOMATIC SPEECH RECOGNITION LEARNING USING USER CORRECTIONS}

도 1은 본 발명이 실행될 수 있는 하나의 컴퓨팅 환경의 블록도.

도 2는 본 발명이 실행될 수 있는 다른 컴퓨팅 환경의 블록도.

도 3은 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 블록도.

도 4는 본 발명의 일실시예에 따른 음성 인식 시스템으로 학습하는 방법의 일부의 블록도.

*도면의 주요부분에 대한 부호의 설명*

200: 이동 장치

202: 마이크로프로세서

204: 메모리

206: 입출력 컴포넌트

208: 통신 인터페이스

212: 오퍼레이팅 시스템

본 발명은 컴퓨터 음성 인식에 관한 것으로, 특히 컴퓨터 음성 인식 시스템의 훈련에 관한 것이다.

컴퓨터 시스템에 의한 신속하고 정확한 인간 음성의 인식은 컴퓨터 시스템의 개발자가 오랫동안 추구해온 목표이다. 이러한 컴퓨터 음성 인식(CSR) 시스템의 이점은 상당하다. 예를 들어, 컴퓨터 시스템으로 문서를 타이핑하기보다는, 사람이 문서의 단어들을 단순히 말하고, CSR 시스템이 그 단어들을 인식하여 마치 그 단어들이 타이핑된 것처럼 각각의 단어의 문자를 저장할 것이다. 사람은 일반적으로 타이핑보다 빠르게 말할 수 있으므로, 효율이 개선될 수 있다. 또한 사람이 더이상 타이핑하는 방법을 학습할 필요가 없어질 수 있다. 컴퓨터는 또한 사람의 손이 타이핑 이외의 업무를 처리하고 있어서 그 컴퓨터의 사용이 현재 실행불가능한 많은 애플리케이션에 사용될 수 있다.

일반적인 CSR 시스템은 말한 발언(utterance)과 어휘의 각 단어의 모델을 비교함으로써 단어를 인식한다. 발언에 가장 잘 매칭하는 모델의 단어가 말한 단어로서 인식된다. CSR 시스템은 단어를 구성하는 음소(phoneme)의 시퀀스로서 각각의 단어를 모델링할 수 있다. 발언을 인식하기 위하여, CSR 시스템은 발언에 가장 잘 매칭되는 음소들의 단어 시퀀스를 식별한다. 그러나, 이 음소들은 단어를 구성하는 음소에 정확하게 대응하지 않을 수 있다. 따라서, CSR 시스템은 일반적으로 확률 분석을 사용하여 어떤 단어가 식별된 음소에 가장 근접하게 대응하는 지를 판 정한다.

발언을 인식할 때, CSR 시스템은 발언을 나타내는 아날로그 신호를 또다른 처리를 위한 더 유용한 형태로 변환한다. CSR 시스템은 먼저 아날로그 신호를 디지털 형태로 변환한다. CSR 시스템은 그후 고속 푸리에 변환(FFT), 선형 예측 코딩(LPC) 또는 필터 뱅크 등의 신호 처리 기술을 디지털 형태에 적용시켜 발언의 적절한 파라메트릭 표시를 추출한다. 통상 사용되는 표현은 발언의 주파수 및/또는 에너지 밴드를 다양한 간격("프레임"으로 지칭됨)으로 표시하는 FFT 또는 LPC 계수를 갖는 "특징 벡터"이다. 간격은 컴퓨터 시스템의 계산 용량과 원하는 인식 프로세스의 정확도에 기초하여 짧을 수도 있고 길 수도 있다. 일반적인 간격은 10 밀리초의 범위내에 있을 수 있다. 즉, CSR 시스템은 발언의 10 밀리초마다 특징을 발생시킬 수 있다. 각각의 프레임은 일반적으로 25 ms로 길다. 따라서, 25 ms 길이의 프레임은 10 ms마다 발생된다. 연속적인 프레임 사이에 중첩부가 있다.

특징 벡터의 처리를 용이하게 하기 위하여, 각각의 특징 벡터는 제한된 수(예를 들어, 256)의 "양자화 벡터" 중 하나로 양자화된다. 즉, CSR 시스템은 일반적인 또는 평균 범위의 특징 벡터를 표현하기 위해 선택된 다수의 양자화 벡터를 정의한다. 그후, CSR 시스템은 각각의 특징 벡터를 각각의 양자화 벡터와 비교하고 특징 벡터와 가장 유사한 양자화 벡터를 선택하여 특징 벡터를 나타낸다. 각각의 양자화 벡터는 "코드워드(codeword)라 지칭되는 다수(예를 들어, 1과 256 사이)에 의해 고유하게 식별된다. 특징 벡터가 양자화 벡터로서 표현될 때, 많은 상이한 특징 벡터가 동일한 양자화 벡터로 맵핑되기 때문에 정보 손실이 있다. 이 정 보 손실이 인식에 심각하게 영향을 주지 않도록, CSR 시스템은 수천 또는 수백만 양자화 벡터를 정의할 수 있다. 이러한 다수의 양자화 벡터의 정의를 저장하는데 필요한 저장장치의 양은 상당할 수 있다. 따라서, 필요한 저장장치의 양을 감소시키기 위하여, CSR 시스템은 특징 벡터를 세그먼트화하고 각각의 세그먼트를 작은 수(예를 들어, 256)의 양자화 벡터 중의 하나로 양자화한다. 따라서, 각각의 특징 벡터는 각각의 세그먼트에 대한 (코드워드에 의해 식별된) 양자화 벡터에 의해 표시된다. 설명의 간략화를 위하여, 특징 벡터를 세그먼트하지 않아서 특징 벡터(또는 프레임)당 하나의 코드워드만을 갖는 CSR 시스템이 기재된다.

상술한 바와 같이, 말한 발언은 종종 단어의 모델에 정확하게 대응하지 않는다. 정확한 대응을 찾기 어려운 것은, 단어 모델에 의해 완전하고 정확하게 캡쳐되지 않는 음성의 큰 변화에 기인한다. 이들 변화는 예를 들어 화자의 액세트, 사람이 말하는 속도 및 피치, 화자의 현재 건강(예를 들어, 감기), 화자의 나이와 성별로터 기인한다. 확률(probabilistic) 기술을 사용하는 CSR 시스템은 정확한 대응을 찾는 기술보다 정확하게 음성을 정확하게 인식하는데 더 성공적이었다.

음성 인식에 일반적으로 사용되는 이러한 확률 기술중의 하나는 히든 마르코프 모델링(hidden Markov modeling)이다. CSR 시스템은 어휘 내의 각 단어에 대하여 히든 마르코프 모델("HMM")을 사용할 수 있다. 단어에 대한 HMM은 임의의 코드워드 시퀀스가 그 단어에 대응하는 확률을 도출할 수 있는 확률 정보를 포함한다. 따라서, 발언을 인식하기 위하여, CSR 시스템은 발언을 코드워드의 시퀀스로 변환한 후 각각의 단어에 대한 HMM을 사용하여 단어가 발언에 대응하는 확률을 판정한 다. CSR 시스템은 가장 높은 확률을 갖는 단어로 발언을 인식한다.

HMM은 상태도로 표현된다. 상태도는 일반적으로 입력의 시퀀스를 수신한 후의 시스템의 상태를 판정하는데 사용된다. 상태도는 상태들을 포함하고 소스 상태 및 목적 상태 사이를 천이한다. 각각의 천이는 상태와 입력을 관련시켜서 시스템이 그 입력을 수신하고 시스템이 소스 상태에 있을 때, 시스템이 목적 상태로 천이할 것이라는 것을 나타낸다. 이러한 상태도는 예를 들어 어휘의 단어를 구성하는 코드워드 시퀀스의 각각을 인식하는 시스템에 의해 사용될 수 있다. 시스템이 각각의 코드워드를 처리함에 따라, 시스템은 현재의 상태 및 처리되는 코드워드에 기초하여 다음 상태를 판정한다. 이 예에서, 상태도는 각각의 단어에 대응하는 소정의 최종 상태를 가질 것이다. 그러나, 한 단어가 다수 발음으로 표현되면, 각각의 단어는 다수의 최종 상태를 가질 수 있다. 코드워드를 처리한 후, 시스템이 하나의 단어에 대응하는 최종 상태에 있으면, 그 코드워드의 시퀀스는 최종 상태의 단어로서 인식될 것이다.

그러나, HMM은 각각의 코드워드에 대하여 하나의 상태로부터 다른 상태로의 각각의 천이와 관련된 확률을 갖는다. 예를 들어, HMM이 상태 2에 있으면, 소정의 코드워드가 현재의 상태로부터 다음 상태로 천이를 일으키는 확률은 0.1일 수 있으며, 동일한 코드워드가 현재의 상태로부터 상이한 다음 상태로 천이를 일으키는 확률은 0.2일 수 있다. 마찬가지로, 다른 코드워드가 현재 상태로부터 다음 상태로 천이를 일으키는 확률은 0.01일 수 있다. HMM이 그 상태도와 관련된 확률을 가지므로, 주어진 일련의 코드워드에 대한 최종 상태의 결정은 오직 확률로 표현될 수 있다. 따라서, 일련의 코드워드에 대한 각각의 가능한 최종 상태의 확률을 결정하기 위하여, HMM의 상태도에 대한 각각의 가능한 일련의 상태는 식별되어야 하며 관련된 확률은 계산되어야 한다. 각각의 이러한 일련의 상태는 상태 경로로서 지칭된다.

일련의 코드워드가 음소를 표현하는 확률을 판정하기 위하여, CSR 시스템은 확률 격자(probability lattice)를 발생할 수 있다. 음소의 HMM에 대한 확률 격자는 일련의 코드워드에 대한 각각의 가능한 상태 경로에 대한 확률의 계산을 나타낸다. 확률 격자는 HMM이 코드워드마다 시퀀스내에 있을 수 있는 각각의 가능한 상태에 대한 노드를 포함한다. 각각의 노드는 지금까지 처리된 코드워드가 그 노드와 관련된 상태에 있는 HMM을 초래할 누적된 확률을 포함한다. 특정 코드워드에 대한 노드의 확률의 합은 지금까지 처리된 코드워드가 음소의 접두사를 나타낼 가능성을 나타낸다.

CSR 시스템의 정확도는 부분적으로 음소마다 HMM의 천이 확률 및 출력의 정확도에 의존한다. 일반적인 CSR 시스템은 출력 및 천이 확률이 평균 화자의 음성을 정확하게 반영하도록 CSR 시스템을 "훈련"한다. 훈련하는 동안, CSR 시스템은 많은 단어에 대하여 많은 화자로부터의 코드워드 시퀀스를 수집한다. 단어를 선택하여 각각의 음소를 다수회 말하도록 한다. 이들 코드워드 시퀀스로부터, CSR 시스템은 각각의 HMM에 대한 출력 및 천이 확률을 계산한다. 이들 확률을 계산하는 많은 반복적인 접근법은 공지되어 있다.

그러나, 이러한 훈련 기술의 문제점은 이러한 평균 HMM이 평균과 다른 음성 패턴을 갖는 사람의 음성을 정확히 모델링할 수 없다는 것이다. 일반적으로, 모든 사람은 평균과 다른 소정의 음성 패턴을 가질 것이다. 결과적으로, CSR 시스템은 화자의 음성 패턴에 적응하도록 화자가 HMM을 훈련시키도록 한다. 이 훈련에서, CSR 시스템은 시스템의 실제 사용자가 말한 훈련 발언을 사용하여 코드워드에 의해 표현되는 양자화 벡터 및 출력 및 천이 확률 등의 HMM 파라미터를 개량한다. 적응된 파라미터는 사용자 공급 데이터 뿐만 아니라 많은 양의 화자 독립 데이터로부터 발생된 정보와 파라미터를 사용하여 도출된다. 따라서, 확률은 화자 독립 특성을 반영한다.

CSR 시스템은 일반적으로 화자에게 미리 선택된 많은 단어를 제시함으로써 훈련된다. 이들 단어는 각각의 음소에 대응하는 음성의 대표 샘플이 수집될 수 있도록 선택된다. 이 대표 샘플로, CSR 시스템은 그 음소에 대한 화자의 발음을 정확하게 반영하지 않는 임의의 HMM가 적절히 적응될 수 있도록 한다. CSR 시스템은 확률로 작용하므로, 더 많은 훈련이 제공될수록, 후속의 음성 인식이 더 정확하게 된다. 그러나, 점점 더 많은 훈련이 수행됨에 따라, 주어진 양의 추가 훈련에 대하여 인식 정확도가 증가하는 정도는 감소하기 시작한다. 또한, 사용자에게 훈련시간에 상당한 투자를 요구하는 것은 사용자의 경험을 감소시킬 수 있다.

따라서, 시스템을 훈련하도록 사용자가 요청받은 정도와 사용자가 시스템을 효율적으로 사용할 수 있는 정도 사이에 균형을 이루어야 한다. 인간 언어의 복잡성때문에, 광대한 훈련후에도 시스템은 종종 에러를 발생할 수 있다. 말한 발언이 대응하는 단어의 모델과 매칭하지 않도록 하는 다른 이유는 언어가 새로운 것일 때 이다. 가능한 솔루션은 어휘 크기를 증가시키는 것을 포함하며, 이는 인식 정확도를 낮출 수 있다. 또다른 솔루션은 사용자가 새로운 단어를 추가하는 사용자 훈련을 통해서 이루어진다. 현재의 시스템은, 그 어휘집이 시스템 어휘집이건, 판매자 또는 애플리케이션 어휘집이건, 사용자가 추가/삭제 단어 다이알로그 박스처럼 단어를 추가하거나 삭제하도록 하는 사용자 인터페이스를 사용하는 사용자 특정 어휘집이건간에, 사용자가 그의 발음으로 새로운 단어를 적절한 어휘집에 수동으로 추가하도록 한다. 그러나, 이것은 사용자가 상당한 수의 단어를 추가해야 할 필요가 있는 경우에 번거로울 수 있다. 또한 사용자에 의해 오서링된(authored) 문서 및 이메일을 사용하는 언어 모델(LM)을 적응시키는 것이 공지되어 있다. 이 접근법은 발음이 어휘집에 추가되지 않고 언어 모델 적응성의 품질이 소스 문서의 필터링에 크게 의존한다는 점에서 한계가 있다.

따라서, 상당한 사용자 개입을 요구하지 않고 사용자로부터의 발음 및 새로운 단어를 용이하게 학습할 수 있는 시스템에 대한 요구가 존재한다. 이 목적을 달성하기 위하여 과도한 훈련 노력을 요구함으로써 사용자 경험을 저감시키지 않고 향상된 자동 음성 인식 시스템을 허용한다.

자동 음성 인식 시스템은 구술된 텍스트에 대한 사용자 변경를 인식하고 이 변경이 사용자가 생각을 바꾸어서 발생한 것인지 또는 이 변경이 인식 에러를 정정한 결과인지를 추론한다. 인식 에러로부터의 정정이 검출되면, 시스템은 사용자 정정의 유형을 사용하여 그 자체를 변경하여 이러한 인식 에러가 다시 발생할 기회 를 감소시킨다. 따라서, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공한다.

도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 일예를 나타낸다. 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일예일 뿐이며 본 발명의 기능 또는 사용의 범위에 대하여 임의의 제한을 제공하기 위한 것이 아니다. 컴퓨팅 환경(100)은 예시적인 오퍼레이팅 환경(100)에 나타낸 컴포넌트들 중의 임의의 하나 또는 조합에 관한 임의의 의존성 및 요구사항을 갖는 것으로 해석되지 않는다.

본 발명은 다른 많은 범용 또는 특수 목적 컴퓨팅 환경 또는 구성에서 동작한다. 본 발명에 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋탑박스, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템 또는 장치 중의 임의의 것을 포함하는 분산 컴퓨팅 환경을 포함하지만 이에 한정되지 않는다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈 등의 컴퓨터 실행가능 명령의 일반적인 컨텍스트에서 기재될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 본 발명은 또한 태스크가 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실행 될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 배치될 수 있다.

도 1을 참조하면, 본 발명을 구현하는 예시적인 시스템은 컴퓨터(110)의 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트는 중앙 프로세싱 유닛(120), 시스템 메모리(130) 및 시스템 메모리를 포함하는 많은 시스템 컴포넌트를 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 포함할 수 있지만, 이에 한정되는 것은 아니다.

시스템 버스(121)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 및 로컬 버스를 포함하는 몇가지 유형의 버스 구조 중의 임의의 것일 수 있다. 예로서, 제한되는 것은 아니지만, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로 채널 아키텍처(MCA) 버스, 인핸스드 ISA(EISA) 버스, 비디오 일렉트로닉스 표준 어소시에이션(VESA) 로컬 버스 및 메자닌 버스(Mezzanine bus)로서 알려진 주변 컴포넌트 상호접속(PCI) 버스를 포함한다.

컴퓨터(110)는 일반적으로 많은 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는, 컴퓨터(110)에 의해 액세스될 수 있고 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함하는 이용가능한 임의의 매체일 수 있다. 예로서, 제한되는 것은 아니지만, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보를 저장하기 위한 임의의 방법 또는 기술로 구 현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광디스크 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치 또는 기타 자기 저장장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 기타 매체를 포함할 수 있지만, 이에 한정되지 않는다. 통신 매체는 통상적으로 반송파 또는 기타 전송 메카니즘 등의 변조된 데이터 신호에 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈, 또는 다른 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는 신호 내의 정보를 인코딩하도록 설정되거나 변환된 특성을 하나 또는 그 이상을 갖는 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지 않는다. 상술한 것들 중의의 임의의 조합이 컴퓨터 판독가능 매체의 범위 내에 포함되어야 한다.

시스템 메모리(130)는 ROM(131) 및 RAM(132) 등의 휘발성 및/또는 비휘발성 메모리의 형태의 컴퓨터 저장 매체를 포함한다. 시동중과 같은 때에 컴퓨터(110) 내의 구성요소들간에 정보를 전송하는 것을 돕는 기본 루틴을 포함하는 기본 입출력 시스템(133; BIOS)은 일반적으로 ROM(131)에 저장된다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고 및/또는 프로세싱 유닛(120)에 의해 현재 작동되는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, (한정하고자 하는 것은 아님) 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기 타 프로그램 모듈(136), 및 프로그램 데이터(137)를 도시한다.

컴퓨터(110)는 또한 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 단지 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드 디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM 또는 기타 광학 매체 등의 분리형 비휘발성 광 디스크(156)로부터 판독하거나 그 광 디스크에 기록하는 광 디스크 드라이브(155)가 도시되어 있다. 예시적인 오퍼레이팅 환경에서 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테이프 카세트, 플래쉬 메모리 카드, DVD(Digital versatile disk), 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 포함하지만 이에 한정되지 않는다. 하드 디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

앞서 기술되고 도 1에 도시된 드라이브 및 그 관련 컴퓨터 저장 매체는 컴퓨터(110)를 위한 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 및 기타 데이터의 저장을 제공한다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시된다. 이들 컴포넌트는 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일할 수도 있고 다를 수도 있다. 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)는 최소한 다른 복사본(different copies)임을 나타내기 위하여 다른 번호를 부여하였다.

사용자는 일반적으로 마우스, 트랙볼, 또는 터치 패드라 불리우는 포인팅 장치(161), 키보드(162) 및 마이크로폰(163)과 같은 입력 장치를 통해 컴퓨터(110)에 명령 및 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 입력 장치 및 그외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 종종 프로세싱 유닛(120)에 접속되지만, 패럴렐 포트, 게임 포트 또는 유니버설 시리얼 포트(USB) 와 같은 기타 인터페이스 및 버스 구조에 의해 접속될 수 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치는 또한 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 모니터외에도, 컴퓨터는 또한 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 이용한 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 공통 네트워크 노드일 수 있으며, 컴퓨터(110)에 관하여 상술한 구성요소 중 다수 또는 모든 구성요소를 일반적으로 포함할 수 있다. 도 1에 도시된 논리적 접속은 근거리 통신망(LAN; 171) 및 원거리 통신망(WAN; 173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워크 환경은 사무실, 기업 광역 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워크 환경에서 사용되는 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 구축하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메카니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)에 관하여 도시된 프로그램 모듈 또는 그 일부분은 원격 메모리 저장 장치에 저장될 수 있다. 예로서 (한정하고자 하는 것은 아님), 도 1은 원격 컴퓨터(181)에 상주하는 원격 애플리케이션 프로그램(185)을 도시한다. 도시된 네트워크 접속은 예시적인 것이며, 컴퓨터들간의 통신 링크를 구축하는 그 외의 수단이 사용될 수 있다.

도 2는 예시적인 컴퓨팅 환경인 이동 장치(200)의 블록도이다. 이동 장치(200)는 마이크로프로세서(202), 메모리(204), 입출력(I/O) 컴포넌트(206) 및 원격 컴퓨터 또는 기타 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술한 컴포넌트들은 적합한 버스(210)를 통해 서로 통신하도록 결합된다.

메모리(204)는 메모리(204)에 저장된 정보가 이동 장치(200)로의 일반적인 전력이 끊겼을 때 손실되지 않도록 배터리 백업 모듈(도시하지 않음)을 갖는 랜덤 액세스 메모리(RAM) 등의 비휘발성 전자 메모리로서 구현된다. 메모리(204)의 일부는 바람직하게 프로그램 실행을 위한 어스레스가능 메모리로서 할당되지만, 메모리(204)의 다른 부분은 바람직하게 디스크 드라이브 상의 저장장치를 시뮬레이팅하기 위한 저장장치에 사용된다.

메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214) 및 오브젝트 스토어(216)를 포함한다. 동작하는 동안, 오퍼레이팅 시스템(212)은 바람직하게 메모리(204)로부터 프로세서(202)에 의해 바람직하게 실행된다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트 코포레이션으로부터 상용가능한 WINDOWS

CE 브랜드 오퍼레이텅 시스템이다. 오퍼레이팅 시스템(212)은 이동 장치를 위해 바람직하게 설계되며 노출 애플리케이션 프로그래밍 인터페이스 및 메소드의 세트를 통해 애플리케이션(214)에 의해 이용될 수 있는 데이터베이스 특징을 구현한다. 오브젝트 스토어(216) 내의 오브젝트는 적어도 부분적으로 노출 애플리케이션 프로그래밍 인터페이스 및 메소드에 대한 호출에 응답하여 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 의해 유지된다.

통신 인터페이스(208)는 이동 장치(200)가 정보를 송수신하도록 하는 많은 장치 및 기술을 나타낸다. 이 장치는 예를 들면 유선 및 무선 모뎀, 위성 수신기 및 방송 튜너를 포함한다. 이동 장치(200)는 또한 컴퓨터에 직접 접속되어 컴퓨터와 데이터를 교환한다. 이 경우, 통신 인터페이스(208)는 직렬 또는 병렬 통신 접 속부 또는 적외선 트랜시버일 수 있으며, 이들 모두는 스트리밍 정보를 송신할 수 있다.

입출력 컴포넌트(206)는 터치식 스크린, 버튼, 롤러 및 마이크로폰 등의 많은 입력 장치 뿐만 아니라 오디오 발생기, 진동 장치 및 디스플레이를 포함하는 많은 출력 장치를 포함한다. 상기에서 열거한 장치는 예이며 이동 장치(200) 상에 모두 존재할 필요는 없다. 또한, 다른 입출력 장치는 본 발명의 범위 내에서 이동 장치에 부착되거나 존재한다.

본 발명의 형태는 일반적으로 새로운 단어, 발음 및 단어쌍을 자동적으로 학습하기 위한 자연적인 사용자 상호작용에 영향을 준다. 일반적으로 이것은 사용자가 생각을 바꾸어 사용자가 텍스트를 변경하였는지 또는 사용자의 음성을 인식하는 시스템의 무능에 의해 사용자가 정정을 하였는지를 추론함으로써 달성된다.

도 3은 본 발명의 일 실시예에 따른 시스템으로 사용자 상호작용으로부터 자동적으로 학습하는 방법의 흐름도이다. 본 방법은 구술된 텍스트의 사용자 변경을 시스템에 의해 인식하는 블록(300)에서 시작된다. 이 변경은 일반적으로 사용자가 다른 리스트로부터 새로운 단어를 선택하거나, 사용자가 단어 또는 구(phrase)를 재구술하거나, 사용자가 몇개의 단어를 삭제하거나, 사용자가 기존의 단어를 변경하거나, 사용자가 새로운 몇개의 단어를 타이핑하는 형태로 이루어질 것이다. 일단 변경이 인식되면, 제어는, 사용자가 실제 정정을 할 것인지 또는 단순히 사용자의 생각이 변경된 것인지를 시스템이 추론하는 블록(302)으로 진행한다. 다수의 힌트 또는 표시가 추론을 알리는데 사용될 수 있다. 예를 들어, 사용자가 다른 리 스트로부터 선택할 때는 사용자가 정정을 하는 것이다. 다른 예로는, 본래의 구술과 정정된 단어간의 음향 특성이 유사할 때는 사용자가 정정을 하는 것이다. 한편, 텍스트가 구술된 후 비교적 긴 시간이 지나 사용자가 변경을 하면, 사용자의 생각이 바뀌어서 편집(editing)하는 것일 가능성이 있다. 또한, 사용자가 구술된 문장에서 다수의 단어를 변경하면, 사용자의 생각이 바뀌어서 편집하는 것일 가능성이 있다. 선택적으로, 시스템은 사용자의 의도에 관한 확인을 위하여 사용자에게 간단히 물어볼 수 있다.

정정이 발생하는 세그먼트(들)을 식별하기 위하여, 동적 시간 와핑(Dynamic Time Warping; DTW)이 예시적으로 사용된다. 그후, 구술된 텍스트와 정정된 텍스트의 음성 인식 엔진 스코어가 비교될 수 있다. 이것은 시스템으로 하여금 사용자의 생각이 바뀌어 새로운 단어를 편집하는지 또는 유사한 사운드의 단어로 정정하는지를 판정하도록 한다. 원하면, 추가의 신뢰 스코어 또는 메트릭(metrics)이 정정 대 편집간의 추론을 개선하는데 사용될 수 있다. 그 결과로서 시스템이 사용자가 단순히 자신의 생각을 바꾼 것으로 결정한 경우에는, 제어는 라인(303)을 통해 블록(300)으로 되돌아간다.

블록(304)에서, 시스템은 어휘집을 참조하여 정정된 단어가 어휘집내에 있는지를 판정한다. 정정된 단어가 사용자 어휘집에 없으면, 제어는 블록(306)으로 진행하고, 블록(306)에서는, 단어가 어휘집에 추가되고 새로운 발음을 선택적으로 추가하며 따라서 언어 모델이 적응된다. 새로운 발음을 추가할지를 판정하는 프로세스는 또한 도 4를 참조하여 상세히 설명될 것이다. 블록(306)후에, 제어는 블록 (300)으로 되돌아간다.

그러나, 정정된 단어가 사용자 어휘집에 있으면, 제어는 블록(308)로 진행하고, 블록(308)에서, 시스템은 발음이 새로운 것인지를 판정한다. 새로운 발음이 새로운 단어의 발음 또는 기존 단어의 사용자 특정 발음에 의해 발생될 수 있다. 발음이 새로운 것인지를 판정하는 프로세스는 도 4를 참조하여 상세히 설명될 것이다. 발음이 새로운 발음이면, 제어는 블록(310)으로 진행하고, 블록(310)에서, 새로운 발음이 선택적으로 학습될 수 있다. 블록(310)후에, 제어는 블록(300)으로 되돌아간다.

발음이 새로운 것이 아니면, 제어는 블록(308)으로부터 블록(312)으로 진행한다. 이것은 정정된 단어가 사용자 어휘집에 있는 상황이며, 정정된 단어의 발음은 또한 공지된 것이다. 이 경우, 단어쌍 및/또는 구가 어휘집에 추가되거나 정정된 텍스트와 관련된 언어 모델 스코어가 갱신되어 단어가 연결되는 기회를 상승시킨다. 대부분의 경우, 이것은 예를 들어 하루 이틀동안 지속되는 일시적인 변경이다. 따라서, "wave two"가 "wave too"로 잘못 인식되어 사용자에 의해 정정되면, 시스템은 "wave two"를 사용자 어휘집에 자동적이고 일시적으로 추가한다. "일시적으로"는 그 단어쌍이 관찰되는 가장 최근 시간 및 그 쌍이 과거에 관찰된 상대적인 빈도에 기초하여 다소 동적이다. 단어쌍 및/또는 구를 추가하는 것외에, 시스템이 그 발음을 지원하면, 새롭게 관찰된 공지된 발음의 확률은 증가될 수 있다. 도 3에 도시된 모든 단계는 최상의 결과를 위해 단일 시스템에서 구현될 수 있지만, 본 발명의 실시예는 단일 시스템에 이러한 단계들이 반드시 공존하지 않고도 실행될 수 있다. 블록(312)후에, 제어는 블록(300)으로 진행한다.

도 4는 도 3을 참조하여 설명한 방법의 일부분의 도면이다. 도 4는 블록(308 및 310)을 더 상세히 설명한다. 블록(308)내에서, 블록(400)은 먼저 컨텍스트 워드에 기반한 파동(디지털화된 사운드)을 강제적으로 정렬하도록 동작한다. 컨텍스트 단어는 일반적으로 정정된 단어 전후의 단일 단어이다. 예를 들어, 구술된 문장이 "This is a text .＼period"이고 사용자가 "text"를 "test"로 정정하면, 구(phrase) "a test .＼period" 및 대응하는 파동은 정렬하는데 사용되어 단어마다 정정 한도를 결정한다. 강제 정렬이 완료되고 한도가 결정되면, 제어는 블록(402)으로 진행하고, 블록(402)에서, 정정된 단어의 발음이 격자를 사용하여 바람직하게 식별된다. 격자는 LTS(Letter to Speech) 컴포넌트에 의해 발생된 가능한 발음으로 만들어진다. 이것은 텍스트 입력에 기초하여 음소의 시퀀스를 발생시킬 수 있는 임의의 적절한 컴포넌트일 수 있다. 격자는 또한 기본 음소 인식기로부터 또는 인식 결과의 음소 시퀀스를 사용하여 구성된다. 그렇게 구성된 음소 격자는 시스템으로 하여금 정확한 발음으로서 격자 내의 최상의 음소 경로를 선택하도록 한다. 최상의 음소가 선택되면, 제어는 블록(404)으로 진행하고, 블록(404)에서, 새롭게 식별된 발음과 기존의 발음간의 간격이 산출된다.

블록(404)에서, 폰 컨퓨전 매트릭스(phone confusion matrix) 및 동적 시간 와핑은 새롭게 식별된 발음과 기존의 발음 사이의 간격을 산출하는데 사용된다. 또한, 다른 간격 산출 방법이 사용될 수 있다. 예를 들어, 간격은 새로운 발음 및 기존의 발음에 대한 음향 모델 스코어에 기초하여 산출될 수 있다. 간격은 바람직 하게 미리 선택된 또는 동적 임계치에 비교되어 발음이 학습되어야 하는지를 판정한다. 따라서, 간격은 임의의 임계치를 초과하는 발음만 학습될 것이다.

블록(406)에서, 시스템은 새로운 발음이 추가되어야 하는지를 판정한다. 이 판정은 바람직하게 블록(404)로부터의 산출된 간격, 가장 근접한 기존의 발음, 음향 모델(AM) 신뢰도, 및 새로운 발음이 사용자의 구술에 나타나는 빈도에 기초한다. 이들 인자에 기초하여 발음을 선택적으로 추가할지를 판정하는 것은 오정렬에 의한 에러 및/또는 사용자가 정정할 것인지에 대한 부정확한 추론이 시스템 효율을 감소시키는 학습을 일으키지 않도록 할 것이다. 발음 신뢰도 산출의 예는 다음을 포함한다.

C(pron) = 1-(1-p(d, AM)^f; 및

C(pron) = 1/[d/f/log(len1+len2)]

여기서, d는 인식된 발음과 어휘집 내의 최상 매칭간의 간격이고, f는 인식된 동일한 발음이 발음되는 빈도이고, p(d, AM)은 이러한 간격(d)과 AM 스코어를 갖는 발음이 정확한 발음일 확률이다. Len1과 Len2는 각각 새로운 발음과 가장 근접한 발음의 음소의 길이이다. P(d, AM)은 훈련으로 학습된다.

블록(408)에서, 시스템은 새로운 발음을 선택적으로 추가한다. 바람직하게, 블록(406)에서 산출된 신뢰도 스코어가 충분히 높고 새로운 발음이 사용자의 구술에서 선택된 수(N)만큼 발생하였으면, 발음이 추가된다.

산출된 신뢰도 스코어에 임계치를 적용함으로써, 본 발명의 실시예에 따른 시스템은 사용자가 생각을 단순히 바꿈으로써 사용자 편집으로부터 학습함으로써 시스템이 부적절하게 영향을 받지 않도록 하기 위하여 최소량만을 학습할 것이다.

본 발명은 특정 실시예를 참조하여 설명하였지만, 본 기술에 숙련된 자는 본 발명의 사상 및 범위를 벗어나지 않고 그 형태 및 상세에 변경이 이루어질 수 있다는 것을 인식할 것이다. 예를 들어, 상술한 설명의 대부분은 시스템에 정보를 추가하여 정확도를 개선하는 것에 초점을 맞추었지만, 본 발명의 실시예는 또한 시스템으로부터 단어를 삭제하는 것도 포함한다.

상술한 바와 같이, 본 발명에 따르면, 추가적인 사용자 상호작용이 거의 없거나 전혀 없는 중대한 음성 인식 학습을 위한 시스템 및 방법을 제공하는 효과가 있다.

Claims

컴퓨터 구현 음성 인식 시스템으로서,

사용자 음성을 수신하기 위한 마이크로폰; 및

상기 마이크로폰에 결합되어, 상기 사용자 음성을 인식하고 사용자 인터페이스 상에 텍스트 출력을 제공하도록 적응되는 음성 인식 엔진

을 포함하고,

상기 시스템은 사용자가 상기 텍스트 출력을 변경하는 것을 자동으로 인식하고, 상기 변경이 정정(correction)인지 또는 편집(editing)인지를 추론하고 - 상기 추론은 구술과 상기 변경 사이의 시간량의 측정, 및 변경된 단어들의 수의 검출을 포함함 -, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초하여, 상기 변경이 인식 에러에 의한 것으로 추론되는 경우에만, 상기 음성 인식 엔진을 상기 변경으로부터 학습하도록 선택적으로 적응시키도록 적응되는 컴퓨터 구현 음성 인식 시스템.
삭제
제1항에 있어서, 상기 음성 인식 엔진은 사용자 어휘집(lexicon)을 포함하고, 상기 정정이 상기 사용자 어휘집에 없는 단어인 경우 상기 사용자 어휘집은 갱신되는 컴퓨터 구현 음성 인식 시스템.
제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 새로운 발음을 선택적으로 학습하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
제1항에 있어서, 상기 음성 인식 엔진은 상기 사용자의 발음이 에러를 발생시켰는지를 판정하고 기존의 발음과 관련된 확률을 선택적으로 변경하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
제1항에 있어서, 상기 정정이 새로운 단어 또는 새로운 발음에 의한 것이 아닌 경우, 상기 시스템은 적어도 하나의 단어쌍을 상기 음성 인식 엔진에 포함된 사용자 어휘집에 추가하도록 적응되는 컴퓨터 구현 음성 인식 시스템.
자동 음성 인식 시스템에 의해 학습하는 방법으로서,

구술된 텍스트에 대한 변경을 검출하는 단계;

상기 변경이 정정인지 또는 편집인지를 추론하는 단계 - 상기 추론하는 단계는 구술과 상기 변경 사이의 시간량을 측정하는 단계, 및 변경된 단어들의 수를 검출하는 단계를 포함하고, 측정된 상기 시간량 및 상기 단어들의 수와 각각의 임계치들의 비교에 기초함 -; 및

상기 변경이 정정인 것으로 추론된 경우, 추가의 사용자 상호작용없이 상기 정정의 특징(nature)으로부터 선택적으로 학습하는 단계

를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 사용자가 상기 변경을 수행하기 위하여 다른 리스트로부터 선택했는지를 검출하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
삭제
제7항에 있어서, 상기 변경이 정정인지를 추론하는 단계는 구술된 텍스트와 변경된 텍스트의 음성 인식 엔진 스코어를 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
삭제
제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 정정된 단어가 사용자의 어휘집에 존재하는지를 판정하는 단계, 및 상기 정정된 단어가 상기 사용자의 어휘집에 존재하지 않으면 상기 정정된 단어를 상기 어휘집에 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제12항에 있어서, 상기 정정된 단어가 상기 사용자의 어휘집에 존재하면, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 상기 사용자의 발음이 상기 시스템에 의해 공지된 기존의 발음들로부터 벗어났는지를 판정하는 단계와, 상기 발음을 선택적으로 학습하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 적어도 하나의 컨텍스트 단어가 존재하면 상기 적어도 하나의 컨텍스트 단어에 기반한 파동(wave)의 강제 정렬(forced alignment)을 수행하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제13항에 있어서, 상기 사용자의 발음이 기존의 발음들로부터 벗어났는지를 판정하는 단계는 상기 정정된 단어의 발음을 파동 내에서 식별하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제15항에 있어서, 인식 결과와 상기 정정된 단어의 가능한 발음들에 기초하여 격자를 형성하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음간의 간격에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제16항에 있어서, 기존의 발음들과 새롭게 식별된 발음의 음향 모델 스코어(Acoustic Model score)에 적어도 부분적으로 기초하여 신뢰도 스코어를 발생시키는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제17항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 신뢰도 스코어를 임계치와 비교하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제19항에 있어서, 상기 발음을 선택적으로 학습하는 단계는 상기 새롭게 식별된 발음이 미리 선택된 횟수만큼 발생했는지를 판정하는 단계를 더 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제7항에 있어서, 상기 정정의 특징으로부터 선택적으로 학습하는 단계는 사용자의 어휘집에 적어도 하나의 단어쌍을 추가하는 단계를 포함하는 자동 음성 인식 시스템에 의한 학습 방법.
제21항에 있어서, 적어도 하나의 단어쌍이 상기 사용자의 어휘집에 일시적으로 추가되는 자동 음성 인식 시스템에 의한 학습 방법.