KR100563365B1 - 계층적 언어 모델 - Google Patents

계층적 언어 모델 Download PDF

Info

Publication number
KR100563365B1
KR100563365B1 KR1020037010835A KR20037010835A KR100563365B1 KR 100563365 B1 KR100563365 B1 KR 100563365B1 KR 1020037010835 A KR1020037010835 A KR 1020037010835A KR 20037010835 A KR20037010835 A KR 20037010835A KR 100563365 B1 KR100563365 B1 KR 100563365B1
Authority
KR
South Korea
Prior art keywords
context
context models
models
model
user
Prior art date
Application number
KR1020037010835A
Other languages
English (en)
Other versions
KR20030076686A (ko
Inventor
마크 에드워드 엡스테인
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20030076686A publication Critical patent/KR20030076686A/ko
Application granted granted Critical
Publication of KR100563365B1 publication Critical patent/KR100563365B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Abstract

본 명세서에 개시된 발명은 문맥 모델의 계층구조를 이용하여 음성을 텍스트로 변환하기 위한 방법에 관련된 것이다. 문맥 모델의 계층구조는 언어 모델로 통계적 평탄화될 수 있다. 방법은 텍스트를 다수의 문맥 모델들로 처리하는 단계를 포함한다. 다수의 문맥 모델 각각은 다수의 문맥 모델 계층구조내의 노드에 대응할 수 있다. 또한, 텍스트에 관련하여 적어도 하나의 문맥 모델을 식별하는 단계와, 이후의 사용자 구두어를 상기 식별된 적어도 하나의 문맥 모델로 처리하는 단계를 포함한다.
문맥 모델의 계층구조, 음성-텍스트 변환, 언어 모델

Description

계층적 언어 모델{Hierarchical Language Model}
본원 발명은 음성 인식 및 대화 기반형 시스템 분야에 관한 것으로서, 좀더 구체적으로는 음성을 텍스트로 변환하기 위해 언어 모델을 이용하는 것에 관한 것이다.
음성 인식은 마이크로폰에 의해 수신된 음향 신호가 컴퓨터에 의해 일단의 텍스트 단어, 숫자 또는 심볼들로 변환되는 프로세스이다. 이렇게 인식된 단어들은, 문서 준비, 데이터 입력, 명령 및 제어와 같은 목적의 다양한 컴퓨터 소프트웨어에 의해 이용될 수 있다. 음성 인식 시스템의 향상은 이용자 생산성을 개선키는데 중요하다.
음성 인식 시스템은 음향 모델을 형성하기 위해 음향 신호를 모델링하고 분류할 수 있는데, 음향 모델은 음소(phoneme)라 지칭되는 기본 언어학상 단위(linguistic unit)를 나타낸다. 음향 신호를 수신하면, 음성 인식 시스템은 음향 신호를 분석하고, 음향 신호내의 일련의 음향 모델들을 식별해내고, 주어진 일련의 음향 모델들에 대한 가능성있는 단어 후보 리스트를 도출해낼 수 있다.
후속하여, 음성 인식 시스템은 가이드로서 언어 모델을 이용하여 가능성있는 단어 후보들을 문맥상 분석할 수 있다. 구체적으로, 언어 모델은 단어들을 문장을 형성하기 위해 조합되는 방식상에 부가되는 제한사항들을 나타낼 수 있다. 언어 모델은 일반적으로 또다른 단어 또는 단어들에 바로 인접하여 나타나는 언어의 확률을 표현할 수 있는 통계적인 모델이다. 언어 모델은 각각의 단어들을 따라오는 허용가능한 단어들이 명백하게 리스트되는 유한 상태 네트워크로서 지정될 수 있거나, 문맥-의존(context-sensitive) 문법을 이용하는 좀더 복잡한 방식으로 구현될 수 있다. 기타 다른 언어 모델에는 본 기술 분야에 공지된 n-그램(gram) 모델 및 최대 엔트로피(entropy) 언어 모델이 있을 수 있으며, 여기에 한정되는 것은 아니다. 언어 모델의 흔한 예는 n-그램 모델일 수 있다. 특히, 바이그램(bigram) 및 트라이그램(trigram) 모델들은 본 기술분야에서 흔히 이용되는 n-그램 모델의 예이다.
종래의 언어 모델들은 연습용 텍스트 언어자료(training corpus of text)의 분석으로부터 도출될 수 있다. 연습용 언어자료는 사람이 말하는 보통의 방식을 반영하는 텍스트를 포함한다. 연습용 언어자료는, 음성 디코딩으로서 언급되는, 음성에서 텍스트로의 변환을 위한 음성 인식 시스템에 의해 이용되는 통계적 언어 모델들을 결정하기 위해 처리된다. 이러한 방법들은 본 기술분야에서 공지된 것이다. 예를 들어, 언어 모델 및 언어 모델 구축을 위한 방법에 대한 좀더 자세한 설명을 위해서는 "음성인식용 통계 모델(Statistical Methods for Speech Recognition)"(Frederic Jelinek 지음, MIT 프레스, 1997)을 참조하기 바란다. 현재 본 기술분야내에서는, 음성 인식 시스템은 사용자가 말한 발음을 텍스트로 변환하기 위해 언어 모델 조합을 이용할 수 있다. 각각의 언어 모델은 최종 텍스트 스트링을 판단하기 위해 이용될 수 있다. 각각의 언어 모델로부터 각각의 최종적인 텍스트 스트링은 가장 정확하거나 가장 유사한 결과를 판단하기 위해 통계적으로 비교 고랑(weigh)될 수 있다. 예를 들어, 음성 인식 시스템은 시스템 내에 포함된 일반적인 또는 포괄적인 언어 모델 뿐만 아니라 사용자에 의해 구술된 처음 여러번의 구술 세션 또는 문서들로부터 도출된 사용자 특정 언어 모델도 포함할 수 있다. 일부 음성 인식 시스템들은 사용자가 새로운 문서를 구술하거나 새로운 구술 세션을 개시할 때 기존 언어 모델을 계속적으로 향상시킬 수 있다. 따라서, 다수의 종래 음성 인식 시스템들에서, 언어 모델은 계속적으로 갱신될 수 있다.
불행히도, 언어 모델이 계속적으로 성장함에 따라, 주제에 특정된 사용자 구술의 중요도가 줄어들 수 있다. 특히, 좀더 최근의 음성 세션 효과가 언어 모델내의 다량의 데이터 증가로 인하여 줄어들 수 있다. 유사하게, 최근의 사용자 구술의 중요성 또한, 그것이 주제 특정이건 아니건 간에, 확장되는 언어 모델 내에서 축소될 수 있다. 이는 언어 모델을 향상시키기 위해 이용될 수 있는 하나의 특정 세션 또는 문서의 통계적 중요성이 계속해서 확장되는 데이터 집합으로 인하여 줄어드는 통계적 언어 모델들에 관련하여 주로 발생한다. 이러한 통계적 효과는, 예를 들어,사용자가 음성 인식 또는 대화 기반과 상호작용하는데 좀더 친근해지고 익숙해짐에 따라 사용자의 음성 패턴이 변하는 경우에, 심각할 수 있다. 특히, 단일 세션 또는 문서로부터 야기된 언어 모델의 향상은 언어 모델에 대응하는 전체 데이터 집합 측면에서는 특별히 제한된 양의 데이터를 산출할 수 있는데, 이는 통계적인 음성 기반 시스템의 동작을 변경시키기 어렵다. 결과적으로, 언어 모델은 사용자의 변하는 구술 스타일을 정확하게 반영할 수 없다.
사용자가 하나 이상의 시스템 프롬프트(prompt)에 구두상으로 응답하는 자연언어 이해 시스템과 같은 대화 기반 시스템 측면에서도 유사한 문제가 존재할 수 있다. 이러한 시스템은 사용자의 응답을 처리하기 위해 하나 이상의 언어 모델들을 포함할 수 있지만, 특정 프롬프트에 맞추어진 언어 모델들은 불충분한 데이터량을 이용하여 구축될 수 있다. 따라서, 이러한 언어 모델은 너무 특정되어 수신된 음성을 정확히 처리할 수 없다. 구체적으로, 언어 모델들은 좀더 일반화된 사용자 응답을 처리하기 위해 그 언어 모델로부터 추상화시키는 능력이 부족할 수 있다.
본 명세서에 개시된 발명은 문맥 모델의 계층구조를 생성하고 음성을 텍스트로 변환시키는데 이러한 문맥 모델을 이용하는 방법에 관한 것이다. 본 발명에 따른 방법은 음성 인식 시스템 및 자연언어 이해 대화-기반 시스템 내에 이용될 수 있다. 특히, 본 발명은 사용자 구두어(user spoken utterances) 형태로 된 상이한 사용자 음성 세션, 문서, 문서의 일부 또는 사용자 응답으로부터 다수의 문맥 모델을 생성할 수 있다. 이러한 문맥 모델은 공지된 거리 측정법(distance metric)을 이용하여 관련 쌍으로 밑에서부터(in bottom up fashion) 구성되거나 집단화될 수 있다. 언어 모델의 관련 쌍은 트리-유사 구조가 형성될 때까지 계속적으로 병합될 수 있다. 문맥 모델의 트리-유사 구조 또는 문맥 모델의 계층구조는 단일의 루트 노드로부터 바깥쪽으로 확장될 수 있다. 문맥 모델의 계층구조는 삭제 보간(deleted interpolation) 또는 백오프(back-off) 방식과 같은 공지된 기법을 이용하는 저장된 텍스트 집적자료(held out corpus)를 이용하여 보간될 수 있다. 본 발명은 본 명세서에 개시된 특정의 평탄화(smoothing) 기법에 의해 한정되는 것은 아니다. 본 기술분야에 공지된 임의의 적합한 평탄화기법이 이용될 수 있다.
문맥 모델의 계층구조가 결정되고 평탄화된 후에, 수신된 사용자 구두어들이 최종적인 문맥 모델 계층구조를 이용하여 처리될 수 있다. 문맥 모델의 계층구조내에서 하나 이상의 수신된 사용자 구두어에 대응하는 하나 이상의 문맥 모델들이 식별될 수 있다.
본 발명의 일특징은 문맥 모델의 계층구조를 이용하여 음성을 텍스트로 변환하는 방법을 포함할 수 있다. 문맥 모델의 계층구조는 언어 모델로 통계적 평탄화될 수 있다. 상기 방법은 (a) 다수의 문맥 모델을 이용하여 텍스트를 처리하는 단계를 포함할 수 있는데, 상기 다수의 문맥 모델 각각은 상기 다수의 문맥 모델의 계층구조 내의 노드에 해당할 수 있다. 텍스트의 처리는 순차적으로 또는 병렬로 수행될 수 있다. 또한, 상기 방법에는 (b) 수신된 텍스트에 관련된 적어도 하나 이상의 문맥 모델을 식별하는 단계와, (c)상기 식별된 적어도 하나의 문맥 모델을 이용하여 이후의 사용자 구두어를 처리하는 단계가 더 포함된다.
다수의 문맥 모델중 적어도 하나는 문서 또는 문서의 일부, 문서 섹션, 대화 기반 시스템의 특정 대화 상태에서 수신된 적어도 하나의 사용자 응답, 또는 대화기반 시스템 내의 특정 트랜잭션 내의 특정 위치에서 수신된 적어도 하나의 사용자 응답에 대응할 수 있다. 또한, 다수의 문맥 모델중 적어도 하나는 대화 기반 시스템 프롬프트 구문(syntax), 특정의 공지된 대화 기반 시스템 프롬프트, 또는 수신 된 전자 메일 메시지에 대응할 수 있다.
본 발명의 또다른 실시예는 문맥 모델의 계층구조를 생성하는 방법을 포함할 수 있다. 이러한 경우에, 방법은 (a) 거리 측정법을 이용하여 다수의 문맥 모델들 각각 간에 거리를 측정하는 단계를 포함할 수 있다. 특히, 다수의 문맥 모델중 적어도 하나는 문서의 일부 또는 대화 기반 시스템 내의 사용자 응답에 대응할 수 있다. 또한, 상기 방법은 (b) 다수의 문맥 모델중 다른 것들보다 거리면에서 더 근접한 두개의 문맥 모델들을 식별해내는 단계를 포함할 수 있다. 또한, (c)상기 식별된 문맥 모델들을 부모(parent) 문맥 모델로 병합하는 단계를 포함할 수 있다. 병합 단계 (c)는 상기 식별된 문맥 모델들간에 보간하는 단계를 포함할 수 있는데, 보간은 상기 식별된 모델들의 조합으로 귀착된다. 대안적으로, 병합 단계 (c)는 식별된 문맥 모델들에 대응하는 데이터를 이용하여 부모 문맥 모델을 구축하는 단계를 포함할 수 있다. 또한, 상기 방법은 다수의 문맥 모델들의 계층구조가 생성될 수 있을 때까지 단계(a),(b) 및 (c)를 반복하는 단계(d)를 포함할 수 있다. 그러한 경우에, 계층구조는 루트 노드를 포함할 수 있다. 다수의 문맥 모델들의 계층구조는 통계적으로 평탄화되어 언어 모델을 산출할 수 있다. 예를 들어, 문맥 모델의 계층구조는, 삭제 보간, 백오프 방식, 또는 기타 다른 적합한 평탄화 기법과 같이 본 기술분야에 공지된 기술을 이용하는 저장된 텍스트 집적자료를 이용하여 보간될 수 있다.
다수의 문맥 모델들 또는 초기 문맥 모델들은 음성 세션, 문서 템플릿, 문서 및 단락과 같은 문서의 일부, 또는 문서의 섹션과 같이 하나 이상의 부분들로 분류 되는 문서의 임의의 부분으로부터 구축될 수 있다. 자연언어 이해 시스템과 같은 대화 기반 시스템의 경우에, 초기의 문맥 모델은 하나 이상의 사용자 응답으로부터 다양한 시스템 프롬프트의 전부 또는 일부에 이르기까지 구축될 수 있다.
도면에는 현재 바람직한 실시예들이 도시되어 있으나, 본 발명은 도시되어 있는 것에 따른 정확한 구성 및 수단에 한정되는 것은 아니다.
도 1은 본 발명이 이용될 수 있는 예시적 컴퓨터 시스템의 개략도이다.
도 2는 예시적인 음성 인식용 구조를 도시한 개략도이다.
도 3a 및 3b는 음성 인식 엔진을 포함할 수 있는 전형적인 구성요소들을 도시한 개략도이다.
도 4는 문맥 모델의 예시적인 계층구조를 설명하는 블록도이다.
도 5는 본 발명에 따른 예시적인 방법을 설명하는 흐름도이다.
도 6은 본 발명에 따른 예시적인 방법을 설명하는 흐름도이다.
본 명세서에 개시된 실시예는 문맥 모델의 계층구조를 생성하고 이러한 문맥 모델을 이용하여 음성을 텍스트로 변환하기 위한 방법에 관한 것이다. 본 방법은 음성 인식 시스템 및 자연언어 이해 대화 기반 시스템 내에 이용될 수 있다. 특히, 본 실시예는 상이한 사용자 음성 세션, 문서, 문서의 일부, 또는 사용자 구두어의 형태로 된 응답으로부터 다수의 문맥 모델을 생성할 수 있다. 그러한 문맥 모델들은 밑에서부터 위로 올라가는 형식(bottom up fashion)에 따라 공지된 거리 측정법을 이용하여 관련쌍들로 편성 또는 집단화될 수 있다. 특히, 문맥 모델들을 관련쌍으로 편성하는 것은 실행시간에 동적으로 자동 수행될 수 있다. 문맥 모델들의 관련쌍은 부모 문맥 모델을 형성하기 위해 병합될 수 있다. 프로세스는 문맥 모델의 계층구조가 트리-유사 구조를 닮는 것으로 나타날 때까지 반복될 수 있다. 계층은 다른 노드들이 확장될 수 있는 단일의 루트 노드를 가질 수 있다. 특히, 문맥 모델의 계층구조의 각각의 노드는 하나의 문맥 모델에 대응할 수 있다. 본 명세서에서 용어 "문맥 모델"은 단일 문서, 문서의 일부 또는 자연언어 이해(NLU) 시스템의 경우에는 하나 이상의 사용자 구두어 또는 응답으로부터 획득된 연습용 데이터로부터 구축된 언어 모델을 일컫는다.
최종적인 문맥 모델의 계층구조는 삭제 보간 또는 백오프 방식과 같이 본 기술분야에 공지된 기술을 이용하는 저장된 텍스트 집적자료를 이용하여 보간될 수 있다. 본 발명은 본 명세서에 개시된 특정의 평탄화 기법에 한정되지는 않는다. 오히려, 본 기술분야에 공지된 임의의 적합한 평탄화 기술이 이용될 수 있다.
문맥 모델의 계층구조가 결정된 후에, 수신된 사용자 구두어는 문맥 모델의 최종 계층 구조를 이용하여 처리될 수 있다. 구체적으로, 문맥 모델의 계층 구조 내에서, 하나 이상의 수신된 사용자 구두어에 대응하거나 가장 정확하게 반영하는 특정 문맥 모델이 식별될 수 있다. 예를 들어, 실시예는 문맥 모델의 계층구조를 이용하여 상기 수신된 사용자 구두어를 처리하고 가장 높은 만족도 점수를 갖는 최종 텍스트를 산출하는 문맥 모델을 식별할 수 있다. 실시예는 이후의 사용자 구두어가 이전에 수신된 사용자 구두어 또는 대응 문맥 모델을 식별하기 위해 이용된 발음의 내용과 유사한 내용을 갖는다는 가정에 따라 작동할 수 있다. 따라서,후속하는 사용자 구두어는 식별된 문맥 모델로써 처리되어 향상된 음성 인식 시스템 성능을 달성할 수 있다.
특히, 문맥 모델의 최종 계층구조 및 최종적으로 평탄화된 언어 모델은 후속하는 사용자 구두어의 처리가 좀더 일반화될 수 있도록 해준다. 이는 "훈련이 덜된(under-trained)" 언어 모델이 시스템 성능에 불리한 영향을 미치는 NLU 시스템에 특히 유용하다. 구체적으로, 문맥 모델의 평탄화된 계층구조는, 문맥 의존적이면서도, 문맥 모델이 좀더 일반화될 수 있도록, 루트 노드쪽으로 트래버스(traverse)되거나, 문맥 모델이 문맥 의존적이면서 좀더 구체적으로 될 수 있도록 리프쪽으로 트래버스될 수 있다.
도 1은 본 발명과 연관하여 이용될 수 있는 전형적인 컴퓨터 시스템(100)이다. 이러한 시스템은 중앙처리유닛(CPU,110), 하나 이상의 메모리 장치(115) 및 연관 회로들을 포함하는 컴퓨터(105)를 포함할 수 있다. 메모리 장치(115)는 전자적인 랜덤 액세스 메모리 및 벌크(bulk) 데이터 저장매체로 이루어질 수 있다. 또한, 시스템은 적합한 인터페이스 회로(125)를 통해 컴퓨터 시스템에 연동되는 마이크로폰(120)과, 시스템에 연동되는 비디오 데이터 단말과 같은 선택적인 사용자 인터페이스 디스플레이 장치(130)를 포함할 수 있다. CPU는 임의의 적합한 마이크로프로세서 또는 다른 전자처리장치로 이루어질 수 있으며, 이는 통상의 지식을 가진 자에게 공지되어 있다. 스피커(135, 140)와, 마우스(45) 및 키보드(150)와 같은 인터페이스 장치가 시스템에 제공될 수 있지만, 본 발명의 작동에 반드시 필요한 것은 아니다. 본 명세서에서 서술하는 컴퓨터 시스템의 다양한 하드웨어 요구사항은 다수의 상업적으로 이용가능한 고속 컴퓨터들중 어느 것에 의해서도 일반적으로 충족될 수 있다.
도 2는 컴퓨터 시스템(100) 내의 음성인식 시스템의 전형적인 구조를 도시한 개략도이다. 도 2에 도시된 바와 같이, 컴퓨터 시스템(100)의 메모리(115) 내에 운영 체제(200)와 음성 인식 엔진(210)이 있다. 또한, 음성 텍스트 프로세서 어플리케이션(220)과 음성 네비게이터 어플리케이션(230)이 포함될 수 있다. 그러나 ,본 발명은 이러한 구성에 한정되는 것은 아니며, 음성 인식 엔진(210)은 음성이 이용될 수 있는 다른 어플리케이션 프로그램에 이용될 수 있다. 도 2에서, 음성 인식 엔진(210), 음성 텍스트 프로세서 어플리케이션(220) 및 음성 네비게이터 어플리케이션(230)은 별도의 어플리케이션 프로그램들로서 도시된다. 그러나, 본 발명은 이에 한정되는 것은 아니며, 이러한 다양한 어플리케이션 프로그램들은 하나의 좀더 복잡한 어플리케이션 프로그램으로서 구현될 수 있다. 예를 들어, 음성 인식 엔진(210)은 음성 테스트 프로세서 어플리케이션(220) 또는 음성이 이용될 수 있는 다른 어플리케이션들과 결합될 수 있다. 또한, 음성 텍스트 프로세서 어플리케이션(220) 및 음성 인식 엔진(210)과 연계하여 작동될 수 있는 다른 음성 제어형 어플리케이션 프로그램이 없다면, 시스템은 음성 네비게이터 어플리케이션(230) 없이 작동되도록 변경될 수 있다. 음성 네비게이터 어플리케이션(230)은 우선적으로 음성인식엔진(210)의 동작을 조정한다.
전술한 구성요소들은 컴퓨터 시스템(100) 내에 중앙 집중 형태로 구현될 수 있다. 선택적으로, 전술한 컴포넌트들은 상이한 요소들이 몇 개의 상호연결되는 컴퓨터 시스템에 걸쳐 퍼져 있는 분산 형태로서 구현될 수 있다. 어느 경우이든, 컴포넌트들은 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있다. 본 발명에서 서술되는 발명을 수행하는데 어떠한 유형의 컴퓨터 시스템 또는 장치들도 적합하다. 본 명세서에서 기재된 시스템은, 이용되는 특정 운영 체제용으로 상업적으로 이용가능한 개발툴을 이용하여 구현될 수 있다.
본 명세서에서 언급되는 컴퓨터 프로그램 수단 또는 컴퓨터 프로그램은 정보처리능력을 갖는 시스템으로 하여금, 즉시, 또는 a) 또다른 언어, 코드 또는 표기(notation)로의 변환, b)상이한 유형물로의 복제중 하나 또는 모두를 거친 후에, 특정 기능을 수행하도록 하도록 이루어진 임의의 언어, 코드 또는 표기로 된 일단의 명령어 표현을 의미한다.
동작에 있어서, 마이크로폰(120)에서 수신된 사운드를 나타내는 오디오 신호는 디지털 형태로 운영 체제(200)에 이용가능하게 되도록 전형적인 컴퓨터 오디오 회로를 이용하여 컴퓨터(100) 내에서 처리될 수 있다. 대안으로서, 오디오 신호는 아날로그 또는 디지털 포맷으로 또다른 컴퓨터로부터 컴퓨터 통신망을 통해 또는 전화와 같은 또다른 변환장치로부터 수신될 수 있다. 컴퓨터 시스템(100)에 의해 수신된 오디오 신호는 음성인식기능을 수행하기 위해 전형적으로 컴퓨터 운영체제(200)를 통해 음성인식엔진(210)에 제공된다. 종래 음성 인식 시스템에서처럼, 마이크로폰(120)으로 사용자가 말한 단어들을 식별하기 위해 음성 신호들이 음성 인식 엔진(210)에 의해 처리될 수 있다. 도 3a는 음성 인식 엔진(210)을 포함할 수 있는 전형적인 구성요소들을 도시한 블록도이다. 도 3에 도시된 바와 같이, 음성 인식 엔진(210)은 운영체제로부터 디지털화된 음성 신호를 수신한다. 신호는 이어서 표현 블록(310)에서 임의의 정해진 비율(전형적으로는 매 10-20 msec)로 신호를 샘플링함으로써 유용한 데이터 집합으로 변환된다. 표현 블록은 방금 분석된 파장 형태의 일부가 특정 음성 이벤트에 대응하는 확률을 결정하기 위해 이후의 음성 인식 프로세스 단계들에서 이용될 수 있는 오디오 신호의 새로운 표현을 산출한다. 이러한 프로세스는 운영체제로부터 수신된 음성 신호의 지각적으로(perceptually) 중요한 화자-무관 (speaker independent) 특징들을 강조하기 위한 것이다. 모델링/분류 블록(320)에서, 알고리즘들이 음성 신호를 또한 처리함으로써 화자-무관 음향 모델을 현재 화자의 음향 모델에 적응시킨다. 마지막으로, 검색 블록(330)에서, 검색 엔진이 음성 신호에 대응하는 가장 유사한 단어를 찾을 수있도록 지도하기 위해 검색 알고리즘들이 이용된다. 검색 블록(330)에서의 검색 프로세스는, 음향 모델(340), 어휘 모델(350) 및 언어 모델(360)의 도움으로 이루어진다.
언어 모델들(360)은 단어가 문장내에서 다른 단어들과 함께 이용될 때 음성 신호에 대응하는 가능한 단어 수를 제한하는 것을 돕는데 이용될 수 있다. 언어 모델은 유한 상태 네트워크 - 각각의 단어 다음에 올 수 있는 단어들이 명확하게 열거되거나, 문맥-의존 문법을 이용하는 좀더 복잡한 방식으로 구현될 수 있음- 로서 지정될 수 있다. 다른 언어 모델의 예로서는 본 기술 분야에 공지되어 있는 n-그램 모델 및 최대 엔트로피 언어 모델들을 들 수 있으며, 이에 한정되는 것은 아 니다. 어느 경우이든, 언어 모델의 내용을 특정 사용자의 경우에 만날 가능성이 많은 음성 패턴에 관한 정보로 갱신해주는 것이 바람직하다. 검색 프로세스는 텍스트 출력으로서 가장 높은 만족도 점수를 갖는 단어 후보들을 결정한다.
만족도 점수는 특정 단어 후보가 대응하는 사용자 구두어를 정확하게 반영하는 가능성을 반영한다. 만족도 점수는, 음향 모델, 어휘 모델 및 언어 모델들로부터 도출되는 값일 수 있다. 예를 들어, 만족도 점수는 특정 단어 후보가 언어 모델을 이용하여 판단된 또다른 단어 또는 단어 그룹 다음에 위치할 가능성에 부가하여, 음향 모델을 이용하여 판단된 사용자 구두어를 나타낼 가능성을 고려할 수 있다.
인식된 텍스트는 언어 모델 세션 관리자(Language Model Session Manager: LMSM, 380)에 제공될 수 있다. 최종 텍스트가 수신된 사용자 구두어를 정확하게 반영할 확률에 근거하여, LMSM(380)은 이후에 수신되는 사용자 구두어를 처리하기 위한 좀더 적합한 문맥 모델을 판단할 수 있다. 좀더 구체적으로, LMSM(380)은 텍스트 처리에 이용하기 위해 최종 텍스트가 수신된 사용자 구두어를 반영하는 가장 높은 확률을 갖는 문맥 모델을 식별할 수 있다. 따라서, LMSM(380)은 이후에 수신되는 음성들을 처리하는데 이용하기 위해 적합한 문맥 모델을 선택할 수 있다. 도시된 바와 같이, LMSM(380)은 음성 인식 시스템에 대한 피드백 경로를 제공할 수 있다.
LMSM(380)은 또한 문서 섹션들을 인식할 수 있다. 예를 들어, LMSM(380)은 문서내의 커서 위치에 의해 문서 섹션을 판단할 수 있다. LMSM(380)은 하나 이상 의 템플릿으로 프로그래밍될 수 있는데, 여기서 템플릿은, 도입부, 배경 또는 기타 다른 정의가능한 문서 섹션과 같은 상이한 문서 섹션들의 표시자들을 포함할 수 있다. 섹션들은 사용자에 의해 정의된 섹션들이고 주제에 특정될 수 있다. 예를 들어, 섹션들은, 참 또는 거진 선택, 단답형 또는 선다형 섹션을 포함하는 주제에 특정된 테스트이거나 그렇지 않은 문서의 부분들일 수 있다. 특히, 종래의 단어 처리 프로그램들이 문서의 섹션화를 제공할 수 있다.
LMSM(380)은 언어 모델 구축기(Language Model Builder:LMB, 390)가 새로운 문맥 모델을 구축하고 문맥 모델들의 계층구조를 재구축하도록 명령하는 시점을 판단하기 위해 또한 프로그래밍될 수 있다. LMB(390)은 새로운 초기 문맥 모델을 동적으로 구축할 뿐만 아니라 문맥 모델들의 계층구조를 재구축할 수 있다. 예를 들어, 초기 문맥 모델이 문서들로부터 구축된다면, LMSM(380)은 새로운 문맥 모델이 구축되고 문맥 모델들의 계층구조가 재구축될 수 있도록 문서 또는 문서의 일부가 완료되는 시점을 결정할 수 있다. 구체적으로, 사용자가 문서를 닫거나 그렇지 않고 사용자가 문서 또는 문서의 일부를 구술하는 것을 종료하였음을 음성 인식 시스템에 알린 후에, LMSM(380)은 LMB(390)에게 지시하여 문맥 모델들의 계층구조들을 재구축할 것을 시작하도록 할 수 있다. LMSM(380)은 종래의 단어처리 프로그램들에서 사용된 것과 같은 다양한 템플릿 및 문서 섹션들로 프로그래밍될 수 있으며, 전술한 임의의 완료는 문맥 모델의 계층구조 재구축을 초래할 수 있다. 예를 들어, 텍스트 편집 프로그램의 커서가 문서 섹션을 떠날 때, LMSM(380)은 문서의 해당 섹션에 대응하는 문맥 모델을 동적으로 구축할 수 있으며 문맥 모델의 계층구 조를 재구축할 수 있다. 이와 유사하게, 문맥 모델이 단락과 같은 문서의 일부로부터 구축되면, 예를 들어, 단락의 종료 (예를 들어, 하드 리턴 명령)는 LMSM(380)에 신호를 전송하여 LMB(390)으로 하여금 가장 최근 단락 내에 포함된 텍스트와 무관하게 새로운 문맥 모델을 구축하도록 지시한다. 전술한 바와 같이, 초기의 문맥 모델은 문서 템플릿, 문서, 문서 섹션 또는 문서의 일부로부터 구축될 수 있다.
도 3b는 도 3a의 블록도와 유사한 음성 인식 엔진(210)을 포함할 수 있는 전형적인 구성요소들을 도시한 블록도이다. 그러나, 도 3b는 NLU 시스템을 포함할 수 있다. 특히, NLU 시스템은 컴퓨터로 하여금 사람이 작성하거나 말한 언어로부터 정보를 추출하고 이해할 수 있도록 해준다. 이러한 시스템은 사람의 언어를 이해할 필요가 있는 다양한 기타 컴퓨터 어플리케이션들과 상보적인 방식으로 기능할 수 있다. NLU 시스템은 텍스트내에 포함된 관련 정보를 추출한 다음에 이러한 정보를 또다른 어플리케이션 프로그램에 공급해줄 수 있다.
NLU 시스템은 LMSM(380)와 통신하여 LMSM(380)에게 대화기반 시스템에 대한 응답에 해당하는 사용자 구두어에 관한 정보를 제공한다. 이러한 정보에는 사용자가 관련된 특정의 트랜잭션 유형과, 트랜잭션 내의 사용자 위치, 상기 특정의 대화 기반 시스템 프롬프트 및 프롬프트 구문(syntax)이 포함될 수 있다. 예를 들어, NLU 시스템(395)은 사용자 구두어가 금융 시스템에서의 취소 트랜잭션과 관련하여 계좌명을 묻는 프롬프트에 대한 응답이었다는 정보를 LMSM(380)에 제공할 수 있다. 더욱이, NLU 시스템은 예상 응답이, 숫자, 특정 구문 또는 특정 주제에 관련된 텍스트 문장, 또는 예/아니오 유형의 프롬프트임을 LMSM에 알려줄 수 있다.
예를 들어, 초기의 문맥 모델은 소정의 대화 상태에 관련된 사용자 응답, 소정의 트랜잭션 주제, 특정 트랜잭션 내에서의 사용자 위치, 특정의 공지된 대화 프롬프트에 대한 사용자 응답, 또는 사용자가 응답하는 대화 프롬프트 구문들로부터 구축될 수 있다. 소정의 대화 상태라 함은 일반적으로 전술한 요소들 각각을 지칭할 수 있다.
소정의 트랜잭션 주제는 사용자가 요청한 동작 또는 명령을 의미할 수 있다. 예를 들어, 금융관리시스템에서, 트랜잭션에는 취소, 이체, 예금 등이 포함될 수 있다. 여행 시스템의 관점에서는, 트랜잭션에 비행기 예약, 렌트카 등이 포함될 수 있다. 트랜잭션은 어플리케이션마다 특정되며, NLU 시스템이 인터페이스를 제공하는 시스템에 기초한다. 따라서, 문맥 모델들은 대화 기반 시스템내에서 각각의 식별가능한 주제에 따라 구축될 수 있다.
트랜잭션 내의 위치는 사용자 응답에 대한 문맥 정보를 제공한다. 구체적으로, 임의의 소정의 트랜잭션은 하나 이상의 사용자에 의해 지정된 파라미터들을 요청할 수 있다. 따라서, 개시된 트랜잭션의 특정 유형 뿐만 아니라 수신된 파라미터에 기초하여, 음성 인식 시스템은 사용자가 응답한 대화기반 시스템 프롬프트에 대하여 정확하게 알지 못하고도 소정의 트랜잭션 내의 사용자 위치에 관련된 정보에만 근거하여 문맥 모델을 구축할 수 있다.
문맥 모델은 특정의 공지된 대화 기반 시스템 프롬프트에 대한 사용자 응답으로부터 구축될 수 있다. 부가적으로, 문맥 모델들은 특정 구문을 갖는 질문들에 대한 사용자 응답으로부터 구축될 수 있다. 예를 들어, "예 " 또는 "아니오" 시스템 프롬프트에 대한 사용자 응답들은 언어 모델 구축을 위해 그룹화될 수 있다. 이와 유사하게, "누구", "무엇", "어디", "언제", "왜" 또는 "어떻게" 질문들에 대한 사용자 응답들도 그룹화될 수 있으며, 선다형 또는 리스트형 프롬프트에 대한 사용자 응답들도 그룹화될 수 있다.
통계적 평탄화는 훈련이 덜되거나 작은 량의 훈련 데이터를 이용하는 것에 관련된 문제점을 약화시킬 수 있다. 부가적으로, 계층구조 덕분에 음성인식시스템은 문맥 의존성을 유지하면서 점차 일반화되는 모델들을 이용하여 사용자 구두어를 처리할 수 있다. 따라서, 사용자 응답이 이전에 수집된 데이터에 따르지 않는다면, 사용자 응답을 처리하기 위해 좀더 일반화된 문맥 모델이 이용될 수 있다.
따라서, LMB(390)는 동적으로 문맥 모델, 예를 들면, 초기 문맥 모델들을 구축할 수 있는데, 각각의 문맥 모델은 하나 이상의 사용자 응답들의 그룹화로부터 구축될 수 있다. 또한, LMB(390)는 대화식 프롬프트에 응답하여 주어진 사용자 구두어를 수신한 것에 응답하여 문맥 모델의 계층구조를 동적으로 재구축할 수 있다. 도 3b의 시스템은 NLU 시스템(395)이 녹음을 통해 또는 텍스트-음성 변환 기술을 이용하여 작동될 수 있는 대화식 프롬프트를 생성할 수 있다는 점에서 도 3a의 시스템과 또한 상이하다.
도 4는 도 3의 문맥 모델(360)의 예시적인 계층구조를 도시한다. 언어모델(360)은 루트 노드 아래로 연장되는 다수의 노드들 A, B, C, D, E 및 F를 갖는 트리 구조로서 도시된다. 각각의 노드는 문맥 모델에 대응할 수 있다. 단말 노드라고도 언급되는 리프 노드쌍 C 및 D 및 리프 노드쌍 E 및 F는 공지된 거리 측정법을 이용하여 관련 문맥 모델 쌍들로서 식별될 수 있다. 예를 들어, 이러한 측정법은 쿨백-리블레(Kullback-Liebler) 거리, 상대적 엔트로피, 차별 또는 분기를 포함할 수 있으며, 이에 한정되는 것은 아니다. 어느 경우이든, 문맥 모델의 하부 레벨은 공지된 측정법을 이용하여 쌍으로 그룹화될 수 있다. 바톰-업 클러스터링(bottom up clustering)이라 알려진 이러한 프로세스는 루트 노드가 결정될 때까지 계속될 수 있다.
본 발명의 또다른 실시예에서, 문맥 모델들은 문맥 모델이 도출된 구술 세션의 주제에 의해 그룹화될 수 있다. 예를 들어, 음성 인식 시스템은 단어 검색 알고리즘과 자연 언어 기술을 이용하여 선정된 주제에 따라 각각의 개별 문맥 모델(노드)을 분류하는데 이용할 수 있다. 문맥 모델은 이에 따라 관련 문맥 모델들이 쌍을 이루고, 음성 인식 시스템이 특정 주제하에 분류된 관련 문맥 모델들만을 그룹화할 수 있도록 태깅될(tagged) 수 있다. 대안적으로, 사용자는 특정 주제 분류를 정의할 수 있다. 그러한 경우에, 사용자는 음성 인식 시스템이 문맥 모델들을 분류하는데 이용할 수 있는 일련의 키워드를 입력할 수 있다. 또한, 음성 인식 시스템은 사용자가 문맥 모델의 분류를 무시하도록 허용할 수 있다.
문맥 모델의 그룹화된 쌍들은 부모 문맥 모델로 병합될 수 있다. 예를 들어, 노드 A는 그의 병합된 자식들인 리프 노드 C 및 D로부터 도출된 부모일 수 있다. 이와 유사하게, 노드 B는 그의 자식들, 리프 노드 E 및 F로부터 도출되는 부모일 수 있다. 부모 노드를 형성하기 위해 2개의 자식 노드들을 병합하는 것은 다양한 방법들을 이용하여 달성될 수 있다. 이러한 방법중 하나는 보간법이다. 예를 들어, 잠재적인 단어 후보들이 각각의 자식 노드 문맥 모델을 이용하여 처리된다. 이어서, 2개의 가능한 결과 구(phrase)들이 비교되어 가장 가능성 있는 결과가 선택된다. 각각의 문맥 모델 결과와 연관된 확률은 가중치(weighted) 상수와 곱하여진다. 그러한 경우에, 예를 들어, 리프 C에 적용되는 상수와 리프 D에 적용되는 상수는 합 1을 가질 수 있다. 부모 노드를 형성하기 위해 2개의 자식 노드들을 병합하는 또다른 방법은 문맥 모델을 구축하는 공지된 방법들을 이용하여 새로운 문맥 모델을 구축하기 위해 각각의 자식 노드에 대응하는 데이터를 이용하는 것을 포함할 수 있다. 따라서, 노드에서 부모 문맥 모델을 구축하기 위해 이용된 데이터는 부모의 2개 자식들의 혼합 데이터가 될 수 있다.
문맥 모델 계층구조의 각각의 레벨에서 두개의 노드들을 병합하기 위해 이용되는 특정 방법에 상관없이, 노드 쌍들의 그룹화 및 이러한 노드들을 부모 노드로 병합하는 것은 루트 노드에 도달할 때까지 계속될 수 있다. 부모 노드 A 및 B는 그들 자식의 공유 특성들을 포함할 수 있다. 유사하게, 루트 노드는 그의 자식들, 노드 A 및 B에 대응하는 문맥 모델들의 공유 특성을 포함할 수 있다. 따라서, 문맥 모델의 계층구조는 문맥 모델들의 분류를 제공하고, 각각은 거기에 구체화된 사용자에 따른 말하기 스타일의 혼합물을 포함한다. 부모 문맥 모델들이 혼합 데이터를 이용하여 구축된 경우에, 문맥 모델의 최종 계층구조는 단일의 계층적 언어 모델로서 지칭될 수 있다. 따라서, 가장 아래의 문맥 모델들이 가장 구체적인 모 델들이 될 수 있다. 특정의 문맥 모델이 만족할만한 만족도 점수를 산출하지 못한다면, 트리는 좀더 일반화된 문맥 모델로 올라갈 수 있다.
도 5는 도 1의 컴퓨터 시스템 및 도 2의 음성 인식 엔진을 이용하여 수행된 계층적 문맥 모델 생성 방법을 예시적으로 설명한 흐름도(500)이다. 방법은 음성 인식 시스템이 이후 생성될 문맥 모델 계층구조의 하단 행인, 리프 노드 C,D, E 및 F와 연관된 문맥 모델들과 같은 다수의 문맥 모델들을 축적한 상태에서 시작한다. 이러한 문맥 모델들, 시작 문맥 모델들은 사용에 따라 다르다. 예를 들어, 일반적인 구술의 경우에, 음성 인식 시스템은 특정 사용자에 대응하는 각각의 이전 구술 세션, 문서, 문서의 일부, 또는 문서의 섹션에 대한 새로운 문맥 모델을 생성할 수 있다.
도면에서, 음성 인식 시스템은 부모 어플리케이션에 대한 문맥 모델을 생성할 수 있다. 음성 인식 시스템은 부모 어플리케이션의 각각의 부분에 대한 문맥 모델을 생성할 수 있다. 예를 들어, 다양한 출원의 청구항들은 유사한 특징을 포함할 수 있으며, 요약, 상세한 설명 및 발명의 요약도 유사한 특징을 포함할 수 있다. 따라서, 문맥 모델은 출원과 같은 문서의 각 부분에 대해 구축될 수 있다. 또다른 실시예는 세부 부분들에 대한 문맥 모델을 구축하는 것을 포함할 수 있다. 예를 들어, 독립항에 대하여 하나의 문맥 모델이 구축될 수 있고 종속항에 대해 또다른 모델이 구축될 수 있다. 문서의 임의의 식별가능한 부분은 대응 문맥 모델을 구축하는데 이용될 수 있다. 종래의 워드 프로세서들은 문서들을 하나 이상의 단락으로 분류할 수 있다. 예를 들어, 이러한 분류는 문서에 대한 각각의 식별가능한 부분들에 대한 문맥 모델을 생성하는데 이용될 수 있다.
대화기반 시스템에서 이용된 문맥 모델의 경우에, 각각의 시작 문맥 모델은 대화기반 시스템에 의해 송출된 각각의 프롬프트에 대한 응답들인 일단의 문장들에 대응할 수 있다. 어느 경우이든, 시작 문맥 모델들, 또는 계층구조의 하단 행은 문맥 모델들간의 보간 또는 새로운 부모 문맥 모델들을 이후에 구축하는 기초로 작용할 수 있으며, 이들 모두는 최종적인 문맥 모델 계층구조를 포함할 수 있다.
음성 인식 시스템은 음성 인식 시스템에게 특정 사용자에 대응하는 최근 n개의 구술 세션들, 문서, 또는 응답들에 대한 문맥 모델을 저장하도록 지시하기 위한 사용자 조정 파라미터들을 포함할 수 있다. 대안적으로, 음성 인식 시스템은 문맥 모델의 특정 주제 분류에 대응하는 최근 n개의 문맥 모델들을 저장할 수 있다. 예를 들어, 최근 n개의 비즈니스 관련 문맥 모델들이 저장될 수 있으며, 최근 n개의 개인 편지 문맥 모델이 저장될 수 있다. 또한, 파라미터는 사용자별로 지정될 수 있을 뿐만 아니라, 주제별로도 지정될 수 있다. 따라서, 사용자 A는 각각의 주제 분류에 대한 n개의 특정값에 부가하여, n개의 전체 값을 판단할 수 있다. 또한, 사용자 B는 각각의 주제 분류에 대한 n개의 상이한 값들에 부가하여 n개의 전체값을 설정할 수 있다. 또한, 사용자 B에 의해 설정된 n 값은 사용자 A에 의해 설정된 n 값과는 전혀 관계없다. 이에 의해, 시스템이 필요한 만큼 일반화될 수 있다.
도 5의 방법은 사용자별로 수행될 수 있다. 더욱이, 도 1의 컴퓨터 시스템이 적당한 처리능력을 갖추었다면, 방법(500)은 각각의 새로운 사용자 구술 세션, 문서, 또는 사용자 응답이 개시될 때 수행될 수 있다. 따라서, 특정 사용자에 대응하는 문맥 모델의 계층구조는 꾸준히 갱신될 수 있다. 대안적으로, 방법(500)은 주기적으로 음성 인식 시스템에 의해 자동 수행되거나 사용자 요청에 응답하는 오프라인 방식으로 수행될 수 있다.
어느 경우이든, 단계(510)에서, 음성 인식 시스템은 각각의 문맥 모델이 특정 사용자에 대응하는 모든 다른 문맥 모델들과 얼마나 근접하여 관련되어 있는지를 판단하기 위해 거리 측정법을 이용할 수 있다. 언급한 바와 같이, 음성 인식 시스템은 쿨백-리블레 거리법 뿐만 아니라 관련도 또는 거리 판단을 위한 각 문맥 모델의 주제 분류를 이용할 수 있다. 단계(510)의 완료후에, 방법은 단계(520)로 계속된다.
단계(520)에서, 음성 인식 시스템은 가장 작은 거리를 갖는 문맥 모델쌍을 식별해낼 수 있다. 단계(520)의 완료후에, 방법은 문맥 모델들이 병합되는 단계(530)로 진행한다. 언급된 바와 같이, 문맥 모델들은 보간법 또는 각 자식 문맥 모델의 데이터를 이용함으로써 병합되어 새로운 부모 문맥 모델을 구축할 수 있다. 문맥 모델이 각각의 병합된 부모 노드에서 재구축된다면, 루트 노드는 단일의 언어 모델을 이용하는 것에 대응할 수 있다. 그러한 경우에, 계층적 문맥 모델의 노드들은 문맥 모델의 초기 도출로부터 제공되거나 제외될 수 있는 데이터를 이용하여 평탄화될 수 있다. 제외된 데이터는 최종 계층적 문맥 모델의 통계적 평탄화를 수행하기 위해 이용될 수 있다. 따라서, 문맥 모델은 리프 노드로부터 루트 노드에 이르는 모든 문맥 모델들의 보간치가 될 수 있다. 어쨌든, 단계(530)의 완 료후에, 방법은 단계(540)로 진행한다.
단계(540)에서, 음성 인식 시스템은 단일의 루트 노드가 결정되었는지를 판단한다. 좀더 구체적으로, 음성 인식 시스템은 문맥 모델의 계층구조가 단일 노드에서 종료되는지를 판단할 수 있다. 그렇다면, 방법은 종료할 수 있다. 그렇지 않다면, 방법은 단계(510)로 돌아가서 반복한다. 방법(500)은 필요한 만큼 반복될 수 있으며, 방법을 반복할 때마다 단일 루트 노드로 향하여 올라가는 방향으로 문맥 모델의 계층구조에 대한 또다른 레벨이 생성될 수 있다.
도 6은 도 4의 문맥 모델 계층구조를 이용하여 음성을 텍스트로 변환하는 예시적인 방법을 도시한 흐름도(600)이다. 구체적으로, 음성 인식 시스템은 적합한 문맥 모델을 선택하여, 수신된 사용자 구두어에 기초하여 이후에 사용자 구두어를 처리할 수 있다. 컴퓨터 시스템이 불합리한 지연없이 실시간으로 음성을 텍스트로 변환시킬 수 있는 충분한 처리 능력을 갖추었다면, 음성 인식 시스템에 의해 수신된 각 사용자 발음 또는 문장에 대하여 문맥 모델 판단이 수행될 수 있다. 예를 들어, 수신된 사용자 구두어 내의 각 검출가능한 잠시멈춤 이후에, 음성 인식 시스템은 방법(600)을 수행할 수 있다.
대안적으로, 구술 세션의 시작시점에, 음성 세션 전체에 걸쳐서 주기적으로, 또는 판단을 수행하라는 사용자 명령에 응답하여 판단이 수행될 수 있다. 예를 들어, 음성 인식 시스템은 사용자가 선정된 시간동안 구술한 후에 자동적으로, 또는 선정된 임계치밑으로 떨어지는 만족도 점수에 응하여 판단을 수행할 수 있다. 사용자 요청의 경우에, 사용자가 상이한 구술 스타일, 또는 주제(예를 들어, 비즈니스에서의 사적 응답)를 변화할 때 판단이 이루어지도록 사용자가 요청할 수 있다.
방법(600)은 음성 인식 시스템이 텍스트 입력을 수신하는 단계(610)에서 시작한다. 텍스트 입력은 음성 인식 시스템으로부터 도출되거나 기존 문서내의 텍스트가 될 수 있다. 텍스트는 수신된 전자메일 메시지일 수도 있다. 단계(610)의 완료 후에, 방법은 단계(620)로 진행한다. 단계(620)에서, 음성 인식 시스템은 문맥 모델의 계층구조를 이용하여 수신된 텍스트를 처리할 수 있다. 예를 들어, 텍스트는 문맥 모델의 계층구조내에 포함된 문맥 모델들 각각을 이용하여 처리될 수 있다. 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 이후의 음성 구두어를 텍스트로 변환시키는데 이용하기 위한 올바른 또는 가장 적합한 문맥 모델로서 식별될 수 있다. 프로세싱은 직렬 또는 병렬로 진행될 수 있다.
예를 들어, 대화기반 시스템에서, 특정 대화 프롬프트에 응답하여 "예" 또는 "아니오" 응답이 사용자로부터 기대될 수 있지만, 사용자는 "예, 그러나 나는 X를 좋아한다"라고 응답할 수도 있다. 이러한 경우에,사용자는 응답과 함께,부가적인 정보를 제공한 것이다. 따라서, 대화기반 시스템은 사용자가 응답한 프롬프트에 대응하는 문맥 모델을 포함할 수 있지만, 사용자 응답은 또다른 시스템 프롬프트에 예측되는 응답에 더 근접하여 닮을 수 있다. 물론, 예측되는 응답은 "예" 또는 "아니오"에 제한되는 것은 아니다. 어쨌든, 음성 인식 시스템으로부터 도출된 텍스트는 문맥 모델의 계층구조로써 처리될 수 있다. 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 식별될 수 있다. 사용자 응답은 NLU 시스템에 의해 예측되는 사용자 응답의 유형으로부터 변형되었기 때문에, 식별된 문맥 모델은 사용자가 응답한 특정 대화 프롬프트로부터 사용자 응답을 처리하는 것과 통상 연관되어 있는 문맥 모델과 다를 수 있다. 식별된 문맥 모델은 또한 사용자 구두어를 텍스트로 변환시키기 위해 음성 인식 시스템에 의해 이용된 문맥 모델과도 다를 수 있다.
본 발명의 또다른 실시예에서, 식별가능한 문서 단락에 대응하는 문맥 모델이 식별될 수 있다. 예를 들어, 사용자가 문서를 구술하는 중이고 음성 인식 시스템은 사용자의 커서가 문서의 특정 단락 내에 위치하고 있음을 판단한 경우에, 음성 인식 시스템은 해당 문서 단락에 대응하는 문맥 모델을 식별할 수 있다. 식별된 문맥 모델은, 적어도 초기에는, 사용자의 커서가 대응하는 문서 단락에 위치하는 동안에 이후에 수신된 사용자 구두어를 처리하기 위해 이용될 수 있다. 사용자는 음성 또는 포인터 명령을 통하는 것과 같이 또 다른 방법으로 문서 단락을 음성 인식 시스템에 지정해줄 수 있다. 문맥 모델을 판단하는 다른 방법들도 마찬가지로 통합될 수 있다. 예를 들어, 불만족스러운 만족도 점수에 의거하여, 음성 인식 시스템은 또다른 문맥 모델을 선호하여 상기 식별된 문맥 모델을 이용하는 것을 중단할 수 있다.
음성 인식 시스템은 선정된 최소 임계치보다 높은 만족도 점수로써 텍스트를 산출하는 하나 이상의 문맥 모델들을 식별할 수 있음을 이해하여야 할 것이다. 그러한 경우에, 음성 인식 시스템은 각각의 식별된 문맥 모델을 이용할 수 있으며, 각 모델을 이용한 결과들은 확률 계수를 이용하여 가중치가 더해질 수 있다. 예를 들어, 계수는 최종 텍스트의 만족도 점수에 직접 연관될 수 있다. 대안적으로, 음 성 인식 시스템은 식별된 문맥 모델들간에 보외할 수 있다(extrapolate). 가장 높은 만족도 점수를 갖는 텍스트를 산출하는 문맥 모델이 선택될 수 있다. 단계(620)의 완료 이후에, 방법은 단계(630)로 진행한다.
단계(630)에서, 식별된 문맥 모델은 음성 인식 시스템에서 이후의 사용자 구두어를 처리하는데 이용될 수 있다. 음성 인식 시스템은 문맥 모델 판단이후의 특정 시간량내에서 이후에 발생하는 사용자 구두어는 판단하는데 이용된 텍스트와 유사한 구문 및 어휘를 갖거나 유사한 주제에 관련될 가능성이 많다는 가정에서 처리될 수 있다. 따라서, 주제에 의거하여 문맥 모델을 선택할 뿐만 아니라, 구술 시스템에 관련하여, 상기 방법은 NLU 시스템 내의 대화 상태에 따른 문맥 모델의 계층구조로부터 문맥 모델을 선택할 수 있다.
본 발명의 또다른 실시예는 수신된 전자 메일에 의거하여 문맥 모델을 선택하는 것을 포함한다. 예를 들어, 수신된 전자 메일은 해당 전자 메일에 대응하는 적절한 문맥 모델을 판단하기 위해 처리될 수 있다. 식별된 문맥 모델은 이후의 사용자 구두어를 텍스트로 변화시키는데 이용될 수 있다. 문맥 모델은 사용자가 수신된 전자 메일 메시지에 답변할 수 있는 구술 세션동안 사용자 구두어를 변환시키는데 이용될 수 있다. 따라서, 수신된 전자 메일은 수신된 전자 메일의 주제에 대응하는 문맥 모델을 판단하기 위해 처리될 수 있다. 해당 전자 메일에 대한 사용자의 구술 응답을 처리하기 위해 해당 문맥 모델이 이용될 수 있다. 또한, 음성 인식 시스템은 메시지 주제를 포함하여 수신된 전자 메일 메시지의 상이한 부분들을 처리할 수 있다. 또다른 실시예에서, 합한 문맥 모델을 판단하는데 있어서 부가적인 가중치가 주제에 부여될 수 있다. 단계(630)의 완료 이후에, 방법은 단계(640)로 진행한다.
단계(640)에서, 세그먼트가 완료되면, 방법은 단계(650)로 진행한다. 그렇지 않으면, 방법은 좀더 많은 텍스트를 수집하기 위해 단계(610)로 계속한다. 세그먼트는 문맥 모델 계층구조를 위한 기반으로서의 역할을 수행하는 초기 문맥 모델을 구축하는데 이용된 텍스트 단위에 해당한다. 예를 들어, 세그먼트는 문서, 절, 문장, 문서의 일부, 또는 소정의 대화 프롬프트에 대한 사용자 응답들에 대응할 수 있다. 선정된 량의 텍스트가 수집되면, 세그먼트는 완성된다. 대안적으로, 사용자는 텍스트로 변환될 사용자 구두어의 시작과 끝을 음성 인식 시스템에 통지할 수 있다. 어느 경우이든, 초기 문맥 모델을 구축하기 위해 이용되는 텍스트량이 수집되고 이에 의해 세그먼트를 완성한다.
세그먼트가 완성되면, 단계(650)에서, 방법은 완성된 세그먼트에 대응하는 새로운 문맥 모델을 동적으로 구축할 수 있다. 부가적으로, 방법은 문맥 모델의 계층구조를 동적으로 재구축하기 위해 방법(500)을 실행할 수 있다. 단계(650)의 완료 이후에, 방법은 반복될 수 있다.

Claims (17)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 문맥 모델의 계층구조를 생성하는 방법에 있어서, 상기 방법은
    (a) 거리 측정법(distance metric)을 이용하여 복수의 문맥 모델들의 각 모델 사이의 거리를 측정하는 단계 - 상기 복수의 문맥 모델들중 적어도 하나는 문서의 일부 또는 대화기반 시스템내의 사용자 응답중 적어도 하나에 대응함-와,
    (b) 상기 복수의 문맥 모델들중에서 다른 모델들보다 거리면에서 더 근접하여 있는 2개의 문맥 모델들을 식별하는 단계와,
    (c) 상기 식별된 문맥 모델들을 부모 문맥 모델로 병합하는 단계와,
    (d) 상기 다수의 문맥 모델들의 계층구조가 생성될 때까지 단계(a), (b) 및 (c)를 반복하는 단계 - 상기 계층구조는 루트 노드를 구비함- 와,
    (e) 언어 모델을 형성하기 위해 상기 다수의 문맥 모델들의 상기 계층구조를 통계적으로 평탄화하는 단계
    를 포함하는 문맥 모델의 계층 구조 생성 방법.
  5. 제4항에 있어서, 상기 병합 단계(c)는 상기 식별된 문맥 모델들간을 보간하는 단계를 더 포함하고, 상기 보간은 상기 식별된 문맥 모델들의 조합으로 귀착되는 문맥 모델의 계층 구조 생성 방법.
  6. 제4항에 있어서,상기 병합 단계(c)는 상기 식별된 문맥 모델들에 대응하는 데이터를 이용하여 부모 문맥 모델을 구축하는 단계를 더 포함하는 문맥 모델의 계층 구조 생성 방법.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 문서의 섹션에 대응하는 문맥 모델의 계층 구조 생성 방법.
  12. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템의 특정 대화 상태에 수신된 적어도 하나의 사용자 응답에 대응하는 문맥 모델의 계층 구조 생성 방법.
  13. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템내의 특정 트랜잭션에서의 특정 위치에서 수신된 적어도 하나의 사용자 응답에 대응하는 문맥 모델의 계층 구조 생성 방법.
  14. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 대화 기반 시스템의 프롬프트 구문(syntax of a prompt)에 대응하는 문맥 모델의 계층 구조 생성 방법.
  15. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 특정의 공지된 대화 기반 시스템 프롬프트에 대응하는 문맥 모델의 계층 구조 생성 방법.
  16. 제4항에 있어서, 상기 복수의 문맥 모델들중 적어도 하나는 수신된 전자 메일 메시지에 대응하는 문맥 모델의 계층 구조 생성 방법.
  17. 제4항 내지 제6항 및 제11항 내지 제16항중 어느 한 항에 따른 문맥 모델의 계층 구조 생성 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능한 기록매체.
KR1020037010835A 2001-03-01 2002-02-28 계층적 언어 모델 KR100563365B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/798,655 US6754626B2 (en) 2001-03-01 2001-03-01 Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US09/798,655 2001-03-01
PCT/GB2002/000889 WO2002071391A2 (en) 2001-03-01 2002-02-28 Hierarchichal language models

Publications (2)

Publication Number Publication Date
KR20030076686A KR20030076686A (ko) 2003-09-26
KR100563365B1 true KR100563365B1 (ko) 2006-03-22

Family

ID=25173942

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037010835A KR100563365B1 (ko) 2001-03-01 2002-02-28 계층적 언어 모델

Country Status (10)

Country Link
US (1) US6754626B2 (ko)
EP (1) EP1366490B1 (ko)
JP (1) JP3940363B2 (ko)
KR (1) KR100563365B1 (ko)
CN (1) CN1256714C (ko)
AT (1) ATE276568T1 (ko)
CA (1) CA2437620C (ko)
DE (1) DE60201262T2 (ko)
ES (1) ES2227421T3 (ko)
WO (1) WO2002071391A2 (ko)

Families Citing this family (150)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
KR100480272B1 (ko) * 2001-10-31 2005-04-07 삼성전자주식회사 소결합 고도 병렬 라우터 내의 라우팅 조정 프로토콜을위한 프리픽스 통합 방법
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
FR2841355B1 (fr) 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US7171358B2 (en) * 2003-01-13 2007-01-30 Mitsubishi Electric Research Laboratories, Inc. Compression of language model structures and word identifiers for automated speech recognition systems
US20040138883A1 (en) * 2003-01-13 2004-07-15 Bhiksha Ramakrishnan Lossless compression of ordered integer lists
US7346151B2 (en) * 2003-06-24 2008-03-18 Avaya Technology Corp. Method and apparatus for validating agreement between textual and spoken representations of words
CA2486128C (en) 2003-10-30 2011-08-23 At&T Corp. System and method for using meta-data dependent language modeling for automatic speech recognition
US8656274B2 (en) * 2003-10-30 2014-02-18 Avaya Inc. Automatic identification and storage of context information associated with phone numbers in computer documents
US7295981B1 (en) * 2004-01-09 2007-11-13 At&T Corp. Method for building a natural language understanding model for a spoken dialog system
US7231019B2 (en) * 2004-02-12 2007-06-12 Microsoft Corporation Automatic identification of telephone callers based on voice characteristics
CN1655232B (zh) * 2004-02-13 2010-04-21 松下电器产业株式会社 上下文相关的汉语语音识别建模方法
US8687792B2 (en) * 2004-04-22 2014-04-01 Hewlett-Packard Development Company, L.P. System and method for dialog management within a call handling system
US7908143B2 (en) * 2004-04-28 2011-03-15 International Business Machines Corporation Dialog call-flow optimization
US8768969B2 (en) * 2004-07-09 2014-07-01 Nuance Communications, Inc. Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US20130304453A9 (en) * 2004-08-20 2013-11-14 Juergen Fritsch Automated Extraction of Semantic Content and Generation of a Structured Document from Speech
US7584103B2 (en) 2004-08-20 2009-09-01 Multimodal Technologies, Inc. Automated extraction of semantic content and generation of a structured document from speech
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
US7840404B2 (en) * 2004-09-20 2010-11-23 Educational Testing Service Method and system for using automatic generation of speech features to provide diagnostic feedback
US7392187B2 (en) * 2004-09-20 2008-06-24 Educational Testing Service Method and system for the automatic generation of speech features for scoring high entropy speech
US7630976B2 (en) * 2005-05-10 2009-12-08 Microsoft Corporation Method and system for adapting search results to personal information needs
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
WO2007066304A1 (en) 2005-12-08 2007-06-14 Koninklijke Philips Electronics N.V. Method and system for dynamic creation of contexts
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US8301448B2 (en) 2006-03-29 2012-10-30 Nuance Communications, Inc. System and method for applying dynamic contextual grammars and language models to improve automatic speech recognition accuracy
US7992091B2 (en) * 2006-03-30 2011-08-02 At&T Intellectual Property I, L.P. Message-oriented divergence and convergence of message documents
US9497314B2 (en) * 2006-04-10 2016-11-15 Microsoft Technology Licensing, Llc Mining data for services
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
WO2007150006A2 (en) * 2006-06-22 2007-12-27 Multimodal Technologies, Inc. Applying service levels to transcripts
ATE466361T1 (de) * 2006-08-11 2010-05-15 Harman Becker Automotive Sys Spracherkennung mittels eines statistischen sprachmodells unter verwendung von quadratwurzelglättung
US8418217B2 (en) 2006-09-06 2013-04-09 Verizon Patent And Licensing Inc. Systems and methods for accessing media content
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8316320B2 (en) * 2006-10-03 2012-11-20 Verizon Patent And Licensing Inc. Expandable history tab in interactive graphical user interface systems and methods
US8464295B2 (en) * 2006-10-03 2013-06-11 Verizon Patent And Licensing Inc. Interactive search graphical user interface systems and methods
US20080091423A1 (en) * 2006-10-13 2008-04-17 Shourya Roy Generation of domain models from noisy transcriptions
EP2089877B1 (en) * 2006-11-16 2010-04-07 International Business Machines Corporation Voice activity detection system and method
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8521511B2 (en) 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US8019760B2 (en) * 2007-07-09 2011-09-13 Vivisimo, Inc. Clustering system and method
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457967B2 (en) * 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
GB2478314B (en) * 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
US8959102B2 (en) 2010-10-08 2015-02-17 Mmodal Ip Llc Structured searching of dynamic structured document corpuses
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8977537B2 (en) 2011-06-24 2015-03-10 Microsoft Technology Licensing, Llc Hierarchical models for language modeling
US9733901B2 (en) 2011-07-26 2017-08-15 International Business Machines Corporation Domain specific language design
US10229139B2 (en) 2011-08-02 2019-03-12 Cavium, Llc Incremental update heuristics
JP5657840B2 (ja) * 2011-08-02 2015-01-21 カビウム・インコーポレーテッド ルックアップ・フロントエンド・パケット出力プロセッサ
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9275411B2 (en) * 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10354650B2 (en) * 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US8880398B1 (en) 2012-07-13 2014-11-04 Google Inc. Localized speech recognition with offload
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US20140136210A1 (en) * 2012-11-14 2014-05-15 At&T Intellectual Property I, L.P. System and method for robust personalization of speech recognition
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
US9361884B2 (en) 2013-03-11 2016-06-07 Nuance Communications, Inc. Communicating context across different components of multi-modal dialog applications
US9269354B2 (en) 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9761225B2 (en) 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US10083200B2 (en) 2013-03-14 2018-09-25 Cavium, Inc. Batch incremental update
US9430511B2 (en) 2013-03-15 2016-08-30 Cavium, Inc. Merging independent writes, separating dependent and independent writes, and error roll back
US9195939B1 (en) 2013-03-15 2015-11-24 Cavium, Inc. Scope in decision trees
US9595003B1 (en) 2013-03-15 2017-03-14 Cavium, Inc. Compiler with mask nodes
US9626960B2 (en) * 2013-04-25 2017-04-18 Nuance Communications, Inc. Systems and methods for providing metadata-dependent language models
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
US9412365B2 (en) * 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US20150309984A1 (en) * 2014-04-25 2015-10-29 Nuance Communications, Inc. Learning language models from scratch based on crowd-sourced user text input
US9972311B2 (en) 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
US9437189B2 (en) * 2014-05-29 2016-09-06 Google Inc. Generating language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
EP3161666A1 (en) * 2014-06-25 2017-05-03 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9734826B2 (en) 2015-03-11 2017-08-15 Microsoft Technology Licensing, Llc Token-level interpolation for class-based language models
US10108603B2 (en) * 2015-06-01 2018-10-23 Nuance Communications, Inc. Processing natural language text with context-specific linguistic model
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10274911B2 (en) * 2015-06-25 2019-04-30 Intel Corporation Conversational interface for matching text of spoken input based on context model
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
CN111710333B (zh) 2016-06-08 2024-01-09 谷歌有限责任公司 用于生成语音转录的方法和系统
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108573697B (zh) * 2017-03-10 2021-06-01 北京搜狗科技发展有限公司 一种语言模型更新方法、装置及设备
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10832658B2 (en) 2017-11-15 2020-11-10 International Business Machines Corporation Quantized dialog language model for dialog systems
CN108922543B (zh) * 2018-06-11 2022-08-16 平安科技(深圳)有限公司 模型库建立方法、语音识别方法、装置、设备及介质
US11372823B2 (en) * 2019-02-06 2022-06-28 President And Fellows Of Harvard College File management with log-structured merge bush
EP3965101A4 (en) * 2019-05-31 2022-06-29 Huawei Technologies Co., Ltd. Speech recognition method, apparatus and device, and computer-readable storage medium
CN114078469B (zh) * 2022-01-19 2022-05-10 广州小鹏汽车科技有限公司 语音识别方法、装置、终端和存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4320522A (en) * 1980-05-09 1982-03-16 Harris Corporation Programmable frequency and signalling format tone frequency encoder/decoder circuit
CH662224A5 (de) * 1982-10-01 1987-09-15 Zellweger Uster Ag Digitalfilter fuer fernsteuerempfaenger, insbesondere fuer rundsteuerempfaenger.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US5257313A (en) * 1990-07-09 1993-10-26 Sony Corporation Surround audio apparatus
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
US5694558A (en) * 1994-04-22 1997-12-02 U S West Technologies, Inc. Method and system for interactive object-oriented dialogue management
US5742797A (en) * 1995-08-11 1998-04-21 International Business Machines Corporation Dynamic off-screen display memory manager
US5832492A (en) * 1995-09-05 1998-11-03 Compaq Computer Corporation Method of scheduling interrupts to the linked lists of transfer descriptors scheduled at intervals on a serial bus
US6278973B1 (en) * 1995-12-12 2001-08-21 Lucent Technologies, Inc. On-demand language processing system and method
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
US5913038A (en) * 1996-12-13 1999-06-15 Microsoft Corporation System and method for processing multimedia data streams using filter graphs
EP0903727A1 (en) 1997-09-17 1999-03-24 Istituto Trentino Di Cultura A system and method for automatic speech recognition
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6185530B1 (en) * 1998-08-14 2001-02-06 International Business Machines Corporation Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
JP4244423B2 (ja) * 1999-01-28 2009-03-25 株式会社デンソー 適正単語列推定装置
US6253179B1 (en) * 1999-01-29 2001-06-26 International Business Machines Corporation Method and apparatus for multi-environment speaker verification
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6308151B1 (en) * 1999-05-14 2001-10-23 International Business Machines Corp. Method and system using a speech recognition system to dictate a body of text in response to an available body of text

Also Published As

Publication number Publication date
DE60201262T2 (de) 2005-11-17
WO2002071391A3 (en) 2002-11-21
US20020123891A1 (en) 2002-09-05
CN1256714C (zh) 2006-05-17
ATE276568T1 (de) 2004-10-15
ES2227421T3 (es) 2005-04-01
US6754626B2 (en) 2004-06-22
KR20030076686A (ko) 2003-09-26
EP1366490B1 (en) 2004-09-15
JP2004523004A (ja) 2004-07-29
CA2437620A1 (en) 2002-09-12
CN1535460A (zh) 2004-10-06
WO2002071391A2 (en) 2002-09-12
JP3940363B2 (ja) 2007-07-04
DE60201262D1 (de) 2004-10-21
CA2437620C (en) 2005-04-12
EP1366490A2 (en) 2003-12-03

Similar Documents

Publication Publication Date Title
KR100563365B1 (ko) 계층적 언어 모델
EP1696421B1 (en) Learning in automatic speech recognition
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP4510953B2 (ja) 音声認識におけるノンインタラクティブ方式のエンロールメント
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP4267081B2 (ja) 分散システムにおけるパターン認識登録
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
US20010041977A1 (en) Information processing apparatus, information processing method, and storage medium
US20060009965A1 (en) Method and apparatus for distribution-based language model adaptation
JP2001100781A (ja) 音声処理装置および音声処理方法、並びに記録媒体
Neubig et al. Bayesian learning of a language model from continuous speech
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
JP5073024B2 (ja) 音声対話装置
Granell et al. Multimodal crowdsourcing for transcribing handwritten documents
Granell et al. A multimodal crowdsourcing framework for transcribing historical handwritten documents
US20040006469A1 (en) Apparatus and method for updating lexicon
Pietquin et al. Comparing ASR modeling methods for spoken dialogue simulation and optimal strategy learning.
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
López-Cózar et al. Testing dialogue systems by means of automatic generation of conversations
US11900072B1 (en) Quick lookup for speech translation
Liao et al. Towards the Development of Automatic Speech Recognition for Bikol and Kapampangan
Wiggers HIDDEN MARKOV MODELS FOR AUTOMATIC SPEECH RECOGNITION

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130221

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140220

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150226

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160218

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee