KR101741734B1

KR101741734B1 - 병렬 인식 태스크에 따른 음성 인식

Info

Publication number: KR101741734B1
Application number: KR1020167017225A
Authority: KR
Inventors: 브라이언 스트로프; 프랑수아즈 뷰페이즈; 올리비어 시오한
Original assignee: 구글 인코포레이티드
Priority date: 2008-07-02
Filing date: 2009-07-02
Publication date: 2017-06-15
Also published as: KR101635990B1; EP2301012B1; JP5336590B2; US20140058728A1; CN103761968B; JP2014056278A; JP6435312B2; JP2013238885A; US20180330735A1; CN102138175A; US8571860B2; US10699714B2; US11527248B2; US8364481B2; US9373329B2; CN102138175B; JP2011527030A; JP2017076139A; KR20150103326A; US20100004930A1

Abstract

본 명세서의 주제는 다른 무엇보다도 오디오 신호를 수신하는 단계 및 복수의 음성 인식 시스템들(SRS's)에 의해 음성 인식 태스크를 개시하는 단계를 포함하는 방법으로 구현될 수 있다. SRS 각각은 상기 오디오 신호에 포함된 가능한 음성을 특정하는 인식 결과 및 상기 인식 결과의 정확성에 있어 신뢰도를 지시하는 신뢰도 값을 생성하도록 설정될 수 있다. 또한 상기 방법은, 하나 이상의 인식 결과, 및 그 하나 이상의 인식 결과에 대한 하나 이상의 신뢰도 값을 생성하는 단계를 포함하는 음성 인식 태스크들의 일부분을 완료하는 단계, 상기 하나 이상의 신뢰도 값이 신뢰도 임계치를 충족하는지를 결정하는 단계, 완료되지 않은 SRS들을 위한 음성 인식 태스크들의 나머지 부분을 중단하는 단계, 및 생성된 하나 이상의 인식 결과 중 적어도 하나를 기초로 최종 인식 결과를 출력하는 단계를 포함한다.

Description

병렬 인식 태스크에 따른 음성 인식{SPEECH RECOGNITION WITH PARALLEL RECOGNITION TASKS}

본 명세서는 음성 인식에 관한 것이다.

많은 애플리케이션들이 음성 커맨드(commands) 또는 쿼리(queries)의 형태로 입력을 받는다는 점에 이익을 얻고 있다. 이것은 특히, 디바이스의 감소된 사이즈 때문에 사용자의 손가락으로 조작되는 작은 키패드나 다른 디바이스를 통해 입력하는 것이 어려운, 셀룰러 전화기와 같은 모바일 디바이스에서 구동하는 애플리케이션들에 있어 사실이다. 유사하게, 모바일 디바이스가 다른 디바이스(예컨대, 이메일 서버, 지도/방향 서버, 또는 전화번호부 서버)에서 구동되는 애플리케이션에 접근하기 위해 사용된다면, 작은 키패드 등을 통해 커맨드를 입력하는 대신 음성 커맨드를 애플리케이션에 전하는 것이 사용자에게 훨씬 쉬울 수 있다.

애플리케이션이 구두 입력으로 동작하려면, 음성 인식기는 구두 입력을 애플리케이션에 의해 사용가능한 상징적인 표시들로 변환할 수 있다. 일부 최신 음성 인식기들은 구두 입력 안에서 가능한 음성 식별을 시도하는 단일 인식 시스템을 사용할 수 있다. 단일 음성 인식 시스템의 사용은 음성 인식의 정확성을, 그 단일 음성 인식 시스템과 연관된 정확성의 한도로 제한할 수 있다. 다른 최신 음성 인식기들은, 구두 입력에 대하여 2 이상의 패스들을 수행하여 그 구두 입력이 표현할 가능성이 높은 음성을 결정하는 순차적 음성 인식을 사용할 수 있다. 상기 다중 패스들의 이용은 최종 음성 인식 결과를 생성하기 위해 요구되는 시간을 증가시킬 수 있다.

*다른 최신 음성 인식기에 있어, 다중 음성 인식 시스템들 각각은 상기 구두 입력 및 출력 결과를 완전히 처리할 수 있다. 또한 다중 음성 인식 시스템들의 사용은, 처리 시간의 길이가 가장 느린 음성 인식 시스템에 의해(및/또는 음성 인식 알고리즘들을 실행하는 가장 느린 컴퓨터에 의해) 결정될 수 있기 때문에, 최종 결과를 생성하기 위해 요구되는 시간을 증가시킬 수 있다.

일반적으로, 본 명세서는 다중 음성 인식 시스템(speech recognition system; SRS)들을 이용하여 병렬적으로 음성을 인식하지만, 생성된 인식 결과(들)이 바람직한 임계치를 충족하지 못하면 완료 전에 일부를 중단하는 음성 인식을 설명한다. 예를 들어, 각자의 SRS는 음성 인식 태스크들을 수행하는 데 있어 다른 대기 시간 및 정확성을 가질 수 있다. 낮은 대기 시간을 가진 SRS들이 음성 인식 결과 및 그 음성 인식 결과에서 높은 신뢰도를 나타내는 신뢰도 값을 출력하면, 나머지 SRS들에 의해 실행되는 음성 인식 태스크들은 중단될 수 있다. 상기 신뢰도 값이 신뢰도 임계치에 비하여 아주 낮다면, 더 많은 SRS들이 결과들을 생성하도록 허용될 수 있다. 이러한 결과들이 신뢰도 임계치를 충족하면, 음성 인식 태스크를 아직 완료하지 않은 SRS들은 중단 등이 될 수 있다.

첫 번째 측면에서, 컴퓨터로 구현되는 방법을 설명한다. 상기 방법은 오디오 신호를 수신하는 단계 및 복수의 음성 인식 시스템들(SRS's)에 의해 음성 인식 태스크를 개시(initiate)하는 단계를 포함하는 방법으로 구현될 수 있다. SRS 각각은 상기 오디오 신호에 포함된 가능한 음성을 특정하는 인식 결과 및 상기 인식 결과의 정확성에 있어 신뢰도를 지시하는 신뢰도 값을 생성하도록 설정될 수 있다. 또한 상기 방법은, 하나 이상의 인식 결과, 및 그 하나 이상의 인식 결과에 대한 하나 이상의 신뢰도 값을 생성하는 단계를 포함하는 음성 인식 태스크들의 일부분을 완료하는 단계, 상기 하나 이상의 신뢰도 값이 신뢰도 임계치를 충족하는지를 결정하는 단계, 완료되지 않은 SRS들을 위한 음성 인식 태스크들의 나머지 부분을 중단하는 단계, 및 생성된 하나 이상의 인식 결과 중 적어도 하나를 기초로 최종 인식 결과를 출력하는 단계를 포함한다.

두 번째 측면에서, 시스템은 수신된 오디오 신호에 인코드(encode)된 가능한 음성을 식별하기 위해 음성 인식 태스크들을 개시하는 복수의 음성 인식 시스템(SRS)들(상기 SRS 각각은 인식 결과 및 상기 인식 결과의 정확도에 있어 신뢰도를 지시하는 신뢰도 값을 생성하도록 구성됨), 상기 SRS들이 인식 결과들을 생성함에 따라서 그 인식 결과들을 수신하고, 상기 생성된 인식 결과들과 연계된 신뢰도 값들을 수신하며, 하나 이상의 상기 수신된 신뢰도 값들이 신뢰도 임계치를 충족하면, 인식 결과들을 생성하는 것을 완료하지 않은 SRS들에 의한 완료되지 않은 음성 인식 태스크들을 중단하는 인식 관리 모듈, 및 상기 생성된 인식 결과들의 신뢰도 값들을 기초로 선택된 최종 인식 결과를 전송하기 위한 인터페이스를 포함한다.

세 번째 측면에서, 시스템은 수신된 오디오 신호를 위해 음성 인식 태스크들을 개시하는 복수의 음성 인식 시스템(SRS)들(상기 SRS 각각은 상기 오디오 신호 내에서 가능한 음성을 식별하는 인식 결과 및 상기 인식 결과의 정확도에 있어 신뢰도를 지시하는 신뢰도 값을 생성하도록 구성됨), 각각의 SRS로부터, 그 SRS가 하나 이상의 인식 결과들을 생성함에 따라서 상기 하나 이상의 인식 결과들 및 하나 이상의 상응하는 신뢰도 값들을 수신하고, 하나 이상의 상기 수신된 신뢰도 값이 신뢰도 임계치를 충족하면, 인식 결과들을 생성하는 것을 완료하지 않은 SRS들에 의한 완료되지 않은 음성 인식 태스크들을 중단하고, 및 상기 생성된 인식 결과들의 신뢰도 값들에 기초하여 최종 인식 결과를 선택하는 수단, 및 상기 오디오 신호 내에 가능한 음성을 표시하는 최종 인식 결과를 전송하는 인터페이스를 포함한다.

하나 이상의 실시예들의 세부 사항은 첨부한 도면과 이하 상세한 설명에 개시된다. 다른 특징들과 장점은 상세한 설명과 도면, 및 청구항으로부터 명확히 될 것이다.

여기서 설명하는 시스템 및 기술들은 후술하는 하나 이상의 장점들을 제공할 수 있다. 첫째, 오디오를 병렬로 디코드하기 위해 다중 음성 인식 시스템들을 사용하는 시스템은, 만족스러운 결과들이 수신되면 아직 완성되지 않은 인식 태스크들이 중단되는 것을 허용할 수 있다는 점에서 대기 시간 및 정확성의 개선된 공동 최적화(joint optimization)를 제공할 수 있다. 게다가, 다중 인식 시스템들을 사용하는 시스템은 거절률(즉, 비율을 감소)을 개선할 수 있다. 시스템은 또한 다중 인식 시스템들에 의해 인식 결과 출력들을 비교함으로써 정확도를 증가시킬 수 있다. 증가하는 인식 성과를 제공하기 위해 사용되는 연산 자원들의 양을 스케일링(즉, 증가)하기 위한 프레임워크(framework)도 제공될 수 있다.

도 1은 음성 인식을 위한 예시적인 시스템의 다이어그램이다.
도 2는 오디오 전송에 삽입된 음성을 디코딩하는 예시적인 시스템의 더 상세한 다이어그램이다.
도 3은 병렬 디코딩을 이용하여 음성을 인식하는 예시적인 방법의 흐름도이다.
도 4a 내지 4c는 예시적인 음성 인식 태스크의 실행을 나타내는 다이어그램들이다.
도 5a 내지 5c는 SRS 및 최종 인식 결과를 선택하는 다른 방법에 의해 생성된, 예시적인 인식 결과들과 신뢰도 값들의 다이어그램이다.
도 6은 최종 인식 결과의 선택에서 사용되는 값들을 가중하기 위하여 사용된 신뢰도 값의 분포를 나타내는 예시적인 그래프이다.
도 7a 내지 7e는 인식 결과를 가중하기 위해 사용될 수 있는, SRS들에 의해 출력된 예시적인 인식 결과 집합 및 그 집합들의 상관관계를 도시한 벤 다이어그램(Venn diagram)이다.
도 8a 및 8b는 음성 디코딩 시스템의 런타임 동작 동안 어떻게 SRS들 간의 교집합이 개조되거나 변할 수 있는지를 나타내는 벤 다이어그램이다.
도 9는 SRS의 에러율 및 인식 결과들과 연계하기 위한 가중치 사이의 예시적인 상관관계를 나타내는 그래프이다.
도 10은 본 명세서에서 설명된 시스템 및 방법을 구현하기 위해 사용될 수 있는 컴퓨팅 디바이스의 블럭도이다.
다양한 도면에서 동일한 참조번호와 기호는 동일한 구성요소를 나타낸다.

본 명세서는 발언(utterance)을 디코드(decode)하기 위해 다중 음성 인식 시스템들(SRS's)을 사용하는 시스템과 기술을 설명한다. 일부 구현에 있어, 다중 SRS들 중 일부가 다른 SRS들보다 앞서 인식 결과를 출력할 수 있도록 SRS 각각은 정확도, 대기 시간, 사전 등과 같은 상이한 특징들을 구비한다. 출력 인식 결과가 임의의 요구사항들(예컨대, 하나 이상의 생성된 결과들이, 임계 신뢰도 값을 충족하거나 초과하는 특정 신뢰도 값과 연계됨)을 충족시키면, 음성 디코딩 시스템은 나머지 SRS들이 그들의 음성 인식 태스크들을 완료하기 전에 그 나머지 SRS들을 중단할 수 있다.

도 1은 음성을 인식하는 예시적인 시스템(100)의 다이어그램이다. 일반적으로, 시스템(100)은, 예를 들어 셀룰러 전화기로부터 수신된 오디오 신호를 처리하는 다중 SRS들을 포함한다. 이 예에서, 사용자는 사용자의 음성을 포함하는 오디오 신호를 다중 SRS를 구비한 음성 인식기로 포워드(forward)하는 음성-지원(voice-enabled) 전화 번호부 서비스에 전화를 건다.

다중 SRS는 오디오 신호를 병렬적으로 처리할 수 있으나, 일부 SRS들은 다른 SRS보다 앞서 인식 결과를 생성할 수 있다. 상기 인식 결과들을 생성하는 SRS들이 그러한 결과들에 있어 충분히 높은 신뢰도를 나타내면, 나머지 미완성된 음성 인식 태스크들이 중단될 수 있고, 최종 인식 결과는 모든 SRS들이 그들의 음성 인식 태스크들을 완성하길 기다리는 대신에 현재 생성된 인식 결과들을 기초로 결정될 수 있다.

예시적인 시스템(100)은 오디오 신호(104)의 형태로 음성 입력을 음성-지원 전화번호부 정보 서버(voice-enabled telephone directory information server; 106)로 전송하는 셀룰러 전화기(102)를 포함하고, 상기 서버는 셀룰러 전화기 사용자가 구두로 전화번호부 정보를 요청하는 것을 허용하고, 상기 요청된 정보에 응답한다.

도 1의 예에서, 정보 서버(106)는 오디오 신호(104)에 첨부된 상기 음성을 디코딩하기 위해 오디오 신호(104)를 음성 인식기(108)로 전송한다. 일부 애플리케이션에 있어, 음성 인식기(108)는 오디오 신호(104) 안에 있는 상기 음성을 디코드하기 위해 병렬로 작동하는 다중의 SRS_A _-E를 포함한다.

음성 인식 시스템(SRS) 관리 모듈(110)은 SRS들 중 어느 것이 인식 결과를 생성했는지 여부를 모니터(monitor)하고, 상기 결과들과 연계된 신뢰도 값들을 수집한다. 이러한 모니터는 SRS들의 병렬 실행을 도시하는 다이어그램(112)에 나타나 있다. 다이어그램(112)은 SRS_A가 0.3의 신뢰도 값을 가진 인식 결과를 최초로 생성하는 것을 도시한다. 다음, SRS_E는 0.6의 신뢰도 값을 가진 인식 결과를 생성한다. 잠시 후에, SRS_B는 0.8의 신뢰도 값을 가진 인식 결과를 생성한다. 이러한 구현에 있어, SRS_B에 의해 생성된 인식 결과가 미리 결정된 신뢰도 임계치를 만족시키는 신뢰도 값을 가지기 때문에, SRS_B가 인식 결과를 생성한 후에, SRS 관리 모듈(110)은 SRS_C,D에 의해 수행되는 나머지 음성 인식 태스크들을 중단할 수 있다.

일부 구현에 있어서, SRS 관리 모듈(110) 내에 있는 최종 결과 선택 모듈(113)은 음성-지원 전화번호부 정보 서버에 출력하기 위한 최종 인식 결과(114)를 선택할 수 있다. 예를 들어, SRS 관리 모듈(110)은 음성 인식 태스크들을 완료한 SRS_A,B,E에 의해 출력되는, 생성된 인식 결과들 및 연계된 신뢰도 값(116)들의 집합을 기초로 최종 인식 결과를 선택할 수 있다. 일부 구현에 있어, 최종 인식 결과(114)는 오디오 신호(104)로부터 디코드된 가능한 음성(probable speech)의 상징적 표시이다. 예를 들어, 전화번호부 정보 서버(106)는 사용자에게 도시 및 주(state)의 이름을 말하도록 촉구(prompt)했을 수 있다. 발화된(spoken) 도시 및 주 이름은 셀룰러 전화기(102)의 사용자로부터 수신되는 오디오 신호(104)에서 인코드되고, 음성 인식기(108)에 의해 디코드될 수 있다. 일부 구현에서, 최종 결과는 디코더가 오디오 신호(104)에 의해 표현될 가능성이 가장 높다고 판단한 음성이다.

SRS들에 의해 출력된 신뢰도 값(116)은 다양한 방법에 따라 생성될 수 있다. 일부 구현에 있어, 제1 SRS는 발언의 신원과 관련하여 다양한 가정들 또는 추측들을 생성할 수 있다. 최상위 가정은 상기 SRS에 의해 생성된 경쟁 가정들과 비교될 수 있고, 신뢰도 값은 최상위 가정과 상기 경쟁 가정들 사이에서 인식 점수의 차이를 기초로 변화할 수 있다.

다른 예로서, 제1 인식 결과에 대한 신뢰도 값은 그 인식 결과의 생성에 사용되거나 또는 프론트-엔드(front-end) 신호 분석의 연산에 사용된 신호들이나 특징들에 기초할 수 있다. 예를 들어, 신호들은 검색에 사용되는 다수의 경쟁 가정들 또는 탐색된(explored) 검색 그래프의 밀도를 포함할 수 있고, 프론트-엔드 예들은 추정된 신호 대 잡음 특징을 포함하거나, 또는 채널 타입들의 기존 모델들로의 매칭(match)에 기초하여 추정된 채널-타입(예컨대, 핸즈-프리(hands-free) 대 셀룰러(cellular) 대 전화선(landline))을 포함할 수 있다. 이러한 신호들의 조합은 보유 데이터(held-out data)에 기초하여 조건부로 최적화될 수 있다.

*신뢰도는 또한 음향 모델(acoustic model) 및 언어 모델로부터 얻은 점수의 비-선형 조합으로서 추정될 수 있다. 예를 들어, 최상위 가정이 주어진다면, 시스템은 개별 언어 모델 점수(예컨대, 어느 음성이 처리되기 전에 인식된 결과에 대한 우선 추정), 및 음향 모델 점수(예컨대, 이 발언이 맨 처음 결과와 연계된 음향 단위들과 얼마나 잘 매칭되는지)를 추출할 수 있다. 이후에 시스템은 보유 데이터를 통해 조건부로 최적화된 이 두 가지 점수의 비-선형 조합으로서 총 신뢰도 결과를 추정할 수 있다.

점수와 더불어, 신뢰도를 최적화하기 위해 사용될 수 있는 다른 신호는 언어 모델을 통해 오는 경로 타입에 기초한다. 예를 들어, n-gram 언어 모델에 대해, 상기 시스템이 특정 3-단어열과 마주치지 않으면, 상기 시스템은 자신이 이미 마주친 2-단어열로부터 그 3-단어열에 대한 프라이어(prior)를 "백 오프(back-off)" 또는 추정할 수 있다. 주어진 가정에 대하여 검색이 백-오프 추정을 거쳐야하는 회수를 계수하여, 주어진 발언에 대한 신뢰도를 조건부로 추정할 때 사용될 수 있는 또 다른 신호를 제공한다.

다른 구현에 있어, 신뢰도 값은 인식 결과가 옳은 경험적 확률(posterior probability)이 될 수 있다. 일부 구현에 있어, 경험적 확률은 격자형 밀도(lattice density) 계산을 기초로 연산할 수 있다. 다른 예에 있어, 경험적 확률은 최상위 가정을 모노폰(monophone) 루프와 같이 음성의 덜 구체적인 음향 모델을 이용한 모든 음성의 더 일반적 모델, 또는 주 음향모델의 파라미터보다 더 적은 파라미터들로 훈련된 모든-음성 gmm과 비교함으로써 결정될 수 있다. 신뢰도에 대한 경험적 추정의 이러한 두 가지 방법들이 기술 분야에서 주지되어 있고, 이러한 추정들의 조합도 마찬가지이다.

일부 구현에 있어, 신뢰도 값은 다중 기술들을 이용하여 계산될 수 있다. 예를 들어, 신뢰도 값은 음성 인식 태스크들 동안 생성된 다른 인식 결과들과 대비되는 상기 결과의 유사성뿐만 아니라 경험적 확률에 기초한다.

선택 모듈(113)은 최종 인식 결과(114)를 인터페이스(118)에 전송하고, 이 인터페이스는 최종 인식 결과(114)를 음성-지원 전화번호부 정보 서버(106)로 전송할 수 있다. 일부 구현에 있어, 인터페이스(118)는 정보 서버(106)에서 실행되는 소프트웨어와 인터페이스하는 API들의 집합을 사용한다. 예를 들어, 정보 서버(106)는 도시, 주, 사업체 이름의 문자 표시들을 입력하기 위해 공개된 방법을 구비한 소프트웨어를 실행할 수 있다. 다른 구현에 있어, 인터페이스(118)는 네트워크를 통해 정보를 정보 서버(106)로 전송하기 위한 네트워킹 프로토콜(예컨대, TCP/IP)를 포함할 수 있다.

비록 도 1이 전화번호부 정보 서버(106)와 음성 인식기를 분리된 컴퓨팅 디바이스상에 도시하고 있더라도, 반드시 그러한 것은 아니다. 일부 구현들에 있어, 두 시스템은 단일 컴퓨팅 디바이스상에 구현될 수 있다. 유사하게, 시스템 각각은 여러 개의 컴퓨팅 디바이스들을 이용하여 구현될 수 있다. 예를 들어, SRS 각각은 도 2에 도시된 바와 같이하나 이상의 컴퓨터들을 사용하여 구현될 수 있다.

도 2는 오디오 전송에 첨부된 음성을 디코딩하기 위한 예시적인 시스템(200)의 다이어그램이다. 예시의 목적으로, 시스템(200)은 두 개의 세그먼트(segment)로 나뉘어 진다: 오디오 전송 세그먼트(202) 및 음성 인식 세그먼트(204). 오디오 전송 세그먼트(202)는 오디오 신호를 사용자로부터 애플리케이션 서버로 전송하기 위한 예시적 구조를 도시한다. 음성 인식기 세그먼트(204)는 오디오 전송에 의해 표시된 음성을 해석하거나 디코딩하기 위한 예시적인 구조를 도시한다. 이러한 구현에 있어, 디코딩은 애플리케이션 서버를 대신하여 수행되고, 디코드된 음성은 사용자의 요청을 처리하는 과정에서 사용하기 위하여 애플리케이션 서버로 다시 전송된다.

시스템(200)의 일부 구현에 있어, 오디오 전송 세그먼트(202)는 셀룰러 전화기(206)와 같은 전화기 디바이스를 포함하고, 이 전화기 디바이스는 네트워크(예컨대, POTS, 셀룰러(cellular), 인터넷(internet) 등)를 통해 오디오 신호(208)를 전화 통신 서버(210)로 전송한다. 전화 통신 서버는, 소프트웨어 애플리케이션 서버(212)와 같은 다른 컴퓨팅 디바이스에, 또는 다음에 설명되는 음성 인식 시스템으로 직접 오디오를 전송할 수 있다.

소프트웨어 애플리케이션 서버(212)는 사용자가 구두로 상호작용할 수 있는 소프트웨어 애플리케이션을 포함할 수 있다. 예를 들어, 소프트웨어 애플리케이션 서버는 캘린더 애플리케이션이 될 수 있다. 사용자는 캘린더 애플리케이션을 호출하고, 그 애플리케이션에게 2012년 5월 16일 오후 1시 30분부터 오후 2시까지 지속되는 이벤트를 만들 것을 요청할 수 있다. 소프트웨어 애플리케이션 서버(212)는 이벤트 생성을 요청하는 상기 수신된 구두 입력을, 디코딩을 위해 음성 인식 세그먼트(204)에 포워드할 수 있다.

일부 구현에 있어, 음성 인식 세그먼트(204)는 음성 인식 시스템들(SRS_A _-D) 및 오디오 신호(208)에 의해 표시될 수 있는 가능성이 높은 발언을 결정함에 있어 사용하기 위한 SRS들을 조정할 수 있는 음성 인식 시스템(SRS) 관리 모듈을 포함한다.

SRS 각각은 하나 이상의 방식으로 다를 수 있다. 일부 구현에 있어, SRS들은 그들의 기반이 되는 음향 모델에 따라 다를 수 있다. 예를 들어, 여러 음향 모델은 특정 조건들(예컨대, 사용자의 성(gender), 액센트(accent), 나이-범위, 또는 특정 배경 및 전면 잡음 조건, 또는 특정 전송 채널)을 목표로 삼을 수 있다. 상기 음향 모델은 또한 그들의 구조 및 크기에 따라 다를 수 있다( 예컨대, 파라미터들이 작은 소형 모델은 더 빠른 인식 결과를 생산하고, 파라미터들이 많은 대형 모델은 더 정확한 결과를 생산할 수 있다). 다른 예에 있어, 음향 모델은 그들의 훈련 과정(예컨대, 서로 다른 무작위 트레이닝 세트들은 상기 모델을 훈련시키는 데 사용할 수 있고, 다른 트레이닝 알고리즘들이 사용될 수도 있다)에 따라 달라질 수 있다.

일부 구현에 있어, SRS는 그들의 언어 모델에 따라 달라질 수도 있다. 예를 들어, 상기 모델은 데이터의 다른 타입(예컨대, 다른 도메인 특정 언어 모델, 다른 입상(granularity) 또는 다른 지리적 위치(geo-location))을 목표로 한다. 다른 예에 있어, 상기 모델들은 그들의 구조, 크기, 트레이닝 과정 등에 따라 달라질 수 있다.

다른 구현에 있어, SRS들은 엔드-포인터(end-pointer), 프론트-엔드, 사전, 신뢰도 추정 알고리즘, 검색 구성 등과 같은 그 밖의 구성요소들에 따라 다를 수 있다.

예시의 목적으로, SRS_D를 위한 언어 모델(252), 음향 모델(254), 및 음성 인식 알고리즘(256)이 도 2에 도시되어 있다.

일부 구현에 있어서 SRS 관리 모듈(250)이 오디오 신호(208)를 수신할 때, 프로세스가 개시되고, 둘 이상의 SRS들을 병렬적으로 사용하여 인입 발언들을 인식한다. 예를 들어, 4개의 음성 인식 태스크들은 오디오 신호(208)에 의해 표현되는 동일한 발언을 인식하기 위한 의도로 4개의 SRS들(SRS_A-D)에 의해 병렬적으로 수행된다.

일부 구현에 있어, 각각의 SRS들은 특정 대기 시간(latency)을 가질 수 있다. 상기 대기 시간은 SRS의 구조(예컨대, 음향 모델, 언어 모델, 또는 다른 구성요소들)에 의존할 뿐만 아니라 음성 인식 태스크의 특정 인스턴스화(instantiation)를 기반으로 달라질 수 있다. 예를 들어, SRS는, 발언이 소정 단어 집합(예컨대, 네, 아니오, 아니, 응, 긍정, 부정, 절대 안됨, 위퍼(yipper) 등)에 속한다고 지시하는 정보를 갖는다면, 특정 모델을 위한 대기 시간은 SRS가 상기 발언이 발언된(예컨대, 상기 발언은 네(yes) 혹은 아니오(no) 질문의 문맥이 아닌 경우) 한정된 문맥을 지시하는 정보를 갖지 않을 때보다 더 훨씬 짧아진다.

일부 구현에 있어, 각각의 SRS는 각각의 음성 인식 태스크의 완료에 있어, 인식 결과(예컨대, SRS가 상기 인입 발언이 말한 바를 결정한 것), 및 그 결과의 정확성에 대한 SRS의 신뢰성 정도를 출력할 수 있다.

일부 구현에 있어, SRS 관리 모듈(250)은 SRS들에 의해 생성된 인식 결과(262)를 추적하는 인식 결과 모니터(258)를 구비한다. 결과 모니터(258)는 또한 신뢰도 값(264), 또는 인식 결과(262)와 연계된 점수를 모니터할 수 있다.

일부 구현에 있어, 결과 모니터(258)는 각각의 인식 결과에 대해 결합된 신뢰도 점수들을 산출할 수 있다. 예를 들어, SRS_A 및 SRS_B는 인입 발언에 대해 인식 결과 "5월 16일"을 생성할 수 있다. SRS_A는 그 결과와 0.8의 신뢰도 값을 연계시킬 수 있고, SRS_B는 그 결과와 0.7의 신뢰도 값을 연계시킬 수 있다. 결과 모니터(258)는 상기 결과에 대한 현재 이동 평균이 0.75(즉, (0.8+0.7)/2)라고 산출할 수 있다. 결합된 신뢰도 값은 인식 결과(및 상응하는 신뢰도 값)가 SRS에 의해 생성될 때마다 갱신될 수 있다.

SRS 관리 모듈(250)은 또한 각각의 SRS를 위한 대기 시간(예컨대, 음성 인식 태스크의 완료를 위한 실제 또는 추정된 시간)을 추적하는 대기 시간 모니터(260)를 포함할 수 있다. 예를 들어, 대기 시간 모니터(260)는 인식 결과를 생성하기 위해 특정 음성 인식 태스크가 얼마나 오래 SRS를 점유하고 있는지를 추적할 수 있다.

대기 시간 모니터(260)는 또한 SRS가 음성 인식 태스크를 완료했는지를 모니터할 수 있다(예컨대, SRS가 인식 결과를 출력하는지를 모니터함에 의함). 게다가, 대기 시간 모니터(260)는 SRS가 음성 인식 태스크를 완료하기 위한 예상 대기 시간을 추정할 수 있다. 예를 들어, 대기 시간 모니터(260)는 유사한 음성 인식 태스크를 완료하기 위해 SRS가 얼마나 오래 점유되었는지(예컨대, 특정 촉구된 질문에 대답하는 것과 유사한 문맥에서 말한 발언을 디코드하기 위해, 이전에는 얼마나 오래 SRS가 점유되어 있었는지).를 알려주는, SRS를 위해 수집한 실험적 정보에 접근할 수 있다.

대기 시간 모니터(260)는 또한 SRS가 음성 인식 태스크를 완료하는 추정 시간을 결정하기, 위해 기저 모델(들)의 특징에 관한 정보에 접근할 수 있다(예컨대, 대기 시간 모니터(260)는 인식 결과를 식별하기 위해 검색되어야하는 단어들의 더 큰 사전 때문에 SRS가 음성 인식을 완료하는 것이 더 오래 걸리는 지를 결정할 수 있다).

SRS 관리 모듈은 수신된 오디오 신호(208)의 디코딩을 아직 완료하지 않은 SRS들에 대해 중단 커맨드들(266)을 전송할지를 결정하기 위해, 대기 시간 모니터(260) 및/또는 인식 결과 모니터(258)와 통신하는 SRS 중단자(270)를 포함할 수 있다. 예를 들어, SRS 중단자(270)는 추적된 신뢰도 값 및/또는 대기 시간들이 동작점 또는 커브를 만족시키는지를 결정할 수 있다. 만족시키는 경우 모든 나머지 음성 인식이 중단될 수 있다.

간단한 예에 있어, SRS 관리 모듈(250)은 인식 결과에 대한 0.75의 신뢰도 임계치가 일부 완료되지 않은 음성 인식 태스크들을 중단하기 전에 도달되어야한다는 것을 결정할 수 있다. 일부 구현에 있어, 신뢰도 임계치는 다른 음성 인식 태스크들에 대하여 달라질 수 있다. 예를 들어, 특정 음성 인식 태스크와 연계된 문맥 정보가, 인식 결과가 상대적으로 소수의 발언들(예컨대, 인식 태스크는 사용자에게 표시된 네 또는 아니오 질문에 대한 응답의 문맥에 있을 수 있음)로 한정되는 것임을 나타낸다면, SRS 중단자(270)는 신뢰도 값이 상대적으로 높아야(예컨대, 0.8, 0.9, 0.95) 한다고 결정할 수 있다.

만약 인식 결과가 여러 가지 가능한 발언들 중 하나를 포함할 수 있음을 문맥이 나타낸다면(예컨대, 사용자가 "당신은 오늘 무엇을 하고 싶습니까?"와 같은 개방형 질문을 받음), SRS 중단자(270)는 인식 결과에 대한 신뢰도 임계치가 상대적으로 낮고(예컨대, 0.49, 0.55, 0.61), 여전히 SRS 관리 모듈(250)에 수용가능하다는 것을 결정할 수 있다.

일부 구현에 있어, 임계 신뢰도 포인트(예컨대, 0.75)를 인식 결과들 중 하나가 충족하면, 중단자(270)는 일부 완료되지 않은 SRS들로 중단 커맨드(266)를 전송할 수 있다. 예를 들어, SRS_A,B의 조합된 신뢰도 값이 0.75보다 크거나 같다면, 중단자(270)는 인식 결과를 아직 생성하지 않은 SRS들로 중단 커맨드(266)를 전송할 수 있다.

다른 예로서, 인식 결과들 중 하나가 0.75 이상의 신뢰도 값을 갖는다면, 중단자(270)는 중단 커맨드(266)를 전송할 수 있다. 이러한 경우, 신뢰도 값은 조합된 신뢰도 값은 아니지만 대신 단일 SRS에 의해 생성된 인식 결과와 연계된 단일 신뢰도 값이 될 수 있다.

다른 구현에 있어, SRS 중단자(270)는 SRS에 대한 실제 또는 추정된 대기 시간에 기초하여 중단 커맨드들을 전송할 수 있다. 예를 들어, SRS_A 및 SRS_B가 인식 결과를 생성하고 상기 인식 결과들이 매우 낮은 신뢰도 값과 연계된다면, SRS 중단자(270)가 나머지 완료되지 않은 음성 인식 태스크들을 중단할 수 있다. 이러한 경우, 나머지 음성 인식 태스크는, 다른 SRS들이 높은 신뢰도 값의 인식 결과를 제공하지 않기 때문에, 인식 태스크를 완료하지 않은 SRS들도 높은 신뢰도 값의 인식 결과를 제공하지 않을 것이라는 가정 하에 취소될 수 있다.

일부 구현에 있어, 나머지 SRS들이 완료하는 것을 기다리는 대신, SRS 중단자(270)는 중단 커맨드들(266)을 전송하고, 사용자가 발언(274)을 반복하도록 요청받는 프로세스를 개시할 수 있다. 이후에 SRS들은 새로운 발언의 디코드를 시도할 수 있다.

다른 구현에 있어, 인식 결과들이 신뢰도 값 또는 다른 파라미터들을 기초로 불만족스럽다면, SRS 관리 모듈(250)은 운용자로의 전환 요청이 이루어지는 프로세스를 개시할 수 있다. 예를 들어, 운용자는 화살표(276)로 가리키는 바와 같이 사용자에 응답하여 오디오 신호를 가로챌 수 있고, 화살표(276)는 오디오 신호를 콜 센터(278)에 라우팅하는 것을 예시한다. 운용자는 사용자가 전달한 요청이나 정보를 어드레스할 수 있다.

일부 구현에 있어, SRS 중단자(270)는 중단 커맨드(266)를 완료되지 않은 SRS들에 전송할지를 결정하기 위해 대기 시간 모니터(260)에 먼저 쿼리할 수 있다. 예를 들어, SRS 중단자(270)가 대기 시간 모니터(260)를 쿼리하고, 완료되지 않은 SRS들 중 하나가 상대적으로 짧은 시간 안에 완료할 가능성이 높다고 결정하면, SRS 중단자(270)는 거의 완료된 SRS들로부터 결과를 얻기 위해 개시되지 않을 수 있다. 결과(들)이 생성된 후에, SRS 중단자(270)는 나머지 완료하지 못한 SRS들이 음성 인식을 완료하는 것을 정지시키기 위해 중단 커맨드(266)를 전송할 수 있다.

일부 구현에 있어, 추가적인 인식 결과 및 연계된 정보는, 거의 완료된 SRS가 완료할 때까지 중단 커맨드의 전송을 연기하는데 충분한 가치가 있다. 예를 들어, 거의 완료된 SRS들과 연계된 특징들이 그 인식 결과들이 이미 완료된 SRS들의 결과보다 더 정확하다고 가리킨다면, 중단자(270)는 나머지 완료되지 않은 음성 인식 태스크들을 중단하기 전에 거의 완료된 SRS가 인식 결과를 생성할 때까지 기다릴 수 있다.

일부 구현에 있어, 신뢰도 임계치가 하나 이상의 변수들을 가진 함수를 사용하여 결정될 수 있다. 예를 들어, 신뢰도 함수는 신뢰도 값과 대기 시간을 포함하는 변수들을 가질 수 있다. 생성된 신뢰도 값과 관찰한 대기 시간들이 신뢰도 함수를 만족시키면, 중단자(270)는 모든 완료되지 않은 음성 인식 태스크들을 취소할 수 있다. 예를 들어, 신뢰도 함수는, 짧은 대기 시간 기간 안에, 신뢰도 함수가 만족되기 위해 신뢰도 값들이 매우 높아야 한다고 명령할 수 있다. 이것은 중단자(270)가 중단 커맨드를 빠르게 발행하면, 다른 잠재적 인식 결과들이 생성되지 않을 것이기 때문에 생성된 결과가 올바를 확률이 매우 높아야 한다는 가정에서 부분적으로 기초할 수 있다. 대기 시간이 증가함에 따라서, 요구된 신뢰도 값들은, 처리하기 오래 걸리는 음성 인식 태스크가 더 어려울 수 있고 그러므로 결과의 신뢰도가 더 낮을 가능성이 있다는 가정 하에서, 떨어질 수 있다.

SRS 관리 모듈(250)은 또한, 일부 구현에 있어, 생성된 인식 결과들로부터 최종 인식 결과를 선택하는 최종 결과 선택 모듈(280)을 포함할 수 있다. 예를 들어, 선택 모듈(280)은 가장 높은 조합 신뢰 값을 가진 인식 결과 또는 가장 높은 단일 신뢰도 값을 가진 인식 결과를 선택할 수 있다.

일부 구현에 있어, 최종 인식 결과의 선택은 어떤 SRS가 상기 인식 결과를 생성했는지를 기초하여 영향받을 수 있다. 예를 들어, 선택 모듈(280)은, 상대적으로 다른 구성요소들(예컨대, 언어 모델, 음향 모델, 음성 인식 알고리즘 등)을 구비하거나 및/또는 일반적으로 다른 인식 결과들을 생산하는 SRS들에 의해 인식 결과가 생성된다면, 그 인식 결과의 선택에 비중을 두거나 선호할 수 있다.

일부 구현에 있어, SRS 상관관계 모니터(282)는 SRS들에 대하여 출력 인식 결과들 사이의 상관관계를 추적할 수 있다. 만약 출력 인식 결과들이 두 개의 SRS들이 밀접하게 상관되어있지 않다고 지시하지만, 특정 인식 태스크에서 그 두 개의 SRS들이 동일한 인식 결과를 생성하면, 그 결과는 최종 인식 결과의 선택에 있어서 더 많은 비중을 두거나, 선호될 수 있다. 대안적으로, 인식 결과들을 생성하는 SRS들이 아주 밀접하게 상관되어 있으면, 그 인식 결과는 할인(discount)되거나, 또는 최종 인식 결과의 선택에 있어서 반드시 선호되지 않도록 가중되지 않을 수 있다.

상관관계 모니터(282)는 둘 이상의 SRS들 사이의 상관관계를 특정하는 상관관계 값들을 SRS들이 생성한 인식 결과들에 기초하여 동적으로 갱신할 수 있다. 예를 들어, 낮은 상관관계 값과 연계된 2개의 SRS들이 유사한 인식 결과들을 생성하기 개시할 수 있다. 상관관계 모니터(282)는 SRS들 사이에서 인식 결과의 증가하는 오버랩을 반영하기 위해 상관관계 값을 갱신할 수 있다(예컨대, 값을 증가시킴).

최종 결과 선택 모듈(280)이 최종 결과를 식별한 후에, SRS 관리 모듈은 오디오 신호가 디코드될 것을 요청한 소프트웨어 애플리케이션 서버로 상기 결과를 되돌려보낼 수 있다. 이 소프트웨어 애플리케이션 서버는 디코드된 오디오 신호를 사용하여 사용자의 요청을 처리할 수 있다.

도 3은 병렬 디코딩을 사용하여 음성을 인식하기 위한 예시적인 방법(300)의 흐름도이다. 예를 들어, 방법(300)은 시스템들(100 및 200)에 의해 수행될 수 있고, 표시를 명확하게 하기 위한 이하 설명은 상기 방법을 설명하기 위한 예를 기초로 시스템(100 및 200)을 사용한다. 하지만, 다른 시스템 또는 시스템들의 결합은 방법(300)을 수행하기 위해 사용될 수 있다.

단계 302에서, 오디오 신호가 수신될 수 있다. 예를 들어, 음성 인식기(108)는 오디오 신호(104)를 수신할 수 있다. 일부 구현에 있어 오디오 신호(104)는 미리 견본이 만들어지고, 음성 인식기(108)로의 전송 전에 처리를 위해 디지털 프레임으로 쪼개져있을 수 있다. 다른 구현에 있어, 음성 인식기(108)는 더욱이 세 가지 기능을 수행한다.

일부 구현에 있어, 오디오 신호는 신호의 어느 부분이 음성을 포함하고 어느 부분이 잡음이 되도록 결정되었는지를 식별하기 위해 사전에 처리될 수 있다. 수신된 오디오 신호(104)는 이후 단계들에서 음성 인식기(108)에 의해 디코드될 수 있는 음성을 갖도록 결정된 부분만을 포함할 수 있다.

단계 304_A 내지 304_N에서, 음성 인식 태스크(SRT)가 개시된다. 일부 구현에 있어, SRT는 실질적으로 동시에 개시하고, 오디오 신호(104)에 의해 표시된 음성을 디코드하기 위해 개시한다. 도 2의 SRS_A _-D와 같은 SRS들은 SRT들이 완료를 위해 다른 양의 시간을 요구할 수 있도록 오디오 신호를 처리하는 동안 다른 대기 시간을 가질 수 있다.

단계 306에서, SRT의 처리가 모니터될 수 있다. 예를 들어, 대기 시간 모니터(260)는 각각의 SRS와 연계된 대기 시간(실제 및 추정된 시간 둘 다)을 추적할 수 있다.

단계 308에서, SRT₁ _-N 중 일부가 인식 결과를 생성하는지가 결정된다. 예를 들어, SRS들은 결과들이 생성된 후에 인식 결과 모니터(258)에 인식 결과(또는 결과가 존재한다는 지시)를 출력할 수 있다. 만약 인식 결과를 생성하는 SRS가 없다면, 방법(300)은 단계 306으로 되돌아 갈 수 있고, SRT의 처리를 모니터하는 것을 계속할 수 있다. 만약 SRS가 하나 이상의 인식 결과를 생성했다면, 상기 방법은 단계 310으로 계속 진행된다.

단계 310에서, 결정은 상기 생성된 인식 결과(들)과 연계된 일부 신뢰도 값들이 신뢰도 임계치를 충족하는지로 이루어진다. 예를 들어, SRS 중단자(270)는 인식 결과에 대한 신뢰도 값들(단일 또는 결합된 신뢰도 값 중 하나)을 앞서 설명한 것처럼 신뢰도 점 또는 신뢰도 함수에 비교할 수 있다. 만약 최근 신뢰도 값들이 신뢰도 임계치를 충족하지 못하면, 방법(300)은 SRT의 처리가 모니터되는 단계(306)로 되돌아갈 수 있다. 만약 신뢰도 임계치가 충족되면, 방법(300)은 단계(312)로 진행될 수 있다.

단계 312에서, 완료되지 않은 SRT들은 중단된다. 예를 들어, 만약 병렬적으로 수행되는 10개의 SRT들이 있고 4개가 완료되었다면, 나머지 6개의 SRT들은 취소되거나 중단될 수 있다. 일부 구현에 있어, SRS 중단자(270)는 그들이 음성 인식 태스크를 중지하도록 적절한 SRS에 중단 커맨드(266)를 전송할 수 있다.

일부 구현에 있어, 하나 이상의 음성 인식 태스크는 중단될 수 없고, 단지 "일시 정지"될 수 있다(예컨대, 처리 중인 태스크의 상태가 저장되거나 나중에 다시 개시될 수 있음). 예를 들어, 만약 인식 결과가 부정확하게 제조되면(예컨대, 소프트웨어 애플리케이션 서버가 음성이 올바르게 디코드되었는지를 확인하기 위해 사용자를 촉구할 때 사용자가 부정적으로 대답함), 상기 "일시 정지"된 음성 인식 태스크들은 다시 개시될 수 있다.

일부 구현에 있어, SRT들은 예컨대 SRT를 실행하는 SRS의 정확성을 기초로 선택적으로 일시 정지될 수 있다. 예를 들어, 인식 결과가 겨우 신뢰도 임계치를 충족시키는 신뢰도 값과 연계된다면, 중단자(270)는 SRT들의 휴지(rest)를 중단시키는 동안 더 정확한 SRS의 SRT들을 선택적으로 일시 정지할 수 있다. 만약 인식 결과가 부정확하게 제조되면, 더 정확한 SRS의 일시 정지된 SRT가 다시 개시될 수 있다.

일부 구현에 있어, 이미 완료된 SRT들과 이미 중단된 SRT들이 동시에 "일시정지되지 않은" SRT로 개시될 수 있다. 이것은 SRT가 완전히 다시 개시되는 것보다 더 정확한 SRT의 완료를 위해 더 많은 시간이 주어질 수 있다. 다른 예로서, 부정확한 인식에 대한 사용자 확인을 기초로 추론되거나 결정된 정보는 다시 개시된 태스크뿐만 아니라 일시정지되지 않은 SRT들에 일체화될 수 있다. 예를 들어, 장황한 발언은 음성 디코딩의 새로운 순환에서 참작으로부터 제거될 수 있다. 게다가, 막대한 결과를 결정하기 위해 사용되는 일부 소리, 단어 등은 상기 인식 처리의 두 번째 순환에서 참작으로부터 감소되거나 제외될 수 있다.

단계 314에서, 최종 인식 결과는 상기 생성된 결과들을 바탕으로 선택될 수 있다 예를 들어, 최종 결과 선택 모듈(280)은 가장 높은 평균 신뢰도 점수와 연계된 인식 결과를 식별할 수 있다. 일부 구현에 있어, 선택은 또한 결과를 생산하는 SRS의 정확성에 기초하여 가중치를 둘 수 있고, 통상적으로 정확한 SRS들로부터의 결과는 덜 정확한 SRS들을 통해 선호될 수 있다. 다른 구현에 있어, 또한 상기 선택은 결과를 생성하는 기계들 간의 상관관계 또는 상기 결과와 연계된 발생 빈도를 기초로 할 수 있다. 선택된 결과는 오디오 신호의 디코딩을 요청받은 애플리케이션에 출력될 수 있다. 그 다음, 방법은 종료될 수 있다.

도 4a 내지 4c는 예시적인 음성 인식 태스크의 실행을 예시로 보여주는 다이어그램을 도시한다. 도 4a는 4개의 SRS에 의한 4개의 SRT의 실행을 도시한다. 예시가 되는 구현에 있어, SRT는 병렬로 개시될 수 있고 SRS_A가 인식 결과를 처음으로 생성할 수 있다. SRS_A는 인식 결과에 대해 0.7의 신뢰도 값을 결정한다. 일부 구현에 있어, SRS 관리 모듈(110)은 신뢰도 임계치와 대조하여 신뢰도 결과를 비교할 수 있다. 만약 신뢰도 값이 임계치를 만족시키지 않으면, 나머지 태스크들은 실행이 허용된다. 예를 들어, 신뢰도 임계치가 0.9의 상수로 고정되면, 0.7의 초기 인식 결과가 임계치를 만족시키지 않기 때문에 SRS 관리 모듈은 나머지 SRS들이 계속하도록 허용할 것이다.

다음, SRS_B는 인식 결과와 0.85의 연계된 값을 생성한다. 이러한 신뢰도 값 또한 0.9의 신뢰도 임계치를 만족시키지 못하므로 나머지 태스크들이 지속될 수 있다.

게다가, SRS 관리 시스템은 또한 각각의 SRS와 연계된 대기 시간을 추적할 수 있고 이러한 대기 시간들을 허용된 대기 시간 임계치와 비교할 수 있다. 도 4a에 도시된 것처럼, 일부 구현에 있어, 그들이 대기 시간 임계치 전에 인식 결과를 생산하지 않으면 SRS 관리 모듈(110)은 SRS(예컨대, SRS_C 및 SRS_D)에 중단 커맨드를 전송할 수 있다.

일부 구현에 있어, 신뢰도 임계치를 충족시키는 인식 결과가 생성되기 전에 SRT가 중단되면, SRS 관리 모듈(110)은 신뢰도 임계치를 만족시키지 않더라도 가장 높은 신뢰도 값을 가진 결과를 선택할 수 있다. 일부 구현에 있어, 다음 가장 높은 신뢰도 값은 선택되기 위한 신뢰도 임계치의 결정된 범위(예컨대, 10%) 내에 있도록 할 수 있다. 다른 예로서, 만약 인식 결과가 선택되지 않으면, SRS 관리 모듈(110)은 구두 입력이 반복되도록 요청을 보낼 수 있다.

도 4b는 SRS가 신뢰도 임계치를 만족시키는 신뢰도 값을 가진 인식 결과를 생성하면, 완료되지 않은 SRT를 중단시키는 것을 예시로 보여주는 다이어그램이다. 본 예에 있어, 신뢰도 임계치는 0.9이다. SRS_A는 처음 인식 결과를 생성하지만, 신뢰도 임계치보다 낮은 결과에 0.7의 신뢰도 값을 할당한다. 결과적으로 SRS 관리 모듈(110)은 SRS_B _-D가 계속 실행하도록 해준다.

SRS_B가 다음 인식 결과를 생성하고 결과에 0.9의 신뢰도 값을 할당한다. SRS 관리 모듈(110)은 이 신뢰도 값을 상기 신뢰도 임계치와 비교하고 임계치를 만족시키는지 결정한다. SRS 관리 모듈은 이후에 SRS_C 및 SRS_D에 인식 결과를 생산하지 않고 그들의 개별적인 SRT를 중단시키는 중단 커맨드를 보낼 수 있다.

도 4c는 생성되고 있던 인식 결과들의 낮은 신뢰 값을 기초로 완료되지 않은 SRT를 중단하는 것을 설명하는 다이어그램이다. 본 예에서, 신뢰도 임계치는 0.9인 고정된 점으로 정해질 수 있다. SRS_A 및 SRS_B는 인식 결과들을 생성할 수 있으나, 두 결과는 상대적으로 낮은 신뢰도 값 0.3 및 0.25와 연계된다. 신뢰도 값이 둘다 상대적으로 낮게 주어지면, SRS 관리 모듈(110)은, 이전 SRS들이 신뢰도 임계치보다 현저히 아래에 있는 신뢰도 값을 가진 인식 결과를 생산했기 때문에, 이러한 SRS들이 신뢰도 임계치를 만족시키는 신뢰도 값을 가진 인식 결과를 생산하기 어렵다는 가정 하에 SRS_C 및 SRS_D에 중단 커맨드를 전송할 수 있다.

도 4c에서 예시로 일부 구현에 있어, SRS 관리 모듈(110)은 이미 생성된 인식 결과들의 낮은 신뢰도 값을 기초로 중단 커맨드를 전송하기 전에 결정된 양의 시간 동안 기다릴 수 있다. 일부 구현에 있어, SRS 관리 모듈(110)은 마지막 인식 결과가 생성된 때를 기초로 시간 기간을 개시한다. 시간 기간은 다른 SRS가 그의 SRT를 완료할 수 있게 해준다; 그러나, 허락된 시간 기간 동안 생성된 결과가 없으면, SRT의 완료되지 않은 일부를 중단하기 위해 커맨드가 전송될 수 있다.

일부 구현에 있어, 기다리는 시간 기간의 결정은 인식 결과를 생성하지 않은 하나 이상의 SRS들의 추정된 시간 기간을 기초로 한다. 예를 들어, SRS 관리 모듈(110)은 SRS_C가 나머지 SRS들 중 가장 짧은 추정된 대기 시간을 갖는 것을 결정할 수 있다. 예를 들어, SRS_C는 0.5초의 통상 대기 시간을 가질 수 있다. 만약 SRS_B가 0.4초 후 인식 결과를 생성한다면, 음성 인식 관리 모듈(100)은 SRS_C가 중단 커맨드를 전송하기 전에 인식 결과를 생성하는지 결정하기 위해 0.1초를 지연할 수 있다.

다른 구현에 있어, 중단 커맨드는 즉시 전송될 수 있다. 예를 들어, SRS 관리 모듈(110)은 결정된 수의 SRS가 낮은 신뢰도 값과도 연계된 인식 결과를 생성한 후에 중단 커맨드를 전송할 수 있다. 도 4c에 도시된 경우에서, 중단 커맨드는 SRS의 절반이 낮은 신뢰도 값과 연계된 인식 결과를 돌려보내자마자 전송될 수 있다.

일부 구현에 있어 신뢰도 값이 낮으면, 시스템은, 상기 시스템이 복합(예컨대, 총/누적된) 신뢰도 값이 어떠한 임계치보다 높은 것을 확인할 때까지 더 많은 인식 결과들을 수신하기 위해 계속한다. 일부 인식 태스크와 함께 확인은 절대 일어나지 않고 상기 시스템은 발언을 거절함으로써 인식 프로세스를 끝낼 수 있다. 그러므로, 일부 구현에 있어, 세 가지 유형의 신뢰도가 있다; 첫째, 각각의 인식 프로세스로부터의 최초 신뢰도; 둘째, 각각의 인식 프로세스로부터 최초 신뢰도로부터 결정된 누적된 총 신뢰도; 및 셋째, 상기 시스템이 더 많은 인식 이벤트를 기다릴 때 총 신뢰도가 바뀔 수 있는(예컨대, 증가) 기대값.

일부 경우에 있어, 시스템은 모든 인식 태스크들을 중단 및 발언을 거절하도록 상관관계가 없는 인식기를 통해 상당수의 일관적으로 낮은 신뢰도 결과들을 수신한다. 만약 거절이 발생하면, 시스템은 발언을 반복하도록 사용자를 촉구한다. 예를 들면, 개인적인 최초 신뢰도 값이 일관적으로 낮을 때, 축적된 총 신뢰도가 낮고 총 신뢰도가 더 많은 인식과 함께 바뀔 수 있는 예상 또한 낮아, 거절되는 경우가 일어난다.

일부 구현에 있어, 신뢰도 값들의 특정 집합으로 주어진, 추정되고 예상된 신뢰도의 변화를 위한 훈련은, 부분적인 인식 신뢰도의 예시들을 훈련하여 최종 인식 신뢰도의 분포를 산출함으로써 더 빠른 시간에 수행된다(예컨대, 처음 20개의 빠른 인식기로부터 0.1보다 낮은 20개의 신뢰 값들을 본 후에 시스템은, 20개 이상의 인식기의 결합된 신뢰도 값이 0.5보다 높은 총 신뢰도 값으로 증가하는 예를 절대 경험할 수 없다. 그러므로, 시스템은 이러한 상황이 발생했을 때 발언을 거절하도록 훈련된다).

일부 구현에 있어, 최종 인식 결과들과 연계되고 결합된 신뢰도는 개별적인 SRS로부터 개별적인 신뢰도 값의 함수가 될 수 있다. 서로 매치(match)할 수도 있는 많은 인식기들로부터 높은 신뢰도 값을 가진 결과들은 높은 결합된 신뢰도 값이 부여될 수 있다. 각각의 인식기의 개별적인 분포의 가중은 훈련 프로세스 동안 테스트 데이터의 인식에 따른 경험적 최적화에 기초할 수 있다.

도 5a 내지 5c는 SRS에 의해 생성된 예시적인 인식 결과와 신뢰도 값의 다이어그램, 및 최종 인식 결과를 선택하는 다른 방법이다. 구체적으로, 도 5a 내지 5c는 SRS_A로부터의 SRS_A 출력(502), SRS_B로부터의 SRS_B 출력(504), SRS_C로부터의 SRS_C 출력(506)을 도시한다. 이 예에서, 출력은 "carry"라는 단어를 표현하는 오디오 신호를 디코드하도록 시도하는 각각의 SRS에 응답하여 생성된다. SRS 각각이 다를 수 있기 때문에, 상기 SRS들에 의해 생산된 인식 결과들은 도 5a 내지 5c의 예시와 같이 다를 수 있다.

일부 구현에 있어, SRS 출력은 어느 인식 결과가 가장 큰 신뢰도 값과 연계되어 있는지를 기초로 선택된 최상위 N 인식 결과를 포함한다(여기서 N은 양의 정수 또는 0으로 나타낼 수 있다). 예를 들어, SRS_A 출력(502)은 SRS_A에 대한 최상위 4개의 인식결과 및 연계된 신뢰도 값을 포함한다: 결과=carry, 신뢰도=0.75; 결과=Cory, 신뢰도=0.72; 결과=quarry, 신뢰도=0.6; 결과=hoary, 신뢰도=0.25.

SRS_B 출력(504)은 결과=quarry, 신뢰도=0.61; 결과=Cory, 신뢰도=0.59; 결과=hoary, 신뢰도=0.4; 및 결과=Terry, 신뢰도=0.39를 포함한다.

SRSC 출력(506)은 결과=tarry, 신뢰도=0.58; 결과=Terry, 신뢰도=0.57; 결과=Cory, 신뢰도=0.55; 및 결과=carry, 신뢰도=0.2를 포함한다.

도 5a는 가장 높은 신뢰도 값과 연계된 인식 결과를 선택하는 예시적인 선택 알고리즘을 도시한다. 예를 들어, 최종 결과 선택 모듈(113)은 모든 인식 결과들을 비교할 수 있고 가장 높은 신뢰도 값과 연계된 것을 선택할 수 있다. 이러한 예에서, 상기 결과 "carry"는 모든 신뢰도 값 중에 가장 높은 신뢰도 값-0.75-과 연계되어 있기 때문에 최종 인식 결과로서 선택될 수 있다. 선택 모듈은 이후에 음성 디코딩 요청을 받은 애플리케이션에 의해 더 처리하기 위해 인식 결과 "carry"를 출력할 수 있다.

도 5b는 어느 결과가 가장 높은 결합된 신뢰도 값을 갖는지를 기초로 인식 결과를 선택하는 예시적인 선택 알고리즘을 도시한다. 예를 들어, 둘 이상의 SRS가 동일한 인식 결과를 생성할 수 있지만 상기 결과에 다른 신뢰도 값을 할당할 수 있다. 일부 구현에 있어, 동일한 결과에 대한 여러 개의 신뢰도 점수는 결합된 신뢰도 점수를 만들기 위해 평균(또는 다른 결합)을 낼 수 있다. 예를 들어, 상기 인식 결과 "carry"는 SRS_A 및 SRS_C 모두에 의해 생성되었으나, SRS_A는 0.75의 신뢰도 값을 결과에 할당하고 SRS_C는 0.2의 신뢰도 값을 결과에 할당한다. 이러한 신뢰도 값들의 평균은 0.475가 된다.

유사하게, 인식 결과 "Cory"에 대한 결합된 신뢰도 점수 평균은 0.61이고, "quarry"에 대한 결합된 신뢰도 점수는 0.62이다. 이 예에서, 선택 모듈(113)은 결합된 신뢰도 값이 다른 결과의 결합된 신뢰도 값보다 크기 때문에 최종 인식 결과로서 "quarry"를 선택할 수 있다. 이러한 선택 알고리즘은, 상기 선택이 인식 결과의 동일한 풀(pool)로부터 만들어졌다는 사실에도 불구하고 도 5b에서 설명하는 알고리즘보다 다른 최종 결과를 생산할 수 있음에 주목한다.

도 5c는 상기 인식 결과의 선택에 있어 계산 가중치 요소들을 넣은 예시적인 선택 알고리즘을 도시한다. 일부 구현에 있어, 가중치는 인식 결과의 발생 빈도를 기초로 한다. 예를 들어, 표(550)는 새로운 가중된 신뢰도 점수를 만들기 위해서 미리 고려되는 결합된 신뢰도 점수에 몇 배로 곱할 수 있는 세 가지 가중치를 목록화한다.

이러한 예에서, 상기 인식 결과가 단일 SRS에 의해 생성되면(예컨대, 상기 결과가 "한 번"의 빈도로 발생하였다면) "1"의 가중치가 결합된 신뢰도 점수에 곱해진다. 결과적으로, 인식 결과가 단 한 번만 일어난다면, 가중치로부터 어떠한 효과도 받을 수 없을 것이다. 인식 결과가 두 번 일어나면, 단 한 번 일어난 다른 인식 결과 보다 상기 인식 결과를 좀 더 선호하여, 1.02의 인자를 이용하여 가중될 수 있다. 인식 결과가 세 번 일어나면, 1.04의 인자에 의해 가중될 수 있다.

도 5c의 예에서, 상기 인식 결과 "Cory"에 대한 결합된 신뢰도 값은 1.04와는 대조되는 0.6324의 가중된 값으로 초래되어 가중된다. 이러한 경우, 선택 모듈(113)은, 심지어 "Cory"의 가중되지 않은 결합된 신뢰도 값이 상기 "quarry" 결과의 것보다 작음에도 상기 전자의 가중된 결합된 신뢰도 점수가 후자의 것보다 더 높기 때문에 "quarry" 결과를 지나 "Cory" 결과를 선택할 수 있다.

최종 인식 결과를 선택하는 데 사용되는 값들은, 제약 없이, SRS에 의해 생성된 신뢰도 점수의 분포, 인식 결과를 생성하는 SRS의 특징들(예컨대, 전체 정확성, 특정 문맥의 정확성, 정의된 시간 기간을 거친 정확성 등), 및 동일한 인식 결과를 생산하는 SRS들 사이의 유사성을 포함하는 여러 가지 기준을 기초로 가중될 수 있다.

다른 구현에 있어, 최종 인식 결과는 인식기 또는 최종 복합 인식기에 대한 인식 에러와 인식 신뢰도 값의 상관관계를 이용하여 가중될 수 있다. 예를 들어, 훈련하는 동안, 상기 시스템은 특정 인식기가 0.3의 신뢰도 값으로 돌아올 수 있는 여러 번의 시간을 셀 수 있고, 또한 "0.3 신뢰도 인식 결과"가 얼마나 자주 그 인식기에 대해 에러가 나는지 및 또한 얼마나 자주 최종 결합된 인식이 인식 에러인지를 셀 수 있다. 상기 시스템은 유사한 인식 결과들을 결합할 때 산출한 동일한 표준화를 이용할 수 있다. 상기 결합된 신뢰도는 인식기가 동일한 결과를 갖고(주어진 신뢰도 값과 함께) 공통 결과가 올바른 여러 번의 시간으로부터 측정될 수 있다.

도 6은 최종 인식 결과의 선택에 사용되는 가중치 값으로 사용되는 신뢰도 값들의 분포의 예시적인 그래프(600)이다. 상기 그래프의 y-축은 표준화된 스케일(0.0에서 1.0까지)을 따라 특정 신뢰도 값이 떨어지는 것을 나타낸다. 그래프의 x-축은 특정 SRS가 어느 인식 결과를 생산하는지 라벨을 붙인다. 상기 예에서, SRS_A는 5개의 인식 결과들을 생성하고 그 중에 4개는 가능한 신뢰도 값들의 중간에서 아래쪽 범위 쪽으로 함께 상대적으로 가까이 무리지어져 있다. 단일 인식 결과, quarry는 다른 인식 결과들로부터 상당히 분리되어 놓여있고 상대적으로 더 높은 신뢰도 값을 갖는다. 이것은 SRS_A가 "quarry" 결과가 서로 더 대체가능한 다른 결과들보다 훨씬 나은 더 큰 신뢰도를 갖는다는 것을 나타낸다.

일부 구현에 있어, 이상값 또는 분리된, 더 높은 신뢰 값은 연계된 인식 결과의 선택을 지지하기 위해 가중될 수 있다. 예를 들어, 선택 모듈(113)은 1.05의 상수로 "quarry" 결과에 대해 0.9의 신뢰도 값을 가중시킬 수 있다. 이후에 "quarry"에 대한 결과가 되는 신뢰도 값은 0.945로 증가한다.

대안적으로, 더 고르게 배치된 신뢰도 값은 추가적인 가중치를 받을 수 없다(또는 가중치를 덜 받을 수 있다). 예를 들어, SRS_B에 의해 생성된 인식 결과에 대한 신뢰도 값들은 상당한 이상값 없이 더 고르게 배치된다. 이러한 경우, 최상위로 순위 매겨진 인식 결과가 옳다는 가능성이 더 낮기 때문에(예컨대, "quarry"가 낮은 신뢰도 값을 가진 결과들 집단 중에서 단연코 최상위 결과로서 두드러지지 않음), 선택 모듈(113)은 최상위로 순위가 매겨진 "quarry" 인식 결과에 대해 신뢰도 값에 가중치를 추가할 수 없다.

도 7a 내지 7e는 SRS들에 의해 출력된 예시적인 인식 결과 집합을 보여주는 벤 다이어그램 및 상기 인식 결과를 가중하기 위해 사용될 수 있는 집합들 사이의 상관관계이다. 도 7a는 3개의 인식 결과 집합들-SRS_A에 의해 생성된 인식 결과_A, SRS_B에 의해 생성된 인식 결과_B, 및 SRS_C에 의해 생성된 인식 결과_C-을 포함하는 벤 다이어그램(700)이다.

벤 다이어그램(700)에 의한 예시로서, 결과A, 결과B, 및 결과C는 부분적으로 오버랩(overlap)될 수 있다. 상기 예에서, 결과A 및 결과B는, 결과A와 결과C 또는 결과B와 결과C 사이의 오버랩과 비교되는 더 많은 오버랩 결과를 가진다. 이것은 SRS_A 및 SRS_B가 빈번하게 동일한 인식 결과(또는 결과)를 생산한다는 것을 나타내고, 여기서 SRS_C의 결과들은 흔히 SRS_A 또는 SRS_B의 결과에 상응하지 않는다.

일부 구현에 있어, 결과들의 교집합은 SRS들이 특정 음성 인식 태스크에 응답하여 동일한 인식 결과들을 생성하는 것을 기초로 한다. 예를 들어, 2개의 SRS가 특정 태스크에 대해 최상위 순위의 인식 결과를 생성한다면, 이 결과는 상기 교집합에 추가될 수 있다.

다른 예로서, 제1 SRS가 최상위 결과로서 "Cory" 인식 결과를 생성하고 제2 SRS가 네 번째 순위로 정해진 결과(5개의 결과들 중에서)로서 "Cory" 인식 결과를 생성한다면, 상기 "Cory"결과는 교집합에 추가될 수 있다. 일부 구현에 있어, 최상위 순위와 연계된 둘 다가 아닌 결과는 교집합 결과에 추가될 수 있을 뿐만 아니라, 순위에서 그들이 다르다는 것을 알려주는 감소 인자(discount factor)와 연계될 수 있다. 예를 들어, 2개의 순위들 사이의 차(difference)는 교집합과 연계된 가중치 인자를 감소시키기 위해 사용될 수 있다(예컨대, 순위에 있는 각각의 차이는 감소 인자와 연계될 수 있다). 예를 들어, 순위가 1과 4이면, 절대적 차는 교집합과 연계된 가중치를 곱하는 0.3의 감소 인자와 연계될 수 있는 3이다. 예를 들어, 가중치가 1.03이고, 감소 인자가 0.3이면, 이후 총 가중치는 가중치 1.03의 "증가"(boost) 인자에 반대로, 다시 말해 0.03이 곱해질 수 있다. 이것은 새로운 총 가중치 값이 1.01이 되도록 0.01의 새롭고 낮은 증가 인자에 기인할 수 있다.

일부 구현에 있어, SRS들 사이에서 인식 결과에 있는 오버랩은 그들이 최종 인식 결과의 선택에 있어 선호되거나 선호되지 않도록 상기 인식 결과를 가중하기 위해 사용될 수 있다. 예를 들어, 인식 결과가 자주 일치하는 2개의 SRS들에 의해 생성된다면, 자주 일치하지 않은 2개의 SRS들에 의해 생성된 인식 결과와 비례하여 덜 가중될 수 있다(또는 선호되지 않을 수 있다). 도 7b 내지 7e에서 이것을 더 상세히 설명한다.

도 7b는 도 7a의 벤 다이어그램(700)으로부터 결과A 및 결과B만 포함하는 벤 다이어그램(710)을 도시한다. 앞서 설명한 바와 같이, SRS_A 및 SRS_B는 그들의 인식 결과들에서의 유사성을 기초로 다소 유사한 것으로서 분류될 수 있다. 일부 구현에 있어, 가중치 인자는 2개(또는 이상)의 SRS 사이의 오버랩 내에 떨어진 인식 결과에 할당될 수 있다. 예를 들어, 0.01의 가중치 인자는 이 집합 내에서 떨어진 인식 결과와 연계될 수 있다.

일부 구현에 있어, 이러한 가중치 인자는 오버랩이 클 때 더 작고, 오버랩이 더 작을 때 가중치 인자는 더 크다. 이것은 자주 일치하지 않는 SRS에 의해 생성된 결과들은 이들의 오버랩된 결과들이 올바를 가능성이 크기 때문에 선호되어야만 한다는 가정을 반영할 수 있다. 예를 들어, 다른 결과들을 생산하는 SRS들은 다른 아래 놓인 구조들을 가질 수 있고, 인식 에러의 다른 유형들을 받아들일 수 있다.

도 7c는 도 7a의 벤 다이어그램(700)으로부터 결과A 및 결과C만 포함하는 벤 다이어그램(720)을 도시한다. 본 예에서, 결과들 사이의 오버랩은 도 7b에 도시된 오버랩보다 더 작다. 그러므로, 이러한 구현에 있어, 0.6의 가중치 인자는 도 7b에 도시된 교집합 내에 결과들과 연계된 오버랩 내에 떨어진 결과들에 대해 더 크다.

유사하게, 도 7d는 결과B와 결과C를 포함하는 벤 다이어그램(730)을 도시한다. 이러한 결과들의 교집합은 도 7b 및 7c의 교집합 사이의 크기이다. 그러므로, 이러한 구현에 있어, 가중치 인자는 또한 도 7b 및 7c의 교집합과 연계된 가중치 인자들 사이의 크기(예컨대, 0.03)이다.

도 7e는 도 7a에도 도시된 벤 다이어그램(700)을 도시하지만 모든 SRS_A _-C의 결과들 사이의 교집합이 강조(highlight)된다. 상기 교집합은 SRS 각각에 의해 생성된 인식 결과들의 집합을 반영한다. 3개의 SRS들 사이의 일치는 상대적으로 작게 주어져(본 예에서), 이 집합 내에 떨어진 인식 결과는 다른 가중치보다 높은 가중치, 즉, 0.1과 연계될 수 있다.

도 8a 및 8b는 어떻게 SRS들 간의 교집합이 상기 시스템의 실행시간 운영 동안 개조되거나 바꿀 수 있는지를 나타내는 벤 다이어그램(600 및 810)이다. 일부 구현에 있어, 인식 결과들의 교집합이 바뀔 때 상기 교집합과 연계된 가중치들도 더욱이 바뀔 수 있다.

도 8a는 SRS_A 및 SRS_B에 의해 생성된 인식 결과에서 예시적인 제1 교집합을 도시한다. 제1 교집합은 0.01의 가중치와 연계되어 있다. 일부 구현에 있어, 음성 인식기(108)는 추가적인 음성 디코딩을 수행하고, 추가적인 인식 결과들을 생성한다. SRS 상관관계 모니터(282)는 결과들을 모니터할 수 있고, 다양한 SRS들 사이의 결과들의 교집합을 식별할 수 있다.

상관관계 모니터(282)는 더 많은 결과들을 생성할 때 교집합 산출을 능동적으로 갱신할 수 있다. 이것은 상기 교집합이 바뀌는 것을 제외하고 도 8a에 있는 동일한 SRS_A 및 SRS_B를 도시하는 도 8b에 의해 나타내 진다. 이러한 예에 있어, SRS가 특정 음성 인식 태스크에 일치하는 횟수가 SRS가 수행하는 태스크의 수에 비례하여 증가하기 때문에 교집합이 커진다.

상기 증가된 교집합에 응답하여, 가중치도 감소될 수 있다. 예를 들어, 다이어그램(810)의 교집합 결과 세트는 0.001의 낮은 가중치와 연계될 수 있다. 일부 구현에 있어, 가중치 값의 변화는 교집합 결과 세트의 크기 변화와 선형적으로 비례할 수 있다. 예를 들어, 상기 시스템은 인식기가 다른 인식기와 유사할 때 인식기로부터 결과를 덜 가중하거나 지지할 수 있다. 도 8a 및 8b에 있어, 2개의 인식기에 대한 인식 결과들의 유사성은, 두 인식기 모두가 동일한 결과를 생성할 때 상기 시스템이 더 큰 교집합, 더 작은 가중치를 인식 결과에 붙일 수 있는, 두 인식기들 사이의 교집합으로서 표현된다. 대조적으로, 2개의 인식기가 매우 다를 때(예컨대, 다른 음성 인식 알고리즘 등으로 인해 일반적으로 그들이 다른 인식 결과들을 생산함), 결과들의 교집합이 더 작을 수 있다. 이러한 2개의 다른 인식기들이 이후에 발언과 일치할 때, 상기 시스템은, 상기 일치가 상기 결과가 올바를 가능성이 더 크다는 것을 지시할 수 있기 때문에 상기 시스템에 의해 훨씬 더 고려되도록 그들의 결과에 가중할 수 있다.

도 9는 인식 결과들과 연계된 SRS의 에러율과 가중치 사이의 예시적인 상관관계를 나타내는 그래프(900)이다. 일부 구현에 있어, SRS들에 의해 낮은 에러율로 생성된 인식 결과들은 최종 인식 결과들의 선택에 있어 더 무겁게 가중될 수 있다. 예를 들어, SRS가 높은 에러율을 가지면, 매우 정확한 SRS에 의해 생성된 인식결과와 비교하여 그것의 인식 결과는 감소될 수 있다(또는 무겁게 가중되지 않을 수 있다).

그래프(900)는 특정 SRS에 가중치를 할당하기 위해 예시적인 함수 또는 알고리즘을 나타낸다. 그래프(900)의 y-축은 SRS와 연계된 에러율을 가리키고, x-축은 SRS와 연계된 가중치를 가리킨다. 이러한 예에서, 감소 가중치(예컨대, 0.9, 0.95, 0.8)은 결정된 임계치 위의 에러율을 갖는 SRS들(예컨대, SRS_A, SRS_E, SRS_C)을 가중하기 위해 사용된다. 증가 가중치(예컨대, 1.01, 1.04, 1.1)는 상기 임계치 아래의 에러율을 갖는 SRS들(예컨대, SRS_B)을 가중하기 위해 사용된다. 이러한 예에서, 중립 가중치(예컨대, 1)는 에러 임계치 상에 떨어진 SRS들(예컨대, SRS_D)을 가중하기 위해 사용된다.

일부 구현에 있어, 각각의 SRS와 연계된 에러율은 인식 결과가 올바르지 않다는 확인을 기초로 갱신될 수 있다(예컨대, 상기 결과는 최종 인식 결과로서 선택되고 사용자에 의해 거절될 수 있으며, 제1 결과는 최종 인식 결과로서 선택될 수 있고 선택되지 않은 결과가 막대한 결과들 등으로서 기록되어 사용자의 수용을 기초로 올바르게 되도록 결정된다). 선택 모듈(113)은 각각의 SRS와 연계된 갱신된 에러율을 기초로 상기 가중치를 능동적으로 변화시킬 수 있다.

도 10은 클라이언트 또는 서버나 복수의 서버들 중 하나로, 본 명세서에서 설명하는 시스템과 방법을 구현하기 위해 사용될 수 있는 컴퓨팅 디바이스(1000, 1050)의 블록 다이어그램이다. 컴퓨팅 디바이스(1000)는 랩탑, 데스크탑, 워크 스테이션, 개인 디지털 어시스턴트(PDA), 서버, 블래이드 서버, 메인 프레임 및 다른 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터들을 표현하기 위해 시도된다. 컴퓨팅 디바이스(1050)는 개인 디지털 어시스턴트, 셀룰러 전화, 스마트 폰 및 다른 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스들을 표현하기 위해 시도된다. 게다가 컴퓨팅 디바이스(1000 또는 1050)는 범용 직렬 버스(USB) 플래시 드라이브를 포함할 수 있다. 상기 USB 플래시 드라이브는 운영 시스템 및 다른 애플리케이션을 저장할 수 있다. USB 플래시 드라이브는 다른 컴퓨팅 디바이스의 USB 포트에 삽입할 수 있는 무선 송신기 또는 USB 커넥터(connector)와 같은 입력/출력 구성요소들을 포함할 수 있다. 여기에 그들의 연결 및 관계, 및 그들의 기능을 도시한 구성요소들은 일실시예로만 되어있고 이 명세서에서 설명 및/또는 청구하는 발명의 제한적인 구현이 되지는 않는다.

컴퓨팅 디바이스(1000)는 프로세서(1002), 메모리(1004), 저장 디바이스(1006), 메모리(1004)와 고속 확장 포트(1010)에 연결된 고속 인터페이스(1008) 및 저속 버스(1014)와 저장 디바이스(1006)에 연결된 저속 인터페이스(1012)를 포함한다. 구성요소들(1002, 1004, 1006, 1008, 1010, 및 1012) 각각은 다양한 버스들을 이용하여 상호 연결될 수 있고, 공통 마더보드 상에 또는 다른 적절한 방법으로 탑재될 수 있다. 프로세서(1002)는 고속 인터페이스(1008)와 연결된 디스플레이(1016)와 같은 외부 입력/출력 디바이스상의 GUI를 위한 그래픽 정보를 디스플레이하기 위해 메모리(1004) 또는 저장 디바이스(1006)상에 저장된 명령들을 포함하는 컴퓨팅 디바이스(1000) 내부에서 실행을 위한 명령들을 처리할 수 있다. 다른 구현에 있어, 다중 프로세서 및/또는 다중 버스들이 적절히 다중 메모리 및 메모리 유형에 따라 사용될 수 있다. 또한 다중 컴퓨팅 디바이스(1000)는 필수적인 운영의 부분을 제공하는 각각의 디바이스와 연결될 수 있다(예컨대, 서버 뱅크, 블래이드 서버의 그룹, 또는 다중-프로세서 시스템으로서).

메모리(1004)는 컴퓨팅 디바이스(1000) 내에 정보를 저장한다. 일 구현에 있어, 메모리(1004)는 휘발성 메모리 유닛(unit) 또는 유닛들(units)이다. 다른 구현에 있어, 메모리(1004)는 비-휘발성 메모리 유닛 또는 유닛들이다. 메모리(1004)는 또한 자기(magnetic) 또는 광(optical) 디스크처럼 컴퓨터 판독가능한 매체의 다른 유형이 될 수 있다.

저장 디바이스(1006)는 컴퓨팅 디바이스(1000)를 위하여 대량의 저장소를 제공할 수 있다. 일 구현에 있어, 저장 디바이스(1006)는 저장 디바이스(1006)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스, 테이프 디바이스, 플래시 메모리 또는 다른 유사한 반도체 메모리 디바이스, 또는 저장 영역 네트워크에 있는 디바이스들 또는 다른 구성을 포함하는 디바이스들의 어레이와 같은, 컴퓨터-판독가능한 저장 매체를 포함할 수 있다. 컴퓨터 프로그램 제품은 정보 전송자로 유형적으로 구현될 수 있다. 컴퓨터 프로그램 제품은 또한 실행시 상기 설명한 것들처럼 하나 이상의 방법들을 수행하는 명령들을 포함할 수 있다. 정보 전송자는 메모리(1004), 저장 디바이스(1006) 또는 프로세서(1002)상의 메모리처럼, 컴퓨터-또는 기계-판독가능한 저장 매체이다.

고속 컨트롤러(1008)는 저속 컨트롤러(1012)가 낮은 주파수 대역폭-집중 작업들을 관리하는 동안 컴퓨팅 디바이스(1000)에 대한 주파수 대역폭-집중 작업들을 관리한다. 그러한 기능들의 할당은 단지 본보기일 뿐이다. 일 구현에 있어, 고속 컨트롤러(1008)는, 다양한 확장 카드들(도시되지 않음)을 수용할 수 있는, 메모리(1004), 디스플레이(1016; 예컨대, 그래픽 프로세서 또는 가속기(accelerator)), 및 고속 확장 포트들(1010)과 연결되어 있다. 상기 구현에 있어, 저속 컨트롤러(1012)는 저장 디바이스(1006) 및 저속 확장 포트(1014)와 연결되어 있다. 다양한 통신 포트들(예컨대, USB, 블루투스, 이더넷, 무선 이더넷)을 포함할 수 있는 저속 확장 포트는 예컨대 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너, 또는 라우터나 스위치와 같은 네트워킹 디바이스와 같이 하나 이상의 입력/출력 디바이스들과 연결될 수 있다.

컴퓨팅 디바이스(1000)는 그림에 도시된 바와 같이 여러 가지 다른 형태로 구현될 수 있다. 예를 들어, 스탠다드 서버(1020) 또는 그러한 서버들의 그룹에서 몇 차례와 같이 구현될 수 있다. 또한 랙 서버 시스템(1024)의 부분으로 구현될 수 있다. 게다가, 랩탑 컴퓨터(1022)와 같은 개인 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(1000)로부터의 구성요소들은 디바이스(1050)처럼, 모바일 디바이스(도시되지 않음)에서 다른 구성요소들과 결합될 수 있다. 그러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(1000, 1050)를 포함할 수 있고, 전체 시스템은 서로 통신하면서 다중 컴퓨팅 디바이스(1000, 1050)로 만들어질 수 있다.

컴퓨팅 디바이스(1050)는 다른 구성요소들 중에서도 프로세서(1052), 메모리(1064), 디스플레이(1054)와 같은 입력/출력 디바이스, 통신 인터페이스(1066) 및 송수신기(1068)를 포함할 수 있다. 디바이스(1050)는 도한 추가적인 저장을 제공하기 위한 마이크로드라이브 또는 다른 디바이스와 같은 저장 디바이스로 제공될 수 있다. 구성요소들(1050, 1052, 1064, 1054, 1066, 및 1068) 각각은 다양한 버스들을 이용하여 상호 연결될 수 있고, 상기 여러 가지 구성요소들은 공통 마더보드상에 또는 적절히 다른 방식으로 탑재될 수 있다.

프로세서(1052)는 메모리(1064)에 저장된 명령들을 포함하는 컴퓨팅 디바이스(1050) 안에서 명령들을 실행할 수 있다. 프로세서는 분리되고 다중 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩셋으로서 구현될 수 있다. 게다가, 프로세서는 수많은 구조들의 일부를 사용하여 구현될 수 있다. 예를 들어, 프로세서(410)는 CISC(Complex Instruction Set Computers) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서, 또는 MISC(Minimal Instruction Set Computer) 프로세서가 될 수 있다. 프로세서는 예를 들어, 사용자 인터페이스의 제어, 디바이스(1050)에 의해 구동하는 애플리케이션과 같은 디바이스(1050) 및 디바이스(1050)에 의한 무선 통신의 다른 구성요소의 조정에 대해 제공할 수 있다.

프로세서(1052)는 컨트롤 인터페이스(1058) 및 디스플레이(1054)에 연결된 디스플레이 인터페이스(1056)를 통해 사용자와 통신할 수 있다. 예를 들어, 디스플레이(1054)는 TFT(Thin-Film-Transistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이 또는 다른 적절한 디스플레이 기술이 될 수 있다. 디스플레이 인터페이스(1056)는 사용자에게 시각적 및 다른 정보를 주도록 디스플레이(1054)를 조종하기 위한 적절한 회로를 포함할 수 있다. 컨트롤 인터페이스(1058)는 사용자로부터 커맨드를 받을 수 있고, 프로세서(1052)에 의뢰하기 위해 커맨드들을 변환할 수 있다. 게다가, 다른 디바이스들과 디바이스(1050)의 근거리 통신을 할 수 있도록, 외부 인터페이스(1062)는 프로세서(1052)와의 통신에서 제공될 수 있다. 예를 들어, 외부 인터페이스(1062)는 일부 구현에 있어 유선 통신, 또는 다른 구현에 있어 무선 통신을 위해 제공할 수 있고, 다중 인터페이스도 사용될 수 있다.

메모리(1064)는 컴퓨팅 디바이스(1050) 내에 정보를 저장한다. 메모리(1064)는 하나 이상의 컴퓨터-판독가능한 저장 매체 또는 미디어, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들로서 구현될 수 있다. 확장 메모리(1074)는 또한, 예컨대 심(SIMM; Single In Line Memory Module) 카드 인터페이스를 포함할 수 있는 확장 인터페이스(1072)를 통해 제공될 수 있고, 디바이스(1050)에 연결될 수 있다. 그러한 확장 메모리(1074)는 디바이스(1050)를 위해 여분의 저장 공간을 제공할 수 있고, 또는 애플리케이션이나 디바이스(1050)에 대한 다른 정보를 저장할 수 있다. 구체적으로, 확장 메모리(1074)는 상기 설명프로세스들을 수행하거나 보완하기 위한 명령들을 포함할 수 있고, 또한 보안 정보를 포함할 수 있다. 그러므로, 예를 들어, 확장 메모리(1074)는 디바이스(1050)를 위한 보안 모듈로서 제공될 수 있고, 또 디바이스(1050)의 보안 사용을 허용하는 명령들과 프로그램을 짤 수 있다. 게다가, 보안 애플리케이션은 추가적인 정보에 따라, 해킹할 수 없는 방식으로 SIMM 카드상에 정보를 식별하는 정보를 두는 것처럼, SIMM 카드를 통해 제공될 수 있다.

예를 들어 상기 메모리는 이하 논의된 것처럼, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 일 구현에 있어, 컴퓨터 프로그램 제품은 정보 전송자로 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행 시 상기 설명된 것들처럼 하나 이상의 방법들을 수행하는 명령들을 포함한다. 상기 정보 전송자는 메모리(1064), 확장 메모리(1074), 또는 프로세스(1052)상의 메모리와 같은 컴퓨터-또는 기계- 판독가능한 저장 매체일 수 있다.

디바이스(1050)는 필수적인 회로를 처리하는 디지털 신호를 포함할 수 있는 통신 인터페이스(1066)를 통해 무선으로 통신할 수 있다. 통시 인터페이스(1066)는 다른 것들 중에서도 GSM voice calls, SMS, EMS 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS와 같은 다양한 모드 또는 프로토콜 하에 통신을 위해 제공될 수 있다. 예를 들어, 그러한 통신은 라디오-주파수 송수신기(1068)를 통해 일어날 수 있다. 게다가, 단거리 통신은 블루투스, 와이파이(WiFi) 또는 다른 송수신기(도시되지 않음)를 이용함으로써 일어날 수 있다. 덧붙여, GPS(Global Positioning System) 수신 모듈(1070)은 추가적인 내비게이션-및 위치-관련된 무선 데이터를, 디바이스(1050) 상에서 구동하는 애플리케이션에 의해 적절하게 사용될 수 있는 디바이스(1050)에 제공할 수 있다.

디바이스(1050)는 또한 사용자로부터 구두 정보를 수신할 수 있고 그것을 사용가능한 디지털 정보로 변환할 수 있는 오디오 코덱(1060)을 이용하여 소리로 통신할 수 있다. 오디오 코덱(1060)은 예컨대 디바이스(1050)의 핸드셋에서 스피커를 통해서와 같이 사용자를 위해 청취가능한 소리를 다른 방식으로 생성할 수 있다. 그러한 소리는 음성 전화기 전화로부터 소리를 포함할 수 있고, 기록된 소리(예컨대, 음성 메시지, 음악 파일 등)를 포함할 수 있으며, 또한 디바이스(1050) 상에서 구동하는 애플리케이션에 의해 생성된 소리를 포함할 수 있다.

컴퓨팅 디바이스(1050)는 그림에서 도시된 바와 같이 여러 가지 다른 형태들에서 구현될 수 있다. 예를 들어, 셀룰러 전화기(1080)로서 구현될 수 있다. 또한 스마트폰(1082), 개인 디지털 어시스턴트, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.

여기서 설명한 시스템과 기술들의 다양한 구현들은 디지털 전자 회로, 집적 회로, 특별히 설계된 ASICs(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 실현될 수 있다. 이러한 다양한 구현들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능한 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 프로그래머블 프로세서는 전용 또는 범용 목적일 수 있으며, 저장 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스로부터의 데이터와 명령들을 수신하기 위해, 또한 데이터와 명령들을 전송하기 위해 연결될 수 있다.

이러한 컴퓨터 프로그램들(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 알려진)은 프로그래머블 프로세서를 위해 기계 명령들을 포함하고, 고급 절차 및/또는 객체-지향 프로그래밍 언어로, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 여기서 사용된 바와 같이, "기계판독가능한 매체""컴퓨터 판독가능한 매체"는, 기계-판독가능한 신호로서 기계 명령들을 수신하는 기계-판독가능한 저장 매체를 포함하는, 프로그래머블 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 일부 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예컨대, 자기 디스크, 광학 디스크, 메모리, 프로그래머블 로직 디바이스(PLDs))를 참조한다. "기계-판독가능한 신호"라는 용어는 프로그래머블 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 신호를 참조한다.

사용자와의 상호작용을 제공하기 위해, 여기서 설명하는 시스템 및 기술들은, 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스(예컨대, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터), 사용자가 컴퓨터에 입력을 제공할 수 있는 포인팅 디바이스(예컨대, 마우스 또는 트랙볼)를 구비한 컴퓨터상에서 구현될 수 있다. 다른 종류의 디바이스들은 마찬가지로 사용자와의 상호작용을 위해 제공하도록 사용될 수 있다; 예를 들어, 사용자에게 제공된 피드백은 감각의(sensory) 피드백(예컨대, 시각 피드백, 소리 피드백, 또는 촉각 피드백) 형태일 수 있고; 사용자로부터의 입력은 음향, 음성, 또는 촉감의 입력을 포함하는 어떠한 형태로 수신될 수 있다.

여기서 설명하는 시스템과 기술들은 백 엔드 구성요소(back-end component; 예컨대, 데이터 서버처럼)를 포함하거나, 또는 미들웨어 구성요소(middleware component; 예컨대, 애플리케이션 서버)를 포함하거나, 또는 프론트 엔드 구성요소(front-end component; 예컨대, 사용자가 여기서 설명하는 시스템 및 기술의 구현과 상호작용할 수 있는 것을 통해 시각적 사용자 인터페이스 또는 웹 브라우저를 구비한 클라이언트 컴퓨터) 또는 그러한 백 엔드, 미들웨어, 또는 프론트 엔드 구성요소 중 일부 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 구성요소는 디지털 데이터 통신(예컨대, 통신 네트워크)의 어떠한 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 LAN(Local Area Network), WAN(Wide Area Network), peer-to-peer 네트워크(특별한 또는 정적인 멤버를 가진), 그리드 컴퓨팅 인프라구조, 및 인터넷이 포함된다.

상기 컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 설명한 것처럼 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터상에서 구동되고 서로에 대하여 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.

본 발명의 여러 가지 구현들에 대해 설명하였다. 그럼에도 불구하고 다양한 변경이 본 발명의 사상과 범위를 벗어나지 않는 한도 내에서 이루어질 수 있음을 이해할 것이다. 예를 들어, 조합된, 또는 공동의 다중 SRS들의 신뢰도 점수는 가설의 일관성, 또는 발언의 동일성에 대한 추측과 같은 특징들을 포함할 수 있다. 예를 들어, 0.8의 신뢰도를 가진 제1 결과를 출력한 3개의 SRS는 0.9의 신뢰도를 가진 제2 결과를 출격하는 하나의 SRS보다 더 신뢰성이 높을 수 있다.

일부 구현에 있어, SRS의 사전 결정된 집합은 대기 시간 또는 다른 요소들을 기초로 사용하기 위해 선택될 수 있다. 예를 들어, 오디오가 네 또는 아니오 질문에 대한 대답을 하도록 사용자를 촉구하는 것에 응답하여 수신되면, 상기 응답을 처리하기 위해 모든 이용가능한 SRS를 허용하는 대신에 가장 빠른 2개의 SRS가 상기 대답을 처리하기 위해 선택될 수 있다.

게다가, 일부 구현에 있어, 최종 인식 결과의 전체 신뢰도는 SRS들에 의해 생성된 개별적인 인식 결과들이 일치하지 않을 때 떨어질 수 있다. 인식 결과들이 전혀 오버랩되지 않을 때 "가장 좋은" 현재의 결과를 선택하기 위한 알고리즘의 일례는 가장 높은 개별 신뢰도를 가진 인식 결과를 선택하는 것이다. 이 예에서, 상기 결합된 신뢰도는, 훈련하는 동안 상기 시스템이 오버랩되지 않은 유사한 조건 및 유사한 주어진 신뢰도 값들을 가질 때 산출된 올바른 인식 결과들의 예상된 수일 수 있다. 유사한 산출과 통계는 또한 인식 결과에서 주어진 부분적인 오버랩 양에 대해 측정될 수 있다. 그러므로, 만약/왜냐하면 오버랩의 정도가 훈련하는 동안 더 적은 전체 인식 에러와 상관된다면/때문에, 전체 시스템은 부분적으로 오버랩된 인식 결과들의 결합에 더 높은 신뢰도 값을 할당할 수 있다.

예를 들어, 상기 도시된 흐름의 다양한 형태들이 재배치되고, 더해지고, 또는 제거된 단계들과 함께 사용될 수 있다. 또한, 음성 디코딩에서 다중 음성 인식 시스템을 사용하기 위한 여러 가지 애플리케이션과 방법들이 설명되었다 하더라도, 수많은 다른 적용들이 고려되어 진다는 것을 인식해야 한다. 따라서 다른 구현들은 후술하는 청구항의 범위 내에 있다.

Claims

컴퓨터에 의해 구현되는 방법으로서,
컴퓨터 시스템에서, 오디오 신호를 수신하는 단계와;
상기 컴퓨터 시스템에 의해, 상기 오디오 신호에 대한 복수의 음성 인식 태스크들을 개시(initiate)하는 단계와, 상기 음성 인식 태스크들은 복수의 언어 모델들 중 서로 다른 하나를 각각 사용하며;
상기 복수의 음성 인식 태스크들의 일부분을 완료함을 검출하는 단계와, 상기 복수의 음성 인식 태스크들 중 나머지 부분은 완료하지 않았으며;
상기 일부분에 포함된 상기 복수의 음성 인식 태스크들 각각에 대한 인식 결과들 및 신뢰도 값들을 획득하는 단계와, 상기 인식 결과들은 상기 오디오 신호의 하나 이상의 후보 표기들(candidate transcriptions)을 식별하고, 상기 신뢰도 값들은 상기 인식 결과들이 옳다는 하나 이상의 확률들을 식별하며;
상기 컴퓨터 시스템에 의해, 상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값(threshold confidence value) 이상인지 여부를 결정하는 단계와; 그리고
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값 이상임을 결정함에 응답하여, 그리고 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분 전부를 완료하기 전에, 상기 인식 결과들 및 상기 하나 이상의 신뢰도 값들에 기초하여 상기 오디오 신호에 대한 최종 인식 결과를 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 언어 모델들은 복수의 언어들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 언어 모델들은 복수의 입상 레벨들(levels of granularity) 중 서로 다른 하나를 각각 가지는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 언어 모델들은 복수의 지리적 위치들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 언어 모델들은 복수의 구조들(architectures) 중 서로 다른 하나를 각각 가지는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 언어 모델들은 복수의 훈련 과정들(training procedures) 중 서로 다른 하나에 기초하여 각각 생성되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 최종 인식 결과는 상기 음성 인식 태스크들 중 상기 일부분으로부터의 특정 음성 인식 태스크에 의해 생성된 상기 인식 결과들로부터의 특정 인식 결과를 포함하며, 상기 특정 음성 인식 태스크는 상기 복수의 언어 모델들로부터의 특정 언어 모델을 사용하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 복수의 음성 인식 태스크들은 복수의 음성 인식 시스템들에 의해 개시되고 복수의 음성 인식 시스템들에서 실행되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 상기 임계 신뢰도 값 이상임을 결정함에 응답하여, 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 완료하기 전에 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 중단(abort)하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 1에 있어서,
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 상기 임계 신뢰도 값 이상임을 결정함에 응답하여, 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 완료하기 전에 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 일시 정지(pause)하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
컴퓨터 시스템으로서,
하나 이상의 컴퓨팅 디바이스들;
오디오 신호를 수신하도록 프로그래밍된 상기 하나 이상의 컴퓨팅 디바이스들의 인터페이스;
상기 오디오 신호에 대한 복수의 음성 인식 태스크들을 개시하는 복수의 음성 인식 시스템들, 상기 음성 인식 태스크들은 복수의 언어 모델들 중 서로 다른 하나를 각각 사용하며; 및
인식 관리 모듈을 포함하며, 상기 인식 관리 모듈은:
상기 복수의 음성 인식 태스크들의 일부분을 완료함을 검출하는 것과, 상기 복수의 음성 인식 태스크들 중 나머지 부분은 완료하지 않았으며;
상기 일부분에 포함된 상기 복수의 음성 인식 태스크들 각각에 대한 인식 결과들 및 신뢰도 값들을 획득하는 것과, 상기 인식 결과들은 상기 오디오 신호의 하나 이상의 후보 표기들(candidate transcriptions)을 식별하고, 상기 신뢰도 값들은 상기 인식 결과들이 옳다는 하나 이상의 확률들을 식별하며;
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값(threshold confidence value) 이상인지 여부를 결정하는 것과; 그리고
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값 이상임을 결정함에 응답하여, 그리고 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분 전부를 완료하기 전에, 상기 인식 결과들 및 상기 하나 이상의 신뢰도 값들에 기초하여 상기 오디오 신호에 대한 최종 인식 결과를 제공하는 것을 포함하도록 프로그래밍 되는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 언어 모델들은 복수의 언어들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 언어 모델들은 복수의 입상 레벨들(levels of granularity) 중 서로 다른 하나를 각각 가지는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 언어 모델들은 복수의 지리적 위치들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 언어 모델들은 복수의 구조들(architectures) 중 서로 다른 하나를 각각 가지는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 언어 모델들은 복수의 훈련 과정들(training procedures) 중 서로 다른 하나에 기초하여 각각 생성되는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 최종 인식 결과는 상기 음성 인식 태스크들 중 상기 일부분으로부터의 특정 음성 인식 태스크에 의해 생성된 상기 인식 결과들로부터의 특정 인식 결과를 포함하며, 상기 특정 음성 인식 태스크는 상기 복수의 언어 모델들로부터의 특정 언어 모델을 사용하는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 상기 임계 신뢰도 값 이상임을 결정함에 응답하여, 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 완료하기 전에 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 중단(abort)하는 것을 더 포함하도록 프로그래밍 되는 것을 특징으로 하는 컴퓨터 시스템.
청구항 11에 있어서,
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 상기 임계 신뢰도 값 이상임을 결정함에 응답하여, 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 완료하기 전에 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분을 일시 정지(pause)하는 것을 더 포함하도록 프로그래밍 되는 것을 특징으로 하는 컴퓨터 시스템.
컴퓨터 프로그램이 저장된 컴퓨터에 의해 판독가능한 기록 매체로서, 상기 컴퓨터 프로그램은 명령어들을 포함하며, 상기 명령어들은 실행될 때 하나 이상의 컴퓨팅 디바이스들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
오디오 신호를 수신하는 동작과;
상기 오디오 신호에 대한 복수의 음성 인식 태스크들을 개시(initiate)하는 동작과, 상기 음성 인식 태스크들은 복수의 언어 모델들 중 서로 다른 하나를 각각 사용하며;
상기 복수의 음성 인식 태스크들의 일부분을 완료함을 검출하는 동작과, 상기 복수의 음성 인식 태스크들 중 나머지 부분은 완료하지 않았으며;
상기 일부분에 포함된 상기 복수의 음성 인식 태스크들 각각에 대한 인식 결과들 및 신뢰도 값들을 획득하는 동작과, 상기 인식 결과들은 상기 오디오 신호의 하나 이상의 후보 표기들(candidate transcriptions)을 식별하고, 상기 신뢰도 값들은 상기 인식 결과들이 옳다는 하나 이상의 확률들을 식별하며;
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값(threshold confidence value) 이상인지 여부를 결정하는 동작과; 그리고
상기 하나 이상의 신뢰도 값들 중 적어도 하나가 임계 신뢰도 값 이상임을 결정함에 응답하여, 그리고 상기 복수의 음성 인식 태스크들 중 상기 나머지 부분 전부를 완료하기 전에, 상기 인식 결과들 및 상기 하나 이상의 신뢰도 값들에 기초하여 상기 오디오 신호에 대한 최종 인식 결과를 제공하는 동작을 포함하는 것을 특징으로 하는 컴퓨터에 의해 판독가능한 기록 매체.
컴퓨터에 의해 구현되는 방법으로서,
특정 오디오 데이터를 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기에게로 제공하는 단계와;
상기 자동화된 음성 인식기들 전부가 상기 특정 오디오 데이터를 프로세싱하는 것을 완료하기 전에, 상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치(confidence value threshold)를 만족함을 결정하는 단계와; 그리고
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 특정 오디오 데이터의 프로세싱을 완료하는 상기 자동화된 음성 인식기들의 세트 중 상기 특정 자동화된 음성 인식기의 출력을 최상위 음성 인식 가정(top speech recognition hypothesis)으로서의 출력으로 제공하는 단계를 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 21에 있어서,
상기 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기는 복수의 언어 모델들 중 서로 다른 하나를 사용하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
삭제
청구항 21에 있어서,
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 자동화된 음성 인식기들의 세트 중 상기 오디오 데이터를 프로세싱하는 것을 완료하지 않은 다른 자동화된 음성 인식기들을 일시 정지하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 22에 있어서,
상기 복수의 언어 모델들은 복수의 언어들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 22에 있어서,
상기 언어 모델들은 복수의 훈련 과정들(training procedures) 중 서로 다른 하나에 기초하여 각각 생성되는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
청구항 21에 있어서,
상기 최상위 음성 인식 가정은 상기 특정 오디오 데이터의 상기 프로세싱에 의해 생성된 다수의 인식 결과들로부터의 특정 인식 결과를 포함하는 것을 특징으로 하는 컴퓨터에 의해 구현되는 방법.
시스템으로서,
하나 이상의 컴퓨팅 디바이스들;
오디오 신호를 수신하도록 프로그래밍된 상기 하나 이상의 컴퓨팅 디바이스들의 인터페이스;
자동화된 음성 인식기들의 세트; 및
인식 관리 모듈을 포함하며, 상기 인식 관리 모듈은 동작들을 수행하도록 구성되며, 상기 동작들은:
특정 오디오 데이터를 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기에게로 제공하는 동작과;
상기 자동화된 음성 인식기들 전부가 상기 특정 오디오 데이터를 프로세싱하는 것을 완료하기 전에, 상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정하는 동작과; 그리고
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 특정 오디오 데이터의 프로세싱을 완료하는 상기 자동화된 음성 인식기들의 세트 중 상기 특정 자동화된 음성 인식기의 출력을 최상위 음성 인식 가정으로서의 출력으로 제공하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 28에 있어서,
상기 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기는 복수의 언어 모델들 중 서로 다른 하나를 사용하는 것을 특징으로 하는 시스템.
삭제
청구항 28에 있어서,
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 자동화된 음성 인식기들의 세트 중 상기 오디오 데이터를 프로세싱하는 것을 완료하지 않은 다른 자동화된 음성 인식기들을 일시 정지하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
청구항 29에 있어서,
상기 복수의 언어 모델들은 복수의 언어들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 시스템.
청구항 29에 있어서,
상기 언어 모델들은 복수의 훈련 과정들(training procedures) 중 서로 다른 하나에 기초하여 각각 생성되는 것을 특징으로 하는 시스템.
청구항 28에 있어서,
상기 최상위 음성 인식 가정은 상기 특정 오디오 데이터의 상기 프로세싱에 의해 생성된 다수의 인식 결과들로부터의 특정 인식 결과를 포함하는 것을 특징으로 하는 시스템.
하나 이상의 프로세서들에 의해 실행가능한 명령어들을 저장하는 컴퓨터로 판독가능한 저장 매체로서, 상기 명령어들의 실행시, 상기 하나 이상의 프로세서들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
특정 오디오 데이터를 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기에게로 제공하는 동작과;
상기 자동화된 음성 인식기들 전부가 상기 특정 오디오 데이터를 프로세싱하는 것을 완료하기 전에, 상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정하는 동작과; 그리고
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 특정 오디오 데이트의 프로세싱을 완료하는 상기 자동화된 음성 인식기들의 세트 중 상기 특정 자동화된 음성 인식기의 출력을 최상위 음성 인식 가정으로서의 출력으로 제공하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
청구항 35에 있어서,
상기 자동화된 음성 인식기들의 세트 중 각 자동화된 음성 인식기는 복수의 언어 모델들 중 서로 다른 하나를 사용하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
삭제
청구항 35에 있어서,
상기 자동화된 음성 인식기들의 세트 중 특정 자동화된 음성 인식기가 상기 특정 오디오 데이터의 프로세싱을 완료함과 그리고 상기 특정 오디오 데이터를 프로세싱하는 상기 특정 자동화된 음성 인식기와 관련된 신뢰 값이 특정 신뢰 값 임계치를 만족함을 결정함에 응답하여, 상기 자동화된 음성 인식기들의 세트 중 상기 오디오 데이터를 프로세싱하는 것을 완료하지 않은 다른 자동화된 음성 인식기들을 일시 정지하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
청구항 36에 있어서,
상기 복수의 언어 모델들은 복수의 언어들 중 서로 다른 하나와 각각 관련되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.
청구항 36에 있어서,
상기 언어 모델들은 복수의 훈련 과정들(training procedures) 중 서로 다른 하나에 기초하여 각각 생성되는 것을 특징으로 하는 컴퓨터 판독가능 저장 매체.