KR102115541B1

KR102115541B1 - 외부 데이터 소스들을 사용한 스피치 재-인식

Info

Publication number: KR102115541B1
Application number: KR1020187013507A
Authority: KR
Inventors: 트레버 디. 스트로먼; 존 샤크윅; 글레프 스코벨신
Original assignee: 구글 엘엘씨
Priority date: 2016-02-05
Filing date: 2016-11-18
Publication date: 2020-05-26
Also published as: RU2688277C1; JP6507316B2; WO2017136016A1; EP3360129A1; KR20180066216A; CN107045871A; EP3360129B1; DE202016008230U1; JP2019507362A; DE102016125954A1; US20170301352A1; US20170229124A1; CN107045871B

Abstract

외부 데이터 소스들에 기초하여 스피치 인식을 개선하기 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는 방법들. 하나의 양태에서, 방법은 자동화된 스피치 인식기를 사용하여 발언의 초기 후보 표기를 획득하는 단계 및 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 상기 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 단계를 포함한다. 추가적 액션들은 상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계 및 상기 후보 표기들 중에서 표기를 선택하는 단계를 포함한다. 기술된 구성들은 외부 데이터 소스로부터의 데이터로 하여금 기존의 자동화된 스피치 인식기를 수정하지 않고서 보다 정확한 표기들을 생성하는데 사용될 수 있도록 하거나, 또는 자동화된 스피치 인식기의 재-컴파일을 피할 수 있다.

Description

외부 데이터 소스들을 사용한 스피치 재-인식

본 명세서는 자동화된 스피치 인식과 관련된 것이다.

스피치 인식은 자동화된 스피치 인식기(ASR, automated speech recognizer)를 사용하여 발화된 단어들을 텍스트로 표기한 것을 지칭한다. 전통적인 ASR 시스템들에서, 수신된 오디오는 컴퓨터 판독 가능 소리들로 변환되며, 그 후 주어진 언어와 연관된 단어들의 사전과 비교된다.

일반적으로, 본 명세서에 기술된 발명의 하나의 혁신적인 양태는 외부 데이터 소스를 사용하여 스피치 인식을 개선하는 방법들로 구현될 수 있다. 예를 들어, 자동화된 스피치 인식기는 발언을 인코딩한 오디오 데이터를 수신하고, 제1 언어 모델을 사용하여 발언의 초기 후보 표기를 제공할 수 있다. 시스템은 그 후 (i) 초기 후보 표기와 음성학적으로 유사한 소리가 나며 (ii) 주어진 언어에 나타날 가능성이 있는 대체 후보 표기들을 생성하기 위해 초기 후보 표기에 제2, 상이한 언어 모델을 적용할 수 있다. 시스템은 그 후 (i) 오디오 데이터와 후보 표기들 사이의 음성 유사성 및 (ii) 후보 표기가 주어진 언어에 나타날 가능성에 기초하여 후보 표기들 중에서 표기를 선택할 수 있다.

구현예들은 다음 구성들 중 하나 이상을 포함할 수 있다. 예를 들어, 일부 구현예들에서, 방법은 자동화된 스피치 인식기를 사용하여 발언의 초기 후보 표기를 획득하는 단계, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 상기 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 단계, 상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계, 및 상기 후보 표기들 중에서 표기를 선택하는 단계를 포함한다.

다른 버전들은 컴퓨터 저장 디바이스들 상에 인코딩된 상기 방법들의 액션들을 수행하도록 구성된 컴퓨터 프로그램들, 대응하는 시스템들, 및 컴퓨팅 장치로 하여금 상기 방법들의 액션들을 수행하도록 구성된 컴퓨터 프로그램들을 포함한다.

하나 이상의 구현예들은 다음의 선택적인 구성들을 포함할 수 있다. 예를 들어, 일부 구현예들에서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델에 있지 않는 하나 이상의 용어들을 포함한다. 일부 양태들에서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델 및 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델은 둘 모두, 하나 이상의 용어들의 시퀀스를 포함하지만, 상기 시퀀스를 나타날 상이한 가능성들을 갖는 것으로서 표시한다.

일정 양태들에서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 단어들 또는 단어들의 시퀀스가 나타날 가능성들을 표시한다. 일부 구현예들에서, 액션들은, 상기 후보 표기들 각각에 대해, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어(likelihood score)를 결정하는 단계, 및 상기 후보 표기들 각각에 대해, 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 단계를 포함하며, 상기 후보 표기들 중에서 상기 표기를 선택하는 단계는 상기 음향 일치 스코어들 및 상기 가능성 스코어들에 기초한다. 일부 양태들에서, 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 단계는 상기 자동화된 스피치 인식기로부터 보조-단어 음향 일치 스코어들을 획득하는 단계, 상기 후보 표기에 대응하는 상기 보조-단어 음향 일치 스코어들의 서브세트를 식별하는 단계, 및 상기 후보 표기에 대응하는 상기 보조-단어 음향 일치 스코어들의 상기 서브세트에 기초하여 상기 음향 일치 스코어를 생성하는 단계를 포함한다.

일정 양태들에서, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어를 결정하는 단계는 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델에 기초하여 상기 가능성 스코어를 결정하는 단계를 포함한다. 일부 구현예들에서, 상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계는 상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들과 음성 학적으로 유사한 하나 이상의 식별된 용어들을 상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들로 대체하는 단계를 포함한다.

기술적 이점들은 보다 정확한 표기들을 생성함에 있어 기존의 자동화된 스피치 인식기를 수정하지 않고서 외부 데이터 소스로부터의 데이터가 사용될 수 있게 하는 것을 포함할 수 있다. 예를 들어, 자동화된 스피치 인식기의 출력을 업데이트된 언어 모델에 적용함으로써 업데이트된 언어 모델을 사용하기 위한 자동화된 스피치 인식기의 계산적으로 고비용인 재 컴파일을 피할 수 있다. 다른 이점은 시스템이 초기 표기를 생성하는데 사용된 자동화된 스피치 인식기가 인식할 수 있는 용어들 이외의 추가 용어들을 인식할 수 있다는 것이다. 또 다른 이점은 전형적으로 실시간 스피치 인식 디코더에 적합하지 않은 언어 모델들의 상이한 아키텍처들이 통합될 수 있다는 것이다. 예를 들어, 사용자가 들은 모든 노래의 목록을 포함하는 텍스트 파일은 실시간으로 스피치 인식기에 효율적으로 통합하기가 어려울 수 있다. 그러나, 이 시스템에서, 스피치 인식기가 초기 후보 표기를 출력한 후에는, 텍스트 파일로부터의 정보는 최종 표기를 결정하기 위해 통합될 수 있다.

용어들이 음성학적으로 유사한지 여부를 결정하는 것은 유사성의 측정치를 결정하고 상기 측정치를 임계치와 비교하는 것, 또는 상기 유사성의 측정치가 다른 용어 쌍들에 관련된 유사성의 측정치보다 큰지 여부를 결정하는 것을 수반할 수 있다.

하나 이상의 구현예들의 세부 사항들은 첨부된 도면들 및 이하의 설명에 기술된다. 다른 잠재적인 구성들 및 이점들은 상세한 설명, 도면들 및 청구항들로부터 명백해질 것이다.

이들 양태들의 다른 구현예들은 컴퓨터 저장 디바이스들 상에 인코딩된 방법들의 액션들을 수행하도록 구성된, 컴퓨터 프로그램들 및 장치들, 및 대응하는 시스템들을 포함한다.

도 1은 외부 데이터 소스를 사용하여 스피치 인식을 개선하는데 사용될 수 있는 예시적인 시스템을 도시한다.
도 2는 외부 데이터 소스를 사용하여 스피치 인식을 개선하는 것에 대한 예시적인 프로세스를 도시한다.
도 3은 여기에 기술된 프로세스들 또는 그 일부들이 구현될 수 있는 컴퓨팅 디바이스들의 블록도이다.
도면들에서, 동일한 참조 번호들은 전체에 걸쳐 대응하는 부분들을 표현한다.

도 1은 외부 데이터 소스를 사용하여 스피치 인식을 개선하는데 사용될 수 있는 예시적인 시스템(100)을 도시한다. 간단히, 시스템(100)은 음향 모델(112) 및 언어 모델(114)을 포함하는 자동화된 스피치 인식기(ASR)(110), 제2 언어 모델(120), 음성 확장기(130) 및 재-스코어러(re-scorer)(140)를 포함할 수 있다.

보다 상세하게는, ASR(110)은 발언을 인코딩한 음향 데이터를 수신할 수 있다. 예를 들어, ASR(110)은 발언 "CityZen reservation"에 대응하는 음향 데이터를 수신할 수 있다. 음향 데이터는, 예를 들어, 미가공 파형 데이터, 멜-가능성 셉스트랄 계수들(mel-likelihood cepstral coefficients) 또는 오디오의 임의의 다른 음향 또는 음성 표현을 포함할 수 있다.

ASR(110)의 음향 모델(112)은 음향 데이터를 수신하고 음향 데이터에 대응하는 단어들 또는 보조단어들, 예를 들어 음소들, 에 대한 음향 스코어들을 생성할 수 있다. 음향 스코어들은 단어들 또는 보조단어들과 음향 데이터 사이의 음성 유사성을 반영할 수 있다. 예를 들어, 음향 모델은 “CityZen reservation”에 대한 음향 데이터를 수신할 수 있고 “SE - 0.9 / 0 / 0 / ..., ...EE - 0 / 0 / 0.9 / ...I - 0 / 0.7 / 0 / ....”의 음향 스코어들을 생성할 수 있다. 예시적인 음향 스코어들은 음소 "SE"의 경우는, 발언의 제1 보조-단어에 대한 90%의 음향 일치, 발언의 제2 보조-단어에 대한 0%의 음향 일치, 및 발언의 제3 보조-단어에 대한 0%의 음향 일치를 표시하고, 음소 "EE"의 경우, 발언의 제1 보조-단어에 대한 0%의 음향 일치, 발언의 제2 보조-단어에 대한 0%의 일치, 및 발언의 제3 보조-단어에 대한 90%의 음향 일치를 표시하며, 그리고 음소 "I"의 경우는, 발언의 제1 보조-단어에 대한 0%의 음향 일치, 발언의 제2 보조-단어에 대한 0%의 음향 일치, 및 발언의 제3 보조-단어에 대한 70%의 음향 일치를 표시할 수 있다. 위의 예시에서, 음향 모델(112)은 발언에서 음소와 보조단어의 포지션 각 조합에 대한 음향 스코어를 출력할 수 있다.

음향 모델(112)은 음향 데이터에 의해 표시된 파형들을 특정한 보조단어들에 대응하는 것으로 표시된 파형들과 비교한 것에 기초하여 음향 스코어들을 생성할 수 있다. 예를 들어, 음향 모델(112)은 "CityZen reservation"의 발언에 대한 음향 데이터를 수신하고, 그리고 음향 데이터의 시작이 음소 "SE"에 대해 저장된 파형과 90%일치하는 파형을 표현하는 것을 식별할 수 있으며, 응답으로, 음소 "SE"인 발언의 제1 음소에 대해 음향 스코어 0.9를 생성할 수 있다.

ASR(110)의 언어 모델(114)은 음향 스코어들을 수신하고 음향 스코어들에 기초하여 초기 후보 표기를 생성할 수 있다. 예를 들어, ASR(110)의 언어 모델(114)은 "SE-0.9 / 0 / 0 / ..., ... EE-0 / 0 / 0.9 / ... I-0 / 0 / 0.7 / ...."을 수신하고, 응답으로, "Citizen reservation"의 초기 후보 표기를 생성할 수 있다.

언어 모델(114)은 단어들의 시퀀스들이 발생할 가능성들 및 음향 스코어들에 기초하여 초기 후보 표기를 생성할 수 있다. 예를 들어, 언어 모델(114)은 예를 들어, 단어 "CityZen"이 언어 모델(114)에 존재하지 않기 때문에 "CityZen reservation"이라는 단어들이 발생할 가능성이 0%, 단어들 "Citizen reservation"이 발생할 가능성이 70%, 발언이 “Citizen” 보다 “Zen”이 후속하는 “City”에 음향적으로 더 유사하게 소리남을 표시하는 “CityZen reservation”에 대한 음향 스코어들에 기초하여 “Citizen reservation”의 후보 표기를 생성할 수 있으며, "Cityzen reservation"의 초기 후보 표기를 생성할 수 있다.

일부 구현예들에서, 언어 모델(114)은 단어들 시퀀스들의 가능성을 가능성 스코어로 표시할 수 있고, 초기 후보 표기를 생성하는데 있어서, 언어 모델(114)은 음향 일치 스코어들 및 가능성 스코어들을 곱할 수 있다. 예를 들어, 음소들 "SE-ET-EE-ZE"에 대해, 언어 모델(114)은 0.9, 0.9, 0.9, 0.7의 음향 일치 스코어들을 "City" 다음에 "Zen"이 뒤따를 0.0의 가능성 스코어를 곱하여 0 스코어를 얻을 수 있고, 음소들 "SE-ET-I-ZE"에 대해, 언어 모델(114)은 0.9, 0.9, 0.7, 0.9의 음향 일치 스코어들에 "Citizen"에 대한 0.9의 가능성 스코어를 곱하여 0.45의 점수를 얻을 수 있으며, 그 후 "City" 다음에 "Zen"이 뒤따를 스코어 0보다 "Citizen"의 스코어 0.45가 우수하므로 단어 "Citizen"을 선택한다.

ASR(110)은 언어 모델(114)에 의해 생성된 초기 표기를 출력할 수 있다. 예를 들어, ASR(110)은 발언 "CityZen reservation"에 대한 음향 데이터에 기초하여 음향 스코어들을 수신한 것에 응답하여 언어 모델(114)에 의해 생성된 "Citizen reservation"의 초기 표기를 출력할 수 있다.

제2 언어 모델(120)은 초기 표기를 수신하고 추가 후보 표기들을 생성할 수 있다. 예를 들어, 제2 언어 모델(120)은 초기 표기 "Citizen reservation"을 수신할 수 있고, 이에 응답하여, "CityZen reservation" 및 "Sooty bin reservation"의 추가 표기들을 생성할 수 있다.

제2 언어 모델(120)은 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 것과 초기 후보 표기에서 발생하는 하나 이상의 용어들을 음성학적으로 유사한 식별된 하나 이상의 용어들로 대체하는 것에 기초하여 추가 후보 표기들을 생성할 수 있다. 예를 들어, 제2 언어 모델(120)은 "Citizen reservation”의 초기 후보 표기를 수신할 수 있고, "CityZen" 및 "Sooty bin" 용어들이 모두 "Citizen"이라는 용어와 음성학적으로 유사하다는 것을 식별할 수 있으며, 이에 응답하여, "Citizen"을 각각 "CityZen" 및 "Sooty bin"으로 대체하여 "CityZen reservation" 및 "Sooty bin reservation"의 추가 후보 표기들을 생성할 수 있다.

일부 구현예들에서, 제2 언어 모델(120)은 단어들에 대한 음성 표현들을 저장하고 저장된 음성 표현들에 기초하여 음성학적으로 유사한 용어들을 식별하는 것에 기초하여 음성 학적으로 유사한 용어들을 식별할 수 있다. 예를 들어, 제2 언어 모델(120)은 "Citizen"이 음소들 "SE-ET-I-ZE-EN"에 의해 표현될 수 있고 "City" 및 "Zen"은 음소들 “SE-ET-EE-ZE-EN"에 의해 표현될 수 있음을 표시하는 정보를 저장할 수 있고, 초기 표기에서 용어 "CityZen"을 수신할 수 있고, 음소들 "SE-ET-I-ZE-EN"에 대응하는 용어를 결정할 수 있으며, 음소들 "SE-ET-I-ZE-EN"은 "City" 및 "Zen"과 연관된 "SE-ET-EE-ZE-EN"의 음소들과 유사하다고 결정할 수 있다. 그리고 응답으로, 용어 "Citizen"이 용어들 "CityZen"과 음성학적으로 유사하다고 결정할 수 있다.

일부 구현예들에서, 제2 언어 모델(120)은 음소들의 음향 표현들에 기초하여 유사한 음소들이 어떻게 소리 나는지를 결정할 수 있다. 예를 들면, 제2 언어 모델(120)은 음소 "EE"에 대한 음향 표현이 음소 "ZA"의 음향 표현보다 음소 "I"의 음향 표현과 더 유사하다고 결정한 것에 기초하여 음소 "EE" 및 음소 "I"가 음소 "EE" 및 음소 "ZA" 보다 서로 유사하다고 결정할 수 있다. 일부 구현예들에서, 제2 언어 모델(120)은 유사한 소리가 나는 단어들의 명시적인 표시들에 기초하여 음성학적으로 유사한 용어들을 추가적으로 또는 대안적으로 식별할 수 있다. 예를 들어, 제2 언어 모델(120)은 "Floor" 및 "Flour" 소리가 음성학적으로 유사하다는 것을 명시적으로 표시하는 정보를 포함할 수 있다.

제2 언어 모델(120)은 발생하는 후보 표기들 내의 단어들 시퀀스의 가능성에 기초하여 추가 후보 표기들을 생성할 수 있다. 예를 들어, 제2 언어 모델(120)은 단어들 "CityZen reservation"의 시퀀스가 발생 가능성이 높다고 결정할 수 있고, 그에 응답하여, "CityZen reservation"을 추가 후보로써 출력하도록 결정할 수 있다. 다른 예시에서, 제2 언어 모델(120)은 단어들 "Sooty zen reservation"의 시퀀스가 발생 가능성이 낮다고 결정할 수 있으며, 그에 응답하여, "Sooty zen reservation"을 추가 후보로써 출력하지 않기로 결정할 수 있다.

일부 구현예들에서, 제2 언어 모델(120)은 초기 후보 표기에 대한 음성 유사성 및 후보 표기가 발생할 가능성의 조합에 기초하여 후보 표기들을 생성할 수 있다. 예를 들어, "Sooty zen reservation"이 음성학적으로 "Citizen reservation" 과 유사한 소리가 나는 반면, "Sooty zen reservation"은 제2 언어 모델(120)에 따르면 매우 낮은 발생 가능성을 가지고, 그리고 "Sooty bin reservation"은 "Citizen reservation"과 다소 덜 유사하게 소리 나지만, 보통의 발생 가능성을 갖기 때문에, 제2 언어 모델(120)은 "Sooty zen reservation"이 아닌 "Sooty bin reservation"을 출력할 것을 결정할 수 있다.

제2 언어 모델(120)은 연관된 가능성 스코어들을 가진 후보 표기를 출력할 수 있다. 예를 들어, "Citizen reservation"을 수신한 것에 응답하여, 제2 언어 모델(120)은 보통의 가능성 스코어 0.6과 연관된 "Citizen reservation"을 출력하고, 높은 가능성 스코어 0.9와 연관된 "CityZen reservation"을 출력하며, 그리고 보통의 가능성 스코어 0.4를 가진 "Sooty bin reservation"을 출력할 수 있다. 가능성 스코어들은 주어진 언어에서 발생하는 후보 표기 내의 하나 이상의 단어들 시퀀스의 가능성을 반영할 수 있다.

일부 구현예들에서, 제2 언어 모델(120)은 하나 이상의 단어들의 시퀀스들에 대한 가능성 스코어들을 저장하고, 후보 표기에 있는 하나 이상의 단어들의 시퀀스들을 식별하며, 후보 표기에 있는 것으로 식별된 하나 이상의 단어들의 시퀀스들에 대한 가능성 스코어들에 기초하여 후보 표기에 대한 가능성 스코어를 생성하는 것에 기초하여 후보 표기에 대한 가능성 스코어를 결정할 수 있다. 하나의 예시에서, 제2 언어 모델(120)은 "Sooty bin” 및 "reservation"의 시퀀스들이 후보 표기 "Sooty bin reservation"에 있으며, 각각 0.8 및 0.5의 가능성 스코어들과 사전-연관되어 있다고 결정할 수 있으며, 0.8 및 0.5의 가능성 스코어들을 곱함으로써 후보 표기 "Sooty bin reservation"에 대한 가능성 스코어 0.4를 생성할 수 있다. 다른 예시에서, 제2 언어 모델(120)은 전체 시퀀스 "CityZen reservation"은 0.9의 가능성 스코어와 사전-연관되어 있고 후보 표기 "CityZen reservation"과 완전히 일치 한다고 결정할 수 있으며, 이에 응답하여, 후보 표기 "CityZen reservation"의 가능성 스코어는 0.9라고 결정할 수 있다.

음성 확장기(130)는 제2 언어 모델(120)로부터 후보 표기들을 수신하고 후보 표기들을 보조단어들로 확장할 수 있다. 예를 들어 음성 확장기(130)는 "Citizen reservation"을 수신하고 음성 확장 "SE-ET-I-ZE ..."을 생성하며, "CityZen reservation"을 수신하고 음성 확장 "SE-ET-EE-ZE"를 생성할 수 있다. 일부 구현예들에서 음성 확장기(130)는 사전-결정된 확장 규칙들에 기초하여 후보 표기들을 보조단어들로 확장할 수 있다. 예를 들어, 규칙은 "SOO"가 음소 "SO"로 확장된다고 정의할 수 있다. 다른 예시에서, 규칙은 "Sooty"라는 단어가 음소들 "SO-OT-EE"로 확장된다고 정의할 수 있다.

재-스코어러(140)는 음성 확장기로부터 후보 표기들 각각에 대한 음성 확장들을 수신하고, 제2 언어 모델(120)로부터 후보 표기들 각각에 대한 연관된 가능성 스코어를 수신하며, 음향 모델(112)로부터 음향 스코어들을 수신하고, 가능성 스코어들과 음향 모델(112)로부터의 음향 스코어들의 조합에 기초하여 후보 표기들에 대한 전체 스코어를 생성하며, 전체 스코어들에 기초하여 후보 표기들 중에서 표기를 선택할 수 있다. 예를 들어, 재-스코어러는 음성 확장 "SE-ET-I-ZE ..."와 보통의 가능성 스코어 0.6과 연관된 후보 표기 "Citizen reservation", 음성 확장 "SE-ET-EE-ZE ..."와 높은 가능성 스코어 0.9와 연관된 후보 표기 "CityZen reservation", 및 음성 확장 “SO-OT-EE-BI...”와 보통의 가능성 스코어 0.4와 연관된 후보 표기 "Sooty bin reservation”을 수신하고, "SE - 0.9 / 0 / 0 / ..., ... EE - 0 / 0 / 0.9 / ... I - 0 / 0.7 / 0 / ... "의 음향 스코어들을 수신하며, "CityZen reservation"에 대한 전체 스코어 0.8, "Citizen reservation"에 대한 전체 스코어 0.6, 및 "Sooty bin reservation”에 대한 전체 스코어 0.3을 생성하고, "CityZen reservation"이 가장 높은 전체 스코어를 가지기 때문에 "CityZen reservation"을 선택할 수 있다.

일부 구현예들에서, 재-스코어러(140)는 후보 발언에 대한 음향 일치 스코어 및 가능성 스코어의 조합에 기초하여 전체 스코어를 생성할 수 있다. 예를 들어, 재-스코어러(140)는 후보 표기에 대한 0.9의 가능성 스코어와 후보 표기에 대한 0.8의 음향 일치 스코어를 곱한 것에 기초하여 후보 표기에 대한 0.7의 전체 스코어를 생성할 수 있다.

일부 구현예들에서, 재-스코어러(140)는 음향 모델(112)로부터의 음향 스코어들 및 음성 확장기(130)로부터의 음성 확장들에 기초하여 후보 발언에 대한 음향 일치 스코어를 생성할 수 있다. 특히, 재-스코어러(140)는 다수의 보조단어들을 포함하는 음성 확장들을 수신하고, 다수의 보조단어들 각각에 대응하는 음향 스코어들을 식별하며, 후보 발언의 음성 확장에 포함되는 다수의 보조단어들의 음향 스코어들에 기초하여 각각의 후보 발언에 대한 음향 일치 스코어를 생성할 수 있다. 예를 들어, 재-스코어러(140)는 "CityZen reservation"에 대한 "SE-ET-EE-ZE ..."의 음성 확장을 수신하고, 음향 모델(112)로부터 수신된 음소들 "SE-ET-EE-ZE ... "의 각각에 대한 음향 스코어들을 식별하며, "CityZen reservation"에 대한 음향 일치 스코어를 생성하기 위해 식별된 음향 스코어들을 곱할 수 있다.

일부 구현예들에서, 재-스코어러(140)는 음향 모델(112)로부터 모든 음향 스코어들을 수신하지 않을 수 있다. 대신에, 재-스코어러(140)는 음성 확장기(130)로부터 음성 확장들을 수신하고 음성 확장기(130)로부터 수신된 음성 확장들의 보조단어들에 대응하는 음향 스코어들에 대해서만 음향 모델(112)에 요청을 제공할 수 있다. 예를 들어, 재-스코어(140)는 음향 모델이(112) 음소들 "SE", "ET", "I", "ZE"와 음성 확장들에 나타나는 다른 음소들, 및 음소들이 아닌 것들, “BA”, “”, “”, 및 음성 확장들에 나타나지 않는 다른 음소들을 제공할 것을 요청할 수 있다.

일부 구현예들에서, 재-스코어러(140)는 후보 표기들 중에서 표기를 선택하는데 있어서 다른 인자들을 고려할 수 있다. 예를 들어, 재-스코어러(140)는 사용자의 현재 위치를 식별할 수 있으며 사용자의 현재 위치와 보다 긴밀한 연관성을 갖는 후보 표기들을 식별하는 쪽으로 선택을 가중할 수 있다. 다른 예시에서, 재-스코어러(140)는 현재 시간을 식별할 수 있으며 시간과 보다 긴밀한 연관성을 갖는 후보 표기들을 식별하는 쪽으로 선택을 가중할 수 있다. 또 다른 예시에서, 재-스코어러(140)는 발언를 제공하는 사용자의 선호도들을 식별하고 사용자의 식별된 선호도들과 보다 긴밀한 연관성을 갖는 후보 표기들을 식별하는 쪽으로 선택을 가중할 수 있다.

시스템(100)의 상이한 구성들은 음향 모델(112), 언어 모델(114), 자동화된 스피치 인식기(110), 제2 언어 모델(120), 음성 확장기(130), 및 재-스코어러(140)의 기능이 결합, 더 분리, 분배, 교환될 수 있는 곳에서 사용될 수 있다. 시스템(100)은 단일 디바이스로 구현되거나 다수의 디바이스들에 배분될 수 있다.

도 2는 외부 데이터 소스들에 기초하여 스피치 인식을 개선하기 위한 예시적인 프로세스(200)의 흐름도이다. 다음은 도 1을 참조하여 기술된 시스템(100)의 컴포넌트들에 의해 수행되는 것으로 프로세싱(200)을 기술한다. 그러나, 프로세스(200)는 다른 시스템들 또는 시스템 구성들에 의해 수행될 수 있다.

프로세스(200)는 자동화된 스피치 인식기를 사용하여 발언의 초기 후보 표기를 획득하는 단계를 포함할 수 있다(210). 예를 들어, 자동화된 스피치 인식기(110)는 "Zaytinya reservation"의 발언에 대한 음향 데이터를 수신하고, "Say tin ya reservation"의 초기 후보 표기를 출력할 수 있다.

프로세스(200)는 초기 후보 표기를 생성함에 있어 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 초기 후보 표기와 음성학적으로 유사한 하나 이상의 추가 용어들을 식별하는 단계를 포함할 수 있다(220). 예를 들어, 제 2 언어 모델(120)은 용어들 "Zaytinya" 및 "Say ten ya"가 "Say tin ya"와 음성학적으로 유사한 소리가 난다는 것을 식별할 수 있다.

프로세스(200)는 추가적 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계를 포함할 수 있다(230). 예를 들어, 제2 언어 모델(120)은 초기 후보 발언 “Say tin ya reservation”의 “Say tin ya”를 "Zaytinya” 및 "Say ten ya"로 대체한 것에 기초하여 "Zaytinya reservation" 및 "Say ten ya reservation"의 추가 후보 표기들을 생성할 수 있다.

프로세스(200)는 후보 표기들 중에서 표기를 선택하는 단계를 포함할 수 있다(240). 예를 들어, 재-스코어러(140)는 후보 표기들 "Zaytinya reservation", "Say ten ya reservation", 및 “Say tin ya reservation” 중에서 표기 "Zaytinya reservation"을 선택할 수 있다. 상기 선택은 각각의 상기 후보 표기들에 대한 음향 일치 스코어들 및 가능성 스코어들에 기초할 수 있다. 예를 들어, 상기 선택은 상기 후보 표기와 함께 주어진 언어에서 상기 후보 발언이 발생할 높은 가능성을 표시하는 가능성 스코어 및 음향 데이터와 후보 발언의 가까운 음향 유사성을 표시하는 음향 일치 스코어를 식별하는 것에 기초할 수 있다.

도 3은 클라이언트 또는 서버로써 또는 복수의 서버들로써, 본 명세서에 기술된 시스템들 및 방법들을 구현하는데 사용될 수 있는 컴퓨팅 디바이스들(300, 350)의 블록도이다. 컴퓨팅 디바이스(300)는 랩탑들, 데스크탑들, 워크스테이션들, 개인 휴대 정보 단말기들, 서버들, 블레이드 서버들, 메인 프레임들, 및 다른 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터들을 표현하도록 의도된 것이다. 컴퓨팅 디바이스(350)는 개인 휴대 정보 단말기, 셀룰러 전화기들, 스마트폰들 및 다른 유사한 컴퓨팅 디바이스들과 같은 다양한 형태의 모바일 디바이스들을 표현하도록 의도된 것이다. 추가로 컴퓨팅 디바이스(300 또는 350)는 Universal Serial Bus(USB) 플래시 드라이브들을 포함할 수 있다. USB 플래시 드라이브들은 운영 체제들 및 다른 애플리케이션들을 저장할 수 있다. USB 플래시 드라이브들은 다른 컴퓨팅 디바이스의 USB 포트에 삽입될 수 있는 USB 커넥터 또는 무선 송신기와 같은 입/출력 컴포넌트들을 포함할 수 있다. 여기에 도시된 컴포넌트들, 그들의 연결들 및 관계들, 및 그들의 기능들은 단지 예시적인 것이며, 본 명세서에 기술된 및/또는 청구된 본 발명들의 구현예들을 제한하지 않는다.

컴퓨팅 디바이스(300)는 프로세서(302), 메모리(304), 저장 디바이스(306), 메모리(304) 및 고속 확장 포트들(310)에 연결되는 고속 인터페이스(308), 및 저속 버스(314) 및 저장 디바이스(306)에 연결되는 저속 인터페이스(312)를 포함한다. 컴포넌트들(302, 304, 306, 308, 310 및 312) 각각은 다양한 버스들을 사용하여 상호연결되고, 공통 마더 보드 상에 또는 다른 방식으로 적절하게 마운트될 수 있다. 프로세서(302)는 GUI에 대한 그래픽 정보를 고속 인터페이스(308)에 결합된 디스플레이(316)와 같은 외부 입력/출력 디바이스에 디스플레이하기 위해, 메모리(304) 또는 저장 디바이스(306)에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(300) 내의 실행을 위한 명령어들을 프로세싱할 수 있다. 다른 구현예들에서, 다수의 메모리들 및 메모리의 유형들과 함께, 다수의 프로세서들 및/또는 다수의 버스들이 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(300)은 연결될 수 있고, 각각의 디바이스는 필요한 동작들의 부분들을, 예를 들어, 서버 뱅크, 블레이드 서버들의 그룹, 또는 멀티 프로세서 시스템으로써 제공한다.

메모리(304)는 컴퓨팅 디바이스(300) 내의 정보를 저장한다. 하나의 구현예에서, 메모리(304)는 휘발성 메모리 유닛 또는 유닛들이다. 다른 구현예에서, 메모리(304)는 비휘발성 메모리 유닛 또는 유닛들이다. 메모리(304)는 또한 자기 또는 광학 디스크와 같은, 컴퓨터 판독 가능 매체의 다른 형태일 수 있다.

저장 디바이스(306)는 컴퓨팅 디바이스(300)를 위한 대용량 저장소를 제공할 수 있다. 하나의 구현예에서, 저장 디바이스(306)는 저장 영역 네트워크 또는 다른 구성들 내의 디바이스들을 포함하여, 플로피 디스크, 하드 디스크 디바이스, 광학 디스크 디바이스, 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 디바이스들의 어레이(array)와 같은 컴퓨터 판독 가능 매체일 수 있거나 컴퓨터 판독 가능 매체를 내포할 수 있다. 컴퓨터 프로그램 제품은, 실행될 때, 상술된 바와 같은 하나 이상의 방법들을 수행하는 명령어들을 또한 내포할 수 있다.

고속 제어기(308)는 컴퓨팅 디바이스(300)에 대한 대역폭-집중적인 동작들을 관리하고, 반면에 저속 제어기(312)는 저 대역폭-집중적인 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 하나의 구현예에서, 고속 제어기(308)는 메모리(304), 디스플레이(316), 예를 들어, 그래픽들 프로세서 또는 가속기를 통해, 및 다양한 확장 카드들(도시되지 않음)을 수용할 수 있는 고속 확장 포트들(310))에 결합되어 있다. 구현예에서, 저속 제어기(312)는 저장 디바이스(306) 및 저속 확장 포트(314)에 결합된다. 다양한 통신 포트들, 예를 들어, USB, 블루투스, 이더넷, 무선 이더넷, 을 포함할 수 있는, 저속 확장 포트는 키보드, 포인팅 디바이스, 마이크로폰/스피커 쌍, 스캐너, 또는 스위치 또는 라우터와 같은 네트워킹 디바이스와 같은, 하나 이상의 입/출력 디바이스들에, 예를 들어, 네트워크 어댑터를 통하여 결합될 수 있다. 컴퓨팅 디바이스(300)는, 도면에 도시된 바와 같이, 여러가지 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 스탠다드 서버(320)로써 또는 그러한 서버들의 그룹에서 여러번 구현될 수 있다. 그것은 랙 서버 시스템(324)의 일부로써 또한 구현될 수 있다. 추가로, 랩탑 컴퓨터(322)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은 디바이스(350)와 같은, 모바일 디바이스(도시되지 않음)내의 다른 컴포넌트들과 결합될 수 있다. 이러한 디바이스들 각각은 컴퓨팅 디바이스(300, 350) 중 하나 이상을 포함할 수 있으며, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들(300, 350)로 구성될 수 있다.

컴퓨팅 디바이스(300)는, 도면에 도시된 바와 같이, 여러가지 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 스탠다드 서버(320)로써 또는 그러한 서버들의 그룹에서 여러번 구현될 수 있다. 그것은 랙 서버 시스템(324)의 일부로써 또한 구현될 수 있다. 추가로, 랩탑 컴퓨터(322)와 같은 개인용 컴퓨터에서 구현될 수 있다. 대안적으로, 컴퓨팅 디바이스(300)로부터의 컴포넌트들은 디바이스(350)와 같은, 모바일 디바이스(도시되지 않음)내의 다른 컴포넌트들과 결합될 수 있다. 이러한 디바이스들 각각은 컴퓨팅 디바이스(300, 350) 중 하나 이상을 포함할 수 있으며, 전체 시스템은 서로 통신하는 다수의 컴퓨팅 디바이스들(300, 350)로 구성될 수 있다.

컴퓨팅 디바이스(350)는 다른 컴포넌트들 중에서, 프로세서(352), 메모리(364), 디스플레이(354)와 같은 입/출력 디바이스, 통신 인터페이스(366) 및 송수신기(368)를 포함한다. 디바이스(350)는 추가 저장소를 제공하기 위해 마이크로드라이브 또는 다른 디바이스와 같은 저장 디바이스와 함께 또한 제공될 수 있다. 컴포넌트들(340, 352, 364, 354, 366 및 368) 각각은 다양한 버스들을 사용하여 상호연결되며, 몇몇 컴포넌트들은 공통 마더보드 상에 또는 다른 방식으로 적절하게 마운트될 수 있다.

프로세서(352)는 메모리(364)에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(350) 내의 명령어들을 실행할 수 있다. 프로세서는 개별 및 다중 아날로그 및 디지털 프로세서들을 포함하는 칩들의 칩셋으로써 구현될 수 있다. 추가적으로, 프로세서는 많은 아키텍처들 중 임의의 것을 사용하여 구현될 수 있다. 예를 들어, 프로세서(310)는 CISC(Complex Instruction Set Computers) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서 또는 MISC(Minimal Instruction Set Computer) 프로세서일 수 있다. 프로세서는 예를 들어, 사용자 인터페이스들의 제어, 디바이스(350)에 의해 작동하는 애플리케이션들, 및 디바이스(350)에 의한 무선 통신과 같은, 디바이스(350)의 다른 컴포넌트들의 조정을 제공할 수 있다.

프로세서(352)는 제어 인터페이스(358) 및 디스플레이(354)에 결합된 디스플레이 인터페이스(356)를 통해 사용자와 통신할 수 있다. 디스플레이(354)는 예를 들어, TFT LCD(Thin-Film-Transistor Liquid Crystal Display) 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(356)는 그래픽 및 다른 정보를 사용자에게 제시하기 위해 디스플레이(354)를 구동하기 위한 적절한 회로를 포함할 수 있다. 제어 인터페이스(358)는 프로세서(352)에 제출하기 위해 사용자로부터 명령들을 수신하고 그들을 변환할 수 있다. 추가로, 외부 인터페이스(362)가 프로세서(352)와의 통신에서 제공되어, 디바이스(350)와 다른 디바이스들과의 근거리 통신이 가능할 수 있다. 외부 인터페이스(362)는 예를 들어, 일부 구현예들에서 유선 통신을, 또는 다른 구현예들에서 무선 통신을 제공할 수 있으며, 다수의 인터페이스들이 또한 사용될 수 있다.

메모리(364)는 컴퓨팅 디바이스(350) 내의 정보를 저장한다. 메모리(364)는 컴퓨터 판독 가능 매체 또는 매체들, 휘발성 메모리 유닛 또는 유닛들, 또는 비 휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로 구현될 수 있다. 확장 메모리(374)는 확장 인터페이스(372)를 통해 디바이스(350)에 제공되고 연결될 수 있으며, 그것은 예를 들어, SIMM(Single In Line Memory Module) 카드 인터페이스를 포함할 수 있다. 확장 메모리(374)는 디바이스(350)에 대한 여분의 저장 공간을 제공할 수 있거나, 또는 애플리케이션들 또는 디바이스(350)에 대한 다른 정보를 또한 저장할 수 있다. 특히, 확장 메모리(374)는 전술한 프로세스들을 수행하거나 보충하기 위해 명령어들을 포함할 수 있으며, 보안 정보를 또한 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(374)는 디바이스(350)에 대한 보안 모듈로써 제공될 수 있고, 그리고 디바이스(350)의 보안 사용을 허용하는 명령어들로 프로그래밍될 수 있다. 추가로, 보안 애플리케이션들은 SIMM 카드에 식별 정보를 해킹할 수 없게 두는 것처럼, 추가 정보와 함께, SIMM 카드들을 통해 제공될 수 있다.

메모리는 예를 들어, 이하에서 논의되는 바와 같이, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 하나의 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구현될 수 있다. 컴퓨터 프로그램 제품은, 실행될 때 위에 기술된 것과 같은 하나 이상의 방법들을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(364), 확장 메모리(374), 또는 프로세서(352)상의 메모리와 같은, 컴퓨터 판독 가능 매체 또는 기계 판독 가능 매체일 수 있다.

디바이스(350)는 통신 인터페이스(366)를 통해 무선으로 통신할 수 있으며, 필요한 경우 디지털 신호 프로세싱 회로망을 포함할 수 있다. 통신 인터페이스(366)는 GSM voice calls, SMS, EMS, or MMS messaging, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS, 등과 같은 다양한 프로토콜들 또는 모드들 하에서 통신들을 제공한다. 이러한 통신은 예를 들어, 라디오주파수 송수신기(368)를 통해 발생할 수 있다. 추가로, 블루투스, WiFi, 또는 다른 송수신기(도시되지 않음)를 사용하는 것과 같은 단거리 통신이 발생할 수 있다. 추가로, GPS(Global Positioning System) 수신기 모듈(370)은 추가적인 네비게이션- 및 위치-관련 무선 데이터를 디바이스(350)에 제공할 수 있으며, 상기 데이터는 디바이스(350) 상에서 작동하는 애플리케이션들에 의해 적절하게 사용될 수 있다.

디바이스(350)는 또한 오디오 코덱(360)을 사용하여 청각적으로 통신할 수 있으며, 사용자로부터 발화된 정보를 수신하여 그것을 이용 가능한 디지털 정보로 변환할 수 있다. 오디오 코덱(360)은 마찬가지로, 예를 들어, 디바이스(350)의 수화기에 있는 스피커와 같은 것을 통해 사용자를 위한 가청 소리를 생성할 수 있다. 이러한 소리는 음성 전화 호출들로부터의 소리를 포함할 수 있고, 기록된 소리, 예를 들어, 음성 메시지들, 음악 파일들 등을 포함할 수 있으며, 디바이스(350)상에서 동작하는 애플리케이션들에 의해 생성된 소리를 또한 포함할 수 있다.

컴퓨팅 디바이스(350)는 도면에 도시된 바와 같이, 다수의 상이한 형태들로 구현될 수 있다. 예를 들어, 그것은 셀룰러 전화기(480)로 구현될 수 있다. 그것은 스마트폰(382), 개인 휴대 정보 단말기, 또는 다른 유사한 모바일 디바이스의 일부로 또한 구현될 수 있다.

여기서 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 회로, 집적 회로, 특별히 디자인된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이러한 구현예들의 조합들로 실현될 수 있다. 이러한 다양한 구현예들은, 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템 상에서 실행 가능하고 및/또는 해석 가능한 하나 이상의 컴퓨터 프로그램들 내의 구현을 포함할 수 있으며, 상기 구현은 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로 데이터 및 명령어들을 전송하고 이들로부터 데이터 및 명령어들을 수신하도록 결합된, 전용적이고 범용적인 목적일 수 있다.

이들 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 또는 코드로 또한 알려져 있음)은 프로그램 가능한 프로세서에 대한 기계 명령어들을 포함하고, 그리고 고 레벨의 절차적 및/또는 객체 지향적 프로그래밍, 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 것처럼, 기계 판독 가능 매체 및 컴퓨터 판독 가능 매체라는 용어들은 임의의 컴퓨터 프로그램 제품, 장치들 및/또는 프로그램 가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하기 위해 사용되는 디바이스, 예를 들어, 자기 디스크들, 광 디스크들, 메모리, 프로그램 가능 논리 장치들(PLDs)를 지칭하며, 기계 판독 가능 신호로써 기계 명령어들을 수신하는 기계 판독 가능 매체를 포함한다. 기계 판독 가능 신호라는 용어는 기계 명령어들 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 지칭한다.

사용자와의 인터랙션을 제공하기 위해, 여기에 기술된 시스템들 및 기법들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display), 및 키보드와 사용자가 컴퓨터에 입력을 제공할 수 있는 포인팅 디바이스, 예를 들어, 마우스 또는 트랙볼, 을 가지는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들 역시 사용자와의 인터랙션을 제공하기 위해 사용될 수 있다; 예를 들어, 사용자에게 제공된 피드백은 임의 형태의 감각적 피드백, 예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 음성, 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다.

본 명세서에 기술된 시스템들 및 기법들은 백 엔드 컴포넌트, 예를 들어, 데이터 서버를 포함하거나, 미들웨어 컴포넌트, 예를 들어, 애플리케이션 서버를 포함하거나, 프론트 엔드 컴포넌트, 예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 갖는 클라이언트 컴퓨터, 그것을 통하여 사용자는 여기에 기술된 시스템들 및 기법들의 구현과 인터랙팅할 수 있다, 또는 그러한 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 디지털 데이터 통신, 예를 들어, 통신 네트워크의 매체에 의해 상호연결될 수 있다. 통신 네트워크들의 예시들은 근거리 네트워크(“LAN”), 광역 네트워크(“WAN”), 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 전형적으로 통신 네트워크를 통해 인터랙팅 한다. 클라이언트와 서버의 관계는 컴퓨터 프로그램들 때문에 생기며, 상기 프로그램들은 각각의 컴퓨터들에서 작동하며 서로 클라이언트-서버 관계를 갖는다.

여러가지 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 범위와 사상을 벗어나지 않고서 다양한 수정들이 가능하다. 추가로, 도면들에 도시된 논리 흐름들은 바람직한 결과들을 달성하기 위해, 도시된 특정한 순서, 순차적 순서를 요청하지 않는다. 추가로, 다른 단계들이 제공되거나, 기술된 흐름들로부터 제거될 수 있으며, 다른 컴포넌트들이 시스템들에 추가 되거나, 시스템들로부터 제거될 수 있다. 따라서, 다른 구현예들은 다음의 청구항들의 범위 내에 있다.

Claims

자동화된 스피치 인식을 위한 컴퓨터로 구현되는 방법으로서:
자동화된 스피치 인식기의 언어 모델로부터, 발언에서 단어들 또는 보조-단어들(sub-words)에 대해 상기 자동화된 스피치 인식기의 음향 모델에 의해 생성된 음향 스코어들에 기초하여 발언의 초기 후보 표기를 획득하는 단계;
상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 상기 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 단계;
상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계;
상기 후보 표기들 각각에 대해, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어(likelihood score)를 결정하는 단계;
상기 후보 표기들 각각에 대해, 상기 후보 표기를 보조-단어들로 확장하고, 상기 음향 모델의 상기 음향 스코어들로부터 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 단계; 및
상기 음향 일치 스코어들 및 상기 가능성 스코어들의 조합에 기초하여 생성된 각각의 전체 스코어들에 기초하여 상기 후보 표기들 중에서 표기를 선택하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델에 있지 않는 하나 이상의 용어들을 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델 및 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델은 둘 모두, 하나 이상의 용어들의 시퀀스를 포함하지만, 상기 시퀀스를 나타날 상이한 가능성들을 갖는 것으로서 표시하는 것을 특징으로 하는 방법.
청구항 1에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 단어들 또는 단어들의 시퀀스가 나타날 가능성들을 표시하는 것을 특징으로 하는 방법.
삭제
청구항 1에 있어서, 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 단계는:
상기 자동화된 스피치 인식기의 상기 음향 모델로부터 보조-단어 음향 일치 스코어들을 획득하는 단계;
상기 후보 표기에 대응하는 상기 보조-단어 음향 일치 스코어들의 서브세트를 식별하는 단계; 및
상기 후보 표기에 대응하는 상기 보조-단어 음향 일치 스코어들의 상기 서브세트에 기초하여 상기 음향 일치 스코어를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어를 결정하는 단계는:
상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델에 기초하여 상기 가능성 스코어를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
청구항 1에 있어서, 상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 단계는:
상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들과 음성 학적으로 유사한 하나 이상의 식별된 용어들을 상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들로 대체하는 단계를 포함하는 것을 특징으로 하는 방법.
자동화된 스피치 인식을 위한 시스템으로서:
하나 이상의 컴퓨터들 및 동작 가능한 명령어들을 저장하는 하나 이상의 저장 디바이스들을 포함하며, 상기 명령어들은 하나 이상의 컴퓨터들에 의해 실행시, 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
자동화된 스피치 인식기의 언어 모델로부터, 발언에서 단어들 또는 보조-단어들(sub-words)에 대해 상기 자동화된 스피치 인식기의 음향 모델에 의해 생성된 음향 스코어들에 기초하여 발언의 초기 후보 표기를 획득하는 동작;
상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 상기 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 동작;
상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 동작;
상기 후보 표기들 각각에 대해, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어(likelihood score)를 결정하는 동작;
상기 후보 표기들 각각에 대해, 상기 후보 표기를 보조-단어들로 확장하고, 상기 음향 모델의 상기 음향 스코어들로부터 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 동작; 및
상기 음향 일치 스코어들 및 상기 가능성 스코어들의 조합에 기초하여 생성된 각각의 전체 스코어들에 기초하여 상기 후보 표기들 중에서 표기를 선택하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 9에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델에 있지 않는 하나 이상의 용어들을 포함하는 것을 특징으로 하는 시스템.
청구항 9에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델 및 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델은 둘 모두, 하나 이상의 용어들의 시퀀스를 포함하지만, 나타날 가능성들이 상이한 상기 시퀀스를 표시하는 것을 특징으로 하는 시스템.
청구항 9에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 단어들 또는 단어들의 시퀀스가 나타날 가능성들을 표시하는 것을 특징으로 하는 시스템.
삭제
청구항 9에 있어서, 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 동작은:
상기 자동화된 스피치 인식기의 상기 음향 모델로부터 상기 음향 일치 스코어들을 획득하는 동작;
상기 후보 표기에 대응하는 상기 음향 일치 스코어들의 서브세트를 식별하는 동작; 및
상기 후보 표기에 대응하는 상기 음향 일치 스코어들의 상기 서브세트에 기초하여 상기 음향 일치 스코어를 생성하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 9에 있어서, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어를 결정하는 동작은:
상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델에 기초하여 상기 가능성 스코어를 결정하는 동작을 포함하는 것을 특징으로 하는 시스템.
청구항 9에 있어서, 상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 동작은:
상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들과 음성 학적으로 유사한 하나 이상의 식별된 용어들을 상기 초기 후보 표기에서 발생하는 상기 하나 이상의 용어들로 대체하는 동작을 포함하는 것을 특징으로 하는 시스템.
하나 이상의 컴퓨터들에 의해 실행 가능한 명령어들을 포함하는 자동화된 스피치 인식을 위한 소프트웨어를 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어들은 실행시, 하나 이상의 컴퓨터들로 하여금 동작들을 수행하게 하며, 상기 동작들은:
자동화된 스피치 인식기의 언어 모델로부터, 발언에서 단어들 또는 보조-단어들(sub-words)에 대해 상기 자동화된 스피치 인식기의 음향 모델에 의해 생성된 음향 스코어들에 기초하여 발언의 초기 후보 표기를 획득하는 동작;
상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 언어 모델에 기초하여, 상기 초기 후보 표기에서 발생하는 하나 이상의 용어들과 음성학적으로 유사한 하나 이상의 용어들을 식별하는 동작;
상기 식별된 하나 이상의 용어들에 기초하여 하나 이상의 추가 후보 표기들을 생성하는 동작;
상기 후보 표기들 각각에 대해, 얼마나 자주 상기 후보 표기가 언급될 것인지를 반영하는 가능성 스코어(likelihood score)를 결정하는 동작;
상기 후보 표기들 각각에 대해, 상기 후보 표기를 보조-단어들로 확장하고, 상기 음향 모델의 상기 음향 스코어들로부터 상기 후보 표기와 상기 발언 사이의 음성 유사성을 반영하는 음향 일치 스코어를 결정하는 동작; 및
상기 음향 일치 스코어들 및 상기 가능성 스코어들의 조합에 기초하여 생성된 각각의 전체 스코어들에 기초하여 상기 후보 표기들 중에서 표기를 선택하는 동작을 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
청구항 17에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델에 있지 않는 하나 이상의 용어들을 포함하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
청구항 17에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델 및 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되는 언어 모델은 둘 모두, 하나 이상의 용어들의 시퀀스를 포함하지만, 나타날 가능성들이 상이한 상기 시퀀스를 표시하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.
청구항 17에 있어서, 상기 초기 후보 표기를 생성함에 있어 상기 자동화된 스피치 인식기에 의해 사용되지 않는 상기 언어 모델은 단어들 또는 단어들의 시퀀스가 나타날 가능성들을 표시하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능 저장 매체.