KR102292546B1

KR102292546B1 - 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치

Info

Publication number: KR102292546B1
Application number: KR1020140091769A
Authority: KR
Inventors: 김현준; 최영상
Original assignee: 삼성전자주식회사
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2021-08-23
Also published as: US20160019887A1; KR20160010961A; US9842588B2

Abstract

컨텍스트 정보를 이용하는 음성 인식 방법 및 장치가 개시된다. 일실시예에 따른 음성 인식 방법은 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델과 컨텍스트 정보를 반영한 제2 음성 인식 모델의 가중치를 결정하고, 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 음성 신호에 포함된 단어를 인식할 수 있다.

Description

컨텍스트 정보를 이용하는 음성 인식 방법 및 장치{METHOD AND DEVICE FOR PERFORMING VOICE RECOGNITION USING CONTEXT INFORMATION}

아래 실시예들은 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치에 관한 것이다.

최근 음성 인식 기술의 발전에 따라 다양한 기기에서 음성이 사용되고 있다. 음성 인식 기술의 응용분야는 음성을 통한 기기제어, 인터넷 검색, 메모 및 메시지 작성(Dictation), 대화형 Agent, 어학 학습 등 매우 다양하며, 다수의 상용 애플리케이션들이 스마트 디바이스 등에 탑재되고 있는 추세이다.

그러나, 인식 정확도의 기술적 한계에 따라 보다 많은 분야에서의 활용은 제한되고 있다. 이에 따라 문장, 질의 등의 음성인식 보다는 명령어 위주의 고립어 인식이 주로 활용되고 있다. 이러한 인식 정확도를 높이기 위하여 기존에는 불특정 다수로부터 수집된 정보가 음향 모델과 언어모델로 학습되어 음성인식에 활용되어 왔다. 그러나, 각 사용자의 발화 특성 편차가 크기에 모든 모델을 구축하는 데에는 한계가 있고, 이에 따라 음성 인식에서 최적의 성능을 보장하기 어렵다.

일실시예에 따른 음성 인식 방법은 음성 신호를 수신하는 단계; 상기 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별하는 단계; 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는 단계; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 상기 음성 신호에 포함된 단어를 인식하는 단계를 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 제2 음성 인식 모델을 식별하는 단계는, 상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 주변 환경 정보는, 상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 사용자 프로파일 정보는, 상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고, 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계를 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계를 더 포함할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식할 수 있다.

일실시예에 따른 음성 인식 방법에서 상기 가중치를 결정하는 단계는, 인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정할 수 있다.

일실시예에 따른 음성 인식 방법은 음성 신호를 수신하는 단계; 상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보를 확인하는 단계; 상기 컨텍스트 정보에 기초하여, 상기 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 상기 컨텍스트 정보를 반영한 제2 음성 인식 모델에 대한 가중치를 결정하는 단계; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는 단계를 포함할 수 있다.

일실시예에 따른 음성 인식 장치는 음성 신호를 수신하는 수신부; 상기 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델을 식별하고, 상기 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별하는 음성 인식 모델 식별부; 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는 가중치 결정부; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 상기 음성 신호에 포함된 단어를 인식하는 단어 인식부를 포함할 수 있다.

도 1은 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 예시를 나타낸 도면이다.
도 2는 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 다른 예시를 나타낸 도면이다.
도 3은 일실시예에 따른 음성 인식 장치의 세부 구성을 나타낸 도면이다.
도 4는 일실시예에 따라 제1 음성 인식 모델과 제2 음성 인식 모델을 이용하여 단어를 인식하는 예시를 나타낸 도면이다.
도 5는 일실시예에 따른 음성 인식 방법을 나타낸 도면이다.
도 6은 일실시예에 따른 단어를 인식하는 방법을 나타낸 도면이다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 예시를 나타낸 도면이다.

사용자가 "world cup"이란 음성 신호를 발화하여, 해당 음성 신호가 음성 인식 장치에 수신되는 경우를 가정한다. 이 때, 사용자의 발음이 명확하지 않거나 음성 신호에 노이즈가 많은 경우, 음성 인식 장치는 음성 신호를 사용자가 의도하지 않은 단어로 인식하기가 쉽다. 예를 들어, 음성 인식 장치는 수신된 음성 신호를 'word cob', 'worse cop', 'wand carp', 'war cob' 등으로 잘못 인식할 수 있다.

반면, 사용자가 음성 신호를 발화한 시점이 월드컵이 시작되기 직전인 경우와 같은 월드컵에 대한 관심도가 급증하는 시점인 것을 음성 인식 장치가 이용할 수 있다면, 음성 인식 장치는 보다 높은 확률로 음성 신호를 'world cup'으로 인식할 수 있다. 다시 말해, 음성 인식 장치가 컨텍스트 정보를 이용하여 음성 인식을 수행함으로써, 음성 신호를 보다 명확히 인식할 수 있다.

여기서, 컨텍스트 정보는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 정보로서, 예를 들어, 사용자의 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다. 주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 정보를 포함할 수 있다. 사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화한 사용자에 관한 다양한 정보를 포함할 수 있다.

음성 인식 장치는 상술된 컨텍스트 정보와 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 음성 인식 모델은 음성 인식 장치가 음성 신호를 단어로 인식하기 위해 참조하는 데이터베이스로서, 수많은 레퍼런스 벡터들과 각 레퍼런스 벡터들에 대응되는 음소, 음절, 단어 등을 포함하는 텍스트를 저장할 수 있다. 음성 인식 장치는 수신한 음성 신호로부터 특징 벡터를 추출하고, 추출된 특징 벡터와 음성 인식 모델에 포함된 레퍼런스 벡터들과 매칭함으로써, 음성 신호를 음소, 음절, 단어 등을 포함하는 텍스트로 인식할 수 있다.

일반적인 음성 인식 모델은 단순히 레퍼런스 벡터들과 단어들을 포함할 뿐, 상술된 컨텍스트 정보를 고려하지 않는다. 이하, 설명의 편의를 위하여 컨텍스트 정보를 고려하지 않는 일반적인 음성 인식 모델은 '제1 음성 인식 모델'이라고 지칭한다.

상술된 실시예와 같이 음성 인식 장치는 컨텍스트 정보를 고려하는 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 컨텍스트 정보를 고려하는 음성 인식 모델은 음성 신호를 수신할 때의 시간을 고려하는 시간 모델, 음성 신호를 수신할 때의 날씨를 고려하는 날씨 모델, 음성 신호를 수신한 음성 인식 장치의 장소를 고려하는 장소 모델, 음성 신호를 수신한 음성 인식 장치의 이동 속도를 고려하는 이동 속도 모델, 음성 신호를 발화한 사용자의 성별을 고려하는 성별 모델, 사용자의 나이를 고려하는 나이 모델, 고향 모델, 취미 모델 및 기혼여부 모델 등 음성 인식 장치가 사용자로부터 음성 신호를 수신할 때의 상황을 나타내는 다양한 모델을 포함할 수 있다. 이하, 설명의 편의를 위하여 컨텍스트 정보를 고려하는 음성 인식 모델은 '제2 음성 인식 모델'이라고 지칭한다.

도 2는 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 다른 예시를 나타낸 도면이다.

사용자가 발화한 음성 신호를 전부 불분명하게 인식하는 도 1과 달리, 도 2는 사용자가 발화한 음성 신호 중 일부가 불분명하게 인식되는 경우를 가정한다.

예를 들어, 사용자는 "world cup OOO"이란 음성 신호를 발화하였고, 음성 인식 장치가 'world cup'이란 단어는 분명하게 인식하였으나, 그 뒤의 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.

이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 후보들을 불분명하게 인식된 음성 신호에 대응되는 단어 'OOO'로 추천할 수 있다. 반면, 제2 음성 인식 모델을 이용하는 경우, 음성 인식 장치는 발화시간, 장소 등의 컨텍스트 정보를 반영한 결과(예를 들어, 'winner', 'champions', 'brazil', 'final' 등)를 우선적으로 추천할 수 있다. 다시 말해, 컨텍스트 정보를 반영한 제2 음성 인식 모델을 더 이용함으로써, 음성 인식 장치는 사용자의 필요(needs)에 적절한 단어를 추천할 확률이 높아질 수 있다.

다른 일실시예로, 사용자는 "starbucks OOO"이란 음성 신호를 발화하였으나, 음성 인식 장치가 'starbucks'에 연속되는 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.

이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 'coffee'를 불분명하게 인식된 음성 신호에 대응되는 단어 'OOO'로 추천할 수 있다. 반면, 사용자가 음성 신호를 발화한 장소가 증권사이고 'starbucks'의 영업이익에 관한 키워드가 검색어 순위에서 높게 설정되며, 이러한 컨텍스트 정보가 반영된 제2 음성 인식 모델을 이용하는 경우, 음성 인식 장치는 'OOO'로 일반적인 단어 'coffee'보다 컨텍스트 정보가 반영된 'stock', 'share', 'stock price' 등을 우선적으로 추천할 수 있다.

또 다른 일실시예로, 사용자는 저녁에 "television OOO"이란 음성 신호를 발화하였으나, 음성 인식 장치가 'television'에 연속되는 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.

이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 'brand', 'price' 등을 'OOO'로 추천할 수 있다. 반면, 사용자가 중년 남성이고, 사용자가 발화한 시간이 아침 시간대인 경우, 음성 인식 장치는 제2 음성 인식 모델을 이용하여 'OOO'로 일반적인 단어들보다 컨텍스트 정보가 반영된 'news', 'sport' 등을 우선적으로 추천할 수 있다. 또는, 사용자가 중년 여성이고, 사용자가 발화한 시간이 저녁 시간대인 경우, 음성 인식 장치는 제2 음성 인식 모델을 이용하여 'OOO'로 컨텍스트 정보가 반영된 'drama' 등을 우선적으로 추천할 수 있다.

도 3은 일실시예에 따른 음성 인식 장치의 세부 구성을 나타낸 도면이다.

도 3을 참조하면, 음성 인식 장치(300)는 수신부(310), 컨텍스트 정보 확인부(320), 모델 식별부(330), 가중치 결정부(340) 및 단어 인식부(350)를 포함할 수 있다.

수신부(310)는 사용자로부터 음성 신호를 수신할 수 있다. 예를 들어, 수신부(310)는 마이크와 같은 입력 장치를 통해 사용자가 발화한 음성 신호를 수신할 수 있다.

컨텍스트 정보 확인부(320)는 컨텍스트 정보를 확인할 수 있다. 여기서, 컨텍스트 정보는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 정보로서, 예를 들어, 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다.

주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 컨텍스트 정보를 포함할 수 있다. 예를 들어, 음성 신호를 수신할 때의 시간은 음성 인식 장치에 설정되어 있는 시간을 통해 확인할 수 있다. 그리고, 음성 신호를 수신한 음성 인식 장치의 장소는 음성 인식 장치의 GPS 수신기 등과 같은 위치 측정기를 통해 확인할 수 있다. 보다 구체적인 예로, 사용자가 특정 위치를 '집'으로 설정하고, GPS 수신기로부터 획득한 위치가 '집'으로 설정된 특정 위치로부터 일정 범위 내에 속해있는 경우, 음성 인식 장치는 장소를 '집'으로 확인할 수 있다.

사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화하는 사용자를 나타내는 다양한 컨텍스트 정보를 포함할 수 있다. 예를 들어, 음성 신호를 발화한 사용자의 성별은 사용자에 의해 음성 인식 장치에 미리 입력된 값이거나, 수신된 음성 신호의 주파수에 기초하여 음성 인식 장치에 의해 판단될 수 있다. 사용자의 나이는 사용자에 의해 음성 인식 장치에 미리 입력된 값이거나 수신된 음성 신호에 기초하여 음성 인식 장치에 의해 판단될 수 있다. 그리고, 사용자의 고향, 취미, 기혼여부는 사용자에 의해 미리 입력된 값일 수 있다.

모델 식별부(330)는 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별할 수 있다. 예를 들어, 모델 식별부(330)는 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 제2 음성 인식 모델을 식별할 수 있다.

일실시예로, 컨텍스트 정보 확인부(320)로부터 확인된 컨텍스트 정보에 장소에 관한 컨텍스트 정보가 확인되지 않는 경우, 모델 식별부(330)는 제2 음성 인식 모델 중에서 장소 모델을 식별하지 않을 수 있다. 반대로, 컨텍스트 정보에 시간에 관한 컨텍스트 정보가 확인된 경우, 모델 식별부(330)는 제2 음성 인식 모델 중에서 시간 모델을 식별할 수 있다.

가중치 결정부(340)는 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다.

일실시예로, 가중치 결정부(340)는 컨텍스트 정보 확인부(320)에서 확인된 컨텍스트 정보에 기초하여, 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 보다 구체적인 실시예로, 컨텍스트 정보에 성별에 관한 컨텍스트 정보가 확인되지 않는 경우, 가중치 결정부(340)는 제2 음성 인식 모델 중에서 성별 모델의 가중치를 '0'으로 설정할 수 있다. 또한, 컨텍스트 정보에 장소 '집'에 관한 컨텍스트 정보가 확인된 경우, 가중치 결정부(340)는 제2 음성 인식 모델 중에서 장소 모델의 가중치를 다른 음성 인식 모델보다 높게 설정할 수 있다.

다른 일실시예로, 수신된 음성 신호 중 일부가 불분명하게 인식되는 경우, 가중치 결정부(340)는 불분명하게 인식된 단어 이전에 인식된 단어의 가중치에 따라 불분명하게 인식된 단어의 가중치를 결정할 수 있다. 다시 말해, 수신된 음성 신호 "first word, second word" 중 'second word'가 불분명하게 인식된 경우, 'first word'를 인식함에 있어서 사용된 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 'second word'를 인식함에 있어서 사용될 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치로 결정할 수 있다.

단어 인식부(350)는 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델에 기초하여 음성 신호에 포함된 단어를 인식할 수 있다. 여기서, 제1 음성 인식 모델 및 제2 음성 인식 모델은 고유의 음향 모델(Acoustic Model; AM), 언어 모델(Language Model; LM)을 포함할 수 있다.

음향 모델은 음성 신호를 음소(phoneme) 단위로 인식하기 위한 모델일 수 있다. 단어 인식부(350)는 음향 모델을 통해 음성 신호를 음소 단위로 인식함으로써, 음성 신호를 적어도 하나의 음절(Syllable)로 결정할 수 있다.

음소는 언어에서 의미 구별 기능을 가지는 음운(phonology)의 최소 단위일 수 있다. 예를 들어, 알파벳은 49개 또는 61개의 음소들을 가질 수 있다.

언어 모델은 적어도 하나의 음절에 기초하여 단어를 인식하기 위한 모델 또는 인식된 단어에 기초하여 인식된 단어에 연속되는 단어를 인식하기 위한 모델일 수 있다. 단어 인식부(350)는 언어 모델을 통해 결정된 적어도 하나의 음절에 기초하여 음성 신호에 포함된 단어를 인식할 수 있다. 그리고, 단어 인식부(350)는 언어 모델을 통해 인식된 단어에 연속되는 단어를 인식할 수 있다.

단어 인식부(350)는 제1 음성 인식 모델의 음향 모델에 기초한 제1 음소 확률 및 제2 음성 인식 모델의 음향 모델에 기초한 제2 음소 확률을 계산할 수 있다. 단어 인식부(350)는 계산된 제1 음소 확률 및 제2 음소 확률에 기초하여 음성 신호에 포함된 적어도 하나의 음절을 결정할 수 있다.

그리고, 단어 인식부(350)는 제1 음성 인식 모델의 언어 모델에 기초한 제1 단어 확률과 제2 음성 인식 모델의 언어 모델에 기초한 제2 단어 확률을 계산할 수 있다. 단어 인식부(350)는 계산된 제1 단어 확률 및 제2 단어 확률에 기초하여 적어도 하나의 음절로 구성되는 단어를 인식할 수 있다.

사용자가 발화한 음성 신호 중 일부(다시 말해, 인식된 단어에 연속되는 단어)가 불분명하게 인식되는 경우, 단어 인식부(350)는 제1 음성 인식 모델의 언어 모델에 기초한 제1 단어 확률과 제2 음성 인식 모델의 언어 모델에 기초한 제2 단어 확률에 기초하여 인식된 단어에 연속되는 단어를 더 인식할 수 있다.

도 4는 일실시예에 따라 제1 음성 인식 모델과 제2 음성 인식 모델을 이용하여 단어를 인식하는 예시를 나타낸 도면이다.

도 4를 참조하면, 음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 이용하여 음성 인식을 수행할 수 있다. 제2 음성 인식 모델(420)은 시간 모델(421), 장소 모델(422), 성별 모델(423), 나이 모델(424), 날씨 모델, 이동 속도 모델, 고향 모델, 취미 모델, 기혼여부 모델 등 컨텍스트 정보를 고려하는 다양한 음성 인식 모델을 포함할 수 있다.

시간 모델(421)은 음성 신호를 수신할 때의 시간을 반영한 모델로, 예를들어 아침 시간대에 사람들이 날씨, 교통상황, 뉴스 등에 관심을 가지고, 오후 시간대에 업무와 관련된 사항 등에 관심을 가지며, 저녁 시간대에 여가에 관심이 있다는 컨텍스트를 반영할 수 있다. 또한, 시간 모델(421)은 평일과 주말에 대해 사람들이 서로 다른 사항에 관심이 있다는 컨텍스트를 반영할 수 있다.

다른 일실시예로, 시간 모델(421)은 음성 신호를 수신할 당시에 짧은 시간 동안 사람들의 관심도가 급증하는 컨텍스트를 반영한 모델일 수 있다. 예를 들어, 짧은 시간 동안 사람들의 관심도가 급증하는 컨텍스트는 포탈사이트의 실시간 급상승 검색어, 인터넷 뉴스 기사에서의 조회수 등 사람들의 관심도를 반영하는 다양한 컨텍스트일 수 잇다. 그리고, 시간 모델(421)은 음성 신호를 발화한 사용자의 관심도를 반영하는 모델일 수 있다. 예를 들어, 음성 신호를 발화한 사용자의 관심도는 이전에 사용자가 음성 인식 장치에서 실행한 어플리케이션 또는 음성 인식 장치에 입력한 명령어 등 사용자의 관심도를 반영하는 다양한 컨텍스트를 의미할 수 있다.

장소 모델(422)은 음성 신호를 수신한 음성 인식 장치의 장소를 고려한 모델로, 사용자는 특정 위치를 장소 모델(422)에 설정할 수 있다. 예를 들어, 사용자는 장소 모델(422)에 특정 위치를 집, 회사, 헬스장, 별장 등으로 설정할 수 있다. 그리고, 장소 모델(422)은 특정 위치를 카페, 레스토랑, 학교, 은행, 공항, 병원 등으로 미리 설정된 사항들을 반영한 모델일 수 있다. 다시 말해, 음성 인식 장치는 내장된 위치 측정기를 통해 확인한 위치에 대응되는 장소가 장소 모델(422)에 설정되어 있는 경우, 음성 인식 장치는 장소 모델(422)을 식별하고, 장소 모델(422)의 가중치를 다른 음성 인식 모델의 가중치보다 높게 설정할 수 있다.

성별 모델(423)은 음성 신호를 발화한 사용자의 성별을 고려한 모델일 수 있다. 일실시예로, 사용자는 자신의 성별을 성별 모델(423)에 미리 설정할 수 있다. 다른 일실시예로, 음성 인식 장치는 사용자로부터 수신한 음성 신호에 기초하여 사용자의 성별을 판단하고, 판단 결과를 성별 모델(423)에 설정할 수 있다.

나이 모델(424)은 음성 신호를 발화한 사용자의 나이를 고려한 모델일 수 있다. 일실시예로, 사용자는 자신의 나이를 미리 나이 모델(424)에 미리 설정할 수 있다. 다른 일실시예로, 음성 인식 장치는 사용자로부터 수신한 음성 신호에 기초하여 사용자의 나이를 판단하고, 판단 결과를 나이 모델(424)에 설정할 수 있다.

날씨 모델은 음성 신호를 수신할 때의 날씨를 반영한 모델로, 날씨에 따라 변화하는 사용자의 관심도를 나타내는 컨텍스트를 반영할 수 있다. 예를 들어, 음성 신호를 수신할 때의 날씨가 맑은 경우, 날씨 모델은 사용자가 실내 활동보다는 실외 활동에 관심이 있다는 컨텍스트를 반영할 수 있다.

이동 속도 모델은 음성 신호를 수신한 음성 인식 장치의 이동 속도를 반영한 모델로, 이동 속도에 기초하여 판단한 사용자의 상태를 나타내는 컨텍스트를 반영할 수 있다. 예를 들어, 이동 속도에 기초하여 사용자가 걷고 있는 상태로 판단된 경우, 이동 속도 모델은 사용자가 음성 인식 장치의 위치에서 먼 곳보다는 가까운 곳에 관심이 높다는 컨텍스트를 반영할 수 있다.

고향 모델은 음성 신호를 발화한 사용자의 고향을 고려한 모델로, 사용자의 출신 지역에 따른 사용자의 성향을 나타내는 컨텍스트를 반영할 수 있다.

취미 모델은 음성 신호를 발화한 사용자의 취미를 고려한 모델로, 예를 들어, 사용자가 다른 영역들보다 취미 영역에 높은 관심도가 있다는 컨텍스트를 반영할 수 있다.

기혼여부 모델은 음성 신호를 발화한 사용자의 기혼여부를 고려한 모델로, 예를 들어, 사용자가 기혼인 경우, 개인 활동보다는 가족 활동에 관심도가 높다는 컨텍스트를 반영할 수 있다.

음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 n-gram 언어 모델에 적용함으로써 음성 신호에 포함된 단어를 인식할 수 있다. n-gram 언어 모델은 확률적 언어 모델들 중 하나로서, 이전에 인식된 적어도 하나의 단어들에 기초하여 인식된 적어도 하나의 단어들 다음에 인식될 단어를 추정하는 모델일 수 있다.

예를 들어, 음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 다음과 같은 수학식을 통해 n-gram 언어 모델에 적용할 수 있다.

위의 수학식 1에서,

은 음성 신호에 포함된 단어들의 시퀀스를 의미하고,

은 음성 신호에 포함된 단어들의 시퀸스가

인 확률을 의미할 수 있다.

그리고, m은 해당 단어가 음성 신호에 포함된 단어들의 시퀀스 중에서 몇 번째 단어인지 여부를 의미하고, k는 해당 음성 인식 모델이 제1 음성 인식 모델(410) 및 제2 음성 모델(420) 중에서 몇 번째 음성 인식 모델인지 여부를 의미할 수 있다. 예를 들어, k=1은 제1 음성 인식 모델(410)을 의미하고, k=2는 시간 모델(421)을 의미하고, k=3은 장소 모델(422)을 의미할 수 있다. 그리고, k=j는 j번째 모델을 의미할 수 있다. 다시 말해, 제2 음성 인식 모델(420)은 총 j-1개의 컨텍스트 정보를 반영한 음성 인식 모델을 포함할 수 있다.

그리고,

는 k번째 음성 인식 모델의 가중치를 의미하고,

은 k번째 음성 인식 모델에 기초하고, 인식하고자 하는 단어 이전에 이미 인식된 단어들

이 있는 경우에 인식하고자 하는 단어가

인 확률을 의미할 수 있다.

상술된 n-gram 언어 모델은 음향 모델에 기초하여 적어도 하나의 음절을 결정하는 과정과 언어 모델에 기초하여 단어를 인식하거나 인식된 단어에 연속되는 단어를 인식하는 과정에 사용될 수 있다.

도 5는 일실시예에 따른 음성 인식 방법을 나타낸 도면이다.

일실시예에 따른 음성 인식 방법은 음성 인식 장치에 구비된 프로세서에 의해 수행될 수 있다.

단계(510)에서, 음성 인식 장치는 음성 신호를 수신할 수 있다. 예를 들어, 음성 인식 장치는 마이크와 같은 입력 장치를 통해 사용자가 발화한 음성 신호를 수신할 수 있다.

단계(520)에서, 음성 인식 장치는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 컨텍스트 정보를 확인할 수 있다. 예를 들어, 음성 인식 장치는 내장된 다양한 센서들을 통해 컨텍스트 정보를 직접 획득하거나, 외부에 위치하는 별도의 장치와의 통신을 수행함으로써 컨텍스트 정보를 획득할 수 있다.

여기서, 컨텍스트 정보는 사용자의 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다. 주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 정보를 포함할 수 있다. 사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화한 사용자에 관한 다양한 정보를 포함할 수 있다.

단계(530)에서, 음성 인식 장치는 제1 음성 인식 모델을 식별할 수 있다. 음성 인식 장치는 컨텍스트 정보에 기초하여 제1 음성 인식 모델을 식별할 수 있다. 예를 들어, 단계(520)에서 확인된 컨텍스트 정보가 없는 경우, 음성 인식 장치는 제1 음성 인식 모델만을 식별할 수 있다. 그리고, 컨텍스트 정보가 충분히 확인되어 제2 음성 인식 모델만으로 음성 신호로부터 단어를 인식할 수 있는 경우, 음성 인식 장치는 제1 음성 인식 모델을 식별하지 않을 수 있다.

단계(540)에서, 음성 인식 장치는 제2 음성 인식 모델을 식별할 수 있다. 음성 인식 장치는 컨텍스트 정보에 기초하여 제2 음성 인식 모델을 식별할 수 있다. 예를 들어, 음성 인식 장치는 단계(520)에서 확인된 컨텍스트 정보에 나이에 관한 컨텍스트 정보가 확인되지 않은 경우, 음성 인식 장치는 제2 음성 인식 모델 중에서 나이 모델을 식별하지 않을 수 있다.

단계(550)에서, 음성 인식 장치는 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 일실시예로, 음성 인식 장치는 컨텍스트 정보 확인부(320)에서 확인된 컨텍스트 정보에 기초하여, 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 다른 일실시예로, 수신된 음성 신호 중 일부가 불분명하게 인식되는 경우, 음성 인식 장치는 불분명하게 인식된 단어 이전에 인식된 단어의 가중치에 따라 불분명하게 인식된 단어의 가중치를 결정할 수 있다.

단계(560)에서, 음성 인식 장치는 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델에 기초하여 음성 신호로부터 단어를 인식할 수 있다. 단어를 인식하는 과정에 대한 상세한 설명은 도 6을 참조하여 후술하기로 한다.

도 6은 일실시예에 따른 단어를 인식하는 방법을 나타낸 도면이다.

일실시예에 따른 단어를 인식하는 방법은 음성 인식 장치에 내장된 프로세서를 의해 수행될 수 있다.

단계(610)에서, 음성 인식 장치는 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정할 수 있다.

단계(620)에서, 음성 인식 장치는 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식할 수 있다.

단계(630)에서, 음성 인식 장치는 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식할 수 있다.

컨텍스트 정보를 반영한 제2 음성 인식 모델을 추가적으로 이용함으로써, 사용자의 음성 신호가 불명확한 상황에서도 음성 인식의 정확성을 높일 수 있다.

제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 다르게 설정함으로써, 사용자의 상황에 적절한 음성 인식을 수행할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 신호를 수신하는 단계;
상기 음성 신호를 수신할 때의 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델 및 컨텍스트 정보가 반영된 제2 음성 인식 모델을 식별하는 단계;
상기 제1 음성 인식 모델의 제1 가중치 및 제2 음성 인식 모델의 제2 가중치를 결정하는 단계; 및
상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 이용하여, 상기 음성 신호에 포함된 단어를 인식하는 단계
를 포함하고,
상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 방법.
제1항에 있어서,
상기 제2 음성 인식 모델을 식별하는 단계는,
상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별하는, 음성 인식 방법.
제2항에 있어서,
상기 주변 환경 정보는,
상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함하는, 음성 인식 방법.
제2항에 있어서,
상기 사용자 프로파일 정보는,
상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
상기 음성 신호에 포함된 단어를 인식하는 단계는,
상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계
를 포함하는 음성 인식 방법.
제5항에 있어서,
상기 음성 신호에 포함된 단어를 인식하는 단계는,
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계
를 더 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 음성 신호에 포함된 단어를 인식하는 단계는,
상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는, 음성 인식 방법.
제1항에 있어서,
상기 가중치를 결정하는 단계는,
인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는, 음성 인식 방법.
음성 신호를 수신하는 단계;
상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델의 제1 가중치 및 상기 컨텍스트 정보가 반영된 제2 음성 인식 모델의 제2 가중치를 결정하는 단계; 및
상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써, 상기 음성 신호에 포함된 단어를 인식하는 단계
를 포함하고,
상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 방법.
제9항에 있어서,
상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
상기 음성 신호에 포함된 단어를 인식하는 단계는,
상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계
를 포함하는 음성 인식 방법.
제10항에 있어서,
상기 음성 신호에 포함된 단어를 인식하는 단계는,
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계
를 더 포함하는, 음성 인식 방법.
제1항 내지 제11항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
하나 이상의 프로세서를 포함하고,
상기 하나 이상의 프로세서는
음성 신호를 수신하고,
상기 음성 신호를 수신할 때의 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델을 식별하고, 상기 컨텍스트 정보가 반영된 제2 음성 인식 모델을 식별하고,
상기 제1 음성 인식 모델의 제1 가중치 및 제2 음성 인식 모델의 제2 가중치를 결정하고,
상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 이용하여, 상기 음성 신호에 포함된 단어를 인식하고,
상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 장치.
제13항에 있어서,
상기 하나 이상의 프로세서는
상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별하는, 음성 인식 장치.
제14항에 있어서,
상기 주변 환경 정보는,
상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함하는, 음성 인식 장치.
제14항에 있어서,
상기 사용자 프로파일 정보는,
상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함하는, 음성 인식 장치.
제13항에 있어서,
상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
상기 하나 이상의 프로세서는
상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하고,
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는, 음성 인식 장치.
제17항에 있어서,
상기 하나 이상의 프로세서는
상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 더 인식하는, 음성 인식 장치.
제13항에 있어서,
상기 하나 이상의 프로세서는
상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는, 음성 인식 장치.
제13항에 있어서,
상기 하나 이상의 프로세서는
인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는, 음성 인식 장치.