KR102292546B1 - 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 - Google Patents

컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR102292546B1
KR102292546B1 KR1020140091769A KR20140091769A KR102292546B1 KR 102292546 B1 KR102292546 B1 KR 102292546B1 KR 1020140091769 A KR1020140091769 A KR 1020140091769A KR 20140091769 A KR20140091769 A KR 20140091769A KR 102292546 B1 KR102292546 B1 KR 102292546B1
Authority
KR
South Korea
Prior art keywords
model
speech recognition
word
recognition model
voice
Prior art date
Application number
KR1020140091769A
Other languages
English (en)
Other versions
KR20160010961A (ko
Inventor
김현준
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020140091769A priority Critical patent/KR102292546B1/ko
Priority to US14/616,501 priority patent/US9842588B2/en
Publication of KR20160010961A publication Critical patent/KR20160010961A/ko
Application granted granted Critical
Publication of KR102292546B1 publication Critical patent/KR102292546B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

컨텍스트 정보를 이용하는 음성 인식 방법 및 장치가 개시된다. 일실시예에 따른 음성 인식 방법은 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델과 컨텍스트 정보를 반영한 제2 음성 인식 모델의 가중치를 결정하고, 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 음성 신호에 포함된 단어를 인식할 수 있다.

Description

컨텍스트 정보를 이용하는 음성 인식 방법 및 장치{METHOD AND DEVICE FOR PERFORMING VOICE RECOGNITION USING CONTEXT INFORMATION}
아래 실시예들은 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치에 관한 것이다.
최근 음성 인식 기술의 발전에 따라 다양한 기기에서 음성이 사용되고 있다. 음성 인식 기술의 응용분야는 음성을 통한 기기제어, 인터넷 검색, 메모 및 메시지 작성(Dictation), 대화형 Agent, 어학 학습 등 매우 다양하며, 다수의 상용 애플리케이션들이 스마트 디바이스 등에 탑재되고 있는 추세이다.
그러나, 인식 정확도의 기술적 한계에 따라 보다 많은 분야에서의 활용은 제한되고 있다. 이에 따라 문장, 질의 등의 음성인식 보다는 명령어 위주의 고립어 인식이 주로 활용되고 있다. 이러한 인식 정확도를 높이기 위하여 기존에는 불특정 다수로부터 수집된 정보가 음향 모델과 언어모델로 학습되어 음성인식에 활용되어 왔다. 그러나, 각 사용자의 발화 특성 편차가 크기에 모든 모델을 구축하는 데에는 한계가 있고, 이에 따라 음성 인식에서 최적의 성능을 보장하기 어렵다.
일실시예에 따른 음성 인식 방법은 음성 신호를 수신하는 단계; 상기 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별하는 단계; 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는 단계; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 상기 음성 신호에 포함된 단어를 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 제2 음성 인식 모델을 식별하는 단계는, 상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 주변 환경 정보는, 상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 사용자 프로파일 정보는, 상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고, 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계를 더 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 가중치를 결정하는 단계는, 인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정할 수 있다.
일실시예에 따른 음성 인식 방법은 음성 신호를 수신하는 단계; 상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보를 확인하는 단계; 상기 컨텍스트 정보에 기초하여, 상기 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 상기 컨텍스트 정보를 반영한 제2 음성 인식 모델에 대한 가중치를 결정하는 단계; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고, 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계를 포함할 수 있다.
일실시예에 따른 음성 인식 방법에서 상기 음성 신호에 포함된 단어를 인식하는 단계는, 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계를 더 포함할 수 있다.
일실시예에 따른 음성 인식 장치는 음성 신호를 수신하는 수신부; 상기 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델을 식별하고, 상기 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별하는 음성 인식 모델 식별부; 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는 가중치 결정부; 및 상기 결정된 가중치를 제1 음성 인식 모델 및 제2 음성 인식 모델에 반영하여 상기 음성 신호에 포함된 단어를 인식하는 단어 인식부를 포함할 수 있다.
도 1은 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 예시를 나타낸 도면이다.
도 2는 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 다른 예시를 나타낸 도면이다.
도 3은 일실시예에 따른 음성 인식 장치의 세부 구성을 나타낸 도면이다.
도 4는 일실시예에 따라 제1 음성 인식 모델과 제2 음성 인식 모델을 이용하여 단어를 인식하는 예시를 나타낸 도면이다.
도 5는 일실시예에 따른 음성 인식 방법을 나타낸 도면이다.
도 6은 일실시예에 따른 단어를 인식하는 방법을 나타낸 도면이다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 예시를 나타낸 도면이다.
사용자가 "world cup"이란 음성 신호를 발화하여, 해당 음성 신호가 음성 인식 장치에 수신되는 경우를 가정한다. 이 때, 사용자의 발음이 명확하지 않거나 음성 신호에 노이즈가 많은 경우, 음성 인식 장치는 음성 신호를 사용자가 의도하지 않은 단어로 인식하기가 쉽다. 예를 들어, 음성 인식 장치는 수신된 음성 신호를 'word cob', 'worse cop', 'wand carp', 'war cob' 등으로 잘못 인식할 수 있다.
반면, 사용자가 음성 신호를 발화한 시점이 월드컵이 시작되기 직전인 경우와 같은 월드컵에 대한 관심도가 급증하는 시점인 것을 음성 인식 장치가 이용할 수 있다면, 음성 인식 장치는 보다 높은 확률로 음성 신호를 'world cup'으로 인식할 수 있다. 다시 말해, 음성 인식 장치가 컨텍스트 정보를 이용하여 음성 인식을 수행함으로써, 음성 신호를 보다 명확히 인식할 수 있다.
여기서, 컨텍스트 정보는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 정보로서, 예를 들어, 사용자의 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다. 주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 정보를 포함할 수 있다. 사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화한 사용자에 관한 다양한 정보를 포함할 수 있다.
음성 인식 장치는 상술된 컨텍스트 정보와 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 음성 인식 모델은 음성 인식 장치가 음성 신호를 단어로 인식하기 위해 참조하는 데이터베이스로서, 수많은 레퍼런스 벡터들과 각 레퍼런스 벡터들에 대응되는 음소, 음절, 단어 등을 포함하는 텍스트를 저장할 수 있다. 음성 인식 장치는 수신한 음성 신호로부터 특징 벡터를 추출하고, 추출된 특징 벡터와 음성 인식 모델에 포함된 레퍼런스 벡터들과 매칭함으로써, 음성 신호를 음소, 음절, 단어 등을 포함하는 텍스트로 인식할 수 있다.
일반적인 음성 인식 모델은 단순히 레퍼런스 벡터들과 단어들을 포함할 뿐, 상술된 컨텍스트 정보를 고려하지 않는다. 이하, 설명의 편의를 위하여 컨텍스트 정보를 고려하지 않는 일반적인 음성 인식 모델은 '제1 음성 인식 모델'이라고 지칭한다.
상술된 실시예와 같이 음성 인식 장치는 컨텍스트 정보를 고려하는 음성 인식 모델을 이용하여 음성 인식을 수행할 수 있다. 컨텍스트 정보를 고려하는 음성 인식 모델은 음성 신호를 수신할 때의 시간을 고려하는 시간 모델, 음성 신호를 수신할 때의 날씨를 고려하는 날씨 모델, 음성 신호를 수신한 음성 인식 장치의 장소를 고려하는 장소 모델, 음성 신호를 수신한 음성 인식 장치의 이동 속도를 고려하는 이동 속도 모델, 음성 신호를 발화한 사용자의 성별을 고려하는 성별 모델, 사용자의 나이를 고려하는 나이 모델, 고향 모델, 취미 모델 및 기혼여부 모델 등 음성 인식 장치가 사용자로부터 음성 신호를 수신할 때의 상황을 나타내는 다양한 모델을 포함할 수 있다. 이하, 설명의 편의를 위하여 컨텍스트 정보를 고려하는 음성 인식 모델은 '제2 음성 인식 모델'이라고 지칭한다.
도 2는 일실시예에 따라 컨텍스트 정보를 반영한 음성 인식 모델을 이용하여 음성 인식을 수행하는 다른 예시를 나타낸 도면이다.
사용자가 발화한 음성 신호를 전부 불분명하게 인식하는 도 1과 달리, 도 2는 사용자가 발화한 음성 신호 중 일부가 불분명하게 인식되는 경우를 가정한다.
예를 들어, 사용자는 "world cup OOO"이란 음성 신호를 발화하였고, 음성 인식 장치가 'world cup'이란 단어는 분명하게 인식하였으나, 그 뒤의 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.
이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 후보들을 불분명하게 인식된 음성 신호에 대응되는 단어 'OOO'로 추천할 수 있다. 반면, 제2 음성 인식 모델을 이용하는 경우, 음성 인식 장치는 발화시간, 장소 등의 컨텍스트 정보를 반영한 결과(예를 들어, 'winner', 'champions', 'brazil', 'final' 등)를 우선적으로 추천할 수 있다. 다시 말해, 컨텍스트 정보를 반영한 제2 음성 인식 모델을 더 이용함으로써, 음성 인식 장치는 사용자의 필요(needs)에 적절한 단어를 추천할 확률이 높아질 수 있다.
다른 일실시예로, 사용자는 "starbucks OOO"이란 음성 신호를 발화하였으나, 음성 인식 장치가 'starbucks'에 연속되는 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.
이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 'coffee'를 불분명하게 인식된 음성 신호에 대응되는 단어 'OOO'로 추천할 수 있다. 반면, 사용자가 음성 신호를 발화한 장소가 증권사이고 'starbucks'의 영업이익에 관한 키워드가 검색어 순위에서 높게 설정되며, 이러한 컨텍스트 정보가 반영된 제2 음성 인식 모델을 이용하는 경우, 음성 인식 장치는 'OOO'로 일반적인 단어 'coffee'보다 컨텍스트 정보가 반영된 'stock', 'share', 'stock price' 등을 우선적으로 추천할 수 있다.
또 다른 일실시예로, 사용자는 저녁에 "television OOO"이란 음성 신호를 발화하였으나, 음성 인식 장치가 'television'에 연속되는 단어 'OOO'를 불분명하게 인식한 경우를 가정한다.
이 때, 컨텍스트 정보를 미반영한 제1 음성 인식 모델만을 이용하는 경우, 음성 인식 장치는 오프라인으로 수집된 데이터의 통계적 수치에 기초하여 예상되는 'brand', 'price' 등을 'OOO'로 추천할 수 있다. 반면, 사용자가 중년 남성이고, 사용자가 발화한 시간이 아침 시간대인 경우, 음성 인식 장치는 제2 음성 인식 모델을 이용하여 'OOO'로 일반적인 단어들보다 컨텍스트 정보가 반영된 'news', 'sport' 등을 우선적으로 추천할 수 있다. 또는, 사용자가 중년 여성이고, 사용자가 발화한 시간이 저녁 시간대인 경우, 음성 인식 장치는 제2 음성 인식 모델을 이용하여 'OOO'로 컨텍스트 정보가 반영된 'drama' 등을 우선적으로 추천할 수 있다.
도 3은 일실시예에 따른 음성 인식 장치의 세부 구성을 나타낸 도면이다.
도 3을 참조하면, 음성 인식 장치(300)는 수신부(310), 컨텍스트 정보 확인부(320), 모델 식별부(330), 가중치 결정부(340) 및 단어 인식부(350)를 포함할 수 있다.
수신부(310)는 사용자로부터 음성 신호를 수신할 수 있다. 예를 들어, 수신부(310)는 마이크와 같은 입력 장치를 통해 사용자가 발화한 음성 신호를 수신할 수 있다.
컨텍스트 정보 확인부(320)는 컨텍스트 정보를 확인할 수 있다. 여기서, 컨텍스트 정보는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 정보로서, 예를 들어, 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다.
주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 컨텍스트 정보를 포함할 수 있다. 예를 들어, 음성 신호를 수신할 때의 시간은 음성 인식 장치에 설정되어 있는 시간을 통해 확인할 수 있다. 그리고, 음성 신호를 수신한 음성 인식 장치의 장소는 음성 인식 장치의 GPS 수신기 등과 같은 위치 측정기를 통해 확인할 수 있다. 보다 구체적인 예로, 사용자가 특정 위치를 '집'으로 설정하고, GPS 수신기로부터 획득한 위치가 '집'으로 설정된 특정 위치로부터 일정 범위 내에 속해있는 경우, 음성 인식 장치는 장소를 '집'으로 확인할 수 있다.
사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화하는 사용자를 나타내는 다양한 컨텍스트 정보를 포함할 수 있다. 예를 들어, 음성 신호를 발화한 사용자의 성별은 사용자에 의해 음성 인식 장치에 미리 입력된 값이거나, 수신된 음성 신호의 주파수에 기초하여 음성 인식 장치에 의해 판단될 수 있다. 사용자의 나이는 사용자에 의해 음성 인식 장치에 미리 입력된 값이거나 수신된 음성 신호에 기초하여 음성 인식 장치에 의해 판단될 수 있다. 그리고, 사용자의 고향, 취미, 기혼여부는 사용자에 의해 미리 입력된 값일 수 있다.
모델 식별부(330)는 음성 신호를 수신할 때의 컨텍스트 정보를 미반영한 제1 음성 인식 모델 및 컨텍스트 정보를 반영한 제2 음성 인식 모델을 식별할 수 있다. 예를 들어, 모델 식별부(330)는 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 제2 음성 인식 모델을 식별할 수 있다.
일실시예로, 컨텍스트 정보 확인부(320)로부터 확인된 컨텍스트 정보에 장소에 관한 컨텍스트 정보가 확인되지 않는 경우, 모델 식별부(330)는 제2 음성 인식 모델 중에서 장소 모델을 식별하지 않을 수 있다. 반대로, 컨텍스트 정보에 시간에 관한 컨텍스트 정보가 확인된 경우, 모델 식별부(330)는 제2 음성 인식 모델 중에서 시간 모델을 식별할 수 있다.
가중치 결정부(340)는 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다.
일실시예로, 가중치 결정부(340)는 컨텍스트 정보 확인부(320)에서 확인된 컨텍스트 정보에 기초하여, 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 보다 구체적인 실시예로, 컨텍스트 정보에 성별에 관한 컨텍스트 정보가 확인되지 않는 경우, 가중치 결정부(340)는 제2 음성 인식 모델 중에서 성별 모델의 가중치를 '0'으로 설정할 수 있다. 또한, 컨텍스트 정보에 장소 '집'에 관한 컨텍스트 정보가 확인된 경우, 가중치 결정부(340)는 제2 음성 인식 모델 중에서 장소 모델의 가중치를 다른 음성 인식 모델보다 높게 설정할 수 있다.
다른 일실시예로, 수신된 음성 신호 중 일부가 불분명하게 인식되는 경우, 가중치 결정부(340)는 불분명하게 인식된 단어 이전에 인식된 단어의 가중치에 따라 불분명하게 인식된 단어의 가중치를 결정할 수 있다. 다시 말해, 수신된 음성 신호 "first word, second word" 중 'second word'가 불분명하게 인식된 경우, 'first word'를 인식함에 있어서 사용된 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 'second word'를 인식함에 있어서 사용될 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치로 결정할 수 있다.
단어 인식부(350)는 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델에 기초하여 음성 신호에 포함된 단어를 인식할 수 있다. 여기서, 제1 음성 인식 모델 및 제2 음성 인식 모델은 고유의 음향 모델(Acoustic Model; AM), 언어 모델(Language Model; LM)을 포함할 수 있다.
음향 모델은 음성 신호를 음소(phoneme) 단위로 인식하기 위한 모델일 수 있다. 단어 인식부(350)는 음향 모델을 통해 음성 신호를 음소 단위로 인식함으로써, 음성 신호를 적어도 하나의 음절(Syllable)로 결정할 수 있다.
음소는 언어에서 의미 구별 기능을 가지는 음운(phonology)의 최소 단위일 수 있다. 예를 들어, 알파벳은 49개 또는 61개의 음소들을 가질 수 있다.
언어 모델은 적어도 하나의 음절에 기초하여 단어를 인식하기 위한 모델 또는 인식된 단어에 기초하여 인식된 단어에 연속되는 단어를 인식하기 위한 모델일 수 있다. 단어 인식부(350)는 언어 모델을 통해 결정된 적어도 하나의 음절에 기초하여 음성 신호에 포함된 단어를 인식할 수 있다. 그리고, 단어 인식부(350)는 언어 모델을 통해 인식된 단어에 연속되는 단어를 인식할 수 있다.
단어 인식부(350)는 제1 음성 인식 모델의 음향 모델에 기초한 제1 음소 확률 및 제2 음성 인식 모델의 음향 모델에 기초한 제2 음소 확률을 계산할 수 있다. 단어 인식부(350)는 계산된 제1 음소 확률 및 제2 음소 확률에 기초하여 음성 신호에 포함된 적어도 하나의 음절을 결정할 수 있다.
그리고, 단어 인식부(350)는 제1 음성 인식 모델의 언어 모델에 기초한 제1 단어 확률과 제2 음성 인식 모델의 언어 모델에 기초한 제2 단어 확률을 계산할 수 있다. 단어 인식부(350)는 계산된 제1 단어 확률 및 제2 단어 확률에 기초하여 적어도 하나의 음절로 구성되는 단어를 인식할 수 있다.
사용자가 발화한 음성 신호 중 일부(다시 말해, 인식된 단어에 연속되는 단어)가 불분명하게 인식되는 경우, 단어 인식부(350)는 제1 음성 인식 모델의 언어 모델에 기초한 제1 단어 확률과 제2 음성 인식 모델의 언어 모델에 기초한 제2 단어 확률에 기초하여 인식된 단어에 연속되는 단어를 더 인식할 수 있다.
도 4는 일실시예에 따라 제1 음성 인식 모델과 제2 음성 인식 모델을 이용하여 단어를 인식하는 예시를 나타낸 도면이다.
도 4를 참조하면, 음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 이용하여 음성 인식을 수행할 수 있다. 제2 음성 인식 모델(420)은 시간 모델(421), 장소 모델(422), 성별 모델(423), 나이 모델(424), 날씨 모델, 이동 속도 모델, 고향 모델, 취미 모델, 기혼여부 모델 등 컨텍스트 정보를 고려하는 다양한 음성 인식 모델을 포함할 수 있다.
시간 모델(421)은 음성 신호를 수신할 때의 시간을 반영한 모델로, 예를들어 아침 시간대에 사람들이 날씨, 교통상황, 뉴스 등에 관심을 가지고, 오후 시간대에 업무와 관련된 사항 등에 관심을 가지며, 저녁 시간대에 여가에 관심이 있다는 컨텍스트를 반영할 수 있다. 또한, 시간 모델(421)은 평일과 주말에 대해 사람들이 서로 다른 사항에 관심이 있다는 컨텍스트를 반영할 수 있다.
다른 일실시예로, 시간 모델(421)은 음성 신호를 수신할 당시에 짧은 시간 동안 사람들의 관심도가 급증하는 컨텍스트를 반영한 모델일 수 있다. 예를 들어, 짧은 시간 동안 사람들의 관심도가 급증하는 컨텍스트는 포탈사이트의 실시간 급상승 검색어, 인터넷 뉴스 기사에서의 조회수 등 사람들의 관심도를 반영하는 다양한 컨텍스트일 수 잇다. 그리고, 시간 모델(421)은 음성 신호를 발화한 사용자의 관심도를 반영하는 모델일 수 있다. 예를 들어, 음성 신호를 발화한 사용자의 관심도는 이전에 사용자가 음성 인식 장치에서 실행한 어플리케이션 또는 음성 인식 장치에 입력한 명령어 등 사용자의 관심도를 반영하는 다양한 컨텍스트를 의미할 수 있다.
장소 모델(422)은 음성 신호를 수신한 음성 인식 장치의 장소를 고려한 모델로, 사용자는 특정 위치를 장소 모델(422)에 설정할 수 있다. 예를 들어, 사용자는 장소 모델(422)에 특정 위치를 집, 회사, 헬스장, 별장 등으로 설정할 수 있다. 그리고, 장소 모델(422)은 특정 위치를 카페, 레스토랑, 학교, 은행, 공항, 병원 등으로 미리 설정된 사항들을 반영한 모델일 수 있다. 다시 말해, 음성 인식 장치는 내장된 위치 측정기를 통해 확인한 위치에 대응되는 장소가 장소 모델(422)에 설정되어 있는 경우, 음성 인식 장치는 장소 모델(422)을 식별하고, 장소 모델(422)의 가중치를 다른 음성 인식 모델의 가중치보다 높게 설정할 수 있다.
성별 모델(423)은 음성 신호를 발화한 사용자의 성별을 고려한 모델일 수 있다. 일실시예로, 사용자는 자신의 성별을 성별 모델(423)에 미리 설정할 수 있다. 다른 일실시예로, 음성 인식 장치는 사용자로부터 수신한 음성 신호에 기초하여 사용자의 성별을 판단하고, 판단 결과를 성별 모델(423)에 설정할 수 있다.
나이 모델(424)은 음성 신호를 발화한 사용자의 나이를 고려한 모델일 수 있다. 일실시예로, 사용자는 자신의 나이를 미리 나이 모델(424)에 미리 설정할 수 있다. 다른 일실시예로, 음성 인식 장치는 사용자로부터 수신한 음성 신호에 기초하여 사용자의 나이를 판단하고, 판단 결과를 나이 모델(424)에 설정할 수 있다.
날씨 모델은 음성 신호를 수신할 때의 날씨를 반영한 모델로, 날씨에 따라 변화하는 사용자의 관심도를 나타내는 컨텍스트를 반영할 수 있다. 예를 들어, 음성 신호를 수신할 때의 날씨가 맑은 경우, 날씨 모델은 사용자가 실내 활동보다는 실외 활동에 관심이 있다는 컨텍스트를 반영할 수 있다.
이동 속도 모델은 음성 신호를 수신한 음성 인식 장치의 이동 속도를 반영한 모델로, 이동 속도에 기초하여 판단한 사용자의 상태를 나타내는 컨텍스트를 반영할 수 있다. 예를 들어, 이동 속도에 기초하여 사용자가 걷고 있는 상태로 판단된 경우, 이동 속도 모델은 사용자가 음성 인식 장치의 위치에서 먼 곳보다는 가까운 곳에 관심이 높다는 컨텍스트를 반영할 수 있다.
고향 모델은 음성 신호를 발화한 사용자의 고향을 고려한 모델로, 사용자의 출신 지역에 따른 사용자의 성향을 나타내는 컨텍스트를 반영할 수 있다.
취미 모델은 음성 신호를 발화한 사용자의 취미를 고려한 모델로, 예를 들어, 사용자가 다른 영역들보다 취미 영역에 높은 관심도가 있다는 컨텍스트를 반영할 수 있다.
기혼여부 모델은 음성 신호를 발화한 사용자의 기혼여부를 고려한 모델로, 예를 들어, 사용자가 기혼인 경우, 개인 활동보다는 가족 활동에 관심도가 높다는 컨텍스트를 반영할 수 있다.
음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 n-gram 언어 모델에 적용함으로써 음성 신호에 포함된 단어를 인식할 수 있다. n-gram 언어 모델은 확률적 언어 모델들 중 하나로서, 이전에 인식된 적어도 하나의 단어들에 기초하여 인식된 적어도 하나의 단어들 다음에 인식될 단어를 추정하는 모델일 수 있다.
예를 들어, 음성 인식 장치는 제1 음성 인식 모델(410) 및 제2 음성 인식 모델(420)을 다음과 같은 수학식을 통해 n-gram 언어 모델에 적용할 수 있다.
Figure 112014068152236-pat00001
위의 수학식 1에서,
Figure 112014068152236-pat00002
은 음성 신호에 포함된 단어들의 시퀀스를 의미하고,
Figure 112014068152236-pat00003
은 음성 신호에 포함된 단어들의 시퀸스가
Figure 112014068152236-pat00004
인 확률을 의미할 수 있다.
그리고, m은 해당 단어가 음성 신호에 포함된 단어들의 시퀀스 중에서 몇 번째 단어인지 여부를 의미하고, k는 해당 음성 인식 모델이 제1 음성 인식 모델(410) 및 제2 음성 모델(420) 중에서 몇 번째 음성 인식 모델인지 여부를 의미할 수 있다. 예를 들어, k=1은 제1 음성 인식 모델(410)을 의미하고, k=2는 시간 모델(421)을 의미하고, k=3은 장소 모델(422)을 의미할 수 있다. 그리고, k=jj번째 모델을 의미할 수 있다. 다시 말해, 제2 음성 인식 모델(420)은 총 j-1개의 컨텍스트 정보를 반영한 음성 인식 모델을 포함할 수 있다.
그리고,
Figure 112014068152236-pat00005
k번째 음성 인식 모델의 가중치를 의미하고,
Figure 112014068152236-pat00006
k번째 음성 인식 모델에 기초하고, 인식하고자 하는 단어 이전에 이미 인식된 단어들
Figure 112014068152236-pat00007
이 있는 경우에 인식하고자 하는 단어가
Figure 112014068152236-pat00008
인 확률을 의미할 수 있다.
상술된 n-gram 언어 모델은 음향 모델에 기초하여 적어도 하나의 음절을 결정하는 과정과 언어 모델에 기초하여 단어를 인식하거나 인식된 단어에 연속되는 단어를 인식하는 과정에 사용될 수 있다.
도 5는 일실시예에 따른 음성 인식 방법을 나타낸 도면이다.
일실시예에 따른 음성 인식 방법은 음성 인식 장치에 구비된 프로세서에 의해 수행될 수 있다.
단계(510)에서, 음성 인식 장치는 음성 신호를 수신할 수 있다. 예를 들어, 음성 인식 장치는 마이크와 같은 입력 장치를 통해 사용자가 발화한 음성 신호를 수신할 수 있다.
단계(520)에서, 음성 인식 장치는 사용자로부터 음성 신호를 수신할 때의 상황에 관한 컨텍스트 정보를 확인할 수 있다. 예를 들어, 음성 인식 장치는 내장된 다양한 센서들을 통해 컨텍스트 정보를 직접 획득하거나, 외부에 위치하는 별도의 장치와의 통신을 수행함으로써 컨텍스트 정보를 획득할 수 있다.
여기서, 컨텍스트 정보는 사용자의 주변 환경 정보 및 사용자 프로파일 정보 등을 포함할 수 있다. 주변 환경 정보는 음성 신호를 수신할 때의 시간, 날씨, 음성 신호를 수신한 음성 인식 장치의 장소, 이동 속도 등 음성 신호를 발화하는 사용자가 속하는 환경을 표현하는 다양한 정보를 포함할 수 있다. 사용자 프로파일 정보는 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미, 기혼여부 등 음성 신호를 발화한 사용자에 관한 다양한 정보를 포함할 수 있다.
단계(530)에서, 음성 인식 장치는 제1 음성 인식 모델을 식별할 수 있다. 음성 인식 장치는 컨텍스트 정보에 기초하여 제1 음성 인식 모델을 식별할 수 있다. 예를 들어, 단계(520)에서 확인된 컨텍스트 정보가 없는 경우, 음성 인식 장치는 제1 음성 인식 모델만을 식별할 수 있다. 그리고, 컨텍스트 정보가 충분히 확인되어 제2 음성 인식 모델만으로 음성 신호로부터 단어를 인식할 수 있는 경우, 음성 인식 장치는 제1 음성 인식 모델을 식별하지 않을 수 있다.
단계(540)에서, 음성 인식 장치는 제2 음성 인식 모델을 식별할 수 있다. 음성 인식 장치는 컨텍스트 정보에 기초하여 제2 음성 인식 모델을 식별할 수 있다. 예를 들어, 음성 인식 장치는 단계(520)에서 확인된 컨텍스트 정보에 나이에 관한 컨텍스트 정보가 확인되지 않은 경우, 음성 인식 장치는 제2 음성 인식 모델 중에서 나이 모델을 식별하지 않을 수 있다.
단계(550)에서, 음성 인식 장치는 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 일실시예로, 음성 인식 장치는 컨텍스트 정보 확인부(320)에서 확인된 컨텍스트 정보에 기초하여, 제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 결정할 수 있다. 다른 일실시예로, 수신된 음성 신호 중 일부가 불분명하게 인식되는 경우, 음성 인식 장치는 불분명하게 인식된 단어 이전에 인식된 단어의 가중치에 따라 불분명하게 인식된 단어의 가중치를 결정할 수 있다.
단계(560)에서, 음성 인식 장치는 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델에 기초하여 음성 신호로부터 단어를 인식할 수 있다. 단어를 인식하는 과정에 대한 상세한 설명은 도 6을 참조하여 후술하기로 한다.
도 6은 일실시예에 따른 단어를 인식하는 방법을 나타낸 도면이다.
일실시예에 따른 단어를 인식하는 방법은 음성 인식 장치에 내장된 프로세서를 의해 수행될 수 있다.
단계(610)에서, 음성 인식 장치는 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정할 수 있다.
단계(620)에서, 음성 인식 장치는 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식할 수 있다.
단계(630)에서, 음성 인식 장치는 상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식할 수 있다.
컨텍스트 정보를 반영한 제2 음성 인식 모델을 추가적으로 이용함으로써, 사용자의 음성 신호가 불명확한 상황에서도 음성 인식의 정확성을 높일 수 있다.
제1 음성 인식 모델 및 제2 음성 인식 모델 각각의 가중치를 다르게 설정함으로써, 사용자의 상황에 적절한 음성 인식을 수행할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (20)

  1. 음성 신호를 수신하는 단계;
    상기 음성 신호를 수신할 때의 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
    둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델 및 컨텍스트 정보가 반영된 제2 음성 인식 모델을 식별하는 단계;
    상기 제1 음성 인식 모델의 제1 가중치 및 제2 음성 인식 모델의 제2 가중치를 결정하는 단계; 및
    상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 이용하여, 상기 음성 신호에 포함된 단어를 인식하는 단계
    를 포함하고,
    상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 제2 음성 인식 모델을 식별하는 단계는,
    상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별하는, 음성 인식 방법.
  3. 제2항에 있어서,
    상기 주변 환경 정보는,
    상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함하는, 음성 인식 방법.
  4. 제2항에 있어서,
    상기 사용자 프로파일 정보는,
    상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함하는, 음성 인식 방법.
  5. 제1항에 있어서,
    상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
    상기 음성 신호에 포함된 단어를 인식하는 단계는,
    상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계
    를 포함하는 음성 인식 방법.
  6. 제5항에 있어서,
    상기 음성 신호에 포함된 단어를 인식하는 단계는,
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계
    를 더 포함하는, 음성 인식 방법.
  7. 제1항에 있어서,
    상기 음성 신호에 포함된 단어를 인식하는 단계는,
    상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는, 음성 인식 방법.
  8. 제1항에 있어서,
    상기 가중치를 결정하는 단계는,
    인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는, 음성 인식 방법.
  9. 음성 신호를 수신하는 단계;
    상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
    둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델의 제1 가중치 및 상기 컨텍스트 정보가 반영된 제2 음성 인식 모델의 제2 가중치를 결정하는 단계; 및
    상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써, 상기 음성 신호에 포함된 단어를 인식하는 단계
    를 포함하고,
    상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 방법.
  10. 제9항에 있어서,
    상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
    상기 음성 신호에 포함된 단어를 인식하는 단계는,
    상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하는 단계; 및
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는 단계
    를 포함하는 음성 인식 방법.
  11. 제10항에 있어서,
    상기 음성 신호에 포함된 단어를 인식하는 단계는,
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 인식하는 단계
    를 더 포함하는, 음성 인식 방법.
  12. 제1항 내지 제11항 중에서 어느 하나의 항의 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
  13. 하나 이상의 프로세서를 포함하고,
    상기 하나 이상의 프로세서는
    음성 신호를 수신하고,
    상기 음성 신호를 수신할 때의 컨텍스트 정보에 기초하여 음성 인식에 이용할 음성 인식 모델의 개수를 결정하는 단계;
    둘 이상의 음성 인식 모델을 이용하는 것으로 결정되면, 상기 컨텍스트 정보가 미반영된 제1 음성 인식 모델을 식별하고, 상기 컨텍스트 정보가 반영된 제2 음성 인식 모델을 식별하고,
    상기 제1 음성 인식 모델의 제1 가중치 및 제2 음성 인식 모델의 제2 가중치를 결정하고,
    상기 제1 가중치가 반영된 제1 음성 인식 모델 및 상기 제2 가중치가 반영된 제2 음성 인식 모델을 이용하여, 상기 음성 신호에 포함된 단어를 인식하고,
    상기 제2 음성 인식 모델은 복수의 컨텍스트 모델들 중에서 상기 컨텍스트 정보에 기초하여 선택된 하나 이상의 컨텍스트 모델을 포함하는 음성 인식 장치.
  14. 제13항에 있어서,
    상기 하나 이상의 프로세서는
    상기 음성 신호를 수신할 때의 주변 환경 정보 및 사용자 프로파일 정보 중 적어도 하나를 포함하는 컨텍스트 정보에 기초하여 상기 제2 음성 인식 모델을 식별하는, 음성 인식 장치.
  15. 제14항에 있어서,
    상기 주변 환경 정보는,
    상기 음성 신호를 수신할 때의 시간, 날씨, 상기 음성 신호를 수신한 음성 인식 장치의 장소 및 이동 속도 중 적어도 하나를 포함하는, 음성 인식 장치.
  16. 제14항에 있어서,
    상기 사용자 프로파일 정보는,
    상기 음성 신호를 발화한 사용자의 성별, 나이, 고향, 취미 및 기혼여부 중 적어도 하나를 포함하는, 음성 인식 장치.
  17. 제13항에 있어서,
    상기 제1 음성 인식 모델 및 제2 음성 인식 모델은, 음향 모델(AM) 및 언어 모델(LM)을 포함하고,
    상기 하나 이상의 프로세서는
    상기 제1 음성 인식 모델의 음향 모델에 기초한 음소 확률과 상기 제2 음성 인식 모델의 음향 모델에 기초한 음소 확률에 기초하여, 상기 음성 신호에 포함된 적어도 하나의 음절을 결정하고,
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 적어도 하나의 음절로 구성되는 단어를 인식하는, 음성 인식 장치.
  18. 제17항에 있어서,
    상기 하나 이상의 프로세서는
    상기 제1 음성 인식 모델의 언어 모델에 기초한 단어 확률과 상기 제2 음성 인식 모델의 언어 모델에 기초한 단어 확률에 기초하여, 상기 인식된 단어에 연속되는 단어를 더 인식하는, 음성 인식 장치.
  19. 제13항에 있어서,
    상기 하나 이상의 프로세서는
    상기 가중치가 결정된 제1 음성 인식 모델 및 제2 음성 인식 모델을 n-gram 언어 모델에 적용함으로써 상기 음성 신호에 포함된 단어를 인식하는, 음성 인식 장치.
  20. 제13항에 있어서,
    상기 하나 이상의 프로세서는
    인식하고자 하는 단어 이전에 인식된 단어에 적용된 가중치를 고려하여, 상기 제1 음성 인식 모델 및 제2 음성 인식 모델의 가중치를 결정하는, 음성 인식 장치.
KR1020140091769A 2014-07-21 2014-07-21 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치 KR102292546B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140091769A KR102292546B1 (ko) 2014-07-21 2014-07-21 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US14/616,501 US9842588B2 (en) 2014-07-21 2015-02-06 Method and device for context-based voice recognition using voice recognition model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140091769A KR102292546B1 (ko) 2014-07-21 2014-07-21 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20160010961A KR20160010961A (ko) 2016-01-29
KR102292546B1 true KR102292546B1 (ko) 2021-08-23

Family

ID=55075081

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140091769A KR102292546B1 (ko) 2014-07-21 2014-07-21 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US9842588B2 (ko)
KR (1) KR102292546B1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US11003417B2 (en) 2016-12-15 2021-05-11 Samsung Electronics Co., Ltd. Speech recognition method and apparatus with activation word based on operating environment of the apparatus
KR20180074210A (ko) 2016-12-23 2018-07-03 삼성전자주식회사 전자 장치 및 전자 장치의 음성 인식 방법
US10983753B2 (en) * 2017-06-09 2021-04-20 International Business Machines Corporation Cognitive and interactive sensor based smart home solution
KR101970008B1 (ko) * 2017-06-23 2019-04-18 (주)디노비즈 딥러닝 신경망회로에 의한 번역알고리즘을 구비한 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램 및 사용자 장치
KR102449181B1 (ko) 2017-11-24 2022-09-29 삼성전자 주식회사 전자장치 및 그 제어방법
KR102550932B1 (ko) * 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
US11106868B2 (en) 2018-03-06 2021-08-31 Samsung Electronics Co., Ltd. System and method for language model personalization
KR102592907B1 (ko) * 2018-06-22 2023-10-23 삼성전자주식회사 텍스트 입력 디바이스 및 그 방법
KR20200046188A (ko) * 2018-10-19 2020-05-07 삼성전자주식회사 인공 지능 모델을 재구성하기 위한 전자 장치 및 그의 제어 방법
US20210398521A1 (en) * 2018-11-06 2021-12-23 Systran International Method and device for providing voice recognition service
CN109215630B (zh) * 2018-11-14 2021-01-26 北京羽扇智信息科技有限公司 实时语音识别方法、装置、设备及存储介质
KR20200059703A (ko) * 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US11961522B2 (en) 2018-11-28 2024-04-16 Samsung Electronics Co., Ltd. Voice recognition device and method
EP3874489A1 (en) * 2018-12-03 2021-09-08 Google LLC Speech input processing
KR102187528B1 (ko) * 2018-12-17 2020-12-07 주식회사 한글과컴퓨터 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
TW202027062A (zh) * 2018-12-28 2020-07-16 塞席爾商元鼎音訊股份有限公司 聲音播放系統及其調整輸出聲音之方法
WO2020153736A1 (en) * 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
EP3888084A4 (en) 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE
KR20210001529A (ko) * 2019-06-28 2021-01-06 엘지전자 주식회사 로봇, 그와 연결되는 서버, 및 로봇을 이용한 음성 인식 방법
KR20220005590A (ko) * 2019-07-22 2022-01-13 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
KR20190106950A (ko) * 2019-08-31 2019-09-18 엘지전자 주식회사 지능형 디바이스 및 그 제어 방법
US11145309B1 (en) * 2020-03-18 2021-10-12 Sas Institute Inc. Dynamic model selection in speech-to-text processing
US11049502B1 (en) 2020-03-18 2021-06-29 Sas Institute Inc. Speech audio pre-processing segmentation
WO2022198474A1 (en) 2021-03-24 2022-09-29 Sas Institute Inc. Speech-to-analytics framework with support for large n-gram corpora
KR20220137437A (ko) * 2021-04-02 2022-10-12 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
KR20240002547A (ko) * 2022-06-29 2024-01-05 삼성전자주식회사 로봇 및 그 제어 방법
WO2024058474A1 (ko) * 2022-09-15 2024-03-21 삼성전자주식회사 음성 인식을 수행하는 전자 장치 및 이의 제어 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162422B1 (en) * 2000-09-29 2007-01-09 Intel Corporation Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
US20020087311A1 (en) * 2000-12-29 2002-07-04 Leung Lee Victor Wai Computer-implemented dynamic language model generation method and system
US6836758B2 (en) * 2001-01-09 2004-12-28 Qualcomm Incorporated System and method for hybrid voice recognition
US7313526B2 (en) * 2001-09-05 2007-12-25 Voice Signal Technologies, Inc. Speech recognition using selectable recognition modes
US20030144837A1 (en) * 2002-01-29 2003-07-31 Basson Sara H. Collaboration of multiple automatic speech recognition (ASR) systems
AU2003264044A1 (en) * 2002-08-09 2004-02-25 Recare, Inc. Method and system for context-sensitive recognition of human input
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
JP2006106300A (ja) 2004-10-05 2006-04-20 Mitsubishi Electric Corp 音声認識装置及びそのプログラム
KR100704508B1 (ko) 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
CN101622660A (zh) 2007-02-28 2010-01-06 日本电气株式会社 语音识别装置、语音识别方法及语音识别程序
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
KR101640024B1 (ko) 2009-09-23 2016-07-15 삼성전자주식회사 사용자의 상황에 기반한 휴대용 통역 장치 및 방법
KR20110114797A (ko) 2010-04-14 2011-10-20 한국전자통신연구원 음성을 이용한 모바일 검색 장치 및 방법
KR101748182B1 (ko) 2010-12-31 2017-06-16 주식회사 케이티 음성인식 처리제어시스템 및 방법
KR101791907B1 (ko) 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
KR20130021136A (ko) 2011-08-22 2013-03-05 현대모비스 주식회사 온톨로지 기반 음성인식 검색 시스템 및 방법
KR101478146B1 (ko) 2011-12-15 2015-01-02 한국전자통신연구원 화자 그룹 기반 음성인식 장치 및 방법
JP2013250490A (ja) 2012-06-01 2013-12-12 Ricoh Co Ltd 処理装置、処理システム、音声認識方法及びプログラム
KR101697649B1 (ko) * 2012-11-08 2017-01-18 한국전자통신연구원 음향 모델 생성 방법 및 그 장치
US9058805B2 (en) * 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US20150325236A1 (en) * 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors

Also Published As

Publication number Publication date
US20160019887A1 (en) 2016-01-21
KR20160010961A (ko) 2016-01-29
US9842588B2 (en) 2017-12-12

Similar Documents

Publication Publication Date Title
KR102292546B1 (ko) 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
CN111292728B (zh) 语音识别方法和设备
US10013985B2 (en) Systems and methods for audio command recognition with speaker authentication
CN107039040B (zh) 语音识别系统
US10847147B2 (en) Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
KR102413282B1 (ko) 개인화된 음성 인식 방법 및 이를 수행하는 사용자 단말 및 서버
US9966077B2 (en) Speech recognition device and method
CN105096940B (zh) 用于进行语音识别的方法和装置
US9159319B1 (en) Keyword spotting with competitor models
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US11238871B2 (en) Electronic device and control method thereof
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
US10628483B1 (en) Entity resolution with ranking
US11074909B2 (en) Device for recognizing speech input from user and operating method thereof
US11289085B2 (en) Automatic turn delineation in multi-turn dialogue
KR20160066441A (ko) 음성 인식 방법 및 음성 인식 장치
KR20210016767A (ko) 음성 인식 방법 및 음성 인식 장치
KR20210047709A (ko) 음성 인식 방법 및 음성 인식 장치
CN105009206A (zh) 语音识别装置和语音识别方法
KR20210001937A (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
US9110880B1 (en) Acoustically informed pruning for language modeling
CN117378006A (zh) 混合多语种的文本相关和文本无关说话者确认
Sahu et al. A study on automatic speech recognition toolkits
Chen et al. A novel keyword+ LVCSR-filler based grammar network representation for spoken keyword search
JP2007078943A (ja) 音響スコア計算プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant