KR20160006464A

KR20160006464A - 멀티-레벨 음성 인식 방법 및 장치

Info

Publication number: KR20160006464A
Application number: KR1020140086080A
Authority: KR
Inventors: 문민영; 최영상
Original assignee: 삼성전자주식회사
Priority date: 2014-07-09
Filing date: 2014-07-09
Publication date: 2016-01-19
Also published as: US10043520B2; KR102281178B1; US20160012820A1

Abstract

멀티-레벨 음성 인식 방법 및 장치가 개시된다. 음성 인터페이스를 통해 사용자의 제1 음성 명령을 수신하는 단계; 상기 음성 인터페이스를 통해 수신한 사용자의 제1 음성 명령으로부터 키워드를 추출하는 단계; 상기 키워드와 관련된 서비스를 제공하는 카테고리에 속한 어플리케이션 후보군을 제공하는 단계; 및 상기 어플리케이션 후보군에서 선택된 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 단계를 포함할 수 있다.

Description

멀티-레벨 음성 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING MULTI-LEVEL SPEECH}

아래 실시예들은 멀티-레벨 음성 인식 방법 및 상기 방법을 수행하는 장치에 관한 것으로, 사용자의 음성 명령을 단계적으로 처리함으로써 음성 인식의 정확도 및 사용성을 높이는 기술에 관한 것이다.

음성 인터페이스는 터치 인터페이스 보다 자연스럽고 직관적인 인터페이스다. 이에 따라, 음성 인터페이스는 터치 인터페이스의 단점을 보완할 수 있는 차세대 인터페이스로 각광받고 있다. 특히, 안경 또는 시계 형태의 웨어러블 디바이스가 등장하면서, 터치 인터페이스의 사용이 제한됨에 따라 음성 인터페이스의 중요성은 더욱 증대하고 있다.

그러나, 아직까지 음성 인터페이스를 통한 사용자의 음성 명령의 인식도가 높지 않음에 따라 사용률이 낮은 실정이다. 이에 따라, 음성 인터페이스의 사용률을 높이기 위한 연구가 활발히 진행 중이다.

일 측에 따른 음성 인식 방법은 음성 인터페이스를 통해 사용자의 제1 음성 명령을 수신하는 단계; 상기 음성 인터페이스를 통해 수신한 사용자의 제1 음성 명령으로부터 키워드를 추출하는 단계; 상기 키워드와 관련된 서비스를 제공하는 카테고리에 속한 어플리케이션 후보군을 제공하는 단계; 및 상기 어플리케이션 후보군에서 선택된 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 단계를 포함할 수 있다.

이 때, 상기 처리하는 단계는 상기 카테고리와 관련된 단어 셋을 기반으로 하는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 포함하는 카테고리 음성 인식 모델을 이용하여 어플리케이션 후보군에서 사용자가 선택한 어플리케이션을 인식하고, 상기 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리할 수 있다.

또한, 상기 카테고리는 상기 사용자의 제1 음성 명령 및 제2 음성 명령으로부터 도출된 사용자의 사용 패턴을 통해 변화될 수 있다.

또한, 상기 카테고리 음성 인식 모델은 상기 사용자의 제1 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트될 수 있다.

또한, 상기 어플리케이션 음성 인식 모델은 상기 어플리케이션과 관련된 사용자의 제2 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트될 수 있다.

일 측에 따른 음성 인식 방법은 음성 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계; 상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는지 여부를 판단하는 단계; 및 상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는 것으로 판단되면, 상기 어플리케이션을 실행하는 단계를 포함할 수 있다.

이 때, 상기 실행하는 단계는 상기 실행한 어플리케이션과 관련된 사용자의 음성 명령을 처리하는 단계를 더 포함할 수 있다.

또한, 상기 처리하는 단계는 사용자의 음성 명령에 포함된 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 음성 명령을 처리할 수 있다.

또한, 상기 어플리케이션 음성 인식 모델은 상기 어플리케이션과 관련된 사용자의 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트될 수 있다.

일 측에 따른 사용자 단말은 음성 인터페이스와 상기 음성 인터페이스에 선택적으로 연결될 수 있는 프로세서를 포함하고, 상기 프로세서는, 상기 음성 인터페이스를 통해 사용자의 제1 음성 명령을 수신하는 단계; 상기 음성 인터페이스를 통해 수신한 사용자의 제1 음성 명령으로부터 키워드를 추출하는 단계; 상기 키워드와 관련된 서비스를 제공하는 카테고리에 속한 어플리케이션 후보군을 제공하는 단계; 및 상기 어플리케이션 후보군에서 선택된 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 단계를 수행할 수 있다.

이 때, 상기 프로세서는 상기 카테고리와 관련된 단어 셋을 기반으로 하는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 이용하여 어플리케이션 후보군에서 사용자가 선택한 어플리케이션을 인식하고, 상기 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리할 수 있다.

일 측에 따른 사용자 단말은 음성 인터페이스와 상기 음성 인터페이스에 선택적으로 연결될 수 있는 프로세서를 포함하고, 상기 프로세서는, 상기 음성 인터페이스를 통해 입력 받은 사용자의 음성 명령을 인식하는 단계; 상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는지 여부를 판단하는 단계; 및 상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는 것으로 판단되면, 상기 어플리케이션을 실행하는 단계를 수행할 수 있다.

이 때, 상기 프로세서는 사용자의 음성 명령에 포함된 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 음성 명령을 처리할 수 있다.

도 1은 일실시예에 따른 멀티-레벨 음성 인식 모듈을 도시한 도면이다.
도 2는 일실시예에 따른 음성 인터페이스를 통해 수신한 사용자의 음성 명령을 인식하는 방법을 나타낸 동작 흐름도를 도시한 도면이다.
도 3은 일실시예에 따른 키워드를 기초로 어플리케이션 후보군을 제공하여 단계별로 음성을 인식하는 방법을 도시한 도면이다.
도 4는 일실시예에 따른 사용자의 음성 명령으로부터 추출된 키워드를 기초에 대응하는 어플리케이션을 실행하고, 어플리케이션 음성 인식 모델을 이용하여 실행된 어플리케이션과 관련된 프로세스를 처리하는 방법을 도시한 도면이다.
도 5는 일실시예에 따른 사용자 단말의 블록도를 도시한 도면이다.
도 6은 일실시예에 따른 멀티-레벨 음성 인식 모듈을 업데이트하는 방법을 나타낸 동작 흐름도를 도시한 도면이다.
도 7은 사용자의 음성 명령을 단계적으로 인식하는 방법을 수행하는 사용자 단말을 도시한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 일실시예에 따른 멀티-레벨 음성 인식 모듈을 도시한 도면이다.

이하에서 설명되는 사용자 단말은 음성 인터페이스를 통해 사용자의 음성 명령을 수신하고, 프로세서를 통해 수신한 음성 명령에 대응하는 연산을 수행할 수 있는 단말을 의미한다. 예를 들어, 사용자 단말은 스마트 폰, PDA와 같은 휴대용 단말, 사용자의 신체에 부착할 수 있는 웨어러블 디바이스, 및 음성 명령 시스템을 포함한 차량, 스마트 TV 등을 포함한다. 사용자 단말은 멀티-레벨 음성 인식 모듈을 메모리에 저장하거나 또는 멀티-레벨 음성 인식 모듈을 데이터베이스에 저장한 음성 인식 서버와 연동하여 음성 인식 시 이용할 수 있다.

사용자 단말은 음성 인터페이스를 통해 입력 받은 사용자의 음성 명령으로부터 키워드를 추출할 수 있다. 이하에서 설명되는 키워드는 사용자의 음성 명령 내에 포함된 단어 중에서 중요한 의미를 차지하는 단어를 의미한다. 일실시예에 따르면, 키워드는 어플리케이션과 관련된 단어를 의미하거나 또는 카테고리와 관련된 단어를 의미한다. 사용자 단말은 키워드와 관련된 카테고리에 속한 어플리케이션 후보군을 제공하거나 또는 키워드와 관련된 어플리케이션을 실행할 수 있다.

어플리케이션 후보군은 동일한 카테고리에 속한 하나 이상의 어플리케이션 집합을 의미한다. 어플리케이션 후보군은 비슷한 유형의 서비스를 제공하는 어플리케이션을 포함할 수 있다. 예를 들어, 메시지와 관련된 카테고리에 속한 어플리케이션 후보군은 e-메일 어플리케이션, SMS(Short Message Service) 어플리케이션, 및 메신저 어플리케이션 등을 포함할 수 있다.

일실시예에 따르면, 추출된 키워드가 메시지와 관련된 단어에 해당하는 경우, 사용자 단말은 메시지와 관련된 카테고리에 속한 어플리케이션 후보군을 제공할 수 있다. 예를 들어, 사용자 단말은 음성 또는 디스플레이를 통해 어플리케이션 후보군을 사용자에게 제공할 수 있다.

도 1에 도시된 바와 같이 카테고리는 텍스팅(texting), GPS(Global Positioning System), 웹(web) 등으로 분류될 수 있다. 예를 들어, 카테고리는 멀티-레벨 음성 인식 모듈 내에서 미리 분류되어 있거나 또는 사용자의 설정을 통해 분류될 수도 있다. 일실시예에 따르면, 사용자 단말은 음성 명령을 통해 자주 사용하는 어플리케이션을 포함한 카테고리를 별개로 추가하거나 또는 어플리케이션을 포함하는 카테고리를 삭제할 수도 있다.

또한, 카테고리는 사용자 단말의 사용 패턴에 따라 분류될 수 있다. 여기서, 사용 패턴은 사용자의 사용자 단말의 사용 성향을 의미한다. 예를 들어, 사용 패턴은 사용자의 사용자 단말을 통한 음성 인식 서비스의 사용 시간대, 음성 명령에 따라 선택한 어플리케이션이 어떤 것인지 등의 정보를 포함한다. 이에 따라, 사용자 단말은 사용 패턴을 분석하고, 분석 결과에 적합하게 카테고리를 분류하여 사용자의 편의성을 증대시킬 수 있다.

사용자 단말은 어플리케이션 후보군에서 어플리케이션을 선택할 수 있다. 예를 들어, 사용자 단말은 음성 인터페이스를 통해 어플리케이션 후보군에서 어플리케이션을 선택하거나 또는 터치 인터페이스를 통해 어플리케이션을 선택할 수도 있다.

일례로, 음성 인터페이스를 통해 어플리케이션 후보군에서 어플리케이션을 선택하려는 경우, 사용자 단말은 카테고리 음성 인식 모델을 이용하여 사용자의 음성 명령을 보다 정확하게 인식할 수 있다. 카테고리 음성 인식 모델은 카테고리와 관련된 단어 셋을 기초로 하는 음향 모델(acoustic model)과 언어 모델(language model)을 의미한다. 사용자 단말은 카테고리 음성 인식 모델을 이용하여 카테고리와 관련된 사용자의 음성 명령을 보다 정확하게 인식할 수 있다. 이에 따라, 사용자 단말은 카테고리 음성 인식 모델을 이용하여 사용자의 음성 명령으로부터 인식하고자 하는 단어를 카테고리와 관련된 단어로 제한함에 따라, 사용자의 음성 명령을 단계적으로 인식함으로써 인식도 및 사용성을 높일 수 있다.

사용자 단말은 카테고리 음성 인식 모델을 이용하여 사용자의 음성 명령에 대응하는 어플리케이션을 실행할 수 있다. 사용자 단말은 음성 인터페이스를 통해 어플리케이션과 관련된 음성 명령을 수신할 수 있다. 일실시예에 따르면, 메신저 어플리케이션이 실행된 경우, 사용자 단말은 사용자로부터 'XX에게 7시에 만나자라고 메시지를 보내줘', 'XX에게 받은 메시지가 있는지 확인해줘' 등의 음성 명령을 수신할 수 있다.

이에 따라, 사용자 단말은 어플리케이션 음성 인식 모델을 이용하여 어플리케이션과 관련된 사용자의 음성 명령을 보다 정확하게 인식할 수 있다. 이하에서 설명되는 어플리케이션 음성 인식 모델은 어플리케이션과 관련된 단어 셋을 기초로 하는 음향 모델과 언어 모델을 의미한다. 사용자 단말은 어플리케이션 음성 인식 모델을 통해 음성 명령으로부터 인식하고자 하는 단어를 어플리케이션과 관련된 단어로 제한함에 따라, 음성 명령을 단계적으로 인식함으로써 인식도 및 사용성을 높일 수 있다.

도 2는 일실시예에 따른 사용자의 음성 명령을 단계적으로 인식하는 방법을 나타낸 동작 흐름도를 도시한 도면이다.

도 2를 참조하면, 단계(200)에서, 사용자 단말은 마이크로 폰을 통해 사용자의 음성 명령을 입력 받을 수 있다. 이에 따라, 사용자 단말은 입력 받은 음성 명령으로부터 키워드를 추출할 수 있다.

단계(210)에서, 사용자 단말은 추출한 키워드를 기초로 음성 명령에 대응하는 프로세스를 단계적으로 수행할 수 있다. 이 때, 사용자 단말은 추출한 키워드를 기초로 어떠한 단계의 프로세스를 수행할지 여부를 결정할 수 있다. 일실시예에 따르면, 사용자 단말은 추출한 키워드에 어플리케이션과 관련된 단어가 포함되어 있는지 여부를 판단할 수 있다. 사용자 단말은 키워드에 어플리케이션과 관련된 단어가 포함되어 있는지 여부에 따라 어플리케이션을 실행하거나 또는 키워드와 관련된 카테고리에 속한 어플리케이션 후보군을 제공할 수 있다.

단계(220)에서, 키워드에 어플리케이션과 관련된 단어가 포함되어 있지 않은 경우, 사용자 단말은 키워드와 관련된 카테고리에 속한 어플리케이션 후보군을 제공할 수 있다. 어플리케이션 후보군은 카테고리와 관련된 서비스를 제공하는 하나 이상의 어플리케이션 집합을 의미한다. 사용자 단말은 카테고리 음성 인식 모델을 이용하여 사용자의 다음 음성 명령으로부터 사용자가 실행하고자 하는 어플리케이션을 인식할 수 있다.

단계(230)에서, 키워드에 어플리케이션이 포함되어 있거나 또는 어플리케이션 후보군에서 사용자의 다음 음성 명령에 대응하는 어플리케이션이 인식된 경우, 사용자 단말은 프로세서를 통해 어플리케이션을 실행할 수 있다. 이에 따라, 사용자 단말은 어플리케이션과 관련된 사용자의 음성 명령을 인식할 수 있다.

일실시예에 따르면, 메신저 어플리케이션이 실행된 경우, 사용자 단말은 메신저 어플리케이션과 관련된 음성 명령을 사용자로부터 수신할 수 있다. 이 때, 사용자 단말은 메신저 어플리케이션과 관련된 음성 인식 모델을 이용하여 사용자의 음성 명령을 보다 정확하게 인식할 수 있다.

단계(240)에서, 사용자 단말은 어플리케이션에서 제공하는 서비스와 관련된 프로세스를 처리할 수 있다. 일실시예에 따르면, 메신저 어플리케이션의 경우, 사용자의 음성 명령에 대응하여 사용자 단말은 메시지의 확인, 전송 등의 프로세스를 처리할 수 있다. 다른 일실시예에 따르면, 맛집 어플리케이션의 경우, 사용자의 음성 명령에 대응하여 사용자 단말은 주변에 존재하는 맛집 정보를 검색하는 프로세스를 처리할 수 있다. 이에 따라, 단계(250)에서, 사용자 단말은 디스플레이를 통해 어플리케이션과 관련된 프로세스 처리 결과를 표시할 수 있다.

도 3은 일실시예에 따른 키워드를 기초로 어플리케이션 후보군을 제공하여 단계별로 음성을 인식하는 방법을 도시한 도면이다.

도 3을 참조하면, 사용자 단말은 마이크로폰을 통해 사용자의 음성 명령을 수신할 수 있다. 예를 들어, 'XX에게 받은 메시지가 있는지 확인해줘'를 수신한 경우, 사용자 단말은 사용자로부터 수신한 음성 명령을 분석하여 키워드를 추출할 수 있다.

이에 따라, 사용자 단말은 사용자가 어떤 메시지를 확인하고 싶은지 되물을 수 있다. 예를 들어, 사용자 단말은 스피커를 통해 'A메신저, e-메일, SMS 메시지 중 어떠한 걸 확인하고 싶으신가요?'를 출력할 수 있다. 다른 예로, 사용자 단말은 디스플레이를 통해 'A메신저, e-메일, SMS 메시지 중 어떠한 걸 확인하고 싶으신가요?'를 표시할 수 있다.

사용자 단말은 카테고리 음성 인식 모델을 이용하여 사용자의 음성 명령을 보다 정확하게 인식할 수 있다. 일실시예에 따르면, 카테고리 음성 인식 모델은 메시지와 관련된 단어 셋을 기초로 하는 음성 인식 모델이다. 사용자 단말은 카테고리 음성 인식 모델을 통해 음성 명령으로부터 인식하고자 하는 단어를 카테고리와 관련된 단어로 제한함에 따라, 음성 명령을 단계별로 인식함으로써 인식도 및 사용성을 높일 수 있다.

사용자가 'A 메신저'라고 말한 경우, 사용자 단말은 카테고리와 관련된 음성 인식 모델을 이용하여 'A 메신저'를 인식할 수 있다. 이에 따라, 사용자 단말은 마이크로폰을 통해 'A 메신저'와 관련된 음성 명령을 사용자로부터 수신할 수 있다.

예를 들어, 'XX에게 받은 메시지를 확인해줘'를 수신한 경우, 사용자 단말은 A 메신저와 관련된 음성 인식 모델을 이용하여 사용자의 음성 명령을 인식할 수 있다. A 메신저와 관련된 음성 인식 모델은 A 메신저의 이용시 자주 사용되는 단어 셋을 기초로 하는 음성 인식 모델이다. 이에 따라, 사용자 단말은 A 메신저와 관련된 음성 인식 모델을 통해 음성 명령으로부터 인식하고자 하는 단어를 A 메신저와 관련된 단어로 제한함에 따라, 음성 명령을 단계별로 인식함으로써 인식도 및 사용성을 높일 수 있다.

그러면, 사용자 단말은 프로세서를 통해 A 메신저를 통해 XX에게 받은 메시지가 있는지 여부를 확인하고, 디스플레이를 통해 확인 결과를 표시할 수 있다. 또는 사용자 단말은 스피커를 통해 확인 결과를 출력할 수도 있다.

도 4는 일실시예에 따른 사용자의 음성 명령으로부터 추출된 키워드를 기초에 대응하는 어플리케이션을 실행하고, 어플리케이션 음성 인식 모델을 이용하여 실행된 어플리케이션과 관련된 프로세스를 처리하는 방법을 도시한 도면이다.

도 4(a)를 참조하면, 사용자 단말은 마이크로폰을 통해 사용자의 음성 명령을 수신할 수 있다. 일실시예에 따르면, 마이크로폰을 통해 특정 어플리케이션의 실행과 관련된 음성 명령을 수신한 경우, 사용자 단말은 특정 어플리케이션을 실행할 수 있다. 예를 들어, 도 4(b)에 도시된 바와 같이 사용자로부터 X 네비게이션의 실행 명령을 입력 받은 경우, 사용자 단말은 X 네비게이션을 실행할 수 있다.

이에 따라, 사용자 단말은 X 네비게이션과 관련된 음성 인식 모델을 이용하여 사용자의 다음 음성 명령을 인식할 수 있다. 예를 들어, 사용자 단말은 마이크로폰을 통해 X 네비게이션과 관련된 음성 명령을 수신할 수 있다. 일실시예에 따르면, 사용자 단말은 마이크로폰을 통해 '주변에 있는 맛집을 알려줘', '부산까지 경로를 검색해줘'등의 음성 명령을 수신할 수 있다.

이에 대응하여, 사용자 단말은 X 네비게이션과 관련된 단어 셋을 기반으로 하는 음성 인식 모델을 이용하여 사용자의 음성 명령을 인식할 수 있다. 예를 들어, 사용자 단말은 교통 정보, 주변 건물 정보 등과 관련된 단어 셋을 기반으로 하는 음성 인식 모델을 이용하여 사용자의 음성 명령을 보다 정확하게 인식할 수 있다.

일실시예에 따르면, 'abc까지 경로를 탐색해줘'의 음성 명령을 입력 받은 경우, 도 4(c)에 도시된 바와 같이 사용자 단말은 abc까지 경로를 탐색하고, 탐색한 경로를 제공할 수 있다.

도 5는 일실시예에 따른 사용자 단말의 블록도를 도시한 도면이다.

도 5를 참조하면, 사용자 단말은 멀티-레벨 음성 인식 모듈, 센싱 모듈, 결과 제공 모듈, 음성 인식 모듈 업데이터(updater)와 어플리케이션 프로세서를 포함한다. 멀티-레벨 음성 인식 모듈, 센싱 모듈, 결과제공 모듈, 음성 인식 모듈 업데이터와 어플리케이션 프로세서는 사용자 단말에 내장된 시스템 온 칩(System On Chip)에 집적될 수 있다.

사용자 단말은 마이크로 폰을 통해 사용자의 음성 명령을 수신할 수 있다. 사용자 단말은 멀티-레벨 음성 인식 모듈을 이용하여 수신한 사용자의 음성 명령을 단계적으로 인식할 수 있다.

일실시예에 따르면, 사용자 단말은 멀티-레벨 음성 인식 모듈을 메모리에 저장하고, 음성 인식 시 이용할 수 있다. 다른 예로, 사용자 단말은 멀티-레벨 음성 인식 모듈을 데이터베이스에 저장한 음성 인식 서버와 연동하여 음성 인식 시 이용할 수 있다. 구체적으로, 사용자 단말은 수신한 사용자의 음성 명령을 음성 인식 서버에 전달할 수 있다. 음성 인식 서버는 데이터베이스에 저장된 카테고리 음성 인식 모델과 어플리케이션 음성 인식 모델을 이용하여 음성 명령의 인식 결과를 사용자 단말에 전달할 수 있다. 사용자 단말은 인식 결과에 대응하는 프로세스를 처리할 수 있다. 음성 인식 서버는 카테고리 음성 인식 모델과 어플리케이션 음성 인식 모델을 지속적으로 업데이트하여 사용자의 음성 명령의 인식도를 높일 수 있다.

일실시예에 따르면, 음성 인식 모듈 업데이터는 단어 인식기 및 어플리케이션 인식기를 포함한다. 단어 인식기는 마이크로폰을 통해 자주 수신되는 단어를 인식할 수 있고, 어플리케이션 인식기는 마이크로폰을 통해 자주 수신되는 어플리케이션과 관련된 단어를 인식할 수 있다. 이에 따라, 음성 인식 모듈 업데이터는 수신되는 음성 명령 내에 포함된 단어를 기초로 사용자의 사용 패턴, 및 사용자의 음성을 분석하고, 분석 결과에 따라 적응적으로 멀티-레벨 음성 인식 모듈을 업데이트할 수 있다.

일 실시예에 따르면, 사용자마다 음성, 발음, 억양은 다르다. 이에 따라, 음성 인식 모듈 업데이터는 사용자의 음성, 발음, 억양을 분석하여 사용자에게 적합하도록 멀티-레벨 음성 인식 모듈을 업데이트할 수 있다. 또한, 음성 인식 모듈레이터는 사용자로부터 자주 수신되는 음성 명령 내에 포함된 단어를 분석하여 사용자에게 적합하도록 멀티-레벨 음성 인식 모듈을 업데이트할 수 있다. 음성 인식 모듈 업데이터는 멀티-레벨 음성 인식 모듈 내에 포함될 수도 있다.

사용자 단말은 어플리케이션 서버로부터 어플리케이션과 관련된 정보를 수신하고, 수신한 어플리케이션과 관련된 정보를 기초로 어플리케이션 프로세서를 업데이트할 수 있다. 예를 들어, 어플리케이션과 관련된 정보는 어플리케이션의 프로세스와 관련된 정보를 포함할 수 있다. 이에 따라, 어플리케이션 프로세서는 어플리케이션과 관련된 정보를 업데이트하여 사용자의 음성 명령에 대응하는 프로세스를 보다 정확하게 처리할 수 있다. 사용자 단말은 디스플레이 또는 음성을 통해 처리 결과를 제공할 수 있다.

도 6은 일실시예에 따른 멀티-레벨 음성 인식 모듈을 업데이트하는 방법을 나타낸 동작 흐름도를 도시한 도면이다.

단계(600)에서, 사용자 단말은 마이크로폰을 통해 수신한 음성 명령을 분석할 수 있다. 사용자 단말은 마이크로폰을 통해 수신하는 음성 명령을 기초로 사용자의 사용 패턴 및 사용자의 특성을 분석할 수 있다. 사용자 단말은 미리 설정된 횟수 이상 수신되는 음성 명령 및 음성 명령에 기초하여 제공된 결과를 기초로 사용자의 사용 패턴 및 음성을 분석할 수 있다. 사용자 단말은 자주 수신하는 음성 명령으로부터 사용자의 음성, 발음, 억양을 분석할 수 있다. 예를 들어, 사용자 단말은 미리 설정된 횟수 이상 수신되는 음성 명령 및 음성 명령에 따라 어플리케이션 프로세서를 통해 처리된 결과를 기초로 사용자의 사용자 단말의 사용 패턴 및 특성을 분석할 수 있다.

이에 따라, 단계(610)에서, 사용자 단말은 분석 결과를 기초로 음성 인식 모델의 업데이트가 필요한지 여부를 판단할 수 있다. 업데이트가 필요하다고 판단되는 경우, 단계(620)에서, 사용자 단말은 어플리케이션과 관련된 음성 인식 모델 및 카테고리와 관련된 음성 인식 모델 중 적어도 하나를 업데이트할 수 있다.

도 7은 사용자의 음성 명령을 단계적으로 인식하는 방법을 수행하는 사용자 단말을 도시한 도면이다.

도 7을 참조하면, 사용자 단말(700)은 음성 인터페이스(710)를 통해 사용자의 음성 명령을 수신할 수 있다. 예를 들어, 사용자 단말(700)은 마이크로폰을 통해 사용자의 음성 명령을 수신할 수 있다.

수신한 음성 명령에 직접적으로 특정 어플리케이션이 포함되어 있는 경우, 프로세서(720)는 특정 어플리케이션을 실행할 수 있다.

다른 예로, 'xx음악을 재생해줘'와 같이 수신한 음성 명령이 일반적인 커뮤니케이션의 형태에 해당하는 경우, 프로세서(720)는 어떠한 어플리케이션을 통해 음악의 재생을 원하는지를 사용자에게 물을 수 있다.

일실시예에 따르면, 프로세서(720)는 음악과 관련된 카테고리에 속한 어플리케이션 후보군을 사용자에게 제공함으로써 사용자는 보다 편리하게 실행하고자 하는 어플리케이션을 선택할 수 있다. 이 때, 프로세서(720)는 음악과 관련된 단어를 기반으로 하는 카테고리 음성 인식 모델을 이용하여 사용자의 음성 명령을 인식할 수 있다. 그러나, 단계별로 음성을 인식하는 방법은 일실시예에 한정되지 않고, 더 많은 단계로 나누어 음성을 인식할 수도 있다.

프로세서(720)는 어플리케이션을 실행한 다음, 어플리케이션 음성 인식 모델을 이용하여 사용자의 다음 음성 명령을 인식할 수 있다. 일실시예에 따르면, 프로세서(720)는 아티스트 정보, 노래 제목 정보, 및 재생 용어 정보 등과 관련된 단어 셋을 기반으로 하는 어플리케이션 음성 인식 모델을 이용하여 사용자가 재생하고자 하는 음악의 제목을 보다 정확하게 인식할 수 있다. 프로세서(720)는 사용자의 음성 명령에 대응하는 프로세서를 처리하여, 디스플레이 또는 음성을 통해 처리 결과를 사용자에게 제공할 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

음성 인터페이스를 통해 사용자의 제1 음성 명령을 수신하는 단계;
상기 음성 인터페이스를 통해 수신한 사용자의 제1 음성 명령으로부터 키워드를 추출하는 단계;
상기 키워드와 관련된 서비스를 제공하는 카테고리에 속한 어플리케이션 후보군을 제공하는 단계; 및
상기 어플리케이션 후보군에서 선택된 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 단계
를 포함하는 멀티-레벨 음성 인식 방법.
제1항에 있어서,
상기 처리하는 단계는,
상기 카테고리와 관련된 단어 셋을 기반으로 하는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 포함하는 카테고리 음성 인식 모델을 이용하여 어플리케이션 후보군에서 사용자가 선택한 어플리케이션을 인식하고,
상기 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 멀티-레벨 음성 인식 방법.
제1항에 있어서,
상기 카테고리는,
상기 사용자의 제1 음성 명령 및 제2 음성 명령으로부터 도출된 사용자의 사용 패턴을 통해 변화되는 멀티-레벨 음성 인식 방법.
제2항에 있어서,
상기 카테고리 음성 인식 모델은,
상기 사용자의 제1 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트 되는 멀티-레벨 음성 인식 방법.
제2항에 있어서,
상기 어플리케이션 음성 인식 모델은,
상기 어플리케이션과 관련된 사용자의 제2 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트되는 멀티-레벨 음성 인식 방법.
음성 인터페이스를 통해 사용자의 음성 명령을 인식하는 단계;
상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는지 여부를 판단하는 단계; 및
상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는 것으로 판단되면, 상기 어플리케이션을 실행하는 단계
를 포함하는 멀티-레벨 음성 인식 방법.
제6항에 있어서,
상기 실행하는 단계는,
상기 실행한 어플리케이션과 관련된 사용자의 음성 명령을 처리하는 단계
를 더 포함하는 멀티-레벨 음성 인식 방법.
제6항에 있어서,
상기 처리하는 단계는,
사용자의 음성 명령에 포함된 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 음성 명령을 처리하는 멀티-레벨 음성 인식 방법.
제8항에 있어서,
상기 어플리케이션 음성 인식 모델은,
상기 어플리케이션과 관련된 사용자의 음성 명령으로부터 도출되는 사용자의 특성 및 사용 패턴에 기초하여 업데이트되는 멀티-레벨 음성 인식 방법.
사용자 단말에 있어서,
음성 인터페이스와 상기 음성 인터페이스에 선택적으로 연결될 수 있는 프로세서를 포함하고,
상기 프로세서는,
상기 음성 인터페이스를 통해 사용자의 제1 음성 명령을 수신하는 단계;
상기 음성 인터페이스를 통해 수신한 사용자의 제1 음성 명령으로부터 키워드를 추출하는 단계;
상기 키워드와 관련된 서비스를 제공하는 카테고리에 속한 어플리케이션 후보군을 제공하는 단계; 및
상기 어플리케이션 후보군에서 선택된 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 단계
를 수행하는 사용자 단말.
제10항에 있어서,
상기 프로세서는,
상기 카테고리와 관련된 단어 셋을 기반으로 하는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 이용하여 어플리케이션 후보군에서 사용자가 선택한 어플리케이션을 인식하고,
상기 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 제2 음성 명령을 처리하는 사용자 단말.
사용자 단말에 있어서,
음성 인터페이스와 상기 음성 인터페이스에 선택적으로 연결될 수 있는 프로세서를 포함하고,
상기 프로세서는,
상기 음성 인터페이스를 통해 입력 받은 사용자의 음성 명령을 인식하는 단계;
상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는지 여부를 판단하는 단계; 및
상기 사용자의 음성 명령에 어플리케이션이 포함되어 있는 것으로 판단되면, 상기 어플리케이션을 실행하는 단계
를 수행하는 사용자 단말.
제12항에 있어서,
상기 프로세서는,
사용자의 음성 명령에 포함된 어플리케이션과 관련된 단어 셋을 기반으로 하는 음향 모델과 언어 모델을 포함하는 어플리케이션 음성 인식 모델을 이용하여 상기 어플리케이션과 관련된 사용자의 음성 명령을 처리하는 사용자 단말.
제1항 내지 제9항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.