KR102585228B1

KR102585228B1 - 음성 인식 시스템 및 방법

Info

Publication number: KR102585228B1
Application number: KR1020160011838A
Authority: KR
Inventors: 김태윤; 김상하; 한창우; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2015-03-13
Filing date: 2016-01-29
Publication date: 2023-10-05
Also published as: KR20160110085A

Abstract

본 개시는 개인화 웨이크업 키워드를 이용하여 보다 효과적으로 음성을 인식할 수 있는 기술을 제공할 수 있다. 이를 위해, 디바이스는 개인화 웨이크업 키워드 모델을 이용하여 수신되는 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고, 웨이크업 키워드 검출 여부 및 수신되는 음성 신호를 음성 인식 서버로 전송하고, 음성 인식 서버는 웨이크업 키워드 검출 여부에 따라 음성 인식 모델을 설정하여 사용자의 음성 신호에 대한 인식 처리를 수행할 수 있다.

Description

음성 인식 시스템 및 방법{SPEECH RECOGNITION SYSTEM AND METHOD THEREOF}

본 개시는 음성 인식 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 웨이크 업(Wake up) 키워드에 기초한 음성 인식 시스템 및 방법에 관한 것이다.

디바이스들이 스마트해지면서, 사용자의 음성 신호를 이용하여 디바이스의 기능을 실행시킬 수 있는 음성 인식 기능이 디바이스에 탑재되고 있다.

디바이스에 탑재된 음성 인식 기능을 사용하기 위하여, 디바이스의 음성 인식 기능을 웨이크업 시켜야 한다. 기존의 음성 인식 기능은 고정 웨이크업 키워드를 이용하여 웨이크업 되고 있다. 이로 인하여 동일한 장소에 동일한 음성 인식 기능을 탑재한 복수의 디바이스가 있을 때, 원하지 않는 디바이스의 음성 인식 기능이 웨이크업 될 수 있다.

또한, 기존의 음성 인식 기능은 웨이크업 키워드와 음성 명령을 나누어 처리하고 있다. 이에 따라 사용자는 웨이크업 키워드를 입력한 후, 디바이스의 음성 인식 기능이 웨이크업 되면, 음성 명령을 입력하여야 한다. 만약 사용자가 웨이크업 키워드와 음성 명령을 연속적으로 입력할 경우에, 기존의 음성 인식 기능은 웨이크업 되지 않거나 웨이크업 된다 하더라고 입력된 음성 명령에 대한 인식 오류가 발생될 수 있다.

따라서, 보다 편리하고, 정확하게 디바이스의 음성 인식 기능을 웨이크업 시키면서 보다 정확하게 음성 명령을 인식할 수 있는 기술이 요구되고 있다.

전술한 배경기술은 발명자가 본 개시의 도출을 위해 보유하고 있었거나, 본 개시의 도출 과정에서 습득한 정보로서, 반드시 본 개시의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 개시의 실시 예들은, 개인화된 웨이크업 키워드와 음성 명령을 연속적으로 인식함으로써, 보다 편리하고 정확한 음성 인식 기능을 제공하기 위한 것이다.

또한, 본 개시의 실시 예들은, 개인화된 웨이크업 키워드를 이용하여 보다 효과적으로 웨이크업 되는 음성 인식 기능을 제공하기 위한 것이다.

또한, 본 개시의 실시 예들은, 디바이스 기반의 환경 정보에 따른 개인화 웨이크업 키워드를 이용하여 보다 효과적으로 웨이크업 되는 음성 인식 기능을 제공하기 위한 것이다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 1 측면은, 디바이스에 있어서, 사용자의 음성 신호를 수신하는 오디오 입력부; 웨이크업 키워드 모델을 저장하는 메모리; 음성 인식 서버와 통신할 수 있는 통신부; 및 상기 오디오 입력부를 통해 상기 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고, 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 통신부를 통해 상기 음성 인식 서버로 전송하고, 상기 통신부를 통해 상기 음성 인식 서버로부터 음성 인식 결과를 수신하고, 및 상기 음성 인식 결과에 따라 상기 디바이스를 제어하는 프로세서를 포함하는 디바이스를 제공할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 2 측면은, 음성 인식 서버에 있어서, 적어도 하나의 디바이스와 통신할 수 있는 통신부; 웨이크업 키워드 모델과 음성 인식 모델을 저장하는 메모리; 및 상기 통신부를 통해 상기 적어도 하나의 디바이스 중 하나의 디바이스로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하고, 상기 웨이크업 키워드가 제거된 인식 결과를 상기 통신부를 통해 상기 디바이스로 전송하는 프로세서를 포함하는 음성 인식 서버를 제공할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 3 측면은, 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 디바이스; 상기 디바이스로부터 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호가 수신됨에 따라 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하고, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 인식 결과를 상기 디바이스로 전송하는 음성 인식 서버를 포함하는 음성 인식 시스템을 제공할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 4 측면은, 사용자의 음성 신호가 수신됨에 따라 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 음성 인식 서버로 전송하는 단계; 상기 음성 인식 서버로부터 상기 사용자의 음성 신호에 대한 인식 결과를 수신하는 단계; 및 상기 인식 결과에 따라 상기 디바이스를 제어하는 단계를 포함하는 디바이스에서의 음성 인식 방법을 제공할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 5 측면은, 디바이스로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호를 수신하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계; 상기 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계; 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 및 상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 디바이스로 전송하는 단계를 포함하는 음성 인식 서버에서의 음성 인식 방법을 제공할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제 6 측면은, 상기 디바이스를 통해 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 상기 웨이크업 키워드를 검출하는 단계; 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 디바이스로부터 상기 음성 인식 서버로 전송하는 단계; 상기 음성 인식 서버에서, 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계; 상기 음성 인식 서버에서, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계; 상기 음성 인식 서버에서, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 음성 인식 서버로부터 상기 디바이스로 전송하는 단계; 및 상기 디바이스에서, 상기 수신된 인식 결과에 따라 디바이스를 제어하는 단계를 포함하는 음성 인식 시스템에서 음성 인식 방법을 제공할 수 있다.

본 개시의 제 7 측면은, 제 5 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

본 개시의 제 8 측면은, 제 6 측면의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공할 수 있다.

도 1은 일부 실시 예에 따른 음성 인식 시스템을 설명하는 도면이다.
도 2는 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스와 음성 인식 서버 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다.
도 3은 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드 모델을 등록하는 프로세스의 동작 흐름도이다.
도 4는 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드를 등록하는 다른 프로세스의 동작 흐름도이다.
도 5a 및 도 5b는 일부 실시 예에 따른 음성 인식 시스템에 포함된 디바이스의 디스플레이상에 후보 웨이크업 키워드 모델이 디스플레이 되는 예이다.
도 6 및 도 7은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스와 음성 인식 서버를 기반으로 수행되는 음성 인식 방법의 동작 흐름도들이다.
도 8은 일부 실시 예에 따른 디바이스에 의한 음성 인식 방법의 동작 흐름도이다.
도 9 및 도 10은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 디바이스의 구성도이다.
도 11은 일부 실시 예에 따른 음성 인식 시스템에 포함되는 음성 인식 서버의 구성도이다.
도 12는 일부 다른 실시 예에 따른 음성 인식 시스템의 구성도이다.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 개시에서 웨이크업 키워드는 음성 인식 기능을 웨이크업 할 수 있는 정보를 말한다. 본 개시에서 웨이크업 키워드는 웨이크업 워드라고 말할 수 있다. 본 개시에서 웨이크업 키워드는 사용자의 음성 신호 기반일 수 있으나 본 개시에서 웨이크업 키워드는 이로 제한되지 않는다. 예를 들어, 본 개시에서 웨이크업 키워드는 사용자의 제스처 기반의 소리(또는 오디오 신호)를 포함할 수 있다.

사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 손가락을 부딪히는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 혀를 차는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자의 웃음 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자가 입술을 떠는 소리를 포함할 수 있다. 사용자의 제스처 기반의 소리는, 예를 들어, 사용자의 휘파람 소리를 포함할 수 있다. 본 개시에서 사용자의 제스처 기반의 소리는 상술한 바로 제한되지 않는다.

본 개시에서 웨이크업 키워드는 상술한 사용자의 제스처 기반의 소리를 포함할 경우에, 웨이크업 신호라고 말할 수 있다.

본 개시에서 웨이크업 키워드 모델은 웨이크업 키워드를 검출하거나 인식하기 위해 디바이스 또는/및 음성 인식 서버에 미리 등록된 웨이크업 키워드를 말한다. 웨이크업 키워드 모델은 개인화 음향 모델(Acoustic model) 및/또는 언어 모델(Language model)을 포함할 수 있으나 본 개시에서 웨이크업 키워드 모델은 이로 제한되지 않는다. 음향 모델은 사용자의 음성(또는 사용자의 제스처 기반이 소리)의 신호적인 특성을 모델링한 것이다. 언어 모델은 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서를 모델링 한 것이다.

본 개시의 디바이스에 등록되는 웨이크업 키워드 모델은 웨이크업 키워드를 검출하기 위해 사용되므로, 웨이크업 키워드 검출용 모델이라고 말할 수 있다. 본 개시의 음성 인식 서버에 등록되는 웨이크업 키워드 모델은 웨이크업 키워드를 인식하기 위해 사용되므로, 웨이크업 키워드 인식용 모델이라고 말할 수 있다.

웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델은 서로 동일할 수 있으나 차이가 있을 수 있다. 예를 들어, 웨이크업 키워드 검출용 모델이 개인화 웨이크업 키워드 Hi에 대응되는 음향 모델을 포함할 때, 웨이크업 키워드 인식용 모델은, 예를 들어, 개인화 웨이크업 키워드 Hi에 대응되는 음향 모델과 웨이크업 키워드임을 나타내는 태그(예를 들어, !)를 포함할 수 있다. 본 개시에서 웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델은 상술한 바로 제한되지 않는다.

이하 설명에서 웨이크업 키워드 검출용 모델과 웨이크업 키워드 인식용 모델을 구분하지 않고, 웨이크업 키워드 모델로 언급할 것이다. 그러나, 디바이스에 등록된 웨이크업 키워드 모델은 웨이크업 키워드 검출용 모델로서 이해되고, 음성 인식 서버에 등록된 웨이크업 키워드 모델은 웨이크업 키워드 인식용 모델로서 이해될 수 있다.

웨이크업 키워드 모델은 디바이스 또는 음성 인식 서버에 의해 생성될 수 있다. 디바이스 또는 음성 인식 서버는 생성된 웨이크업 키워드 모델을 서로 공유하기 위하여, 데이터를 송수신할 수 있다.

본 개시에서 음성 인식 기능은 사용자의 음성 신호를 문자열(또는 텍스트)로 변환하는 것을 말한다. 사용자의 음성 신호는 음성 명령을 포함할 수 있다. 음성 명령은 디바이스의 특정 기능을 실행할 수 있다.

본 개시에서 디바이스의 특정 기능은, 예를 들어, 디바이스에 설정된 애플리케이션을 실행하는 것을 포함할 수 있으나 이로 제한되지 않는다.

예를 들어, 디바이스가 스마트 폰인 경우에, 애플리케이션을 실행하는 것은 전화 걸기, 길 찾기, 인터넷 검색하기, 또는 알람 설정하기 등을 포함할 수 있다. 예를 들어, 디바이스가 스마트 티브인 경우에, 애플리케이션을 실행하는 것은 프로그램 검색하기, 또는 채널 검색하기 등을 포함할 수 있다. 디바이스가 스마트 오븐인 경우에, 애플리케이션을 실행하는 것은 요리 방법 검색하기 등을 포함할 수 있다. 디바이스가 스마트 냉장고인 경우에, 애플리케이션을 실행하는 것은 냉장 상태 점검하기, 또는 냉동 상태 점검하기 등을 포함할 수 있다. 디바이스가 스마트 자동차인 경우에, 애플리케이션을 실행하는 것은 자동 시동 걸기, 자율 주행하기, 자동 주차하기 등을 포함할 수 있다. 본 개시에서 애플리케이션을 실행하는 것은 상술한 바로 제한되지 않는다.

본 개시에서 음성 명령은 워드 형태를 가질 수 있다. 본 개시에서 음성 명령은 문장 형태를 가질 수 있다. 본 개시에서 음성 명령은 구 형태를 가질 수 있다. 본 개시에서 음성 인식 모델은 개인화 음향 모델 또는/및 언어 모델을 포함할 수 있다.

이하 첨부된 도면을 참고하여 본 개시를 상세하게 설명하기로 한다.

도 1은 일부 실시 예에 따른 음성 인식 시스템(10)을 설명하는 도면이다. 음성 인식 시스템(10)은 디바이스(100)와 음성 인식 서버(110)를 포함한다.

디바이스(100)는 사용자(101)로부터 음성 신호를 수신할 수 있다. 디바이스(100)는 웨이크업 키워드 모델을 사용하여 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 디바이스(100)는 웨이크업 키워드 모델을 생성하여 디바이스(100)에 등록할 수 있다. 디바이스(100)는 생성된 웨이크업 키워드 모델을 음성 인식 서버(110)로 전송할 수 있다. 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 사용할 수 있다.

디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다.

웨이크업 키워드에 대한 검출 여부 신호는 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되었는지 여부를 나타내는 신호이다. 디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호를 2진 데이터로 표현할 수 있다. 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되면, 디바이스(100)는 웨이크업 키워드에 대한 검출 신호를, 예를 들어, ‘0’으로 표현할 수 있다. 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드가 검출되지 않으면, 디바이스(100)는 웨이크업 키워드에 대한 검출 신호를, 예를 들어, ‘1’로 표현할 수 있다.

디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호는 웨이크업 키워드와 음성 명령을 포함할 수 있다. 디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호는 웨이크업 키워드를 포함하지 않을 수 있다.

음성 인식 서버(110)는 디바이스(100)로부터 웨이크업 키워드에 대한 검출 여부 신호와 사용자(101)의 음성 신호를 수신할 수 있다. 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호는 디바이스(100)에 의해 수신되는 사용자(101)의 음성 신호와 동일하다.

음성 인식 서버(110)는 수신되는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정할 수 있다. 웨이크업 키워드에 대한 검출 여부 신호가 사용자(101)의 음성 신호에 웨이크업 키워드가 포함된 것을 나타내면, 음성 인식 서버(110)는 웨이크업 키워드 모델을 결합한 음성 인식 모델을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다.

음성 인식 서버(110)에서 음성 인식 모델에 결합되는 웨이크업 키워드 모델은 디바이스(100)에서 검출된 웨이크업 키워드에 따를 수 있다. 예를 들어, 디바이스(100)에서 검출된 웨이크업 키워드가“하이(Hi)”인 경우에, 음성 인식 서버(110)는 “하이(Hi) + 음성 인식 모델(예를 들어, play the music)”을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델과 음성 인식 모델을 결합할 때, 웨이크업 키워드 모델과 음성 인식 모델 사이에 침묵 구간(silence duration)을 고려할 수 있다.

상술한 바와 같이 음성 인식 서버(110)는 사용자의 음성 신호에 포함되어 있는 웨이크업 키워드 모델과 음성 명령에 대한 인식 처리를 연속적으로 수행함으로써, 사용자의 음성 신호를 안정적으로 확보하여 음성 인식 성능을 향상 시킬 수 있다.

웨이크업 키워드에 대한 검출 여부 신호가 사용자(101)의 음성 신호에 웨이크업 키워드가 포함되지 않은 것을 나타내면, 음성 인식 서버(110)는 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 이용하여 사용자(101)의 음성 신호를 인식하도록 음성 인식 모델을 설정할 수 있다.

이와 같이 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성을 인식하기 위해 사용되는 음성 인식 모델을 동적으로 재구성(또는 스위칭)할 수 있다. 이에 따라 음성 인식 서버(110)에서 수행되는 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 것은 웨이크업 키워드에 대한 검출 여부에 따라 음성 인식 모델의 구성을 결정하는 것이라 말할 수 있다.

음성 인식 서버(110)에서 음성 인식 모델을 설정하는 것은 음성 인식 모델을 로딩하는 것을 포함할 수 있다. 이에 따라 웨이크업 키워드에 대한 검출 여부 신호는 음성 인식 모델 로딩 요청 신호, 음성 인식 모델 설정 요청 신호, 또는 음성 인식 모델 로딩 트리거 신호를 포함하는 것으로 해석될 수 있다. 본 개시에서 웨이크업 키워드에 대한 검출 여부 신호에 대한 표현은 상술한 바들로 제한되지 않는다.

음성 인식 서버(110)는 음성 명령을 인식하기 위한 음성 인식 모델을 생성할 수 있다. 음성 인식 모델은 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 포함할 수 있다. 음향 모델은 음성의 신호적인 특성을 모델링 한 것을 말한다. 언어 모델은 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링 한 것을 말한다.

음성 인식 서버(110)는 수신되는 사용자(101)의 음성 신호로부터 음성 부분만을 검출할 수 있다. 음성 인식 서버(110)는 검출된 음성 부분에서 음성 특징을 추출할 수 있다. 음성 인식 서버(110)는 추출된 음성 특징과 기 등록된 음향 모델의 특징 및 언어 모델을 이용하여 수신되는 사용자(101)의 음성 신호에 대한 음성 인식 처리를 수행할 수 있다. 음성 인식 서버(110)는 추출된 음성 특징과 기 등록된 음향 모델의 특징간을 비교하여 음성 인식 처리를 수행할 수 있다. 음성 인식 서버(110)에 의해 수행되는 수신되는 사용자(101)의 음성 신호에 대한 음성 인식 처리는 상술한 바로 제한되지 않는다.

음성 인식 서버(110)는 음성인식 처리를 수행한 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다.

음성 인식 서버(110)는 웨이크업 키워드 모델을 생성할 수 있다. 음성 인식 서버(110)는 생성한 웨이크업 키워드 모델을 음성 인식 서버(110)에 등록(또는 저장)하면서 디바이스(100)로 전송할 수 있다. 이에 따라 디바이스(100)와 음성 인식 서버(110)는 웨이크업 키워드 모델을 공유할 수 있다.

디바이스(100)는 음성 인식 서버(110)로부터 수신되는 음성인식 결과에 따라 디바이스(100)의 기능을 제어할 수 있다.

디바이스(100) 또는 음성 인식 서버(110)에 의해 생성된 웨이크업 키워드 모델이 복수개인 경우에, 디바이스(100) 또는 음성 인식 서버(110)는 각 웨이크업 키워드 모델에 대한 식별 정보를 할당할 수 있다. 각 웨이크업 키워드 모델에 식별 정보가 할당된 경우에, 디바이스(100)로부터 음성 인식 서버(110)로 전송되는 웨이크업 키워드에 대한 검출 여부 신호는 검출된 웨이크업 키워드에 대한 식별 정보를 포함할 수 있다.

디바이스(100)가 휴대 가능한 디바이스인 경우에, 디바이스(100)는 스마트 폰(Smart Phone), 노트북(Notebook), 스마트 보드(Smart Board), 태블릿(Tablet) PC(Personal Computer), 핸드헬드(handheld) 디바이스, 핸드헬드 컴퓨터, 미디어 플레이어, 전자북 디바이스, 및 PDA(Personal Digital Assistant) 등과 같은 디바이스 중 적어도 하나를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다.

디바이스(100)가 웨어러블 디바이스인 경우에, 디바이스(100)는 스마트 안경, 스마트 시계, 스마트 밴드(예를 들어, 스마트 허리 밴드, 및 스마트 헤어 밴드 등), 각종 스마트 장신구(예를 들어, 스마트 반지, 스마트 팔지, 스마트 발지. 스마트 헤어 핀, 스마트 클립, 및 스마트 목거리 등), 각종 스마트 신체 보호대(예를 들어, 스마트 무릎 보호대, 및 스마트 팔꿈치 보호대). 스마트 신발, 스마트 장갑, 스마트 의류, 스마트 모자, 스마트 의족, 또는 스마트 의수 등과 같은 디바이스 중 적어도 하나를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다.

디바이스(100)는 M2M(Machine to Machine) 또는 IoT(Internet of Things) 네트워크 기반의 디바이스(예를 들어, 스마트 가전 제품, 스마트 센서), 자동차, 및 자동차용 내비게이션 디바이스 등과 같은 디바이스를 포함할 수 있으나 본 개시에서 디바이스(100)는 상술한 바로 제한되지 않는다.

디바이스(100)와 음성 인식 서버(110)는 유선 또는/및 무선 네트워크 기반으로 연결될 수 있다. 디바이스(100)와 음성 인식 서버(110)는 근거리 무선 네트워크 또는/및 원거리 무선 네트워크로 연결될 수 있다.

도 2는 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110) 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 2는 사용자(101)의 음성 신호에 기초하여 음성 인식을 수행하는 경우이다.

도 2를 참조하면, 단계 S201에서, 디바이스(100)는 웨이크업 키워드 모델을 등록한다. 도 3은 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드 모델을 등록하는 프로세스의 동작 흐름도이다.

도 3을 참조하면, 단계 S301에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신한다. 단계 S301에서 수신되는 사용자의 음성 신호는 웨이크업 키워드 모델을 등록하기 위한 것이다. 단계 S301에서, 디바이스(100)는 사용자(101)의 음성 신호를 대신하여 전술한 사용자(101)의 특정 제스처에 기초한 소리(또는 오디오 신호)를 수신할 수 있다.

단계 S302에서, 디바이스(100)는 음성 인식 모델을 이용하여 사용자의 음성 신호를 인식할 수 있다. 음성 인식 모델은 ASR(Automatic Speech Recognition)에 기초한 음향 모델 및/또는 언어 모델을 포함할 수 있으나 본 개시에서 음성 인식 모델은 이로 제한되지 않는다.

단계 S303에서, 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한 것으로 판단되면, 디바이스(100)는 단계 S304에서, 웨이크업 키워드 모델을 생성하고, 등록한다. 디바이스(100)에 웨이크업 키워드 모델을 등록하는 것은 디바이스(100)에 웨이크업 키워드 모델을 저장하는 것을 의미할 수 있다.

단계 S303에서, 디바이스(100)는 사용자(101)의 음성 신호에 대한 음성 매칭률에 기초하여 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한지를 판단할 수 있다.

예를 들어, 디바이스(100)에 의해 사용자(101)의 음성 신호를 복수 회 인식하고, 인식된 결과를 비교하고, 비교 결과에 따라 일관된 결과가 사전에 설정된 횟수 이상 나오면, 수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효한 것으로 판단할 수 있다.

단계 S303에서, 수신된 사용자(101)의 음성 신호가 유효한 것으로 판단되면, 단계 S304에서, 디바이스(100)는 유효한 것으로 판단된 웨이크업 키워드 모델을 디바이스(100)에 등록한다.

단계 S303에서, 디바이스(100)는 사용자(101)의 음성 신호를 복수 회 인식하고, 인식된 결과를 비교한 결과, 일관된 결과가 사전에 설정된 횟수 미만이면, 수신된 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 유효하지 않은 것으로 판단할 수 있다.

단계 S303에서, 수신된 사용자(101)의 음성 신호가 유효하지 않은 것으로 판단되면, 디바이스(100)는 수신된 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 등록하지 않는다.

수신된 사용자(101)의 음성 신호가 웨이크업 키워드 모델로서 유효하지 않은 것으로 판단될 경우에, 디바이스(100)는 알림 메시지를 출력할 수 있다. 알림 메시지는 다양한 형태 및 내용을 가질 수 있다. 예를 들어, 알림 메시지는 ‘현재 입력된 사용자(101)의 음성 신호는 웨이크업 키워드 모델로서 등록되지 않았다’는 메시지를 포함할 수 있다. 알림 메시지는 사용자(101)가 웨이크업 키워드 모델로서 등록 가능한 음성 신호를 입력할 수 있도록 안내하는 메시지를 포함할 수 있다.

도 4는 일부 실시 예에 따른 음성 인식 방법에 있어서 웨이크업 키워드를 등록하는 다른 프로세스의 동작 흐름도이다.

단계 S401에서, 디바이스(100)는 디바이스(100)에 저장된 후보 웨이크업 키워드 모델을 요청한다. 후보 웨이크업 키워드 모델 요청은 사용자(101)의 음성 신호에 기초할 수 있으나 본 개시는 이로 제한되지 않는다. 예를 들어, 디바이스(100)는 디바이스(100)의 특정 버튼 제어(또는 전용 버튼) 또는 터치 기반 입력에 따라 후보 웨이크업 키워드 모델을 요청하는 사용자 입력을 수신할 수 있다.

단계 S402에서, 디바이스(100)는 후보 웨이크업 키워드 모델을 출력한다. 디바이스(100)는 디바이스(100)의 디스플레이를 통해 후보 웨이크업 키워드 모델을 출력할 수 있다.

도 5(a) 및 도 5(b)는 일부 실시 예에 따른 음성 인식 시스템(10)에 포함된 디바이스(100)의 디스플레이상에 후보 웨이크업 키워드 모델을 디스플레이 하는 예들이다.

도 5(a)는 디바이스(100)의 디스플레이에 디스플레이 되고 있는 후보 웨이크업 키워드 모델 리스트의 예이다. 도 5(a)를 참조하면, 후보 웨이크업 키워드 모델이 텍스트 형태로 제공된다.

도 5(a)에 도시된 후보 웨이크업 키워드 모델 리스트에 기초하여 첫번째 후보 웨이크업 키워드 모델에 대한 터치 기반 입력이 수신되면, 디바이스(100)는 선택된 후보 웨이크업 키워드 모델에 대한 음성 파형을 도 5(b)에 도시된 바와 같이 디스플레이 하면서, 후보 웨이크업 키워드 모델에 대응되는 오디오 신호를 출력할 수 있다. 이에 따라 사용자는 웨이크업 키워드 모델을 선택하기 전에 선택할 웨이크업 키워드 모델을 확인할 수 있다.

단계 S402에서, 디바이스(100)는 디바이스(100)의 오디오 출력부(예를 들어, 스피커)를 통해 후보 웨이크업 키워드 모델을 출력할 수 있다.

단계 S403에서, 후보 웨이크업 키워드 모델에 기초하여 하나의 후보 웨이크업 키워드 모델에 대한 선택 신호가 수신되면, 단계 S404에서 디바이스(100)는 선택된 후보 웨이크업 키워드 모델을 등록한다. 단계 S404에서, 디바이스(100)는 선택된 후보 웨이크업 키워드 모델에 대응되는 사용자(101)의 음성 신호 입력을 요청하고, 이에 따라 수신되는 사용자(101)의 음성 신호를 웨이크업 키워드 모델로서 생성하고, 등록할 수 있다.

단계 S201에서, 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 등록할 수 있다. 단계 S201에서, 디바이스(100)는 음성 인식 서버(110)와 통신 채널을 설정하고, 설정된 통신 채널을 통해 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송하면서 웨이크업 키워드 모델 등록을 요청할 수 있다. 이에 따라 디바이스(100)는 음성 인식 서버(110)에서 생성된 웨이크업 키워드 모델을 수신할 수 있다.

한편, 도 2의 단계 S202에서, 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록한다. 단계 S202에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 웨이크업 키워드 모델을 등록할 수 있으나 본 개시에서 음성 인식 서버(110)에 웨이크업 키워드 모델을 등록하는 방식은 상술한 바로 제한되지 않는다.

예를 들어, 음성 인식 서버(110)는 디바이스(100)로 웨이크업 키워드 모델을 요청하여 수신할 수 있다. 이를 위하여, 음성 인식 서버(110)는 디바이스(100)를 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100)를 주기적으로 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100) 접근이 인식되면, 디바이스(100)를 모니터링 할 수 있다. 음성 인식 서버(110)는 디바이스(100)가 음성 인식 서버(110)에 연결된 것이 인식되면, 디바이스(100)로 웨이크업 키워드 모델을 요청할 수 있다.

단계 S202에서, 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록할 때, 웨이크업 키워드를 나타내는 태그를 웨이크업 키워드에 부가할 수 있다. 태그는, 예를 들어, 특수 기호(예를 들어, 느낌표(!))로 표현될 수 있으나, 본 개시에서 태그에 대한 표현은 상술한 바로 제한되지 않는다.

단계 S202에서, 음성 인식 서버(110)에 등록되는 웨이크업 키워드 모델은 디바이스(100)에 등록되는 웨이크업 키워드 모델과 동기화될 수 있다. 디바이스(100)에 등록된 웨이크업 키워드 모델이 업데이트될 때, 음성 인식 서버(110)에 등록된 웨이크업 키워드 모델은 업데이트 될 수 있다.

단계 S202에서, 음성 인식 서버(110)는 디바이스(100)로부터 사용자(101)의 음성 신호를 수신하여 웨이크업 키워드 모델을 생성하고 등록할 수 있다. 음성 인식 서버(110)는 상술한 도 3 또는 도 4에서 설명한 바와 같이 웨이크업 키워드 모델을 생성할 수 있다. 음성 인식 서버(110)는 단계 S201 이전에 디바이스(100)로부터 웨이크업 키워드 모델을 생성하기 위한 사용자(101)의 음성 신호를 수신할 수 있다.

단계 S203에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S204에서, 디바이스(100)는 등록된 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 디바이스(100)는 등록된 웨이크업 키워드 모델과 수신되는 사용자(101)의 음성 신호간의 신호 특성을 비교하여 웨이크업 키워드를 검출할 수 있다.

단계 S205에서, 디바이스(100)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다.

단계 S206에서, 음성 인식 서버(110)는 수신된 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정할 수 있다. 음성 인식 모델 설정은 도 1에서 설명한 바와 같을 수 있다. 즉, 웨이크업 키워드에 대한 검출 여부 신호가 웨이크업 키워드가 검출된 것을 나타낼 경우에, 음성 인식 서버(110)는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. 웨이크업 키워드에 대한 검출 여부 신호가 웨이크업 키워드가 검출되지 않은 것을 나타낼 경우에, 음성 인식 서버(110)는 웨이크업 키워드 모델이 결합되지 않은 음성 인식 모델을 설정할 수 있다.

단계 S207에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 사용자(101)의 음성 신호를 인식할 수 있다. 단계 S208에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델을 등록할 때 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다.

단계 S209에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S210에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스를 제어할 수 있다.

도 6은 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110)를 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 6은 디바이스(100)에 기초한 환경 정보에 따른 웨이크업 키워드 모델을 이용하여 음성 인식을 수행하는 예이다.

단계 S601에서, 디바이스(100)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 환경 정보는 위치 정보를 포함할 수 있다. 위치 정보는 물리적인 위치 정보와 논리적인 위치 정보를 포함할 수 있다. 물리적인 위치 정보는 위도 및 경도로 표현되는 정보를 말한다. 논리적인 위치 정보는 홈, 오피스, 카페와 같이 의미 정보로 표현되는 정보를 말한다. 환경 정보는 날씨 정보를 포함할 수 있다. 환경 정보는 시간 정보를 포함할 수 있다. 환경 정보는 일정 정보를 포함할 수 있다. 환경 정보는 위치, 시간, 날씨, 및/또는 일정 정보를 포함할 수 있다. 본 개시에서 환경 정보는 상술한 바로 제한되지 않고, 사용자(101)에게 직접적 또는 간접적으로 영향을 주는 조건 정보나 상황 정보를 포함할 수 있다.

예를 들어, 디바이스(100)는 디바이스(100)의 위치가 홈인 경우에 웨이크업 키워드 모델과 디바이스(100)의 위치가 오피스인 경우에 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 시간이 오전 6시일 때 웨이크업 키워드 모델과 디바이스(100)에 의해 검출된 시간이 오후 6일 때 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 날씨가 쾌청한 경우에 웨이크업 키워드 모델과 디바이스(100)에 의해 검출된 날씨가 비오는 경우에 웨이크업 키워드 모델을 다르게 등록할 수 있다. 디바이스(100)는 디바이스(100)에 의해 검출된 사용자(101)의 일정에 따라 다른 웨이크업 키워드 모델을 등록할 수 있다.

단계 S601에서, 디바이스(100)는 상술한 단계 S201에서와 같이 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 음성 인식 서버(110)로부터 수신하여 등록할 수 있다.

단계 S602에서, 음성 인식 서버(110)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다.

음성 인식 서버(110)에 등록되는 복수의 웨이크업 키워드 모델은 디바이스(100)에 등록된 복수의 웨이크업 키워드 모델과 실시간으로 동기화될 수 있다. 따라서, 디바이스(100)에 등록된 복수의 웨이크업 키워드 모델이 업데이트될 때마다 음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델은 업데이트될 수 있다.

단계 S602에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 복수의 웨이크업 키워드 모델을 등록할 수 있다. 단계 S602에서, 음성 인식 서버(110)는 디바이스(100)로 복수의 웨이크업 키워드 모델을 요청하여 디바이스(100)로부터 복수의 웨이크업 키워드 모델을 수신할 수 있다.

단계 S602에서, 음성 인식 서버(110)는, 상술한 단계 S202에서와 같이, 디바이스(100)와 음성 인식 서버(110)간에 통신 채널을 설정하고, 설정된 통신 채널을 통해 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호에 기초하여 상술한 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 생성하고 등록할 수 있다. 음성 인식 서버(110)는 이와 같이 등록된 복수의 웨이크업 키워드 모델을 디바이스(100)로 제공할 수 있다.

단계 603에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S604에서, 디바이스(100)는 디바이스(100)에 기초한 환경 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 포함된 센서들 또는 디바이스(100)에 설정된 애플리케이션을 이용하여 디바이스(100)에 기초한 환경 정보를 검출할 수 있다.

예를 들어, 디바이스(100)는 디바이스(100)에 포함된 위치 센서(예를 들어, GPS(Global Positioning System) 센서)를 이용하여 위치 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 타이머 애플리케이션을 이용하여 시간 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 날씨 애플리케이션을 이용하여 날씨 정보를 검출할 수 있다. 디바이스(100)는 디바이스(100)에 설정된 일정 애플리케이션을 이용하여 사용자(101)의 일정을 검출할 수 있다.

단계 S605에서, 디바이스(100)는 등록된 복수의 웨이크업 키워드 모델중에서 검출된 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다.

예를 들어, 홈에서의 웨이크업 키워드 모델이 “하이(Hi)”이고, 오피스에서의 웨이크업 키워드 모델이 “굿(Good)”일 때, 디바이스(100)에 의해 검출된 디바이스(100)의 위치가 오피스이면, 디바이스(100)는 “굿(Good)”을 이용하여 수신된 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다.

단계 S606에서, 디바이스(100)는 검출된 환경 정보, 웨이크업 키워드에 대한 검출 여부 신호, 및 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다.

단계 S607에서, 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호와 수신된 디바이스(100)에 기초한 환경 정보에 따라 웨이크업 키워드 모델을 결정하고, 결정된 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다.

단계 S608에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 음성 신호를 인식할 수 있다. 단계 S609에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델 등록 시 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과에 포함되어 있는 웨이크업 키워드를 제거할 수 있다.

단계 S610에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S611에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스(100)를 제어할 수 있다.

도 7은 일부 실시 예에 따른 음성 인식 시스템(10)에 포함되는 디바이스(100)와 음성 인식 서버(110)를 기반으로 수행되는 음성 인식 방법의 동작 흐름도이다. 도 7은 사용자(101)의 식별 정보, 디바이스(100)에 기초한 환경 정보, 및 웨이크업 키워드 검출 여부 신호에 따라 음성 인식 모델을 설정하여 음성 인식을 수행하는 예이다.

단계 S701에서, 디바이스(100)는 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 환경 정보는 도 6의 단계 S601에서 설명한 바와 같을 수 있으나 이로 제한되지 않는다. 단계 S701에서, 디바이스(100)는 음성 인식 서버(110)로부터 수신되는 복수의 웨이크업 키워드 모델을 등록할 수 있다.

단계 S702에서, 음성 인식 서버(110)는 환경 정보와 사용자(101)의 식별 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록할 수 있다. 예를 들어, 음성 인식 서버(110)는 사용자(101)의 식별 정보 A에 대해 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 등록할 수 있다. 음성 인식 서버(110)는 사용자(101)의 식별 정보 B에 대해 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 등록할 수 있다.

음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델은 사용자 단위로 동기화 처리가 수행될 수 있다. 예를 들어, 사용자 A의 복수의 웨이크업 키워드 모델이 업데이트되면, 음성 인식 서버(110)에 등록된 복수의 웨이크업 키워드 모델 중에서 사용자 A의 복수의 웨이크업 키워드 모델을 업데이트할 수 있다.

단계 S702에서, 음성 인식 서버(110)는 디바이스(100)로부터 수신되는 사용자(101)의 음성 신호에 기초하여 상술한 웨이크업 키워드 모델을 등록할 수 있다. 이와 같은 경우에, 음성 인식 서버(110)는 디바이스(100)로 등록된 웨이크업 키워드 모델을 제공할 수 있다.

단계 703에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S704에서, 디바이스(100)는 디바이스(100)에 기초한 환경 정보를 검출할 수 있다. 단계 S705에서, 디바이스(100)는 수신되는 사용자(101)의 음성 신호에 기초하여 사용자(101)의 식별 정보를 획득할 수 있다. 사용자(101)의 식별 정보는 사용자(101)의 닉 네임, 성별, 이름 등을 포함할 수 있으나 본 개시에서 사용자(101)의 식별 정보는 상술한 바로 제한되지 않는다.

또한, 단계 S705는 사용자(101)의 지문 인식 또는 사용자(101)의 홍체 인식 기술을 이용하여 사용자(101)의 식별 정보를 획득하도록 구성될 수 있다.

단계 S706에서, 디바이스(100)는 등록된 복수의 웨이크업 키워드 모델 중에서 검출된 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 수신된 사용자(101)의 음성신호로부터 웨이크업 키워드를 검출할 수 있다.

단계 S707에서, 디바이스(100)는 검출된 환경 정보, 사용자(101)의 식별 정보, 웨이크업 키워드에 대한 검출 여부 신호, 및 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송할 수 있다.

단계 S708에서, 음성 인식 서버(110)는 웨이크업 키워드에 대한 검출 여부 신호, 수신된 디바이스(100)에 기초한 환경 정보, 및 사용자(101)의 식별 정보에 따라 웨이크업 키워드 모델을 결정하고, 결정된 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다.

단계 S709에서, 음성 인식 서버(110)는 설정된 음성 인식 모델을 이용하여 수신되는 음성 신호를 인식할 수 있다. 단계 S710에서, 음성 인식 서버(110)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 음성 인식 서버(110)는 웨이크업 키워드 모델 등록 시 웨이크업 키워드에 부가한 태그를 이용하여 음성인식 결과에 포함되어 있는 웨이크업 키워드를 제거할 수 있다.

단계 S711에서, 음성 인식 서버(110)는 웨이크업 키워드가 제거된 음성인식 결과를 디바이스(100)로 전송할 수 있다. 단계 S712에서, 디바이스(100)는 수신된 음성인식 결과에 따라 디바이스(100)를 제어할 수 있다.

도 8은 일부 실시 예에 따른 디바이스(100)에 의한 음성 인식 방법의 동작 흐름도이다. 도 8은 음성 인식 서버(110)와 관계없이 디바이스(100)에 의해 음성 인식을 수행하는 경우이다.

단계 S801에서, 디바이스(100)는 웨이크업 키워드 모델을 등록할 수 있다. 등록할 때, 디바이스(100)는 웨이크업 키워드를 식별할 수 있는 태그를 웨이크업 키워드에 부가할 수 있다. 단계 S801에서, 디바이스(100)는 음성 인식 서버(110)로부터 웨이크업 키워드 모델을 수신하여 등록할 수 있다.

단계 S802에서, 디바이스(100)는 사용자(101)의 음성 신호를 수신할 수 있다. 단계 S803에서, 디바이스(100)는 웨이크업 키워드 모델을 이용하여 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다.

단계 S804에서, 웨이크업 키워드가 검출된 것으로 판단되면, 단계 S805로 진행되어, 디바이스(100)는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정할 수 있다. 단계 S806에서, 디바이스(100)는 음성 인식 모델을 이용하여 수신된 사용자(101)의 음성 신호에 대한 음성 인식 처리를 수행할 수 있다.

단계 S807에서, 디바이스(100)는 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 디바이스(100)는 웨이크업 키워드를 식별하는 태그를 이용하여 음성인식 결과로부터 웨이크업 키워드를 제거할 수 있다. 단계 S808에서, 디바이스(100)는 웨이크업 키워드가 제거된 음성인식 결과를 이용하여 디바이스(100)를 제어할 수 있다.

단계 S804에서, 웨이크업 키워드가 검출되지 않은 것으로 판단되면, 단계 S809로 진행되어 디바이스(100)는 웨이크업 키워드 모델이 결합되지 않은 음성 인식 모델을 설정할 수 있다. 단계 S810에서, 디바이스(100)는 음성 인식 모델을 이용하여 사용자(101)의 음성 신호에 대한 인식 처리를 수행할 수 있다. 단계 S811에서, 디바이스(100)는 음성인식 결과를 이용하여 디바이스(100)를 제어할 수 있다.

도 8은 상술한 도 6과 같이 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 등록하여 음성 신호를 인식하도록 변형될 수 있다.

상술한 도 2, 6, 7, 또는 8은 환경 정보에 관계없이 복수의 웨이크업 키워드 모델을 등록하여 음성 신호를 인식하도록 변형될 수 있다. 복수의 웨이크업 키워드 모델은 사용자 별로 설정될 수 있다. 복수의 웨이크업 키워드 모델이 등록될 경우에, 각 웨이크업 키워드 모델은 웨이크업 키워드를 식별할 수 있는 식별 정보를 포함할 수 있다.

도 9 은 일부 실시 예에 따른 디바이스(100)의 기능 블록도이다.

도 9를 참조하면, 디바이스(100)는 오디오 입력부(910), 통신부(920), 프로세서(930), 디스플레이(940), 사용자 입력부(950), 및 메모리(960)를 포함한다.

오디오 입력부(910)는 사용자(101)의 음성 신호를 수신할 수 있다. 오디오 입력부(910)는 상술한 사용자(101)의 특정 제스처에 기초한 소리(오디오 신호)를 수신할 수 있다.

오디오 입력부(910)는 디바이스(100)의 외부로부터 입력되는 오디오 신호를 수신할 수 있다. 오디오 입력부(910)는 수신된 오디오 신호를 전기적인 오디오 신호로 변환하여 프로세서(930)로 전송할 수 있다. 오디오 입력부(910)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)을 제거하기 위한 다양한 잡음 제거 알고리즘에 기초한 동작을 수행하도록 구성될 수 있다. 오디오 입력부(910)는 마이크로 폰으로 구성될 수 있다.

통신부(920)는 음성 인식 서버(110)와 디바이스(100)간에 유선 또는/및 무선으로 연결되도록 구성될 수 있다. 통신부(920)는 도 10에서 후술할 통신부(1040)와 같이 구성될 수 있다.

프로세서(930)는 디바이스(100)의 동작을 제어하는 제어부라고 말할 수 있다. 프로세서(930)는 오디오 입력부(910), 통신부(920), 디스플레이(940), 사용자 입력부(950), 및 메모리(960)를 제어할 수 있다. 오디오 입력부(910)를 통해 사용자(101)의 음성 신호가 수신되면, 프로세서(930)는 실시간으로 웨이크업 키워드 모델을 이용한 음성 인식 처리를 수행할 수 있다.

프로세서(930)는 메모리(960)에 웨이크업 키워드 모델을 등록할 수 있다. 프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 수신된 웨이크업 키워드 모델을 메모리(960)에 등록할 수 있다. 프로세서(930)는 오디오 입력부(910)를 통해 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)로 전송하면서, 사용자(101)의 음성 신호에 기초한 웨이크업 키워드 모델을 요청할 수 있다.

프로세서(930)는 메모리(960)에 등록된 웨이크업 키워드 모델을 통신부(920)를 통해 음성 인식 서버(110)로 전송할 수 있다. 프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 웨이크업 키워드 모델 요청 신호가 수신되면, 등록된 웨이크업 키워드 모델을 음성 인식 서버(110)로 전송할 수 있다. 프로세서(930)는 메모리(960)에 웨이크업 키워드 모델이 등록됨과 동시에 음성 인식 서버(110)로 등록된 웨이크업 키워드 모델을 전송할 수 있다.

프로세서(930)는 오디오 입력부(910)를 통해 사용자(101)의 음성 신호가 수신됨에 따라 메모리(960)에 등록된 웨이크업 키워드 모델을 이용하여 수신되는 사용자(101)의 음성 신호로부터 웨이크업 키워드를 검출할 수 있다. 프로세서(930)는 웨이크업 키워드에 대한 검출 여부 신호와 수신되는 사용자(101)의 음성 신호를 통신부(920)를 통해 음성 인식 서버(110)로 전송할 수 있다.

프로세서(930)는 통신부(920)를 통해 음성 인식 서버(110)로부터 음성 인식 결과를 수신할 수 있다. 프로세서(930)는 수신되는 음성 인식 결과에 따라 디바이스(100)를 제어할 수 있다.

오디오 입력부(910)를 통해 웨이크업 키워드 모델을 등록하기 위한 오디오 신호가 수신되면, 프로세서(930)는 상술한 도 3의 단계 S303에서와 같이, 오디오 신호에 대한 매칭률에 기초하여 오디오 신호가 상기 웨이크업 키워드 모델로서 사용 가능한지를 판단할 수 있다.

프로세서(930)는 사용자 입력부(950)를 통해 수신되는 사용자 입력에 따라 메모리(960)에 저장된 후보 웨이크업 키워드 모델중에서 선택된 후보 웨이크업 키워드 모델을 메모리(960)에 등록할 수 있다.

프로세서(930)는 디바이스(100)의 구성 형태에 따라 메인 프로세서와 서브 프로세서로 나뉠 수 있다. 서브 프로세서는 저전력 프로세서로 설정될 수 있다.

디스플레이(940)는 프로세서(930)에 의해 제어되어 사용자(101)가 요청한 후보 웨이크업 키워드를 디스플레이 할 수 있다. 디스플레이(940)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 또는 전기영동 디스플레이(electrophoretic display, EPD)를 포함할 수 있다. 디스플레이(940)는, 예를 들어, 터치 스크린을 포함할 수 있으나, 본 개시는 디스플레이(940)의 구성을 상술한 바로 제한하지 않는다.

사용자 입력부(950)는 디바이스(100)에 대한 사용자 입력을 수신할 수 있다. 사용자 입력부(950)는 웨이크업 키워드 등록 요청을 나타내는 사용자 입력, 후보 웨이크업 키워드중 하나의 웨이크업 키워드를 선택하는 사용자 입력, 및/또는 선택된 후보 웨이크업 키워드에 대한 등록을 나타내는 사용자 입력을 수신할 수 있다. 본 개시에서 사용자 입력부(950)를 통해 수신되는 사용자 입력은 상술한 바로 제한되지 않는다. 사용자 입력부(950)는 수신된 사용자 입력을 프로세서(930)로 전송한다.

메모리(960)는, 웨이크업 키워드 모델을 저장할 수 있다. 메모리(960)는 프로세서(930)의 처리 및 제어를 위한 프로그램을 저장할 수 있다. 메모리(960)에 저장되는 프로그램은 OS(Operating System) 프로그램 및 각종 애플리케이션 프로그램을 포함할 수 있다. 각종 애플리케이션 프로그램은 본 개시의 실시 예들에 따른 음성 인식 애플리케이션, 카메라 애플리케이션 등을 포함할 수 있다. 메모리(960)는 애플리케이션 프로그램에 의해 관리되는 정보(예를 들어, 사용자(101)의 웨이크업 키워드 사용 히스토리 정보, 사용자(101)의 일정 정보, 또는 사용자(101) 프로파일 정보)를 저장할 수 있다.

메모리(960)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다. 복수개의 모듈들은, 예를 들어, 이동 통신 모듈, Wi-Fi 모듈, 블루투스 모듈, DMB 모듈, 카메라 모듈, 센서 모듈, GPS 모듈, 동영상 재생 모듈, 오디오 재생 모듈, 전원 모듈, 터치 스크린 모듈, UI 모듈, 또는/및 어플리케이션 모듈을 포함할 수 있다.

메모리(960)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 또는 광디스크 타입의 저장매체를 포함할 수 있다.

도 10은 본 발명의 다른 일 실시 예에 따른 디바이스(100)의 블록도이다.

도 10을 참조하면, 디바이스(100)는 센서부(1010), 사용자 인터페이스부(1020), 메모리(1030), 통신부(1040), 영상 처리부(1050), 오디오 출력부(1060), 카메라(1070), 및 프로세서(1090)를 포함한다.

디바이스(100)는 배터리를 포함할 수 있다. 배터리는 내장형으로 디바이스(100)에 포함되거나 착탈이 가능한 형태로 디바이스(100)에 포함될 수 있다. 배터리는 디바이스(100)에 포함된 모든 구성 요소로 전원을 공급할 수 있다. 디바이스(100)는 통신부(1040)를 통해 외부 전원장치(미 도시됨)로부터 전원을 공급 받을 수 있다. 디바이스(100)는 외부 전원 장치와 연결될 수 있는 커넥터를 더 포함할 수 있다.

도 10에 도시된 프로세서(1090), 사용자 인터페이스부(1020)에 포함된 디스플레이(1021) 및 사용자 입력부(1022), 메모리(1030), 오디오 입력부(1070), 및 통신부(1040)는 도 9에 도시된 프로세서(930), 오디오 입력부(910), 통신부(920), 디스플레이(940), 사용자 입력부(950), 메모리(960)와 유사하거나 동일한 구성요소로 언급될 수 있다.

메모리(1030)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류될 수 있다. 예를 들어, 메모리(1030)에 저장되는 프로그램들은 UI 모듈(1031), 알림 모듈(1032), 및 애플리케이션 모듈(1033) 등으로 분류될 수 있으나 본 개시는 이로 한정되지 않는다. 예를 들어, 메모리(1030)에 저장되는 프로그램들은 도 9의 메모리(960)에서 언급된 바와 같이 복수개의 모듈들로 분류될 수 있다.

UI 모듈(1031)은 바람직한 실시 예에서 언급되는 음성 인식을 위한 웨이크업 키워드를 등록하기 위한 GUI 정보, 음성 인식 결과(예를 들어, 텍스트 정보)를 나타내는 GUI 정보, 음성 인식 파형을 나타내는 GUI 정보 등을 프로세서(1090)로 제공할 수 있다. 프로세서(1090)는 UI 모듈(1032)로부터 수신되는 GUI 정보에 기초한 스크린을 디스플레이(10210)에 디스플레이 할 수 있다. UI 모듈(1031)은, 디바이스(100)에 설치된 각 애플리케이션에 대해 특화된 UI, 또는/및 GUI 등을 프로세서(1090)로 제공할 수 있다.

알림 모듈(1032)은 디바이스(100)의 음성 인식에 따른 알림, 웨이크업 키워드 등록에 따른 알림, 잘못된 웨이크업 키워드 입력에 따른 알림, 또는 웨이크업 키워드 인식에 따른 알림 등을 발생할 수 있으나 알림 모듈(1032)에 의해 발생되는 알림은 상술한 바로 제한되지 않는다.

알림 모듈(1032)은 디스플레이(1021)를 통해 비디오 신호 형태로 알림 신호를 출력할 수 있고, 오디오 출력부(1060)를 통해 오디오 신호 형태로 알림 신호를 출력할 수 있으나 이로 한정되지 않는다.

애플리케이션 모듈(1033)은 본 개시의 실시 예들에서 언급되고 있는 음성인식 애플리케이션을 비롯한 다양한 애플리케이션을 포함할 수 있다.

통신부(1040)는 디바이스(100)와 적어도 하나의 외부 디바이스(예를 들어, 음성 인식 서버(110), 스마트 티브이, 스마트 시계, 스마트 거울, 또는/및 IoT 네트워크 기반 디바이스 등)간의 통신을 위한 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1040)는, 근거리 통신기(1041), 이동 통신기(1042), 및 방송 수신기(1043)중 적어도 하나를 포함할 수 있으나 통신부(1040)에 포함되는 구성 요소는 이로 제한되지 않는다.

근거리 통신기(short-range wireless communicator)(1041)는, 블루투스 통신 모듈, BLE(Bluetooth Low Energy) 통신 모듈, 근거리 무선 통신(Near Field Communication unit, RFID) 모듈, WLAN(와이파이) 통신 모듈, 지그비(Zigbee) 통신 모듈, Ant+ 통신 모듈, WFD(Wi-Fi Direct) 통신 모듈, 비콘 통신 모듈, 또는 UWB(ultra wideband) 통신 모듈을 포함할 수 있으나 이로 제한되지 않는다. 예를 들어, 근거리 통신기(7451)는 적외선(IrDA, infrared Data Association) 통신 모듈을 포함할 수 있다.

이동 통신기(1042)는 이동 통신망 상에서 기지국, 외부 디바이스, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

방송 수신기(1043)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신할 수 있다. 방송 채널은 위성 채널, 지상파 채널, 및 라디오 채널 중 적어도 하나를 포함할 수 있으나 이로 제한되지 않는다.

통신부(1040)는 바람직한 일 실시 예에 따라 디바이스(100)에 의해 생성된 적어도 하나의 정보를 적어도 하나의 외부 디바이스로 전송하거나 적어도 하나의 외부 디바이스로부터 전송되는 정보를 수신할 수 있다.

센서부(1010)는 디바이스(100)에 사용자(101)의 접근 여부를 감지하는 근접 센서(1011), 디바이스(100)의 사용자(101)의 건강 정보를 감지하는 바이오 센서(또는 헬스 센서(예를 들어, 심박동 센서, 혈류량 센서, 당뇨 센서, 혈압 센서, 또는/및 스트레스 센서 등)) (1012), 디바이스(100) 주변의 조명을 감지하는 조도 센서(1013)(또는 광 센서, LED 센서), 디바이스(100)의 사용자(101)의 무드(mood)를 감지하는 무드스코프 센서(1014), 활동성(activity)을 감지하는 동작 감지 센서(1015), 디바이스(100)의 위치를 검출하기 위한 위치 센서(Position Sensor, 예를 들어, GPS(Global Positioning System) 수신기)(1016), 디바이스(100)의 방위각을 측정하는 자이로스코프 센서(1017), 지표면을 중심으로 디바이스(100)의 기울기 및 가속도 등을 측정하는 가속도(Accelerometer) 센서(1018), 또는/및 디바이스(100)를 기준으로 동서남북 방위를 감지하는 지자기 센서(1019) 등을 포함할 수 있으나 본 개시에서 센서부(1010)에 포함되는 센서는 상술한 바로 제한되지 않는다.

예를 들어, 센서부(1010)는 온/습도 센서, 중력 센서, 고도(Altitude) 센서, 화학적 센서(예를 들어, 냄새 센서(Odorant sensor)), 기압 센서, 미세 먼지 측정 센서, 자외선 센서, 오존도 센서, 이산화 탄소(CO2) 센서, 또는/및 네트워크 센서(예를 들어 WiFi, Bluetooth, 3G, LTE(Long Term Evolution), 또는/및 NFC(Near Field Communication) 등에 기초한 네트워크 센서) 등을 포함할 수 있으나 이로 제한되지 않는다.

센서부(1010)는 압력 센서(예를 들어, 터치 센서, 압전 센서, 물리적인 버튼 등), 상태 센서(예를 들어, 이어폰 단자, DMB(Digital Multimedia Broadcasting) 안테나, 표준 단자(예를 들어, 충전 진행 여부를 인식할 수 있는 단자, PC(Personal Computer) 연결 여부를 인식할 수 있는 단자, 독(dock) 연결 여부를 인식할 수 있는 단자), 또는/및 타임 센서 등을 포함할 수 있으나 이로 제한되지 않는다.

센서부(1010)에 포함되는 센서들은 도 10에 도시된 것보다 적은 수의 센서들을 포함할 수 있다. 예를 들어, 센서부(1010)는 위치 센서(1016)만을 포함할 수 있다. 센서부(1010)에 위치 센서(1016)만 포함되는 경우에, 센서부(1010)는 GPS 수신기로 표현될 수 있다.

센서부(1010)에 의해 감지된 결과(또는 센싱 값)는 프로세서(1090)로 전송된다. 센서부(1010)로부터 수신되는 센싱 값이 위치를 나타내는 값일 때, 프로세서(1090)는 수신되는 센싱 값에 기초하여 디바이스(100)의 현재 위치가 홈인지 오피스인지를 판단할 수 있다.

프로세서(1090)는 디바이스(100)의 전반적인 동작을 제어하는 제어부로 동작할 수 있다. 예를 들어, 프로세서(1090)는 메모리(1030)에 저장된 프로그램들을 실행함으로써, 센서부(1010), 메모리(1030), 사용자 인터페이스부(1020), 영상 처리부(1050), 오디오 출력부(1060), 오디오 입력부(1070), 카메라(1080), 또는/및 통신부(1040) 등을 전반적으로 제어할 수 있다.

프로세서(1090)는 도 9의 프로세서(930)와 같이 동작할 수 있다. 프로세서(1090)에서 메모리(1030)로부터 데이터를 리드하는 동작에 대해, 프로세서(1090)는 통신부(1040)를 통해 외부 디바이스로부터 데이터를 수신하는 동작을 수행할 수 있다. 프로세서(1090)에서 메모리(1030)에 데이터를 쓰는 동작에 대해, 프로세서(1090)는 통신부(1040)를 통해 외부 디바이스로 전송하는 동작을 수행할 수 있다.

프로세서(1090)는 상술한 도 2, 3, 4, 6, 7, 또는 8에서 언급되고 있는 적어도 하나의 동작을 수행할 수 있다. 프로세서(1090)는 상술한 동작을 제어하는 제어기라고 말할 수 있다.

영상 처리부(1050)는 통신부(1040)로부터 수신되거나 메모리(1030)에 저장된 영상 데이터를 디스플레이(1021)에 표시할 수 있도록 처리할 수 있다.

오디오 출력부(1060)는 통신부(1040)로부터 수신되거나 메모리(1030)에 저장된 오디오 데이터를 출력할 수 있다. 오디오 출력부(1060)는 디바이스(100)에 의해 수행되는 기능과 관련된 음향 신호(예를 들어, 알림 음)를 출력할 수 있다.

오디오 출력부(1060)에는 스피커(speaker), 또는 버저(Buzzer) 등이 포함될 수 있으나 이로 제한되지 않는다.

도 11은 일부 실시 예에 따른 음성 인식 서버(110)의 기능 블록도이다.

도 11을 참조하면, 음성 인식 서버(110)는 통신부(1110), 프로세서(1120), 및 메모리(1130)를 포함하나 음성 인식 서버(110)의 구성은 도 11에 도시된 바로 제한되지 않는다. 즉, 음성 인식 서버(110)에 포함되는 구성 요소는 도 11에 도시된 구성 요소보다 더 많거나 더 적을 수 있다.

통신부(1110)는 도 10에 도시된 통신부(1040)와 같이 구성될 수 있다. 통신부(1110)는 디바이스(100)와 음성 인식 관련 신호를 송수신할 수 있다.

프로세서(1120)는 상술한 도 2, 도 6, 또는 도 7에서 언급된 음성 인식 서버(110)의 동작을 수행할 수 있다.

메모리(1130)는 웨이크업 키워드 모델(1131), 및 음성 인식 모델(1132)을 저장하고, 프로세서(1120)에 의해 제어되어 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)을 프로세서(1120)로 제공할 수 있다. 음성 인식 모델(1132)은 음성 명령을 인식하기 위한 모델이라 말할 수 있다.

메모리(1130)에 저장되는 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)은 통신부(1110)를 통해 수신되는 정보에 따라 업데이트 될 수 있다. 메모리(1130)에 저장되는 웨이크업 키워드 모델(1131) 및 음성 인식 모델(1132)은 운영자의 정보 입력에 의해 업데이트될 수 있다. 이를 위하여 음성 인식 서버(110)는 운영자가 정보를 입력할 수 있는 구성 요소를 더 포함할 수 있다.

도 12는 일부 다른 실시 예에 따른 음성 인식 시스템(1200)의 구성도이다. 도 12는 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로부터 수신되는 사용자(101)의 음성 신호를 음성 인식 서버(110)에서 인식하는 경우이다.

복수의 디바이스는 웨어러블 글래스(1210), 스마트 워치(1220), IoT 디바이스(1230), IoT 센서(1240), 및/또는 스마트 TV(1250)를 포함할 수 있다.

상술한 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)는 사용자가 동일할 수 있으나 사용자가 서로 다를 수 있다. 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)의 사용자가 동일한 경우에, 음성 인식 서버(110)는 디바이스 별로 웨이크업 키워드 모델을 등록하여 음성 인식 기능을 수행할 수 있다. 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)의 사용자가 서로 다른 경우에, 음성 인식 서버(110)는 디바이스의 식별 정보와 디바이스 별 사용자의 식별 정보를 이용하여 웨이크업 키워드 모델을 등록하여 음성 인식 기능을 수행할 수 있다. 이에 따라 본 개시의 음성 인식 시스템(1200)은 보다 다양하고, 정확한 음성 인식 서비스를 제공할 수 있다. 음성 인식 서버(110)는 등록된 웨이크업 키워드 모델을 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로 제공할 수 있다.

또한, 음성 인식 서버(110)는 웨이크업 키워드와 음성 명령을 연속적으로 인식 처리함에 따라 웨이크업 키워드 이외의 음성 신호를 이용하여 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250) 주변의 잡음 레벨을 추정하거나 환경 정보를 인식할 수 있다. 음성 인식 서버(110)는 상술한 추정된 잡음 레벨이나 인식된 환경 정보를 음성 인식 결과와 함께 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)로 제공함으로써, 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)를 제어하는데 사용하거나 추정 또는 인식된 정보를 사용자에게 제공할 수 있다.

네트워크(1260)는 유선 또는/및 무선 네트워크로 구성될 수 있다. 네트워크(1260)는 도 10에 도시된 통신부(1040)에서 언급된 통신 중 적어도 하나의 통신에 기초하여 복수의 디바이스(100, 1210, 1220, 1230, 1240, 1250)와 서버(110)간에 데이터를 송수신할 수 있다.

상술한 도 2, 도 3, 도 4, 도 6, 도 7, 또는 도 8에 도시된 방법은 컴퓨터 프로그램에 의해 구현될 수 있다. 예를 들어, 상술한 도 2에서 디바이스(100)의 동작은 디바이스(100)에 인스톨된 음성 인식 애플리케이션에 의해 수행될 수 있다. 도 2에 도시된 음성 인식 서버(110)의 동작은 음성 인식 서버(110)에 인스톨된 음성 인식 애플리케이션에 의해 수행될 수 있다. 상술한 컴퓨터 프로그램은 디바이스(100)에 설치된 운영 시스템(Operation System) 환경에서 동작될 수 있다. 상술한 컴퓨터 프로그램은 음성 인식 서버(110)에 설치된 운영 시스템 환경에서 동작될 수 있다. 디바이스(100)는 상술한 컴퓨터 프로그램을 저장 매체에 라이트 하고, 저장 매체로부터 리드하여 사용할 수 있다. 음성 인식 서버(110)는 상술한 컴퓨터 프로그램을 저장 매체에 라이트 하고, 저장 매체로부터 리드하여 사용할 수 있다.

본 개시의 일 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

디바이스에 있어서,
사용자의 음성 신호를 수신하는 오디오 입력부;
웨이크업 키워드 모델을 저장하는 메모리;
음성 인식 서버와 통신할 수 있는 통신부; 및
상기 사용자의 음성 신호에 대한 음성 매칭률에 기초하여 상기 오디오 입력부를 통해 수신되는 상기 사용자의 음성 신호가 웨이크업 키워드 모델로서 유효한지를 판단하여 상기 웨이크업 키워드 모델을 생성하여 상기 메모리에 저장하고,
상기 오디오 입력부를 통해 상기 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고,
상기 수신되는 음성 신호로부터 상기 웨이크업 키워드가 검출되었는지 여부를 나타내는 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 통신부를 통해 상기 음성 인식 서버로 전송하고,
상기 통신부를 통해 상기 음성 인식 서버로부터 음성 인식 결과를 수신하고, 및
상기 음성 인식 결과에 따라 상기 디바이스를 제어하는 프로세서를 포함하는, 디바이스.
제 1 항에 있어서, 상기 디바이스는
상기 디바이스에 기초한 환경 정보를 감지하는 환경 정보 감지부를 더 포함하고,
상기 웨이크업 키워드 모델은 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 포함하고,
상기 프로세서는,
상기 복수의 웨이크업 키워드 모델 중에서 상기 환경 정보 감지부를 통해 감지된 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 디바이스.
제 2 항에 있어서, 상기 환경 정보는 상기 디바이스의 위치 정보를 포함하는 디바이스.
제 2 항에 있어서, 상기 프로세서는,
상기 오디오 입력부를 통해 수신되는 상기 사용자의 음성 신호에 기초하여 상기 사용자의 식별 정보를 획득하고,
상기 획득된 사용자의 식별 정보를 상기 통신부를 통해 상기 음성 인식 서버로 전송하는 디바이스.
삭제
제 1 항에 있어서, 상기 디바이스는
사용자 입력을 수신하는 사용자 입력부를 더 포함하고,
상기 프로세서는,
상기 사용자 입력부를 통해 수신되는 사용자 입력에 따라 상기 메모리에 저장된 후보 웨이크업 키워드 모델 중에서 선택된 후보 웨이크업 키워드 모델을 상기 메모리에 저장하는 디바이스.
제 1 항에 있어서, 상기 프로세서는,
상기 통신부를 통해 상기 음성 인식 서버로부터 상기 웨이크업 키워드 모델을 수신하고,
상기 수신된 웨이크업 키워드 모델을 상기 메모리에 저장하는 디바이스.
삭제
음성 인식 서버에 있어서,
적어도 하나의 디바이스와 통신할 수 있는 통신부;
웨이크업 키워드 모델과 음성 인식 모델을 저장하는 메모리; 및
상기 통신부를 통해 상기 적어도 하나의 디바이스 중 하나의 디바이스로부터 웨이크업 키워드가 검출되었는지 여부를 나타내는 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호가 수신됨에 따라 음성 인식 모델을 설정하고,
상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고,
상기 사용자의 음성 신호에 대한 음성 인식 결과로부터 상기 웨이크업 키워드를 제거하고,
상기 웨이크업 키워드가 제거된 음성 인식 결과를 상기 통신부를 통해 상기 디바이스로 전송하는 프로세서를 포함하고,
상기 프로세서는,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있지 않은 것을 나타내는 경우, 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 설정하고,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있는 것을 나타내는 경우, 웨이크업 키워드 모델을 결합한 음성 인식 모델을 설정하는 음성 인식 서버.
제 9 항에 있어서, 상기 웨이크업 키워드 모델은 환경 정보에 기초한 복수의 웨이크업 키워드 모델을 포함하고,
상기 프로세서는,
상기 통신부를 통해 상기 디바이스에 기초한 환경 정보가 수신됨에 따라 상기 복수의 웨이크업 키워드 모델 중에서 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는, 음성 인식 서버.
제 9 항에 있어서, 상기 프로세서는,
상기 통신부를 통해 상기 사용자의 식별 정보가 수신됨에 따라, 상기 사용자의 식별 정보 및 상기 디바이스에 기초한 환경 정보에 관련되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는, 음성 인식 서버.
디바이스와 음성 인식 서버를 포함하는 음성 인식 시스템에 있어서,
상기 디바이스는,
상기 웨이크업 키워드 모델을 이용하여 수신되는 사용자의 음성 신호로부터 웨이크업 키워드를 검출하고, 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 음성 인식 서버로 전송하고,
상기 음성 인식 서버는,
상기 디바이스로부터 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하고,
상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하고, 음성 인식 결과를 상기 디바이스로 전송하고,
상기 음성 인식 서버는,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있지 않은 것을 나타내는 경우, 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 설정하고,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있는 것을 나타내는 경우, 웨이크업 키워드 모델을 결합한 음성 인식 모델을 설정하는 음성 인식 시스템.
디바이스의 프로세서에 의해, 사용자의 음성 신호에 대한 음성 매칭률에 기초하여 상기 디바이스의 오디오 입력부를 통해 수신되는 상기 사용자의 음성 신호가 웨이크업 키워드 모델로서 유효한지를 판단하여 상기 웨이크업 키워드 모델을 생성하여 상기 디바이스에 저장하는 단계;
상기 프로세서에 의해, 상기 오디오 입력부를 통해 상기 사용자의 음성 신호가 수신됨에 따라 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 단계;
상기 수신되는 사용자의 음성 신호로부터 상기 웨이크업 키워드가 검출되었는지 여부를 나타내는 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 디바이스의 통신부를 통해 음성 인식 서버로 전송하는 단계;
상기 통신부를 통해 상기 음성 인식 서버로부터 상기 사용자의 음성 신호에 대한 인식 결과를 수신하는 단계; 및
상기 수신된 인식 결과에 따라 상기 디바이스를 제어하는 단계를 포함하는, 디바이스에서의 음성 인식 방법.
제 13 항에 있어서, 상기 웨이크업 키워드 모델은 환경 정보에 기초하여 복수의 웨이크업 키워드 모델을 포함하고,
상기 방법은,
상기 디바이스에 기초한 환경 정보를 검출하는 단계; 및
상기 검출된 상기 디바이스에 기초한 환경 정보를 상기 음성 인식 서버로 전송하는 단계를 더 포함하고,
상기 웨이크업 키워드를 검출하는 단계는,
상기 복수의 웨이크업 키워드 모델 중에서 상기 검출된 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 웨이크업 키워드를 검출하는 단계를 포함하는, 디바이스에서의 음성 인식 방법.
제 14 항에 있어서, 상기 방법은,
상기 사용자의 음성 신호에 기초하여 상기 사용자의 식별정보를 획득하는 단계; 및
상기 획득된 사용자의 식별 정보를 상기 음성 인식 서버로 전송하는 단계를 더 포함하는, 디바이스에서의 음성 인식 방법.
음성 인식 서버의 프로세서에 의해, 디바이스로부터 웨이크업 키워드가 검출되었는지 여부를 나타내는 웨이크업 키워드에 대한 검출 여부 신호와 사용자의 음성 신호를 수신하는 단계;
상기 프로세서에 의해, 상기 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계;
상기 프로세서에 의해, 상기 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계;
상기 프로세서에 의해, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계; 및
상기 프로세서에 의해, 상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 디바이스로 전송하는 단계를 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
상기 프로세서에 의해, 상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있지 않은 것을 나타내는 경우, 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 설정하고,
상기 프로세서에 의해, 상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있는 것을 나타내는 경우, 웨이크업 키워드 모델을 결합한 음성 인식 모델을 설정하는, 음성 인식 서버에서의 음성 인식 방법.
제 16 항에 있어서, 상기 방법은,
상기 프로세서에 의해, 상기 디바이스로부터 상기 디바이스에 기초한 환경 정보를 수신하는 단계를 더 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
환경 정보에 기초한 복수의 웨이크업 키워드 모델 중에서 상기 디바이스에 기초한 환경 정보에 대응되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는 단계를 포함하는, 음성 인식 서버에서의 음성 인식 방법.
제 16 항에 있어서, 상기 방법은,
상기 프로세서에 의해, 상기 디바이스로부터 상기 사용자의 식별 정보를 수신하는 단계를 더 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
상기 디바이스에 기초한 환경 정보와 상기 사용자의 식별 정보에 관련되는 웨이크업 키워드 모델이 결합된 음성 인식 모델을 설정하는 단계를 포함하는, 음성 인식 서버에서의 음성 인식 방법.
디바이스 및 음성 인식 서버에 웨이크업 키워드 모델을 저장하는 단계;
상기 디바이스를 통해 사용자의 음성 신호가 수신됨에 따라 상기 웨이크업 키워드 모델을 이용하여 상기 사용자의 음성 신호로부터 상기 웨이크업 키워드를 검출하는 단계;
상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 상기 디바이스로부터 상기 음성 인식 서버로 전송하는 단계;
상기 음성 인식 서버에서, 상기 웨이크업 키워드에 대한 검출 여부 신호와 상기 사용자의 음성 신호를 수신하는 단계;
상기 수신된 웨이크업 키워드에 대한 검출 여부 신호에 따라 음성 인식 모델을 설정하는 단계;
상기 음성 인식 서버에서, 상기 설정된 음성 인식 모델을 이용하여 상기 사용자의 음성 신호를 인식하는 단계;
상기 음성 인식 서버에서, 상기 사용자의 음성 신호에 대한 인식 결과로부터 상기 웨이크업 키워드를 제거하는 단계;
상기 웨이크업 키워드가 제거된 상기 사용자의 음성 신호에 대한 인식 결과를 상기 음성 인식 서버로부터 상기 디바이스로 전송하는 단계; 및
상기 디바이스에서, 상기 수신된 음성 인식 결과에 따라 상기 디바이스를 제어하는 단계를 포함하고,
상기 음성 인식 모델을 설정하는 단계는,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있지 않은 것을 나타내는 경우, 웨이크업 키워드 모델을 결합하지 않은 음성 인식 모델을 설정하고,
상기 웨이크업 키워드에 대한 검출 여부 신호가 상기 사용자의 음성 신호에 상기 웨이크업 키워드가 포함되어 있는 것을 나타내는 경우, 웨이크업 키워드 모델을 결합한 음성 인식 모델을 설정하는, 음성 인식 시스템에서 음성 인식 방법.
제 13 항 내지 제 15 항중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
제 16 항 내지 제 18 항중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.