KR102040406B1 - 스마트 디바이스 및 그 제어 방법 - Google Patents

스마트 디바이스 및 그 제어 방법 Download PDF

Info

Publication number
KR102040406B1
KR102040406B1 KR1020180087685A KR20180087685A KR102040406B1 KR 102040406 B1 KR102040406 B1 KR 102040406B1 KR 1020180087685 A KR1020180087685 A KR 1020180087685A KR 20180087685 A KR20180087685 A KR 20180087685A KR 102040406 B1 KR102040406 B1 KR 102040406B1
Authority
KR
South Korea
Prior art keywords
voice
smart device
listening
user
listening window
Prior art date
Application number
KR1020180087685A
Other languages
English (en)
Inventor
박성흠
김영훈
강승원
Original Assignee
(주)휴맥스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)휴맥스 filed Critical (주)휴맥스
Priority to KR1020180087685A priority Critical patent/KR102040406B1/ko
Priority to PCT/KR2018/014226 priority patent/WO2020022572A1/ko
Application granted granted Critical
Publication of KR102040406B1 publication Critical patent/KR102040406B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Abstract

본 발명은 스마트 디바이스 및 그 제어 방법에 관한 것으로, 발명의 일 양상에 따른 스마트 디바이스의 제어 방법은, 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서, 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -; 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고, 상기 리스닝 윈도우의 폐쇄 시점은 상기 사용자로부터 수신되는 음성의 특성에 기초하여 결정된다.

Description

스마트 디바이스 및 그 제어 방법{SMART PROJECTOR AND METHOD FOR CONTROLLING THEREOF}
본 발명은 스마트 디바이스 및 그 제어 방법에 관한 것으로, 보다 상세하게는 리스닝 윈도우를 조절하는 스마트 디바이스 및 그 제어 방법에 관한 것이다.
음성 인식 기술의 인식 정확도가 향상됨에 따라 점차 '인공지능 음성비서(보이스 어시스턴트, voice assistant) 기능이 다양한 스마트 디바이스에 탑재되고 있다. 이러한 추세 속에서 보이스 어시스턴트 기능이 탑재된 스마트 스피커는 사물 인터넷(IoT: Internet of Things)의 확산과 맞물려 스마트 홈 분야의 핵심 디바이스로 자리잡아가고 있다.
스마트 스피커 분야는 2014년 아마존이 최초의 스마트 스피커인 에코를 출시한 이후 구글, 애플, 페이스북과 같은 IT 공룡들뿐 아니라 다음카카오나 네이버 등의 국내 기업들도 자사 소프트웨어를 탑재한 스마트 스피커를 앞다퉈 출시하며 치열한 경쟁 양상을 보이고 있다.
스마트 스피커는 기본적으로 음성을 매개로 사용자로부터 명령을 받아 수행하거나 사용자와 대화를 나누므로 사용자가 가정이나 사무실 등의 실내 공간에서 자유로이 활동하면서 이용할 수 있는 장점을 가지지만, 오디오-타입의 정보가 가지는 정보량의 제약, 시각 정보 처리의 곤란성, 정보 출력의 비지속성 등으로 인해 몇몇 상황에서 사용자 편의성이 떨어질 수 있다.
본 발명의 일 과제는 리스닝 윈도우의 길이를 적절히 조절하는 스마트 디바이스 및 그 제어 방법에 관한 것이다.
본 발명이 해결하고자 하는 과제가 상술한 과제들로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 양상에 따르면, 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서, 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -; 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고, 상기 리스닝 윈도우의 폐쇄 시점은 상기 사용자로부터 수신되는 음성의 특성에 기초하여 결정되는 것을 특징으로 하는 스마트 디바이스의 제어 방법이 제공될 수 있다.
본 발명의 다른 양상에 따르면, 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서, 기 수신된 음성 신호에 포함된 제1 보이스 커맨드에 대응되는 피드백을 출력하는 상태에서 웨이크-업 워드 디텍션 모드로 작동하는 단계; 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -; 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고, 상기 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 기초하여 결정되는 것을 특징으로 하는 스마트 디바이스의 제어 방법이 제공될 수 있다.
본 발명의 과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 의하면, 사용자의 말 속도 등을 고려하여 리스닝 윈도우의 클로징 타임을 조절함으로써 사용자의 음성 인식 체감 속도를 향상시킬 수 있다.
본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 스마트 디바이스의 블록도이다.
도 2 내지 도 6은 본 발명의 일 실시예에 따른 스마트 디바이스의 몇몇 구현예에 관한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 스마트 디바이스의 작동 모드의 운용의 예에 관한 도면이다.
도 9는 본 발명의 일 실시예에 따른 스마트 디바이스와 보이스 어시스턴트 서버 간의 통신에 관한 도면이다.
도 10은 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제1 예의 순서도이다.
도 11은 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제2 예의 순서도이다.
도 12는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제3 예의 순서도이다.
도 13은 본 발명의 일 실시예에 따른 리스닝 윈도우 조절에 관한 도면이다.
도 14는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제4 예의 순서도이다.
도 15는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 동작을 나타내는 도면이다.
본 명세서에 기재된 실시예는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 사상을 명확히 설명하기 위한 것이므로, 본 발명이 본 명세서에 기재된 실시예에 의해 한정되는 것은 아니며, 본 발명의 범위는 본 발명의 사상을 벗어나지 아니하는 수정예 또는 변형예를 포함하는 것으로 해석되어야 한다.
본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하여 가능한 현재 널리 사용되고 있는 일반적인 용어를 선택하였으나 이는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 의도, 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 다만, 이와 달리 특정한 용어를 임의의 의미로 정의하여 사용하는 경우에는 그 용어의 의미에 관하여 별도로 기재할 것이다. 따라서 본 명세서에서 사 용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가진 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 한다.
본 명세서에 첨부된 도면은 본 발명을 용이하게 설명하기 위한 것으로 도면에 도시된 형상은 본 발명의 이해를 돕기 위하여 필요에 따라 과장되어 표시된 것일 수 있으므로 본 발명이 도면에 의해 한정되는 것은 아니다.
본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 필요에 따라 생략하기로 한다.
본 발명의 일 양상에 따르면, 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서, 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -; 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고, 상기 리스닝 윈도우의 폐쇄 시점은 상기 사용자로부터 수신되는 음성의 특성에 기초하여 결정되는 것을 특징으로 하는 스마트 디바이스의 제어 방법이 제공될 수 있다.
또 상기 리스닝 윈도우를 폐쇄하는 단계는, 상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 수신하는 음성에 관한 데이터에 기초하여 상기 리스닝 윈도우의 폐쇄 시점을 결정하는 단계, 및 상기 결정에 따라 리스닝 윈도우를 폐쇄하는 단계를 포함할 수 있다.
또 상기 리스닝 윈도우를 폐쇄하는 단계는, 상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신하는 단계 및 상기 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄하는 단계를 포함할 수 있다.
또 상기 리스닝 윈도우의 폐쇄 시점은 상기 사용자로부터 수신되는 음성의 속도에 기초하여 결정되는 것을 특징으로 할 수 있다.
또 상기 리스닝 윈도우의 폐쇄 시점은 상기 음성의 속도가 제1 속도인 경우 상기 제1 속도보다 크기가 큰 제2 속도인 경우보다 늦춰지는 것을 특징으로 할 수 있다.
또 상기 음성의 특성은 음성의 속도, 언어의 종류, 발화자의 연령, 발화자의 성별 중 적어도 어느 하나를 포함하는 것을 특징으로 할 수 있다.
본 발명의 다른 양상에 따르면, 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서, 기 수신된 음성 신호에 포함된 제1 보이스 커맨드에 대응되는 피드백을 출력하는 상태에서 웨이크-업 워드 디텍션 모드로 작동하는 단계; 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -; 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고, 상기 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 기초하여 결정되는 것을 특징으로 하는 스마트 디바이스의 제어 방법이 제공될 수 있다.
또 상기 리스닝 윈도우를 폐쇄하는 단계는, 상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 수신하는 음성에 관한 데이터에 기초하여 상기 리스닝 윈도우의 폐쇄 시점을 결정하는 단계, 및 상기 결정에 따라 리스닝 윈도우를 폐쇄하는 단계를 포함할 수 있다.
또 상기 리스닝 윈도우를 폐쇄하는 단계는, 상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신하는 단계 및 상기 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄하는 단계를 포함할 수 있다.
또 상기 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 제2 보이스 커맨드를 통해 선택 가능한 아이템이 포함되는지 여부에 기초하여 결정되는 것을 특징으로 할 수 있다.
또 상기 리스닝 윈도우의 폐쇄 시점은, 상기 피드백에 선택 가능한 아이템이 포함된 경우 상기 피드백에 선택 가능한 아이템이 포함되지 않은 경우보다 앞당겨지는 것을 특징으로 할 수 있다.
1. 스마트 디바이스
1.1. 개요
이하에서는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)에 관하여 설명한다.
본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 음성을 매체로 사용자와 상호작용할 수 있다. 구체적으로 스마트 디바이스(1000)는 사용자 음성을 수신하고, 사용자 음성에 포함된 보이스 커맨드에 의해 요청받은 피드백을 출력할 수 있다. 여기서, 스마트 디바이스(1000)는 오디오-타입 또는 비디오-타입의 피드백을 출력할 수 있다.
1.2. 용어
여기서는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)에 대하여 더 설명하기에 앞서 본 명세서에서 사용되는 몇몇 용어들에 대해 정의하기로 한다.
1.2.1. 스마트 디바이스
본 명세서에서 스마트 디바이스(1000)는 보이스 어시스턴트 기능을 이용해 사용자와 음성을 매체로 상호작용할 수 있는 모든 종류의 디바이스를 포함할 수 있다. 스마트 디바이스(1000)는 대표적으로 스마트 스피커의 형태로 제공될 수 있으나, 이외에도 스마트 디바이스(1000)는 스마트 폰, 스마트 태블릿, 노트북, 스마트 텔레비전, 스마트 셋탑 박스, 스마트 디스플레이, 스마트 프로젝터 등의 형태로 제공되는 것도 가능하다.
구성 요소적인 측면에서 살펴보면, 스마트 디바이스(1000)는 음성을 매체로 한 사용자와의 상호작용을 위해 사용자 음성을 입력받기 위한 음성 입력 모듈(1200) 및 오디오-타입의 피드백을 출력하기 위한 음성 출력 모듈(1300)을 포함할 수 있다. 또 스마트 디바이스(1000)는 비디오-타입의 피드백을 출력하기 위한 디스플레이 모듈(1400)을 선택적으로 더 포함할 수 있다. 이외에도 스마트 디바이스(1000)는 보이스 어시스턴트 기능을 실현하기 위해 외부 기기(예를 들어, 보이스 어시스턴트 서버 등)와 통신하기 위한 통신 모듈(1020)를 비롯한 몇몇 구성 요소를 더 포함할 수 있으나, 이에 대한 구체적인 설명은 후술하기로 한다.
1.2.2. 보이스 어시스턴트
본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 보이스 어시스턴트 기능을 구현할 수 있다. 여기서, 보이스 어시스턴트 기능은 음성을 매체로 사용자와 스마트 디바이스(1000) 간의 상호작용을 가능케 하는 모든 기능을 포괄하는 개념이다.
본 명세서에서 보이스 어시스턴트 기능이 구현되는 일 예는 다음과 같을 수 있다. 스마트 디바이스(1000)가 수신한 사용자 음성을 보이스 어시스턴트 서버(10)로 전달한다. 보이스 어시스턴트 서버(10)는 사용자 음성에 포함된 보이스 커맨드를 해석하고 보이스 커맨드에 의해 요청받은 피드백에 관한 피드백 데이터를 획득하고 이를 스마트 디바이스(1000)에 전달한다. 스마트 디바이스(1000)는 보이스 어시스턴트 서버(10)로부터 전달받은 피드백 데이터에 기초하여 피드백을 출력한다. 이로써, 스마트 디바이스(1000)가 보이스 어시스턴트 기능을 구현할 수 있다. 다만, 이상에서는 스마트 디바이스(1000)가 보이스 어시스턴트 서버(10)와 협업하여 보이스 어시스턴트 기능을 구현하는 것으로 설명하였으나, 경우에 따라서는 스마트 디바이스(1000)가 로컬에서 스탠드 얼론으로 보이스 어시스턴트 기능을 실행하는 것도 가능할 수 있다.
1.2.3. 보이스 어시스턴트 서버
보이스 어시스턴트 서버(10)는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)와 협업하여 보이스 어시스턴트 기능을 구현하는 서버를 총칭할 수 있다. 보이스 어시스턴트 서버(10)는 스마트 디바이스(1000)로부터 사용자 음성을 전달받아 사용자 음성에 포함된 보이스 커맨드를 추출하고, 보이스 커맨드를 해석하여 스마트 디바이스(1000)가 보이스 커맨드에 대한 응답으로 출력할 피드백에 관한 피드백 데이터를 생성하고, 이를 스마트 디바이스(1000)에 전달하는 기능을 담당할 수 있다.
본 명세서에서 보이스 어시스턴트 서버(10)는 필요에 따라 물리적으로 및/또는 기능적으로 단일한 서버로 구현되거나 복수의 서버로 구현되는 것이 가능하다. 예를 들어, 보이스 어시스턴트 서버(10)는 스마트 디바이스로부터 전달받은 음성으로부터 보이스 커맨드를 추출하는 음성 인식 서버, 추출된 보이스 커맨드를 해석하는 인공 지능 서버, 피드백으로 제공하기 위한 멀티미디어 콘텐츠를 관리하는 서버 등과 같은 여러 개의 서버의 집합체일 수 있다. 즉, 보이스 어시스턴트 서버(10)는 위에 언급된 기능 및 그 외의 보이스 어시스턴트 기능의 구현에 필요한 기능들을 모두 구현하는 단일 서버 형태는 물론, 각 기능을 분담하는 서버들의 집합체 형태일 수 있는 것이다.
1.2.4. 사용자 음성
본 명세서에서 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 사용자 음성을 획득할 수 있다. 여기서, 사용자 음성이란 스마트 디바이스(1000)를 이용하는 사용자가 발화한 음성을 의미할 수 있다. 예를 들어, 스마트 디바이스(1000)의 음성 입력 모듈(1200)은 후술될 스탠바이 모드나 리스닝 모드에서 음성 입력 모듈(1200)을 통해 음성을 수신하므로, 스마트 디바이스(1000)의 작동 모드가 스탠바이 모드나 리스닝 모드인 때 사용자가 발화하면 스마트 디바이스(1000)는 사용자 음성을 획득할 수 있다.
한편, 본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 사용자 음성을 다른 음성과 구분하여 선택적으로 입력받을 수는 없으므로, 스마트 디바이스(1000)가 수신하는 음성에는 사용자 음성 이외의 음성이 포함되어 있을 수도 있다. 다른 음성의 예로는 스마트 디바이스(1000)에서 출력되는 피드백으로 인한 음성이나 기타 주변에서 발생하는 노이즈로 인한 음성 등이 포함될 수 있는데, 이하에서는 이들 다른 음성을 사용자 음성과 구분하여 기타 음성으로 지칭하기로 한다. 또 특히 기타 음성 중 스마트 디바이스(1000)에서 출력되는 피드백으로 인한 음성은 피드백 음성으로 지칭하기로 한다.
1.2.5. 보이스 커맨드
사용자 음성에는 사용자가 스마트 디바이스(1000)에 특정한 동작의 수행/처리를 요구하는 보이스 커맨드가 포함될 수 있다. 여기서, 사용자 음성은 음향학적 관점에서 정의되는 용어로 해석될 수 있으며, 보이스 커맨드는 정보처리적 관점에서 정의되는 용어로 해석될 수 있다. 따라서, 본 명세서에서는 사용자 음성과 보이스 커맨드를 구분되는 개념으로 이용할 것이다. 그러나, 사용자 음성과 보이스 커맨드 간의 구별이 항상 명확한 것은 아니며 경우에 따라서는 그 구별의 실익이 실질적으로 없을 수 있으므로, 본 명세서에서 후술되는 몇몇 기재들과 특허 청구 범위에서는 당업자가 이해 가능한 범위 내에서 사용자 음성과 보이스 커맨드의 두 용어가 혼용될 수도 있음을 미리 밝혀둔다.
한편, 사용자가 반드시 보이스 커맨드를 통해서만 스마트 디바이스(1000)에 지시를 내려야만 하는 것은 아니다. 예를 들어, 사용자는 버튼 입력이나 터치, 제스처 등의 다양한 형태로 스마트 디바이스(1000)와 상호 작용하는 것도 가능하다.
1.2.6. 웨이크업 워드
본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 수신되는 음성이 사용자가 스마트 디바이스(1000)를 이용하기 위해 발화한 사용자 음성인지 여부를 사전에 알 수 없거나 어렵기 때문에, 사용자로부터 특정한 동작의 수행/처리를 요구하는 사용자 음성을 수신하는 리스닝 모드로 진입하기 위한 예비적인 단계(phase)로 스탠바이 모드를 가질 수 있다.
웨이크업 워드(wake-up word)는 스탠바이 모드에서 리스닝 모드로 진입하기 위한 트리거를 의미할 수 있다. 구체적으로, 스마트 디바이스(1000)는 스탠바이 모드에서 수신되는 사용자 음성으로부터 웨이크업 워드를 검출할 수 있으며, 웨이크업 워드가 검출되면 리스닝 모드로 진입할 수 있다. 따라서, 웨이크업 워드란 스마트 디바이스(1000)가 스탠바이 모드로부터 리스닝 모드로 진입할 것을 지시하는 특수한 보이스 커맨드라고 볼 수 있다. 웨이크업 워드를 리스닝 모드로 진입하기 위한 트리거(trigger)로 이용하면, 사용자가 스마트 디바이스(1000)를 이용하려는 의도 없이 발화하는 사용자 음성에 대해서도 스마트 디바이스(1000)가 반응하는 오작동을 방지할 수 있다.
관점에 따라서는 웨이크업 워드를 보이스 커맨드의 일종으로 해석하는 것도 가능하지만, 본 명세서에서는 설명의 편의를 위해 웨이크업 워드와 보이스 커맨드를 가급적 구분하여 언급할 것이다. 다만, 경우에 따라 본 명세서에서 웨이크업 워드가 보이스 커맨드의 한 종류인 것으로 설명할 수도 있음을 미리 밝혀둔다. 또한, 이하의 기재에서 웨이크업 워드는 때때로 핫 워드라는 용어로 대체될 수 있다.
본 발명의 일 실시예에 따른 스마트 디바이스(1000)에는 단일한 혹은 몇몇의 단어 내지는 어구(phrase)가 웨이크업 워드로 설정될 수 있다. 일반적인 스마트 디바이스(1000)의 이용 환경에서 웨이크업 워드는 사용자가 스마트 디바이스(1000)를 부르는 호칭(call name) 등으로 이용될 수 있다. 예를 들어, 웨이크업 워드는 스마트 디바이스(1000)의 세팅 프로세스에서 결정될 수 있으며, 'computer', 'hey speaker' 등과 같이 정해질 수 있다.
후술하겠지만, 보이스 커맨드는 임의의 단어, 어구 내지는 문장의 형태를 취할 수 있으므로 보이스 어시스턴트 기능을 수행하기 위해 사용자 음성으로부터 보이스 커맨드를 인식하고 해석하는 과정에는 복잡한 연산이 요구된다. 따라서, 스마트 디바이스(1000)가 자체적으로 임의의 보이스 커맨드를 인식하기 어렵기 때문에 대개 사용자 음성으로부터 보이스 커맨드를 처리하는 과정은 보이스 어시스턴트 서버(10)에서 이루어진다. 이에 반해 웨이크업 워드는 단일한 단어 또는 몇몇 단어의 집합에 불과하므로 사용자 음성으로부터 웨이크업 워드를 검출하는 과정은 스마트 디바이스(1000)에서 로컬로 처리될 수 있다.
1.2.7. 피드백
본 명세서에서 피드백이란 스마트 디바이스(1000)가 사용자로부터 요청받은 지시 내지는 요구, 요청에 대하여 스마트 디바이스(1000)가 출력하는 응답을 의미할 수 있다.
본 명세서에서 피드백은 오디오-타입 피드백과 비디오-타입 피드백을 포함할 수 있다. 여기서, 오디오-타입 피드백은 음성 출력 모듈(1300)을 통해 출력되는 청각적 피드백을 의미할 수 있으며 이하에서는 설명의 편의를 위해 오디오-타입의 피드백을 토크 백이라고 지칭하기로 한다. 또 여기서, 비디오-타입 피드백은 디스플레이 모듈(1400)을 통해 출력되는 시각적 피드백을 의미할 수 있으며, 이하에서는 설명의 편의를 위해 비디오-타입의 피드백을 디스플레이 백이라고 지칭하기로 한다.
한편, 토크 백(talk-back)이라는 용어가 '대화(talk)'라는 단어를 포함하고 있지만, 토크 백이 반드시 대화 형태의 피드백만을 의미하는 것은 아니며 음악이나 효과음 등의 청각적 피드백을 모두 아우르는 것으로 해석되어야 한다.
또한, 디스플레이 백(talk-back)이 비디오-타입 피드백을 지칭하는 것이지만, 반드시 동화상 형태여야만 하는 것은 아니며 정지 영상까지 포함할 수 있다. 나아가 디스플레이 백은 시각적 피드백으로 토크 백은 청각적 피드백으로 설명하였으나, 이하에서는 설명의 편의를 위해 디스플레이 백이 시각적 피드백에 청각적 피드백이 더해진 것까지도 포괄하는 것으로 해석될 수 있다. 예를 들어, 본 명세서에서는 스마트 디바이스(1000)가 영화나 게임과 같이 시청각적 경험을 제공하는 멀티미디어 콘텐츠를 재생하는 것에 대해 스마트 디바이스(1000)가 디스플레이 백을 출력하는 것으로 설명할 수도 있다. 예를 들어, 디스플레이 백에는 TV 프로그램, 영화나 뮤직 비디오, 유튜브(youtube) 스트리밍 서비스 등이 포함될 수 있다.
1.3. 스마트 디바이스의 구성 요소
이하에서는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 구성 요소에 관하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 블록도이다.
본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 음성 입력 모듈(1200), 음성 출력 모듈(1300), 통신 모듈(1020), 메모리(1040) 및 콘트롤러(1060)를 포함할 수 있다. 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 사용자 음성을 수신하고, 통신 모듈(1020)을 통해 보이스 어시스턴트 서버(10)에 사용자 음성을 송신하고, 사용자 음성에 포함된 보이스 커맨드에 의해 요청된 피드백 데이터를 수신하고, 음성 출력 모듈(1300)을 통해 토크 백을 출력할 수 있으며, 콘트롤러(1060)는 상술한 과정에 필요한 각 모듈을 제어하거나 각종 정보를 처리할 수 있으며, 메모리(1040)에는 각종 정보가 저장될 수 있다. 또 스마트 디바이스(1000)는 디스플레이 백을 출력하기 위해 디스플레이 모듈(1400)을 선택적으로 더 포함할 수 있다. 또 스마트 디바이스(1000)는 디스플레이 백의 방향을 조절하기 위한 구동 모듈(1500)을 선택적으로 더 포함할 수 있다.
음성 입력 모듈(1200)은 사용자 음성을 비롯한 다양한 음성을 수신할 수 있다. 음성 입력 모듈(1200)은 단일한 또는 복수의 마이크(1202)를 제공될 수 있다. 음성 입력 모듈(1200)이 복수의 마이크(1202)로 제공되는 경우, 음성 입력 모듈(1200)은 복수의 마이크(1202)가 소정의 형태를 이루고 배치되는 마이크 어레이(1204)로 제공될 수 있다.
음성 출력 모듈(1300)은 토크 백을 비롯한 각종 소리를 출력할 수 있다. 음성 출력 모듈(1300)은 단일한 또는 복수의 스피커(1302)로 제공될 수 있다. 음성 출력 모듈(1300)은 필요에 따라 무지향성(omnidireictional)을 갖는 구조로 배치될 수 있다. 또는 음성 출력 모듈(1300)은 필요에 따라 지향성으로 소리를 출력하는 구조로 배치될 수도 있다.
디스플레이 모듈(1400)은 디스플레이 백을 비롯한 각종 영상을 출력할 수 있다. 디스플레이 모듈(1400)은 디스플레이 패널(1420) 또는 프로젝터(1440) 등의 형태로 구현될 수 있다.
또 디스플레이 모듈(1400)의 방향 또는 디스플레이 모듈(1400)에 의해 출력되는 디스플레이 백의 방향은 구동 모듈(1500)에 의해 조절될 수 있다. 일 예로, 스마트 디바이스(1000)는 프로젝터(1440)를 통해 디스플레이 백을 출력하며, 디스플레이 백이 출력되는 디스플레이 영역 내지는 프로젝션 방향은 구동 모듈(1500)에 의해 사용자 주변으로 동적으로 조절될 수 있다. 한편, 구동 모듈(1500)은 현재 디스플레이 백의 방향을 감지하기 위한 방향 감지 센서(1560)를 더 포함할 수도 있다. 예를 들어, 방향 감지 센서(1560)는 프로젝터(1440)가 배치된 방향을 센싱할 수 있다.
통신 모듈(1020)은 외부 기기와 통신을 수행한다. 예를 들어, 스마트 디바이스(1000)는 통신 모듈(1020)을 통해 보이스 어시스턴트 서버(10)와 정보를 송수신할 수 있는데, 보다 구체적으로는 스마트 디바이스(1000)는 통신 모듈(1020)을 통해 보이스 어시스턴트 서버(10)로 사용자 음성을 전송하고, 통신 모듈(1020)을 통해 보이스 어시스턴트 서버(10)로부터 피드백 데이터를 수신할 수 있다.
통신 모듈(1020)은 크게 유선 타입과 무선 타입으로 나뉠 수 있다. 유선 타입과 무선 타입은 각각의 장단점을 가지며, 스마트 디바이스(1000)는 유선 타입의 통신 모듈(1020) 및/또는 무선 타입의 통신 모듈(1020)이 구비될 수도 있다.
유선 타입의 경우에는 유선 LAN(Local Area Network), USB(Universal Serial Bus) 통신 등이 대표적인 예이나 그 외의 다른 방식도 가능하다. 무선 타입의 경우에는 이동 통신 방식, 블루투스(Bluetooth)나 직비(Zigbee)와 같은 WPAN(Wireless Personal Area Network) 계열의 통신 방식, 와이파이(Wi-Fi) 같은 WLAN(Wireless Local Area Network) 계열의 통신 방식 및 그 외의 알려진 다른 통신 방식을 이용하는 것도 가능하다. 물론, 유/무선 통신 방식이 상술한 예로 한정되는 것은 아님을 미리 밝혀둔다.
메모리(1040)는 각종 정보를 저장할 수 있다. 메모리(1040)는 데이터를 임시적으로 또는 반영구적으로 저장할 수 있다. 메모리(1040)의 예로는 하드 디스크(HDD: Hard Disk Drive), SSD(Solid State Drive), 플래쉬 메모리(flash memory), 롬(ROM: Read-Only Memory), 램(RAM: Random Access Memory) 등이 있을 수 있다. 메모리(1040)는 스마트 디바이스(1000)에 내장되는 형태나 피드백 디바이스에 탈부착 가능한 형태로 제공될 수 있다.
메모리(1040)에는 스마트 디바이스(1000)를 구동하기 위한 운용 프로그램(OS: Operating System)이나 스마트 디바이스(1000)에 인스톨되는 각종 어플리케이션, 스마트 디바이스(1000)의 동작에 필요하거나 이용되는 각종 데이터가 저장될 수 있다.
콘트롤러(1060)는 스마트 디바이스(1000)의 전반적인 동작을 제어를 수행할 수 있다. 예를 들어, 스마트 디바이스(1000)가 디스플레이 백을 출력하는 것은 콘트롤러(1060)가 디스플레이 모듈(1400)을 제어함에 따라 수행될 수 있으며, 스마트 디바이스(1000)가 보이스 어시스턴트 서버(10)와 통신하는 것은 콘트롤러(1060)가 통신 모듈(1020)을 제어함에 따라 수행될 수 있다.
콘트롤러(1060)의 제어 동작은 콘트롤러(1060)가 각종 정보의 연산 및 처리를 수행함에 따라 이루어질 수 있다. 이를 위해 콘트롤러(1060)는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 컴퓨터나 이와 유사한 장치로 구현될 수 있다. 하드웨어적으로 콘트롤러(1060)는 전기적인 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다.
콘트롤러(1060)는 단일한 물리적 구성을 가질 수 있지만, 경우에 따라서는 물리적으로 분리된 형태로 제공될 수도 있다. 다시 말해, 콘트롤러(1060)는 단일한 칩으로 제조되는 것도 가능하지만, 물리적으로 분산 배치되는 복수의 칩 내지는 기판으로 제공될 수도 있으며 이때에는 각 분리된 콘트롤러(1060) 간의 통신 인터페이스가 연결되어 있을 수도 있다.
한편, 이하의 설명에서 스마트 디바이스(1000)가 수행하는 동작들은 별도의 언급이 없는 경우 콘트롤러(1060)에 의해 수행되는 것으로 해석될 수 있음을 밝혀둔다.
1.4. 스마트 디바이스의 구현예
이하에서는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 몇몇 구현예에 관하여 설명한다. 도 2 내지 8은 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 구현예들에 관한 사시도이다.
일 예에 따르면, 스마트 디바이스(1000)는 도 2에 도시된 바와 같이 테이블이나 플로어 등과 같은 수평면에 거치되어 이용되는 스마트 스피커 형태(1000a)로 제공될 수 있다.
본 예에서, 하우징(1100)은 수평면에 놓이는 하면(1101), 하면(1101)과 대응하는 상면(1102) 및 상기 하면(1101)과 상면(1102)을 연결하는 측면(1103)을 포함할 수 있다. 도 2는 하우징(1100)을 원 기둥 형상으로 도시하고 있으나, 하우징(1100)은 이외에도 다각 기둥, 상면(1102)이 경사진 테이퍼면인 원 또는 다각 기둥, 원 또는 다각 뿔 등 다양한 형상일 수 있다.
본 예에서 스마트 디바이스(1000)에는 스마트 디바이스(1000)의 작동 모드를 지시하는 인디케이터(1106)가 구비될 수 있다. 에를 들어, 인디케이터(1106)는 작동 모드에 따라 특정 색상이나 특정 패턴을 표시하는 램프 등일 수 있다. 도 2에는 인디케이터(1106)가 하우징(1100)의 측면(1103)의 테두리를 둘러싸도록 배치되는 것으로 도시했으나, 이로 인해 인디케이터(1106)의 형상이나 위치가 도 2로 제한되는 것은 아니다.
본 예에서 스마트 디바이스(1000)에 복수의 마이크(1202)를 포함하는 마이크 어레이(1204)가 구비될 수 있다. 예를 들어, 복수의 마이크(1202)는 도 2에 도시된 바와 같이 하우징(1100)의 상면(1102)에 방사형으로 배치되거나 하우징(1100)의 측면(1103)을 따라 배치될 수 있을 것이다. 물론, 스마트 디바이스(1000)에 단일한 마이크(1202)가 구비되는 것도 가능하다. 예를 들어, 단일한 마이크(1202)를 음성 입력 모듈(1200)로 이용하는 경우에는 마이크(1202)는 하우징(1100)의 측면(1103) 중 스마트 디바이스(1000)가 주로 사용되는 방향 쪽의 지점 또는 하우징(1100)의 상면(1102)에 배치될 수 있다.
본 예에서 스마트 디바이스(1000)에는 단일한 스피커(1302)가 무지향성으로 음성을 출력하도록 마련될 수 있다. 예를 들어, 스피커(1302)는 하우징(1100)의 내부에 하우징(1100)의 하면(1101)을 향해 음성을 출력하도록 배치되고, 하우징(1100)의 하면(1101)에는 콘 형태의 돌출부를 마련하여 사운드 패스가 하우징(1100)의 외측 전방향으로 출력되도록 할 수 있다. 물론, 스피커(1302)가 복수로 제공되는 것도 가능하며 이때에는 스마트 디바이스(1000)가 지향성 음성 출력을 하거나 멀티 채널(예를 들어, 스테레오 사운드나 5.1 채널 등)로 음성 출력하는 것이 가능할 수 있다.
본 예에 따른 스마트 디바이스(1000)의 구현예에서는 스마트 디바이스(1000)에 디스플레이 모듈(1400)이 탑재되지 않으므로, 스마트 디바이스(1000)가 디스플레이 백을 출력할 수는 없다. 후술될 본 발명의 일 실시예에 따른 스마트 디바이스(1000)와 그 제어 방법 중 일부는 디스플레이 모듈(1400)이 탑재된 스마트 디바이스(1000)에 한하여 적용될 수 있지만, 다른 일부는 디스플레이 모듈(1400)이 없는 스마트 디바이스(1000)에도 적용될 수 있음을 미리 밝혀둔다.
일 예에 따르면, 스마트 디바이스(1000)는 도 3에 도시된 바와 같이 테이블이나 플로어 등과 같은 수평면에 거치되어 이용되며 디스플레이 패널(1420)을 구비하는 형태(1000b)로 제공될 수 있다.
본 예에서, 스마트 디바이스(1000)에 디스플레이 패널(1420)이 구비될 수 있다. 디스플레이 패널(1420)은 주로 하우징(1100)의 일면에 구비될 수 있다. 스마트 디바이스(1000)는 디스플레이 패널(1420)을 통해 각종 영상(예를 들어, 디스플레이 백)을 출력할 수 있다. 한편, 디스플레이 패널(1420)이 터치 패널로 제공됨에 따라 디스플레이 패널(1420)이 터치 입력 인터페이스로 기능할 수도 있다.
또 디스플레이 패널(1420)이 인디케이터(1106)의 역할을 대체할 수 있으므로, 본 예에서 스마트 디바이스(1000)에서 인디케이터(1106)는 선택적으로 구비될 수 있다. 또 본 예의 스마트 디바이스(1000)에서 음성 출력 모듈(1300)과 음성 입력 모듈(1200)은 다양한 배치 형태로 제공될 수 있다.
이상에서는 본 예의 스마트 디바이스(1000)에 대해 거치형인 것으로 설명했으나, 이와 달리 스마트 디바이스(1000)가 벽걸이형으로 제공될 수도 있다. 이때에는 하우징(1100)에 스마트 디바이스(1000)가 벽에 걸릴 수 있도록 하는 마운팅 수단이 마련되어 있을 수 있다. 예를 들어, 마운팅 수단은 접착층이나 브라켓, 리세스 등으로 제공될 수 있다.
일 예에 따르면, 스마트 디바이스(1000)는 도 4에 도시된 바와 같이 프로젝터(1440)를 구비하는 형태(1000c)로 제공될 수 있다. 이에 따라 스마트 디바이스(1000)는 프로젝터(1440)를 통해 각종 영상을 출력할 수 있다. 도 4에 도시된 스마트 디바이스(1000)는 수평면에 거치되어 이용되거나 또는 천장이나 벽면 등에 설치되어 이용될 수 있다. 프로젝션 거리가 짧은 사용 환경을 목적하는 경우에는 스마트 디바이스(1000)의 프로젝터(1440)로는 초단초점(UST: Ultra Short Throw) 프로젝터가 이용될 수 있다.
본 예에서 스마트 디바이스(1000)는 선택적으로 터치 입력 인터페이스, 제스처 입력 인터페이스, 시선 인식 인터페이스 및/또는 공간 인지 인터페이스 구비할 수 있다.
터치 입력 인터페이스는 스마트 디바이스(1000)가 놓인 면이나 스마트 디바이스(1000)가 디스플레이 백을 프로젝션하는 면에 대한 사용자의 터치 입력을 감지할 수 있다. 터치 입력 인터페이스의 예로는 적외선 터치 센서를 들 수 있다. 적외선 터치 센서는 적외선을 조사하는 출광 수단과 적외선을 수신하는 수광 수단을 포함하고, 출광 수단에 의해 출사된 적외선이 사용자의 신체에 반사되어 수광 수단으로 수신되는 것을 이용하여 터치 입력을 획득할 수 있다. 적외선 터치 센서에서는 수광 수단 대신 일반 카메라나 적외선 카메라를 이용할 수도 있다. 적외선 카메라를 이용하는 경우에는 출광 수단이 소정의 패턴을 형성하도록 적외선을 출사하고, 적외선 카메라에서 사용자 신체에 의해 패턴이 변형되는 것을 감지하는 방식으로 터치 입력을 획득할 수 있다.
또 제스처 입력 인터페이스는 각종 이미지에 기초하여 사용자의 신체로 표현되는 제스처(예를 들어, 팔동작이나 손가락 동작, 손가락 형태 등)을 인식할 수 있다. 제스처 입력 인터페이스는 터치 인터페이스와 다르게 물리적 면에 대한 터치만을 입력받지 않고 공간에 대한 제스처를 입력받을 수 있는 장점이 있다.
또 시선 인식 인터페이스는 스마트 디바이스(1000)의 사용자의 시선을 인식할 수 있다. 예를 들어, 시선 인식 인터페이스는 사용자가 바라보는 방향 내지 사용자가 바라보는 지점을 2차원 또는 3차원 정보로써 인식할 수 있다.
또 공간 인지 인터페이스는 스마트 디바이스(1000)가 있는 주변의 공간과 사물을 인지할 수 있다. 예를 들어, 공간 인지 인터페이스는 스마트 디바이스(1000)가 놓인 방의 구조, 주변에 놓인 사물의 위치, 형태 등을 인식할 수 있다.
물론, 스마트 디바이스(1000)의 터치 입력 인터페이스, 제스처 입력 인터페이스, 시선 인식 인터페이스 및/또는 공간 인지 인터페이스가 상술한 예로 한정되는 것은 아니며, 당업자에게 자명한 다양한 변형이 가능함은 물론이다. 또한, 터치 입력 인터페이스, 제스처 입력 인터페이스, 시선 인식 인터페이스 및/또는 공간 인지 인터페이스는 본 예의 스마트 디바이스(1000) 뿐만 아니라 스마트 디바이스(1000) 다른 구현예들에도 적용될 수 있음을 밝혀둔다.
본 예에서, 스마트 디바이스(1000)는 그 거치 방향이 조절됨에 따라 프로젝션 방향이 조절되는 형태(1000d)로 제공될 수 있다. 예를 들어 도 5을 살펴보면, 스마트 디바이스(1000)의 하우징(1100)은 적어도 두 개의 거치면(1104, 1105)을 가질 수 있으며, 두 개의 거치면(1104, 1105) 중 어느 하나를 통해 하우징(1100)이 거치되는지 여부에 따라 프로젝션 방향이 벽면을 향하는지 또는 바닥면을 향하는지의 여부가 결정될 수 있다. 다시 말해, 사용자가 수동으로 스마트 디바이스(1000)의 거치 자세를 조절함으로써 스마트 디바이스(1000)의 프로젝션 방향 또는 프로젝션 영역이 조절될 수 있다.
한편, 수동으로 거치 자세가 조절됨에 따라 프로젝션 방향 내지는 영역이 조절되는 것과 달리 본 예에서, 스마트 디바이스(1000)는 프로젝션 방향을 자동적으로 조절할 수도 있다. 이를 위해 스마트 디바이스(1000)는 프로젝션의 방향이나 프로젝션의 영역을 조절하는 구동 모듈(1500)을 더 포함할 수도 있다. 예를 들어, 스마트 디바이스(1000)에는 프로젝터를 회전시키는 회전 모터(1520)가 구동 모듈(1500)로 구비될 수 있다. 다른 예를 들어, 스마트 디바이스(1000)에는 프로젝션의 광 경로를 조절하는 반사 미러 등이 구동 모듈(1500)로 구비될 수 있다. 또 다른 예로, 구동 모듈(1500)은 회전 모터(1520)와 반사 미러가 조합된 형태로 제공될 수도 있다. 여기서, 반사 미러는 MEMS 미러, 레조넌스 미러 등과 같이 고정 상태 타입(solid-state)로 구현되거나 물리적으로 방향이 조절되는 노딩 미러나 다각(polygonal) 미러 등으로 제공될 수 있다. 도 6을 살펴보면, 스마트 디바이스(1000)는 테이블 상에 거치되어 테이블 위로 디스플레이 백을 출력하는데, 이때 스마트 디바이스(1000)는 구동 모듈(1500)을 이용하여 디스플레이 백의 프로젝션 방향을 사용자 방향으로 이동시킬 수 있다. 또 스마트 디바이스(1000)는 구동 모듈(1500)을 이용하여 프로젝션 방향을 필요에 따라 벽면 또는 테이블면을 적절히 조절할 수 있다. 프로젝션 방향 내지는 프로젝션 영역을 자동으로 조절하는 스마트 디바이스(1000)가 프로젝터(1440)를 구비하는 형태로 한정되는 것은 아니다. 예를 들어, 도 에 도시된 형태의 스마트 디바이스(1000)에 디스플레이 패널(1420)의 방향을 조절하는 구동 모듈(1500)이 탑재해 스마트 디바이스(1000)가 구동 모듈(15000)을 통해 자동적으로 디스플레이 방향을 조절하는 것도 가능하다.
1.5. 스마트 디바이스의 작동 모드
이하에서는 스마트 디바이스(1000)의 작동 모드에 관하여 설명한다.
본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 주로 사용자 음성을 수신하여 사용자 음성에 포함된 보이스 커맨드에 응답하여 피드백을 제공할 수 있다. 여기서, 스마트 디바이스(1000)가 상술한 동작, 즉 사용자 음성을 수신하고 이에 응답하여 피드백을 제공하는 동작을 수행하는 과정과 관련하여 고려되는 몇몇 기술적 사항들 중 일부는 다음과 같을 수 있다.
첫째는 사용자의 발화 의도를 파악하는 것이다. 비록 사용자가 스마트 디바이스(1000)를 이용할 수 있는 환경에 있다 하더라도, 사용자의 발화가 반드시 스마트 디바이스(1000)를 이용하기 위한 것은 아닐 수 있다. 스마트 디바이스(1000)를 이용하려는 의도 없이 발화한 사용자 음성에까지 스마트 디바이스(1000)가 반응하면, 스마트 디바이스(1000)가 오작동할 수 있으며 이에 따라 사용자 편의성이 저하될 수 있다.
둘째는 개인 정보의 보호이다. 스마트 디바이스(1000)는 주로 보이스 커맨드를 해석하기 위하여 수신되는 사용자 음성을 보이스 어시스턴트 서버(10)에 전송하는데, 스마트 디바이스(1000)의 음성 입력 모듈(1200)이 수신되는 모든 사용자 음성이 모두 보이스 어시스턴트 서버(10)에 송신된다면 사용자가 원치않는 개인 정보까지 보이스 어시스턴트 서버(10)의 운영 주체에 전달될 가능성이 있다. 이는 사용자 입장에서 개인 정보 유출로 받아들여질 수 있다.
적어도 위의 두 가지 사항과 관련하여, 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 수신되는 음성이 스마트 디바이스(1000)를 이용하기 위한 의도에서 발화된 것인지 그렇지 않은 것인지 여부를 구별하여 처리할 수 있어야 한다.
그런데, 일반적으로 스마트 디바이스(1000)는 수신되는 자연어 형태의 사용자 음성을 자체적으로 해독할 능력이 없는 경우가 대부분이므로, 음성 입력 모듈(1200)을 통해 입력되는 음성이 사용자가 스마트 디바이스(1000)를 이용하기 위해 발화한 것인지 아닌지 여부를 판단하기 어려울 수 있다.
따라서, 본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 보이스 커맨드의 해석을 위해 수신된 사용자 음성을 보이스 어시스턴트 서버(10)로 전달하는 페이즈(phase)에 앞서 사용자 음성으로부터 스마트 디바이스(1000)를 이용하려는 의도를 반영하는 특정 단어의 검출 여부에 기반하여 후속되는 사용자 음성이 스마트 디바이스(1000)를 이용하려는 의도에서 발화된 것인지 아닌지 여부에 관한 사용자 의도를 판단하는 단계(phase)를 운용함으로써, 스마트 디바이스(1000)를 이용하기 위한 의도로 발화된 사용자 음성과 그렇지 않은 음성을 구별하여 처리할 수 있다.
기본적으로 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 작동 모드에는 스탠바이 모드 및 리스닝 모드가 포함될 수 있다. 여기서, 스탠바이 모드는 스마트 디바이스(1000)를 이용하려는 사용자 의도를 판단하는 모드이고, 리스닝 모드는 사용자가 스마트 디바이스(1000)를 이용하려는 의도를 가진 것을 전제로 보이스 커맨드가 담긴 사용자 음성을 수신하는 모드이다.
이하에서는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 다양한 작동 모드들에 관하여 구체적으로 설명하기로 한다.
1.5.1. 오프 상태
스마트 디바이스(1000)는 기기가 동작하지 않는 오프 상태를 가질 수 있다. 오프 상태에서는 전원이 공급되지 않아 기기가 꺼져있는 상태이거나 최소한의 전원만을 이용하는 휴면(hibernation) 상태일 수 있다.
1.5.2. 스탠바이 모드
스마트 디바이스(1000)는 전원이 인가되면 사용자로부터 특별히 지시를 받지 않은 상태에서 스탠바이 모드로 동작할 수 있다. 예를 들어, 스마트 디바이스(1000)는 전원이 인가되면 스탠바이 모드로 진입할 수 있다.
스탠바이 모드는 사용자로부터 스마트 디바이스(1000)를 이용하겠다는 의도를 전달받는 단계(phase)이다. 예를 들어, 스마트 디바이스(1000)는 스탠바이 모드에서 사용자 음성으로부터 웨이크업 워드를 검출하는 동작을 수행하고, 웨이크업 워드의 검출 여부에 따라 스마트 디바이스(1000)를 이용하려는 사용자의 의도를 판단할 수 있다.
스탠바이 모드에서 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 음성을 수신할 수 있다. 이때, 음성 입력 모듈(1200)은 음성을 비선별적으로 수신할 수 있다. 아직 스마트 디바이스(1000)는 수신되는 음성이 스마트 디바이스(1000)를 향해 발화된 사용자 음성인지 알 수 없기 때문에 보이스 커맨드의 해석을 위해 수신한 음성을 보이스 어시스턴트 서버(10)로 전송하지 않을 수 있다.
스탠바이 모드에서 스마트 디바이스(1000)는 수신되는 음성으로부터 웨이크업 워드를 검출할 수 있다. 웨이크업 워드는 스마트 디바이스(1000)의 제조사에 의해 미리 정해진 특정 단어 또는 어구이거나 스마트 디바이스(1000)의 제조사에 의해 미리 정해진 특정 단어군 또는 어구군 중 사용자에 의해 선택된 것일 수 있다.
상술한 바와 같이 웨이크업 워드는 임의적인 자연어 형태가 아니라 최대 몇몇 개의 미리 정해지는 단어 내지는 짧은 어구에 불과하므로, 입력되는 음성에서 웨이크업 워드를 검출하는 것은 많은 연산을 필요로 하지 않는다. 따라서, 스마트 디바이스(1000)의 콘트롤러(1060)는 보이스 어시스턴트 서버(10)와의 협업없이 직접 로컬에서 수신되는 음성으로부터 웨이크업 워드를 검출할 수 있다.
스탠바이 모드에서 스마트 디바이스(1000)는 수신된 음성으로부터 웨이크업 워드가 검출되는지 여부에 기초하여 스마트 디바이스(1000)를 이용하려는 사용자 의도를 판단할 수 있다. 수신되는 음성으로부터 웨이크업 워드가 검출되는 경우 스마트 디바이스(1000)는 사용자가 스마트 디바이스(1000)를 이용하려는 의도를 가진 것으로 이해할 수 있다.
스마트 디바이스(1000)는 사용자가 스마트 디바이스(1000)를 이용하려는 의도를 가진 것으로 판단하면, 사용자로부터 보이스 커맨드가 담긴 사용자 음성이 수신될 것을 대비해 리스닝 모드로 진입할 수 있다. 반대로 수신되는 음성으로부터 웨이크업 워드가 검출되지 않는 경우에는 스마트 디바이스(1000)는 사용자가 스마트 디바이스(1000)를 이용하려는 의도가 없는 것으로 이해할 수 있으며, 스마트 디바이스(1000)는 리스닝 모드로 진입하는 대신 스탠바이 모드를 유지할 수 있다.
한편, 스탠바이 모드는 웨이크업 워드를 검출/인식하는 모드이므로 경우에 따라서는 웨이크업 워드 검출 상태 또는 모드로 지칭할 수도 있다.
1.5.3. 리스닝 모드
상술한 바와 같이 스마트 디바이스(1000)는 스탠바이 모드에서 웨이크업 워드의 입력이 검출되면 리스닝 모드로 진입할 수 있다. 한편, 스마트 디바이스(1000)에 리스닝 모드로의 진입을 지시하는 버튼이 마련되어 있고 스마트 디바이스(1000)가 해당 버튼에 대한 사용자 입력에 응해 리스닝 모드에 진입하는 것도 가능하다.
리스닝 모드에서 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 사용자 음성을 입력받을 수 있다. 리스닝 모드에서 입력되는 사용자 음성은 스마트 디바이스(1000)에 특정한 동작을 지시하는 보이스 커맨드를 포함할 수 있다.
여기서, 반드시 그러한 것은 아니나 보이스 커맨드는 주로 자연어 형태를 취할 수 있다. 자연어 형태의 보이스 커맨드를 인식하는 것은 높은 연산량으로 인해 로컬에서 처리되기 어려울 수 있으므로, 스마트 디바이스(1000)는 보이스 어시스턴트 서버(10)와 협업하여 사용자 음성으로부터 보이스 커맨드를 해석할 수 있다.
따라서, 리스닝 모드에서 스마트 디바이스(1000)는 사용자 음성에 포함된 보이스 커맨드의 해석을 위해 입력된 사용자 음성을 보이스 어시스턴트 서버(10)로 전송할 수 있다. 스마트 디바이스(1000)는 몇몇 방식으로 사용자 음성을 보이스 어시스턴트 서버(10)에 전송할 수 있다. 일 예로, 스마트 디바이스(1000)는 리스닝 모드에서 수신되는 사용자 음성을 실시간으로 보이스 어시스턴트 서버(10)에 전송할 수 있다. 다른 예로, 스마트 디바이스(1000)는 수신되는 사용자 음성을 취합한 뒤 취합된 사용자 음성을 일괄적으로 보이스 어시스턴트 서버(10)에 전송할 수도 있다. 보이스 어시스턴트 서버(10)는 스마트 디바이스(1000)로부터 전달받은 사용자 음성으로부터 보이스 커맨드를 해석하고, 해석된 보이스 커맨드에 대응하는 피드백 데이터를 생성하여 스마트 디바이스(1000)로 반환할 수 있다.
리스닝 모드에서 스마트 디바이스(1000)가 사용자 음성을 보이스 어시스턴트 서버(10)로 전송하기 전에, 스마트 디바이스(1000)는 사용자 음성에 대한 전처리(pre-processing)을 수행할 수 있다. 전처리의 예로는 노이즈 캔슬링, 음성 데이터 압축 등이 있다. 예를 들어, 음성 출력 모듈(1300)을 통해 토크 백을 출력 중인 스마트 디바이스(1000)가 리스닝 모드에서 사용자 음성을 수신한 경우 스마트 디바이스(1000)에는 토크 백과 보이스 커맨드를 포함한 사용자 음성을 함께 수신할 수 있다. 이때, 스마트 디바이스(1000)는 스스로 출력하는 토크 백에 대한 정보를 이용하여 수신된 음성 중 토크 백 부분을 제거함으로써 수신된 음성에서 사용자 음성 부분을 추출해 낼 수 있다.
또 리스닝 모드에서 스마트 디바이스(1000)는 깨끗한 사용자 음성을 입력받기 위해 조용한 주변 환경을 조성하기 위한 동작을 수행할 수 있다. 일 예로, 스마트 디바이스(1000)는 리스닝 모드에서 진입하면 기 출력 중이던 토크 백의 출력을 중단하거나 토크 백의 오디오 볼륨을 감소시킬 수 있다. 예를 들어, 라디오 뉴스를 재생 중인 스마트 디바이스(1000)는 리스닝 모드에 진입하면 재생 중이던 라이브 뉴스를 일시 정지시킬 수 있다.
스마트 디바이스(1000)는 리스닝 모드를 일정한 시간 간격(time period) 동안 유지할 수 있다. 예를 들어, 스마트 디바이스(1000)는 보이스 커맨드를 담은 사용자 입력을 보이스 어시스턴트 서버(10)에 전송하고 보이스 어시스턴트 서버(10)로부터 피드백 데이터를 수신하면, 리스닝 모드를 종료할 수 있다. 다른 예를 들어, 스마트 디바이스(1000)는 사용자 음성의 입력이 완료된 경우 또는 사용자 음성 입력된 후 미리 정해진 시간 동안 음성이 입력되지 않는 경우에, 리스닝 모드를 종료할 수 있다. 또 다른 예를 들어, 스마트 디바이스(1000)는 리스닝 모드에 진입한 뒤 미리 정해진 시간 동안 사용자 음성의 입력이 없는 경우에 리스닝 모드를 종료할 수 있다. 이하에서는 스마트 디바이스(1000)가 리스닝 모드를 유지하는 시간 간격을 '리스닝 윈도우'로 지칭하기로 한다. 또한 이와 관련하여 스마트 디바이스(1000)가 리스닝 모드로 진입하는 동작을 '리스닝 윈도우를 연다(opening a listening window)'고 지칭하고, 반대로 스마트 디바이스(1000)가 리스닝 모드를 종료하는 동작을 '리스닝 윈도우를 닫는다(closing a listening window)'로 지칭하며, 스마트 디바이스(1000)가 리스닝 모드를 유지하는 상태를 '리스닝 모드가 열린' 상태로 지칭하기로 한다.
한편, 몇몇 경우에 스마트 디바이스(1000)는 리스닝 모드에서도 사용자 음성으로부터 웨이크업 워드를 검출할 수 있다. 리스닝 모드에서 웨이크업 워드가 검출되면 스마트 디바이스(1000)는 리스닝 모드를 다시 시작할 수 있으며, 리스닝 윈도우를 초기화시킬 수 있다.
1.5.4. 응답 모드
리스닝 모드에서 스마트 디바이스(1000)가 입력된 사용자 음성을 보이스 어시스턴트 서버(10)로 전달하면, 보이스 어시스턴트 서버(10)는 사용자 음성으로부터 보이스 커맨드를 추출하고 추출된 보이스 커맨드를 해석하고, 해석된 보이스 커맨드에 기초하여 피드백 데이터를 생성하고, 이를 스마트 디바이스(1000)에 전달할 수 있다.
피드백 데이터를 전달받은 스마트 디바이스(1000)는 피드백 데이터를 이용하여 피드백을 출력할 수 있다. 이처럼 피드백을 전달받아 출력하는 단계(phase)가 응답 모드이다. 응답 모드에서 스마트 디바이스(1000)는 피드백 데이터를 수신해 그에 따라 피드백을 출력하는데, 스마트 디바이스(1000)는 토크 백 및/또는 디스플레이 백을 출력할 수 있다.
한편, 스마트 디바이스(1000)는 피드백 데이터를 수신하여 피드백의 출력을 개시함과 동시에 또는 피드백의 출력을 개시한 뒤 곧이어 스탠바이 모드로 진입할 수 있다. 이 경우에는, 스마트 디바이스(1000)는 스탠바이 모드 또는 리스닝 모드인 상태에서 피드백을 출력할 수 있다. 관점에 따라서는, 스마트 디바이스(1000)가 스탠바이 모드나 리스닝 모드에서 피드백의 출력을 지속한다고 규정하는 대신, 응답 모드와 스탠바이 모드가 동시에 운용되는 것으로 해석할 수도 있다.
일 예로, 사용자로부터 라이브 뉴스의 스트리밍을 요구받은 스마트 디바이스(1000)는 응답 모드에서 보이스 어시스턴트 서버(10)로부터 라이브 뉴스에 대한 피드백 데이터를 수신해 라이브 뉴스의 재생을 개시한 뒤 스탠바이 모드로 진입하여 라이브 뉴스의 스트리밍을 지속할 수 있다. 다른 예로, 스탠바이 모드에서 라이브 뉴스 스트리밍 중 웨이크업 워드가 검출되면, 스마트 디바이스(1000)는 리스닝 모드로 진입하되, 여전히 라이브 뉴스 스트리밍을 유지하는 것도 가능하다.
1.5.5. 작동 상태의 운용
본 발명의 일 실시예에 따른 스마트 디바이스(1000)가 상술한 모드들을 모두 운용해야 하는 것은 아니다. 예를 들어, 스마트 디바이스(1000)의 작동 모드에서 응답 모드가 생략되는 것도 가능하다. 또 본 발명의 일 실시예에 따른 스마트 디바이스(1000)에서 상술한 모두들이 모두 독립적으로 운용되어야만 하는 것은 아니다. 예를 들어, 스마트 디바이스(1000)는 스탠바이 모드, 리스닝 모드 및 응답 모드는 그 전부 또는 일부가 중복된 작동 모드를 가질 수도 있다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 스마트 디바이스(1000)의 작동 모드의 운용의 예시에 관한 도면이고, 도 9는 본 발명의 일 실시예에 따른 스마트 디바이스(1000)와 보이스 어시스턴트 서버(10) 간의 통신에 관한 도면이다.
도 7 및 9를 살펴보면, 스마트 디바이스(1000)는 전원이 인가되면, 오프 상태로부터 스탠바이 모드로 진입할 수 있다. 스탠바이 모드인 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 지속적으로 음성을 수신하며 수신되는 음성으로부터 웨이크업 워드를 검출할 수 있다.
웨이크업 워드가 검출되면 스마트 디바이스(1000)는 리스닝 모드로 진입할 수 있다. 또는 리스닝 모드를 지시하는 터치/버튼/제스처 등의 사용자 입력이 입력되어도 스마트 디바이스(1000)는 리스닝 모드에 진입할 수 있다. 리스닝 모드에서 스마트 디바이스(1000)는 보이스 커맨드가 담긴 사용자 음성을 수신할 수 있다.
스마트 디바이스(1000)는 수신된 사용자 음성을 보이스 어시스턴트 서버(10)로 전송할 수 있다. 스마트 디바이스(1000)는 보이스 어시스턴트 서버(10)로부터 보이스 커맨드에 대한 피드백 데이터를 수신하고, 피드백 데이터에 기초하여 피드백을 출력할 수 있다.
리스닝 모드인 스마트 디바이스(1000)는 리스닝 모드로부터 스탠바이 모드로 복귀할 수 있다. 예를 들어, 리스닝 모드인 스마트 디바이스(1000)는 리스닝 모드 진입 후 사용자 음성이 입력되지 않으면 스탠바이 모드로 복귀할 수 있다. 또 예를 들어, 리스닝 모드인 스마트 디바이스(1000)는 사용자 음성이 입력된 후 추가적인 사용자 음성이 입력되지 않으면 스탠바이 모드로 복귀할 수 있다. 또 예를 들어, 리스닝 모드인 스마트 디바이스(1000)는 사용자 음성을 보이스 어시스턴트로 전달한 경우, 보이스 어시스턴트 서버(10)로부터 보이스 커맨드에 관련된 피드백의 피드백 데이터를 수신한 경우 또는 피드백 데이터에 기초하여 피드백의 출력(또는 출력의 개시)를 수행한 경우 스탠바이 모드로 복귀할 수 있다.
도 8 및 도 9을 살펴보면, 스마트 디바이스(1000)는 전원이 인가되면, 오프 상태로부터 스탠바이 모드로 진입할 수 있다. 스탠바이 모드인 스마트 디바이스(1000)는 음성 입력 모듈(1200)을 통해 지속적으로 음성을 수신하며 수신되는 음성으로부터 웨이크업 워드를 검출할 수 있다
웨이크업 워드가 검출되면 스마트 디바이스(1000)는 리스닝 모드로 진입할 수 있다.
리스닝 모드에서 스마트 디바이스(1000)는 보이스 커맨드가 담긴 사용자 음성을 수신할 수 있다. 스마트 디바이스(1000)는 수신된 사용자 음성을 보이스 어시스턴트 서버(10)로 전송할 수 있다.
수신된 사용자 음성을 보이스 어시스턴트 서버(10)로 전송한 스마트 디바이스(1000)는 응답 모드로 진입하여 피드백을 출력할 수 있다. 리스닝 모드인 스마트 디바이스(1000)는 사용자 음성을 보이스 어시스턴트 서버(10)에 전송한 경우 또는 보이스 어시스턴트 서버(10)로부터 피드백 데이터를 수신한 경우 응답 모드로 진입할 수 있다.
스마트 디바이스(1000)는 보이스 어시스턴트 서버(10)로부터 보이스 커맨드에 대한 피드백 데이터를 수신하고, 피드백 데이터에 기초하여 피드백을 출력할 수 있다. 피드백의 출력을 종료하거나 또는 피드백의 출력을 개시한 스마트 디바이스(1000)는 스탠바이 모드로 복귀할 수 있다.
한편, 리스닝 모드인 스마트 디바이스(1000)는 리스닝 모드인 동안 사용자 음성을 수신하지 못한 경우에는 응답 모드로 진입하는 대신 스탠바이 모드로 복귀할 수 있다.
2. 리스닝 윈도우 제어 방법
이하에서는 본 발명의 일 실시예에 따른 리스닝 윈도우의 제어 방법의 예시들에 관하여 설명하기로 한다. 한편, 후술되는 방법의 예시들에 관한 설명에서 각 예시들이 상술한 스마트 디바이스(1000)에 의해 수행되는 것으로 설명하며, 따라서 이하에서 설명되는 방법들은 스마트 디바이스(1000)의 제어 방법으로서 구현되는 것이 가능하다. 하지만, 이는 단순히 설명의 편의를 위한 것에 불과하므로 본 발명의 일 실시예에 따른 지향성 피드백을 출력하는 방법들이 반드시 상술한 스마트 디바이스(1000)에 의해 한정되는 것은 아님을 미리 밝혀둔다.
이상에서 설명한 바와 같이 본 발명의 일 실시예에 따른 스마트 디바이스(1000)는 보이스 어시스턴트 기능을 탑재하여, 웨이크-업 검출 상태에서 사용자의 음성 신호를 수신하고 수신된 음성 신호에 웨이크-업 워드가 포함된 경우 리스닝 상태로 진입함으로써 작동 상태는 천이할 수 있다. 또한, 스마트 디바이스(1000)는 리스닝 상태에서 수신된 사용자의 음성 신호에 보이스 커맨드가 포함된 경우, 보이스 커맨드에 대응되는 피드백을 출력하고 피드백 출력이 완료되면 리스닝 상태를 탈출하여 웨이크-업 워드 검출 상태로 진입함으로써 작동 상태가 천이할 수 있다.
여기서, 스마트 디바이스(1000)는 리스닝 상태로 진입 시 리스닝 윈도우를 오픈하고, 리스닝 상태를 벗어나면 리스닝 윈도우를 폐쇄할 수 있다. 즉, 스마트 디바이스(1000)의 리스닝 상태는 리스닝 윈도우가 오픈된 때로부터 폐쇄될때까지 유지될 수 있고, 이 때 스마트 디바이스(1000)는 리스닝 모드로 작동될 수 있다.
한편, 리스닝 윈도우의 길이는 리스닝 윈도우를 개방하는 시점으로부터 폐쇄하는 시점까지의 시간 간격을 의미하는데, 리스닝 윈도우의 길이에 따라(또는 리스닝 윈도우의 폐쇄 시점에 따라) 사용자 보이스 커맨드의 인식률이 달라질 수 있다. 예를 들면, 리스닝 윈도우의 폐쇄 시점이 지나치게 앞당겨져 리스닝 윈도우의 길이가 짧아지면, 리스닝 윈도우는 사용자의 보이스 커맨드가 완료되기 전에 폐쇄될 수 있다. 이에 따라, 보이스 커맨드의 인식률은 낮아질 수 있다. 반대로, 리스닝 윈도우의 폐쇄 시점이 지나치게 늦춰져 리스닝 윈도우의 길이가 길어지면, 스마트 디바이스(1000)가 사용자의 보이스 커맨드 외에 주변잡음과 같은 불필요한 음성 신호까지 함께 획득함에 따라, 보이스 커맨드의 인식률이 낮아질 수 있다.
또한, 리스닝 윈도우의 길이는 스마트 디바이스(1000)의 보안과도 관련있을 수 있다. 구체적으로, 스마트 디바이스(1000)는 리스닝 모드로 작동할 때, 사용자의 보이스 커맨드 인식을 위해 주변으로부터 수신하는 음성 신호를 외부 서버로 전송할 수 있다. 이 때, 외부 서버로 전송되는 음성 신호는 보이스 커맨드뿐만 아니라 개인 정보와 같이 타인에게 공개되어서는 안되는 정보를 포함할 수 있다. 따라서, 리스닝 윈도우의 길이가 길어질수록 외부 서버로 전송되는 정보가 많아지게되고, 해킹으로부터 노출될 수 있는 정보 또한 많아질 수 있다.
그 외에도, 리스닝 윈도우의 길이 조절은 사용자의 특성이나 사용 상황에 따라 필요할 수 있다.
이하에서는 리스닝 윈도우의 길이 조절(또는 리스닝 윈도우 폐쇄 시점 조절)과 관련된 구체적인 상황 및 예시를 통해 리스닝 윈도우 제어 방법에 대하여 설명한다.
도 10은 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제1 예의 순서도이다.
도 10을 참조하면 리스닝 윈도우 제어 방법은 웨이크-업 워드 디텍션 모드로 작동 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계(S1100), 리스닝 모드로 작동 중 사용자로부터 음성을 수신하는 단계(S1200) 및 사용자로부터 음성 수신을 완료한 뒤 리스닝 윈도우를 폐쇄하는 단계(S1300)를 포함할 수 있다.
이하에서는 상술한 각 단계에 관하여 보다 상세하게 설명한다.
스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방할 수 있다(S1100).
스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동할 수 있다. 스마트 디바이스(1000)는 웨이크-업 워도 디텍션 모드로 작동 시 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 동작을 수행할 수 있다. 스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동 시 외부로부터 음성 신호를 수신하고, 수신된 음성 신호에 웨이크-업 워드가 포함되는지 여부를 판단할 수 있다. 예를 들어, 스마트 디바이스(1000)는 음성 인식(STT: Speech-To-Text)기술을 통해 수신되는 음성 신호에 웨이크-업 워드가 포함되는 여부를 판단할 수 있다.
스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호로부터 웨이크-업 워드를 검출한 경우 리스닝 상태로 진입할 수 있다. 이 때, 스마트 디바이스(1000)의 작동 모드는 리스닝 모드로 전환되고, 스마트 디바이스(1000)는 리스닝 윈도우를 개방할 수 있다.
스마트 디바이스(1000)는 리스닝 윈도우가 개방되면 웨이크-업 워드 검출 동작을 중단하고, 보이스 커맨드를 획득하기 위한 리스닝 동작을 수행할 수 있다. 이 때, 스마트 디바이스(1000)는 외부로부터 수신되는 음성 신호를 서버로 전송하여, 서버가 상기 음성 신호에 포함되는 보이스 커맨드를 인식하도록 할 수 있다.
한편, 스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동 시 미디어 콘텐츠를 재생할 수 있다. 이 때, 미디어 콘텐츠는 오디오 데이터 및 비디오 데이터를 포함할 수 있다.
작동 모드가 웨이크-업 워드 디텍션 모드인 스마트 디바이스(1000)가 리스닝 모드로 전환하게되면, 스마트 디바이스(1000)는 미디어 콘텐츠의 재생을 중단하거나, 오디오 데이터의 출력을 중단할 수 있다. 이에 따라, 스마트 디바이스(1000)는 미디어 콘텐츠의 오디오 데이터가 섞여있지 않고 사용자의 보이스 커맨드를 포함하는 음성 신호를 획득할 수 있고, 사용자의 보이스 커맨드의 인식률을 향상될 수 있다.
스마트 디바이스(1000)는 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신할 수 있다(S1200). 스마트 디바이스(1000)는 마이크 모듈을 통해 외부로부터 음성 신호를 수신할 수 있다. 이 때, 수신되는 음성 신호는 웨이크-업 워드 및/또는 사용자의 보이스 커맨드를 포함할 수 있다.
스마트 디바이스(1000)는 리스닝 모드로 작동될 때 외부로부터 음성 신호를 수신할 수 있다. 리스닝 모드로 작동하는 스마트 디바이스(1000)는 보이스 커맨드를 획득하기 위해 외부로부터 음성 신호를 수신할 수 있다. 이 때, 스마트 디바이스(1000)는 외부 음성 신호의 수신률을 높이기 위해, 음성 출력을 비활성화할 수 있다. 또한, 스마트 디바이스(1000)는 리스닝 모드로 작동될 때 수신되는 음성 신호를 서버로 전송할 수 있다. 여기서, 상기 음성 신호는 사용자의 보이스 커맨드를 포함할 수 있다. 상기 서버는 수신되는 사용자의 보이스 커맨드를 인식할 수 있다. 예를 들어, 상기 서버는 딥 러닝(deep learning)을 통해 외부로부터 수신되는 사용자의 보이스 커맨드를 인식할 수 있다.
스마트 디바이스(1000)는 사용자로부터 음성 수신을 완료한 뒤 리스닝 윈도우를 폐쇄할수 있다(S1300). 스마트 디바이스(1000)는 사용자로부터 음성을 수신하고 일정 시간이 지나면 리스닝 윈도우를 폐쇄할 수 있다. 리스닝 윈도우가 폐쇄되지 않고 개방된 상태로 유지되면, 스마트 디바이스(1000)의 작동 모드는 리스닝 모드로 유지될 수 있다. 이에 따라, 스마트 디바이스(1000)는 사용자로부터 수신한 음성에 대응되는 피드백을 출력하지 못할 수 있다. 따라서, 스마트 디바이스(1000)는 사용자로부터 음성 수신을 완료하면 리스닝 윈도우를 폐쇄함으로써 사용자에게 상기 수신한 음성에 대응되는 피드백을 제공할 수 있다.
한편, 리스닝 모드로 작동하는 스마트 디바이스(1000)는 리스닝 윈도우가 개방된 후 미리 정해진 시간내에 사용자로부터 음성을 수신하지 못하면, 리스닝 윈도우를 폐쇄할 수 있다. 리스닝 윈도우가 길어질수록 스마트 디바이스(1000)를 통해 서버로 전송되는 사용자의 음성이 많아질 수 있다. 이에 따라, 상기 서버가 해킹될 경우 외부로 노출되는 정보 또한 많아질 수 있다. 즉, 리스닝 윈도우를 폐쇄하지 않고 리스닝 모드로 유지하는 것은 스마트 디바이스(1000)의 보안 문제를 야기할 수 있다.
또한, 스마트 디바이스(1000)가 리스닝 모드로 진입하기 전 미디어 콘텐츠 재생 중인 경우, 스마트 디바이스(1000)는 웨이크-업 워드를 인식하고 리스닝 윈도우를 개방함에 따라, 상기 미디어 콘텐츠의 재생을 중단할 수 있다. 이 경우, 리스닝 윈도우가 개방된 상태로 유지되면 스마트 디바이스(1000)는 상기 미디어 콘텐츠의 재생을 재개할 수 없을 수 있다.
따라서, 스마트 디바이스(1000)는 리스닝 모드로 작동 중 사용자로부터 음성을 수신하지 못하거나 수신을 완료하고 미리 정해진 시간이 지나면 리스닝 윈도우를 폐쇄할 수 있다. 이에 따라, 스마트 디바이스(1000)의 작동 모드는 웨이크-업 워드 디텍션 모드로 전환될 수 있다.
도 11은 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제2 예의 순서도이다.
도 11을 참조하면 리스닝 윈도우 제어 방법은 웨이크-업 워드 디텍션 모드로 작동 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계(S2100), 리스닝 모드로 작동 중 사용자로부터 음성을 수신하는 단계(S2200), 사용자로부터 수신하는 음성을 서버로 전송하는 단계(S2310), 서버로부터 수신하는 음성에 관한 데이터에 기초하여 리스닝 윈도우의 폐쇄 시점을 결정하는 단계(S2320) 및 상기 결정에 따라 리스닝 윈도우를 폐쇄하는 단계(S2330)를 포함할 수 있다.
이하에서는 상술한 각 단계에 관하여 보다 상세하게 설명한다. 다만, 상기 단계 S2100 및 S2200은 단계 S1100 및 S1200과 동일 또는 유사하게 수행될 수 있으므로, 편의상 이에 대한 설명은 생략하도록 한다.
스마트 디바이스(1000)는 사용자로부터 수신하는 음성을 서버로 전송할 수 있다(S2310). 이 때, 상기 수신되는 음성은 사용자의 보이스 커맨드를 포함할 수 있다. 스마트 디바이스(1000)는 리스닝 모드로 작동 중 수신하는 음성을 서버로 전송할 수 있다. 이에 따라, 상기 서버는 수신되는 음성으로부터 사용자의 보이스 커맨드를 인식할 수 있다.
또한, 상기 서버는 스마트 디바이스(1000)로부터 수신되는 음성의 특성을 파악할 수 있다. 예를 들어, 상기 서버는 수신되는 음성의 속도를 파악하고, 이에 관한 데이터를 스마트 디바이스(1000)로 전송할 수 있다.
스마트 디바이스(1000)는 상기 서버로부터 수신하는 음성에 관한 데이터에 기초하여 리스닝 윈도우의 폐쇄 시점을 결정할 수 있다(S2320). 일 예로, 스마트 디바이스(1000)는 상기 서버로부터 수신하는 음성의 속도에 관한 데이터에 기초하여 리스닝 윈도우의 폐쇄 시점을 결정할 수 있다. 구체적으로, 스마트 디바이스(1000)는 제1 속도를 갖는 제1 음성을 수신할 때, 제1 속도보다 느린 제2 속도를 갖는 제2 음성을 수신할 때보다 리스닝 윈도우의 폐쇄 시점을 앞당길 수 있다. 즉, 사용자의 발화가 종료된 때로부터 스마트 디바이스(1000)의 피드백 출력이 개시될 때까지 걸리는 시간은 상기 스마트 디바이스(1000)가 상기 제1 음성을 수신할 때 상기 스마트 디바이스(1000)가 상기 제2 음성을 수신할 때보다 짧을 수 있다. 이에 따라, 상기 스마트 디바이스(1000)는 사용자의 음성의 속도에 기초하여 상기 사용자의 보이스 커맨드에 대응하는 피드백의 출력을 개시하는 시점을 결정할 수 있다.
스마트 디바이스(1000)는 상기 결정에 기초하여 리스닝 윈도우를 폐쇄할 수 있다(S2330). 이에 따라 상기 스마트 디바이스(1000)의 작동 모드는 리스닝 모드로부터 피드백 모드로 전환될 수 있다.
도 12는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제3 예의 순서도이다.
도 12를 참조하면 리스닝 윈도우 제어 방법은 웨이크-업 워드 디텍션 모드로 작동 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계(S3100), 리스닝 모드로 작동 중 사용자로부터 음성을 수신하는 단계(S3200), 사용자로부터 수신하는 음성을 서버로 전송하는 단계(S3310), 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신하는 단계(S3320) 및 상기 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄하는 단계(S3330)를 포함할 수 있다.
이하에서는 상술한 각 단계에 관하여 보다 상세하게 설명한다. 다만, 상기 단계 S3100 및 S3200은 단계 S1100 및 S1200과 동일 또는 유사하게 수행될 수 있고, 상기 단계 S3310은 단계 S2310과 동일 또는 유사하게 수행될 수 있으므로, 편의상 이에 대한 설명은 생략하도록 한다.
스마트 디바이스(1000)는 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신할 수 있다(S3320). 일 예로, 상기 서버는 상기 스마트 디바이스(1000)로부터 수신하는 음성의 속도를 기초로 상기 리스닝 윈도우의 폐쇄 시점을 결정할 수 있다. 구체적으로, 상기 서버는 상기 수신되는 음성의 속도가 빠를수록 상기 리스닝 윈도우의 폐쇄 시점을 앞당길 수 있다. 즉, 상기 서버는 상기 수신되는 음성의 속도가 빠를수록 상기 음성의 수신이 완료된 때로부터 상기 리스닝 윈도우가 폐쇄 되는 시간이 길도록 상기 리스닝 윈도우의 폐쇄 시점을 결정할 수 있다. 이에 따라, 상기 음성의 수신이 완료된 때로부터 상기 스마트 디바이스(1000)의 피드백 출력이 개시되는 때까지 소모되는 시간은 짧아질 수 있다.
상기 스마트 디바이스(1000)는 상기 폐쇄 시점에 관한 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄할 수 있다(S3330).
도 13은 본 발명의 일 실시예에 따른 리스닝 윈도우 조절에 관한 도면이다. 도 13의 (a)는 스마트 디바이스(1000)가 제1 음성을 수신할 때 의 동작을 나타내며, 도 13의 (b)는 스마트 디바이스(1000)가 제2 음성을 수신할 때의 동작을 나타낸다.
도 13에서, 제1 음성의 속도는 제2 음성의 속도보다 빠를 수 있다. 이 때, 스마트 디바이스(1000)는 상기 제1 음성 및 제2 음성을 서버로 전송할 수 있다. 상기 서버는 제1 음성의 속도 및 제2 음성의 속도를 획득하여 이에 관한 데이터를 상기 스마트 디바이스(1000)로 전송할 수 있다. 상기 스마트 디바이스(1000)는 상기 데이터에 기초하여 상기 제1 음성의 수신이 완료된때로부터 리스닝 윈도우가 폐쇄될 때까지의 시간(t1)이 상기 제2 음성의 수신이 완료된때로부터 리스닝 윈도우가 폐쇄될 때까지의 시간(t2)보다 짧도록 리스닝 윈도우를 폐쇄할 수 있다. 이에 따라, 스마트 디바이스(1000)는 사용자의 음성의 속도가 빠를 때 사용자의 음성의 속도가 느릴 때보다 리스닝 윈도우의 폐쇄시점 및 피드백 출력개시시점을 앞당길 수 있다. 이처럼, 스마트 디바이스(1000)는 수신되는 음성의 속도를 고려하여 리스닝 윈도우를 폐쇄함으로써 리스닝 윈도우의 길이를 조절할 수 있다.
전술한 바와 같이 스마트 디바이스(1000)는 리스닝 윈도우를 폐쇄할 수 있는데, 이 때, 상기 리스닝 윈도우의 폐쇄 시점은 상기 스마트 디바이스(1000)가 수신하는 음성의 발화자 정보에 기초하여 결정될 수 있다. 구체적으로, 스마트 디바이스(1000)는 리스닝 모드로 작동 시 외부로부터 음성을 수신하여 서버로 전송할 수 있다. 이 때, 상기 서버는 상기 수신되는 음성의 특성을 파악하여 상기 음성의 발화자를 인식하고, 상기 발화자에 관한 정보를 상기 스마트 디바이스(1000)로 전송할 수 있다. 상기 스마트 디바이스(1000)는 상기 발화자에 관한 정보에 기초하여 리스닝 윈도우를 폐쇄할 수 있다.
예를 들어, 서버는 스마트 디바이스(1000)를 통해 외부로부터 수신되는 음성의 억양 또는 음성의 속도와 같은 음성의 특성에 기초하여 상기 음성의 발화자를 인식할 수 있다. 상기 서버는 상기 발화자에 관한 정보를 스마트 디바이스(1000)로 전송할 수 있다. 이에 따라 상기 스마트 디바이스(1000)는 상기 발화자에 관한 정보에 기초하여 리스닝 윈도우를 폐쇄할 수 있다. 즉, 리스닝 윈도우의 길이는 발화자에 따라 달라질 수 있다.
도 14는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 방법의 제4 예의 순서도이다.
도 14를 참조하면, 스마트 디바이스(1000)는 제1 보이스 커맨드에 대응되는 피드백을 출력하는 상태에서 웨이크-업 워드 디텍션 모드로 작동하는 단계(S4100), 상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우 리스닝 윈도우를 개방하는 단계(S4200), 상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계(S4300) 및 상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계(S4400)를 포함할 수 있다.
이하에서는 상술한 각 단계에 관하여 보다 상세하게 설명한다.
스마트 디바이스(1000)는 기 수신된 제1 보이스 커맨드에 대응되는 피드백을 출력하는 상태에서 웨이크-업 워드 디텍션 모드로 작동할 수 있다(S4100).
스마트 디바이스(1000)는 피드백을 출력하는 상태에서 웨이크-업 워드를 인식하기 위한 웨이크-업 워드 디텍션 모드로 작동할 수 있다. 예를 들어, 상기 스마트 디바이스(1000)는 상기 피드백에 포함되는 아이템을 선택하는 제2 보이스 커맨드를 획득하기 위해 웨이크-업 워드 디텍션 모드로 작동할 수 있다.
스마트 디바이스(1000)는 웨이크-업 워드가 인식될 때까지 웨이크-업 워드 디텍션 모드를 유지할 수 있다. 이 때, 스마트 디바이스(1000)는 STT 등의 방법을 통해 외부로부터 수신되는 음성으로부터 웨이크-업 워드를 인식하는 동작을 수행할 수 있다.
스마트 디바이스(1000)는 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방할 수 있다(S4200). 여기서, 리스닝 윈도우를 개방하는 것은 리스닝 모드에 진입(entering)하는 것을 의미할 수 있다. 스마트 디바이스(1000)는 웨이크-업 워드를 인식하면 웨이크-업 워드 디텍션 모드를 벗어나 리스닝 모드로 진입할 수 있다. 이 때, 스마트 디바이스(1000)는 리스닝 모드로 작동할 수 있다.
스마트 디바이스(1000)는 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신할 수 있다(S4300). 이 때, 스마트 디바이스(1000)는 사용자로부터 수신하는 음성을 서버로 전송할 수 있다. 여기서, 상기 서버는 상기 음성으로부터 사용자의 제2 보이스 커맨드를 인식할 수 있다. 상기 스마트 디바이스(1000)는 상기 서버가 사용자로부터 제2 보이스 커맨드를 인식할때까지 리스닝 모드를 유지할 수 있다.
스마트 디바이스(1000)는 사용자로부터 음성 수신을 완료한 뒤 리스닝 윈도우를 폐쇄할 수 있다(S4400). 여기서, 스마트 디바이스(1000)가 리스닝 윈도우를 폐쇄하는 것은 스마트 디바이스(1000)가 리스닝 모드로부터 탈출하는 것을 의미할 수 있다.
한편, 리스닝 윈도우의 폐쇄 시점은 기 수신된 제1 보이스 커맨드에 대응되는 피드백에 따라 조절될 수 있다. 일 예로, 리스닝 윈도우의 폐쇄 시점은 상기 피드백이 선택 가능한 아이템을 포함하는지 여부에 따라 조절될 수 있다. 구체적으로, 상기 피드백이 적어도 하나 이상의 선택 가능한 아이템을 포함하는 경우의 리스닝 윈도우의 폐쇄 시점은 상기 피드백이 선택 가능한 아이템을 포함하지 않는 경우의 리스닝 윈도우의 폐쇄 시점보다 늦을 수 있다. 이에 따라, 스마트 디바이스(1000)는 사용자가 상기 피드백의 아이템을 선택할 수 있는 시간을 제공할 수 있다.
다른 예로, 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 포함되는 선택 가능한 아이템의 개수에 따라 조절될 수 있다. 구체적으로, 상기 피드백에 포함되는 아이템의 개수가 많을수록 상기 리스닝 윈도우의 폐쇄 시점은 늦어질 수 있다. 즉, 상기 피드백에 포함되는 아이템의 개수가 많을수록 스마트 디바이스(1000)가 음성을 수신한때로부터 리스닝 윈도우를 폐쇄하는 때까지의 시간 간격은 커질 수 있다. 이에 따라, 스마트 디바이스(1000)는 상기 피드백에 포함되는 아이템의 개수를 고려하여 사용자가 상기 아이템을 선택할 수 있는 시간을 제공할 수 있다.
또 다른 예로, 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 포함되는 선택 가능한 아이템의 복수 선택이 가능한지 여부에 따라 조절될 수 있다. 구체적으로, 상기 피드백에 포함되는 아이템의 복수 선택이 가능한 경우의 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 포함되는 아이템의 복수 선택이 불가능한 경우의 리스닝 윈도우의 폐쇄 시점보다 늦을 수 있다. 즉, 스마트 디바이스(1000)가 음성 수신을 완료한 때로부터 리스닝 윈도우가 폐쇄될때까지의 시간 간격은, 상기 피드백에 포함되는 아이템의 복수 선택이 가능한 경우에 상기 피드백에 포함되는 아이템의 복수 선택이 불가능한 경우보다 클 수 있다.
도 15는 본 발명의 일 실시예에 따른 리스닝 윈도우 제어 동작을 나타내는 도면이다. 구체적으로, 도 15의 (a)는 스마트 디바이스(1000)가 제2 보이스 커맨드를 포함하는 음성을 수신할 때 기 출력되는 피드백이 없는 경우, 도 15의 (b)는 스마트 디바이스(1000)가 제2 보이스 커맨드를 포함하는 음성을 수신할 때 기 수신한 제1 보이스 커맨드에 대응되는 피드백이 있는 경우를 나타내는 도면이다.
도 15를 참조하면, 리스닝 윈도우의 폐쇄시점은 스마트 디바이스(1000)가 리스닝 모드로 작동 중 외부로부터 음성을 수신할 때, 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있는지 여부에 따라 조절될 수 있다. 예를 들어, 스마트 디바이스(1000)는 리스닝 모드로 작동 중 외부로부터 음성을 수신할 당시, 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있는 경우 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있지 않은 경우보다 리스닝 윈도우의 폐쇄시점을 앞당길 수 있다. 구체적으로, 스마트 디바이스(1000)가 음성 수신을 완료한 때로부터 리스닝 윈도우가 폐쇄될때까지의 시간간격은, 스마트 디바이스(1000)가 음성을 수신할 당시 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있는 경우 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있지 않은 경우보다, 작아질 수 있다. 이는, 스마트 디바이스(1000)가 음성을 수신할 당시 기 수신된 보이스 커맨드에 따른 피드백이 출력되고 있다면, 피드백이 출력되고 있지 않은 경우보다 상대적으로 제2 보이스 커맨드를 위한 시간이 더 필요할 수 있기 때문이다.
이상에서 설명한 본 발명의 실시예에 따른 방법들은 단독으로 또는 서로 조합되어 이용될 수 있다. 또 각 방법에서 설명된 각 단계들은 모두 필수적인 것은 아니므로 각 방법들이 그 단계들을 전부 포함하는 것은 물론 일부만 포함하여 수행되는 것도 가능하다. 또 각 단계들이 설명된 순서는 설명의 편의를 위한 것에 불과하므로, 상술한 방법들에서 각 단계들이 반드시 설명된 순서대로 진행되어야 하는 것은 아니다.
또한 상술한 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 여기서, 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 또 컴퓨터 판독 가능 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 이상에서 설명한 본 발명의 실시예들은 서로 별개로 또는 조합되어 구현되는 것도 가능하다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
10: 보이스 어시스턴트 서버
1000: 스마트 디바이스
1020: 통신 모듈
1040: 메모리
1060: 콘트롤러
1100: 하우징
1106: 인디케이터
1120: 하부 프레임
1140: 상부 프레임
1160: 투명 윈도우
1200: 음성 입력 모듈
1202: 마이크
1204: 마이크 어레이
1300: 음성 출력 모듈
1302: 스피커
1400: 디스플레이 모듈
1420: 디스플레이 패널
1440: 프로젝터
1500: 구동 모듈
1520: 회전 모터
1540: 회전 플레이트
1560: 방향 감지 센서
1600: 전원 모듈
1700: 사용자 위치 감지 모듈
1720: (모노/스테레오) 카메라
1800: 방열 모듈

Claims (11)

  1. 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서,
    상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -;
    상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및
    상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고,
    상기 리스닝 윈도우의 폐쇄 시점은 상기 사용자로부터 수신되는 음성의 특성에 기초하여 결정되고,
    상기 음성의 특성은 음성의 속도, 언어의 종류, 발화자의 연령 또는 발화자의 성별 중 적어도 어느 하나를 포함하는 것을 특징으로 하는
    스마트 디바이스의 제어 방법.
  2. 제1 항에 있어서,
    상기 리스닝 윈도우를 폐쇄하는 단계는,
    상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 수신하는 음성에 관한 데이터에 기초하여 상기 리스닝 윈도우의 폐쇄 시점을 결정하는 단계, 및 상기 결정에 따라 리스닝 윈도우를 폐쇄하는 단계를 포함하는
    스마트 디바이스의 제어 방법.
  3. 제1 항에 있어서,
    상기 리스닝 윈도우를 폐쇄하는 단계는,
    상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신하는 단계 및 상기 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄하는 단계를 포함하는
    스마트 디바이스의 제어 방법.
  4. 삭제
  5. 제1 항에 있어서,
    상기 리스닝 윈도우의 폐쇄 시점은 상기 음성의 속도가 제1 속도인 경우 상기 제1 속도보다 크기가 큰 제2 속도인 경우보다 늦춰지는 것을 특징으로 하는
    스마트 디바이스의 제어 방법.
  6. 삭제
  7. 수신되는 음성 신호에 포함된 보이스 커맨드를 인식하기 위한 리스닝 모드 및 수신되는 음성 신호로부터 상기 리스닝 모드로의 진입을 요청하는 웨이크-업 워드를 검출하는 웨이크-업 워드 디텍션 모드로 작동 가능한 스마트 디바이스에 의해 수행되는 리스닝 윈도우 제어 방법에 있어서,
    기 수신된 음성 신호에 포함된 제1 보이스 커맨드에 대응되는 피드백을 출력하는 상태에서 웨이크-업 워드 디텍션 모드로 작동하는 단계;
    상기 웨이크-업 워드 디텍션 모드로 작동하는 중 수신된 음성 신호에 웨이크-업 워드가 포함된 경우, 리스닝 윈도우를 개방하는 단계 - 여기서, 상기 리스닝 윈도우를 개방하는 것은, 상기 리스닝 모드에 진입(entering)하는 것을 의미함 -;
    상기 리스닝 모드로 작동하는 중 사용자로부터 음성을 수신하는 단계; 및
    상기 사용자로부터 음성 수신을 완료한 뒤 상기 리스닝 윈도우를 폐쇄하는 단계 - 여기서, 상기 리스닝 윈도우를 폐쇄하는 것은, 상기 리스닝 모드로부터 탈출(exit)하는 것을 의미함 -;를 포함하고,
    상기 리스닝 윈도우의 폐쇄 시점은 상기 피드백에 제2 보이스 커맨드를 통해 선택 가능한 아이템이 포함되는지 여부에 기초하여 결정되는 것을 특징으로 하는
    스마트 디바이스의 제어 방법.
  8. 제7 항에 있어서,
    상기 리스닝 윈도우를 폐쇄하는 단계는,
    상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 수신하는 음성에 관한 데이터에 기초하여 상기 리스닝 윈도우의 폐쇄 시점을 결정하는 단계, 및 상기 결정에 따라 리스닝 윈도우를 폐쇄하는 단계를 포함하는
    스마트 디바이스의 제어 방법.
  9. 제7 항에 있어서,
    상기 리스닝 윈도우를 폐쇄하는 단계는,
    상기 사용자로부터 수신하는 음성을 서버로 전송하는 단계, 상기 서버로부터 리스닝 윈도우의 폐쇄 시점에 관한 데이터를 수신하는 단계 및 상기 데이터에 기초하여 상기 리스닝 윈도우를 폐쇄하는 단계를 포함하는
    스마트 디바이스의 제어 방법.
  10. 삭제
  11. 제7 항에 있어서,
    상기 리스닝 윈도우의 폐쇄 시점은,
    상기 피드백에 선택 가능한 아이템이 포함된 경우 상기 피드백에 선택 가능한 아이템이 포함되지 않은 경우보다 앞당겨지는 것을 특징으로 하는
    스마트 디바이스의 제어 방법.
KR1020180087685A 2018-07-27 2018-07-27 스마트 디바이스 및 그 제어 방법 KR102040406B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180087685A KR102040406B1 (ko) 2018-07-27 2018-07-27 스마트 디바이스 및 그 제어 방법
PCT/KR2018/014226 WO2020022572A1 (ko) 2018-07-27 2018-11-19 스마트 디바이스 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180087685A KR102040406B1 (ko) 2018-07-27 2018-07-27 스마트 디바이스 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR102040406B1 true KR102040406B1 (ko) 2019-11-05

Family

ID=68576922

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180087685A KR102040406B1 (ko) 2018-07-27 2018-07-27 스마트 디바이스 및 그 제어 방법

Country Status (2)

Country Link
KR (1) KR102040406B1 (ko)
WO (1) WO2020022572A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11955137B2 (en) * 2021-03-11 2024-04-09 Apple Inc. Continuous dialog with a digital assistant
US20220399012A1 (en) * 2021-06-10 2022-12-15 Lenovo (Beijing) Limited Speech processing method and apparatus
CN114836936A (zh) * 2022-05-10 2022-08-02 海信(山东)冰箱有限公司 一种衣物处理设备及其控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150065643A (ko) * 2012-01-09 2015-06-15 삼성전자주식회사 표시 장치 및 그 제어방법
US20170311261A1 (en) * 2016-04-25 2017-10-26 Sensory, Incorporated Smart listening modes supporting quasi always-on listening

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US10672387B2 (en) * 2017-01-11 2020-06-02 Google Llc Systems and methods for recognizing user speech

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150065643A (ko) * 2012-01-09 2015-06-15 삼성전자주식회사 표시 장치 및 그 제어방법
US20170311261A1 (en) * 2016-04-25 2017-10-26 Sensory, Incorporated Smart listening modes supporting quasi always-on listening

Also Published As

Publication number Publication date
WO2020022572A1 (ko) 2020-01-30

Similar Documents

Publication Publication Date Title
KR102040406B1 (ko) 스마트 디바이스 및 그 제어 방법
KR102093030B1 (ko) 스마트 디바이스 및 그 제어 방법
CN108022590B (zh) 语音接口设备处的聚焦会话
EP3179474B1 (en) User focus activated voice recognition
US9939896B2 (en) Input determination method
CN210325195U (zh) 具有垂直定向的外壳的扬声器设备
KR102481454B1 (ko) 방향성 인터페이스를 갖는 핸즈 프리 디바이스
CN110431623B (zh) 电子设备及其控制方法
EP2514105B1 (en) Method for controlling external output of a mobile device and corresponding mobile device
EP3535754B1 (en) Improved reception of audio commands
WO2019153999A1 (zh) 一种基于语音控制的动向投影方法、装置及动向投影系统
US11810560B1 (en) Voice-controlled device switching between modes based on speech input
KR102209092B1 (ko) 복수의 호출 용어를 이용하여 인공지능 기기를 제어하는 방법 및 시스템
KR102651249B1 (ko) 디지털 어시스턴트를 이용한 오디오 정보 제공
EP3652933A1 (en) Controlling visual indicators in an audio responsive device, and capturing and providing audio using an api
KR102136461B1 (ko) 스마트 디바이스 및 그 제어 방법
KR102136462B1 (ko) 스마트 디바이스 및 그 제어 방법
US11743588B1 (en) Object selection in computer vision
Panek et al. Challenges in adopting speech control for assistive robots
WO2019123754A1 (ja) 情報処理装置、情報処理方法、および記録媒体
KR20200012410A (ko) 스마트 디바이스 및 그 제어 방법
TW202205058A (zh) 調節移動機器人裝置所輸出的音訊的音量的方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant