KR20210102032A - 음성 비서 서비스 제공 방법 및 장치 - Google Patents

음성 비서 서비스 제공 방법 및 장치 Download PDF

Info

Publication number
KR20210102032A
KR20210102032A KR1020200128879A KR20200128879A KR20210102032A KR 20210102032 A KR20210102032 A KR 20210102032A KR 1020200128879 A KR1020200128879 A KR 1020200128879A KR 20200128879 A KR20200128879 A KR 20200128879A KR 20210102032 A KR20210102032 A KR 20210102032A
Authority
KR
South Korea
Prior art keywords
service
devices
voice command
information
voice
Prior art date
Application number
KR1020200128879A
Other languages
English (en)
Inventor
신재식
이성호
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP21753945.1A priority Critical patent/EP4055593A4/en
Priority to PCT/KR2021/001573 priority patent/WO2021162363A1/en
Priority to US17/248,859 priority patent/US20210249018A1/en
Publication of KR20210102032A publication Critical patent/KR20210102032A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 방법은, 사용자로부터 제1 음성 명령을 수신하는 단계; 복수의 후보 디바이스들 중에서 상기 제1 음성 명령을 전송할 복수의 디바이스들을 판단하는 단계; 상기 제1 음성 명령과 관련된 정보를 복수의 디바이스들에게 전송하는 단계; 상기 복수의 디바이스들 각각으로부터 상기 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 상기 복수의 디바이스들의 서비스 제공 이력 정보를 수신하는 단계; 상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계; 및 상기 선택된 결과에 기초하여, 상기 제1 음성 명령에 응답하는 응답 메시지를 출력하는 단계를 포함할 수 있다.

Description

음성 비서 서비스 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING VOICE ASSISTANT SERVICE}
본 개시는 음성 비서 서비스를 제공하는 방법 및 장치에 관한 것으로서, 보다 상세하게는, 사용자로부터 수신된 음성 명령에 응답하여 복수의 디바이스들이 제공 가능한 서비스들 중에서 적어도 하나의 서비스를 추천해주는 음성 비서 서비스 제공 방법 및 장치에 관한 것이다.
최근에 스마트 폰과 같이 다양한 기능을 복합적으로 수행하는 전자 디바이스들이 개발됨에 따라, 조작성을 향상시키기 위하여 음성 인식이 가능한 전자 디바이스들이 출시되고 있다.
음성 인식 기술은, 사용자가 일상적인 언어로 입력하는 음성 질문에 응답하여 응답 메시지를 출력하는 대화형 사용자 인터페이스(Conversational User Interface)에 적용됨으로써 사용자 친화적인 대화 서비스를 제공할 수 있다. 대화형 사용자 인터페이스는 사용자의 언어로 대화를 하면서 동작하는 지능형(intelligent) 사용자 인터페이스를 의미한다.
일 예로서, 스마트 스피커, 스마트 폰, 컴퓨터, PDA(personal digital assistants), PMP(portable multimedia player), 스마트 가전, 네비게이션, 웨어러블 디바이스 등과 같은 전자 디바이스는, 서버에 접속하거나 애플리케이션을 실행함으로써 대화 서비스를 제공할 수 있다.
또한, 인공 지능(Artificial Intelligence, AI) 기술이 발전함에 따라 음성 인식 기능에도 인공 지능 기술이 접목됨으로써, 다양한 발화들에 대해서 빠르고 정확한 음성 인식이 가능해졌다. 인공 지능 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할 수록 인식률이 향상되고 사용자의 취향을 보다 정확하게 이해할 수 있게 되어, 기존의 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
음성 인식 기능을 구비하여 대화 서비스가 제공 가능한 디바이스들이 많아짐에 따라, 디바이스들이 사용자에게 제공 가능한 서비스들도 많아지고 다양해진다. 따라서, 사용자가 원하는 서비스를 선택하여 제공받기 위해서, 각 디바이스에 대한 수많은 명령어들을 모두 숙지하고 발화하여야 한다는 어려움이 있다.
이러한 문제점을 해결하기 위하여 본 개시의 다양한 실시 예들에 따르면, 복수의 디바이스들과 연결된 음성 비서 서비스 제공 장치가 사용자의 음성 명령에 대해서 디바이스들의 능력(Capability)에 따라 디바이스들을 그룹화하고, 디바이스들이 제공 가능한 서비스들 중에서 최적의 서비스를 선택하여 사용자에게 제안하는 방법이 제안된다.
본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 방법은, 사용자로부터 제1 음성 명령을 수신하는 단계; 복수의 후보 디바이스들 중에서 상기 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단하는 단계; 상기 제1 음성 명령과 관련된 정보를 상기 복수의 디바이스들에게 전송하는 단계; 상기 복수의 디바이스들 각각으로부터 상기 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 상기 복수의 디바이스들의 서비스 제공 이력 정보를 수신하는 단계; 상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계; 및 상기 선택된 결과에 기초하여, 상기 제1 음성 명령에 응답하는 응답 메시지를 출력하는 단계를 포함할 수 있다.
본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치는, 사용자로부터 음성 명령을 수신하는, 수신부; 통신부; 하나 이상의 명령어들을 저장하는 메모리; 및 상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 상기 사용자로부터 제1 음성 명령을 수신하도록 상기 수신부를 제어하고, 복수의 후보 디바이스들 중에서 상기 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단하고, 상기 제1 음성 명령과 관련된 정보를 상기 복수의 디바이스들에게 전송하고, 상기 복수의 디바이스들 각각으로부터 상기 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 상기 복수의 디바이스들의 서비스 제공 이력 정보를 수신하도록, 상기 통신부를 제어하고, 상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하고, 상기 선택된 결과에 기초하여, 상기 제1 음성 명령에 응답하는 응답 메시지를 출력할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치는, 복수의 디바이스들이 제공하는 다양한 서비스들 중에서 사용자가 선호하는 최적의 서비스를 제안함으로써, 사용자가 편리하게 많은 수의 디바이스들과 통신하고 디바이스들을 제어할 수 있도록 한다.
도 1a는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템을 도시한다.
도 1b는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 블록도의 예를 도시한다.
도 2는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 동작 방법의 신호 흐름도를 도시한다.
도 3은 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 동작 방법의 신호 흐름도를 도시한다.
도 4는 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 방법의 흐름도를 도시한다.
도 5는 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 방법의 구체적인 흐름도를 도시한다.
도 6은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치를 통해 사용자와 상호 작용하는 디바이스의 동작 방법의 흐름도를 도시한다.
도 7은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치를 통해 사용자와 상호 작용하는 디바이스의 동작 방법의 구체적인 흐름도를 도시한다.
도 8은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 학습하는 데이터의 예를 도시한다.
도 9는 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 수신하는 서비스 제공 메시지, 서비스 제공 이력 정보, 및 장치 정보의 예를 도시한다.
도 10은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 복수의 서비스 제공 메시지들에 대해 우선 순위를 부여하는 방법의 흐름도를 도시한다.
도 11은 본 개시의 제1 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 12는 본 개시의 제1 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 13은 본 개시의 제2 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 14는 본 개시의 제3 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 15는 본 개시의 제4 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 16은 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치의 블록도를 도시한다.
도 17은 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치의 구체적인 블록도를 도시한다.
도 18은 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치의 구체적인 블록도를 도시한다.
도 19는 본 개시의 일 실시 예에 따른 디바이스의 블록도를 도시한다.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시 예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 또한, 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시의 일부 실시 예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어 질 수 있다. 이러한 기능 블록들의 일부 또는 전부는, 특정 기능들을 실행하는 다양한 개수의 하드웨어 및/또는 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 본 개시의 기능 블록들은 하나 이상의 마이크로프로세서들에 의해 구현되거나, 소정의 기능을 위한 회로 구성들에 의해 구현될 수 있다. 또한, 예를 들어, 본 개시의 기능 블록들은 다양한 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능 블록들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 개시는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 이 용어들에 의해 한정되어서는 안 된다. 이 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용된다.
또한, 도면에 도시된 구성 요소들 간의 연결 선 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것일 뿐이다. 실제 장치에서는 대체 가능하거나 추가된 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들에 의해 구성 요소들 간의 연결이 나타내어 질 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1a는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템을 도시한다.
음성 비서 서비스는, 사용자와의 대화를 제공하는 서비스이다. 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자(10)의 음성 명령을 수신하고, 사용자(10)의 상황, 음성 비서 서비스 제공 장치(100)의 상황 등을 고려하여 사용자가 사람과 직접 대화하는 것처럼 사용자에게 응답 메시지를 제공하거나, 다른 디바이스를 제어할 수 있다. 또한, 음성 비서 서비스 제공 장치(100)는, 사용자의 개인 비서처럼 사용자가 필요한 정보를 적절하게 생성하여 사용자에게 제공할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 음성 비서 서비스 제공 장치(100)는, 예를 들어, 스마트 폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, 스마트 스피커, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 및 태블릿 PC 중 적어도 하나일 수 있으나, 이에 한정되지 않는다. 음성 비서 서비스 제공 장치(100)는, 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 다른 디바이스 및/또는 서버와 통신할 수 있다.
도 1에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자로부터 수신되는 음성 명령에 기초하여 음성 비서서비스를 제공하는 스마트 스피커의 형태로 구현될 수 있으나, 본 개시는 이에 제한되지 않는다. 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들을 연결함으로써 홈 네트워크를 구성하는 디바이스이거나, 네트워크의 가장자리에서 데이터를 처리하는 홈 엣지 컴퓨터이거나, 작은 스케일의 클라우드 데이터 센터(small-scale cloud datacenter)를 운영하는 서버이거나, 사용자의 음성을 인식해 댁 내의 디바이스들을 제어하는 음성 비서 서버 등의 다양한 형태로 구현될 수 있다.
음성 비서 서비스 제공 장치(100)는, 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 웨어러블 디바이스(200-4), 및 운동 기구(200-5) 등 복수의 디바이스들과 상호작용할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 2005-5) 과 상호작용함으로써 사용자에게 응답 메시지를 제공하거나, 각 디바이스를 제어할 수 있다.
종래에는, 사용자(10)가 소정 디바이스로부터 원하는 서비스를 제공받기 위해서, 소정 디바이스의 서비스와 관련하여 등록된 명령어를 사용자(10)가 미리 알고 발화하여야 한다는 불편함이 있었다.
예를 들어, 사용자(10)가 음성 비서 서비스 제공 장치(100)를 통해 TV(200-3)가 음악을 재생하도록 TV(200-3)를 제어하기 위해서는, “TV야 음악 재생 해줘”와 같은 음성 명령을 발화 하여야 한다. 이러한 음성 명령을 발화 하기 위해서 사용자(10)는, 음성 비서 서비스 제공 장치(100)가 TV(200-3)를 제어할 수 있도록 연결되어 있는지, TV(200-3)가 음악 재생 기능이 있는지, 음악 재생 기능을 갖는 여러 디바이스들 중에서 TV(200-3)를 통해 음악을 재생하는 것이 가장 적합한 지를 미리 인지하여야 한다는 불편함이 있다.
또한, 음성 비서 서비스 제공 장치(100)와 연결되는 디바이스들이 많아짐에 따라 음성 비서 서비스 제공 장치(100)가 사용자(10)에게 제공 가능한 서비스들도 많아지고 다양해진다. 따라서, 사용자(10)가 원하는 서비스를 선택하여 제공받기 위해서 수많은 명령어들을 모두 숙지하고 발화하여야 한다는 어려움이 있다.
이러한 문제점을 해결하기 위하여, 본 개시의 다양한 실시 예들에 따르면, 음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서 사용자의 음성 명령을 전달할 복수의 디바이스들을 판단하고, 음성 명령에 응답하여 복수의 디바이스들이 제공 가능한 서비스들 중에서 적어도 하나의 서비스를 선택하여 사용자에게 제안하는 방법이 제안된다.
또한, 본 개시의 다양한 실시 예들에 따르면, 음성 비서 서비스 제공 장치(100)가 사용자의 음성 명령에 대해서 디바이스들의 능력(Capability)에 따라 디바이스들을 그룹화하고, 디바이스들이 제공 가능한 서비스들 중에서 최적의 서비스를 선택하여 사용자에게 제안하는 방법이 제안된다.
본 개시의 다양한 실시 예들에 따르면, 음성 비서 서비스 제공 장치(100)는, 사용자의 음성 명령의 컨텍스트에 기초하여 디바이스들이 제공 가능한 서비스들을 활성화하고, 활성화된 서비스들을 제안하는 디바이스들 중 적어도 일부를 그룹화하고, 그룹화된 정보에 기초하여 사용자에게 적합한 서비스를 추천하고 지원할 수 있다.
도 1b는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 블록도의 예를 도시한다.
도 1b는 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100), 제1 디바이스(200-1), 제2 디바이스(200-2), 및 제3 디바이스(200-3)를 포함하는 시스템의 일부 구성 요소를 도시한다. 도 1b에는 음성 비서 서비스 제공 장치(100), 제1 디바이스(200-1), 제2 디바이스(200-2), 및 제3 디바이스(200-3)의 각각의 동작들을 설명하기 위해 필요한 일부 구성 요소들만이 도시 된다. 그러므로, 음성 비서 서비스 제공 장치(100), 제1 디바이스(200-1), 제2 디바이스(200-2), 및 제3 디바이스(200-3)가 포함하는 구성이 도 1b에 도시된 구성들에 한정되는 것은 아니다.
도 1b를 참조하면, 음성 비서 서비스 제공 장치(100), 제1 디바이스(200-1), 제2 디바이스(200-2), 및 제3 디바이스(200-3)는 유선 통신 또는 무선 통신 방식으로 상호 연결되고, 통신을 수행할 수 있다.
일 실시 예에서, 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3)은 상호 간 통신망을 통해 직접 연결될 수 있지만, 이에 한정되는 것은 아니다. 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3)은 음성 비서 서버(미도시)와 연결될 수 있으며, 음성 비서 서비스 제공 장치(100)는 음성 비서 서버를 통해 복수의 디바이스들(200-1, 200-2, 200-3)과 연결될 수 있다. 또한, 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3)은 IoT 서버(미도시)와 연결될 수 있다. 다른 실시 예에서, 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3) 각각은 통신망을 통해 음성 비서 서버와 연결되고, 음성 비서 서버를 통해 IoT 서버와 연결될 수 있다.
이하에서는 설명의 편의를 위하여, 시스템의 동작들이 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3) 간에 수행되는 경우를 예로 들어 설명하나, 본 개시는 이에 한정되지 않는다. 본 개시의 다양한 실시 예들에 따르면, 이하에서 서술되는 음성 비서 서비스 제공 장치(100)와 복수의 디바이스들(200-1, 200-2, 200-3)의 동작들의 적어도 일부는 음성 비서 서버 또는 IoT 서버에서 수행될 수 있다.
도 1b에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자에게 음성 비서 서비스를 제공하기 위하여, 음성 인식 모델(141), 디바이스 판단 모델(142), 서비스 추천 모델(143), 및 응답 메시지 생성 모델(145)을 포함할 수 있다.
음성 인식 모델(141)은, 사용자의 음성 명령이 변환된 텍스트에 대한 자연어 처리를 통해 사용자의 발화 의도를 나타내는 텍스트 해석 결과를 추출할 수 있다.
디바이스 판단 모델(142)은, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서, 사용자의 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다. 예를 들어, 사용자의 음성 명령과 관련된 정보는, 텍스트 해석 결과를 포함할 수 있다.
디바이스 판단 모델(142)은, 사용자의 음성 명령과 관련된 텍스트의 해석 결과에 기초하여, 음성 명령에 포함된 사용자의 의도(intent)를 결정할 수 있다. 디바이스 판단 모델(142)은, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성에 기초하여, 복수의 후보 디바이스들 중에서 음성 명령을 전송할 복수의 디바이스들을 판단할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는 서버로부터 복수의 후보 디바이스들 각각의 식별 정보(예를 들어, 디바이스 ID 정보), 복수의 후보 디바이스들 각각의 디바이스 타입, 복수의 후보 디바이스들 각각의 기능 수행 능력(capability), 위치 정보, 및 상태 정보 중 적어도 하나를 포함하는 디바이스 정보를 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는 디바이스 판단 모델(142)을 이용하여, 수신된 디바이스 정보에 기초하여 복수의 후보 디바이스들 중에서 사용자의 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다.
다른 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는 복수의 후보 디바이스들로부터 직접 복수의 후보 디바이스들 각각의 식별 정보(예를 들어, 디바이스 ID 정보), 복수의 후보 디바이스들 각각의 디바이스 타입, 복수의 후보 디바이스들 각각의 기능 수행 능력, 위치 정보, 및 상태 정보 중 적어도 하나를 포함하는 디바이스 정보를 수신 할 수 있다. 음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 엑세스 포인트에 연결된 복수의 후보 디바이스들을 식별하고, 식별된 복수의 후보 디바이스들에게 디바이스 정보를 요청 하여 디바이스 정보를 획득할 수 있다. 음성 비서 서비스 제공 장치(100)는 디바이스 판단 모델(142)을 이용하여, 획득된 디바이스 정보에 기초하여 복수의 후보 디바이스들 중에서 사용자의 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 판단 결과에 기초하여, 음성 명령과 관련된 정보를 복수의 디바이스들(200-1, 200-2, 200-3)에게 전송할 수 있다.
사용자의 음성 명령과 관련된 정보를 수신한 복수의 디바이스들(200-1, 200-2, 200-3)은, 사용자의 음성 명령과 관련된 정보를 해석하기 위한 음성 인식 모델(241-1, 241-2, 241-3), 및 서비스 제공 메시지 생성 모델(242-1, 242-2, 242-3)를 포함할 수 있다.
음성 인식 모델(241-1, 241-2, 241-3)은, 사용자의 음성 명령과 관련된 정보에 대한 자연어 이해 처리를 수행함으로써 사용자의 발화 의도를 추출할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3) 각각은, 수신된 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 디바이스가 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 서비스 제공 메시지 생성 모델(242-1, 242-2, 242-3)은 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 서비스 제공 메시지 생성 모델(242-1, 242-2, 242-3)은, 사용자의 음성 명령에 적합한 서비스를 결정하고, 결정된 서비스에 기초하여 미리 결정된 형식의 서비스 제공 메시지를 생성하여 전송할 수 있다.
음성 비서 서비스 제공 장치(100)의 서비스 추천 모델(143)은, 복수의 디바이스들(200-1, 200-2, 200-3)로부터 수신된 복수의 서비스 제공 메시지들 중에서 사용자에게 가장 적합한 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
응답 메시지 생성 모델(145)은, 선택된 적어도 하나의 서비스 제공 메시지를 사람이 이해할 수 있는 자연어로 변환하고, 텍스트 형태의 자연어를 음성 신호로 변환하여 출력할 수 있다.
이하에서는 도 2 및 도 3을 참조하여 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 전체적인 동작 방법의 예를 설명한다.
도 2는 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 동작 방법의 신호 흐름도를 도시한다. 도 2는 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)가, 복수의 디바이스들(200-1, 200-2, 200-3)과 연동하는 경우를 예로 들어 도시한다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자로부터 제1 음성 명령을 수신한다(S210). 음성 비서 서비스 제공 장치(100)는, 마이크로폰을 통해 사용자의 제1 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서, 사용자의 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들(200-1,200-2, 200-3)을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령에 대한 자연어 이해 처리를 통해, 사용자의 의도를 결정할 수 있다. 음성 비서 서비스 제공 장치(100)는, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성에 기초하여, 복수의 후보 디바이스들 중에서 복수의 디바이스들(200-1,200-2, 200-3)을 판단할 수 있다.
예를 들어, 음성 비서 서비스 제공 장치(100)는, 외부 서버, 내부 메모리 또는 복수의 후보 디바이스들로부터 복수의 후보 디바이스들에 관한 정보를 획득하고, 획득된 디바이스 정보에 기초하여 사용자의 의도와 복수의 후보 디바이스들 간의 관련성을 판단할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 판단 결과에 기초하여, 복수의 디바이스들(200-1, 200-2, 200-3)에게 제1 음성 명령과 관련된 정보를 전송한다(S220).
복수의 디바이스들(200-1, 200-2, 200-3)에게 전송되는 음성 명령과 관련된 정보는, 사용자의 음성 명령 그 자체의 오디오 신호 또는 음성 명령이 처리된 결과를 포함할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령에 대해 음성 인식을 수행함으로써 제1 음성 명령을 제1 텍스트로 변환하고, 자연어 이해 처리를 통해 제1 텍스트를 해석함으로써 발화 의도를 추출하고, 이를 복수의 디바이스들(200-1, 200-2, 200-3)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3) 각각은, 수신된 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정하고, 결정 결과를 학습할 수 있다. 예를 들어, 각 디바이스는, 디바이스가 제공 가능한 서비스들에 대한 정보, 디바이스를 구성하는 장치들에 대한 정보, 제1 음성 명령이 요청하는 서비스의 종류, 현재 시간 정보, 및 디바이스의 위치 정보 중 적어도 하나에 기초하여, 수신된 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3) 각각은, 음성 비서 서비스 제공 장치(100)로부터 수신된 제1 음성 명령과 관련된 정보, 제1 음성 명령에 응답하여 디바이스가 서비스를 제공할 수 있는 지 여부에 대해 결정한 정보, 및 상황 정보(예를 들어, 사용자의 위치 정보, 음성 비서 서비스 제공 장치(100)의 위치 정보, 디바이스의 위치 정보, 현재 시간 정보 등)를 학습할 수 있다. 디바이스는, 자체적으로 학습이 가능할 경우, 음성 명령과 관련된 정보들을 자체적으로 학습할 수 있다. 자체적으로 학습이 불가능할 경우, 디바이스는 서버(또는 클라우드)와 연동하여 음성 명령과 관련된 정보들을 학습할 수 있다.
예를 들어 도 2에 도시된 바와 같이 단계 S231에서 제1 디바이스(200-1)는 제1 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다. 단계 S232에서 제2 디바이스(200-2)는 제1 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정할 수 있다. 단계 S233에서 제3 디바이스(200-3)는 제1 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다.
디바이스가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 서비스 제공 메시지는, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 음성 명령과 관련된 정보에 응답하여, 디바이스가 출력하는 메시지를 의미한다.
예를 들어, 서비스 제공 메시지는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 디바이스가 음성 명령과 관련된 소정 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 음성 명령에 응답하여 디바이스가 제공하는 소정 서비스의 식별 정보, 소정 서비스의 종류, 소정 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보, 및 디바이스가 제안하는 서비스와 관련된 결과 텍스트 중 적어도 하나를 포함할 수 있다.
도 2의 단계 S241에서 제1 디바이스(200-1)는 제1 음성 명령과 관련된 정보에 응답하여 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 도 2의 단계 S243에서 제3 디바이스(200-3)는 제1 음성 명령과 관련된 정보에 응답하여 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
본 개시의 일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)와 연결된 디바이스는 사용자의 음성 명령에 적합한 서비스를 결정하고, 결정된 서비스에 기초하여 미리 결정된 형식의 서비스 제공 메시지를 생성하여 전송할 수 있다. 디바이스는 서비스 제공 메시지를 전송함으로써, 음성 비서 서비스 제공 장치(100)에게 사용자의 음성 명령에 적합하다고 결정된 서비스를 제안할 수 있다.
또한, 제1 디바이스(200-1) 및 제3 디바이스(200-3)은, 제1 음성 명령에 응답하는 서비스 제공 메시지에 더불어, 디바이스의 서비스 제공 이력 정보 및 디바이스의 장치 정보 중 적어도 하나를 더 전송할 수 있다.
서비스 제공 이력 정보는, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 소정 음성 명령과 관련된 정보에 응답하여, 디바이스가 제공하거나 제안하였던 서비스와 관련된 과거 이력에 관한 정보를 의미한다. 예를 들어, 서비스 제공 이력 정보는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 사용자에 의해 선택되었던 횟수, 및 음성 명령에 대해서 소정 서비스가 선택되었을 때의 상황 정보(예를 들어, 시간 정보, 위치 정보 등) 중 적어도 하나를 포함할 수 있다.
장치 정보는, 디바이스를 구성하는 장치들에 대한 정보를 의미한다. 구체적으로, 장치 정보는, 사용자로부터 사용자 입력을 수신하거나 사용자에게 정보를 제공하기 위한 입출력 인터페이스를 디바이스가 포함하고 있는 지 여부, 및 각 입출력 인터페이스의 성능과 관련된 정보를 포함할 수 있다. 예를 들어, 장치 정보는, 디바이스가 디스플레이를 포함하는 지 여부, 해당 디스플레이가 지원하는 해상도, 디바이스가 마이크로폰을 포함하는 지 여부, 해당 마이크로폰이 지원하는 음질, 디바이스가 스피커를 포함하는 지 여부, 해당 스피커가 지원하는 음질, 및 디바이스가 제공 가능한 서비스의 분야 중 적어도 하나에 대한 정보를 포함할 수 있다.
단계 S250에서 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 서비스 제공 메시지들에 기초하여 디바이스들을 그룹화 할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 디바이스들을, 제1 음성 명령에 관련된 제1 그룹으로서 결정할 수 있다. 도 2를 참조하면, 음성 비서 서비스 제공 장치(100)는 서비스 제공 메시지를 전송한 제1 디바이스(200-1) 및 제3 디바이스(200-3)를 제1 그룹으로 결정하고, 제1 디바이스(200-1) 및 제3 디바이스(200-3)에게 해당 디바이스들을 제1 그룹으로 지정한다는 메시지를 전송할 수 있다(S260).
단계 S270에서 음성 비서 서비스 제공 장치(100)는, 제1 디바이스(200-1) 및 제3 디바이스(200-3)가 하나의 그룹으로 지정된 결과에 기초하여, 적어도 하나의 서비스 제공 메시지를 선택하고 응답 메시지를 출력할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 그룹으로 결정된 제1 디바이스(200-1) 및 제3 디바이스(200-3)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 적어도 하나의 서비스 제공 메시지에 기초하여 응답 메시지를 생성하고 출력할 수 있다.
음성 비서 서비스 제공 장치(100)는, 인공 지능 모델인 서비스 추천 모델을 이용하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다. 서비스 추천 모델은, 제1 음성 명령, 제1 음성 명령에 대한 복수의 디바이스들의 서비스 제공 이력 및 복수의 디바이스들의 장치 정보에 의해 학습된 인공 지능 알고리즘일 수 있다.
일 예로서, 음성 비서 서비스 제공 장치(100)는, 제1 그룹으로 결정된 제1 디바이스(200-1) 및 제3 디바이스(200-3)의 서비스 제공 메시지들 중에서 사용자에게 가장 적합한 하나의 서비스 제공 메시지를 선택하고, 선택된 서비스 제공 메시지에 기초하여 응답 메시지를 출력할 수 있다.
예를 들어, 음성 비서 서비스 제공 장치(100)는 “음악을 재생해”라는 음성 명령을 수신하고, 연결된 디바이스들에게 음성 명령과 관련된 정보를 전송할 수 있다. 음성 비서 서비스 제공 장치(100)는, 음성 명령에 응답하여, TV 및 스마트 폰으로부터 음악 재생이 가능하다는 정보를 포함하는 서비스 제공 메시지들 및 음악 재생을 위한 스피커 성능에 대한 정보를 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, TV 및 스마트 폰의 장치 정보에 기초하여, 스피커 성능이 더 좋은 TV로부터 수신되는 서비스 제공 메시지를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여 “TV를 통해 음악을 재생하겠습니다”라는 응답 메시지를 출력하고, 음악을 재생하도록 TV를 제어할 수 있다.
다른 예로서, 음성 비서 서비스 제공 장치(100)는, 제1 그룹으로 결정된 제1 디바이스(200-1) 및 제3 디바이스(200-3)의 서비스 제공 메시지들을 조합하여 하나의 응답 메시지를 생성하고 출력할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, TV 및 스마트 폰으로부터 수신된 서비스 제공 메시지들을 조합하여 “TV를 통해 음악을 재생하거나, 스마트 폰을 통해 음악을 재생할 수 있습니다”라는 응답 메시지를 출력할 수 있다.
사용자는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용할 지 여부를 결정할 수 있다. 단계 S280에서 음성 비서 서비스 제공 장치(100)는, 사용자로부터 제2 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제2 음성 명령에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정하였는 지 여부를 판단할 수 있다.
단계 S290에서 음성 비서 서비스 제공 장치(100)는, 사용자에 의해 선택된 서비스를 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)가 사용자에게 추천한 서비스가 선택 되었는 지, 음성 비서 서비스 제공 장치(100)가 추천한 서비스 이외의 서비스가 선택 되었는 지를 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스와 관련된 정보를 제1 그룹으로 결정된 제1 디바이스(200-1) 및 제3 디바이스(200-3)에게 전송할 수 있다(S291). 제1 디바이스(200-1) 및 제3 디바이스(200-3)는 선택된 서비스와 관련된 정보를 학습할 수 있다(S293, S295). 제1 디바이스(200-1) 및 제3 디바이스(200-3)는, 사용자에 의해 선택된 서비스와 관련된 정보에 기초하여, 서비스 제공 이력 정보에 포함되는 ‘서비스가 사용자에 의해 선택되었던 횟수’ 또는 ‘서비스가 사용자에 의해 선택되지 않았던 횟수’를 갱신할 수 있다. 디바이스들은, 사용자에 의해 선택되는 서비스를 학습함으로써, 사용자가 선호하는 최적의 서비스를 제안할 수 있다.
도 2에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 서비스 제공 메시지들에 기초하여 제1 음성 명령에 관련된 디바이스들을 제1 그룹으로 그룹화 할 수 있다. 제1 디바이스(200-1) 및 제3 디바이스(200-3)는, 단계 S260에서 수신된 메시지에 기초하여, 제1 음성 명령과 관련된 제1 그룹에 제1 디바이스(200-1) 및 제3 디바이스(200-3)가 포함됨을 학습할 수 있다. 제1 음성 명령과 관련된 그룹화 정보를 학습한 음성 비서 서비스 제공 시스템은 도 3에 도시된 바와 같이 동작할 수 있다.
도 3은 본 개시의 일 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 동작 방법의 신호 흐름도를 도시한다. 도 3은, 도 2에 도시된 음성 비서 서비스 제공 시스템에 제4 디바이스(200-4)가 추가된 경우를 예로 들어 도시한다. 도 3에 도시된 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)과 연동한다.
도 3의 단계 S310에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 도 2의 단계 S210에서 수신한 제1 음성 명령과 동일한 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 마이크로폰을 통해 사용자의 제1 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서, 사용자의 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)을 판단할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 판단 결과에 기초하여, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)에게 제1 음성 명령과 관련된 정보를 전송한다(S320).
복수의 디바이스들(200-1, 200-2, 200-3, 200-4)에게 전송되는 음성 명령과 관련된 정보는, 사용자의 음성 명령 그 자체의 오디오 신호 또는 음성 명령이 처리된 결과를 포함할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령에 대해 음성 인식을 수행함으로써 제1 음성 명령을 제1 텍스트로 변환하고, 자연어 이해 처리를 통해 제1 텍스트를 해석함으로써 발화 의도를 추출하고, 이를 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3, 200-4) 각각은, 수신된 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 예를 들어 도 3에 도시된 바와 같이 단계 S331에서 제1 디바이스(200-1)는 제1 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다. 단계 S332에서 제2 디바이스(200-2)는 제1 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정할 수 있다. 단계 S333에서 제3 디바이스(200-3)는 제1 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다. 단계 S334에서 제4 디바이스(200-4)는 제1 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다.
디바이스가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)는 제1 음성 명령과 관련된 정보에 응답하여 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다(S341, S343, S344).
제1 디바이스(200-1)는, 도 2의 단계 S260에서 수신된 메시지에 기초하여, 제1 음성 명령과 관련된 제1 그룹에 제1 디바이스(200-1)가 포함됨을 학습한 바 있다. 따라서, 도 3의 단계 S341에서 제1 디바이스(200-1)가 전송하는 서비스 제공 메시지는, 제1 디바이스(200-1)가 제1 음성 명령과 관련된 제1 그룹에 포함된다는 정보를 포함할 수 있다. 제3 디바이스(200-3) 역시 단계 S260에서 수신된 메시지에 기초하여, 제1 음성 명령과 관련된 제1 그룹에 제3 디바이스(200-3)가 포함됨을 학습하였다. 따라서, 단계 S343에서 제3 디바이스(200-3)가 전송하는 서비스 제공 메시지는, 제3 디바이스(200-3)가 제1 음성 명령과 관련된 제1 그룹에 포함된다는 정보를 포함할 수 있다. 다만, 제4 디바이스(200-4)는, 새롭게 추가 되었으므로, 제1 음성 명령과 관련된 그룹 정보를 학습한 바 없다. 따라서, 단계 S344에서 제4 디바이스(200-4)가 전송하는 서비스 제공 메시지는, 제4 디바이스(200-4)가 제1 음성 명령과 관련된 제1 그룹에 포함되지 않는다는 정보를 포함할 수 있다.
단계 S350에서 음성 비서 서비스 제공 장치(100)는, 그룹 정보에 기초하여, 적어도 하나의 서비스 제공 메시지를 선택하고 응답 메시지를 출력할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)가 전송한 서비스 제공 메시지들에 기초하여, 제1 디바이스(200-1) 및 제3 디바이스(200-3)가 제1 그룹에 포함됨을 결정할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 그룹으로 결정된 제1 디바이스(200-1) 및 제3 디바이스(200-3)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 적어도 하나의 서비스 제공 메시지에 기초하여 응답 메시지를 생성하고 출력할 수 있다.
도 3에서 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 모든 데이터들을 분석하여 디바이스들을 그룹화하는 동작을 수행하지 않고도, 디바이스들로부터 수신되는 서비스 제공 메시지들에 기초하여 그룹 정보를 획득할 수 있다. 따라서, 도 2과 비교하였을 때 도 3에 도시된 동작 방법에 따르면, 음성 비서 서비스 제공 장치(100)는 보다 빠르게 적어도 하나의 서비스 제공 메시지를 선택하고 응답 메시지를 출력할 수 있다.
도 3에는 음성 비서 서비스 제공 장치(100)가 4 개의 디바이스들과 연결하여 동작하는 경우가 예로 도시 되었지만, 실제로는 훨씬 더 많은 수의 디바이스들과 연결하여 동작할 수 있다. 음성 비서 서비스 제공 장치(100)가 많은 수의 디바이스들과 연결하여 동작할 수록, 디바이스들로부터 수신되는 데이터(예를 들어, 서비스 제공 메시지, 서비스 제공 이력, 및 장치 정보 등)의 양이 많아 진다. 따라서, 음성 비서 서비스 제공 장치(100)가 많은 양의 데이터를 모두 분석하여, 디바이스들 중 적어도 일부를 음성 명령과 관련된 그룹에 포함되는 것으로 그룹화 하는데 시간이 많이 소요된다. 그러나 도 3에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 모든 데이터들을 분석하지 않고도, 디바이스들이 미리 학습한 그룹 정보를 서비스 제공 메시지를 통해 획득함으로써 보다 빠르게 디바이스들을 그룹화 할 수 있다.
단계 S350에서 응답 메시지를 출력한 후에, 단계 S360에서 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 서비스 제공 메시지, 서비스 제공 이력, 및 장치 정보들을 분석하여 디바이스들을 다시 그룹화 할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 디바이스들을, 제1 음성 명령에 관련된 제1 그룹으로서 결정할 수 있다. 도 3을 참조하면, 음성 비서 서비스 제공 장치(100)는, 제1 디바이스(200-1), 제3 디바이스(200-3)가 포함되었던 제1 그룹에 제4 디바이스(200-4)가 더 포함되는 것으로 그룹 정보를 업데이트할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)에게 업데이트된 그룹 정보를 전송할 수 있다(S370).
사용자는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용할 지 여부를 결정할 수 있다. 단계 S380에서 음성 비서 서비스 제공 장치(100)는, 사용자로부터 제2 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제2 음성 명령에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정 하였는 지 여부를 판단할 수 있다.
단계 S390에서 음성 비서 서비스 제공 장치(100)는, 사용자에 의해 선택된 서비스를 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)가 사용자에게 추천한 서비스가 선택 되었는 지, 음성 비서 서비스 제공 장치(100)가 추천한 서비스 이외의 서비스가 선택 되었는 지를 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스와 관련된 정보를 제1 그룹으로 결정된 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)에게 전송할 수 있다(S391). 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)는 선택된 서비스와 관련된 정보를 학습할 수 있다(S393, S394, S395). 제1 디바이스(200-1), 제3 디바이스(200-3), 및 제4 디바이스(200-4)는, 사용자에 의해 선택된 서비스와 관련된 정보에 기초하여, 서비스 제공 이력 정보에 포함되는 ‘서비스가 사용자에 의해 선택되었던 횟수’ 또는 ‘서비스가 사용자에 의해 선택되지 않았던 횟수’를 갱신할 수 있다. 디바이스들은, 사용자에 의해 선택되는 서비스를 학습함으로써, 사용자가 선호하는 최적의 서비스를 제안할 수 있다.
상술한 바와 같이 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 디바이스들의 능력에 따라 디바이스들을 그룹화하고, 그룹에 포함되는 디바이스들이 제공 가능한 서비스들 중에서 최적의 서비스를 선택하여 사용자에게 제안함으로써, 빠르고 정확한 대화 서비스를 제공할 수 있다.
이하에서는, 음성 비서 서비스 제공 장치(100)가 서비스를 제공하기 위해 동작하는 방법을 구체적으로 살펴본다.
도 4는 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 방법의 흐름도를 도시한다.
단계 S410에서 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자로부터 제1 음성 명령을 수신할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서, 사용자의 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령을 제1 텍스트로 변환하고, 변환된 제1 텍스트를 해석할 수 있다. 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 이용하여, 복수의 후보 디바이스들 중에서 해석된 텍스트와 관련된 복수의 디바이스들을 결정할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는, 자연어 이해 모델을 이용하여 텍스트를 분석하고, 텍스트의 분석 결과에 기초하여 사용자의 의도를 결정하고, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 수 있는 복수의 디바이스들을 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성에 기초하여, 복수의 후보 디바이스들 중에서 제1 음성 명령을 전송할 복수의 디바이스들을 판단할 수 있다.
예를 들어, 음성 비서 서비스 제공 장치(100)는, 복수의 후보 디바이스들에 관한 디바이스 정보를 획득하고, 디바이스 정보에 기초하여, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성 정도를 나타내는 복수의 확률값들을 획득할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 후보 디바이스들 중에서, 임계값 이상의 확률값들을 갖는 복수의 디바이스들을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는 사용자의 의도와 복수의 후보 디바이스들 간의 관련성을 판단하는 매칭 모델에 기초하여, 텍스트로부터 인식된 사용자의 의도와 관련된 복수의 디바이스들을 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 통해, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 높은 복수의 디바이스들을 판단할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는 사용자의 의도에 매칭 모델을 적용함으로써, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성 정도를 나타내는 복수의 확률값들을 획득할 수 있다. 음성 비서 서비스 제공 장치(100)는, 획득된 복수의 확률값들 중 높은 값을 갖는 복수의 디바이스들에게 음성 명령과 관련된 정보를 전송할 것을 결정할 수 있다.
일 예로서, 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 통해, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 높은 미리 결정된 개수의 복수의 디바이스들을 판단할 수 있다. 다른 예로서, 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 통해, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 임계 값 이상인 디바이스들을 모두 음성 명령과 관련된 정보를 전송할 복수의 디바이스들로서 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 예를 들어, 룰 베이스 시스템(rule-based system)을 이용하여 사용자의 의도와 후보 디바이스들 간의 매칭 모델을 학습할 수 있으나, 이에 한정되는 것은 아니다. 음성 비서 서비스 제공 장치(100)가 이용하는 인공지능 모델은 예를 들어, 신경망 베이스 시스템(neural network-based system)(예: 컨볼루션 신경망(convolution neural network; CNN, 순환 신경망(recurrent neural network; RNN), SVM(Support Vector Machine), 선형 회귀(linear regression), 로지스틱 회귀(logistic regression), 나이브베이즈 분류(Na
Figure pat00001
ve Bayes), 랜덤 포레스트(random forest), decision tree, 또는 k-nearest neighbor algorithm 일 수 있다. 또는, 전술한 것의 조합 또는 이와 다른 인공지능 모델일 수도 있다.
한편, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자의 제1 음성 명령 내에 소정 디바이스가 명시되거나, 소정 디바이스의 서비스에 대한 요청이 명시되거나, 소정 디바이스와 관련된 정보가 포함되는 경우, 복수의 후보 디바이스들 중에서 소정 디바이스에게 제1 음성 명령을 전송할 것을 결정할 수 있다. 또는, 음성 비서 서비스 제공 장치(100)는, 복수의 후보 디바이스들 중에서 소정 디바이스와 연관된 복수의 디바이스들에게 제1 음성 명령을 전송할 것을 결정할 수 있다. 이처럼 음성 명령에 서비스를 요청하는 대상 디바이스가 분명하게 명시되는 경우, 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 이용하지 않고, 간단하게 음성 명령을 전달할 디바이스를 판단할 수 있다.
단계 S420에서 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령과 관련된 정보를 복수의 디바이스들에게 전송할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령과 관련된 정보를 복수의 디바이스들에게 브로드캐스팅할 수 있다.
복수의 디바이스들에게 전송되는 "제1 음성 명령과 관련된 정보"는, 사용자의 음성 명령 그 자체의 오디오 신호 또는 음성 명령이 처리된 결과를 포함할 수 있다. 예를 들어, 음성 명령이 처리된 결과는, 사용자의 음성 명령으로부터 추출된 특징 벡터, 사용자의 음성 명령이 변환된 텍스트, 해당 텍스트가 자연어 이해(NLU) 처리를 거쳐 출력된 결과, 해당 텍스트가 해석된 결과에 기초하여 결정되는 음성 명령이 요청하는 서비스의 종류, 사용자의 음성 명령의 음량(volume), 및 사용자의 음성 명령의 SNR 중 적어도 하나를 포함할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령을 제1 텍스트로 변환하고, 변환된 제1 텍스트를 해석할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 텍스트를 해석한 결과 및 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 텍스트를 해석한 결과에 기초하여, 제1 음성 명령이 요청하는 서비스의 종류가 알림(Notification)인지 동작 수행(Action)인지 여부를 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령이 디바이스가 소정 동작(예를 들어, 미디어의 재생, 녹화, 전원의 온오프 등)을 수행할 것을 요청한다고 판단되는 경우, 제1 음성 명령이 요청하는 서비스의 종류가 "동작 수행"이라고 판단할 수 있다. 예를 들어, "음악 틀어줘"라는 사용자의 음성 명령이 수신되면, 음성 비서 서비스 제공 장치(100)는 음성 명령이 요청하는 서비스의 종류가 "동작 수행"이라고 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 음성 명령이 디바이스가 소정 동작을 수행할 것을 요청하는 것이 아니라고 판단되는 경우, 제1 음성 명령이 요청하는 서비스의 종류가 "알림"이라고 판단할 수 있다. 예를 들어, "배고픈데 뭐 먹을까"라는 사용자의 음성 명령이 수신되면, 음성 비서 서비스 제공 장치(100)는 음성 명령이 요청하는 서비스의 종류가 "알림"이라고 판단할 수 있다.
단계 S430에서 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들 각각으로부터 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 복수의 디바이스들의 서비스 제공 이력 정보를 수신할 수 있다.
각 디바이스로부터 수신되는 "서비스 제공 메시지"는, 디바이스가 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 디바이스가 제1 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 제1 음성 명령에 응답하여 제1 디바이스가 제공하는 제1 서비스의 식별 정보, 제1 서비스의 종류, 및 제1 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함할 수 있다.
각 디바이스로부터 수신되는 "서비스 제공 이력 정보"는, 디바이스가 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 제1 음성 명령에 대해서 제1 디바이스가 제안했던 제1 서비스가 사용자에 의해 선택되었던 횟수, 제1 음성 명령에 대해서 제1 디바이스가 제안했던 제1 서비스가 사용자에 의해 선택되지 않았던 횟수 및 제1 음성 명령에 대해서 제1 서비스가 선택되었을 때의 상황 정보 중 적어도 하나를 포함할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들로부터 서비스 제공 메시지들 및 서비스 제공 이력 정보와 함께, 각 디바이스를 구성하는 장치정보를 더 수신할 수 있다.
“장치 정보”는, 디바이스를 구성하는 장치들에 대한 정보를 의미한다. 구체적으로, 장치 정보는, 사용자 입력을 수신하거나 사용자에게 정보를 제공하기 위한 입출력 인터페이스를 디바이스가 포함하고 있는 지 여부, 및 각 입출력 인터페이스의 성능과 관련된 정보를 포함할 수 있다. 예를 들어, 장치 정보는, 디바이스가 디스플레이를 포함하는 지 여부, 해당 디스플레이가 지원하는 해상도, 디바이스가 마이크로폰을 포함하는 지 여부, 해당 마이크로폰이 지원하는 음질, 디바이스가 스피커를 포함하는 지 여부, 해당 스피커가 지원하는 음질, 및 디바이스가 제공 가능한 서비스의 분야 중 적어도 하나에 대한 정보를 포함할 수 있다.
단계 S440에서 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 기초하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지 및/또는 서비스 제공 이력에 기초하여, 복수의 디바이스들 중에서 제1 그룹에 포함되는 디바이스들을 식별할 수 있다.
일 예로서, 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제1 음성 명령과 관련된 그룹 정보를 학습한 바 없는 경우, 복수의 디바이스들로부터 수신하는 서비스 제공 이력 정보를 분석하고, 분석 결과에 기초하여 사용자의 제1 음성 명령에 대응하는 제1 그룹에 포함되는 디바이스들을 결정할 수 있다. 음성 비서 서비스 제공 장치(100)는, 각 디바이스가 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부에 대한 정보(isSupported데이터)를 서비스 제공 이력 정보로부터 획득할 수 있다.
다른 예로서, 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제1 음성 명령과 관련된 그룹 정보를 학습한 경우, 복수의 디바이스들로부터 수신되는 서비스 제공 메시지들에 포함되는 그룹 정보에 기초하여 제1 그룹에 포함되는 디바이스들을 식별할 수 있다.
음성 비서 서비스 제공 장치(100)는, 제1 그룹에 포함되는 것으로 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여, 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 더불어 복수의 디바이스들의 장치 정보를 더 고려하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 서비스 추천 모델을 이용하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다. 서비스 추천 모델은, 소정 음성 명령, 소정 음성 명령에 대한 복수의 디바이스들의 서비스 제공 이력 및 복수의 디바이스들 각각의 장치 정보에 의해 학습된 인공 지능 알고리즘일 수 있다. 음성 비서 서비스 제공 장치(100)는, 디바이스들이 제안하는 서비스들 중에서 사용자가 가장 선호하는 서비스를 선택하여 추천할 수 있도록 학습된다.
일 예로서, 음성 비서 서비스 제공 장치(100)는, 적어도 하나의 서비스 제공 메시지를 선택하기 위하여, 서비스 제공 이력 정보 및/또는 장치 정보에 기초하여, 복수의 서비스 제공 메시지들에 우선 순위 또는 가중치를 부여할 수 있다. 음성 비서 서비스 제공 장치(100)는, 각 디바이스가 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 복수의 서비스 제공 메시지들에 우선 순위 또는 가중치를 부여할 수 있다. 음성 비서 서비스 제공 장치(100)는, 부여된 우선 순위 또는 가중치에 기초하여, 복수의 서비스 제공 메시지들 중 하나를 선택할 수 있다.
다른 예로서, 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보 및/또는 장치 정보에 따라 부여된 우선 순위 또는 가중치에 기초하여, 복수의 서비스 제공 메시지들 중 둘 이상의 서비스 제공 메시지들을 선택할 수 있다.
단계 S450에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 선택된 결과에 기초하여, 제1 음성 명령에 응답하는 응답 메시지를 출력할 수 있다.
복수의 디바이스들로부터 수신되는 복수의 서비스 제공 메시지들은, 제1 음성 명령에 응답하여 복수의 디바이스들 각각이 제공하는 서비스와 관련된 정보를 포함할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 적어도 하나의 서비스 제공 메시지 내의 적어도 하나의 서비스와 관련된 정보를 포함하도록 응답 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)는, 응답 메시지를 출력할 수 있다.
한편, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자의 제1 음성 명령 내에 소정 디바이스가 명시되거나, 소정 디바이스의 서비스에 대한 요청이 명시되거나, 소정 디바이스와 관련된 정보가 포함되는 경우, 단계 S410 내지 S440의 수행을 생략할 수 있다. 음성 비서 서비스 제공 장치(100)는, 소정 디바이스에게 제1 음성 명령과 관련된 정보를 전송하고, 소정 디바이스로부터 서비스 제공 메시지를 수신하고, 수신된 서비스 제공 메시지 내의 서비스와 관련된 정보를 포함하도록 응답 메시지를 생성하고 출력할 수 있다. 이처럼 음성 명령에 서비스를 요청하는 대상 디바이스가 분명하게 명시되는 경우, 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델 및/또는 서비스 추천 모델을 이용하지 않고, 간단하게 응답 메시지를 생성할 수 있다.
도 5는 일 실시 예에 따라 음성 비서 서비스 제공 장치(100)가 음성 비서 서비스를 제공하는 구체적인 방법에 있어서, 도 4의 단계 S440을 구체화한 흐름도를 도시한다. 따라서, 단계 S410 내지 S430과 관련하여 도 4와 중복되는 설명은 생략한다.
단계 S541에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들 중에서 제1 그룹에 포함되는 디바이스들을 식별할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들로부터 수신되는 서비스 제공 메시지들 또는 서비스 제공 이력 정보에 기초하여 제1 그룹에 포함되는 디바이스들을 식별할 수 있다.
예를 들어, 음성 비서 서비스 제공 장치(100)는, 디바이스가 제1 음성 명령과 관련된 제1 그룹에 포함되는 지 여부에 대한 정보를 서비스 제공 메시지로부터 획득하고, 획득된 정보에 기초하여 해당 디바이스가 제1 그룹에 포함되는 것으로 판단할 수 있다.
또는, 예를 들어, 음성 비서 서비스 제공 장치(100)는, 디바이스가 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부에 대한 정보를 서비스 제공 이력 정보로부터 획득하고, 획득된 정보에 기초하여 해당 디바이스가 제1 그룹에 포함되는 것으로 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 디바이스가 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부에 대한 정보(e.g. isSupported 플래그)를 서비스 제공 이력 정보로부터 획득할 수 있다.
단계 S543에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 제1 그룹에 포함되는 것으로 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여, 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 적어도 하나의 서비스 제공 메시지를 선택함에 있어서, 복수의 디바이스들의 장치 정보를 더 고려할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는, 제1 그룹의 디바이스들로부터 수신되는 서비스 제공 메시지들을 모두 선택할 수 있다.
다른 일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보 및/또는 장치 정보에 기초하여, 제1 그룹의 서비스 제공 메시지들에게 우선 순위를 부여하거나 가중치를 부여하고, 부여된 우선 순위 또는 가중치에 따라서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 일 예로서, 음성 비서 서비스 제공 장치(100)는, 가장 높은 우선 순위가 부여된 하나의 서비스 제공 메시지를 선택하거나, 상대적으로 높은 우선 순위가 부여된 복수의 서비스 제공 메시지들을 선택할 수 있다. 다른 예로서, 음성 비서 서비스 제공 장치(100)는, 부여된 가중치가 임계값 이상인 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
단계 S450에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 단계 S543에서 선택된 결과에 기초하여, 제1 음성 명령에 응답하는 응답 메시지를 출력할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 선택된 적어도 하나의 서비스 제공 메시지 내의 적어도 하나의 서비스와 관련된 정보를 포함하도록 응답 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 적어도 하나의 서비스 제공 메시지를 사람이 이해할 수 있는 자연어로 변환하는 자연어 생성(Natural Language Generation) 과정 및 텍스트 형태의 자연어를 음성 신호로 변환하는 텍스트-스피치 변환(TTS) 과정을 거쳐 응답 메시지를 생성할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 단계 S543에서 둘 이상의 서비스 제공 메시지가 선택된 경우, 선택된 서비스 제공 메시지들을 나열 하여 하나의 응답 메시지를 생성하고 출력할 수 있다.
다른 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 단계 S543에서 둘 이상의 서비스 제공 메시지가 선택된 경우, 선택된 서비스 제공 메시지들을 조합하여 하나의 응답 메시지를 생성하고 출력할 수 있다.
사용자는 제1 음성 명령에 응답하는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 추천하는 서비스를 수용할 지 여부를 결정할 수 있다. 사용자는 결정에 기초하여 제2 음성 명령을 발화할 수 있다.
단계 S560에서 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자로부터 제2 음성 명령을 수신할 수 있다.
단계 S570에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자로부터 수신되는 제2 음성 명령에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 추천하는 서비스를 수용하기로 결정 하였는 지 여부를 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제2 음성 명령에 기초하여, 복수의 디바이스들이 제공하는 서비스들 중에서 사용자에 의해 선택된 서비스를 결정할 수 있다.
단계 S580에서 음성 비서 서비스 제공 장치(100)는, 사용자에 의해 선택된 서비스와 관련된 정보를 복수의 디바이스들에게 전송할 수 있다. 음성 비서 서비스 제공 장치(100)는, 사용자에 의해 선택된 서비스와 관련된 정보를 단계 S541에서 제1 그룹에 포함되는 것으로 식별된 디바이스들에게 전송할 수 있다.
단계 S590에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자에 의해 선택된 서비스와 관련된 정보에 기초하여, 서비스 추천 모델을 학습할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제공하는 다양한 서비스들 중에서 사용자가 선호하는 최적의 서비스를 제안하기 위하여, 사용자의 음성 명령에 의해 계속적으로 서비스 추천 모델을 학습할 수 있다.
도 5를 참조하면, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자의 제2 음성 명령에 기초하여 사용자에 의해 선택된 서비스를 결정한다. 그러나, 본 개시의 다양한 실시 예들은 도 5에 도시된 예에 제한되지 않는다.
다른 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자의 동작을 감지하거나, 사용자 입력을 수신함으로써, 사용자에 의해 선택된 서비스를 판단할 수 있다. 예를 들어, 스마트 폰 또는 웨어러블 디바이스와 같이 사용자로부터 터치 입력을 수신할 수 있는 디바이스는, 사용자의 터치 입력에 기초하여 사용자가 제안 받은 서비스를 선택 하였는 지 여부를 판단할 수 있다.
예를 들어, “뭐 먹을까?”라는 제1 음성 명령에 응답하여, 음성 비서 서비스 제공 장치(100)는 “냉장고에 삼겹살이 있습니다"라는 응답 메시지를 출력할 수 있다. 사용자는 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정한 경우, 사용자는 냉장고에서 삼겹살을 꺼낼 수 있다. 음성 비서 서비스 제공 장치(100)는, 냉장고에서 삼겹살을 꺼내는 사용자의 행위에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정 하였다고 판단할 수 있다.
한편, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 디바이스들로부터 디바이스 정보를 획득할 수 있다. 예를 들어, 디바이스 정보는, 리소스 정보 및/또는 능력(capability) 정보를 포함할 수 있다. 디바이스의 리소스 정보는, 기억 장치, 입출력 장치, 또는 중앙 연산 처리 장치 등 해당 디바이스의 동작을 위해 필요로 하는 구성 요소에 대한 정보를 포함할 수 있다. 디바이스의 능력 정보는, 디바이스가 수행할 수 있는 기능 정보, 디바이스에서 구동되는 소프트웨어의 버전 정보, 또는 디바이스의 구성 요소의 성능과 관련된 정보 등을 포함할 수 있다.예를 들어, 음성 비서 서비스 제공 장치(100)는, 새로운 디바이스가 추가적으로 연결될 때, 새롭게 연결된 디바이스로부터 해당 디바이스에 대한 디바이스 정보를 획득할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들의 디바이스 정보에 기초하여, 도 4를 참조하여 상술한 동작들보다 많은 동작을 수행하고, 음성 비서 서비스 제공에 있어서 보다 주도적인 역할을 수행할 수 있다. 즉, 본 개시에서 서술되는 디바이스의 동작 및/또는 기능의 적어도 일부가 음성 비서 서비스 제공 장치(100)에 의해 수행될 수 있다.
예를 들어, 소정 디바이스의 리소스(예를 들어, 중앙 처리 장치의 용량 또는 메모리 저장 공간 등)가 부족한 경우, 소정 디바이스가 서비스 제공 이력 정보를 관리할 수 없을 수 있다. 음성 비서 서비스 제공 장치(100)는, 소정 디바이스로부터 수신된 디바이스 정보에 기초하여, 소정 디바이스로부터 서비스 제공 이력 정보 수신이 어렵고, 서비스 제공 메시지만 수신 가능하다고 판단할 수 있다. 또는, 음성 비서 서비스 제공 장치(100)는, 소정 디바이스로부터 수신된 디바이스 정보에 기초하여, 소정 디바이스로부터 서비스 제공 이력 정보의 일부만 수신 가능하다고 판단할 수 있다.
이러한 경우, 서비스 제공 이력 정보에 기초하여 소정 디바이스가 음성 명령과 관련된 그룹에 포함되는 지 여부를 판단할 수 없으므로, 일 예로서 음성 비서 서비스 제공 장치(100)는, 소정 디바이스는 음성 명령과 관련된 그룹에 디폴트로 포함되는 것으로 판단할 수 있다. 또한, 음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지 선택에 소정 디바이스의 서비스 제공 이력 정보를 고려할 수 없으므로, 복수의 서비스 제공 메시지들 중에서 소정 디바이스의 서비스 제공 메시지는 항상 선택되는 디폴트 값으로서 설정할 수 있다. 또 다른 예로서, 음성 비서 서비스 제공 장치(100)가 소정 후보 디바이스의 서비스 제공 이력 정보를 직접 관리할 수 있다.
이하에서는, 음성 비서 서비스 제공 장치(100)를 통해 사용자와 상호작용하는 디바이스가 음성 비서 서비스 제공 장치(100)에게 서비스와 관련된 정보를 제공하는 방법을 구체적으로 살펴본다.
도 6은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치를 통해 사용자와 상호 작용하는 디바이스의 동작 방법의 흐름도를 도시한다.
단계 S610에서 일 실시 예에 따른 디바이스(200)는, 음성 비서 서비스 제공 장치(100)로부터 제1 음성 명령과 관련된 정보를 수신할 수 있다.
디바이스(200)가 음성 비서 서비스 제공 장치(100)로부터 수신하는 제1 음성 명령과 관련된 정보는, 사용자의 음성 명령 그 자체의 오디오 신호 또는 음성 명령이 처리된 결과를 포함할 수 있다. 예를 들어, 음성 명령이 처리된 결과는, 사용자의 음성 명령으로부터 추출된 특징 벡터, 사용자의 음성 명령이 변환된 텍스트, 해당 텍스트가 자연어 이해(NLU) 처리를 거쳐 출력된 결과, 해당 텍스트가 해석된 결과에 기초하여 결정되는 음성 명령이 요청하는 서비스의 종류, 사용자의 음성 명령의 음량(volume), 및 사용자의 음성 명령의 SNR 중 적어도 하나를 포함할 수 있다.
예를 들어, 디바이스(200)는, 제1 음성 명령이 변환된 제1 텍스트를 해석한 결과 및 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 제1 음성 명령과 관련된 정보로서 수신할 수 있다.
단계 S620에서 일 실시 예에 따른 디바이스(200)는, 디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다.
일 실시 예에 따른 디바이스(200)는, 디바이스(200)를 구성하는 장치들(예를 들어, 스크린, 입력 인터페이스 등)에 대한 정보, 디바이스(200) 상에 동작하는 애플리케이션 등과 같은 소프트웨어 정보, 디바이스(200)에 미리 저장된 정보(예를 들어, 현재 시간 정보, 및 디바이스의 위치 정보 등)에 기초하여, 디바이스(200)가 제공 가능한 서비스들을 식별할 수 있다.
디바이스(200)에 미리 저장된 정보는, 디바이스(200)가 제공 가능한 서비스를 결정하기 위한 학습에 필요한 정보들을 포함할 수 있다. 예를 들어, 디바이스(200)에 미리 저장된 정보는, 디바이스(200)의 서비스 제공 이력 정보를 포함할 수 있다.
디바이스(200)는, 디바이스(200)가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 서비스가 포함되는 경우, 디바이스(200)가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 하나의 서비스를 선택하여 서비스 제공 메시지를 생성할 수 있다.
일 실시 예에 따른 디바이스(200)는, 지원 가능한 서비스를 결정하기 위하여 머신 러닝을 수행하고, 사용자에게 제안되는 서비스의 정확도를 높일 수 있다. 이하에서는, 디바이스(200)가 지원 가능 서비스와 관련된 디바이스(200)의 능력(Capability)를 학습 시키는 방법에 대해서 구체적으로 살펴 본다.
가장 초기에는, 음성 비서 서비스 제공 장치(100)와 연동하는 각 디바이스(200)는, 점진적 학습(Incremental Learning)을 이용하여 디바이스가 지원 가능한 서비스에 대한 정보를 학습할 수 있다. 최초 학습을 위해서는, 디바이스의 위치 정보, 및 시간 정보 등의 일반적인 정보와 디바이스의 장치 정보가 이용될 수 있다.
최초 학습 후에는, 학습된 모델에 기초한 전이 학습(Transfer Learning)이 이용될 수 있다. 각 디바이스는, 학습된 모델의 최종 선형 분류 레이어(Linear classifier Layer)만 학습함으로써, 음성 명령의 컨텍스트를 파악하는 정확도와 음성 명령에 응답하여 제안하는 서비스의 정확도를 높일 수 있다. 예를 들어, 전이 학습을 위해서는, 사용자의 음성 명령 및 제안되는 서비스들에 대해서 사용자가 선택한 서비스와 관련된 정보만이 이용될 수 있다.
또한, 디바이스들을 그룹화함으로써 생성된 그룹들 각각은, 앙상블 학습(Ensemble learning)의 Mixture of Experts 방법을 사용하여 분류기로 분류됨으로써, 제안하는 서비스의 정확도를 높일 수 있다. 각 디바이스들은, 각 분류기의 지역과 관련하여 디바이스의 능력에 따른 지역 할당(Gating Function)도 학습함으로써, 제안하는 서비스의 정확도를 높일 수 있다. 또한, 디바이스가 소정 음성 명령에 응답하여 제공 가능한 서비스가 없다는 정보, 또는 소정 음성 명령에 응답하여 제안된 서비스가 사용자에 의해 선택되지 않았다는 정보를 학습함으로써, 각 디바이스는 제안하는 서비스의 정확도를 높일 수 있다.
디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 디바이스(200)는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 서비스 제공 메시지는, 음성 비서 서비스 제공 장치(100)로부터 수신된 제1 음성 명령과 관련된 정보에 응답하여, 디바이스(200)가 제안하는 서비스와 관련된 정보를 포함할 수 있다.
예를 들어, 서비스 제공 메시지는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 디바이스가 음성 명령과 관련된 소정 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 음성 명령에 응답하여 디바이스가 제공하는 소정 서비스의 식별 정보, 소정 서비스의 종류, 및 소정 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함할 수 있다.
단계 S631에서 일 실시 예에 따른 디바이스(200)는, 서비스 제공 메시지 및 서비스 제공 이력 정보를 전송할 수 있다.
서비스 제공 이력 정보는, 제1 음성 명령과 관련된 정보에 응답하여, 디바이스(200)가 제공하거나 제안하였던 서비스와 관련된 과거 이력에 관한 정보를 의미한다. 예를 들어, 서비스 제공 이력 정보는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 사용자에 의해 선택되었던 횟수, 및 음성 명령에 대해서 소정 서비스가 선택되었을 때의 상황 정보(예를 들어, 시간 정보, 위치 정보 등) 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 디바이스(200)는, 제1 음성 명령과 관련된 정보에 응답하여 디바이스(200)가 서비스를 제공할 수 있다고 결정한 경우, 서비스 제공 이력 정보에 포함된 isSupported 플래그에 "예"에 대응하는 값을 기록하여 전송할 수 있다.
한편, 디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 없다고 결정한 경우, 단계 S633에서 디바이스(200)는 서비스 제공이 불가능하다는 메시지를 전송할 수 있다.
예를 들어, 디바이스(200)는, isSupported 플래그에 "아니오"에 대응하는 값을 기록하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 그러나 실시 예는, 도 6에 도시된 흐름도에 제한되지 않으며, 디바이스(200)는, 제1 음성 명령에 응답하는 서비스 제공이 불가능할 경우, 서비스 제공이 불가능하다는 메시지를 전송하지 않고, 아무런 동작도 수행하지 않을 수 있다.
도 7은, 도 6에 도시된 동작 방법에 추가하여, 제안한 서비스에 대한 사용자의 피드백을 디바이스(200)가 학습하는 방법의 흐름도를 도시한다.
도 7은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치를 통해 사용자와 상호 작용하는 디바이스의 동작 방법의 구체적인 흐름도를 도시한다. 단계 S610 및 S620과 관련하여 도 6과 중복되는 설명은 생략한다.
단계 S631에서 디바이스(200)가 서비스 제공 메시지 및 서비스 제공 이력 정보를 전송하면, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 기초하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들 중에서 제1 그룹에 포함되는 디바이스들을 식별할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 그룹에 포함되는 것으로 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여, 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들의 장치 정보 및 서비스 제공 이력 정보 중 적어도 하나에 기초하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, 제1 음성 명령에 응답하는 응답 메시지를 출력할 수 있다.
사용자는 제1 음성 명령에 응답하는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용할 지 여부를 결정할 수 있다. 사용자는 결정에 기초하여 제2 음성 명령을 발화할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자로부터 제2 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는 사용자로부터 수신되는 제2 음성 명령에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정 하였는 지 여부를 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 제2 음성 명령에 기초하여, 복수의 디바이스들이 제공하는 서비스들 중에서 사용자에 의해 선택된 서비스를 결정할 수 있다.
단계 S740에서 디바이스(200)는, 사용자에 의해 선택된 서비스와 관련된 정보를 음성 비서 서비스 제공 장치(100)로부터 수신할 수 있다.
단계 S750에서 디바이스(200)는, 수신된 정보에 기초하여 서비스 제공 이력 정보를 갱신할 수 있다. 예를 들어, 디바이스(200)는, 단계 S631에서 전송된 서비스 제공 메시지를 통해 제안되었던 서비스가 사용자에 의해 선택된 경우, 서비스 제공 이력 정보의 Pick count를 1만큼 증가 시킬 수 있다. 또는, 디바이스(200)는, 단계 S631에서 전송된 서비스 제공 메시지를 통해 제안되었던 서비스가 사용자에 의해 선택되지 않은 경우, 서비스 제공 이력 정보의 No Pick count를 1만큼 증가 시킬 수 있다.
도 8은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 학습하는 데이터의 예를 도시한다.
도 8에 도시된 바와 같이 사용자(10)가 음성 명령(801)을 발화하면, 디바이스(200)들은 음성 비서 서비스 제공 장치(100)로부터 음성 명령(801)과 관련된 정보를 수신할 수 있다. 디바이스(200)들은, 음성 명령(801)에 응답하여, 제공 가능한 서비스들 중 하나를 제안하고, 제안되는 서비스와 관련된 정보를 포함하는 서비스 제공 메시지를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 또한, 디바이스(200)들은, 서비스 제공 메시지와 함께, 서비스 제공 이력 정보(803) 및 장치 정보(805)를 함께 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 명령(801)이 요청하는 서비스의 종류, 각 디바이스의 서비스 제공 이력 정보(803) 및 각 디바이스의 장치 정보(805)에 기초하여, 복수의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택하고 사용자에게 추천할 수 있다.
도 9는 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 수신하는 서비스 제공 메시지, 서비스 제공 이력 정보, 및 장치 정보의 예를 도시한다.
도 9의 서비스 제공 메시지 리스트(901)는, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)가 "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여 복수의 디바이스들로부터 수신한 서비스 제공 메시지들의 예시들을 도시한다.
도 9에 도시된 바와 같이, 일 실시 예에 따른 서비스 제공 메시지는, 그룹 정보, 디바이스 식별자, 서비스 종류, 서비스 식별자, 애플리케이션 식별자, 및 결과 텍스트를 포함할 수 있다.
서비스 제공 메시지에 포함되는 그룹 정보는, 디바이스가 제1 음성 명령과 관련된 제1 그룹에 포함되는 것으로 그룹화 되어 있는지 여부에 대한 정보를 포함할 수 있다. 예를 들어, 서비스 제공 메시지는, 제1 음성 명령과 관련된 제1 그룹을 나타내는 그룹 식별자를 포함할 수 있다.
또한, 서비스 제공 메시지는, 해당 서비스 제공 메시지를 생성하고 전송하는 디바이스를 나타내는 디바이스 식별자를 포함할 수 있다. 서비스 제공 메시지는, 제1 음성 명령에 응답하여 디바이스가 제공하는 서비스의 식별 정보 및 서비스의 종류 중 적어도 하나를 포함할 수 있다. 예를 들어, 서비스 제공 메시지는, 디바이스가 제공하는 서비스의 종류가 알림(Notification)인지 동작 수행(Action)인지 여부에 대한 정보를 포함할 수 있다.
서비스 제공 메시지에 포함되는 서비스의 종류는, 음성 비서 서비스 제공 장치(100)가 제1 음성 명령이 요청하는 서비스의 종류로서 판단하여 전송한 서비스의 종류일 수 있다. 음성 비서 서비스 제공 장치(100)는, 제1 음성 명령이 요청하는 서비스의 종류를 결정하고, 결정된 종류를 디바이스(200)에게 전달할 수 있다. 디바이스(200)는, 디바이스(200)가 제공 가능한 다양한 서비스들 중에서 음성 비서 서비스 제공 장치(100)로부터 전달 받은 서비스의 종류에 대응하는 소정 서비스를 결정하고, 소정 서비스와 관련된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전달할 수 있다.
서비스 제공 메시지는, 제1 음성 명령에 응답하여 디바이스가 서비스를 제공하기 위해 이용하는 애플리케이션을 나타내는 식별 정보를 포함할 수 있다. 또한, 서비스 제공 메시지는, 제1 음성 명령에 응답하여 디바이스가 제공할 수 있는 서비스와 관련된 응답 메시지를 포함할 수 있다.
예를 들어, 도 9의 서비스 제공 메시지 리스트(901)의 첫 줄에 도시된 바와 같이, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, TV는 [(배고픈데/뭐/먹을까)/ 디바이스 1/ 알림/ 서비스 1/ 애플리케이션 1 / “TV에 방영된 맛집이 주위에 있습니다.”]라는 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, TV로부터 수신되는 서비스 제공 메시지에 기초하여, TV가 (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함되고, 음성 명령에 응답하여 애플리케이션 1을 통해 알림 서비스인 서비스 1을 제공하려고 함을 알 수 있다. 예를 들어, TV는 TV 프로그램과 관련된 정보를 제공하는 애플리케이션 1을 통해, 사용자의 주위에 TV에서 소개되었던 음식점을 추천하는 서비스를 제안할 수 있다.
또한, 도 9의 서비스 제공 메시지 리스트(901)의 세번째 줄에 도시된 바와 같이, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, 냉장고는 [(배고픈데/뭐/먹을까)/ 디바이스 3/ 알림/ 서비스 3/ 애플리케이션 4 / “냉장고가 비었습니다.”]라는 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 냉장고로부터 수신되는 서비스 제공 메시지에 기초하여, 냉장고가 (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함되고, 음성 명령에 응답하여 애플리케이션 4를 통해 알림 서비스인 서비스 3을 제공하려고 함을 알 수 있다. 예를 들어, 냉장고는 냉장고 안에 저장된 식재료들을 관리하는 애플리케이션 4를 통해, 사용자가 먹을 수 있는 음식을 추천하거나 냉장고가 비었음을 알리는 서비스를 제안할 수 있다.
도 9의 서비스 제공 이력 정보 리스트(902)는, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)가 "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여 복수의 디바이스들로부터 수신하는 서비스 제공 이력 정보의 예시들을 도시한다.
도 9에 도시되 바와 같이, 일 실시 예에 따른 서비스 제공 이력 정보는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부(isSupported), 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 사용자에 의해 선택되었던 횟수(Pick count), 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 사용자에 의해 선택되지 않았던 횟수(No Pick count), 및 디바이스의 위치 정보, 및 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 선택되었을 때의 시간 정보 중 적어도 하나를 포함할 수 있다.
예를 들어, 도 9의 서비스 제공 이력 정보 리스트(902)에 도시된 바와 같이, TV, 냉장고, 및 스마트 폰은, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, 서비스를 제공할 수 있다는 정보(e.i. isSupported=예)를 포함하는 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 반면에, 에어컨은, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, 서비스를 제공할 수 없다는 정보(e.i. isSupported=아니오)를 포함하는 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)가 사용자에게 추천한 서비스가 선택 되었는 지, 음성 비서 서비스 제공 장치(100)가 추천한 서비스 이외의 서비스가 선택 되었는 지를 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 서비스와 관련된 정보를 디바이스들에게 전송하고, 디바이스들은 선택된 서비스와 관련된 정보를 학습할 수 있다. 디바이스들은, 선택된 서비스와 관련된 정보에 기초하여, 서비스 제공 이력 정보에 포함되는 ‘서비스가 사용자에 의해 선택되었던 횟수’ 또는 ‘서비스가 사용자에 의해 선택되지 않았던 횟수’를 갱신할 수 있다.
도 9의 장치 정보 리스트(903)는, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)가 복수의 디바이스들로부터 수신하는 각 디바이스를 구성하는 장치들에 대한 정보의 예시들을 도시한다.
일 실시 예에 따른 장치 정보는, 사용자로부터 사용자 입력을 수신하거나 사용자에게 정보를 제공하기 위한 입출력 인터페이스를 디바이스가 포함하고 있는 지 여부, 및 각 입출력 인터페이스의 성능과 관련된 정보를 포함할 수 있다. 예를 들어, 도 9에 도시된 바와 같이, 장치 정보는, 디바이스가 디스플레이를 포함하는 지 여부, 해당 디스플레이가 지원하는 해상도, 디바이스가 스피커를 포함하는 지 여부, 해당 스피커가 지원하는 음질, 디바이스가 마이크로폰을 포함하는 지 여부, 해당 마이크로폰이 지원하는 음질, 디바이스가 터치스크린을 포함하는 지 여부, 해당 터치스크린의 민감도, 및 디바이스의 사양과 관련된 기타 정보 중 적어도 하나에 대한 정보를 포함할 수 있다.
디바이스의 사양(specification)과 관련된 기타 정보는, 해당 디바이스가 제공할 수 있는 서비스와 관련된 정보를 포함할 수 있다. 예를 들어, TV는 TV 프로그램 정보를 제공할 수 있고, 에어컨은 실내의 온도, 습도, 및 먼지 등과 관련된 정보를 제공할 수 있고, 냉장고는 음식과 관련된 정보를 제공할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 장치 정보에 포함되는 디바이스 사양 정보에 기초하여, 사용자의 음성 명령의 도메인에 부합하는 서비스를 제공하는 디바이스에 더 우선 순위를 부여할 수 있다.
도 10은 본 개시의 일 실시 예에 따라 음성 비서 서비스 제공 장치가 복수의 서비스 제공 메시지들에 대해 우선 순위를 부여하는 방법의 흐름도를 도시한다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청하는 서비스의 종류, 각 디바이스의 서비스 제공 이력 정보 및 각 디바이스의 장치 정보 중 적어도 하나에 기초하여, 복수의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
단계 S1010에서 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제공하는 서비스 제공 이력 정보에 포함되는 isSupported 데이터에 기초하여, 음성 명령과 관련된 그룹에 포함되는 디바이스들을 식별하고 그룹화 할 수 있다.
단계 S1010에서 음성 비서 서비스 제공 장치(100)는, 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다는 정보(e.g. isSupported=Yes)를 전송한 디바이스들을 선택하고, 선택된 디바이스들에 대해서 우선 순위를 부여할 수 있다. 반면에, 단계 S1013에서 음성 비서 서비스 제공 장치(100)는, 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 없다는 정보(e.g. isSupported=No)를 전송한 디바이스들에 대해서 가장 후순위의 우선 순위를 부여할 수 있다.
단계 S1020에서 음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지에 기초하여, 디바이스가 제공하는 서비스의 종류가 무엇인지 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청하는 서비스의 종류를 결정하고, 결정된 종류를 디바이스(200)에게 전달할 수 있다. 디바이스(200)는, 디바이스(200)가 제공 가능한 다양한 서비스들 중에서 음성 비서 서비스 제공 장치(100)로부터 전달 받은 서비스의 종류에 대응하는 소정 서비스를 결정하고, 소정 서비스와 관련된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전달할 수 있다. 따라서, 서비스 제공 메시지에 포함되는 서비스의 종류는, 음성 비서 서비스 제공 장치(100)가 제1 음성 명령이 요청하는 서비스의 종류로서 판단하여 전송한 서비스의 종류일 수 있다.
예를 들어, 선택된 디바이스들이 제공하는 서비스의 종류가 "알림"인지 "동작 수행"인지 여부에 따라, 음성 비서 서비스 제공 장치(100)는 우선 순위를 부여하는 방식을 다르게 적용할 수 있다.
단계 S1031에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청한 서비스의 종류가 "알림"인 경우, 서비스 제공 이력 정보에 포함된 위치 정보 및/또는 시간 정보에 기초하여 우선 순위를 부여할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 사용자와 디바이스의 위치가 가까울수록, 디바이스가 주로 선택되었던 시간과 현재 시간이 가까울수록 해당 디바이스에게 높은 우선 순위를 부여할 수 있다. 각 디바이스가 제공하는 서비스가 사용자에 의해 선택되었던 시간 구간은, 10분 단위, 한 시간 단위, 6시간 단위 등으로 다양하게 설정될 수 있다.
단계 S1033에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 포함된 Pick Count(즉, 디바이스가 제안했던 서비스가 사용자에 의해 선택되었던 횟수)를 더 고려하여, 단계 S1031에서 동일한 우선 순위가 부여된 디바이스들에 대해서 서로 다른 우선 순위를 부여할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 과거에 사용자의 선택을 많이 받은 디바이스일수록 해당 디바이스에게 높은 우선 순위를 부여할 수 있다.
또한, 단계 S1041에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청한 서비스의 종류가 "동작 수행"인 경우, 장치 정보에 기초하여 디바이스들에 우선 순위를 부여할 수 있다. 음성 비서 서비스 제공 장치(100)는, 음성 명령에 응답하는 동작을 수행하기 위한 입출력 인터페이스가 구비되었는 지 여부 및 입출력 인터페이스의 성능에 기초하여 우선 순위를 부여할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 음악을 재생할 것을 요청하는 음성 명령에 대하여, 디바이스에 구비된 스피커의 음질이 좋을수록 해당 디바이스에게 높은 우선 순위를 부여할 수 있다.
단계 S1043에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 포함된 위치 정보 및/또는 시간 정보를 더 고려하여, 단계 S1041에서 동일한 우선 순위가 부여된 디바이스들에 대해서 서로 다른 우선 순위를 부여할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 스피커의 출력 음질이 동일하다면, 사용자와 디바이스의 위치가 가까울수록 또는 디바이스가 주로 선택되었던 시간과 현재 시간이 가까울수록 해당 디바이스에게 높은 우선 순위를 부여할 수 있다.
단계 S1045에서 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 포함된 Pick Count(즉, 디바이스가 제안했던 서비스가 사용자에 의해 선택되었던 횟수)를 더 고려하여, 단계 S1043에서 동일한 우선 순위가 부여된 디바이스들에 대해서, 서로 다른 우선 순위를 부여할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 과거에 사용자의 선택을 많이 받은 서비스를 제공하는 디바이스에게 높은 우선 순위를 부여할 수 있다.
그러나 본 개시는 도 10에 도시된 예에 제한되지 않으며, 음성 비서 서비스 제공 장치(100)는 구현에 따라 다양한 규칙에 따라 다양한 순서로 디바이스들에 대한 우선 순위를 부여할 수 있다.
일 예로서, 음성 비서 서비스 제공 장치(100)는, 복수의 서비스 제공 메시지들 중에서 사용자에 의해 가장 많이 선택되었던 서비스(즉, Pick Count가 가장 높은 서비스)와 관련된 하나의 서비스 제공 메시지를 선택할 수 있다.
또한, 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지가 제공하는 서비스의 Pick Count 값과의 차이가 소정 값(예를 들어, 1회) 이내인 다른 서비스와 관련된 서비스 제공 메시지를 보조적으로 추가 제안해줄 수 있다.
예를 들어, 도 9의 서비스 제공 이력 정보 리스트(902)를 참조하면, 스마트 폰이 제안하는 서비스 5에 대한 Pick Count가 5회로 가장 높고, TV가 제안하는 서비스 1에 대한 Pick Count가 4회로 다음으로 높다. 이 경우, 음성 비서 서비스 제공 장치(100)는, 복수의 서비스 제공 메시지들 중에서 사용자에 의해 가장 많이 선택되었던 스마트 폰의 서비스 제공 메시지를 선택하여 사용자에게 추천하고, 다음으로 많이 선택되었던 TV의 서비스 제공 메시지를 추가적으로 추천해줄 수 있다. 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지들에 기초하여, "스마트 폰으로 삼겹살 배달을 주문할까요? 아니면, TV에 방영된 주변 맛집을 추천해드릴 수 있습니다"라는 응답 메시지를 생성하고 출력할 수 있다.
다른 예로서, 음성 비서 서비스 제공 장치(100)는, 제1 기간(예를 들어, 일주일) 동안 Pick Count 값이 높은 동일한 서비스 제공 메시지가 계속적으로 선택될 경우, 사용자의 선택 비율에 기초하여 Pick Count 값이 낮은 다른 서비스 제공 메시지를 선택하여 사용자에게 추천할 수 있다. 음성 비서 서비스 제공 장치(100)는, 과거에 많이 선택되지 않았던 서비스도 때때로 선택하여 사용자에게 추천함으로써, 사용자가 다양한 서비스를 제안 받을 수 있도록 한다.
또 다른 예로서, 음성 비서 서비스 제공 장치(100)는, 제2 기간(예를 들어, 분기) 동안 한번도 사용자에게 선택되지 않았던 서비스 제공 메시지를 제공하는 디바이스는, 해당 음성 명령과 관련된 그룹에서 제외시킬 수 있다. 제1 기간은 제2 기간보다 상대적으로 짧은 기간일 수 있다. 결과적으로, 음성 비서 서비스 제공 장치(100)는, 사용자가 선호하는 최적의 서비스를 선택하여 사용자에게 추천할 수 있다.
또한, 도 10에는 음성 비서 서비스 제공 장치(100)가 디바이스가 음성 명령에 응답하는 서비스를 제공 가능한지 여부에 대한 정보, 디바이스가 제공하는 서비스의 카테고리 정보, 디바이스의 위치 정보, 및 디바이스가 제공하는 서비스가 선택된 횟수에 관한 정보 등 각각의 정보를 순차적으로 판단하여 디바이스들에게 우선 순위를 부여하는 방법이 도시된다. 그러나 다양한 실시 예들에 따른 음성 비서 서비스 제공 장치(100)는, 도 10에 도시된 예에 제한되지 않으며, 디바이스들이 제공하는 서비스 제공 메시지, 서비스 제공 이력 정보, 및 장치 정보를 종합적으로 고려하여, 사용자의 음성 명령에 가장 적합한 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
만약, 도 10에 도시된 단계들을 수행한 후에도 우선 순위가 동일한 서비스 제공 메시지들이 있다면, 음성 비서 서비스 제공 장치(100)는 해당 서비스 제공 메시지들을 통합하여 사용자에게 서비스를 제안할 수 있다. 음성 비서 서비스 제공 장치(100)는 해당 서비스 제공 메시지들의 결과 텍스트를 학습함으로써, 통합된 서비스를 제안하는 응답 메시지를 출력할 수 있다. 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)가 디바이스들이 제공 가능한 서비스들에 대해서 학습하는 데이터의 양이 증가할 수록, 사용자에게 적합한 서비스 제공 메시지를 선택하는 정확도를 높일 수 있다.
이하에서는, 도 11 내지 도 15를 참조하여, 다양한 실시 예들에 따른 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 예시들을 설명한다.
먼저, 도 11 및 도 12는 본 개시의 제1 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다. 도 11 및 도 12는, 제1 실시 예에 따라 음성 비서 서비스 제공 장치(100)가 댁 내의 스마트 스피커이고, 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 웨어러블 디바이스(200-4), 및 운동 기구(200-5)와 연동하는 경우를 도시한다.
도 11에 도시된 바와 같이, 음성 비서 서비스 제공 장치(100)는, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령을 수신할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 중에서, 사용자의 음성 명령과 관련된 정보를 전송할 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 음성 명령을 텍스트로 변환하고, 변환된 텍스트를 해석할 수 있다. 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 이용하여, 복수의 후보 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 중에서 해석된 텍스트와 관련된 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)을 결정할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는, 자연어 이해 모델을 이용하여 텍스트를 분석하고, 텍스트의 분석 결과에 기초하여 복수의 후보 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 중에서 사용자의 의도에 따른 서비스(예를 들어, 메뉴 추천, 식당 결정, 음식 주문 등)를 제공할 수 있는 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)을 판단할 수 있다.
일 실시 예에 따르면, 음성 비서 서비스 제공 장치(100)는, 디바이스 판단 모델을 통해, 복수의 후보 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 임계 값 이상인 디바이스들(200-1, 200-2, 200-3, 200-4)을 모두 음성 명령과 관련된 정보를 전송할 복수의 디바이스들로서 판단할 수 있다. 음성 비서 서비스 제공 장치(100)는, 운동 기구(200-5)의 경우 사용자의 의도에 따른 서비스(예를 들어, 메뉴 추천, 식당 결정, 음식 주문 등)와의 관련성이 다른 디바이스들에 비해 낮다고 판단할 수 있다. 따라서, 음성 비서 서비스 제공 장치(100)는, 복수의 후보 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 중에서 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 웨어러블 디바이스(200-4)에게만 사용자의 음성 명령과 관련된 정보를 전송할 것을 결정할 수 있다.
도 11에 도시된 바와 같이, 일 실시예에 다른 음성 비서 서비스 제공 장치(100)는 연결되는 디바이스들이 많아지더라도, 연결된 모든 디바이스들에게 음성 명령과 관련된 정보를 전송하는 것이 아니라, 선택된 일부 디바이스들에게만 음성 명령과 관련된 정보를 전송할 수 있다. 따라서, 음성 비서 서비스 제공 장치(100)가 많은 디바이스들과 통신하면서 발생할 수 있는 통신 자원의 낭비를 방지할 수 있다는 장점이 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)에게 음성 명령과 관련된 정보를 전송한다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 음성 명령이 변환된 텍스트를 해석한 결과인 [배고픈 데/뭐/먹을까], 및 음성 명령이 요청하는 서비스의 종류가 "알림"임을 나타내는 정보를 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3, 200-4) 각각은, 수신된 음성 명령과 관련된 정보에 응답하여 각 디바이스가 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 예를 들어, 각 디바이스는, 디바이스가 제공 가능한 서비스들 중에서 서비스의 종류가 "알림"인 서비스들을 선택하고, 선택된 서비스들 중에서 음성 명령에 대응하는 서비스가 있는지 결정할 수 있다.
도 11을 참조하면, 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정하고, 웨어러블 디바이스(200-4) 는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정한다. 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 메시지는 도 9에 예시된 형식에 따라 생성될 수 있다.
먼저, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, 냉장고(200-1)는 [(배고픈데/뭐/먹을까)/ 냉장고/ 알림/ 서비스 3/ 애플리케이션 4 /“냉장고가 비었습니다.”]라는 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 냉장고(200-1)는, 냉장고(200-1)가 (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함되고, 음성 명령에 응답하여 애플리케이션 4를 통해 알림 서비스인 서비스 3을 제공하려고 한다는 정보가 포함된 서비스 제공 메시지를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 냉장고(200-1)는 냉장고(200-1) 안에 저장된 식재료들을 관리하는 애플리케이션 4를 통해, 냉장고(200-1)가 비었음을 알리는 서비스를 제안할 수 있다.
다음으로, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, 스마트 폰(200-2)은 [(배고픈데/뭐/먹을까)/ 디바이스 4/ 알림/ 서비스 5/ 애플리케이션 3 / “삼겹살 배달을 주문할까요?"]라는 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 스마트 폰(200-2)은, 스마트 폰(200-2)이 (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함되고, 음성 명령에 응답하여 애플리케이션 3을 통해 알림 서비스인 서비스 5를 제공하려고 한다는 정보가 포함된 서비스 제공 메시지를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 예를 들어, 도 11에 도시된 바와 같이, 스마트 폰(200-2)은 음식 배달을 주문하는 애플리케이션 3을 통해, 사용자가 가장 선호하는 음식인 삼겹살 배달을 주문하는 서비스를 제안할 수 있다.
"배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하여, TV(200-3)는 [(배고픈데/뭐/먹을까)/ 디바이스 1/ 알림/ 서비스 1/ 애플리케이션 1 / “TV에 방영된 맛집이 주위에 있습니다.”]라는 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. TV(200-3)는, TV(200-3)가 (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함되고, 음성 명령에 응답하여 애플리케이션 1을 통해 알림 서비스인 서비스 1을 제공하려고 한다는 정보가 포함된 서비스 제공 메시지를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 예를 들어, 도 11에 도시된 바와 같이, TV(200-3)은 TV 프로그램 정보를 제공하는 애플리케이션 1을 통해, 사용자의 주변에 TV에 소개되었던 음식점을 추천하는 서비스를 제안할 수 있다.
한편, 도 11에는 도시되지 않았으나, 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)는, 서비스 제공 메시지와 함께 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 이력 정보는 도 9에 예시된 형식에 따라 생성될 수 있다.
예를 들어, 냉장고(200-1)는, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하는 서비스를 제공할 수 있으며(isSupported=yes), 사용자에 의해 서비스가 선택된 횟수가 1회이고(Pick Count=1), 제안되었으나 선택되지 않은 횟수가 8회이고(No Pick Count=1), 주방에 위치하며, 제공하는 서비스가 주로 선택되는 시간이 18시 00분이라는 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
스마트 폰(200-2)은, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하는 서비스를 제공할 수 있으며(isSupported=yes), 사용자에 의해 서비스가 선택된 횟수가 5회이고(Pick Count=5), 제안되었으나 선택되지 않은 횟수가 4회이고(No Pick Count=4), 거실에 위치하며, 제공하는 서비스가 주로 선택되는 시간이 22시 30분이라는 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
TV(200-3)는, "배고픈데 뭐 먹을까?"라는 사용자의 음성 명령에 응답하는 서비스를 제공할 수 있으며(isSupported=yes), 사용자에 의해 서비스가 선택된 횟수가 4회이고(Pick Count=4), 제안되었으나 선택되지 않은 횟수가 6회이고(No Pick Count=6), 거실에 위치하며, 제공하는 서비스가 주로 선택되는 시간이 22시 30분이라는 서비스 제공 이력 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
다음으로 도 12를 참조하면, 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4)로부터 수신되는 서비스 제공메시지들에 기초하여 디바이스들을 그룹화 할 수 있다. 음성 비서 서비스 제공 장치(100)는, (배고픈데/뭐/먹을까)라는 음성 명령과 관련된 그룹에 포함된다는 서비스 제공 메시지를 전송한 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)가 하나의 그룹에 포함되는 것으로 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)가 하나의 그룹에 포함된다는 그룹 정보를 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 그룹화된 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지와 함께 수신된 각 디바이스의 서비스 제공 이력 정보에 기초하여, 그룹화된 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청한 서비스의 종류가 "알림"인 경우, 서비스 제공 이력 정보에 포함된 위치 정보 및/또는 시간 정보에 기초하여 우선 순위를 부여할 수 있다. 예를 들어, 현재 시간이 22시 30분인 경우, 음성 비서 서비스 제공 장치(100)는, 디바이스가 주로 선택되었던 시간이 22시 30분인 스마트 폰(200-2) 및 TV(200-3)에게 동일한 높은 우선 순위를 부여할 수 있다.
다음으로, 음성 비서 서비스 제공 장치(100)는, 스마트 폰(200-2) 및 TV(200-3) 중에서 Pick Count가 높은 스마트 폰(200-2)의 서비스 제공 메시지를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, 음성 명령에 응답하는 응답 메시지를 출력할 수 있다. 도 12에 도시된 바와 같이, 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, "삼겹살 배달을 주문할까요? "라는 응답 메시지를 생성하고 출력할 수 있다.
도 12에서는 음성 비서 서비스 제공 장치(100)가 가장 우선 순위가 높은 하나의 서비스 제공 메시지를 선택하고, 선택된 서비스 제공 메시지에 기초하여 응답 메시지를 생성하고 출력하였다. 그러나, 본 개시의 다양한 실시 예들에 따른 음성 비서 서비스 제공 장치(100)는, 도 12에 도시된 예에 제한되지 않는다.
도 13에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 서비스 제공 메시지들을 선택하고, 복수의 서비스 제공 메시지들에 대한 정보를 포함하도록 응답 메시지를 생성하고 출력할 수 있다.
도 13은 본 개시의 제2 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 13에 도시된 바와 같이, 음성 비서 서비스 제공 장치(100)는, "오늘은 운동을 좀 해볼까?"라는 사용자의 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 연결된 복수의 후보 디바이스들 중에서 음성 명령과 관련된 정보를 전송할 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 음성 명령과 관련된 정보를 전송한다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 음성 명령이 변환된 텍스트를 해석한 결과인 [오늘/운동을/해볼까] 및 음성 명령이 요청하는 서비스의 종류가 "알림"임을 나타내는 정보를 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 각각은, 수신된 음성 명령과 관련된 정보에 응답하여 각 디바이스가 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 도 13을 참조하면, TV(200-3), 웨어러블 디바이스(200-4), 및 운동 기구(200-5)는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정하고, 냉장고(200-1) 및 스마트 폰(200-2)은 사용자의 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정한다. 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 메시지는 도 9에 예시된 형식에 따라 생성될 수 있다.
먼저, "오늘은 운동을 좀 해볼까?"라는 사용자의 음성 명령에 응답하여, TV(200-3)는, (오늘/운동을/해볼까)라는 음성 명령과 관련된 그룹에 포함되는 것으로 통보 받은 바 없지만, TV 채널을 스포츠 채널로 변경할 것을 추천하는 서비스를 제안할 수 있다. TV(200-3)는 "스포츠 채널을 틀어드릴게요"라는 정보가 포함된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
다음으로, "오늘은 운동을 좀 해볼까?"라는 사용자의 음성 명령에 응답하여, 웨어러블 디바이스(200-4)는, (오늘/운동을/해볼까)라는 음성 명령과 관련된 그룹에 웨어러블 디바이스(200-4)가 포함된다는 정보를 포함하고, 사용자의 운동 이력을 기록하고 적합한 운동을 추천하는 애플리케이션을 통해 유산소 운동을 추천하는 서비스를 제안하는 서비스 제공 메시지를 전송할 수 있다.
웨어러블 디바이스(200-4)는 "어제는 근력 운동을 하셨으니, 오늘은 유산소 운동을 하시는게 좋을 것 같아요"라는 정보가 포함된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
다음으로, 오늘은 운동을 좀 해볼까?"라는 사용자의 음성 명령에 응답하여, 운동 기구(200-5)는, (오늘/운동을/해볼까)라는 음성 명령과 관련된 그룹에 운동 기구(200-5)가 포함된다는 정보를 포함하고, 사용자의 운동 이력을 기록하는 애플리케이션을 통해 사용자가 선호하는 운동 시간을 타이머에 설정하는 서비스를 제안하는 서비스 제공 메시지를 전송할 수 있다. 운동 기구(200-5)는 "운동 시간을 30분으로 설정하겠습니다"라는 정보가 포함된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
또한, 도 13에는 도시되지 않았으나, TV(200-3), 웨어러블 디바이스(200-4), 및 운동 기구(200-5)는, 서비스 제공 메시지와 함께 서비스 제공 이력 정보 및 장치 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 이력 정보 및 장치 정보는 도 9에 예시된 형식에 따라 생성될 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)로부터 수신되는 서비스 제공메시지들에 기초하여 디바이스들을 그룹화 할 수 있다. 음성 비서 서비스 제공 장치(100)는, (오늘/운동을/해볼까)라는 음성 명령과 관련된 그룹에 포함된다는 서비스 제공 메시지를 전송한 웨어러블 디바이스(200-4) 및 운동 기구(200-5)가 하나의 그룹에 포함되는 것으로 결정할 수 있다.
도 13에서 음성 비서 서비스 제공 장치(100)는, 디바이스가 음성 명령과 관련된 그룹에 포함되는 지 여부에 대한 정보를 서비스 제공 메시지로부터 식별하고, 식별된 정보에 기초하여 각 디바이스가 음성 명령과 관련된 그룹에 포함되는지 여부를 판단한다. 즉, 음성 비서 서비스 제공 장치(100)는, 디바이스가 미리 학습하여 저장하고 있던 그룹 정보에 기초하여 각 디바이스가 음성 명령과 관련된 그룹에 포함되는지 여부를 판단한다. 따라서, 음성 비서 서비스 제공 장치(100)가, 디바이스들로부터 수신된 서비스 제공 메시지들 및 서비스 제공 이력 정보를 분석하고, 디바이스들을 그룹화하는 동작을 생략할 수 있기 때문에 응답 속도를 높일 수 있다.
추후에 음성 비서 서비스 제공 장치(100)는, 디바이스들로부터 수신되는 서비스 제공메시지들을 분석하여 디바이스들을 다시 그룹화 하고 그룹 정보를 갱신할 수 있다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 웨어러블 디바이스(200-4) 및 운동 기구(200-5) 뿐만 아니라 TV(200-3)도 하나의 그룹에 포함되는 것으로 그룹 정보를 갱신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 갱신된 그룹 정보를 TV(200-3), 웨어러블 디바이스(200-4) 및 운동 기구(200-5)에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지와 함께 수신된 각 디바이스의 서비스 제공 이력 정보 및 장치 정보 중 적어도 하나에 기초하여, 하나의 그룹에 포함되는 것으로 결정된 웨어러블 디바이스(200-4) 및 운동 기구(200-5)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 도 13에서 음성 비서 서비스 제공 장치(100)는, 웨어러블 디바이스(200-4) 및 운동 기구(200-5)의 서비스 제공 메시지들을 모두 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지들에 기초하여, 음성 명령에 응답하는 응답 메시지를 출력할 수 있다. 도 13에 도시된 바와 같이, 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지들을 조합하여 하나의 응답 메시지를 생성하고 출력할 수 있다. 음성 비서 서비스 제공 장치(100)는, 웨어러블 디바이스(200-4) 및 운동 기구(200-5)의 서비스 제공 메시지들을 조합하여, “어제 근력 운동을 하셨으니, 운동 기구를 이용하여 유산소 운동을 30분 하시는 게 어떨까요?”라는 응답메시지를 생성하고 출력할 수 있다.
한편, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지와 함께 수신된 각 디바이스의 서비스 제공 이력 정보 또는 장치 정보를 고려하여, 하나의 그룹에 포함되는 디바이스들을 식별할 수 있다. 도 14는 본 개시의 제3 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 14에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, "노래 틀어줘"라는 사용자의 음성 명령을 수신할 수 있다. 음성 비서 서비스 제공 장치(100)는, 연결된 복수의 후보 디바이스들 중에서 음성 명령과 관련된 정보를 전송할 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)을 판단할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 음성 명령과 관련된 정보를 전송한다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 음성 명령이 변환된 텍스트를 해석한 결과인 [노래/틀어줘] 및 음성 명령이 요청하는 서비스의 종류가 "동작 수행"임을 나타내는 정보를 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 각각은, 수신된 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)은, 노래를 재생하기 위한 스피커의 유무에 기초하여, 서비스 제공 가능 여부를 결정할 수 있다.
도 14를 참조하면, 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)는, 사용자의 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정하고, 스피커를 구비하고 있지 않는 운동 기구(200-5)는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정한다. 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 메시지는 도 9에 예시된 형식에 따라 생성될 수 있다.
"노래 틀어줘"라는 음성 명령에 응답하여, 냉장고(200-1)는, (노래/틀어줘)라는 음성 명령과 관련된 그룹에 포함된다는 정보를 포함하고, 사용자가 최근에 재생한 노래를 재생하는 서비스를 제안하는 서비스 제공 메시지를 전송할 수 있다. 냉장고(200-1)는 "최근에 들은 트와이스 노래를 재생합니다"라는 정보가 포함된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
다음으로, "노래 틀어줘"라는 음성 명령에 응답하여, 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)는, (노래/틀어줘)라는 음성 명령과 관련된 그룹에 해당 디바이스들이 포함된다는 정보를 포함하고, 사용자가 최근에 재생한 노래를 재생하는 서비스를 제안하는 서비스 제공 메시지를 전송할 수 있다. 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)는 "최근에 들은 트와이스 노래를 재생합니다"라는 정보가 포함된 서비스 제공 메시지를 생성하여 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다.
또한, 도 14에 도시된 바와 같이, 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)는, 서비스 제공 메시지와 함께 서비스 제공 이력 정보 및 장치 정보를 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 이력 정보 및 장치 정보는 도 9에 예시된 형식에 따라 생성될 수 있다.
예를 들어, 냉장고(200-1)는, 냉장고(200-1)가 부엌에 위치한다는 정보를 포함하는 서비스 제공 이력을 더 전송할 수 있다. 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)는, 디바이스들이 거실에 위치한다는 정보를 포함하는 서비스 제공 이력을 더 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)로부터 수신되는 서비스 제공메시지들에 기초하여 디바이스들을 그룹화 할 수 있다. 음성 비서 서비스 제공 장치(100)는, (노래/틀어줘)라는 음성 명령과 관련된 그룹에 포함된다는 서비스 제공 메시지를 전송한 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)가 하나의 그룹에 포함되는 것으로 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지와 함께 수신된 각 디바이스의 서비스 제공 이력 정보 및 장치 정보 중 적어도 하나에 기초하여, 하나의 그룹에 포함되는 것으로 결정된 냉장고(200-1), 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
먼저, 음성 비서 서비스 제공 장치(100)는, 서비스 제공 이력 정보에 포함되는 디바이스의 위치 정보에 기초하여, 음성 비서 서비스 제공 장치(100) 또는 사용자의 현재 위치에 가까운 "거실"에 위치한 스마트 폰(200-2), TV(200-3), 및 웨어러블 디바이스(200-4)를 식별할 수 있다.
다음으로, 음성 비서 서비스 제공 장치(100)는, 장치 정보에 기초하여, 디바이스의 스피커 성능에 따라 디바이스에게 우선 순위를 부여할 수 있다. 음성 비서 서비스 제공 장치(100)는, 스피커 성능이 가장 좋은 TV(200-3)의 서비스 제공 메시지를 선택할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, "최근에 들은 트와이스 노래를 TV로 재생합니다"라는 응답메시지를 생성하고 출력할 수 있다.
한편, 도 15는 본 개시의 제4 실시 예에 따라 음성 비서 서비스를 제공하는 시스템의 구체적인 동작 방법의 일 예를 도시한다.
도 15에 도시된 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, "우울해"라는 사용자의 음성 명령을 수신할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 음성 명령과 관련된 정보를 전송한다. 예를 들어, 음성 비서 서비스 제공 장치(100)는, 음성 명령이 변환된 텍스트를 해석한 결과인 [우울해] 및 음성 명령이 요청하는 서비스의 종류가 "알림"임을 나타내는 정보를 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)에게 전송할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5) 각각은, 수신된 음성 명령과 관련된 정보에 응답하여 각 디바이스가 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 도 15를 참조하면, 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 있다고 결정하고, 웨어러블 디바이스(200-4), 및 운동 기구(200-5)는 사용자의 음성 명령에 응답하여 서비스를 제공할 수 없다고 결정한다. 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 음성 비서 서비스 제공 장치(100)에게 전송하는 서비스 제공 메시지는 도 9에 예시된 형식에 따라 생성될 수 있다.
먼저, "우울해"라는 사용자의 음성 명령에 응답하여, 냉장고(200-1)는, 냉장고(200-1)가 (우울해)라는 음성 명령과 관련된 그룹에 포함된다는 정보, 및 냉장고(200-1) 안에 저장된 식재료들을 관리하는 애플리케이션을 통해 사용자에게 아이스크림을 추천하는 서비스 정보를 포함하는 서비스 제공 메시지를 전송할 수 있다.
다음으로, "우울해"라는 사용자의 음성 명령에 응답하여, 스마트 폰(200-2)은, 스마트 폰(200-2)이 (우울해)라는 음성 명령과 관련된 그룹에 포함된다는 정보 및, 음악 재생 애플리케이션을 통해 음악 재생을 추천하는 서비스 정보를 포함하는 서비스 제공 메시지를 전송할 수 있다.
다음으로, "우울해"라는 사용자의 음성 명령에 응답하여, TV(200-3)는 TV(200-3)가 (우울해)라는 음성 명령과 관련된 그룹에 포함된다는 정보 및, TV 프로그램 정보를 제공하는 애플리케이션을 통해 코미디 프로그램을 추천하는 정보를 포함하는 서비스 제공 메시지를 전송할 수 있다.
음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3, 200-4, 200-5)로부터 수신되는 서비스 제공메시지들에 기초하여 디바이스들을 그룹화 할 수 있다. 음성 비서 서비스 제공 장치(100)는, (우울해)라는 음성 명령과 관련된 그룹에 포함된다는 서비스 제공 메시지를 전송한 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)가 하나의 그룹에 포함되는 것으로 결정할 수 있다.
음성 비서 서비스 제공 장치(100)는, 그룹화된 냉장고(200-1), 스마트 폰(200-2), 및 TV(200-3)의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 음성 비서 서비스 제공 장치(100)는, 서비스 제공 메시지와 함께 수신된 각 디바이스의 서비스 제공 이력 정보에 기초하여, 그룹화된 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 음성 명령이 요청한 서비스의 종류가 "알림"인 경우, 서비스 제공 이력 정보에 포함된 위치 정보 및/또는 시간 정보에 기초하여 우선 순위를 부여할 수 있다. 예를 들어, 디바이스가 주로 선택되었던 시간이 현재 시각과 가까운 스마트 폰(200-2)에게 가장 높은 우선 순위를 부여할 수 있다.
음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, 음성 명령에 응답하는 응답 메시지를 출력할 수 있다. 도 15에 도시된 바와 같이, 음성 비서 서비스 제공 장치(100)는, 선택된 서비스 제공 메시지에 기초하여, "기분을 좋게 해주는 음악을 추천해드립니다"라는 응답 메시지를 생성하고 출력할 수 있다.
이하에서는, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 구성을 설명한다. 이하에서 서술하는 음성 비서 서비스 제공 장치(100)의 각 구성은, 상술한 음성 비서 서비스 제공 장치(100)가 동작하는 방법의 각 단계를 수행할 수 있다. 따라서, 상술한 설명과 중복되는 설명은 생략한다.
도 16은 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 블록도이다.
본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 음성 비서 서비스 제공 장치(100)는, 예를 들어, 스마트 폰(smart phone), 휴대폰, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, 인공 지능 스피커, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 및 태블릿 PC 중 적어도 하나일 수 있으나, 이에 한정되지 않는다. 음성 비서 서비스 제공 장치(100)는, 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 다른 디바이스 및/또는 서버와 통신할 수 있다.
도 16을 참조하면, 음성 비서 서비스 제공 장치(100)는, 수신부(110), 프로세서(120), 통신부(130), 메모리(140), 및 출력부(150)를 포함할 수 있다. 도 16에 도시된 구성 요소 모두가 음성 비서 서비스 제공 장치(100)의 필수 구성 요소인 것은 아니다. 도 16에 도시된 구성 요소보다 많은 구성 요소에 의해 음성 비서 서비스 제공 장치(100)가 구현될 수도 있고, 도 16에 도시된 구성 요소보다 적은 구성 요소에 의해 음성 비서 서비스 제공 장치(100)가 구현될 수도 있다. 예를 들어, 도 18에 도시된 바와 같이, 일부 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 사용자 입력부(2100), 센싱부(2400), 및 A/V 입력부(2600)를 더 포함할 수도 있다. 도 16 내지 도 18에 도시된 적어도 하나의 구성 요소는 도 4 및 도 5의 동작을 수행할 수 있다. 그러므로, 도 4 및 도 5를 참조하여 상술한 설명과 중복되는 설명은 생략한다.
본 개시의 일 실시 예에 따른 수신부(110)는 사용자로부터 음성 명령을 수신할 수 있다. 예를 들어, 수신부(110)는, 마이크로폰(Microphone)에 의해 외부의 소리를 전기적인 음향 데이터로 변환함으로써 음성 명령을 수신할 수 있다. 도 16에는, 수신부(110)가, 음성 비서 서비스 제공 장치(100)의 내부에 포함되는 것으로 도시되었으나, 다른 일 실시 예에 따른 수신부(110)는 별도의 디바이스 내에 포함되고 음성 비서 서비스 제공 장치(100)와는 유, 무선으로 연결되는 형태로 구현될 수 있다.
본 개시의 일 실시 예에 따른 메모리(140)는, 음성 비서 서비스를 제공하기 위한 인스트럭션들, 음성 인식에 이용되는 각종 모델, 신경망, 또는 사전 정보 등을 저장할 수 있다.
본 개시의 일 실시 예에 따른 프로세서(120)는, 메모리(140)에 저장된 하나 이상의 인스터럭션들을 실행함으로써, 수신부(110), 통신부(130), 및 출력부(150)를 제어함으로써 본 개시의 다양한 실시 예들에 따른 음성 비서 서비스를 제공할 수 있다. 도 16에는 음성 비서 서비스 제공 장치(100)가 하나의 프로세서(120)를 포함하는 것으로 도시되었지만 본 개시는 도시된 실시 예에 제한되지 않는다. 음성 비서 서비스 제공 장치(100)는 복수의 프로세서들을 포함할 수 있다. 음성 비서 서비스 제공 장치(100)가 복수의 프로세서들을 포함하는 경우, 후술하는 프로세서(120)의 동작 및 기능은 복수의 프로세스들에서 부분적으로 수행될 수 있다.
일 실시 예에 따른 프로세서(120)는, 수신부(110)를 통해 사용자로부터 제1 음성 명령을 수신할 수 있다.
프로세서(120)는, 제1 음성 명령을 제1 텍스트로 변환하고, 변환된 제1 텍스트를 해석하고, 제1 텍스트를 해석한 결과 및 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 제1 음성 명령과 관련된 정보로서 전송할 수 있다.
프로세서(120)는, 복수의 후보 디바이스들 중에서 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다. 프로세서(120)는, 제1 텍스트를 해석한 결과에 기초하여 사용자의 의도(intent)를 결정할 수 있다. 프로세서(120)는, 사용자의 의도와 복수의 후보 디바이스들 간의 관련성에 기초하여, 복수의 후보 디바이스들 중에서 제1 음성 명령을 전송할 복수의 디바이스들을 판단할 수 있다. 프로세서(120)는, 디바이스 판단 모델을 통해, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 높은 복수의 디바이스들을 판단할 수 있다.
프로세서(120)는, 판단 결과에 기초하여, 사용자로부터 수신된 제1 음성 명령과 관련된 정보를 복수의 디바이스들에게 전송하도록 통신부(130)를 제어할 수 있다. 일 실시 예에 따른 통신부(130)는 유선 통신 또는 무선 통신을 통해 외부 디바이스, 장치 또는 서버와 통신할 수 있다. 통신부(130)는, 근거리 통신 모듈, 유선 통신 모듈, 이동 통신 모듈, 방송 수신 모듈 등을 포함할 수 있다.
복수의 디바이스들은, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 제1 음성 명령과 관련된 정보에 응답하여, 서비스 제공 메시지를 생성하고 전송할 수 있다. 복수의 디바이스들은, 음성 비서 서비스 제공 장치(100)에게 서비스 제공 이력 정보 및 장치 정보 중 적어도 하나를 더 전송할 수 있다.
프로세서(120)는, 통신부(130)를 통해, 복수의 디바이스들 각각으로부터 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 복수의 디바이스들의 서비스 제공 이력 정보를 수신할 수 있다. 또한, 프로세서(120)는, 통신부(130)를 통해, 복수의 디바이스들로부터 각 디바이스를 구성하는 장치 정보를 더 수신할 수 있다.
디바이스로부터 수신되는 서비스 제공 메시지는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 디바이스가 음성 명령에 관련된 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 음성 명령에 응답하여 디바이스가 제공하는 서비스의 식별 정보, 서비스의 종류, 및 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함할 수 있다.
서비스 제공 이력 정보는, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 소정 음성 명령과 관련된 정보에 응답하여, 디바이스가 제공하거나 제안하였던 서비스와 관련된 과거 이력에 관한 정보를 의미한다. 서비스 제공 이력 정보는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 음성 명령에 대해서 디바이스가 제안하는 서비스가 사용자에 의해 선택되었던 횟수, 및 음성 명령에 대해서 디바이스가 제안하는 서비스가 선택되었을 때의 상황 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 프로세서(120)는, 서비스 제공 이력 정보에 기초하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
일 실시 예에 따른 프로세서(120)는, 복수의 디바이스들 중에서 제1 음성 명령에 관련된 제1 그룹에 포함되는 디바이스들을 식별하는 그룹화를 수행할 수 있다. 프로세서(120)는, 디바이스들로부터 수신되는 서비스 제공 메시지 및 서비스 제공 이력 정보 중 적어도 하나에 기초하여 디바이스들을 그룹화하고, 그룹화된 결과를 학습할 수 있다.
또한, 프로세서(120)는, 서비스 제공 이력 정보에 기초하여, 제1 그룹에 포함되는 것으로 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택할 수 있다. 프로세서(120)는, 복수의 디바이스들의 장치 정보를 더 고려하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
일 실시 예에 따른 프로세서(120)는, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하기 위해서, 메모리(140)에 저장된 서비스 추천 모델을 이용할 수 있다. 서비스 추천 모델은, 소정 음성 명령, 소정 음성 명령에 대한 복수의 디바이스들의 서비스 제공 이력 및 복수의 디바이스들 각각의 장치 정보 중 적어도 하나에 의해 학습된 인공 지능 알고리즘일 수 있다.
프로세서(120)는, 디바이스들의 서비스 제공 이력 정보 및 장치 정보에 기초하여, 복수의 서비스 제공 메시지들에게 가중치 또는 우선 순위를 부여할 수 있다. 프로세서(120)는, 각 디바이스가 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 복수의 서비스 제공 메시지들에 우선 순위 또는 가중치를 부여할 수 있다. 프로세서(120)는, 부여된 가중치 또는 우선 순위에 기초하여, 복수의 서비스 제공 메시지들 중 적어도 하나를 선택할 수 있다.
일 실시 예에 따른 프로세서(120)는, 선택된 적어도 하나의 서비스 제공 메시지에 기초하여, 제1 음성 명령에 응답하는 응답 메시지를 생성하고 출력부(150)를 통해 출력할 수 있다.
프로세서(120)는, 선택된 적어도 하나의 서비스 제공 메시지와 관련된 서비스 정보를 포함하도록 응답 메시지를 생성할 수 있다. 일 실시 예에 따른 출력부(150)는, 응답 메시지를 출력할 수 있는 스피커 또는 비디오 신호를 출력 할 수 있는 디스플레이를 포함할 수 있다.
사용자는 제1 음성 명령에 응답하는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용할 지 여부를 결정할 수 있다. 사용자는 결정에 기초하여 제2 음성 명령을 발화할 수 있다.
일 실시 예에 따른 프로세서(120)는, 수신부(110)를 통해 사용자로부터 제2 음성 명령을 수신할 수 있다.
일 실시 예에 따른 프로세서(120)는, 사용자로부터 수신되는 음성 명령, 사용자의 소정 동작 또는 사용자 입력에 기초하여, 복수의 디바이스들이 제공하는 서비스들 중에서 사용자에 의해 선택된 서비스를 결정할 수 있다. 프로세서(120)는, 통신부(130)를 통해 복수의 디바이스들에게 사용자에 의해 선택된 서비스와 관련된 정보를 전송할 수 있다. 또한, 프로세서(120)는, 사용자에 의해 선택된 서비스와 관련된 정보에 기초하여, 메모리(140)에 저장된 서비스 추천 모델을 학습할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제공하는 다양한 서비스들 중에서 사용자가 선호하는 최적의 서비스를 제안하기 위하여, 사용자의 음성 명령에 의해 계속적으로 서비스 추천 모델을 학습할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 프로세서(120)는, 사용자의 제1 음성 명령 내에 소정 디바이스가 명시되거나, 소정 디바이스의 서비스에 대한 요청이 명시되거나, 소정 디바이스와 관련된 정보가 포함되는 경우, 보다 간단하게 응답 메시지를 생성하도록 동작할 수 있다. 프로세서(120)는, 복수의 디바이스들을 판단하는 동작 및 복수의 디바이스들로부터 수신된 서비스 제공 메시지들 중에서 적어도 하나를 선택하는 동작을 생략할 수 있다. 일 실시 예에 따른 프로세서(120)는, 소정 디바이스에게 제1 음성 명령과 관련된 정보를 전송하고, 소정 디바이스로부터 서비스 제공 메시지를 수신하고, 수신된 서비스 제공 메시지 내의 서비스와 관련된 정보를 포함하도록 응답 메시지를 생성하고 출력할 수 있다.
한편, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 프로세서(120)는, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 디바이스들로부터 디바이스 정보를 획득할 수 있다. 예를 들어, 디바이스 정보는, 해당 디바이스의 리소스 정보 및/또는 능력 정보를 포함할 수 있다. 프로세서(120)는, 복수의 디바이스들의 디바이스 정보에 기초하여, 음성 비서 서비스 제공에 있어서 보다 주도적인 역할을 수행할 수 있다. 프로세서(120)는, 복수의 디바이스들의 리소스 정보 및/또는 능력 정보에 따라 적응적으로 복수의 디바이스들을 선택하거나, 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
이하에서는, 도 17을 참조하여 음성 비서 서비스 제공 장치(100)의 각 구성의 동작을 보다 구체적으로 살펴본다.
도 17은 본 개시의 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 블록도를 도시한다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 마이크(110)를 통해 사용자로부터 제1 음성 명령을 수신할 수 있다. 마이크(110)는, 사용자로부터 수신되는 소리를 전기적인 신호인 제1 음성 명령으로 변환할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 프로세서(120)는 제1 음성 명령으로부터 제1 음성 명령과 관련된 정보를 추출하고, 통신부(130)를 통해 복수의 디바이스들에게 제1 음성 명령과 관련된 정보를 전송할 수 있다.
구체적으로, 프로세서(120)는, 음성 인식을 수행하는 음성 인식부(121)를 포함할 수 있다. 일 실시 예에 따른 음성 인식부(121)는, ASR(Auto Speech Recognition) 모듈(122)을 통해 제1 음성 명령을 제1 텍스트로 변환하고, 자연어 이해(Natural Language Understanding)모듈(123)을 통해 제1 텍스트를 해석할 수 있다. 음성 인식부(121)는, 음성 인식을 위해 설계된 인공 지능 신경망(Neural Network)(141)을 이용하여, 제1 음성 명령을 제1 텍스트로 변환하고, 제1 텍스트를 해석할 수 있다.
프로세서(120)의 디바이스 판단부(129)는, 디바이스 판단 모델(142)을 이용하여, 음성 비서 서비스 제공 장치(100)와 연결된 복수의 후보 디바이스들 중에서, 사용자의 제1 음성 명령과 관련된 정보를 전송할 복수의 디바이스들을 판단할 수 있다. 디바이스 판단 모델(142)은, 제1 텍스트 해석 결과로부터 획득된 사용자의 의도와 복수의 후보 디바이스들 간의 관련성을 판단하는 매칭 모델을 포함할 수 있다. 디바이스 판단부(129)는, 디바이스 판단 모델(142)을 통해, 복수의 후보 디바이스들 중에서 사용자의 의도에 따른 서비스를 제공할 확률이 높은 미리 결정된 개수의 복수의 디바이스들을 판단할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 프로세서(120)는, 음성 인식부(121)로부터 출력되는 음성 명령과 관련된 정보를 통신부(130)를 통해 복수의 디바이스들에게 전송할 수 있다.
복수의 디바이스들에게 전송되는 “음성 명령과 관련된 정보”는, 음성 명령이 처리된 결과를 포함할 수 있다. 음성 명령이 처리된 결과는, 사용자의 음성 명령으로부터 추출된 특징 벡터, 사용자의 음성 명령이 변환된 텍스트, 해당 텍스트가 자연어 이해(NLU) 처리를 거쳐 출력된 결과, 해당 텍스트가 해석된 결과에 기초하여 결정되는 음성 명령이 요청하는 서비스의 종류, 사용자의 음성 명령의 음량(volume), 및 사용자의 음성 명령의 SNR 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 프로세서(120)는, 제1 텍스트를 해석한 결과 및 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 복수의 디바이스들에게 전송할 수 있다. 음성 인식부(121)는, 제1 음성 명령이 변환된 제1 텍스트에 대한 자연어 처리를 통해, 소정 규칙(예를 들어, 육하원칙)에 따라서 사용자의 발화 의도를 나타내는 텍스트 데이터를 추출할 수 있다. 프로세서(120)는, 음성 인식부(121)에서 추출된 텍스트 데이터를 제1 텍스트가 해석된 결과로서 복수의 디바이스들에게 전송할 수 있다. 또한, 음성 인식부(121)는, 제1 텍스트를 해석한 결과에 기초하여, 제1 음성 명령이 요청하는 서비스의 종류가 알림(Notification)인지 동작 수행(Action)인지 여부를 결정할 수 있다.
음성 인식부(121)는, 제1 음성 명령이 디바이스가 소정 동작(예를 들어, 미디어의 재생, 녹화, 전원의 온오프 등)을 수행할 것을 요청한다고 판단되는 경우 제1 음성 명령이 요청하는 서비스의 종류가 "동작 수행"이라고 판단하고, 그외의 경우는 음성 명령이 요청하는 서비스의 종류가 "동작 수행"이라고 판단할 수 있다.
예를 들어, 사용자로부터 “배고픈데 뭐 먹을까?”라는 음성 명령을 수신하면, 음성 비서 서비스 제공 장치(100)는, 음성 명령으로부터 추출된 텍스트 데이터 (배고픈 데/뭐/먹을까)와 함께 음성 명령이 요청하는 서비스의 종류가 (정보의 알림(notification))임을 복수의 디바이스들에게 전송할 수 있다.
음성 비서 서비스 제공 장치(100)와 연결된 복수의 디바이스들(200-1, 200-2, 200-3)은, 수신된 제1 음성 명령과 관련된 정보에 기초하여, 각 디바이스가 제1 음성 명령에 응답하는 서비스를 제공할 수 있는지 여부를 결정할 수 있다. 예를 들어, 복수의 디바이스들(200-1, 200-2, 200-3)은, 제1 음성 명령이 변환된 제1 텍스트를 해석한 결과를 음성 비서 서비스 제공 장치(100)로부터 수신하고, 수신된 텍스트 해석 결과에 기초하여 서비스 제공 가능 여부를 결정할 수 있다.
각 디바이스는, 디바이스(200)를 구성하는 장치들(예를 들어, 스크린, 입력 인터페이스 등)에 대한 정보, 디바이스(200) 상에 동작하는 소프트웨어(예를 들어, 애플리케이션 등)에 대한 정보, 및 디바이스(200)에 미리 저장된 일반적인 상황 정보(예를 들어, 시간 정보, 및 위치 정보 등) 중 적어도 하나에 기초하여, 디바이스(200)가 제공 가능한 서비스들을 식별할 수 있다. 각 디바이스는, 디바이스가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령에 대한 응답이 될 수 있는 서비스가 포함되는 지 여부를 판단할 수 있다.
각 디바이스는, 디바이스가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 서비스가 포함되는 지 여부를 결정할 수 있다. 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 적어도 하나의 서비스가 포함되는 경우, 디바이스는 적어도 하나의 서비스 중에서 제1 음성 명령에 대한 응답이 될 수 있는 서비스가 포함되는 지 여부를 판단할 수 있다.
디바이스가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령에 대한 응답이 될 수 있는 서비스가 포함되는 경우, 디바이스는 수신된 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다.
디바이스가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 해당 디바이스는 서비스 제공 메시지를 생성하고, 음성 비서 서비스 제공 장치(100)에게 전송할 수 있다. 디바이스(200)는, 디바이스가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 하나의 서비스를 선택하여 서비스 제공 메시지를 생성할 수 있다.
"서비스 제공 메시지"는, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 음성 명령과 관련된 정보에 응답하여, 디바이스가 출력하는 메시지를 의미한다. 예를 들어, 서비스 제공 메시지는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 디바이스가 음성 명령과 관련된 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 음성 명령에 응답하여 디바이스가 제공하는 서비스의 식별 정보, 서비스의 종류, 및 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3) 각각으로부터 서비스 제공 메시지를 수신할 수 있다. 또한, 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들(200-1, 200-2, 200-3) 각각으로부터 서비스 제공 이력 정보 및 장치 정보 중 적어도 하나를 더 수신할 수 있다.
“서비스 제공 이력 정보”는, 음성 비서 서비스 제공 장치(100)로부터 수신된 사용자의 소정 음성 명령과 관련된 정보에 응답하여, 디바이스가 제공하거나 제안하였던 서비스와 관련된 과거 이력에 관한 정보를 의미한다. 서비스 제공 이력 정보는, 디바이스가 제1 음성 명령에 대한 서비스를 제공하는 지 여부, 제1 음성 명령에 대해서 디바이스가 제안했던 서비스가 사용자에 의해 선택되었던 횟수, 및 제1 음성 명령에 대해서 서비스가 선택되었을 때의 상황 정보(예를 들어, 시간 정보, 사용자 또는 디바이스의 위치 정보 등) 중 적어도 하나를 포함할 수 있다.
“장치 정보”는, 디바이스를 구성하는 장치들에 대한 정보를 의미한다. 구체적으로, 장치 정보는, 사용자로부터 사용자 입력을 수신하거나 사용자에게 정보를 제공하기 위한 입출력 인터페이스를 디바이스가 포함하고 있는 지 여부, 및 각 입출력 인터페이스의 성능과 관련된 정보를 포함할 수 있다. 예를 들어, 장치 정보는, 디바이스가 디스플레이를 포함하는 지 여부, 해당 디스플레이가 지원하는 해상도, 디바이스가 마이크로폰을 포함하는 지 여부, 해당 마이크로폰이 지원하는 음질, 디바이스가 스피커를 포함하는 지 여부, 해당 스피커가 지원하는 음질, 및 디바이스가 제공 가능한 서비스의 분야 중 적어도 하나에 대한 정보를 포함할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 복수의 디바이스들로부터 제공 가능한 서비스들 중에서 사용자에게 적합한 서비스를 추천할 수 있다. 음성 비서 서비스 제공 장치(100)의 프로세서(120)는, 복수의 디바이스들로부터 수신되는 서비스 제공 메시지들에 기초하여, 사용자에게 적합한 서비스를 추천하기 위한 서비스 추천부(124)를 포함할 수 있다.
서비스 추천부(124)의 그룹 식별부(125)는, 복수의 디바이스들로부터 수신되는 서비스 제공메시지들 및 서비스 제공 이력 정보 중 적어도 하나에 기초하여 디바이스들을 그룹화 할 수 있다.
복수의 디바이스들(200-1, 200-2, 200-3)이 제1 음성 명령과 관련된 그룹 정보를 학습한 바 없는 경우, 일 실시 예에 따른 그룹 식별부(125)는, 복수의 디바이스들(200-1, 200-2, 200-3)로부터 수신하는 서비스 제공 이력 정보를 분석하고, 분석 결과에 기초하여 사용자의 제1 음성 명령에 대응하는 제1 그룹에 포함되는 디바이스들을 결정할 수 있다. 그룹 식별부(125)는, 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 디바이스들을 하나의 그룹으로 그룹화할 수 있다.
그룹 식별부(125)는, 디바이스가 제1 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부에 대한 정보(isSupported 데이터)를 서비스 제공 이력 정보로부터 획득할 수 있다. 그룹 식별부(125)는, 복수의 디바이스들로부터 수신되는 서비스 제공 이력 정보에 기초하여, 복수의 디바이스들 중에서 사용자의 제1 음성 명령에 대응하는 제1 그룹에 포함되는 디바이스들을 식별할 수 있다. 그룹 식별부(125)는, 식별된 제1 그룹의 디바이스들로부터 수신된 서비스 제공 메시지들(이하에서는 ‘제1 그룹의 서비스 제공 메시지들’이라 함)을 출력할 수 있다.
제1 음성 명령과 관련된 디바이스들을 그룹화한 정보에 대한 학습이 수행된 바 있는 경우, 일 실시 예에 따른 그룹 식별부(125)는, 복수의 디바이스들(200-1, 200-2, 200-3)로부터 수신되는 서비스 제공 메시지들에 포함되는 그룹 정보에 기초하여 제1 그룹에 포함되는 디바이스들을 식별할 수 있다. 그룹 식별부(125)는, 디바이스가 제1 음성 명령과 관련된 그룹에 포함되는 지 여부에 대한 정보를 서비스 제공 메시지로부터 획득할 수 있다. 그룹 식별부(125)는, 서비스 제공 메시지에 기초하여 식별된 제1 그룹의 서비스 제공 메시지들을 출력할 수 있다.
다음으로, 서비스 추천부(124)의 서비스 선택부(126)는, 제1 그룹의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
일 실시 예에 따르면, 서비스 선택부(126)는, 제1 그룹의 디바이스들로부터 수신되는 서비스 제공 메시지들을 모두 선택할 수 있다.
예를 들어, 그룹 식별부(125)는, “음악을 재생해”라는 음성 명령에 대한 응답으로서, 복수의 디바이스들로부터 복수의 서비스 제공 메시지들을 수신할 수 있다. 그룹 식별부(125)는, 복수의 서비스 제공 메시지들에 포함된 정보에 기초하여, 수신된 음성 명령에 대응하는 그룹에 TV 및 스마트 폰이 포함되는 것을 식별할 수 있다. 서비스 선택부(126)는, 그룹에 포함되는 TV 및 스마트 폰으로부터 수신되는 서비스 제공 메시지들을 모두 선택하고, 선택된 서비스 제공 메시지들을 출력할 수 있다.
다른 일 실시 예에 따르면, 서비스 선택부(126)는, 제1 그룹의 디바이스들로부터 수신되는 서비스 제공 이력 정보 및/또는 장치 정보에 기초하여, 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 서비스 선택부(126)는, 서비스 제공 이력 정보 및/또는 장치 정보에 기초하여, 제1 그룹의 서비스 제공 메시지들에게 우선 순위를 부여하거나 가중치를 부여하고, 부여된 우선 순위 또는 가중치에 따라서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다. 예를 들어, 서비스 선택부(126)는, 각 디바이스가 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 복수의 서비스 제공 메시지들에 우선 순위 또는 가중치를 부여할 수 있다.
일 예로서, 서비스 선택부(126)는, 가장 높은 우선 순위가 부여된 하나의 서비스 제공 메시지를 선택하거나, 상대적으로 높은 우선 순위가 부여된 복수의 서비스 제공 메시지들을 선택할 수 있다. 다른 예로서, 서비스 선택부(126)는, 부여된 가중치가 임계값 이상인 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
예를 들어, 그룹 식별부(125)는, “음악을 재생해”라는 음성 명령에 대한 응답으로서, 복수의 디바이스들로부터 복수의 서비스 제공 메시지들을 수신할 수 있다. 그룹 식별부(125)는, 복수의 서비스 제공 메시지들에 포함된 정보에 기초하여, 수신된 음성 명령에 대응하는 그룹에 TV 및 스마트 폰이 포함되는 것을 식별할 수 있다. 서비스 선택부(126)는, TV 및 스마트 폰의 장치 정보에 기초하여, 디바이스의 스피커 성능에 따라 디바이스에게 우선 순위를 부여할 수 있다. 서비스 선택부(126)는, 부여된 우선 순위에 기초하여, 스피커 성능이 가장 좋은 TV의 서비스 제공 메시지를 선택하고, 선택된 서비스 제공 메시지를 출력할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 제1 그룹 디바이스들의 서비스 제공 메시지들 중 적어도 하나를 선택하기 위하여, 서비스 추천을 위한 서비스 추천 모델(143)을 이용할 수 있다. 예를 들어, 서비스 추천 모델(143)은, 소정 음성 명령, 소정 음성 명령에 대한 복수의 디바이스들의 서비스 제공 이력 및 복수의 디바이스들 각각의 장치 정보에 의해 학습된 인공 지능 알고리즘일 수 있다.
일 실시 예에 따른 서비스 추천 모델(143)은, 제1 음성 명령, 현재 상황 정보(예를 들어, 음성 비서 서비스 제공 장치(100)의 위치, 또는 현재 시각 등), 각 디바이스의 서비스 제공 이력 정보, 및 장치 정보를 종합적으로 고려하여, 제1 그룹의 서비스 제공 메시지들 중에서 적어도 하나의 서비스 제공 메시지를 선택할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 응답 메시지 생성부(127)는, 선택된 적어도 하나의 서비스 제공 메시지 내의 적어도 하나의 서비스와 관련된 정보를 포함하도록 응답 메시지를 생성할 수 있다. 응답 메시지 생성부(127)는, 선택된 적어도 하나의 서비스 제공 메시지를 사람이 이해할 수 있는 자연어로 변환하는 자연어 생성(Natural Language Generation)모듈 및 텍스트 형태의 자연어를 음성 신호로 변환하는 텍스트-스피치 변환(TTS) 모듈을 포함할 수 있다.
일 실시 예에 따른 응답 메시지 생성부(127)는, 서비스 선택부(126)가 둘 이상의 서비스 제공 메시지들을 선택한 경우, 선택된 서비스 제공 메시지들을 나열하여 하나의 응답 메시지를 생성하고 출력할 수 있다.
예를 들어, 서비스 선택부(126)는, “음악을 재생해”라는 음성 명령에 응답하는 복수의 서비스 제공 메시지들 중에서 TV 및 스마트 폰의 서비스 제공 메시지들을 선택할 수 있다. 이 경우, 응답 메시지 생성부(127)는, TV 및 스마트 폰의 서비스 제공 메시지들을 조합하여, “TV를 통해 음악을 재생하거나, 스마트 폰으로 음악을 재생할 수 있습니다”라는 응답 메시지를 출력할 수 있다. 이 경우, 사용자는 출력되는 응답 메시지를 청취하고, 어떠한 서비스를 선택할 지 결정할 수 있다.
다른 일 실시 예에 따른 응답 메시지 생성부(127)는, 서비스 선택부(126)가 둘 이상의 서비스 제공 메시지들을 선택한 경우, 선택된 서비스 제공 메시지들을 조합하여 하나의 응답 메시지를 생성하고 출력할 수 있다.
예를 들어, 서비스 선택부(126)는, “운동을 해볼까?”라는 음성 명령에 응답하는 복수의 서비스 제공 메시지들 중에서 웨어러블 디바이스 및 운동 기구의 서비스 제공 메시지들을 선택할 수 있다. 이 경우, 응답 메시지 생성부(127)는, “어제는 근력운동을 하셨으니 오늘은 유산소 운동을 추천합니다”라는 결과 텍스트를 포함하는 웨어러블 디바이스의 서비스 제공 메시지를 수신하고, “ 운동을 30분 설정 가능합니다”라는 결과 텍스트를 포함하는 운동 기구의 서비스 제공 메시지를 수신할 수 있다. 응답 메시지 생성부(127)는, 웨어러블 디바이스 및 운동 기구의 서비스 제공 메시지들을 조합하여, “어제 근력 운동을 하셨으니, 운동 기구로 유산소 운동을 30분 하시는 게 어떨까요?”라는 응답메시지를 생성하고 출력할 수 있다.
응답 메시지 생성부(127)는, 선택된 서비스 제공 메시지들에 포함되는 결과 텍스트들을 학습하여, 결과 텍스트들이 조합된 하나의 응답 메시지를 생성하고 출력할 수 있다. 예를 들어, 응답 메시지 생성부(127)는, 결과 텍스트들을 분석하고, 도메인이 동일하거나 유사한 엔티티들을 결과 텍스트들로부터 추출할 수 있다. 응답 메시지 생성부(127)는, 추출된 엔티티들 및 사용자의 대화 이력에 기반하여 응답메시지를 생성할 수 있다.
응답 메시지 생성부(127)는, 선택된 서비스 제공 메시지들을 조합 하여 하나의 응답 메시지를 생성하기 위하여, 응답 메시지 생성을 위한 응답 메시지 생성 모델(145)을 이용할 수 있다. 예를 들어, 응답 메시지 생성 모델(145)은, 복수의 디바이스들로부터 수신되는 서비스 제공 메시지, 서비스 제공 이력 정보, 및 장치 정보에 의해 학습된 인공 지능 알고리즘일 수 있다.
응답 메시지 생성부(127)에서 생성된 응답 메시지는, 음성 비서 서비스 제공 장치(100)의 스피커(150)를 통해 출력될 수 있다. 상술한 바와 같이, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제공하는 다양한 서비스들 중에서 사용자가 선호하는 최적의 서비스를 제안함으로써, 사용자가 편리하게 많은 수의 디바이스들과 통신하고 제어할 수 있도록 한다.
한편, 사용자는 제1 음성 명령에 응답하는 응답 메시지를 청취하고, 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용할 지 여부를 결정할 수 있다. 사용자는 결정에 기초하여 제2 음성 명령을 발화하거나 소정 동작을 수행할 수 있다.
예를 들어, “음악을 재생해”라는 제1 음성 명령에 응답하여, 음성 비서 서비스 제공 장치(100)는 “TV를 통해 음악을 재생할까요?"라는 응답 메시지를 스피커(150)를 통해 출력할 수 있다. 사용자는 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정한 경우, "그래, TV를 통해 음악을 재생해줘."라는 제2 음성 명령을 발화할 수 있다. 사용자는 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하지 않기로 결정한 경우, "아니, 스마트 폰을 통해 재생해줘"라는 제2 음성 명령을 발화할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자로부터 수신되는 제2 음성 명령에 기초하여, 사용자가 음성 비서 서비스 제공 장치(100)가 제안하는 서비스를 수용하기로 결정 하였는 지 여부를 판단할 수 있다.
일 실시 예에 따른 음성 비서 서비스 제공 장치(100)는 사용자에 의해 선택된 서비스와 관련된 정보에 기초하여, 서비스 추천 모델(143)을 학습할 수 있다. 음성 비서 서비스 제공 장치(100)는, 복수의 디바이스들이 제공하는 다양한 서비스들 중에서 사용자가 선호하는 최적의 서비스를 제안하기 위하여, 사용자의 음성 명령에 의해 계속적으로 서비스 추천 모델(143)을 학습할 수 있다.
도 18은 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)의 구체적인 블록도를 도시한다.
도 18에 도시된 음성 비서 서비스 제공 장치(100)는 도 16 및 도 17에서 설명한 음성 비서 서비스 제공 장치(100)와 동일한 구성 요소를 포함할 수 있다. 예를 들어, 도 18에 도시된 구성 요소 중 프로세서(2300)는 도 16 및 도 17에서 도시된 프로세서(120)와 동일하고, 출력부(2200)는 도 16 및 도 17에 도시된 출력부(150)과 동일하다.
도 18에 도시된 음성 비서 서비스 제공 장치(100)는 도 1 내지 도 17에서 설명한 음성 비서 서비스 제공 장치(100)의 동작 및 기능들을 모두 수행할 수 있다. 따라서, 이하에서는 지금까지 설명되지 않았던 음성 비서 서비스 제공 장치(100)의 구성 요소들에 대하여 설명하기로 한다.
도 18를 참조하면, 음성 비서 서비스 제공 장치(100)는 사용자 입력부(2100), 출력부(2200), 프로세서(2300), 센싱부(2400), 통신부(2500), A/V 입력부(2600), 및 메모리(2700)를 포함할 수 있다.
사용자 입력부(2100)는, 사용자가 음성 비서 서비스 제공 장치(100)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(2100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다. 사용자 입력부(2100)는, 사용자에게 제공할 대화 정보를 생성하기 위하여 필요한 사용자 입력을 수신할 수 있다.
출력부(2200)는 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(2200)는 디스플레이부(2210), 음향 출력부(2220), 및 진동 모터(2230)를 포함할 수 있다.
진동 모터(2230)는 진동 신호를 출력할 수 있다. 예를 들어, 진동 모터(2230)는 오디오 데이터 또는 비디오 데이터(예컨대, 호신호 수신음, 메시지 수신음 등)의 출력에 대응하는 진동 신호를 출력할 수 있다.
센싱부(2400)는, 음성 비서 서비스 제공 장치(100)의 상태 또는 음성 비서 서비스 제공 장치(100) 주변의 상태를 감지하고, 감지된 정보를 프로세서(2300)로 전달할 수 있다.
센싱부(2400)는, 지자기 센서(Magnetic sensor)(2410), 가속도 센서(Acceleration sensor)(2420), 온/습도 센서(2430), 적외선 센서(2440), 자이로스코프 센서(2450), 위치 센서(예컨대, GPS)(2460), 기압 센서(2470), 근접 센서(2480), 및 RGB 센서(illuminance sensor)(2490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다. 각 센서들의 기능은 그 명칭으로부터 당업자가 직관적으로 추론할 수 있으므로, 구체적인 설명은 생략하기로 한다.
통신부(2500)는, 다른 디바이스와의 통신을 수행하기 위한 구성 요소를 포함할 수 있다. 예를 들어, 통신부(2500)는, 근거리 통신부(2510), 이동 통신부(2520), 방송 수신부(2530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(251)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(2520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(2530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 음성 비서 서비스 제공 장치(100)가 방송 수신부(2530)를 포함하지 않을 수도 있다.
또한, 통신부(2500)는, 제1 사용자에게 제공할 대화 정보를 생성하기 위하여 필요한 정보를, 제2 대화형 전자 장치(3000), 다른 디바이스 및 서버와 송수신할 수 있다.
A/V(Audio/Video) 입력부(2600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(2610)와 마이크로폰(2620) 등이 포함될 수 있다. 카메라(2610)은 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(2300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
카메라(2610)에서 처리된 화상 프레임은 메모리(2700)에 저장되거나 통신부(2500)를 통하여 외부로 전송될 수 있다. 카메라(2610)는 단말기의 구성 태양에 따라 2개 이상이 구비될 수도 있다.
마이크로폰(2620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다. 예를 들어, 마이크로폰(2620)은 외부 디바이스 또는 화자로부터 음향 신호를 수신할 수 있다. 마이크로폰(2620)는 외부의 음향 신호를 입력 받는 과정에서 발생 되는 잡음(noise)를 제거하기 위한 다양한 잡음 제거 알고리즘을 이용할 수 있다.
메모리(2700)는, 프로세서(2300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 음성 비서 서비스 제공 장치(100)로 입력되거나 음성 비서 서비스 제공 장치(100)로부터 출력되는 데이터를 저장할 수도 있다.
메모리(2700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(2700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈, 음성 인식 모듈, 음성 비서 서비스 제공 모듈, 터치 스크린 모듈, 알림 모듈 등으로 분류될 수 있다. UI 모듈은, 애플리케이션 별로 음성 비서 서비스 제공 장치(100)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 음성 인식 모듈은, 사용자의 음성 명령을 인식하기 위한, TTS 기능, NLU 기능 등을 제공할 수 있다. 음성 비서 서비스 제공 모듈은, 사용자의 음성 명령에 대한 응답 메시지를 생성하기 위하여 사용자의 음성 명령을 전달할 디바이스를 판단하고, 디바이스들로부터 수신된 서비스 제공 메시지들을 분석하고, 선택된 서비스 제공 메시지에 기초하여 응답 메시지를 생성하는 기능을 제공할 수 있다.
터치 스크린 모듈은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(2300)로 전달할 수 있다. 일부 실시 예에 따른 터치 스크린 모듈은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
알림 모듈은 음성 비서 서비스 제공 장치(100)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다. 음성 비서 서비스 제공 장치(100)에서 발생되는 이벤트의 예로는 호 신호 수신, 메시지 수신, 키 신호 입력, 일정 알림 등이 있다. 알림 모듈은 디스플레이부(2210)를 통해 비디오 신호 형태로 알림 신호를 출력할 수도 있고, 음향 출력부(2220)를 통해 오디오 신호 형태로 알림 신호를 출력할 수도 있고, 진동 모터(2230)를 통해 진동 신호 형태로 알림 신호를 출력할 수도 있다.
이하에서는, 일 실시 예에 따른 음성 비서 서비스 제공 장치(100)와 연결하여 동작하는 디바이스(200)의 구성을 설명한다. 이하에서 서술하는 디바이스(200)의 각 구성은, 상술한 디바이스(200)가 동작하는 방법의 각 단계를 수행할 수 있다. 따라서, 상술한 설명과 중복되는 설명은 생략한다.
도 19는 일 실시 예에 따른 디바이스(200)의 블록도이다.
본 개시의 일 실시 예에 따른 디바이스(200)는 컴퓨터 장치로 구현되는 고정형 단말이거나 이동형 단말일 수 있다. 음성 비서 서비스 제공 장치(100)는, 예를 들어, 스마트 폰(smart phone), 스마트 가전, 웨어러블 디바이스, 내비게이션, 컴퓨터, 노트북, 디지털방송용 단말, 인공 지능 스피커, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 및 태블릿 PC 중 적어도 하나일 수 있으나, 이에 한정되지 않는다. 디바이스(200)는, 무선 또는 유선 통신 방식을 이용하여 네트워크를 통해 음성 비서 서비스 제공 장치(100), 다른 디바이스 및/또는 서버와 통신할 수 있다.
도 19를 참조하면, 디바이스(200)는, 수신부(210), 프로세서(220), 통신부(230), 메모리(240), 및 출력부(250)를 포함할 수 있다. 도 19에 도시된 구성 요소 모두가 디바이스(200)의 필수 구성 요소인 것은 아니다. 도 19에 도시된 구성 요소보다 많은 구성 요소에 의해 디바이스(200)가 구현될 수도 있고, 도 19에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스(200)가 구현될 수도 있다. 도 19에 도시된 적어도 하나의 구성 요소는 도 6 및 도 7의 동작을 수행할 수 있다. 그러므로, 도 6 및 도 7을 참조하여 상술한 설명과 중복되는 설명은 생략한다.
본 개시의 일 실시 예에 따른 수신부(210)는 사용자로부터 음성 명령을 수신할 수 있다. 예를 들어, 수신부(210)는, 마이크로폰에 의해 외부의 소리를 전기적인 음향 데이터로 변환함으로써 음성 명령을 수신할 수 있다.
본 개시의 일 실시 예에 따른 메모리(240)는, 음성 비서 서비스를 제공하기 위한 인스트럭션들, 음성 인식에 이용되는 각종 모델, 신경망, 사전 정보 등을 저장할 수 있다.
본 개시의 일 실시 예에 따른 프로세서(220)는, 메모리(240)에 저장된 하나 이상의 인스터럭션들을 실행함으로써, 수신부(210), 통신부(230), 및 출력부(250)를 제어함으로써 본 개시의 다양한 실시 예들에 따른 음성 비서 서비스를 제공할 수 있다. 도 19에는 디바이스(200)가 하나의 프로세서(220)를 포함하는 것으로 도시되었지만 본 개시는 도시된 실시 예에 제한되지 않는다. 디바이스(200)는 복수의 프로세서들을 포함할 수 있다. 디바이스(200)가 복수의 프로세서들을 포함하는 경우, 후술하는 프로세서(220)의 동작 및 기능은 복수의 프로세스들에서 부분적으로 수행될 수 있다.
먼저, 프로세서(220)는, 통신부(230)를 통해 음성 비서 서비스 제공 장치(100)로부터 제1 음성 명령과 관련된 정보를 수신할 수 있다.
디바이스(200)의 프로세서(220)가 음성 비서 서비스 제공 장치(100)로부터 수신하는 제1 음성 명령과 관련된 정보는, 사용자의 음성 명령 그 자체의 오디오 신호 또는 음성 명령이 처리된 결과를 포함할 수 있다. 예를 들어, 프로세서(220)는, 제1 음성 명령이 변환된 제1 텍스트를 해석한 결과 및 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 제1 음성 명령과 관련된 정보로서 수신할 수 있다.
일 실시 예에 따른 프로세서(220)는, 디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있는지 여부를 결정할 수 있다.
프로세서(220)는, 디바이스(200)를 구성하는 장치들(예를 들어, 스크린, 입력 인터페이스 등)에 대한 정보, 디바이스(200) 상에 동작하는 애플리케이션 등과 같은 소프트웨어 정보, 디바이스(200)에 미리 저장된 정보(예를 들어, 현재 시간 정보, 및 디바이스의 위치 정보 등)에 기초하여, 디바이스(200)가 제공 가능한 서비스들을 식별할 수 있다.
예를 들어, 프로세서(220)는, 디바이스(200)를 구성하는 장치들에 대한 정보, 현재 시간 정보, 및 디바이스의 위치 정보 중 적어도 하나에 기초하여, 디바이스(200)가 제공 가능한 서비스들을 식별할 수 있다. 프로세서(220)는, 디바이스(200)가 제공 가능한 것으로 식별된 서비스들 중에서 제1 음성 명령이 요청하는 서비스의 종류에 대응하는 서비스가 포함되는 경우, 디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정할 수 있다.
프로세서(220)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 있다고 결정한 경우, 프로세서(220)는 음성 비서 서비스 제공 장치(100)에게 전송하기 위한 서비스 제공 메시지를 생성할 수 있다. 서비스 제공 메시지는, 음성 비서 서비스 제공 장치(100)로부터 수신된 제1 음성 명령과 관련된 정보에 응답하여, 디바이스(200)가 제안하는 서비스와 관련된 정보를 포함할 수 있다.
예를 들어, 서비스 제공 메시지는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 디바이스가 음성 명령과 관련된 소정 그룹에 포함되는 지 여부, 디바이스의 식별 정보, 음성 명령에 응답하여 디바이스가 제공하는 소정 서비스의 식별 정보, 소정 서비스의 종류, 및 소정 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함할 수 있다.
일 실시 예에 따른 디바이스(200)의 프로세서(220)는, 음성 비서 서비스 제공 장치(100)에게 서비스 제공 메시지 및 서비스 제공 이력 정보를 전송할 수 있다.
서비스 제공 이력 정보는, 제1 음성 명령과 관련된 정보에 응답하여, 디바이스(200)가 제공하거나 제안하였던 서비스와 관련된 과거 이력에 관한 정보를 의미한다. 예를 들어, 서비스 제공 이력 정보는, 디바이스가 음성 명령에 응답하는 서비스를 제공할 수 있는 지 여부, 음성 명령에 대해서 디바이스가 제안했던 소정 서비스가 사용자에 의해 선택되었던 횟수, 및 음성 명령에 대해서 소정 서비스가 선택되었을 때의 상황 정보(예를 들어, 시간 정보, 위치 정보 등) 중 적어도 하나를 포함할 수 있다.
디바이스(200)가 제1 음성 명령과 관련된 정보에 응답하여 서비스를 제공할 수 없다고 결정한 경우, 프로세서(220)는 통신부(230)를 통해 서비스 제공이 불가능하다는 메시지를 전송할 수 있다.
또한, 일 실시 예에 따른 프로세서(220)는, 통신부(230)를 통해 사용자에 의해 선택된 서비스와 관련된 정보를 음성 비서 서비스 제공 장치(100)로부터 수신할 수 있다. 프로세서(220)는, 수신된 정보에 기초하여 메모리(240)에 저장된 서비스 제공 이력 정보를 갱신할 수 있다.
한편, 본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
또한, 개시된 실시 예들은 컴퓨터로 읽을 수 있는 저장 매체(computer-readable storage media)에 저장된 명령어를 포함하는 S/W 프로그램으로 구현될 수 있다.
컴퓨터는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 개시된 실시 예에 따른 동작이 가능한 장치로서, 개시된 실시 예들에 따른 영상 전송 장치 및 영상 수신 장치를 포함할 수 있다.
컴퓨터로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
또한, 개시된 실시 예들에 따른 전자 장치 또는 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.
컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.
컴퓨터 프로그램 제품은, 서버 및 단말(예로, 음성 비서 서비스 제공 장치 또는 디바이스)로 구성되는 시스템에서, 서버의 저장매체 또는 단말의 저장매체를 포함할 수 있다. 또는, 서버 또는 단말과 통신 연결되는 제3 장치(예, 스마트 폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 단말 또는 제3 장치로 전송되거나, 제3 장치로부터 단말로 전송되는 S/W 프로그램 자체를 포함할 수 있다.
이 경우, 서버, 단말 및 제3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 수행할 수 있다. 또는, 서버, 단말 및 제3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 분산하여 실시할 수 있다.
예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 단말이 개시된 실시 예들에 따른 방법을 수행하도록 제어할 수 있다.
또 다른 예로, 제3 장치가 컴퓨터 프로그램 제품을 실행하여, 제3 장치와 통신 연결된 단말이 개시된 실시 예에 따른 방법을 수행하도록 제어할 수 있다. 구체적인 예로, 제3 장치는 영상 전송 장치 또는 영상 수신 장치를 원격 제어하여, 패킹 영상을 전송 하거나 수신하도록 제어할 수 있다.
제3 장치가 컴퓨터 프로그램 제품을 실행하는 경우, 제3 장치는 서버로부터 컴퓨터 프로그램 제품을 다운로드하고, 다운로드된 컴퓨터 프로그램 제품을 실행할 수 있다. 또는, 제3 장치는 프리로드된 상태로 제공된 컴퓨터 프로그램 제품을 실행하여 개시된 실시 예들에 따른 방법을 수행할 수도 있다.

Claims (23)

  1. 음성 비서 서비스 제공 방법에 있어서,
    사용자로부터 제1 음성 명령을 수신하는 단계;
    복수의 후보 디바이스들 중에서 상기 제1 음성 명령을 전송할 복수의 디바이스들을 판단하는 단계;
    상기 제1 음성 명령과 관련된 정보를 상기 복수의 디바이스들에게 전송하는 단계;
    상기 복수의 디바이스들 각각으로부터 상기 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 상기 복수의 디바이스들의 서비스 제공 이력 정보를 수신하는 단계;
    상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계; 및
    상기 선택된 결과에 기초하여, 상기 제1 음성 명령에 응답하는 응답 메시지를 출력하는 단계를 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 복수의 디바이스들을 판단하는 단계는,
    상기 제1 음성 명령을 제1 텍스트로 변환하는 단계;
    자연어 이해 모델(Natural Language Understanding, NLU)을 이용하여, 상기 변환된 제1 텍스트를 해석하는 단계;
    상기 해석 결과에 기초하여 상기 사용자의 의도(intent)를 결정하는 단계; 및
    상기 사용자의 의도와 상기 복수의 후보 디바이스들 간의 관련성에 기초하여, 상기 복수의 후보 디바이스들 중에서 상기 제1 음성 명령을 전송할 복수의 디바이스들을 판단하는 단계를 포함하는, 방법.
  3. 제2 항에 있어서,
    상기 관련성에 기초하여 상기 복수의 디바이스들을 판단하는 단계는,
    상기 복수의 후보 디바이스들에 관한 디바이스 정보를 획득하는 단계;
    상기 디바이스 정보에 기초하여, 상기 사용자의 의도와 상기 복수의 후보 디바이스들 간의 관련성 정도를 나타내는 복수의 확률값들을 획득하는 단계; 및상기 복수의 후보 디바이스들 중에서, 임계값 이상의 확률값들을 갖는 상기 복수의 디바이스들을 판단하는 단계를 포함하는, 방법.
  4. 제1 항에 있어서,
    상기 복수의 디바이스들 중에서 제1 디바이스로부터 수신되는 제1 서비스 제공 메시지는,
    상기 제1 디바이스가 상기 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 상기 제1 디바이스가 제1 그룹에 포함되는 지 여부, 상기 제1 디바이스의 식별 정보, 상기 제1 음성 명령에 응답하여 상기 제1 디바이스가 제공하는 제1 서비스의 식별 정보, 상기 제1 서비스의 종류, 및 상기 제1 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함하는, 방법.
  5. 제4 항에 있어서,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    상기 복수의 디바이스들 중에서 상기 제1 그룹에 포함되는 디바이스들을 식별하는 단계; 및
    상기 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여, 상기 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택하는 단계를 포함하는, 방법.
  6. 제1 항에 있어서,
    상기 서비스 제공 이력 정보는,
    상기 제1 음성 명령에 대해서 제1 디바이스가 제안했던 제1 서비스가 상기 사용자에 의해 선택되었던 횟수, 및 상기 제1 음성 명령에 대해서 상기 제1 서비스가 선택되었을 때의 상황 정보 중 적어도 하나를 포함하는, 방법.
  7. 제1 항에 있어서,
    상기 서비스 제공 메시지들 및 상기 서비스 제공 이력 정보를 수신하는 단계는,
    상기 서비스 제공 메시지들 및 상기 서비스 제공 이력 정보와 함께, 상기 복수의 디바이스들로부터 각 디바이스를 구성하는 장치정보를 수신하는 단계를 포함하고,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    상기 복수의 디바이스들의 장치 정보 및 상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계를 포함하는, 방법.
  8. 제1 항에 있어서,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    서비스 추천 모델을 이용하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계를 포함하고,
    상기 서비스 추천 모델은,
    소정 음성 명령, 상기 소정 음성 명령에 대한 상기 복수의 디바이스들의 서비스 제공 이력 및 상기 복수의 디바이스들 각각의 장치 정보에 의해 학습된 인공 지능 알고리즘인 것을 특징으로 하는, 방법.
  9. 제1 항에 있어서,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    각 디바이스가 상기 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 상기 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 상기 복수의 서비스 제공 메시지들에 우선 순위를 부여하는 단계; 및
    상기 부여된 우선 순위에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계를 포함하는, 방법.
  10. 제1 항에 있어서,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    각 디바이스가 상기 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 상기 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 상기 복수의 서비스 제공 메시지들에 우선 순위를 부여하는 단계; 및
    상기 부여된 우선 순위에 기초하여, 상기 복수의 서비스 제공 메시지들 중 둘 이상의 서비스 제공 메시지들을 선택하는 단계를 포함하는, 방법.
  11. 제1 항에 있어서,
    상기 복수의 디바이스들로부터 수신되는 복수의 서비스 제공 메시지들은,
    상기 제1 음성 명령에 응답하여 상기 복수의 디바이스들 각각이 제공하는 서비스와 관련된 정보를 포함하고,
    상기 제1 음성 명령에 응답하는 응답 메시지를 출력하는 단계는,
    상기 선택된 적어도 하나의 서비스 제공 메시지 내의 적어도 하나의 서비스와 관련된 정보를 포함하도록 상기 응답 메시지를 생성하는 단계; 및
    상기 응답 메시지를 출력하는 단계를 포함하는, 방법.
  12. 제1 항에 있어서,
    상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 단계는,
    상기 복수의 서비스 제공 메시지들에 기초하여, 상기 복수의 디바이스들 중에서 제1 그룹에 포함되는 디바이스들을 식별하는 단계; 및
    서비스 추천 모델을 이용하여, 상기 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여 상기 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택하는 단계를 포함하고,
    상기 방법은,
    상기 사용자로부터 제2 음성 명령을 수신하는 단계;
    상기 제2 음성 명령에 기초하여, 상기 제1 음성 명령에 응답하여 상기 복수의 디바이스들이 제공하는 서비스들 중에서 상기 사용자에 의해 선택된 서비스를 결정하는 단계;
    상기 사용자에 의해 선택된 서비스와 관련된 정보를 상기 복수의 디바이스들에게 전송하는 단계; 및
    상기 사용자에 의해 선택된 서비스와 관련된 정보를 이용하여, 상기 서비스 추천 모델을 학습하는, 방법.
  13. 음성 비서 서비스 제공 장치에 있어서,
    사용자로부터 음성 명령을 수신하는, 수신부;
    통신부;
    하나 이상의 명령어들을 저장하는 메모리; 및
    상기 하나 이상의 명령어들을 실행함으로써 보이스 어시스턴트 프로그램을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 사용자로부터 제1 음성 명령을 수신하도록 상기 수신부를 제어하고,
    복수의 후보 디바이스들 중에서 상기 제1 음성 명령을 전송할 복수의 디바이스들을 판단하고,
    상기 제1 음성 명령과 관련된 정보를 상기 복수의 디바이스들에게 전송하고, 상기 복수의 디바이스들 각각으로부터 상기 제1 음성 명령에 응답하는 복수의 서비스 제공 메시지들 및 상기 복수의 디바이스들의 서비스 제공 이력 정보를 수신하도록, 상기 통신부를 제어하고,
    상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하고,
    상기 선택된 결과에 기초하여, 상기 제1 음성 명령에 응답하는 응답 메시지를 출력하는, 음성 비서 서비스 제공 장치.
  14. 제13 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제1 음성 명령을 제1 텍스트로 변환하고,
    상기 변환된 제1 텍스트를 해석하고,
    상기 해석 결과 및 상기 제1 음성 명령이 요청하는 서비스의 종류에 대한 정보를 상기 제1 음성 명령과 관련된 정보로서 전송하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  15. 제13 항에 있어서,
    상기 복수의 디바이스들 중에서 제1 디바이스로부터 수신되는 제1 서비스 제공 메시지는,
    상기 제1 디바이스가 제1 그룹에 포함되는 지 여부, 상기 제1 디바이스의 식별 정보, 상기 제1 음성 명령에 응답하여 상기 제1 디바이스가 제공하는 제1 서비스의 식별 정보, 상기 제1 서비스의 종류, 및 상기 제1 서비스를 제공하기 위해 이용되는 애플리케이션의 식별 정보 중 적어도 하나를 포함하는, 음성 비서 서비스 제공 장치.
  16. 제15 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 디바이스들 중에서 상기 제1 그룹에 포함되는 디바이스들을 식별하고,
    상기 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여, 상기 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  17. 제13 항에 있어서,
    상기 서비스 제공 이력 정보는,
    상기 제1 음성 명령에 대해서 제1 디바이스가 제안했던 제1 서비스가 상기 사용자에 의해 선택되었던 횟수, 및 상기 제1 음성 명령에 대해서 상기 제1 서비스가 선택되었을 때의 상황 정보 중 적어도 하나를 포함하는, 음성 비서 서비스 제공 장치.
  18. 제13 항에 있어서,
    상기 통신부는,
    상기 복수의 디바이스들로부터 각 디바이스를 구성하는 장치 정보를 더 수신하고,
    상기 적어도 하나의 프로세서는,
    상기 복수의 디바이스들의 장치 정보 및 상기 서비스 제공 이력 정보에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  19. 제13 항에 있어서,
    상기 적어도 하나의 프로세서는,
    서비스 추천 모델을 이용하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하고,
    상기 서비스 추천 모델은,
    소정 음성 명령, 상기 소정 음성 명령에 대한 상기 복수의 디바이스들의 서비스 제공 이력 및 상기 복수의 디바이스들 각각의 장치 정보에 의해 학습된 인공 지능 알고리즘인 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  20. 제13 항에 있어서,
    상기 적어도 하나의 프로세서는,
    각 디바이스가 상기 제1 음성 명령에 응답하는 서비스를 제공하는 지 여부, 상기 제1 음성 명령에 응답하여 각 디바이스가 제공하는 서비스의 종류, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었던 횟수, 상기 제1 음성 명령에 대해서 각 디바이스가 제공하는 서비스가 선택되었을 때의 상황 정보, 및 각 디바이스를 구성하는 장치 정보 중 적어도 하나에 기초하여, 상기 복수의 서비스 제공 메시지들에 우선 순위를 부여하고,
    상기 부여된 우선 순위에 기초하여, 상기 복수의 서비스 제공 메시지들 중 적어도 하나를 선택하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  21. 제13 항에 있어서,
    상기 복수의 디바이스들로부터 수신되는 복수의 서비스 제공 메시지들은,
    상기 제1 음성 명령에 응답하여 상기 복수의 디바이스들 각각이 제공하는 서비스와 관련된 정보를 포함하고,
    상기 적어도 하나의 프로세서는,
    상기 선택된 적어도 하나의 서비스 제공 메시지 내의 적어도 하나의 서비스와 관련된 정보를 포함하도록 상기 응답 메시지를 생성하고,
    상기 응답 메시지를 출력하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  22. 제13 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 복수의 서비스 제공 메시지들에 기초하여, 상기 복수의 디바이스들 중에서 제1 그룹에 포함되는 디바이스들을 식별하고,
    서비스 추천 모델을 이용하여, 상기 식별된 디바이스들의 서비스 제공 이력 정보에 기초하여 상기 식별된 디바이스들로부터 수신되는 서비스 제공 메시지들 중에서 적어도 하나를 선택하고,
    상기 수신부는,
    상기 사용자로부터 제2 음성 명령을 더 수신하고,
    상기 적어도 하나의 프로세서는,
    상기 제2 음성 명령에 기초하여, 상기 제1 음성 명령에 응답하여 상기 복수의 디바이스들이 제공하는 서비스들 중에서 상기 사용자에 의해 선택된 서비스를 결정하고,
    상기 사용자에 의해 선택된 서비스와 관련된 정보를 상기 복수의 디바이스들에게 전송하도록 상기 통신부를 제어하고,
    상기 사용자에 의해 선택된 서비스와 관련된 정보를 이용하여, 상기 서비스 추천 모델을 학습하는 것을 특징으로 하는, 음성 비서 서비스 제공 장치.
  23. 제1 항의 방법을 수행하도록 하는 프로그램이 저장된 하나 이상의 컴퓨터로 읽을 수 있는 기록매체.
KR1020200128879A 2020-02-10 2020-10-06 음성 비서 서비스 제공 방법 및 장치 KR20210102032A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21753945.1A EP4055593A4 (en) 2020-02-10 2021-02-05 METHOD AND APPARATUS FOR PROVIDING A VOICE ASSISTANCE SERVICE
PCT/KR2021/001573 WO2021162363A1 (en) 2020-02-10 2021-02-05 Method and apparatus for providing voice assistant service
US17/248,859 US20210249018A1 (en) 2020-02-10 2021-02-10 Method and apparatus for providing voice assistant service

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200015837 2020-02-10
KR1020200015837 2020-02-10

Publications (1)

Publication Number Publication Date
KR20210102032A true KR20210102032A (ko) 2021-08-19

Family

ID=77492875

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200128879A KR20210102032A (ko) 2020-02-10 2020-10-06 음성 비서 서비스 제공 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20210102032A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023085822A1 (ko) * 2021-11-11 2023-05-19 삼성전자주식회사 디바이스 위치 결정 방법 및 상기 방법을 수행하는 전자 장치
WO2024038991A1 (en) * 2022-08-17 2024-02-22 Samsung Electronics Co., Ltd. Method and electronic device for providing uwb based voice assistance to user
WO2024085592A1 (ko) * 2022-10-19 2024-04-25 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 어시스턴트 서비스 제공 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023085822A1 (ko) * 2021-11-11 2023-05-19 삼성전자주식회사 디바이스 위치 결정 방법 및 상기 방법을 수행하는 전자 장치
WO2024038991A1 (en) * 2022-08-17 2024-02-22 Samsung Electronics Co., Ltd. Method and electronic device for providing uwb based voice assistance to user
WO2024085592A1 (ko) * 2022-10-19 2024-04-25 삼성전자 주식회사 전자 장치 및 전자 장치의 음성 어시스턴트 서비스 제공 방법

Similar Documents

Publication Publication Date Title
KR20210102032A (ko) 음성 비서 서비스 제공 방법 및 장치
JP2018190413A (ja) ユーザ発話の表現法を把握して機器の動作やコンテンツ提供範囲を調整し提供するユーザ命令処理方法およびシステム
US11501755B2 (en) Apparatus and method for providing voice assistant service
US11393465B2 (en) Artificial intelligence apparatus for speech interaction and method for the same
JP6400871B1 (ja) 発話制御装置、発話制御方法、および発話制御プログラム
US20200135212A1 (en) Speech recognition method and apparatus in environment including plurality of apparatuses
US20220019178A1 (en) Intelligent device and method for controlling the same
US20220093105A1 (en) Artificial intelligence apparatus and method for recognizing plurality of wake-up words
KR102535152B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR20200085143A (ko) 외부 장치를 등록하는 대화형 제어 시스템 및 방법
US11848012B2 (en) System and method for providing voice assistant service
JP6557376B1 (ja) 出力制御装置、出力制御方法、および出力制御プログラム
KR102423754B1 (ko) 디바이스 사용 문의에 대한 응답을 제공하는 디바이스 및 방법
KR20200016774A (ko) 사용자 음성 발화를 처리하기 위한 시스템 및 그의 동작 방법
US20210249018A1 (en) Method and apparatus for providing voice assistant service
US20200143807A1 (en) Electronic device and operation method thereof
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
KR20200033189A (ko) 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
CN112639965A (zh) 在包括多个设备的环境中的语音识别方法和设备
US11675973B2 (en) Electronic device and operation method for embedding an input word using two memory operating speeds
JP2023027697A (ja) 端末装置、送信方法、送信プログラム及び情報処理システム
US20220122602A1 (en) Electronic device, and method for providing assistant service using same
WO2020054361A1 (ja) 情報処理システム、情報処理方法、および記録媒体
JP2020030245A (ja) 端末装置、決定方法、決定プログラム及び決定装置
US11978449B2 (en) Electronic device for processing user utterance and operation method therefor