KR101889279B1 - 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법 - Google Patents

음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법 Download PDF

Info

Publication number
KR101889279B1
KR101889279B1 KR1020170057609A KR20170057609A KR101889279B1 KR 101889279 B1 KR101889279 B1 KR 101889279B1 KR 1020170057609 A KR1020170057609 A KR 1020170057609A KR 20170057609 A KR20170057609 A KR 20170057609A KR 101889279 B1 KR101889279 B1 KR 101889279B1
Authority
KR
South Korea
Prior art keywords
service
server
public terminal
voice
command
Prior art date
Application number
KR1020170057609A
Other languages
English (en)
Other versions
KR20180084592A (ko
Inventor
최원석
강현정
김미희
김진한
백규태
권순종
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to US15/872,966 priority Critical patent/US10650816B2/en
Publication of KR20180084592A publication Critical patent/KR20180084592A/ko
Application granted granted Critical
Publication of KR101889279B1 publication Critical patent/KR101889279B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계, 입력받은 음성 신호를 서버로 전송하는 단계, 서버에서의 서비스 판단이 요구되는 지에 따라 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 서버로부터 수신하는 단계 및 수신받은 응답 또는 서비스를 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.

Description

음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법{SYSTEM AND METHOD FOR PROVINING SERCIVE IN RESPONSE TO VOICE COMMAND}
본 발명은 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법에 관한 것이다.
종래의 음성 인식 장치는 사용자로부터 입력된 음성과 기제작된 음성 인식 모델과의 유사도를 측정하여 사용자의 음성에 포함된 의도를 분석한 후, 사용자의 음성에 대응하는 음성 기반 서비스를 제공하고 있다.
최근 들어, 음성 기반 서비스의 분야가 다양해지고 복잡해짐에 따라, 음성 인식 장치는 사용자 의도와 다른 음성 기반 서비스를 제공하는 일이 종종 발생하고 있다. 사용자는 자신이 의도한 음성 기반 서비스를 제공받기 위해서 보다 디테일한 음성을 입력해야 하는 불편함을 감수해야 한다.
선행 기술인 한국공개특허 제2016-0058523호에는 기저장된 복수의 매뉴얼에 기초하여 사용자의 발화 음성에 대응되는 동작을 처리하는 구성이 개시되어 있다.
공용 단말을 통해 입력받은 사용자의 음성 신호로부터 명령어를 도출하고, 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석하고자 한다. 또한, 분석된 명령어의 답변에 기초한 서비스를 공용 단말에게 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계; 상기 입력받은 음성 신호를 서버로 전송하는 단계; 상기 서버에서의 서비스 판단이 요구되는 지에 따라 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 상기 서버로부터 수신하는 단계 및 상기 수신받은 응답 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.
본 발명의 제 2 측면에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계; 상기 입력받은 음성 신호의 음성 인식 결과를 도출하는 단계; 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 도출하거나, 상기 음성 인식 결과에 대응하는 서비스를 서버로부터 수신하는 단계; 및 상기 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 공용 단말을 통해 입력받은 사용자의 음성 신호로부터 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석함으로써 사용자의 발화 의도를 분석할 수 있다. 또한, 공용 단말의 콘텍스트에 기초하여 명령어에 대한 답변을 생성하기 때문에 사용자가 의도한 음성 명령에 대응하는 서비스를 공용 단말을 통해 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 3은 본 발명의 다른 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 4는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 8a 내지 8d는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 설명하기 위한 예시 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.
이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 1을 참조하면, 음성 명령 기반 서비스 제공 시스템은 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)를 포함할 수 있다. 다만, 이러한 도 1의 음성 명령 기반 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 1과 다르게 구성될 수도 있다.
일반적으로, 도 1의 음성 명령 기반 서비스 제공 시스템의 각 구성요소들은 네트워크(미도시)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
공용 단말(10)은 사용자로부터 음성 신호를 입력 받고, 입력된 음성 신호로부터 음성 인식 결과를 도출할 수 있다.
공용 단말(10)은 공용 단말(10)에서 도출된 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버(40)와의 연동이 요구되는 서비스로 판단된 경우, 해당 서비스에 해당하는 내부 서비스 서버(40)와 연동하여 내부 서비스를 디스플레이 장치(미도시) 또는 오디오 신호를 통해 출력할 수 있다.
공용 단말(10)은 공용 단말(10)에서 도출된 음성 인식 결과에 대응하는 서비스가 외부 서비스이거나 해당 음성 인식 결과가 해석을 추가적으로 필요로 하는 경우, 해석된 음성 인식 결과를 서버(20)로 전송하거나, 사용자로부터 입력받은 음성 신호를 그대로 서버(20)로 전달할 수도 있다.
서버(20)는 공용 단말(10)로부터 수신된 음성 인식 결과 또는 음성 신호가 서버(20)의 서비스 판단을 요구하는 지에 따라 수신된 음성 인식 결과로부터 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 도출하여 공용 단말(10)로 전송하거나 공용 단말(10)로부터 입력받은 음성 신호로부터 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 도출하여 공용 단말(10)로 전송할 수 있다.
서버(20)는 공용 단말(10)로부터 수신된 음성 인식 결과 또는 서버(20)에 의해 해석된 음성 신호의 음성 인식 결과가 외부 서비스 서버(30)와의 연동을 필요로 하지 않는 경우, 음성 인식 결과에 대응하는 제어 신호를 생성하여 이를 공용 단말(10)에게 전송할 수 있다.
서버(20)는 음성 인식 결과로부터 도출된 서비스가 외부 서비스 서버(30)와의 연동이 요구되는 서비스로 판단된 경우, 해당 서비스에 해당하는 외부 서비스 서버(30)와 연동하여 외부 서비스를 공용 단말(10)에게 제공할 수 있다.
공용 단말(10)은 수신된 제어 신호 또는 서비스를 공용 단말(10)과 연결된 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.
외부 서비스 서버(30)는 공용 단말(10)로 내부 서비스와 구별되는 외부 서비스를 제공할 수 있다. 예를 들어, 내부 서비스(예를 들어, 방송 서비스, VOD 서비스)란 3rd party에 해당하는 외부 서비스 서버(30)와의 연동 없이 내부 인프라 및 자원을 이용하여 제공될 수 있는 서비스를 의미하고, 외부 서비스(예를 들어, 공용 단말에 별도로 설치된 외부 앱을 통해 제공되는 서비스)란 내부적인 인프라 및 자원의 이용 없이 3rd party에 해당하는 외부 서비스 서버(30)와의 연동을 통해 제공되는 서비스를 의미할 수 있다.
내부 서비스 서버(40)는 공용 단말(10)로 내부 서비스를 제공할 수 있다. 예를 들어, 내부 서비스 서버(40)가 방송 서버인 경우, 공용 단말(10)로부터 수신된 서비스 요청에 따라 내부 서비스에 해당하는 방송 서비스를 공용 단말(10)로 제공할 수 있다. 다른 예를 들어, 내부 서비스 서버(40)가 VOD 서비스 제공 서버인 경우, 공용 단말(10)로부터 수신된 서비스 요청에 따라 내부 서비스에 해당하는 VOD 서비스를 공용 단말(10)로 제공할 수 있다.
이하에서는 도 1의 음성 명령 기반 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.
도 2는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 2에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 1에 도시된 실시예에 따른 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1의 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)에 관하여 기술된 내용은 도 2에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.
도 2를 참조하면, 단계 S201에서 공용 단말(10)은 사용자로부터 음성 신호를 입력받고, 단계 S203에서 서버(20)로 입력받은 음성 신호를 전송할 수 있다. 여기서, 서버(20)는 통합적인 기능을 수행하는 서버로서, 음성 신호를 인식하여 발화 명령어를 도출하는 음성 인식 서버(미도시) 및 발화 명령어에 대응하는 응답을 도출하고, 복수의 서비스 중 도출된 응답에 해당하는 서비스를 검출하는 서비스 관리 서버(미도시)를 포함하는 서버일 수 있다. 다른 예를 들어, 공용 단말(10)은 입력받은 음성 신호을 직접 인식하여 응답을 도출할 수도 있다. 이 경우, 공용 단말(10)은 도출된 응답을 서버(20)로 전송할 수 있다.
단계 S205에서 서버(20)는 음성 신호가 서비스 판단(예컨대, 외부 서비스 서버(30)와의 연동이 필요한 서비스)를 요구하는지 체크할 수 있다. 다른 예를 들어, 공용 단말(10)이 입력받은 음성 신호을 직접 인식하여 응답을 도출한 경우, 공용 단말(10)은 응답에 해당하는 서비스를 검출할 수 있다.
단계 S207에서 서버(20)는 단계 S205에서 판단한 결과, 음성 신호가 서비스 판단을 요구하지 않은 경우, 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 공용 단말(10)에게 전송할 수 있다.
단계 S209에서 공용 단말(10)은 수신된 제어 신호에 해당하는 응답을 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.
단계 S211에서 서버(20)는 단계 S205에서 판단한 결과, 음성 신호가 서비스 판단을 요구하는 경우, 음성 신호의 음성 인식 결과로부터 서비스를 도출하고, 단계 S213에서 도출된 서비스를 공용 단말(10)로 전송할 수 있다.
단계 S215에서 서버(20)는 수신된 서비스를 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 영상 컨텐츠를 공용 단말(10)과 연결된 디스플레이 장치(미도시)를 통해 표시할 수 있다. 공용 단말(10)은 디스플레이 장치(미도시)에 영상 컨텐츠가 표시되는 동안에 서비스를 제공할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호 또는 서비스에 따라 표시 중인 영상 컨텐츠를 제어할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)를 통해 표시 중인 영상 컨텐츠 위에 오버레이하여 표시할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)의 화면에 텍스트 형태로 표시할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 영상 컨텐츠가 표시되는 동안에 사용자로부터 음성 신호를 입력받을 수 있다. 이 후, 공용 단말(10)은 입력된 음성 신호로부터 도출된 응답에 따라 영상 컨텐츠를 제어할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 공용 단말(10)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부를 디스플레이 장치(미도시)와 연결된 스피커를 통해 출력할 수 있다. 또한, 공용 단말(10)은 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(10)을 통해 출력할 수 있다.
도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 공용 단말(10)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부 및 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(10)을 통해 출력할 수 있다.
상술한 설명에서, 단계 S201 내지 S215는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 3은 본 발명의 다른 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 3을 참조하면, 음성 명령 기반 서비스 제공 시스템은 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130), 외부 서비스 제공 서버(140) 및 디스플레이 장치(150)를 포함할 수 있다. 다만, 이러한 도 3의 음성 명령 기반 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 3을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 3과 다르게 구성될 수도 있다.
공용 단말(100)은 본체 및 본체에 착탈 가능한 카메라를 포함할 수 있다. 예를 들어, 공용 단말(100)은 웹캠과 셋탑박스를 포함하는 단말일 수 있으며, 셋탑박스는 웹캠이 없이도 동작할 수 있다. 공용 단말(100)의 본체의 전면부, 후면부, 상면부 및 내장 모듈은 하기의 기능 또는 모듈을 포함할 수 있다. 전면부는 전원버튼(전원상태표시 및 리모컨 수신 LED 포함), IR 수신부, 마이크, 볼륨조절버튼(또는 볼륨조절터치), 이더넷 연결 상태 LED, 와이파이 연결상태 LED를 포함할 수 있다. 후면부는 RJ-45 이더넷 포트, HDMI 출력 포트, S/PDIF 출력 포트, 전원어댑터 단자, 전원 on/off 스위치, USB 포트, Micro SD 슬롯, 블루투스 페어링 버튼, WPS 사생활보호 버튼 등을 포함할 수 있다. 상면부는 본체 카메라 인터페이스, 서비스 상태 LED(감정 LED) 등을 포함할 수 있다. 내장 모듈은 블루투스 송수신부, 스피커 와이파이 클라이언트 등을 포함할 수 있다. 공용 단말(100)의 카메라는 전면부, 후면부 및 하면부를 포함할 수 있고, 전면부는 카메라 동작 상태 LED를 포함하고, 후면부는 홈캠 서버 연결 상태 LED를 포함하고, 하면부는 본체카메라의 인터페이스를 포함할 수 있다.
공용 단말(100)은 원거리 음성 및 화자를 인식할 수 있고, 캐릭터 및 TTS(Text to Speech) 서비스를 제공할 수 있다. 또한, 공용 단말(100)은 사용자와 지능형 감성 대화를 수행할 수 있다. 또한, 공용 단말(100)은 주소록, 알람, 일정, 갤러리 등을 설정할 수 있고, 홈 IoT를 제어 및 모니터링할 수 있다. 또한, 공용 단말(100)은 사용자의 음성을 입력받으면 입력된 음성에 대한 응답을 수신하고, 수신된 응답에 기초하여 뮤직 서비스, TV 기반의 음성 및 영상 통화, OTV 서비스와 음성 인식 서비스를 연동하여 사용자에게 제공할 수 있다.
한편, 공용 단말(100)을 제어하는 컴패니언 어플리케이션은 공용 단말(100) 내의 서비스에 접근할 수 있는 링크 정보 또는 공용 단말(100)의 페어링 기능을 사용자에게 제공할 수 있다. 또한, 컴패니언 어플리케이션은 공용 단말(100) 내에 설치된 런처 앱(예컨대, 뮤직 앱, 주소록, 일정, 알람, 주소록, 갤러리 등)을 연동할 수 있는 인터페이스를 제공할 수 있다. 또한, 컴패니언 어플리케이션은 음성 명렁어 리스트, O2O 서비스 연계를 제공할 수 있다.
이러한, 컴패니언 어플리케이션은 공용 단말(100)과 연동되는 복수의 사용자 단말에 설치될 수 있고, 공용 단말(100)은 복수의 컴패니언 어플리케이션과 연동되어 복수의 사용자에게 맞춤형 서비스를 제공할 수 있다.
예를 들면, 복수의 사용자 단말 각각은 컴패니언 어플리케이션을 통해 공용 단말(100)을 제어할 수 있다. 이러한, 복수의 사용자 단말은 예를 들면, 노트북, 데스크탑 PC뿐만 아니라 스마트폰(smartphone), 태블릿 PC, 웨어러블 디바이스, 블루투스(BLE, Bluetooth Low Energy), NFC, RFID, 초음파(Ultrasonic), 적외선, 와이파이(WiFi), 라이파이(LiFi) 등의 통신 모듈을 탑재한 각종 디바이스를 포함할 수 있다.
예를 들면, 제 1 사용자 단말은 제 1 컴패니언 어플리케이션을 구동시켜 뮤직 스트리밍 서비스를 공용 단말(100)을 통해 제 1 사용자에게 제공할 수 있고, 제 2 사용자 단말은 제 2 컴패니언 어플리케이션을 구동시켜 날씨 알림 서비스를 공용 단말(100)을 통해 제 2 사용자에게 제공할 수도 있다.
공용 단말(100)은 복수의 사물인터넷 장치, 별도의 보조 단말(예컨대, 리모컨 등)과 연동되어 사용자의 음성 신호에 따라 음성 신호에 대응하는 서비스를 제공하는 단말일 수 있다. 또한, 공용 단말(100)은 공용 단말(100)과 연동되는 별도의 카메라 또는 공용 단말(100)에 설치된 카메라에 의해 촬영된 사용자의 영상 신호를 입력받을 수 있고, 입력받은 영상 신호에 대응하는 서비스를 제공할 수도 있다.
예를 들면, 공용 단말(100)은 사용자로부터 직접 음성 신호를 입력받을 수 있고, 공용 단말(100)과 연동된 사용자 단말, 사물 인터넷 장치 또는 별도의 보조 단말을 통해서 사용자의 음성 신호를 입력받을 수 있고, 각 입력받은 음성 신호에 대응하는 서비스를 제공할 수 있다.
이러한 공용 단말(100)에는 음성 신호(또는 영상 신호)에 따라 복수의 사물인터넷 장치 각각을 제어하는 복수의 런처 어플리케이션(예컨대, 주소록 앱, 갤러리 앱, 디스플레이 장치 제어 앱, IoT 연동 앱 등)이 설치되어 있다. 예를 들면, 예를 들면, 사용자로부터 '채널 11번'라는 음성 명령을 입력받게 되면, 공용 단말(100)은 제 1 런처 어플리케이션(예컨대, 디스플레이 장치 제어 앱)을 통해 디스플레이 장치(150)에서 출력 중인 영상 화면을 '채널 11번'에 대응하는 화면으로 변경하여 출력시킬 수 있다.
예를 들면, 공용 단말(100)은 영상 통화 연결에 해당하는 영상 신호(예를 들어, 특정 제스쳐에 대한 영상 또는 특정 사물에 대한 영상)를 입력받은 경우, 영상 통화 어플리케이션을 통해 제스쳐로부터 영상 통화 연결에 대한 요청 신호를 도출하고, 도출된 요청 신호에 따라 영상 통화 서비스를 디스플레이 장치(150)와 연동하여 사용자에게 제공할 수 있다.
공용 단말(100)은 사용자로부터 음성 신호를 입력받고, 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
공용 단말(100)은 대화 서버(130)에 의해 발화 해석된 음성 신호로부터 도출된 서비스를 서비스 관리 서버(120)로부터 수신할 수 있다.
공용 단말(100)은 서비스 관리 서버(120)로부터 음성 신호로부터 도출된 서비스를 수신한 경우, 수신된 서비스에 따라 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다. 구체적으로, 공용 단말(100)은 서비스 관리 서버(120)로부터 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 수신한 경우, 명령 메시지에 따라 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다.
공용 단말(100)은 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 공용 단말(100)과 연결된 디스플레이 장치(150)의 화면에 텍스트 형태로 표시할 수 있다.
공용 단말(100)은 공용 단말(100)과 연결된 디스플레이 장치(150)에 영상 컨텐츠가 표시되는 동안에 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 표시할 수 있다.
음성 인식 서버(110)는 공용 단말(100)로부터 사용자의 음성 신호를 수신하는 경우, 음성 신호로부터 명령어를 도출하여 이를 서비스 관리 서버(120)로 전송할 수 있다. 예를 들면, 음성 인식 서버(110)는 음성 신호를 텍스트로 변환한 후, 기설정된 음성 명령어 목록 중에서 텍스트화된 음성 신호와 일정 유사도 이상인 명령어를 도출할 수 있다.
서비스 관리 서버(120)는 음성 인식 서버로(110)부터 도출된 명령어를 수신한 경우, 도출된 명령어를 분석하고, 분석된 명령어에 대응하는 서비스를 도출하여 이를 공용 단말(100)에게 전송할 수 있다.
구체적으로, 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어에 대해 추가적인 발화 해석이 요구되는지 판단할 수 있다.
서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 요구되는 경우, 발화 해석의 요청을 위해 도출된 명령어를 대화 서버(130)에게 전송할 수 있다.
서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 요구되는 경우, 공용 단말(100)에 대한 콘텍스트를 수집하고, 대화 서버(130)에게 수집된 콘텍스트를 추가로 전송할 수 있다. 여기서, 콘텍스트는 명령어에서 누락된 정보를 추론하거나 명령어에 대한 발화 의도를 분석 및 해석하거나, 명령어에 대한 답변을 생성하기 위해 사용되는 정보일 수 있다. 이러한, 콘텍스트는 예를 들면, 공용 단말(100)에 대한 사용자 선호 정보, 명령어 이력 정보, 공용 단말(100)에 대한 기능 사용 빈도 정보, 서비스에 대한 사용자 피드백 정보, 공용 단말(100)에 대한 사용 기간 정보 및 공용 단말(100)에 대한 상황 정보 중 적어도 하나를 포함할 수 있다.
서비스 관리 서버(120)는 대화 서버(130)로부터 명령어의 발화 분석에 요구되는 공용 단말(100)에 대한 콘텍스트를 요청받은 경우, 요청된 공용 단말(100)에 대한 콘텍스트를 수집하여 이를 대화 서버(130)에게 전송할 수 있다.
서비스 관리 서버(120)는 음성 인식 서버(110)로부터 명령어에 대한 질의 타입 별 템플릿을 수신할 수 있다. 여기서, 명령어에 대한 질의 타입 별 템플릿은 명령어와 관련된 상위 개념에 해당 명령어를 매핑한 매핑 정보로 구성될 수 있고, 질의 타입 별 템플릿 각각은 질의 타입에 대응하는 서비스 별로 분류될 수 있다.
서비스 관리 서버(120)는 질의 타입 별 템플릿 각각을 질의 타입 별 템플릿과 관련된 대상 서비스와 연계하여 관리할 수 있다. 예를 들면, 서비스 관리 서버(120)는 주소록 템플릿을 주소록 인명 교정 검색 서비스와 연계하여 관리하고, 미디어 템플릿을 미디어 정보 검색/추천 서비스와 연계하여 관리하고, 날씨 템플릿을 날씨 정보 검색 서비스와 연계하여 관리하고, IoT 템플릿을 IoT 제어 서비스와 연계하여 관리할 수 있다.
서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 필요하지 않은 경우, 명령어를 분석하여 명령어에 대응하는 서비스를 선택하고, 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.
서비스 관리 서버(120)는 명령어에 대한 질의 타입 별 템플릿과 연계된 대상 서비스에 기초하여 외부 서비스 제공 서버(140)와의 연동 유무를 판단할 수 있다.
서비스 관리 서버(120)는 명령어에 대응하는 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는 경우, 서비스에 대응하는 외부 서비스를 외부 서비스 제공 서버(140)에게 요청하고, 외부 서비스 제공 서버(140)와 연동하여 외부 서비스를 공용 단말(100)에게 제공할 수 있다. 예를 들면, 서비스 관리 서버(120)는 '환율 정보 조회'의 경우, 제 1 외부 서비스 제공 서버를 통해 조회한 후, 공용 단말(100)에게 환율 정보의 조회 결과를 텍스트 정보로 응답할 수 있다. 다른 예로, 서비스 관리 서버(120)는 사용자의 일상과 관련된 명령어(예컨대, '교통(대중교통 정보, 내비 정보, 택시 호출 등) 조회', '음식 배달', 등)의 경우, 각각의 명령어에 대응하는 서비스를 제공하는 각 외부 서비스 제공 서버와 기등록된 사용자의 정보(예컨대, 등록된 공용 단말(100)의 위치 정보, 사용자의 선호 정보, 등록된 사용자의 거주지/근무지 주소, 등록된 정류장 정보 등)를 이용하여 외부서비스를 도출할 수 있다.
서비스 관리 서버(120)는 명령어에 대한 답변이 외부 서비스 제공 서버(150)와의 연동을 필요로 하지 않는 경우, 복수의 내부 서비스 모듈(질의 타입 별 템플릿과 연계된 대상 서비스를 제공하는 모듈) 중 해당 답변에 해당하는 서비스 모듈을 통해 서비스를 공용 단말(100)에게 제공할 수도 있다.
예를 들면, 서비스 관리 서버(120)는 시간 관련 명령어(예컨대, '지금 몇시?')에 대해서 제 1 내부 서비스 모듈을 통해 날짜/시간 정보(예컨대, '지금 00시 00분 입니다')를 공용 단말(100)에게 제공하고, 사용자의 스케줄 관련 질의에 대해서 제 2 내부 서비스 모듈을 통해 일정 조회/추가/삭제 서비스를 공용 단말(100)에게 제공할 수 있다.
서비스 관리 서버(120)는 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다. 예를 들면, 서비스 관리 서버(120)는 디스플레이 장치(150)에 출력 중인 영상 컨텐츠에 대한 출력을 중단시키고, 공용 단말(100)로 전송한 서비스에 해당하는 영상이 디스플레이 장치(150)의 화면에 표시되도록 하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다. 다른 예로, 서비스 관리 서버(120)는 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠 위에 발화 명령어 및 발화 명령어에 대한 응답이 오버레이되어 표시되도록 하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.
대화 서버(130)는 서비스 관리 서버(120)와 연동하여 서비스 관리 서버(120)의 음성 신호에 대한 분석을 지원하기 위한 발화 해석을 수행할 수 있다.
대화 서버(130)는 서비스 관리 서버(120)로부터 명령어와 함께 공용 단말(100)의 콘텍스트를 수신하고, 공용 단말(100)의 콘텍스트에 기초한 명령어에 대한 사용자의 발화 해석을 서비스 관리 서버(120)로부터 요청받을 수 있다.
대화 서버(130)는 서비스 관리 서버(120)로부터 발화 해석을 위한 명령어만을 수신한 경우, 발화 해석에 요구되는 공용 단말(100)의 콘텍스트를 서비스 관리 서버(120)에게 요청하고, 서비스 관리 서버(120)로부터 요청에 대응하는 콘텍스트를 수신할 수 있다.
대화 서버(130)는 콘텍스트에 따라 명령어를 추론 및 보완하여 명령어에 대한 문장 해석, 의도 분석 및 답변 추론 중 적어도 하나를 수행할 수 있다.
대화 서버(130)는 공용 단말(100)의 콘텍스트에 기초하여 명령어를 해석하고 명령어에 대한 사용자의 의도를 분석할 수 있다.
구체적으로, 대화 서버(130)는 콘텍스트에 포함된 사용자 선호 정보에 따라 명령어에서 누락된 정보를 추론 및 보완한 후, 명령어에 대한 문장 해석을 수행하고, 사용자의 의도 분석을 수행할 수 있다. 여기서, 사용자 선호 정보는 예를 들면, 사용자의 거주지 및 근무지 정보, 컨텐츠(예컨대, 뉴스, 음악 등)의 선호 장르 정보 등을 포함할 수 있다. 예를 들면, 대화 서버(130)는 명령어가 장소에 대한 언급없이 날씨 관련 질의(예컨대 '날씨 어때?')만으로 구성된 문장인 경우, 사용자의 거주지 정보에 기초하여 해당 명령어를 사용자가 거주하는 거주지의 날씨 질의(예컨대, '우면동 날씨 어때?')로 해석할 수 있다.
대화 서버(130)는 콘텍스트에 포함된 명령어 이력 정보로부터 이전 명령어를 참조하여 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 대화 서버(130)는 명령어 이력 정보에 날씨 관련된 명령어가 기록되어 있고, 사용자의 현재 명령어에 특정 날짜(예컨대, '모레는?')를 포함하는 정보만이 포함된 경우, 해당 명령어를 특정 날짜의 날씨에 대한 질의(예컨대, '모레 날씨는?')로 해석할 수 있다.
대화 서버(130)는 음성 명령 기반 서비스를 통해 제공 가능한 복수의 기능(예컨대, 공용 단말(100)과 연결된 디스플레이 장치(150)를 통한 미디어 컨텐츠의 재생/추천/변경/검색 기능, 웹 검색 기능, 음성/영상 통화 기능, 공용 단말(100)과 페어링된 IoT 단말의 제어 기능, 공용 단말(100)과 감성 대화, 사용자의 생활 서비스 등의 모든 기능을 포함) 각각에 대해 콘텍스트에 포함된 공용 단말(100)의 기능 사용 빈도 정보에 따라 가중치를 조정함으로써 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 대화 서버(130)는 공용 단말(100)를 통한 사용자의 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 이용 빈도수가 제 2 기능 서비스(예컨대, 음악 컨텐츠 재생 기능)에 대한 이용 빈도수보다 높은 경우, 제 1 기능 서비스에 제 1 가중치를 부여하고, 제 1 가중치보다 낮은 제 2 가중치를 제 2 기능 서비스에 부여할 수 있다. 예를 들면, 사용자가 발화 명령한 특정 명령어(예컨대, '틀어줘')에 대해서, 대화 서버(130)는 해당 명령어와 연관된 기능 서비스 중 가중치가 높은 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)의 제공을 해당 명령어에 대한 의도로 분석할 수 있다.
대화 서버(130)는 사용자 피드백 정보에 포함된 사용자 응답 패턴에 따라 음성 기반 서비스를 통해 제공 가능한 각 기능에 대해 가중치를 조정하여 명령어에 대한 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(130)는 사용자가 평소 제 1 음성 명령(예컨대, '틀어줘')에 대해서 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 해석의 긍정 응답이 높은 경우, 해당 제 1 기능 서비스에 가중치를 부여할 수 있다. 또한, 대화 서버(130)는 음성 기반 서비스에 대한 각 기능 별 누적된 가중치에 기초하여 사용자의 명령어에 대한 답변을 추론할 수 있다.
대화 서버(130)는 명령어 이력 정보를 이용하여 같은 명령어가 반복된다고 판단한 경우 기존의 답변과 다른 패턴의 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(130)는 사용자가 동일한 명령어를 반복하여 질의하는 경우, 반복되는 명령어에 대해 사용자의 질문의도를 묻는 답변(예컨대, '왜 자꾸 같은 질문을 하세요')을 추론할 수 있다.
대화 서버(130)는 사용 기간 정보에 따른 시스템 친숙도를 고려하여 명령어에 대한 답변을 생성할 수 있다. 구체적으로, 공용 단말(100)에 대한 사용자의 시스템 친숙도는 사용자의 사용 기간에 비례하므로 대화 서버(130)는 공용 단말(100)에 대한 사용자의 사용 기간이 늘어나면 명령어에 대한 답변에서 불필요한 안내 문구 등을 제거하여 답변 문구를 간결하게 생성할 수 있다. 예를 들면, 대화 서버(130)는 VOD 재생 기능에 대한 답변으로서 '요청하신 VOD 컨텐츠를 재생합니다'를 'VOD 재생 또는 재생'으로 간결한 답변을 생성할 수 있다.
또한, 대화 서버(130)는 공용 단말(100)의 숙련도에 따라 명령어에 대한 답변을 간결하게 생성할 수 있다.
대화 서버(130)는 상황 정보로부터 공용 단말(100)을 통해 제공 중인 서비스를 참조하여 명령어에 대한 문장 해석을 수행할 수 있다. 여기서, 상황 정보는 예를 들면, 공용 단말(100)을 통해 제공 중인 서비스에 대한 기능 및 상태 정보, 공용 단말(100)를 이용하는 사용자 정보 등을 포함할 수 있다. 서비스에 대한 기능 및 상태 정보에는 예를 들면, 공용 단말(100)의 대기 모드, 음성/영상 통화 여부, 통화 메뉴 정보, OTV 시청 여부, 회의 메뉴 정보, 런처 메인 화면 정보, 런처 서브 화면 정보(예컨대, 설정, 알람, 팝업, 리스트 웹뷰 등), 런처 선택 UI 상태 정보, 컨텐츠 시청 정보, 블루투스 스피커의 사용 여부, 뮤직 컨텐츠의 이용 여부, 캐릭터 정보, USB 뮤직 이용 여부, 인터넷 라디오 이용 여부, TV HDMI 연결 상태 정보, 리모컨 정보, 원거리 음성 입력 정보 등이 포함될 수 있다. 공용 단말(100)을 이용하는 사용자 정보에는 예를 들면, 공용 단말(100) 앞에 존재하는 사용자의 성별, 인원수 정보 등이 포함될 수 있다.
예를 들면, 디스플레이 장치(150)의 화면에 '런처 선택 UI'가 표시된 상태에서 사용자가 특정 번호를 포함하는 명령어를 발화한 경우, 대화 서버(130)는 해당 명령어를 'SELECT'로 해석하거나 '특정 번호의 채널로의 이동'으로 해석할 수 있다.
예를 들면, 사용자가 라디오 서비스(또는 뮤직 서비스)를 이용 중일 때, 사용자로부터 이동 명령어(예컨대, '다음')를 포함하는 음성 신호를 수신한 경우, 분석부(210)는 이동 명령어를 '라디오 다음 채널로의 변경'(또는, 뮤직 서비스의 다음 곡으로의 변경)으로 해석할 수 있다.
이와 같이, 대화 서버(130)는 공용 단말(100)의 콘텍스트에 기초하여 서비스 관리 서버(120)로부터 수신된 명령어에 대한 발화 해석을 수행하고, 발화 해석된 명령어(또는 명령어에 대한 답변)를 서비스 관리 서버(120)에게 전송할 수 있다.
서비스 관리 서버(120)는 발화 해석된 명령어(또는 명령어에 대한 답변)에 해당하는 서비스를 도출하여 도출된 서비스를 공용 단말(100)에게 전송할 수 있다.
서비스 관리 서버(120)는 발화 해석된 명령어에 해당하는 서비스를 외부 서비스 제공 서버(140)와의 연동 또는 서비스 관리 서버(120)의 내부 서비스 모듈을 통해 도출하고, 도출된 서비스를 공용 단말(100)에게 전송할 수 있다.
서비스 관리 서버(120)는 발화 해석된 명령어에 기초하여 사용자가 입력한 음성 신호의 음성 인식 결과로서 발화 명령어에 대응하는 응답을 생성하고, 발화 명령어 및 발화 명령어에 대응하는 응답을 공용 단말(100)에게 전송할 수 있다.
공용 단말(100)은 서비스 관리 서버(120)의 내부 서비스 모듈 또는 외부 서비스 제공 서버(140)와 연동하여 도출된 서비스를 서비스 관리 서버(120)로부터 수신할 수 있다.
한편, 음성 인식 서버(110), 서비스 관리 서버(120) 및 대화 서버(130)에 해당하는 서버단을 통해 처리되는 기술적 특징은 공용 단말(100)을 통해서도 구현될 수 있다. 또한 음성 인식 서버(110), 서비스 관리 서버(120) 및 대화 서버(130)를 통해 구현되는 기술적 특징은 각 기술적 특징을 모듈로서 구성하고 있는 하나의 서버로 구현될 수 있다.
이하에서는 도 3의 음성 명령 기반 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.
도 4는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 4에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 4에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.
도 4를 참조하면, 단계 S401에서 공용 단말(100)은 사용자의 입력에 따라 영상 컨텐츠를 공용 단말(100)과 연결된 디스플레이 장치(150)를 통해 출력할 수 있다.
단계 S403에서 공용 단말(100)은 사용자로부터 음성 신호를 입력받고, 단계 S205에서 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
단계 S407에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S409에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.
단계 S411에서 서비스 관리 서버(120)는 명령어에 대해 추가적인 발화 해석이 요구되는지 판단할 수 있다.
단계 S413에서 서비스 관리 서버(120)는 단계 S411에서의 판단 결과, 발화 해석이 요구되는 명령어가 아닌 경우, 명령어를 분석하여 분석된 명령어에 대응되는 서비스를 도출할 수 있다.
단계 S415에서 서비스 관리 서버(120)는 도출된 서비스를 공용 단말(100)로 전송할 수 있다.
단계 S417에서 서비스 관리 서버(120)는 단계 S411에서의 판단 결과, 명령어가 추가적인 발화 해석이 요구되는 경우, 대화 서버(100)에게 명령어를 전송하여 발화 해석을 요청할 수 있다.
단계 S419에서 대화 서버(100)는 서비스 관리 서버(120)에게 명령어의 발화 해석에 요구되는 공용 단말(100)의 콘텍스트를 요청할 수 있다.
단계 S421에서 서비스 관리 서버(120)는 대화 서버(100)의 요청에 대응하는 공용 단말(100)의 콘텍스트를 수집하고, 단계 S423에서 대화 서버(100)에게 콘텍스트를 전송할 수 있다. 이 경우, 공용 단말(100)의 콘텍스트는 서비스 관리 서버(120)에 의해 기설정된 주기마다 수집되거나 상시로 수집될 수 있다.
단계 S425에서 대화 서버(100)는 공용 단말(100)의 콘텍스트에 기초하여 명령어에 대한 발화 해석을 수행할 수 있다.
단계 S427에서 대화 서버(100)는 발화 해석된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.
단계 S429에서 서비스 관리 서버(120)는 발화 해석된 명령어에 해당하는 서비스를 도출할 수 있다.
단계 S431에서 서비스 관리 서버(120)는 도출된 서비스를 공용 단말(100)로 전송할 수 있다.
단계 S433에서 공용 단말(100)은 사용자에 의해 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 텍스트 형태로 표시할 수 있다.
단계 S435에서 공용 단말(100)은 서비스 관리 서버(120)로부터 수신된 서비스에 따라 출력 중인 영상 컨텐츠를 제어할 수 있다.
상술한 설명에서, 단계 S401 내지 S435은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 5는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 5에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 4에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 외부 서비스 제공 서버(140)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 4의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 외부 서비스 제공 서버(140)에 관하여 기술된 내용은 도 5에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.
도 5를 참조하면, 단계 S501에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
단계 S503에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S505에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.
단계 S507에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 도출할 수 있다.
단계 S509에서 서비스 관리 서버(120)는 도출된 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는지 판단할 수 있다.
단계 S511에서 서비스 관리 서버(120)는 단계 S509에서의 판단 결과, 서비스가 외부 서비스 제공 서버(140)와의 연동을 필요로 하지 않는 서비스인 경우, 단계 S507에서 도출된 서비스를 그대로 공용 단말(100)에게 제공할 수 있다.
단계 S513에서 서비스 관리 서버(120)는 단계 S509에서의 판단 결과, 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는 서비스인 경우, 외부 서비스 제공 서버(140)에게 서비스에 대응하는 외부 서비스를 요청할 수 있다.
단계 S515에서 서비스 관리 서버(120)는 외부 서비스 제공 서버(140)와 연동하여 도출된 외부 서비스를 외부 서비스 제공 서버(140)로부터 수신하고, 단계 S517에서 해당 외부 서비스를 공용 단말(100)에게 제공할 수 있다.
상술한 설명에서, 단계 S501 내지 S517은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 6은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 6에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 5에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 5의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 6에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.
도 6을 참조하면, 단계 S601에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
단계 S603에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S605에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.
단계 S607에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 선택할 수 있다.
단계 S609에서 서비스 관리 서버(120)는 단계 S607에서 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.
단계 S611에서 서비스 관리 서버(120)는 단계 S607에서 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.
상술한 설명에서, 단계 S601 내지 S611은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 7은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 7에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 6에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 6의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 7에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.
도 7을 참조하면, 단계 S701에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
단계 S703에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S705에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.
단계 S707에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 선택할 수 있다.
단계 S709에서 서비스 관리 서버(120)는 단계 S707에서 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.
단계 S711에서 서비스 관리 서버(120)는 단계 S707에서 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.
단계 S713에서 공용 단말(100)은 디스플레이 장치(150)에 영상 컨텐츠가 표시되는 동안에 사용자가 입력한 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 표시할 수 있다.
상술한 설명에서, 단계 S701 내지 S713은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도 8a 내지 8d는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 설명하기 위한 예시 도면이다.
도 8a를 참조하면, 공용 단말(100)이 사용자(800)로부터 제 1 음성 신호(예컨대, '엄마하고 영상통화하고 싶어')를 입력받은 경우, 공용 단말(100)은 제 1 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.
이후, 서비스 관리 서버(120)는 공용 단말(100)을 통해 입력받은 제 1 음성 신호로부터 도출된 적어도 하나의 명령어(예컨대, 제 1 명령어인 '엄마', 제 2 명령어인 '영상통화')를 음성 인식 서버(110)로부터 수신할 수 있다.
공용 단말(100)은 입력된 음성 신호의 음성 인식 결과인 발화 명령어에 대응하는 응답(예컨대, ' 엄마 전화로 연결합니다')을 공용 단말(100)의 스피커를 통해 출력할 수 있다.
서비스 관리 서버(120)는 도출된 적어도 하나의 명령어에 대응하는 서비스 관리 서버(120)의 적어도 하나의 내부 서비스 모듈(예컨대, 제 1 내부 서비스 모듈인 주소록 서비스 모듈과 제 2 내부 서비스 모듈인 영상 통화 서비스 모듈)을 연동하여 제공하는 서비스를 선택하고, 선택된 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)를 통해 출력시킬 수 있다. 예를 들면, 서비스 관리 서버(120)는 제 1 내부 서비스 모듈을 통해 제 1 명령어에 해당하는 전화 번호를 검색하고, 제 2 서비스 모듈을 통해 공용 단말(100)와 연결된 디스플레이 장치(150)로 영상 통화를 제공할 수 있다.
도 8b를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)로부터 입력된 제 2 음성 신호(예컨대, '오늘 일정 알려줘')의 명령어가 일정 관련 명령어를 포함하는 경우, 입력된 음성 신호의 음성 인식 결과인 발화 명령어에 대응하는 응답(예컨대, '일정을 조회합니다')을 공용 단말(100)에게 전송하여 공용 단말(100)의 스피커를 통해 출력시킬 수 있다.
또한, 서비스 관리 서버(120)의 제 3 내부 서비스 모듈(예컨대, 캘린더 모듈)을 연동하여 해당 명령어에 해당하는 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면에 출력시키고, 입력된 음성 신호의 발화 명령어를 텍스트 형태로 출력 중인 일정 데이터 위에 오버레이하여 표시할 수 있다.
도 8c를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)이 사용자로부터 제 3 음성 신호(예컨대, '버스 언제와?')를 수신한 경우, 제 3 음성 신호로부터 도출된 명령어를 수행할 서비스(예컨대, 대중 교통 안내 서비스)를 선택할 수 있다.
서비스 관리 서버(120)는 선택된 서비스를 수행하기 위한 외부 서비스 제공 서버(140)와의 연동이 필요한 경우, 외부 서비스 제공 서버(140)에게 선택된 서비스에 대응하는 외부 서비스(예컨대, 사용자가 지정한 정류장 위치로의 기등록된 버스 번호에 해당하는 버스의 도착 정보)를 요청할 수 있다.
서비스 관리 서버(120)는 외부 서비스 제공 서버(140)와 연동하여 외부 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면으로 출력시킬 수 있다.
도 8d를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)이 사용자로부터 제 4 음성 신호(예컨대, '지루해')를 수신한 경우, 제 4 음성 신호로부터 도출된 명령어를 분석할 수 있다.
서비스 관리 서버(120)는 분석된 명령어에 대한 사용자의 발화 의도가 파악되지 않는 경우(서비스 관리 서버(120)에 의해 분석된 명령어만으로 서비스 관리 서버(120)의 내부 서비스 모듈 또는 외부 서비스 제공 서버(140)를 통해 서비스 제공이 어려운 경우), 대화 서버(130)에게 해당 명령어를 전송하여 발화 해석을 요청할 수 있다.
서비스 관리 서버(120)는 대화 서버(130)에서 수행된 명령어에 대한 발화 해석을 대화 서버(130)로부터 수신하고, 발화 해석된 명령어에 기초하여 발화 명령어에 대응하는 응답(예컨대, '재미있는 영화 추천해 드릴까요? 황정민이 출연한 영화 어떠세요? ')을 공용 단말(100)에게 전송하여 공용 단말(100)의 스피커를 통해 출력시킬 수 있다.
이후, 서비스 관리 서버(120)는 대화 서버(130)로부터 수신된 발화 해석된 명령어에 해당하는 서비스를 선택한 후, 외부 서비스 제공 서버(140)를 통해 외부 서비스(예컨대, 황정민이 출연한 영화 리스트)를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면으로 출력시킬 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
10: 공용 단말
20: 서버
30: 외부 서비스 서버
40: 내부 서비스 서버
100: 공용 단말
110: 음성 인식 서버
120: 서비스 관리 서버
130: 대화 서버
140: 외부 서비스 제공 서버
150: 디스플레이 장치

Claims (10)

  1. 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법에 있어서,
    사용자로부터 음성 신호를 입력 받는 단계;
    상기 입력받은 음성 신호를 서비스 제공 서버로 전송하는 단계;
    상기 서비스 제공 서버에서의 서비스 판단이 요구되는 지에 따라 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계 및
    상기 수신받은 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계
    를 포함하되,
    상기 제어 신호 또는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계는
    상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 외부 서비스 서버와의 연동이 요구되는 외부 서비스인 경우, 상기 외부 서비스를 상기 서비스 제공 서버를 경유하여 상기 외부 서비스 서버로부터 수신하는 단계; 및
    상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버와의 연동이 요구되는 내부 서비스인 경우, 상기 내부 서비스를 상기 서비스 제공 서버를 경유하지 않고 상기 내부 서비스 서버로부터 수신하는 단계
    를 포함하는 음성 명령 기반 서비스 제공 방법.
  2. 제 1 항에 있어서,
    영상 컨텐츠를 상기 공용 단말과 연결된 디스플레이 장치를 통해 표시하는 단계; 및
    상기 디스플레이 장치에 상기 영상 컨텐츠가 표시되는 동안에 상기 서비스를 제공하는 단계
    를 더 포함하는 음성 명령 기반 서비스 제공 방법.
  3. 제 2 항에 있어서,
    상기 수신된 제어 신호 또는 서비스에 따라 상기 표시 중인 영상 컨텐츠를 제어하는 단계
    를 더 포함하는 음성 명령 기반 서비스 제공 방법.
  4. 제 2 항에 있어서,
    상기 수신받은 제어 신호에 해당하는 응답 또는 서비스는 상기 디스플레이 장치를 통해 표시 중인 영상 컨텐츠 위에 오버레이하여 표시되는 음성 명령 기반 서비스 제공 방법.
  5. 제 4 항에 있어서,
    상기 수신받은 제어 신호에 해당하는 응답 또는 서비스는 상기 디스플레이 장치의 화면에 텍스트 형태로 표시되는 음성 명령 기반 서비스 제공 방법.
  6. 제 2 항에 있어서,
    상기 영상 컨텐츠가 표시되는 동안에 사용자로부터 음성 신호를 입력받는 단계; 및
    상기 입력된 음성 신호로부터 도출된 응답에 따라 상기 영상 컨텐츠를 제어하는 단계
    를 더 포함하는 음성 명령 기반 서비스 제공 방법.
  7. 제 2 항에 있어서,
    상기 공용 단말을 통해 제공되는 오디오 신호 중 상기 영상 컨텐츠에 대응하는 일부를 상기 디스플레이 장치와 연결된 스피커를 통해 출력하는 단계; 및
    상기 오디오 신호 중 상기 서비스에 대응하는 일부를 상기 공용 단말을 통해 출력하는 단계
    를 더 포함하는 음성 명령 기반 서비스 제공 방법.
  8. 제 2 항에 있어서,
    상기 공용 단말을 통해 제공되는 오디오 신호 중 상기 영상 컨텐츠에 대응하는 일부 및 상기 오디오 신호 중 상기 서비스에 대응하는 일부를 상기 공용 단말을 통해 출력하는 단계
    를 더 포함하는 음성 명령 기반 서비스 제공 방법.
  9. 제 1 항에 있어서,
    상기 서비스 제공 서버는,
    상기 음성 신호를 인식하여 발화 명령어를 도출하는 음성 인식 서버 및
    상기 발화 명령어에 대응하는 응답을 도출하고, 복수의 서비스 중 상기 도출된 응답에 해당하는 서비스를 검출하는 서비스 관리 서버
    를 포함하는 음성 명령 기반 서비스 제공 방법.
  10. 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법에 있어서,
    사용자로부터 음성 신호를 입력 받는 단계;
    상기 입력받은 음성 신호의 음성 인식 결과를 도출하는 단계;
    상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 도출하거나, 상기 음성 인식 결과에 대응하는 서비스를 서비스 제공 서버로부터 수신하는 단계; 및
    상기 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계
    를 포함하되,
    상기 음성 인식 결과에 대응하는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계는
    상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 외부 서비스 서버와의 연동이 요구되는 외부 서비스인 경우, 상기 외부 서비스를 상기 서비스 제공 서버를 경유하여 상기 외부 서비스 서버로부터 수신하는 단계; 및
    상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버와의 연동이 요구되는 내부 서비스인 경우, 상기 내부 서비스를 상기 서비스 제공 서버를 경유하지 않고 상기 내부 서비스 서버로부터 수신하는 단계
    를 포함하는 음성 명령 기반 서비스 제공 방법.
KR1020170057609A 2017-01-16 2017-05-08 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법 KR101889279B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/872,966 US10650816B2 (en) 2017-01-16 2018-01-16 Performing tasks and returning audio and visual feedbacks based on voice command

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170007444 2017-01-16
KR20170007444 2017-01-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180092139A Division KR20180092914A (ko) 2017-01-16 2018-08-08 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20180084592A KR20180084592A (ko) 2018-07-25
KR101889279B1 true KR101889279B1 (ko) 2018-08-21

Family

ID=63059089

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020170057609A KR101889279B1 (ko) 2017-01-16 2017-05-08 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
KR1020180005764A KR102200226B1 (ko) 2017-01-16 2018-01-16 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말
KR1020180092139A KR20180092914A (ko) 2017-01-16 2018-08-08 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020180005764A KR102200226B1 (ko) 2017-01-16 2018-01-16 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말
KR1020180092139A KR20180092914A (ko) 2017-01-16 2018-08-08 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Country Status (2)

Country Link
US (1) US10650816B2 (ko)
KR (3) KR101889279B1 (ko)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI617197B (zh) * 2017-05-26 2018-03-01 和碩聯合科技股份有限公司 多媒體設備以及多媒體系統
CN107342083B (zh) * 2017-07-05 2021-07-20 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
US11169772B2 (en) * 2018-03-19 2021-11-09 Gopro, Inc. Image capture device control using mobile platform voice recognition
US10540977B2 (en) 2018-03-20 2020-01-21 Microsoft Technology Licensing, Llc Proximity-based engagement with digital assistants
US10747560B2 (en) * 2018-03-20 2020-08-18 Microsoft Technology Licensing, Llc Computerized task guidance across devices and applications
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
US10622007B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
US10573320B2 (en) * 2018-05-30 2020-02-25 Darren Humphrey Voice recognition communication system with privacy interrupt device and related methods
CN109377987B (zh) * 2018-08-31 2020-07-28 百度在线网络技术(北京)有限公司 智能语音设备间的交互方法、装置、设备及存储介质
US10606345B1 (en) * 2018-09-25 2020-03-31 XRSpace CO., LTD. Reality interactive responding system and reality interactive responding method
US11184660B1 (en) * 2018-09-27 2021-11-23 Amazon Technologies, Inc. Voice-based state switching and LED selection for remote control devices
US20200111487A1 (en) * 2018-10-04 2020-04-09 Ca, Inc. Voice capable api gateway
CN111258528B (zh) * 2018-12-03 2021-08-13 华为技术有限公司 语音用户界面的显示方法和会议终端
DE112019006677T5 (de) * 2019-01-16 2021-11-04 Sony Group Corporation Antwortverarbeitungsvorrichtung und Antwortverarbeitungsverfahren
US20220083596A1 (en) * 2019-01-17 2022-03-17 Sony Group Corporation Information processing apparatus and information processing method
KR20200092742A (ko) 2019-01-25 2020-08-04 삼성전자주식회사 보이스 어시스턴트 서비스를 제공하는 시스템 및 방법
JP7181116B2 (ja) * 2019-02-12 2022-11-30 株式会社Nttドコモ 制御システム
US11003419B2 (en) * 2019-03-19 2021-05-11 Spotify Ab Refinement of voice query interpretation
US11482215B2 (en) * 2019-03-27 2022-10-25 Samsung Electronics Co., Ltd. Multi-modal interaction with intelligent assistants in voice command devices
KR102321855B1 (ko) * 2019-04-17 2021-11-05 엘지전자 주식회사 음성으로 상호작용하는 인공 지능 장치 및 그 방법
KR102221963B1 (ko) * 2019-05-02 2021-03-04 엘지전자 주식회사 화상 정보를 제공하는 인공 지능 장치 및 그 방법
CN112017650A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN112017651A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
US11508375B2 (en) 2019-07-03 2022-11-22 Samsung Electronics Co., Ltd. Electronic apparatus including control command identification tool generated by using a control command identified by voice recognition identifying a control command corresponding to a user voice and control method thereof
WO2021015324A1 (ko) * 2019-07-23 2021-01-28 엘지전자 주식회사 인공지능 에이전트
KR20210015234A (ko) * 2019-08-01 2021-02-10 삼성전자주식회사 전자 장치, 및 그의 음성 명령에 따른 기능이 실행되도록 제어하는 방법
KR102276591B1 (ko) * 2019-08-12 2021-07-12 에스케이브로드밴드주식회사 음성 기반 추천서비스장치 및 그 장치의 동작 방법
KR20210025812A (ko) 2019-08-28 2021-03-10 삼성전자주식회사 전자장치, 디스플레이장치 및 그 제어방법
US11150923B2 (en) 2019-09-16 2021-10-19 Samsung Electronics Co., Ltd. Electronic apparatus and method for providing manual thereof
US10999714B1 (en) 2019-10-28 2021-05-04 Motorola Solutions, Inc. Failure management in push to talk for the internet of things
KR20210058152A (ko) * 2019-11-13 2021-05-24 엘지전자 주식회사 지능형 보안 디바이스를 제어하는 방법
KR20210066651A (ko) 2019-11-28 2021-06-07 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP7434978B2 (ja) * 2020-02-10 2024-02-21 トヨタ自動車株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2021135648A (ja) * 2020-02-26 2021-09-13 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP7400554B2 (ja) * 2020-03-06 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11568868B2 (en) * 2020-05-29 2023-01-31 Beijing Xiaomi Pinecone Electronics Co., Ltd. Voice control method and apparatus, and computer storage medium
KR20210147678A (ko) * 2020-05-29 2021-12-07 엘지전자 주식회사 인공 지능 장치
US11403936B2 (en) 2020-06-12 2022-08-02 Smith Micro Software, Inc. Hygienic device interaction in retail environments
US11501228B2 (en) * 2020-07-30 2022-11-15 Denso International America, Inc. System and method for crowdsourced in-seat delivery of stadium concessions
US11558546B2 (en) * 2020-11-24 2023-01-17 Google Llc Conditional camera control via automated assistant commands
US11677832B2 (en) * 2021-09-23 2023-06-13 International Business Machines Corporation Voice activated device enabling
KR20230050807A (ko) 2021-10-08 2023-04-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
WO2024038991A1 (en) * 2022-08-17 2024-02-22 Samsung Electronics Co., Ltd. Method and electronic device for providing uwb based voice assistance to user

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100768653B1 (ko) * 2006-05-26 2007-10-18 주식회사 케이티 음성 인식 기반의 ip-tv 서비스 제어 시스템과 그방법 및 기록매체

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08166866A (ja) 1994-10-14 1996-06-25 Hitachi Ltd 対話型インターフェースを具備した編集支援システム
US5777614A (en) 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
JPH1020884A (ja) 1996-07-04 1998-01-23 Nec Corp 音声対話装置
US6704028B2 (en) * 1998-01-05 2004-03-09 Gateway, Inc. System for using a channel and event overlay for invoking channel and event related functions
US6570555B1 (en) 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
KR100331033B1 (ko) 1999-10-25 2002-04-06 오길록 차세대지능망 지능형정보제공시스템을 이용한 전화 사용자를 위한 웹 정보 제공 서비스 방법
JP2002041276A (ja) 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
JP2002244688A (ja) 2001-02-15 2002-08-30 Sony Computer Entertainment Inc 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
KR100446627B1 (ko) 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
US8972266B2 (en) * 2002-11-12 2015-03-03 David Bezar User intent analysis extent of speaker intent analysis system
JP2007510316A (ja) 2003-09-12 2007-04-19 オープン ティーヴィー インコーポレイテッド 双方向アプリケーションの記録および再生の制御方法およびシステム
KR100644027B1 (ko) 2004-01-05 2006-11-10 삼성에스디에스 주식회사 텍스트 기반의 음성정보 서비스 제공 시스템
JP4684739B2 (ja) 2005-05-13 2011-05-18 クラリオン株式会社 音声処理装置
TWI282235B (en) 2005-11-15 2007-06-01 Inst Information Industry Intelligent power-saving communication mode switching subsystem and method thereof
US20080183678A1 (en) 2006-12-29 2008-07-31 Denise Chapman Weston Systems and methods for personalizing responses to user requests
KR20080099883A (ko) 2007-02-22 2008-11-14 중앙대학교 산학협력단 성격 별 정서 변화 모델링 방법 및 그 방법을 이용한캐릭터 모델링 시스템
KR100939914B1 (ko) * 2008-02-28 2010-02-03 석민규 Ip셋톱박스와 음성 송수신 리모콘을 이용한 멀티미디어 시스템
US10872322B2 (en) 2008-03-21 2020-12-22 Dressbot, Inc. System and method for collaborative shopping, business and entertainment
WO2009120616A1 (en) 2008-03-25 2009-10-01 Wms Gaming, Inc. Generating casino floor maps
KR100955247B1 (ko) 2008-07-09 2010-04-29 울산대학교 산학협력단 캐릭터 표현 시스템 또는 캐릭터 표현 방법
US8140544B2 (en) * 2008-09-03 2012-03-20 International Business Machines Corporation Interactive digital video library
GB2477252A (en) 2008-10-24 2011-07-27 Wms Gaming Inc Controlling and presenting online wagering games
US9741147B2 (en) 2008-12-12 2017-08-22 International Business Machines Corporation System and method to modify avatar characteristics based on inferred conditions
KR20110059178A (ko) 2009-11-27 2011-06-02 주식회사 인스프리트 아바타 개인비서 서비스 제공 방법 및 그 시스템
US8694313B2 (en) 2010-05-19 2014-04-08 Google Inc. Disambiguation of contact information using historical data
US8761933B2 (en) 2011-08-02 2014-06-24 Microsoft Corporation Finding a called party
KR101339684B1 (ko) 2012-04-06 2013-12-10 주식회사 럭샐 사용자 감성 전달을 위한 가상 캐릭터 생성 방법 및 장치
US20130325466A1 (en) 2012-05-10 2013-12-05 Clickberry, Inc. System and method for controlling interactive video using voice
KR101909250B1 (ko) 2012-06-07 2018-10-17 주식회사 케이티 단말의 음성 정보에 기초하여 서비스 타입을 결정하는 음성 인식 서버, 서비스 타입에 따라 단말로 컨텐츠를 제공하는 컨텐츠 서버, 단말 및 방법
US9199122B2 (en) 2012-10-09 2015-12-01 Kc Holdings I Personalized avatar responsive to user physical state and context
KR101483191B1 (ko) 2012-11-22 2015-01-15 주식회사 케이티 대화형 서비스를 제공하는 장치 및 방법 그리고, 서버
US20140278403A1 (en) 2013-03-14 2014-09-18 Toytalk, Inc. Systems and methods for interactive synthetic character dialogue
US9792714B2 (en) 2013-03-20 2017-10-17 Intel Corporation Avatar-based transfer protocols, icon generation and doll animation
JP6115941B2 (ja) 2013-03-28 2017-04-19 Kddi株式会社 対話シナリオにユーザ操作を反映させる対話プログラム、サーバ及び方法
JP6162009B2 (ja) 2013-09-18 2017-07-12 株式会社Nttドコモ ユーザのデータ入力に応じて情報提供を行うためのサーバ装置、プログラム、システムおよび方法
KR102227599B1 (ko) * 2013-11-12 2021-03-16 삼성전자 주식회사 음성인식 시스템, 음성인식 서버 및 디스플레이 장치의 제어방법
KR20150077580A (ko) * 2013-12-27 2015-07-08 주식회사 케이티 음성 인식 기반 서비스 제공 방법 및 그 장치
US9333433B2 (en) 2014-02-04 2016-05-10 Sony Computer Entertainment America Llc Online video game service with split clients
JP2017506169A (ja) 2014-02-20 2017-03-02 マーク オレイニク ロボット調理キッチン内の食品調製のための方法及びシステム
US20150256873A1 (en) 2014-03-04 2015-09-10 Microsoft Technology Licensing, Llc Relayed voice control of devices
KR102247533B1 (ko) 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
JP2016095383A (ja) * 2014-11-14 2016-05-26 株式会社ATR−Trek 音声認識クライアント装置及びサーバ型音声認識装置
KR102298767B1 (ko) 2014-11-17 2021-09-06 삼성전자주식회사 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법
US10721525B2 (en) 2014-12-03 2020-07-21 Sony Corporation Information processing device, information processing method, and program
KR102383791B1 (ko) 2014-12-11 2022-04-08 삼성전자주식회사 전자 장치에서의 개인 비서 서비스 제공
US20160328014A1 (en) 2015-05-07 2016-11-10 King's Metal Fiber Technologies Co., Ltd. Situational simulation system
KR20170001393A (ko) 2015-06-26 2017-01-04 삼성전자주식회사 전자 장치의 상황에 따른 외부 장치의 이용 방법 및 그 전자 장치
CN105046238A (zh) 2015-08-17 2015-11-11 华侨大学 一种面部表情机器人多通道信息情感表达映射方法
WO2017066862A1 (en) 2015-10-22 2017-04-27 Aflatooni Aflatoon Interactive event photography kiosk
US10249207B2 (en) 2016-01-19 2019-04-02 TheBeamer, LLC Educational teaching system and method utilizing interactive avatars with learning manager and authoring manager functions
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
KR102478606B1 (ko) 2016-07-18 2022-12-16 삼성전자주식회사 영상 표시 장치 및 영상 표시 방법
US10726836B2 (en) * 2016-08-12 2020-07-28 Kt Corporation Providing audio and video feedback with character based on voice command
KR102568897B1 (ko) 2016-08-16 2023-08-21 삼성전자주식회사 전자 장치 및 그 제어 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100768653B1 (ko) * 2006-05-26 2007-10-18 주식회사 케이티 음성 인식 기반의 ip-tv 서비스 제어 시스템과 그방법 및 기록매체

Also Published As

Publication number Publication date
KR102200226B1 (ko) 2021-01-08
KR20180084592A (ko) 2018-07-25
KR20180084672A (ko) 2018-07-25
US20180322870A1 (en) 2018-11-08
US10650816B2 (en) 2020-05-12
KR20180092914A (ko) 2018-08-20

Similar Documents

Publication Publication Date Title
KR101889279B1 (ko) 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법
US20220358923A1 (en) Voice-controlled media play in smart media environment
JP6475386B2 (ja) 機器の制御方法、機器、及びプログラム
KR101889280B1 (ko) 음성 명령에 기반하여 서비스를 제공하는 서버 및 단말
US10015245B2 (en) Method and apparatus for grouping smart device in smart home system
RU2638780C2 (ru) Способ и устройство для подключения прибора к сети
CN108154579A (zh) 一种能与访客交互的智能门禁系统以及交互方法
US10891968B2 (en) Interactive server, control method thereof, and interactive system
EP2663064A2 (en) Method and system for operating communication service
WO2020076365A1 (en) Display assistant device for home monitoring
KR102489914B1 (ko) 전자 장치 및 이의 제어 방법
US20170133013A1 (en) Voice control method and voice control system
EP2770445A2 (en) Method and system for supporting a translation-based communication service and terminal supporting the service
US11570354B2 (en) Display assistant device having a monitoring mode and an assistant mode
KR20150042584A (ko) 컨텐츠 추천을 위한 컨텐츠 제공 장치, 시스템 및 방법
KR101889278B1 (ko) 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말
CN109599100B (zh) 交互式电子设备控制系统、交互式电子设备及其控制方法
KR102142034B1 (ko) 장애인을 고려한 인증 및 보안 시스템
US20230179855A1 (en) Display assistant device having a monitoring mode and an assistant mode
JP2016066983A (ja) 通訳サービスシステム及び通訳サービス方法
KR102356404B1 (ko) 통화 서비스를 제공하는 미디어 재생 장치, 사용자 단말 및 통화 연결 서버
KR20190072249A (ko) 음성 메시지 서비스를 제공하는 단말, 서버 및 방법
KR101984960B1 (ko) 숙박업소에서 언어 치환을 수행하는 서비스 시스템
KR101660269B1 (ko) 대화형 서버, 그 제어 방법 및 대화형 시스템
KR102128107B1 (ko) WebRTC 기반의 음성정보검색 서비스 제공 시스템 및 그 방법

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right