KR101889279B1

KR101889279B1 - 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법

Info

Publication number: KR101889279B1
Application number: KR1020170057609A
Authority: KR
Inventors: 최원석; 강현정; 김미희; 김진한; 백규태; 권순종
Original assignee: 주식회사 케이티
Priority date: 2017-01-16
Filing date: 2017-05-08
Publication date: 2018-08-21
Also published as: KR102200226B1; KR20180084592A; KR20180084672A; US20180322870A1; US10650816B2; KR20180092914A

Abstract

공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계, 입력받은 음성 신호를 서버로 전송하는 단계, 서버에서의 서비스 판단이 요구되는 지에 따라 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 서버로부터 수신하는 단계 및 수신받은 응답 또는 서비스를 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.

Description

음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법{SYSTEM AND METHOD FOR PROVINING SERCIVE IN RESPONSE TO VOICE COMMAND}

본 발명은 음성 명령에 기반하여 서비스를 제공하는 시스템 및 방법에 관한 것이다.

종래의 음성 인식 장치는 사용자로부터 입력된 음성과 기제작된 음성 인식 모델과의 유사도를 측정하여 사용자의　음성에 포함된 의도를 분석한 후, 사용자의 음성에 대응하는 음성 기반 서비스를 제공하고 있다.

최근 들어, 음성 기반 서비스의 분야가 다양해지고 복잡해짐에 따라,　음성　인식　장치는 사용자 의도와 다른 음성 기반 서비스를 제공하는 일이 종종 발생하고 있다. 사용자는 자신이 의도한 음성 기반 서비스를 제공받기 위해서 보다 디테일한 음성을 입력해야 하는 불편함을 감수해야 한다.

선행 기술인 한국공개특허 제2016-0058523호에는 기저장된 복수의 매뉴얼에 기초하여 사용자의 발화 음성에 대응되는 동작을 처리하는 구성이 개시되어 있다.

공용 단말을 통해 입력받은 사용자의 음성 신호로부터 명령어를 도출하고, 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석하고자 한다. 또한, 분석된 명령어의 답변에 기초한 서비스를 공용 단말에게 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계; 상기 입력받은 음성 신호를 서버로 전송하는 단계; 상기 서버에서의 서비스 판단이 요구되는 지에 따라 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 상기 서버로부터 수신하는 단계 및 상기 수신받은 응답 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.

본 발명의 제 2 측면에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법은 사용자로부터 음성 신호를 입력 받는 단계; 상기 입력받은 음성 신호의 음성 인식 결과를 도출하는 단계; 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 도출하거나, 상기 음성 인식 결과에 대응하는 서비스를 서버로부터 수신하는 단계; 및 상기 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계를 포함할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 공용 단말을 통해 입력받은 사용자의 음성 신호로부터 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석함으로써 사용자의 발화 의도를 분석할 수 있다. 또한, 공용 단말의 콘텍스트에 기초하여 명령어에 대한 답변을 생성하기 때문에 사용자가 의도한 음성 명령에 대응하는 서비스를 공용 단말을 통해 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 3은 본 발명의 다른 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.
도 4는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 6은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 8a 내지 8d는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 설명하기 위한 예시 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.

도 1을 참조하면, 음성 명령 기반 서비스 제공 시스템은 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)를 포함할 수 있다. 다만, 이러한 도 1의 음성 명령 기반 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 1을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 1과 다르게 구성될 수도 있다.

일반적으로, 도 1의 음성 명령 기반 서비스 제공 시스템의 각 구성요소들은 네트워크(미도시)를 통해 연결된다. 네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

공용 단말(10)은 사용자로부터 음성 신호를 입력 받고, 입력된 음성 신호로부터 음성 인식 결과를 도출할 수 있다.

공용 단말(10)은 공용 단말(10)에서 도출된 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버(40)와의 연동이 요구되는 서비스로 판단된 경우, 해당 서비스에 해당하는 내부 서비스 서버(40)와 연동하여 내부 서비스를 디스플레이 장치(미도시) 또는 오디오 신호를 통해 출력할 수 있다.

공용 단말(10)은 공용 단말(10)에서 도출된 음성 인식 결과에 대응하는 서비스가 외부 서비스이거나 해당 음성 인식 결과가 해석을 추가적으로 필요로 하는 경우, 해석된 음성 인식 결과를 서버(20)로 전송하거나, 사용자로부터 입력받은 음성 신호를 그대로 서버(20)로 전달할 수도 있다.

서버(20)는 공용 단말(10)로부터 수신된 음성 인식 결과 또는 음성 신호가 서버(20)의 서비스 판단을 요구하는 지에 따라 수신된 음성 인식 결과로부터 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 도출하여 공용 단말(10)로 전송하거나 공용 단말(10)로부터 입력받은 음성 신호로부터 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 도출하여 공용 단말(10)로 전송할 수 있다.

서버(20)는 공용 단말(10)로부터 수신된 음성 인식 결과 또는 서버(20)에 의해 해석된 음성 신호의 음성 인식 결과가 외부 서비스 서버(30)와의 연동을 필요로 하지 않는 경우, 음성 인식 결과에 대응하는 제어 신호를 생성하여 이를 공용 단말(10)에게 전송할 수 있다.

서버(20)는 음성 인식 결과로부터 도출된 서비스가 외부 서비스 서버(30)와의 연동이 요구되는 서비스로 판단된 경우, 해당 서비스에 해당하는 외부 서비스 서버(30)와 연동하여 외부 서비스를 공용 단말(10)에게 제공할 수 있다.

공용 단말(10)은 수신된 제어 신호 또는 서비스를 공용 단말(10)과 연결된 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.

외부 서비스 서버(30)는 공용 단말(10)로 내부 서비스와 구별되는 외부 서비스를 제공할 수 있다. 예를 들어, 내부 서비스(예를 들어, 방송 서비스, VOD 서비스)란 3^rd party에 해당하는 외부 서비스 서버(30)와의 연동 없이 내부 인프라 및 자원을 이용하여 제공될 수 있는 서비스를 의미하고, 외부 서비스(예를 들어, 공용 단말에 별도로 설치된 외부 앱을 통해 제공되는 서비스)란 내부적인 인프라 및 자원의 이용 없이 3^rd party에 해당하는 외부 서비스 서버(30)와의 연동을 통해 제공되는 서비스를 의미할 수 있다.

내부 서비스 서버(40)는 공용 단말(10)로 내부 서비스를 제공할 수 있다. 예를 들어, 내부 서비스 서버(40)가 방송 서버인 경우, 공용 단말(10)로부터 수신된 서비스 요청에 따라 내부 서비스에 해당하는 방송 서비스를 공용 단말(10)로 제공할 수 있다. 다른 예를 들어, 내부 서비스 서버(40)가 VOD 서비스 제공 서버인 경우, 공용 단말(10)로부터 수신된 서비스 요청에 따라 내부 서비스에 해당하는 VOD 서비스를 공용 단말(10)로 제공할 수 있다.

이하에서는 도 1의 음성 명령 기반 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 2에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 1에 도시된 실시예에 따른 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1의 공용 단말(10), 서버(20), 외부 서비스 서버(30) 및 내부 서비스 서버(40)에 관하여 기술된 내용은 도 2에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 2를 참조하면, 단계 S201에서 공용 단말(10)은 사용자로부터 음성 신호를 입력받고, 단계 S203에서 서버(20)로 입력받은 음성 신호를 전송할 수 있다. 여기서, 서버(20)는 통합적인 기능을 수행하는 서버로서, 음성 신호를 인식하여 발화 명령어를 도출하는 음성 인식 서버(미도시) 및 발화 명령어에 대응하는 응답을 도출하고, 복수의 서비스 중 도출된 응답에 해당하는 서비스를 검출하는 서비스 관리 서버(미도시)를 포함하는 서버일 수 있다. 다른 예를 들어, 공용 단말(10)은 입력받은 음성 신호을 직접 인식하여 응답을 도출할 수도 있다. 이 경우, 공용 단말(10)은 도출된 응답을 서버(20)로 전송할 수 있다.

단계 S205에서 서버(20)는 음성 신호가 서비스 판단(예컨대, 외부 서비스 서버(30)와의 연동이 필요한 서비스)를 요구하는지 체크할 수 있다. 다른 예를 들어, 공용 단말(10)이 입력받은 음성 신호을 직접 인식하여 응답을 도출한 경우, 공용 단말(10)은 응답에 해당하는 서비스를 검출할 수 있다.

단계 S207에서 서버(20)는 단계 S205에서 판단한 결과, 음성 신호가 서비스 판단을 요구하지 않은 경우, 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 공용 단말(10)에게 전송할 수 있다.

단계 S209에서 공용 단말(10)은 수신된 제어 신호에 해당하는 응답을 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.

단계 S211에서 서버(20)는 단계 S205에서 판단한 결과, 음성 신호가 서비스 판단을 요구하는 경우, 음성 신호의 음성 인식 결과로부터 서비스를 도출하고, 단계 S213에서 도출된 서비스를 공용 단말(10)로 전송할 수 있다.

단계 S215에서 서버(20)는 수신된 서비스를 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 영상 컨텐츠를 공용 단말(10)과 연결된 디스플레이 장치(미도시)를 통해 표시할 수 있다. 공용 단말(10)은 디스플레이 장치(미도시)에 영상 컨텐츠가 표시되는 동안에 서비스를 제공할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호 또는 서비스에 따라 표시 중인 영상 컨텐츠를 제어할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)를 통해 표시 중인 영상 컨텐츠 위에 오버레이하여 표시할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)의 화면에 텍스트 형태로 표시할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 영상 컨텐츠가 표시되는 동안에 사용자로부터 음성 신호를 입력받을 수 있다. 이 후, 공용 단말(10)은 입력된 음성 신호로부터 도출된 응답에 따라 영상 컨텐츠를 제어할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 공용 단말(10)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부를 디스플레이 장치(미도시)와 연결된 스피커를 통해 출력할 수 있다. 또한, 공용 단말(10)은 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(10)을 통해 출력할 수 있다.

도 2에는 도시되지 않았으나, 단계 S215 이후에 공용 단말(10)은 공용 단말(10)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부 및 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(10)을 통해 출력할 수 있다.

상술한 설명에서, 단계 S201 내지 S215는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 3은 본 발명의 다른 실시예에 따른, 음성 명령 기반 서비스 제공 시스템의 구성도이다.

도 3을 참조하면, 음성 명령 기반 서비스 제공 시스템은 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130), 외부 서비스 제공 서버(140) 및 디스플레이 장치(150)를 포함할 수 있다. 다만, 이러한 도 3의 음성 명령 기반 서비스 제공 시스템은 본 발명의 일 실시예에 불과하므로 도 3을 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 3과 다르게 구성될 수도 있다.

공용 단말(100)은 본체 및 본체에 착탈 가능한 카메라를 포함할 수 있다. 예를 들어, 공용 단말(100)은 웹캠과 셋탑박스를 포함하는 단말일 수 있으며, 셋탑박스는 웹캠이 없이도 동작할 수 있다. 공용 단말(100)의 본체의 전면부, 후면부, 상면부 및 내장 모듈은 하기의 기능 또는 모듈을 포함할 수 있다. 전면부는 전원버튼(전원상태표시 및 리모컨 수신 LED 포함), IR 수신부, 마이크, 볼륨조절버튼(또는 볼륨조절터치), 이더넷 연결 상태 LED, 와이파이 연결상태 LED를 포함할 수 있다. 후면부는 RJ-45 이더넷 포트, HDMI 출력 포트, S/PDIF 출력 포트, 전원어댑터 단자, 전원 on/off 스위치, USB 포트, Micro SD 슬롯, 블루투스 페어링 버튼, WPS 사생활보호 버튼 등을 포함할 수 있다. 상면부는 본체 카메라 인터페이스, 서비스 상태 LED(감정 LED) 등을 포함할 수 있다. 내장 모듈은 블루투스 송수신부, 스피커 와이파이 클라이언트 등을 포함할 수 있다. 공용 단말(100)의 카메라는 전면부, 후면부 및 하면부를 포함할 수 있고, 전면부는 카메라 동작 상태 LED를 포함하고, 후면부는 홈캠 서버 연결 상태 LED를 포함하고, 하면부는 본체카메라의 인터페이스를 포함할 수 있다.

공용 단말(100)은 원거리 음성 및 화자를 인식할 수 있고, 캐릭터 및 TTS(Text to Speech) 서비스를 제공할 수 있다. 또한, 공용 단말(100)은 사용자와 지능형 감성 대화를 수행할 수 있다. 또한, 공용 단말(100)은 주소록, 알람, 일정, 갤러리 등을 설정할 수 있고, 홈 IoT를 제어 및 모니터링할 수 있다. 또한, 공용 단말(100)은 사용자의 음성을 입력받으면 입력된 음성에 대한 응답을 수신하고, 수신된 응답에 기초하여 뮤직 서비스, TV 기반의 음성 및 영상 통화, OTV 서비스와 음성 인식 서비스를 연동하여 사용자에게 제공할 수 있다.

한편, 공용 단말(100)을 제어하는 컴패니언 어플리케이션은 공용 단말(100) 내의 서비스에 접근할 수 있는 링크 정보 또는 공용 단말(100)의 페어링 기능을 사용자에게 제공할 수 있다. 또한, 컴패니언 어플리케이션은 공용 단말(100) 내에 설치된 런처 앱(예컨대, 뮤직 앱, 주소록, 일정, 알람, 주소록, 갤러리 등)을 연동할 수 있는 인터페이스를 제공할 수 있다. 또한, 컴패니언 어플리케이션은 음성 명렁어 리스트, O2O 서비스 연계를 제공할 수 있다.

이러한, 컴패니언 어플리케이션은 공용 단말(100)과 연동되는 복수의 사용자 단말에 설치될 수 있고, 공용 단말(100)은 복수의 컴패니언 어플리케이션과 연동되어 복수의 사용자에게 맞춤형 서비스를 제공할 수 있다.

예를 들면, 복수의 사용자 단말 각각은 컴패니언 어플리케이션을 통해 공용 단말(100)을 제어할 수 있다. 이러한, 복수의 사용자 단말은 예를 들면, 노트북, 데스크탑 PC뿐만 아니라 스마트폰(smartphone), 태블릿 PC, 웨어러블 디바이스, 블루투스(BLE, Bluetooth Low Energy), NFC, RFID, 초음파(Ultrasonic), 적외선, 와이파이(WiFi), 라이파이(LiFi) 등의 통신 모듈을 탑재한 각종 디바이스를 포함할 수 있다.

예를 들면, 제 1 사용자 단말은 제 1 컴패니언 어플리케이션을 구동시켜 뮤직 스트리밍 서비스를 공용 단말(100)을 통해 제 1 사용자에게 제공할 수 있고, 제 2 사용자 단말은 제 2 컴패니언 어플리케이션을 구동시켜 날씨 알림 서비스를 공용 단말(100)을 통해 제 2 사용자에게 제공할 수도 있다.

공용 단말(100)은 복수의 사물인터넷 장치, 별도의 보조 단말(예컨대, 리모컨 등)과 연동되어 사용자의 음성 신호에 따라 음성 신호에 대응하는 서비스를 제공하는 단말일 수 있다. 또한, 공용 단말(100)은 공용 단말(100)과 연동되는 별도의 카메라 또는 공용 단말(100)에 설치된 카메라에 의해 촬영된 사용자의 영상 신호를 입력받을 수 있고, 입력받은 영상 신호에 대응하는 서비스를 제공할 수도 있다.

예를 들면, 공용 단말(100)은 사용자로부터 직접 음성 신호를 입력받을 수 있고, 공용 단말(100)과 연동된 사용자 단말, 사물 인터넷 장치 또는 별도의 보조 단말을 통해서 사용자의 음성 신호를 입력받을 수 있고, 각 입력받은 음성 신호에 대응하는 서비스를 제공할 수 있다.

이러한 공용 단말(100)에는 음성 신호(또는 영상 신호)에 따라 복수의 사물인터넷 장치 각각을 제어하는 복수의 런처 어플리케이션(예컨대, 주소록 앱, 갤러리 앱, 디스플레이 장치 제어 앱, IoT 연동 앱 등)이 설치되어 있다. 예를 들면, 예를 들면, 사용자로부터 '채널 11번'라는 음성 명령을 입력받게 되면, 공용 단말(100)은 제 1 런처 어플리케이션(예컨대, 디스플레이 장치 제어 앱)을 통해 디스플레이 장치(150)에서 출력 중인 영상 화면을 '채널 11번'에 대응하는 화면으로 변경하여 출력시킬 수 있다.

예를 들면, 공용 단말(100)은 영상 통화 연결에 해당하는 영상 신호(예를 들어, 특정 제스쳐에 대한 영상 또는 특정 사물에 대한 영상)를 입력받은 경우, 영상 통화 어플리케이션을 통해 제스쳐로부터 영상 통화 연결에 대한 요청 신호를 도출하고, 도출된 요청 신호에 따라 영상 통화 서비스를 디스플레이 장치(150)와 연동하여 사용자에게 제공할 수 있다.

공용 단말(100)은 사용자로부터 음성 신호를 입력받고, 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

공용 단말(100)은 대화 서버(130)에 의해 발화 해석된 음성 신호로부터 도출된 서비스를 서비스 관리 서버(120)로부터 수신할 수 있다.

공용 단말(100)은 서비스 관리 서버(120)로부터 음성 신호로부터 도출된 서비스를 수신한 경우, 수신된 서비스에 따라 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다. 구체적으로, 공용 단말(100)은 서비스 관리 서버(120)로부터 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 수신한 경우, 명령 메시지에 따라 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다.

공용 단말(100)은 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 공용 단말(100)과 연결된 디스플레이 장치(150)의 화면에 텍스트 형태로 표시할 수 있다.

공용 단말(100)은 공용 단말(100)과 연결된 디스플레이 장치(150)에 영상 컨텐츠가 표시되는 동안에 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 표시할 수 있다.

음성 인식 서버(110)는 공용 단말(100)로부터 사용자의 음성 신호를 수신하는 경우, 음성 신호로부터 명령어를 도출하여 이를 서비스 관리 서버(120)로 전송할 수 있다. 예를 들면, 음성 인식 서버(110)는 음성 신호를 텍스트로 변환한 후, 기설정된 음성 명령어 목록 중에서 텍스트화된 음성 신호와 일정 유사도 이상인 명령어를 도출할 수 있다.

서비스 관리 서버(120)는 음성 인식 서버로(110)부터 도출된 명령어를 수신한 경우, 도출된 명령어를 분석하고, 분석된 명령어에 대응하는 서비스를 도출하여 이를 공용 단말(100)에게 전송할 수 있다.

구체적으로, 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어에 대해 추가적인 발화 해석이 요구되는지 판단할 수 있다.

서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 요구되는 경우, 발화 해석의 요청을 위해 도출된 명령어를 대화 서버(130)에게 전송할 수 있다.

서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 요구되는 경우, 공용 단말(100)에 대한 콘텍스트를 수집하고, 대화 서버(130)에게 수집된 콘텍스트를 추가로 전송할 수 있다. 여기서, 콘텍스트는 명령어에서 누락된 정보를 추론하거나 명령어에 대한 발화 의도를 분석 및 해석하거나, 명령어에 대한 답변을 생성하기 위해 사용되는 정보일 수 있다. 이러한, 콘텍스트는 예를 들면, 공용 단말(100)에 대한 사용자 선호 정보, 명령어 이력 정보, 공용 단말(100)에 대한 기능 사용 빈도 정보, 서비스에 대한 사용자 피드백 정보, 공용 단말(100)에 대한 사용 기간 정보 및 공용 단말(100)에 대한 상황 정보 중 적어도 하나를 포함할 수 있다.

서비스 관리 서버(120)는 대화 서버(130)로부터 명령어의 발화 분석에 요구되는 공용 단말(100)에 대한 콘텍스트를 요청받은 경우, 요청된 공용 단말(100)에 대한 콘텍스트를 수집하여 이를 대화 서버(130)에게 전송할 수 있다.

서비스 관리 서버(120)는 음성 인식 서버(110)로부터 명령어에 대한 질의 타입 별 템플릿을 수신할 수 있다. 여기서, 명령어에 대한 질의 타입 별 템플릿은 명령어와 관련된 상위 개념에 해당 명령어를 매핑한 매핑 정보로 구성될 수 있고, 질의 타입 별 템플릿 각각은 질의 타입에 대응하는 서비스 별로 분류될 수 있다.

서비스 관리 서버(120)는 질의 타입 별 템플릿 각각을 질의 타입 별 템플릿과 관련된 대상 서비스와 연계하여 관리할 수 있다. 예를 들면, 서비스 관리 서버(120)는 주소록 템플릿을 주소록 인명 교정 검색 서비스와 연계하여 관리하고, 미디어 템플릿을 미디어 정보 검색/추천 서비스와 연계하여 관리하고, 날씨 템플릿을 날씨 정보 검색 서비스와 연계하여 관리하고, IoT 템플릿을 IoT 제어 서비스와 연계하여 관리할 수 있다.

서비스 관리 서버(120)는 명령어에 대한 추가적인 발화 해석이 필요하지 않은 경우, 명령어를 분석하여 명령어에 대응하는 서비스를 선택하고, 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.

서비스 관리 서버(120)는 명령어에 대한 질의 타입 별 템플릿과 연계된 대상 서비스에 기초하여 외부 서비스 제공 서버(140)와의 연동 유무를 판단할 수 있다.

서비스 관리 서버(120)는 명령어에 대응하는 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는 경우, 서비스에 대응하는 외부 서비스를 외부 서비스 제공 서버(140)에게 요청하고, 외부 서비스 제공 서버(140)와 연동하여 외부 서비스를 공용 단말(100)에게 제공할 수 있다. 예를 들면, 서비스 관리 서버(120)는 '환율 정보 조회'의 경우, 제 1 외부 서비스 제공 서버를 통해 조회한 후, 공용 단말(100)에게 환율 정보의 조회 결과를 텍스트 정보로 응답할 수 있다. 다른 예로, 서비스 관리 서버(120)는 사용자의 일상과 관련된 명령어(예컨대, '교통(대중교통 정보, 내비 정보, 택시 호출 등) 조회', '음식 배달', 등)의 경우, 각각의 명령어에 대응하는 서비스를 제공하는 각 외부 서비스 제공 서버와 기등록된 사용자의 정보(예컨대, 등록된 공용 단말(100)의 위치 정보, 사용자의 선호 정보, 등록된 사용자의 거주지/근무지 주소, 등록된 정류장 정보 등)를 이용하여 외부서비스를 도출할 수 있다.

서비스 관리 서버(120)는 명령어에 대한 답변이 외부 서비스 제공 서버(150)와의 연동을 필요로 하지 않는 경우, 복수의 내부 서비스 모듈(질의 타입 별 템플릿과 연계된 대상 서비스를 제공하는 모듈) 중 해당 답변에 해당하는 서비스 모듈을 통해 서비스를 공용 단말(100)에게 제공할 수도 있다.

예를 들면, 서비스 관리 서버(120)는 시간 관련 명령어(예컨대, '지금 몇시?')에 대해서 제 1 내부 서비스 모듈을 통해 날짜/시간 정보(예컨대, '지금 00시 00분 입니다')를 공용 단말(100)에게 제공하고, 사용자의 스케줄 관련 질의에 대해서 제 2 내부 서비스 모듈을 통해 일정 조회/추가/삭제 서비스를 공용 단말(100)에게 제공할 수 있다.

서비스 관리 서버(120)는 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다. 예를 들면, 서비스 관리 서버(120)는 디스플레이 장치(150)에 출력 중인 영상 컨텐츠에 대한 출력을 중단시키고, 공용 단말(100)로 전송한 서비스에 해당하는 영상이 디스플레이 장치(150)의 화면에 표시되도록 하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다. 다른 예로, 서비스 관리 서버(120)는 디스플레이 장치(150)를 통해 출력 중인 영상 컨텐츠 위에 발화 명령어 및 발화 명령어에 대한 응답이 오버레이되어 표시되도록 하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.

대화 서버(130)는 서비스 관리 서버(120)와 연동하여 서비스 관리 서버(120)의 음성 신호에 대한 분석을 지원하기 위한 발화 해석을 수행할 수 있다.

대화 서버(130)는 서비스 관리 서버(120)로부터 명령어와 함께 공용 단말(100)의 콘텍스트를 수신하고, 공용 단말(100)의 콘텍스트에 기초한 명령어에 대한 사용자의 발화 해석을 서비스 관리 서버(120)로부터 요청받을 수 있다.

대화 서버(130)는 서비스 관리 서버(120)로부터 발화 해석을 위한 명령어만을 수신한 경우, 발화 해석에 요구되는 공용 단말(100)의 콘텍스트를 서비스 관리 서버(120)에게 요청하고, 서비스 관리 서버(120)로부터 요청에 대응하는 콘텍스트를 수신할 수 있다.

대화 서버(130)는 콘텍스트에 따라 명령어를 추론 및 보완하여 명령어에 대한 문장 해석, 의도 분석 및 답변 추론 중 적어도 하나를 수행할 수 있다.

대화 서버(130)는 공용 단말(100)의 콘텍스트에 기초하여 명령어를 해석하고 명령어에 대한 사용자의 의도를 분석할 수 있다.

구체적으로, 대화 서버(130)는 콘텍스트에 포함된 사용자 선호 정보에 따라 명령어에서 누락된 정보를 추론 및 보완한 후, 명령어에 대한 문장 해석을 수행하고, 사용자의 의도 분석을 수행할 수 있다. 여기서, 사용자 선호 정보는 예를 들면, 사용자의 거주지 및 근무지 정보, 컨텐츠(예컨대, 뉴스, 음악 등)의 선호 장르 정보 등을 포함할 수 있다. 예를 들면, 대화 서버(130)는 명령어가 장소에 대한 언급없이 날씨 관련 질의(예컨대 '날씨 어때?')만으로 구성된 문장인 경우, 사용자의 거주지 정보에 기초하여 해당 명령어를 사용자가 거주하는 거주지의 날씨 질의(예컨대, '우면동 날씨 어때?')로 해석할 수 있다.

대화 서버(130)는 콘텍스트에 포함된 명령어 이력 정보로부터 이전 명령어를 참조하여 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 대화 서버(130)는 명령어 이력 정보에 날씨 관련된 명령어가 기록되어 있고, 사용자의 현재 명령어에 특정 날짜(예컨대, '모레는?')를 포함하는 정보만이 포함된 경우, 해당 명령어를 특정 날짜의 날씨에 대한 질의(예컨대, '모레 날씨는?')로 해석할 수 있다.

대화 서버(130)는 음성 명령 기반 서비스를 통해 제공 가능한 복수의 기능(예컨대, 공용 단말(100)과 연결된 디스플레이 장치(150)를 통한 미디어 컨텐츠의 재생/추천/변경/검색 기능, 웹 검색 기능, 음성/영상 통화 기능, 공용 단말(100)과 페어링된 IoT 단말의 제어 기능, 공용 단말(100)과 감성 대화, 사용자의 생활 서비스 등의 모든 기능을 포함) 각각에 대해 콘텍스트에 포함된 공용 단말(100)의 기능 사용 빈도 정보에 따라 가중치를 조정함으로써 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 대화 서버(130)는 공용 단말(100)를 통한 사용자의 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 이용 빈도수가 제 2 기능 서비스(예컨대, 음악 컨텐츠 재생 기능)에 대한 이용 빈도수보다 높은 경우, 제 1 기능 서비스에 제 1 가중치를 부여하고, 제 1 가중치보다 낮은 제 2 가중치를 제 2 기능 서비스에 부여할 수 있다. 예를 들면, 사용자가 발화 명령한 특정 명령어(예컨대, '틀어줘')에 대해서, 대화 서버(130)는 해당 명령어와 연관된 기능 서비스 중 가중치가 높은 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)의 제공을 해당 명령어에 대한 의도로 분석할 수 있다.

대화 서버(130)는 사용자 피드백 정보에 포함된 사용자 응답 패턴에 따라 음성 기반 서비스를 통해 제공 가능한 각 기능에 대해 가중치를 조정하여 명령어에 대한 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(130)는 사용자가 평소 제 1 음성 명령(예컨대, '틀어줘')에 대해서 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 해석의 긍정 응답이 높은 경우, 해당 제 1 기능 서비스에 가중치를 부여할 수 있다. 또한, 대화 서버(130)는 음성 기반 서비스에 대한 각 기능 별 누적된 가중치에 기초하여 사용자의 명령어에 대한 답변을 추론할 수 있다.

대화 서버(130)는 명령어 이력 정보를 이용하여 같은 명령어가 반복된다고 판단한 경우 기존의 답변과 다른 패턴의 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(130)는 사용자가 동일한 명령어를 반복하여 질의하는 경우, 반복되는 명령어에 대해 사용자의 질문의도를 묻는 답변(예컨대, '왜 자꾸 같은 질문을 하세요')을 추론할 수 있다.

대화 서버(130)는 사용 기간 정보에 따른 시스템 친숙도를 고려하여 명령어에 대한 답변을 생성할 수 있다. 구체적으로, 공용 단말(100)에 대한 사용자의 시스템 친숙도는 사용자의 사용 기간에 비례하므로 대화 서버(130)는 공용 단말(100)에 대한 사용자의 사용 기간이 늘어나면 명령어에 대한 답변에서 불필요한 안내 문구 등을 제거하여 답변 문구를 간결하게 생성할 수 있다. 예를 들면, 대화 서버(130)는 VOD 재생 기능에 대한 답변으로서 '요청하신 VOD 컨텐츠를 재생합니다'를 'VOD 재생 또는 재생'으로 간결한 답변을 생성할 수 있다.

또한, 대화 서버(130)는 공용 단말(100)의 숙련도에 따라 명령어에 대한 답변을 간결하게 생성할 수 있다.

대화 서버(130)는 상황 정보로부터 공용 단말(100)을 통해 제공 중인 서비스를 참조하여 명령어에 대한 문장 해석을 수행할 수 있다. 여기서, 상황 정보는 예를 들면, 공용 단말(100)을 통해 제공 중인 서비스에 대한 기능 및 상태 정보, 공용 단말(100)를 이용하는 사용자 정보 등을 포함할 수 있다. 서비스에 대한 기능 및 상태 정보에는 예를 들면, 공용 단말(100)의 대기 모드, 음성/영상 통화 여부, 통화 메뉴 정보, OTV 시청 여부, 회의 메뉴 정보, 런처 메인 화면 정보, 런처 서브 화면 정보(예컨대, 설정, 알람, 팝업, 리스트 웹뷰 등), 런처 선택 UI 상태 정보, 컨텐츠 시청 정보, 블루투스 스피커의 사용 여부, 뮤직 컨텐츠의 이용 여부, 캐릭터 정보, USB 뮤직 이용 여부, 인터넷 라디오 이용 여부, TV HDMI 연결 상태 정보, 리모컨 정보, 원거리 음성 입력 정보 등이 포함될 수 있다. 공용 단말(100)을 이용하는 사용자 정보에는 예를 들면, 공용 단말(100) 앞에 존재하는 사용자의 성별, 인원수 정보 등이 포함될 수 있다.

예를 들면, 디스플레이 장치(150)의 화면에 '런처 선택 UI'가 표시된 상태에서 사용자가 특정 번호를 포함하는 명령어를 발화한 경우, 대화 서버(130)는 해당 명령어를 'SELECT'로 해석하거나 '특정 번호의 채널로의 이동'으로 해석할 수 있다.

예를 들면, 사용자가 라디오 서비스(또는 뮤직 서비스)를 이용 중일 때, 사용자로부터 이동 명령어(예컨대, '다음')를 포함하는 음성 신호를 수신한 경우, 분석부(210)는 이동 명령어를 '라디오 다음 채널로의 변경'(또는, 뮤직 서비스의 다음 곡으로의 변경)으로 해석할 수 있다.

이와 같이, 대화 서버(130)는 공용 단말(100)의 콘텍스트에 기초하여 서비스 관리 서버(120)로부터 수신된 명령어에 대한 발화 해석을 수행하고, 발화 해석된 명령어(또는 명령어에 대한 답변)를 서비스 관리 서버(120)에게 전송할 수 있다.

서비스 관리 서버(120)는 발화 해석된 명령어(또는 명령어에 대한 답변)에 해당하는 서비스를 도출하여 도출된 서비스를 공용 단말(100)에게 전송할 수 있다.

서비스 관리 서버(120)는 발화 해석된 명령어에 해당하는 서비스를 외부 서비스 제공 서버(140)와의 연동 또는 서비스 관리 서버(120)의 내부 서비스 모듈을 통해 도출하고, 도출된 서비스를 공용 단말(100)에게 전송할 수 있다.

서비스 관리 서버(120)는 발화 해석된 명령어에 기초하여 사용자가 입력한 음성 신호의 음성 인식 결과로서 발화 명령어에 대응하는 응답을 생성하고, 발화 명령어 및 발화 명령어에 대응하는 응답을 공용 단말(100)에게 전송할 수 있다.

공용 단말(100)은 서비스 관리 서버(120)의 내부 서비스 모듈 또는 외부 서비스 제공 서버(140)와 연동하여 도출된 서비스를 서비스 관리 서버(120)로부터 수신할 수 있다.

한편, 음성 인식 서버(110), 서비스 관리 서버(120) 및 대화 서버(130)에 해당하는 서버단을 통해 처리되는 기술적 특징은 공용 단말(100)을 통해서도 구현될 수 있다. 또한 음성 인식 서버(110), 서비스 관리 서버(120) 및 대화 서버(130)를 통해 구현되는 기술적 특징은 각 기술적 특징을 모듈로서 구성하고 있는 하나의 서버로 구현될 수 있다.

이하에서는 도 3의 음성 명령 기반 서비스 제공 시스템의 각 구성요소의 동작에 대해 보다 구체적으로 설명한다.

도 4는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 4에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 대화 서버(130) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 4에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 4를 참조하면, 단계 S401에서 공용 단말(100)은 사용자의 입력에 따라 영상 컨텐츠를 공용 단말(100)과 연결된 디스플레이 장치(150)를 통해 출력할 수 있다.

단계 S403에서 공용 단말(100)은 사용자로부터 음성 신호를 입력받고, 단계 S205에서 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

단계 S407에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S409에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.

단계 S411에서 서비스 관리 서버(120)는 명령어에 대해 추가적인 발화 해석이 요구되는지 판단할 수 있다.

단계 S413에서 서비스 관리 서버(120)는 단계 S411에서의 판단 결과, 발화 해석이 요구되는 명령어가 아닌 경우, 명령어를 분석하여 분석된 명령어에 대응되는 서비스를 도출할 수 있다.

단계 S415에서 서비스 관리 서버(120)는 도출된 서비스를 공용 단말(100)로 전송할 수 있다.

단계 S417에서 서비스 관리 서버(120)는 단계 S411에서의 판단 결과, 명령어가 추가적인 발화 해석이 요구되는 경우, 대화 서버(100)에게 명령어를 전송하여 발화 해석을 요청할 수 있다.

단계 S419에서 대화 서버(100)는 서비스 관리 서버(120)에게 명령어의 발화 해석에 요구되는 공용 단말(100)의 콘텍스트를 요청할 수 있다.

단계 S421에서 서비스 관리 서버(120)는 대화 서버(100)의 요청에 대응하는 공용 단말(100)의 콘텍스트를 수집하고, 단계 S423에서 대화 서버(100)에게 콘텍스트를 전송할 수 있다. 이 경우, 공용 단말(100)의 콘텍스트는 서비스 관리 서버(120)에 의해 기설정된 주기마다 수집되거나 상시로 수집될 수 있다.

단계 S425에서 대화 서버(100)는 공용 단말(100)의 콘텍스트에 기초하여 명령어에 대한 발화 해석을 수행할 수 있다.

단계 S427에서 대화 서버(100)는 발화 해석된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.

단계 S429에서 서비스 관리 서버(120)는 발화 해석된 명령어에 해당하는 서비스를 도출할 수 있다.

단계 S431에서 서비스 관리 서버(120)는 도출된 서비스를 공용 단말(100)로 전송할 수 있다.

단계 S433에서 공용 단말(100)은 사용자에 의해 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 텍스트 형태로 표시할 수 있다.

단계 S435에서 공용 단말(100)은 서비스 관리 서버(120)로부터 수신된 서비스에 따라 출력 중인 영상 컨텐츠를 제어할 수 있다.

상술한 설명에서, 단계 S401 내지 S435은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 5는 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 5에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 4에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 외부 서비스 제공 서버(140)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 4의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120), 외부 서비스 제공 서버(140)에 관하여 기술된 내용은 도 5에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 5를 참조하면, 단계 S501에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

단계 S503에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S505에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.

단계 S507에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 도출할 수 있다.

단계 S509에서 서비스 관리 서버(120)는 도출된 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는지 판단할 수 있다.

단계 S511에서 서비스 관리 서버(120)는 단계 S509에서의 판단 결과, 서비스가 외부 서비스 제공 서버(140)와의 연동을 필요로 하지 않는 서비스인 경우, 단계 S507에서 도출된 서비스를 그대로 공용 단말(100)에게 제공할 수 있다.

단계 S513에서 서비스 관리 서버(120)는 단계 S509에서의 판단 결과, 서비스가 외부 서비스 제공 서버(140)와의 연동을 요구하는 서비스인 경우, 외부 서비스 제공 서버(140)에게 서비스에 대응하는 외부 서비스를 요청할 수 있다.

단계 S515에서 서비스 관리 서버(120)는 외부 서비스 제공 서버(140)와 연동하여 도출된 외부 서비스를 외부 서비스 제공 서버(140)로부터 수신하고, 단계 S517에서 해당 외부 서비스를 공용 단말(100)에게 제공할 수 있다.

상술한 설명에서, 단계 S501 내지 S517은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 6은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 6에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 5에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 5의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 6에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 6을 참조하면, 단계 S601에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

단계 S603에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S605에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.

단계 S607에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 선택할 수 있다.

단계 S609에서 서비스 관리 서버(120)는 단계 S607에서 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.

단계 S611에서 서비스 관리 서버(120)는 단계 S607에서 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.

상술한 설명에서, 단계 S601 내지 S611은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 7은 본 발명의 다른 실시예에 따른, 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 7에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 3 내지 6에 도시된 실시예에 따른 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 3 내지 6의 공용 단말(100), 음성 인식 서버(110), 서비스 관리 서버(120) 및 디스플레이 장치(150)에 관하여 기술된 내용은 도 7에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 7을 참조하면, 단계 S701에서 공용 단말(100)은 사용자로부터 입력받은 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

단계 S703에서 음성 인식 서버(110)는 음성 신호로부터 명령어를 도출하고, 단계 S705에서 도출된 명령어를 서비스 관리 서버(120)에게 전송할 수 있다.

단계 S707에서 서비스 관리 서버(120)는 음성 인식 서버(110)로부터 수신된 명령어를 분석하여 서비스를 선택할 수 있다.

단계 S709에서 서비스 관리 서버(120)는 단계 S707에서 선택된 서비스를 공용 단말(100)에게 전송할 수 있다.

단계 S711에서 서비스 관리 서버(120)는 단계 S707에서 선택된 서비스에 따라 공용 단말(100)과 연결된 디스플레이 장치(150)를 제어하는 명령 메시지를 공용 단말(100)에게 전송할 수 있다.

단계 S713에서 공용 단말(100)은 디스플레이 장치(150)에 영상 컨텐츠가 표시되는 동안에 사용자가 입력한 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(150)의 화면에 표시할 수 있다.

상술한 설명에서, 단계 S701 내지 S713은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 8a 내지 8d는 본 발명의 일 실시예에 따른, 음성 명령에 기반한 서비스를 설명하기 위한 예시 도면이다.

도 8a를 참조하면, 공용 단말(100)이 사용자(800)로부터 제 1 음성 신호(예컨대, '엄마하고 영상통화하고 싶어')를 입력받은 경우, 공용 단말(100)은 제 1 음성 신호를 음성 인식 서버(110)에게 전송할 수 있다.

이후, 서비스 관리 서버(120)는 공용 단말(100)을 통해 입력받은 제 1 음성 신호로부터 도출된 적어도 하나의 명령어(예컨대, 제 1 명령어인 '엄마', 제 2 명령어인 '영상통화')를 음성 인식 서버(110)로부터 수신할 수 있다.

공용 단말(100)은 입력된 음성 신호의 음성 인식 결과인 발화 명령어에 대응하는 응답(예컨대, ' 엄마 전화로 연결합니다')을 공용 단말(100)의 스피커를 통해 출력할 수 있다.

서비스 관리 서버(120)는 도출된 적어도 하나의 명령어에 대응하는 서비스 관리 서버(120)의 적어도 하나의 내부 서비스 모듈(예컨대, 제 1 내부 서비스 모듈인 주소록 서비스 모듈과 제 2 내부 서비스 모듈인 영상 통화 서비스 모듈)을 연동하여 제공하는 서비스를 선택하고, 선택된 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)를 통해 출력시킬 수 있다. 예를 들면, 서비스 관리 서버(120)는 제 1 내부 서비스 모듈을 통해 제 1 명령어에 해당하는 전화 번호를 검색하고, 제 2 서비스 모듈을 통해 공용 단말(100)와 연결된 디스플레이 장치(150)로 영상 통화를 제공할 수 있다.

도 8b를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)로부터 입력된 제 2 음성 신호(예컨대, '오늘 일정 알려줘')의 명령어가 일정 관련 명령어를 포함하는 경우, 입력된 음성 신호의 음성 인식 결과인 발화 명령어에 대응하는 응답(예컨대, '일정을 조회합니다')을 공용 단말(100)에게 전송하여 공용 단말(100)의 스피커를 통해 출력시킬 수 있다.

또한, 서비스 관리 서버(120)의 제 3 내부 서비스 모듈(예컨대, 캘린더 모듈)을 연동하여 해당 명령어에 해당하는 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면에 출력시키고, 입력된 음성 신호의 발화 명령어를 텍스트 형태로 출력 중인 일정 데이터 위에 오버레이하여 표시할 수 있다.

도 8c를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)이 사용자로부터 제 3 음성 신호(예컨대, '버스 언제와?')를 수신한 경우, 제 3 음성 신호로부터 도출된 명령어를 수행할 서비스(예컨대, 대중 교통 안내 서비스)를 선택할 수 있다.

서비스 관리 서버(120)는 선택된 서비스를 수행하기 위한 외부 서비스 제공 서버(140)와의 연동이 필요한 경우, 외부 서비스 제공 서버(140)에게 선택된 서비스에 대응하는 외부 서비스(예컨대, 사용자가 지정한 정류장 위치로의 기등록된 버스 번호에 해당하는 버스의 도착 정보)를 요청할 수 있다.

서비스 관리 서버(120)는 외부 서비스 제공 서버(140)와 연동하여 외부 서비스를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면으로 출력시킬 수 있다.

도 8d를 참조하면, 서비스 관리 서버(120)는 공용 단말(100)이 사용자로부터 제 4 음성 신호(예컨대, '지루해')를 수신한 경우, 제 4 음성 신호로부터 도출된 명령어를 분석할 수 있다.

서비스 관리 서버(120)는 분석된 명령어에 대한 사용자의 발화 의도가 파악되지 않는 경우(서비스 관리 서버(120)에 의해 분석된 명령어만으로 서비스 관리 서버(120)의 내부 서비스 모듈 또는 외부 서비스 제공 서버(140)를 통해 서비스 제공이 어려운 경우), 대화 서버(130)에게 해당 명령어를 전송하여 발화 해석을 요청할 수 있다.

서비스 관리 서버(120)는 대화 서버(130)에서 수행된 명령어에 대한 발화 해석을 대화 서버(130)로부터 수신하고, 발화 해석된 명령어에 기초하여 발화 명령어에 대응하는 응답(예컨대, '재미있는 영화 추천해 드릴까요? 황정민이 출연한 영화 어떠세요? ')을 공용 단말(100)에게 전송하여 공용 단말(100)의 스피커를 통해 출력시킬 수 있다.

이후, 서비스 관리 서버(120)는 대화 서버(130)로부터 수신된 발화 해석된 명령어에 해당하는 서비스를 선택한 후, 외부 서비스 제공 서버(140)를 통해 외부 서비스(예컨대, 황정민이 출연한 영화 리스트)를 공용 단말(100)와 연결된 디스플레이 장치(150)의 화면으로 출력시킬 수 있다.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

10: 공용 단말
20: 서버
30: 외부 서비스 서버
40: 내부 서비스 서버
100: 공용 단말
110: 음성 인식 서버
120: 서비스 관리 서버
130: 대화 서버
140: 외부 서비스 제공 서버
150: 디스플레이 장치

Claims

공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법에 있어서,
사용자로부터 음성 신호를 입력 받는 단계;
상기 입력받은 음성 신호를 서비스 제공 서버로 전송하는 단계;
상기 서비스 제공 서버에서의 서비스 판단이 요구되는 지에 따라 상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호 또는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계 및
상기 수신받은 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계
를 포함하되,
상기 제어 신호 또는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계는
상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 외부 서비스 서버와의 연동이 요구되는 외부 서비스인 경우, 상기 외부 서비스를 상기 서비스 제공 서버를 경유하여 상기 외부 서비스 서버로부터 수신하는 단계; 및
상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버와의 연동이 요구되는 내부 서비스인 경우, 상기 내부 서비스를 상기 서비스 제공 서버를 경유하지 않고 상기 내부 서비스 서버로부터 수신하는 단계
를 포함하는 음성 명령 기반 서비스 제공 방법.
제 1 항에 있어서,
영상 컨텐츠를 상기 공용 단말과 연결된 디스플레이 장치를 통해 표시하는 단계; 및
상기 디스플레이 장치에 상기 영상 컨텐츠가 표시되는 동안에 상기 서비스를 제공하는 단계
를 더 포함하는 음성 명령 기반 서비스 제공 방법.
제 2 항에 있어서,
상기 수신된 제어 신호 또는 서비스에 따라 상기 표시 중인 영상 컨텐츠를 제어하는 단계
를 더 포함하는 음성 명령 기반 서비스 제공 방법.
제 2 항에 있어서,
상기 수신받은 제어 신호에 해당하는 응답 또는 서비스는 상기 디스플레이 장치를 통해 표시 중인 영상 컨텐츠 위에 오버레이하여 표시되는 음성 명령 기반 서비스 제공 방법.
제 4 항에 있어서,
상기 수신받은 제어 신호에 해당하는 응답 또는 서비스는 상기 디스플레이 장치의 화면에 텍스트 형태로 표시되는 음성 명령 기반 서비스 제공 방법.
제 2 항에 있어서,
상기 영상 컨텐츠가 표시되는 동안에 사용자로부터 음성 신호를 입력받는 단계; 및
상기 입력된 음성 신호로부터 도출된 응답에 따라 상기 영상 컨텐츠를 제어하는 단계
를 더 포함하는 음성 명령 기반 서비스 제공 방법.
제 2 항에 있어서,
상기 공용 단말을 통해 제공되는 오디오 신호 중 상기 영상 컨텐츠에 대응하는 일부를 상기 디스플레이 장치와 연결된 스피커를 통해 출력하는 단계; 및
상기 오디오 신호 중 상기 서비스에 대응하는 일부를 상기 공용 단말을 통해 출력하는 단계
를 더 포함하는 음성 명령 기반 서비스 제공 방법.
제 2 항에 있어서,
상기 공용 단말을 통해 제공되는 오디오 신호 중 상기 영상 컨텐츠에 대응하는 일부 및 상기 오디오 신호 중 상기 서비스에 대응하는 일부를 상기 공용 단말을 통해 출력하는 단계
를 더 포함하는 음성 명령 기반 서비스 제공 방법.
제 1 항에 있어서,
상기 서비스 제공 서버는,
상기 음성 신호를 인식하여 발화 명령어를 도출하는 음성 인식 서버 및
상기 발화 명령어에 대응하는 응답을 도출하고, 복수의 서비스 중 상기 도출된 응답에 해당하는 서비스를 검출하는 서비스 관리 서버
를 포함하는 음성 명령 기반 서비스 제공 방법.
공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법에 있어서,
사용자로부터 음성 신호를 입력 받는 단계;
상기 입력받은 음성 신호의 음성 인식 결과를 도출하는 단계;
상기 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 도출하거나, 상기 음성 인식 결과에 대응하는 서비스를 서비스 제공 서버로부터 수신하는 단계; 및
상기 제어 신호 또는 서비스를 상기 공용 단말과 연결된 디스플레이 장치에 표시하거나 오디오 신호로 출력하는 단계
를 포함하되,
상기 음성 인식 결과에 대응하는 서비스를 상기 서비스 제공 서버로부터 수신하는 단계는
상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 외부 서비스 서버와의 연동이 요구되는 외부 서비스인 경우, 상기 외부 서비스를 상기 서비스 제공 서버를 경유하여 상기 외부 서비스 서버로부터 수신하는 단계; 및
상기 음성 신호의 음성 인식 결과에 대응하는 서비스가 내부 서비스 서버와의 연동이 요구되는 내부 서비스인 경우, 상기 내부 서비스를 상기 서비스 제공 서버를 경유하지 않고 상기 내부 서비스 서버로부터 수신하는 단계
를 포함하는 음성 명령 기반 서비스 제공 방법.