KR102200226B1

KR102200226B1 - 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말

Info

Publication number: KR102200226B1
Application number: KR1020180005764A
Authority: KR
Inventors: 이상욱; 최원석; 권영달; 강현정; 김미희; 권순종; 김진한; 백규태
Original assignee: 주식회사 케이티
Priority date: 2017-01-16
Filing date: 2018-01-16
Publication date: 2021-01-08
Also published as: US20180322870A1; KR20180084672A; KR101889279B1; US10650816B2; KR20180084592A; KR20180092914A

Abstract

음성 신호에 기반하여 서비스를 제공하는 통합 서버는 공용 단말로부터 음성 신호를 수신하는 수신부, 상기 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단하는 판단부, 판단 결과에 기초하여 상기 음성 신호에 대한 응답을 도출하는 응답 도출부 및 상기 도출된 응답을 상기 공용 단말로 전송하는 전송부를 포함한다.

Description

음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말{INTEGRATION SERVER, METHOD AND COMMON DEVICE FOR PROVIDING SERVICE IN RESPONSE TO VOICE COMMAND}

본 발명은 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말에 관한 것이다.

종래의 음성 인식 장치는 사용자로부터 입력된 음성과 기제작된 음성 인식 모델과의 유사도를 측정하여 사용자의 음성에 포함된 의도를 분석한 후, 사용자의 음성에 대응하는 음성 기반 서비스를 제공하고 있다.

최근 들어, 음성 기반 서비스의 분야가 다양해지고 복잡해짐에 따라, 음성 인식 장치는 사용자 의도와 다른 음성 기반 서비스를 제공하는 일이 종종 발생하고 있다. 사용자는 자신이 의도한 음성 기반 서비스를 제공받기 위해서 보다 디테일한 음성을 입력해야 하는 불편함을 감수해야 한다.

선행 기술인 한국공개특허 제 2016-0058523호에는 기저장된 복수의 매뉴얼에 기초하여 사용자의 발화 음성에 대응되는 동작을 처리하는 구성이 개시되어 있다.

사용자로부터 입력받은 음성 신호에 해당하는 서비스를 통합 서버에서 타겟 서버와의 연동 여부에 따라 다양한 방식으로 제공할 수 있도록 하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공하고자 한다. 공용 단말을 통해 입력받은 사용자의 음성 신호로부터 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석함으로써 사용자의 발화 의도를 분석하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공하고자 한다. 또한, 공용 단말의 콘텍스트에 기초하여 명령어에 대한 답변을 생성하기 때문에 사용자가 의도한 음성 명령에 대응하는 서비스를 공용 단말을 통해 제공하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 공용 단말로부터 음성 신호를 수신하는 수신부, 상기 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단하는 판단부, 판단 결과에 기초하여 상기 음성 신호에 대한 응답을 도출하는 응답 도출부 및 상기 도출된 응답을 상기 공용 단말로 전송하는 전송부를 포함하는 통합 서버를 제공할 수 있다.

본 발명의 다른 실시예는, 사용자로부터 음성 신호를 입력받는 입력부, 상기 입력받은 음성 신호를 통합 서버로 전송하는 전송부, 상기 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부에 대한 판단에 기초하여 상기 통합 서버로부터 도출된 상기 음성 신호에 대한 응답을 수신하는 수신부, 상기 수신된 응답에 따라 상기 서비스를 제공하는 서비스 제공부를 포함하는 공용 단말을 제공할 수 있다.

본 발명의 또 다른 실시예는, 공용 단말로부터 음성 신호를 수신하는 단계, 상기 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단하는 단계, 판단 결과에 기초하여 상기 음성 신호에 대한 응답을 도출하는 응답 단계 및 상기 도출된 응답을 상기 공용 단말로 전송하는 단계를 포함하는 서비스 제공 방법을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 사용자로부터 입력받은 음성 신호에 해당하는 서비스를 통합 서버에서 타겟 서버와의 연동 여부에 따라 다양한 방식으로 제공할 수 있도록 하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공할 수 있다. 공용 단말을 통해 입력받은 사용자의 음성 신호로부터 도출된 명령어를 공용 단말의 콘텍스트에 기초하여 분석함으로써 사용자의 발화 의도를 분석하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공할 수 있다. 또한, 공용 단말의 콘텍스트에 기초하여 명령어에 대한 답변을 생성하기 때문에 사용자가 의도한 음성 명령에 대응하는 서비스를 공용 단말을 통해 제공하는 음성 신호에 기반하여 서비스를 제공하는 통합 서버, 방법 및 공용 단말을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템을 도시한 예시적인 도면이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 통합 서버에 포함된 복수의 서버를 도시한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 통합 서버의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템에서 음성 신호에 해당하는 서비스를 제 1 서비스로 판단하여 제공하는 과정을 도시한 동작흐름도이다.
도 7은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템에서 음성 신호에 해당하는 서비스를 제 2 서비스로 판단하여 제공하는 과정을 도시한 동작흐름도이다.
도 8a 및 도 8b는 본 발명의 일 실시예에 따른 음성 명령에 기반한 서비스를 설명하기 위한 예시적인 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템을 도시한 예시적인 도면이다. 도 1을 참조하면, 음성 명령 기반 서비스 제공 시스템(1)은 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)를 포함할 수 있다. 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)는 음성 명령 기반 서비스 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.

도 1의 음성 명령 기반 서비스 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 통합 서버(120)는 공용 단말(110) 또는 타겟 서버(130)와 동시에 또는 시간 간격을 두고 연결될 수 있다.

네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

공용 단말(110)은 사용자로부터 음성 신호를 입력받으면, 입력받은 음성 신호를 통합 서버(120)로 전송할 수 있다.

공용 단말(110)은 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부에 대한 판단에 기초하여 통합 서버(120)로부터 도출된 음성 신호에 대한 응답을 수신할 수 있다. 예를 들어, 공용 단말(110)은 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 음성 신호에 기초하여 도출된 서비스를 수행하기 위한 상세 요청 명령어를 통합 서버(120)로부터 수신할 수 있다. 또는, 공용 단말(110)은 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 통합 서버(120)로부터 수신할 수 있다.

제 1 서비스란, 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 있는 경우, 음성 신호에 해당하는 서비스를 제 1 서비스라고 볼 수 있다. 예를 들어, 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 있는 경우란, 통합 서버(120)가 음성 신호에 해당하는 서비스에 대한 최종 응답 또는 음성 신호에 해당하는 서비스를 실행하기 위한 상세 요청 명령어를 도출하기 위해 해당 서비스를 제공하는 타겟 서버(130)와 연동할 수 있는 경우를 포함할 수 있다. 또한, 제 2 서비스란, 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 없는 경우, 음성 신호에 해당하는 서비스를 제 1 서비스라고 볼 수 있다. 예를 들어, 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 없는 경우란, 통합 서버(120)가 음성 신호에 해당하는 서비스에 대한 최종 응답 또는 음성 신호에 해당하는 서비스를 실행하기 위한 상세 요청 명령어를 도출하기 위해 해당 서비스를 제공하는 타겟 서버(130)와 연동할 수 없는 경우를 포함할 수 있다.

공용 단말(110)은 수신된 응답에 따라 서비스를 제공할 수 있다. 예를 들어, 공용 단말(110)은 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 음성 신호에 기초하여 도출된 서비스를 수행 및 실행하기 위한 상세 요청 명령어를 통합 서버(120)로부터 수신할 수 있다. 또는, 공용 단말(110)은 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 음성 신호에 해당하는 서비스를 제공하는 기설치된 앱을 호출(invoke)하기 위한 호출 명령어를 수신하고, 이에 기초하여 공용 단말(110)에 해당 앱을 호출하여 타겟 서버(130)로부터 서비스를 제공받을 수 있다.

공용 단말(110)은 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 서비스를 제공하기 위해 상세 요청 명령어에 기초하여 타겟 서버(130)로부터 제공받은 상세 서비스를 표시할 수 있다. 또는, 공용 단말(110)은 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 서비스를 제공하기 위해 호출 명령어에 기초하여 앱을 호출함으로써 앱의 초기 화면을 표시할 수 있다.

공용 단말(110)은 원거리 음성 및 화자를 인식할 수 있고, 캐릭터 및 TTS(Text to Speech) 서비스를 제공할 수 있다. 또한, 공용 단말(110)은 사용자와 지능형 감성 대화를 수행할 수 있다. 또한, 공용 단말(110)은 주소록, 알람, 일정, 갤러리 등을 설정할 수 있고, 홈 IoT를 제어 및 모니터링할 수 있다. 또한, 공용 단말(110)은 사용자의 음성을 입력받으면 입력된 음성에 대한 응답을 수신하고, 수신된 응답에 기초하여 뮤직 서비스, TV 기반의 음성 및 영상 통화, OTV 서비스와 음성 인식 서비스를 연동하여 사용자에게 제공할 수 있다.

한편, 공용 단말(110)을 제어하는 컴패니언 어플리케이션은 공용 단말(110) 내의 서비스에 접근할 수 있는 링크 정보 또는 공용 단말(110)의 페어링 기능을 사용자에게 제공할 수 있다. 또한, 컴패니언 어플리케이션은 공용 단말(110) 내에 설치된 런처 앱(예컨대, 뮤직 앱, 주소록, 일정, 알람, 주소록, 갤러리 등)을 연동할 수 있는 인터페이스를 제공할 수 있다. 또한, 컴패니언 어플리케이션은 음성 명렁어 리스트, O2O 서비스 연계를 제공할 수 있다.

이러한, 컴패니언 어플리케이션은 공용 단말(110)과 연동되는 적어도 하나 이상의 사용자 단말(115)에 설치될 수 있고, 공용 단말(110)은 컴패니언 어플리케이션과 연동되어 각 사용자에게 맞춤형 서비스를 제공할 수 있다.

예를 들면, 각 사용자 단말(115)은 컴패니언 어플리케이션을 통해 공용 단말(110)을 제어할 수 있다. 이러한, 사용자 단말(115)은 예를 들면, 노트북, 데스크탑 PC뿐만 아니라 스마트폰(smartphone), 태블릿 PC, 웨어러블 디바이스, 블루투스(BLE, Bluetooth Low Energy), NFC, RFID, 초음파(Ultrasonic), 적외선, 와이파이(WiFi), 라이파이(LiFi) 등의 통신 모듈을 탑재한 각종 디바이스를 포함할 수 있다.

예를 들면, 제 1 사용자 단말은 제 1 컴패니언 어플리케이션을 구동시켜 뮤직 스트리밍 서비스를 공용 단말(110)을 통해 제 1 사용자에게 제공할 수 있고, 제 2 사용자 단말은 제 2 컴패니언 어플리케이션을 구동시켜 날씨 알림 서비스를 공용 단말(110)을 통해 제 2 사용자에게 제공할 수도 있다.

공용 단말(110)은 복수의 사물인터넷 장치, 별도의 보조 단말(예컨대, 리모컨 등)과 연동되어 사용자의 음성 신호에 따라 음성 신호에 대응하는 서비스를 제공하는 단말일 수 있다. 또한, 공용 단말(110)은 공용 단말(110)과 연동되는 별도의 카메라 또는 공용 단말(110)에 설치된 카메라에 의해 촬영된 사용자의 영상 신호를 입력받을 수 있고, 입력받은 영상 신호에 대응하는 서비스를 제공할 수도 있다.

예를 들면, 공용 단말(110)은 사용자로부터 직접 음성 신호를 입력받을 수 있고, 공용 단말(110)과 연동된 사용자 단말, 사물 인터넷 장치 또는 별도의 보조 단말을 통해서 사용자의 음성 신호를 입력받을 수 있고, 각 입력받은 음성 신호에 대응하는 서비스를 제공할 수 있다.

이러한 공용 단말(110)에는 음성 신호(또는 영상 신호)에 따라 복수의 사물인터넷 장치 각각을 제어하는 복수의 런처 어플리케이션(예컨대, 주소록 앱, 갤러리 앱, 디스플레이 장치 제어 앱, IoT 연동 앱 등)이 설치되어 있다. 예를 들면, 예를 들면, 사용자로부터 '채널 11번'라는 음성 명령을 입력받게 되면, 공용 단말(110)은 제 1 런처 어플리케이션(예컨대, 디스플레이 장치 제어 앱)을 통해 디스플레이 장치(미도시)에서 출력 중인 영상 화면을 '채널 11번'에 대응하는 화면으로 변경하여 출력시킬 수 있다.

예를 들면, 공용 단말(110)은 영상 통화 연결에 해당하는 영상 신호(예를 들어, 특정 제스쳐에 대한 영상 또는 특정 사물에 대한 영상)를 입력받은 경우, 영상 통화 어플리케이션을 통해 제스쳐로부터 영상 통화 연결에 대한 요청 신호를 도출하고, 도출된 요청 신호에 따라 영상 통화 서비스를 디스플레이 장치(미도시)와 연동하여 사용자에게 제공할 수 있다.

공용 단말(110)은 사용자로부터 음성 신호를 입력받고, 입력받은 음성 신호를 통합 서버(120)에게 전송할 수 있다.

공용 단말(110)은 통합 서버(120)에 의해 발화 해석된 음성 신호로부터 도출된 서비스를 수신할 수 있다.

공용 단말(110)은 통합 서버(120)로부터 음성 신호로부터 도출된 서비스를 수신한 경우, 수신된 서비스에 따라 디스플레이 장치(미도시)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다. 구체적으로, 공용 단말(110)은 통합 서버(120)로부터 공용 단말(110)과 연결된 디스플레이 장치(미도시)를 제어하는 명령 메시지를 수신한 경우, 명령 메시지에 따라 디스플레이 장치(미도시)를 통해 출력 중인 영상 컨텐츠를 제어할 수 있다.

공용 단말(110)은 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 공용 단말(110)과 연결된 디스플레이 장치(미도시)의 화면에 텍스트 형태로 표시할 수 있다.

공용 단말(110)은 공용 단말(110)과 연결된 디스플레이 장치(미도시)에 영상 컨텐츠가 표시되는 동안에 입력된 음성 신호의 음성 인식 결과인 발화 명령어 및 발화 명령어에 대응하는 응답을 디스플레이 장치(미도시)의 화면에 표시할 수 있다.

통합 서버(120)는 공용 단말(110)로부터 음성 신호를 수신하고, 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다. 예를 들어, 통합 서버(120)는 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 있는 경우, 음성 신호에 해당하는 서비스를 제 1 서비스로 판단할 수 있다. 또는, 통합 서버(120)는 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 없는 경우, 음성 신호에 해당하는 서비스를 제 2 서비스로 판단할 수 있다.

통합 서버(120)는 판단 결과에 기초하여 음성 신호에 대한 응답을 도출하고, 도출된 응답을 공용 단말(110)로 전송할 수 있다. 예를 들어, 통합 서버(120)는 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 음성 신호에 기초하여 서비스를 수행하기 위한 상세 요청 명령어를 도출하고, 도출된 상세 요청 명령어를 공용 단말(110)로 전송할 수 있다. 이 때, 통합 서버(120)는 타겟 서버(130)와 연동하여 상세 요청 명령어를 도출할 수 있다. 상세 요청 명령어는 공용 단말(110)이 타겟 서버(130)로부터 서비스를 통해 제공되는 상세 서비스를 수신하도록 하는 것일 수 있다. 또는, 통합 서버(120)는 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 도출하고, 도출된 호출 명령어를 공용 단말(110)로 전송할 수 있다. 호출 명령어는 공용 단말(110)에 기설치된 앱을 호출하여 공용 단말(110)이 타겟 서버(130)로부터 서비스를 수신하도록 하는 것일 수 있다.

본원 발명에서는 공용 단말(110)이 음성 신호에 해당하는 서비스에 가입되었는지 여부와 관련하여 인증 프로세스가 수행될 수 있다. 예를 들어, 공용 단말(110)은 음성 신호에 해당하는 서비스에 대한 인증 프로세스를 미리 수행하고, 인증 완료 플래그를 포함하는 음성 신호를 통합 서버(120)로 전송할 수 있다. 다른 예를 들어, 통합 서버(120)는 공용 단말(110)로부터 수신한 음성 신호에 기초하여 해당 음성 신호를 전송한 공용 단말(110)이 음성 신호에 해당하는 서비스에 가입되었는지 여부에 대해 인증 프로세스를 수행할 수 있다. 또 다른 예를 들어, 공용 단말(110)은, 음성 신호에 대응하는 서비스를 통합 서버(120)로부터 수신한 경우, 수신한 서비스를 출력하기 전에 해당 서비스에 대한 가입 여부에 대해 인증 프로세스를 수행할 수 있다. 상술된 인증 프로세스는 개별적으로 수행될 수 있으며, 사용자의 설정에 따라 중복되어 수행될 수 있다.

이러한 통합 서버(120)는 음성 인식 서버(121), 대화 서버(122) 및 서비스 관리 서버(123)를 포함할 수 있다.

음성 인식 서버(121)는 공용 단말(110)로부터 사용자의 음성 신호를 수신하는 경우, 음성 신호로부터 명령어를 도출하여 이를 서비스 관리 서버(123)로 전송할 수 있다. 예를 들면, 음성 인식 서버(121)는 음성 신호를 텍스트로 변환한 후, 기설정된 음성 명령어 목록 중에서 텍스트화된 음성 신호와 일정 유사도 이상인 명령어를 도출할 수 있다.

대화 서버(122)는 서비스 관리 서버(123)로부터 수신된 공용 단말(110)의 콘텍스트에 기초하여 사용자가 발화한 음성 신호로부터 도출된 명령어를 분석할 수 있다. 구체적으로, 대화 서버(122)는 공용 단말(110)의 콘텍스트를 이용하여 사용자가 발화한 음성 신호의 명령어에 대한 문맥 및 발화 의도를 파악할 수 있다. 여기서, 공용 단말(110)의 콘텍스트는 예를 들면, 공용 단말(110)에 대한 사용자 선호 정보, 명령어 이력 정보, 공용 단말(110)에 대한 기능 사용 빈도 정보, 서비스에 대한 사용자 피드백 정보, 공용 단말(110)에 대한 사용 기간 정보 및 공용 단말(110)에 대한 상황 정보 중 적어도 하나를 포함할 수 있다.

대화 서버(122)는 명령어 분석을 통해 명령어에 답변을 생성하고, 생성된 명령어에 대한 답변을 서비스 관리 서버(123) 또는 공용 단말(110)로 제공할 수 있다.

서비스 관리 서버(123)는 음성 인식 서버(121)로부터 수신된 명령어를 대화 서버(122)로 전송하여 명령어에 대한 발화 해석을 요청할 수 있다.

서비스 관리 서버(123)는 공용 단말(110)과 페어링된 사용자 단말(미도시)을 통해 공용 단말(110)을 제어하거나 모니터링할 수 있다.

서비스 관리 서버(123)는 명령어에 대한 답변에 따라 타겟 서버(130)와의 연동 유무를 결정하고, 타겟 서버(130)를 통해 음성 신호에 대한 서비스를 공용 단말(110)에게 제공할 수 있다.

타겟 서버(130)는 공용 단말(110)로부터 음성 신호와 관련된 명령어를 수신하고, 음성 신호에 해당하는 서비스를 공용 단말(110)로 제공할 수 있다. 예를 들어, 음성 신호에 해당하는 서비스가 통합 서버(120)와 연동되는 제 1 서비스에 해당하는 경우, 타겟 서버(130)는 공용 단말(110)로부터 상세 요청 명령어에 기초하여 서비스를 통해 제공되는 상세 서비스를 요청받으면, 해당 상세 서비스를 공용 단말(130)로 제공할 수 있다. 다른 예를 들어, 음성 신호에 해당하는 서비스가 통합 서버(120)와 연동되지 않는 제 2 서비스에 해당하는 경우, 타겟 서버(130)는 공용 단말(110)로부터 호출 명령어에 기초하여 기설치된 앱을 통해 호출된 서비스를 요청받고, 요청받은 서비스를 공용 단말(110)로 제공할 수 있다. 이러한 타겟 서버(130)는 내부적인 인프라 및 자원을 이용하여 제공될 수 있는 서비스 및 써드파티(3^rd-party)에 해당하는 서버를 통해 제공될 수 있는 서비스를 모두 포함하는 것으로, IPTV 서버(131), 통화 서버(132), 제 3 서비스 서버(133) 등을 포함할 수 있다.

예를 들어, 음성 신호에 해당하는 서비스가 방송 서비스이고, 타겟 서버(130)에 포함된 IPTV 서버(131)가 공용 단말(110)로부터 상세 요청 명령어에 기초한 서비스를 요청받은 경우, IPTV 서버(131)가 방송 서비스에 대한 상세 서비스(예를 들어, 다시보기, 줄거리, 출연자 등)를 공용 단말(130)로 제공할 수 있다. 다른 예를 들어, 음성 신호에 해당하는 서비스가 음악 서비스이고, 타겟 서버(130)에 포함된 제 3 서비스 서버(133, 3^rd-party 서버)가 공용 단말(110)로부터 호출 명령어에 기초한 서비스를 요청받은 경우, 제 3 서비스 서버(133) 중 음악 서버가 음악 서비스를 공용 단말(110)로 제공할 수 있다.

예를 들어, 통합 서버(120)는 공용 단말(110)이 사용자로부터 발화된 음성 신호(예컨대, '버스 언제와')를 수신한 경우, 음성 신호로부터 도출된 명령어를 수행할 서비스(예컨대, 대중 교통 안내 서비스)를 선택할 수 있다.

통합 서버(120)는 선택된 서비스를 수행하기 위한 타겟 서버(130)와의 접근 가능 여부를 판단하여, 해당 서비스가 제 1 서비스 또는 제 2 서비스에 해당하는지를 판단할 수 있다. 여기서, 음성 신호에 해당하는 서비스는 통합 서버가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에게 접근할 수 있는 경우 제 1 서비스로 판단되며, 통합 서버가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에게 접근할 수 없는 경우 제 2 서비스로 판단될 수 있다.

예를 들어, 서비스가 제 1 서비스에 해당하는 경우, 통합 서버(120)는 예를 들어, 사용자가 지정한 정류장 위치로의 기등록된 버스 번호에 해당하는 버스의 도착 정보와 같은 서비스에 대한 상세 서비스를 타겟 서버(130)를 통해 공용 단말(110)에게 제공받을 수 있도록 할 수 있다.

다른 예를 들어, 서비스가 제 2 서비스에 해당하는 경우, 통합 서버(120)는 '대중 교통 안내 서비스'를 제공하는 앱을 호출하기 위한 호출 명령어를 공용 단말(110)로 전송함으로써, 공용 단말(110)과 연결된 디스플레이 장치(미도시)의 화면을 통해 앱의 실행 및 표시되도록 할 수 있다.

도 2a 및 도 2b는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다.

도 2a는 본 발명의 일 실시예에 따른 공용 단말의 내장 모듈을 도시한 예시적인 도면이다. 도 2a를 참조하면, 공용 단말(110)은 MIC 제어 모듈(201), 카메라 제어 모듈(202), 스피커 모듈(203), IPTV 모듈(204) 및 커뮤니케이션 모듈(205)을 포함할 수 있다.

MIC 제어 모듈(201)은 공용 단말(110) 주위의 사용자로부터 발화된 사용자 음성 신호를 수신, 검출 및 기록할 수 있다. MIC 제어 모듈(201)은 프로세서(미도시)의 제어 하에 메모리(미도시)에 사용자로부터 수신한 사용자 음성 신호를 저장할 수 있다.

카메라 제어 모듈(202)는 공용 단말(110)의 본체 및 본체에 착탈 가능한 카메라로, 카메라 제어 모듈(202)은 카메라 동작 표시 상태 LED, 홈-캠 서버 연결 표시 상태 LED, 공용 단말(110)의 본체와 카메라 인터페이스를 포함할 수 있다.

스피커 모듈(203)은 프로세서(미도시)의 제어에 대한 응답으로 사용자에게 오디오 피드백을 출력할 수 있다. 스피커 모듈(203)은 다른 오디오 데이터(예를 들어, 음악 또는 음성 명령에 대한 응답으로 음향 효과)를 출력할 수 있다.

IPTV 모듈(204)은 오디오/비디오 디코더를 포함하며, 셋톱박스의 소프트웨어 모듈이 오디오/비디오 디코더를 이용하여 콘텐츠를 제공할 수 있도록 하는 하드웨어 모듈로 구성될 수 있다.

IPTV 모듈(204)은 TV 튜닝 서비스를 제공하고, 프로세서(미도시)의 제어에 대한 응답으로 기결정된 커뮤니케이션 링크를 통해 공용 단말(110)과 연동된 디스플레이 장치(미도시)를 제어할 수 있다. 특히, IPTV 모듈(204)은 방송 서버로부터 신호를 직접 수신하고, 수신한 신호가 디스플레이 장치(미도시, 예를 들어, TV 튜너 입력을 받으면, 그에 대한 출력을 디스플레이를 통해 표시)에 표시되는 컨텐츠의 형태로 처리되도록 할 수 있다. 또한, IPTV모듈(204)은 음성 명령(예를 들어, 사용자 발화)에 대한 응답을 직접 제어할 수도 있다.

커뮤니케이션 모듈(205)은 메시지와 정보를 예를 들어, 통합 서버(120) 또는 타겟 서버(130) 등으로 전송하고, 통합 서버(120)로부터 제어 신호와 오디오 및 비디오 피드백(예를 들어, 기능 수행에 대한 결과 또는 응답)을 수신할 수 있다.

커뮤니케이션 모듈(205)은 커뮤니케이션 네트워크를 통해 다른 엔티티와 커뮤니케이션할 수 있도록 블루투스 모듈, 와이파이 모듈 등을 포함할 수 있다. 예를 들어, 블루투스는 지원규격 4.1의 2400~2483.5의 사용 주파수를 가질 수 있으며, 와이파이는 802.11a/b/g/n/ac의 지원규격의 2412MHz~2472MHz 또는 5180MHz~5805MHz의 사용 주파수를 가질 수 있다.

커뮤니케이션 네트워크는 예를 들어, 무선 통신 네트워크, 유선 통신 네트워크 등의 다양한 커뮤니케이션 네트워크를 포함할 수 있다. 예를 들어, 커뮤니케이션 네트워크는 wideband code division multiple access(WCDMA) network, a microwave access(WiMAX) network, a wireless fidelity(Wi-Fi) network, a long term revolution(LTE) network, x digital subscriber line(xDSL) network, a hybrid fiber-coaxial(HFC) network, a satellite network, a global system for mobile communication(GSM), edge radio access network(GERAN), a universal terrestrial radio access network(UTRAN), an evolved universal terrestrial radio access network(E-UTRAN), a wireless local area network(W-LAN), a public switched telephone network(PSTN), an integrated services for digital network(ISDN), an international mobile telecommunications(IMT)-2000 network, w a wired area network(WAN), a local area network(LAN), a metropolitan area network(MAN), a cable television(CATV), third generation partnership project core networks(3GGP-CNs), an European telecommunications standards institute telecommunication&internet coveraged service&protocols for advanced networks core network(ETSI TISPAN CN), a 3GGP2 CN, a machine to machine(M2M) network, a broadcast network, a radio frequency identification(RFID) network, a near field commucation(NFC) network, a ultra-wideband(UWB) network, a Bluetooth communication network 등을 포함하나, 이에 한정하지 않는다. 여기서, 무선 통신 회로 및 유선 통신 회로는 분리 또는 결합된 구성일 수 있다. 도 2a에서 도시되지 않았으나, 공용 단말(110)은 프로세서(미도시), 메모리(미도시)를 더 포함할 수 있다.

프로세서(미도시)는 공용 단말(110)의 전체 동작을 실행 또는 제어할 수 있다. 예를 들어, 프로세서(미도시)는 중앙 프로세싱 회로(central processing circuitry)로, 공용 단말(110)의 구성요소(예를 들어, 메모리, 커뮤니케이션 모듈 등)를 제어하고, 공용 단말(110)의 다양한 기능을 수행할 수 있다.

특히, 프로세서(미도시)는 사용자의 발화 음성을 청취하는 기능을 수행하고, 적어도 하나의 음성 명령을 인식하고, 사용자 발화 및 인식된 음성 명령 및 콘텍스트 정보를 통합 서버(120) 및 타겟 서버(130)로 전송할 수 있다. 프로세서(미도시)는 통합 서버(120)로부터 제어 신호와 오디오 및 비디오의 피드백을 수신하고, 제어 신호에 따라 디스플레이 장치(미도시)를 제어하고, 디스플레이 장치(미도시)를 통해 오디오 및 비디오 피드백을 출력할 수 있다.

메모리(미도시)에는 다양한 정보가 저장된다. 예를 들어, 메모리(미도시)는 프로세서(미도시)에 의해 등록된 기능 정보 등을 저장하고 있을 수 있다. 메모리(미도시)는 사용자의 개인 정보(예를 들어, 이름, 주소, 전화번호) 등을 저장하고 있을 수 있다. 또한, 메모리(미도시)는 소프트웨어 프로그램 및 그와 관련된 데이터를 포함할 수 있다.

메모리(미도시)는 다양한 커뮤니케이션 미디어(예를 들어, 커뮤니케이션 네트워크)를 통해 다른 엔티티(예를 들어, 다른 공용 단말, 다른 서버 등)로부터 실행 시스템 데이터, 어플리케이션, 관련 데이터를 수신하여 저장할 수 있다. 일 실시예에 따르면, 메모리는 통합 서버(120)의 디스플레이 유닛에 대해 결정된 디스플레이 설정에 대한 정보를 저장할 수 있다. 메모리는 구현예에 따라서 적어도 하나 이상의 내부 메모리 및 외부 메모리를 포함할 수 있다. 예를 들어, 메모리(미도시)는 플래시 메모리(flash memory), 하드디스크(hard disk), SRAM(Static Random-Access Memory), ROM(Read-Only Memory), PROM(Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 마그네틱 메모리(magnetic memory), 마그네틱 디스크(magnetic disk), 옵티컬 디스크(optical disk), SD 카드, USB 메모리 등을 포함하나 이에 한정하지 않는다.

이러한 공용 단말(110)은 본체 및 본체에 착탈 가능한 카메라를 포함할 수 있다. 예를 들어, 공용 단말(110)은 웹캠과 셋탑박스를 포함하는 단말일 수 있으며, 셋탑박스는 웹캠이 없이도 동작할 수 있다. 공용 단말(110)의 본체의 전면부, 후면부, 상면부 및 내장 모듈은 하기의 기능 또는 모듈을 포함할 수 있다. 전면부는 전원버튼(전원상태표시 및 리모컨 수신 LED 포함), IR 수신부, 마이크, 볼륨조절버튼(또는 볼륨조절터치), 이더넷 연결 상태 LED, 와이파이 연결상태 LED를 포함할 수 있다. 후면부는 RJ-45 이더넷 포트, HDMI 출력 포트, S/PDIF 출력 포트, 전원어댑터 단자, 전원 on/off 스위치, USB 포트, Micro SD 슬롯, 블루투스 페어링 버튼, WPS 사생활보호 버튼 등을 포함할 수 있다. 상면부는 본체 카메라 인터페이스, 서비스 상태 LED(감정 LED) 등을 포함할 수 있다. 공용 단말(110)의 카메라는 전면부, 후면부 및 하면부를 포함할 수 있고, 전면부는 카메라 동작 상태 LED를 포함하고, 후면부는 홈캠 서버 연결 상태 LED를 포함하고, 하면부는 본체카메라의 인터페이스를 포함할 수 있다.

도 2b는 본 발명의 일 실시예에 따른 공용 단말의 추가 내장 모듈을 도시한 예시적인 도면이다. 도 2a 및 도 2b를 참조하면, 공용 단말(110)은 입력부(210), 전송부(220), 수신부(230), 서비스 제공부(240) 및 표시부(250)를 더 포함할 수 있다.

입력부(210)는 사용자로부터 음성 신호를 입력받을 수 있다.

전송부(220)는 입력받은 음성 신호를 통합 서버(120)로 전송할 수 있다.

수신부(230)는 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부에 대한 판단에 기초하여 통합 서버(120)로부터 도출된 음성 신호에 대한 응답을 수신할 수 있다. 예를 들어, 수신부(230)는 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 음성 신호에 기초하여 도출된 서비스를 수행하기 위한 상세 요청 명령어를 통합 서버(120)로부터 수신할 수 있다. 또는, 수신부(230)는 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 통합 서버(120)로부터 수신할 수 있다.

서비스 제공부(240)는 수신된 응답에 따라 서비스를 제공할 수 있다. 예를 들어, 서비스 제공부(240)는 상세 요청 명령어에 기초하여 서비스를 통해 제공되는 상세 서비스를 타겟 서버(130)로부터 제공받을 수 있다. 또는, 서비스 제공부(240)는 호출 명령어에 기초하여 공용 단말(110)에 기설치된 앱을 호출하여 타겟 서버(130)로부터 서비스를 제공받을 수 있다.

표시부(250)는 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 해당 서비스를 제공하기 위해 타겟 서버(130)로부터 제공받은 상세 서비스를 표시할 수 있다. 예를 들어, 표시부는 음성 신호에 해당하는 서비스가 VOD 서비스인 경우, 음성 신호에 대응하는 상세 서비스로서 특정 VOD의 재생 화면을 표시할 수 있다. 또한, 표시부(250)는 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 해당 서비스를 제공하기 위해 타겟 서버(130)로부터 제공받은 앱의 초기 화면을 표시할 수 있다. 다시 말해, 본원 발명은 음성 신호에 해당하는 서비스에 대한 응답을 도출하기 위해 통합 서버(120)가 타겟 서버(130)에 접근할 수 있는지 여부에 기초하여 해당 서비스를 제 1 서비스 및 제 2 서비스로 구분할 수 있으며, 서비스의 구분 결과에 따라 서로 상이한 서비스 플로우를 제공할 수 있다.

도 3은 본 발명의 일 실시예에 따른 음성 명령에 기반한 서비스를 제공하는 방법을 나타낸 동작 흐름도이다.

도 3에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법은 도 1에 도시된 실시예에 따른 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도1의 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)에 관하여 기술된 내용은 도 3에 도시된 실시예에 따른 음성 명령 기반 서비스 제공 방법에도 적용될 수 있다.

도 3을 참조하면, 단계 S310에서 공용 단말(110)은 사용자로부터 음성 신호를 입력받고, 단계 S320에서 통합 서버(120)로 입력받은 음성 신호를 전송할 수 있다. 여기서, 통합 서버(120)는 통합적인 기능을 수행하는 서버로서, 음성 신호를 인식하여 발화 명령어를 도출하는 음성 인식 서버(121), 발화 명령어에 대응하는 응답을 출력하는 대화 서버(122) 및 발화 명령어에 대응하는 응답을 도출하고, 복수의 서비스 중 도출된 응답에 해당하는 서비스를 검출하는 서비스 관리 서버(123)를 포함하는 서버일 수 있다. 다른 예를 들어, 공용 단말(110)은 입력받은 음성 신호를 직접 인식하여 응답을 도출할 수도 있다. 이 경우, 공용 단말(110)은 도출된 응답을 통합 서버(120)로 전송할 수 있다.

단계 S330에서 통합 서버(120)는 음성 신호가 서비스 판단(예컨대, 타겟 서버와 연동된 서비스)을 요구하는지 체크할 수 있다. 다른 예를 들어, 공용 단말(110)이 입력받은 음성 신호를 직접 인식하여 응답을 도출한 경우, 공용 단말(110)은 응답에 해당하는 서비스를 검출할 수 있다.

단계 S340에서 통합 서버(120)는 단계 S330에서 판단한 결과, 음성 신호가 서비스 판단을 요구하지 않은 경우, 음성 신호의 음성 인식 결과에 대응하는 제어 신호를 공용 단말(110)에게 전송할 수 있다.

단계 S350에서 공용 단말(110)은 수신된 제어 신호에 해당하는 응답을 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.

단계 S360에서 통합 서버(120)는 단계 S330에서 판단한 결과, 음성 신호가 서비스 판단을 요구하는 경우, 음성 신호의 음성 인식 결과로부터 서비스를 도출하고, 단계 S370에서 도출된 서비스를 공용 단말(110)로 전송할 수 있다.

단계 S380에서 통합 서버(120)는 수신된 서비스를 디스플레이 장치(미도시)에 표시하거나 오디오 신호로 출력할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 영상 컨텐츠를 공용 단말(110)과 연결된 디스플레이 장치(미도시)를 통해 표시할 수 있다. 공용 단말(10)은 디스플레이 장치(미도시)에 영상 컨텐츠가 표시되는 동안에 서비스를 제공할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 수신된 제어 신호 또는 서비스에 따라 표시 중인 영상 컨텐츠를 제어할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)를 통해 표시 중인 영상 컨텐츠 위에 오버레이하여 표시할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 수신된 제어 신호에 해당하는 응답 또는 서비스를 디스플레이 장치(미도시)의 화면에 텍스트 형태로 표시할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 영상 컨텐츠가 표시되는 동안에 사용자로부터 음성 신호를 입력받을 수 있다. 이 후, 공용 단말(110)은 입력된 음성 신호로부터 도출된 응답에 따라 영상 컨텐츠를 제어할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 공용 단말(110)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부를 디스플레이 장치(미도시)와 연결된 스피커를 통해 출력할 수 있다. 또한, 공용 단말(110)은 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(110)을 통해 출력할 수 있다.

도 3에는 도시되지 않았으나, 단계 S380 이후에 공용 단말(110)은 공용 단말(110)을 통해 제공되는 오디오 신호 중 영상 컨텐츠에 대응하는 일부 및 오디오 신호 중 서비스에 대응하는 일부를 공용 단말(110)을 통해 출력할 수 있다.

상술한 설명에서, 단계 S310 내지 S380는 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.

도 4는 본 발명의 일 실시예에 따른 통합 서버에 포함된 복수의 서버를 도시한 예시적인 도면이다. 도 4를 참조하면, 통합 서버(120)는 음성 인식 서버(121), 대화 서버(122) 및 서비스 관리 서버(123)를 포함할 수 있다. 다만, 이러한 도 4의 통합 서버(120)는 본 발명의 일 실시예에 불과하므로 도 4를 통해 본 발명이 한정 해석되는 것은 아니며, 본 발명의 다양한 실시예들에 따라 도 4와 다르게 구성될 수도 있다.

대화 서버(122)는 공용 단말(110)을 통해 입력받은 음성 신호(사용자의 음성 명령에 기반한 서비스를 제공받기 위한 음성 질의, 감성 대화 등을 포함)로부터 도출된 명령어를 서비스 관리 서버(123)로부터 수신할 수 있다. 여기서, 명령어는 음성 신호로부터 음성 인식 서버(121)에 의해 도출되고, 서비스 관리 서버(123)로 전송된다.

대화 서버(122)는 서비스 관리 서버(123)로부터 명령어와 함께 공용 단말(110)의 콘텍스트를 수신하고, 공용 단말(110)의 콘텍스트에 기초한 명령어에 대한 사용자의 발화 분석을 서비스 관리 서버(123)로부터 요청받을 수 있다.

다른 예를 들어, 대화 서버(122)는 서비스 관리 서버(123)로부터 명령어를 포함한 사용자의 발화 분석을 요청받은 경우, 서비스 관리 서버(123)에게 공용 단말(110)의 콘텍스트를 요청하고, 서비스 관리 서버(123)로부터 콘텍스트를 추가로 수신할 수 있다.

여기서, 콘텍스트는 명령어에서 누락된 정보를 추론하거나 명령어에 대한 발화 의도를 분석 및 해석하거나, 명령어에 대한 답변을 생성하기 위해 사용되는 정보일 수 있다. 이러한 콘텍스트에는 예를 들면, 공용 단말(110)에 대한 사용자 선호 정보, 명령어 이력 정보, 공용 단말(110)에 대한 기능 사용 빈도 정보, 음성 기반 서비스에 대한 사용자 피드백 정보, 공용 단말(110)에 대한 사용 기간 정보 및 공용 단말(110)에 대한 상황 정보 중 적어도 하나 이상이 포함될 수 있다.

대화 서버(122)는 공용 단말(110)의 콘텍스트에 기초하여 명령어를 해석하고, 명렁어에 대한 사용자의 의도를 분석할 수 있다.

구체적으로, 대화 서버(122)는 콘텍스트에 포함된 사용자 선호 정보에 따라 명령어에서 누락된 정보를 추론 및 보완한 후, 명령어에 대한 문장 해석을 수행하고, 사용자의 의도 분석을 수행할 수 있다. 여기서, 사용자 선호 정보는 예를 들면, 사용자의 거주지 및 근무지 정보, 컨텐츠(예컨대, 뉴스, 음악 등)의 선호 장르 정보 등을 포함할 수 있다. 예를 들면, 대화 서버(122)는 명령어가 장소에 대한 언급없이 날씨 관련 질의(예컨대 '날씨 어때?')만으로 구성된 문장인 경우, 사용자의 거주지 정보에 기초하여 해당 명령어를 사용자가 거주하는 거주지의 날씨 질의(예컨대, '우면동 날씨 어때?')로 해석할 수 있다.

대화 서버(122)는 콘텍스트에 포함된 명령어 이력 정보로부터 이전 명령어를 참조하여 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 대화 서버(122)는 명령어 이력 정보에 날씨 관련된 명령어가 기록되어 있고, 사용자의 현재 명령어에 특정 날짜(예컨대, '모레는?')를 포함하는 정보만이 포함된 경우, 해당 명령어를 특정 날짜의 날씨에 대한 질의(예컨대, '모레 날씨는?')로 해석할 수 있다.

대화 서버(122)는 음성 명령 기반 서비스를 통해 제공 가능한 복수의 기능(예컨대, 공용 단말(110)과 연결된 디스플레이 장치를 통한 미디어 컨텐츠의 재생/추천/변경/검색 기능, 웹 검색 기능, 음성/영상 통화 기능, 공용 단말(110)과 페어링된 IoT 단말의 제어 기능, 공용 단말(110)과 감성 대화, 사용자의 생활 서비스 등의 모든 기능을 포함) 각각에 대해 콘텍스트에 포함된 공용 단말(110)의 기능 사용 빈도 정보에 따라 가중치를 조정함으로써 명령어에 대한 의도 분석을 수행할 수 있다. 예를 들면, 분석부(121)는 공용 단말(110)을 통한 사용자의 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 이용 빈도수가 제 2 기능 서비스(예컨대, 음악 컨텐츠 재생 기능)에 대한 이용 빈도수보다 높은 경우, 제 1 기능 서비스에 제 1 가중치를 부여하고, 제 1 가중치보다 낮은 제 2 가중치를 제 2 기능 서비스에 부여할 수 있다. 예를 들면, 사용자가 발화 명령한 특정 명령어(예컨대, '틀어줘')에 대해서, 대화 서버(122)는 해당 명령어와 연관된 기능 서비스 중 가중치가 높은 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)의 제공을 해당 명령어에 대한 의도로 분석할 수 있다.

대화 서버(122)는 사용자 피드백 정보에 포함된 사용자 응답 패턴에 따라 음성 기반 서비스를 통해 제공 가능한 각 기능에 대해 가중치를 조정하여 명령어에 대한 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(122)는 사용자가 평소 제 1 음성 명령(예컨대, '틀어줘')에 대해서 제 1 기능 서비스(예컨대, VOD 컨텐츠 재생 기능)에 대한 해석의 긍정 응답이 높은 경우, 해당 제 1 기능 서비스에 가중치를 부여할 수 있다. 또한, 대화 서버(122)는 음성 기반 서비스에 대한 각 기능 별 누적된 가중치에 기초하여 사용자의 명령어에 대한 답변을 추론할 수 있다.

대화 서버(122)는 명령어 이력 정보를 이용하여 같은 명령어가 반복된다고 판단한 경우 기존의 답변과 다른 패턴의 답변 추론을 수행할 수 있다. 예를 들면, 대화 서버(122)는 사용자가 동일한 명령어를 반복하여 질의하는 경우, 반복되는 명령어에 대해 사용자의 질문의도를 묻는 답변(예컨대, '왜 자꾸 같은 질문을 하세요')을 추론할 수 있다.

대화 서버(122)는 사용 기간 정보에 따른 시스템 친숙도를 고려하여 명령어에 대한 답변을 생성할 수 있다. 구체적으로, 공용 단말(110)에 대한 사용자의 시스템 친숙도는 사용자의 사용 기간에 비례하므로 대화 서버(122)는 공용 단말(110)에 대한 사용자의 사용 기간이 늘어나면 명령어에 대한 답변에서 불필요한 안내 문구 등을 제거하여 답변 문구를 간결하게 생성할 수 있다. 예를 들면, 분석부 대화 서버(122)는 VOD 재생 기능에 대한 답변으로서 '요청하신 VOD 컨텐츠를 재생합니다'를 'VOD 재생 또는 재생'으로 간결한 답변을 생성할 수 있다.

또한, 대화 서버(122)는 공용 단말(110)의 숙련도에 따라 명령어에 대한 답변을 간결하게 생성할 수 있다.

대화 서버(122)는 상황 정보로부터 공용 단말(110)을 통해 제공 중인 서비스를 참조하여 명령어에 대한 문장 해석을 수행할 수 있다. 여기서, 상황 정보는 예를 들면, 공용 단말(110)을 통해 제공 중인 서비스에 대한 기능 및 상태 정보, 공용 단말(110)를 이용하는 사용자 정보 등을 포함할 수 있다. 서비스에 대한 기능 및 상태 정보에는 예를 들면, 공용 단말(110)의 대기 모드, 음성/영상 통화 여부, 통화 메뉴 정보, OTV 시청 여부, 회의 메뉴 정보, 런처 메인 화면 정보, 런처 서브 화면 정보(예컨대, 설정, 알람, 팝업, 리스트 웹뷰 등), 런처 선택 UI 상태 정보, 컨텐츠 시청 정보, 블루투스 스피커의 사용 여부, 뮤직 컨텐츠의 이용 여부, 캐릭터 정보, USB 뮤직 이용 여부, 인터넷 라디오 이용 여부, TV HDMI 연결 상태 정보, 리모컨 정보, 원거리 음성 입력 정보 등이 포함될 수 있다. 공용 단말(110)을 이용하는 사용자 정보에는 예를 들면, 공용 단말(110) 앞에 존재하는 사용자의 성별, 인원수 정보 등이 포함될 수 있다.

예를 들면, 디스플레이 장치의 화면에 '런처 선택 UI'가 표시된 상태에서 사용자가 특정 번호를 포함하는 명령어를 발화한 경우, 대화 서버(122)는 해당 명령어를 'SELECT'로 해석하거나 '특정 번호의 채널로의 이동'으로 해석할 수 있다.

예를 들면, 사용자가 라디오 서비스(또는 뮤직 서비스)를 이용 중일 때, 사용자로부터 이동 명령어(예컨대, '다음')를 포함하는 음성 신호를 수신한 경우, 대화 서버(122)는 이동 명령어를 '라디오 다음 채널로의 변경'(또는, 뮤직 서비스의 다음 곡으로의 변경)으로 해석할 수 있다.

대화 서버(122)는 공용 단말(110)의 콘텍스트에 기초하여 분석한 명령어에 따라 명령어에 대한 답변을 생성할 수 있다.

대화 서버(122)는 명령어에 대한 답변을 서비스 관리 서버(123) 또는 공용 단말(110)로 전송할 수 있다.

구체적으로, 대화 서버(122)는 명령어에 대한 답변이 서비스 관리 서버(123)에 의한 서비스 판단이 요구되는 경우, 답변을 서비스 관리 서버(123)에게 전송할 수 있다. 이 때, 답변에 기초하여 서비스 관리 서버(123)에 의해 도출된 서비스는 공용 단말(110)에게 제공될 수 있다. 예를 들면, 서비스 관리 서버(123)를 통해 제공되는 서비스는 타겟 서버(130)와 연동이 필요한 서비스로서, 명령어에 대한 답변(명령어 해석 결과)에 해당하는 서비스를 제공하는 타겟 서버(130)와의 연동을 통해 도출된 제 1 서비스일 수 있다. 이 때, 서비스 관리 서버(123)는 명령어에 대한 질의 타입 별 템플릿과 연계된 대상 서비스에 기초하여 명령어에 대한 답변에 해당하는 서비스를 제공할 타겟 서버(130)를 결정하거나 복수의 서비스 모듈을 결정할 수도 있다. 여기서, 명령어에 대한 질의 타입 별 템플릿은 명령어와 관련된 상위 개념에 해당 명령어를 매핑한 매핑 정보이고, 질의 타입별 템플릿과 연계된 대상 서비스는 질의 타입별로 음성 명령의 상황에 맞게 매칭된 기설정된 서비스일 수 있다. 예를 들면, 야구와 관련된 명령어는 스포츠 타입 템플릿으로 매핑될 수 있고, 스포츠 타입 템플릿과 연계된 대상 서비스로는 스포츠 정보 검색 서비스가 될 수 있다.

대화 서버(122)는 명령어에 대한 답변을 공용 단말(110)로 바로 전송할 수 있다. 이 경우, 대화 서버(122)에서 공용 단말(110)로 전송되는 서비스는 타겟 서버(130)와의 연동이 필요 없는 서비스를 포함할 수 있다. 예를 들면, 음성 신호(예컨대, 통화 종료)의 음성 인식 결과인 명령어에 대응하는 대화 응답 문장(예컨대, '통화를 종료합니다')이 음성 명령 기반 서비스로서 공용 단말(110)과 연결된 디스플레이 화면에 표시되거나 공용 단말(110)의 스피커를 통해 출력될 수 있다.

대화 서버(122)는 대화 서버(122) 내부의 각 구성요소들 간에 입력 및 출력되는 데이터를 저장하고, 대화 서버(122)와 대화 서버(122) 외부의 구성요소들 간에 입력 및 출력되는 데이터를 저장할 수 있다. 또한, 대화 서버(122)는 서비스 관리 서버(123)로부터 수신된 콘텍스트를 저장할 수 있다.

서비스 관리 서버(123)는 공용 단말(110)을 통해 입력받은 음성 신호로부터 도출된 명령어를 음성 인식 서버(121)로부터 수신할 수 있다.

서비스 관리 서버(123)는 음성 인식 서버(130)로부터 명령어에 대한 질의 타입 별 템플릿을 수신할 수 있다. 여기서, 명령어에 대한 질의 타입 별 템플릿은 명령어와 관련된 상위 개념에 해당 명령어를 매핑한 매핑 정보로 구성될 수 있고, 질의 타입 별 템플릿 각각은 질의 타입에 대응하는 서비스 별로 분류될 수 있다.

서비스 관리 서버(123)는 공용 단말(110)을 이용하는 사용자의 관련 정보, 공용 단말(110)의 사용 이력 정보 등을 관리 및 저장하는 DB로부터 공용 단말(110)의 콘텍스트를 수집할 수 있다. 여기서, 콘텍스트는 예를 들면, 공용 단말(110)에 대한 사용자 선호 정보, 명령어 이력 정보, 공용 단말(110)에 대한 기능 사용 빈도 정보, 음성 기반 서비스에 대한 사용자 피드백 정보, 공용 단말(110)에 대한 사용 기간 정보 및 공용 단말(110)에 대한 상황 정보 중 적어도 하나를 포함할 수 있다.

예를 들면, 서비스 관리 서버(123)는 대화 이력 DB(미도시)와 연동하여 사용자의 명령어 이력 정보를 조회할 수 있다. 서비스 관리 서버(123)는 사용자 프로파일 DB(미도시)를 통해 사용자 정보(예컨대, 사용자 주소, 사용자 선호 정보 등)을 조회할 수 있다.

서비스 관리 서버(123)는 음성 인식 서버(121)로부터 수신된 명령어를 대화 서버(122)에게 전송하여 발화 해석을 요청할 수 있다. 또는, 서비스 관리 서버(123)는 명령어에 대한 발화 해석을 요청할 때, 명령어와 함께 공용 단말(110)의 콘텍스트를 대화 서버(122)에게 전송할 수 있다. 또한, 서비스 관리 서버(123)는 음성 인식 서버(121)로부터 수신된 명령어에 대해 발화 해석이 요구되는지 판단하여 판단 결과에 따라 대화 서버(122)에게 발화 분석을 요청할 수 있다.

다른 예로, 서비스 관리 서버(123)는 대화 서버(122)로부터 발화 해석에 요구되는 공용 단말(110)의 콘텍스트의 전송을 요청받은 경우에, 공용 단말(110)의 콘텍스트를 수집하여 대화 서버(122)에게 전송할 수 있다.

서비스 관리 서버(123)는 질의 타입 별 템플릿 각각을 질의 타입 별 템플릿과 관련된 대상 서비스와 연계하여 관리할 수 있다. 예를 들면, 서비스 관리 서버(123)는 주소록 템플릿을 주소록 인명 교정 검색 서비스와 연계하여 관리하고, 미디어 템플릿을 미디어 정보 검색/추천 서비스와 연계하여 관리하고, 날씨 템플릿을 날씨 정보 검색 서비스와 연계하여 관리하고, IoT 템플릿을 IoT 제어 서비스와 연계하여 관리할 수 있다.

서비스 관리 서버(123)는 대화 서버(122)로부터 수신된 음성 신호의 해석 결과에 대해 서비스 관리 서버(123)에 의한 서비스 판단이 요구되는 경우, 해석 결과 및 공용 단말(110)의 콘텍스트에 기초하여 서비스를 도출하고, 도출된 서비스를 공용 단말(110)에게 제공할 수 있다. 서비스 관리 서버(123)는 서비스 관리 서버(123)에 의한 서비스 판단이 요구되지 않는 경우, 해석 결과를 공용 단말(110)에게 전송할 수 있다.

서비스 관리 서버(123)는 공용 단말(110)의 콘텍스트에 기초하여 대화 서버(122)에 의해 분석된 명령어에 대한 해석 결과를 대화 서버(122)로부터 수신하고, 해석 결과에 기초하여 서비스를 공용 단말(110)에게 제공할 수 있다.

서비스 관리 서버(123)는 명령어에 대한 해석 결과가 타겟 서버(130)와의 연동이 필요한 서비스인 경우, 타겟 서버(130)와 연동하여 해석 결과에 대응하는 서비스가 제 1 서비스 또는 제 2 서비스인지를 도출하고, 도출된 제 1 서비스에 대한 상세 요청 명령어 또는 도출된 제 2 서비스에 대한 호출 명령어를 공용 단말(110)에게 제공할 수 있다. 여기서, 타겟 서버(130)의 연동 필요 유무는 명령어에 대한 질의 타입 별 템플릿과 연계된 대상 서비스에 기초하여 결정될 수 있다. 예를 들면, 서비스 관리 서버(123)는 '환율 정보 조회'의 경우, 타겟 서버(130) 중 제 3 서비스 서버(133)의 검색 서버를 통해 조회한 후, 공용 단말(110)에게 환율 정보의 조회 결과를 텍스트 정보로 응답할 수 있다.

서비스 관리 서버(123)는 사용자의 일상과 관련된 명령어에 대한 해석 결과(예컨대, '교통(대중교통 정보, 내비 정보, 택시 호출 등) 조회', '음식 배달', 등)의 경우, 각각의 해석 결과에 해당하는 서비스를 제공하는 타겟 서버(130)와 기등록된 사용자의 정보(예컨대, 등록된 공용 단말(110)의 위치 정보, 사용자의 선호 정보, 등록된 사용자의 거주지/근무지 주소, 등록된 정류장 정보 등)를 이용하여 서비스를 도출할 수 있다.

예를 들면, 서비스 관리 서버(123)는 명령어에 대한 해석 결과가 '뉴스 정보 조회'인 경우, 기등록된 사용자가 선호하는 뉴스 채널을 조회하고, 조회된 뉴스 채널에서 제공하는 뉴스 정보(예컨대, VOD 영상 컨텐츠의 URL 링크 형식으로 구성된 정보)를 타겟 서버(130)에게 요청하여 공용 단말(110)에게 제공할 수 있다. 이 때, 통합 서버(120)가 타겟 서버(130)와 접근할 수 있는 경우, 즉, 연동된 경우, 서비스 관리 서버(123)는 뉴스 정보에 대한 VOD 영상과 같은 상세 서비스를 타겟 서버(130)에게 요청하여 공용 단말(110)에게 제공할 수 있다. 또는, 통합 서버(120)가 타겟 서버(130)에게 접근할 수 없는 경우, 즉, 연동되지 않은 경우, 서비스 관리 서버(123)는 공용 단말(110)에 설치된 뉴스 앱을 호출하기 위한 호출 명령어를 공용 단말(110)에게 제공할 수 있다.

예를 들면, 서비스 관리 서버(123)는 명령어에 대한 해석 결과가 '날씨 정보 조회'인 경우, 명령어로부터 날씨 조회 지역을 확인할 수 있다. 만일, 해당 명령어에 날씨 조회 지역이 확인되지 않은 경우, 서비스 관리 서버(123)는 내부 서비스 제공 서버를 통해 기등록된 공용 단말(110)의 위치 정보를 제공받을 수 있다. 만일, 내부 서비스 제공 서버에도 공용 단말(110)의 위치 정보가 등록되어 있지 않은 경우, 서비스 관리 서버(123)는 공용 단말(110)에게 위치 정보를 요청할 수도 있다. 이후, 서비스 관리 서버(123)는 타겟 서버(130)에 포함된 날씨 정보를 제공하는 서버에게 공용 단말(110)가 위치한 지역에 대한 날씨 정보 조회 서비스를 요청할 수 있다.

서비스 관리 서버(123)는 명령어에 대한 해석 결과가 타겟 서버(130)와의 연동을 필요로 하지 않는 경우, 복수의 내부 서비스 모듈(질의 타입 별 템플릿과 연계된 대상 서비스를 제공하는 모듈) 중 해당 해석 결과에 해당하는 서비스 모듈을 통해 서비스를 공용 단말(110)에게 제공할 수도 있다.

예를 들면, 서비스 관리 서버(123)는 시간 관련 질의(예컨대, '지금 몇시?')에 대해서 제 1 내부 서비스 모듈을 통해 날짜/시간 정보(예컨대, '지금 00시 00분 입니다')를 공용 단말(110)에게 제공하고, 사용자의 스케줄 관련 질의에 대해서 서비스 모듈을 통해 일정 조회/추가/삭제 서비스를 공용 단말(110)에게 제공할 수 있다.

서비스 관리 서버(123)는 복수의 내부 서비스 제공 서버(미도시) 중에서 해당 해석 결과에 해당하는 서비스를 제공하는 서버를 통해 서비스를 공용 단말(110)에게 제공할 수도 있다.

서비스 관리 서버(123)는 공용 단말(110)과 페어링된 사용자 단말(125)과 연계하여 공용 단말(110)을 제어하거나 모니터링할 수 있다. 예를 들면, 서비스 관리 서버(123)는 공용 단말(110)을 제어하는 어플리케이션이 설치된 사용자 단말(125)을 이용하여 공용 단말(110)의 구동 상태를 모니터링할 수 있다. 또한, 서비스 관리 서버(123)는 공용 단말(110)에서 제공되는 서비스의 선택 정보를 사용자 단말(125)로부터 수신하여 선택 정보에 대응되는 모듈을 공용 단말(110)을 통해 구동시킬 수 있다. 또한, 서비스 관리 서버(123)는 공용 단말(110)에서 현재 제공 중인 서비스 정보를 사용자 단말(125)에게 제공할 수도 있다.

서비스 관리 서버(123)는 명령어에 대한 해석 결과에 따라 도출된 서비스를 공용 단말(110)을 통해 출력 중인 미디어 서비스와 연동하여 제공할 수 있다. 예를 들면, 서비스 관리 서버(123)는 공용 단말(110)과 연결된 디스플레이 장치의 화면으로 서비스를 출력할 수 있다.

DB(미도시)는 서비스 관리 서버(123) 내부의 각 구성요소들 간에 입력 및 출력되는 데이터를 저장하고, 서비스 관리 서버(123)와 서비스 관리 서버(123) 외부의 구성요소들간에 입력 및 출력되는 데이터를 저장한다. 또한, DB는 질의 타입 별 템플릿과 연계된 대상 서비스를 제공하는 복수의 모듈을 저장할 수 있다. 예를 들면, DB는 사용자 프로필 모듈, 도량형/계산기 모듈, 미디어 정보 모듈, 미디어 추천모듈, 지도 정보 모듈, 지도 검색 모듈, 택시정보모듈, 대중교통정보모듈, IoT 기기연동모듈, 증권/환율 모듈, 뉴스정보모듈, 지식검색모듈(SparQL, DBpedia), 지식정보모듈(용어사전, 백과사전 기능 탑재), 대화DB, 써드파티모듈(연동프로토콜, 연동정보 저장) 등을 포함할 수 있다.

한편, 음성 인식 서버(121), 대화 서버(122) 및 서비스 관리 서버(123)에 해당하는 서버단을 통해 처리되는 기술적 특징은 공용 단말(110)을 통해서도 구현될 수 있다. 또한, 음성 인식 서버(121), 대화 서버(122) 및 서비스 관리 서버(123)를 통해 구현되는 기술적 특징은 각 기술적 특징을 모듈로서 구성하고 있는 하나의 서버로 구현될 수 있다.

도 5는 본 발명의 일 실시예에 따른 통합 서버의 구성도이다. 도 5를 참조하면, 통합 서버(120)는 수신부(510), 판단부(520), 응답 도출부(530), 전송부(540)를 포함할 수 있다.

수신부(510)는 공용 단말(110)로부터 음성 신호를 수신할 수 있다. 예를 들어, 수신부(510)는 음성 인식 서버(121)로부터 명령어에 대한 질의 타입 별 템플릿을 수신할 수 있다. 여기서, 명령어에 대한 질의 타입 별 템플릿은 명령어와 관련된 상위 개념에 해당 명령어를 매핑한 매핑 정보로 구성될 수 있고, 질의 타입 별 템플릿 각각은 질의 타입에 대응하는 서비스 별로 분류될 수 있다.

판단부(520)는 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다. 이 때, 판단부(520)는 통합 서버(120)가 타겟 서버(130)로의 접근 가능한지 여부에 따라 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지를 판단할 수 있다.

예를 들어, 판단부(520)는 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 있는 경우, 음성 신호에 해당하는 서비스를 제 1 서비스로 판단할 수 있다. 또는, 판단부(520)는 통합 서버(120)가 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)에 접근할 수 없는 경우, 음성 신호에 해당하는 서비스를 제 2 서비스로 판단할 수 있다.

응답 도출부(530)는 판단 결과에 기초하여 음성 신호에 대한 응답을 도출할 수 있다.

예를 들어, 응답 도출부(530)는 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 음성 신호에 기초하여 서비스를 수행하기 위한 상세 요청 명령어를 도출할 수 있다. 이 때, 음답 도출부(530)는 타겟 서버(130)와 연동하여 상세 요청 명령어를 도출할 수 있다. 또는, 응답 도출부(530)는 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 도출할 수 있다.

전송부(540)는 도출된 응답을 공용 단말(110)로 전송할 수 있다. 예를 들어, 음성 신호에 해당하는 서비스가 제 1 서비스로 판단된 경우, 전송부(540)는 상세 요청 명령어를 공용 단말(110)로 전송할 수 있다. 상세 요청 명령어는 공용 단말(110)이 타겟 서버(130)로부터 서비스를 통해 제공되는 상세 서비스를 수신하도록 하는 것일 수 있다. 다른 예를 들어, 음성 신호에 해당하는 서비스가 제 2 서비스로 판단된 경우, 전송부(540)는 호출 명령어를 공용 단말(110)로 전송할 수 있다. 호출 명령어는 공용 단말(110)에 기설치된 앱을 호출하여 공용 단말(110)이 타겟 서버(130)로부터 서비스를 수신하도록 하는 것일 수 있다.

도 6은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템에서 음성 신호에 해당하는 서비스를 제 1 서비스로 판단하여 제공하는 과정을 도시한 동작흐름도이다. 음성 명령 기반 서비스 제공 시스템(1)은 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)를 포함할 수 있다.

공용 단말(110)은 사용자로부터 음성 신호를 입력받으면(S610), 입력받은 음성 신호를 통합 서버(120)로 전송할 수 있다(S620).

통합 서버(120)는 수신한 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다(S630).

통합 서버(120)는 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)와 연동된 경우(S640), 타겟 서버(130)와 연동됨으로써 음성 신호에 해당하는 서비스를 제 1 서비스로 판단하고, 음성 신호에 기초하여 서비스를 수행하기 위한 상세 요청 명령어를 도출할 수 있다(S650).

통합 서버(120)는 상세 요청 명령어를 공용 단말(110)로 전송할 수 있다(S660).

공용 단말(110)은 상세 요청 명령어에 기초하여 서비스를 통해 제공되는 상세 서비스를 타겟 서버(130)로 요청하면(S670), 타겟 서버(130)는 상세 서비스를 공용 단말(110)로 제공할 수 있다(S680).

공용 단말(110)은 상세 서비스를 표시할 수 있다(S690).

상술한 설명에서, 단계 S610 내지 S690은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 7은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스 제공 시스템에서 음성 신호에 해당하는 서비스를 제 2 서비스로 판단하여 제공하는 과정을 도시한 동작흐름도이다. 음성 명령 기반 서비스 제공 시스템(1)은 공용 단말(110), 통합 서버(120) 및 타겟 서버(130)를 포함할 수 있다.

공용 단말(110)은 사용자로부터 음성 신호를 입력받으면(S710), 입력받은 음성 신호를 통합 서버(120)로 전송할 수 있다(S720).

통합 서버(120)는 수신한 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다(S730).

통합 서버(120)는 음성 신호에 해당하는 서비스를 제공하는 타겟 서버(130)와 연동되지 않은 경우(S740), 타겟 서버(130)와 연동되지 않음으로써 음성 신호에 해당하는 서비스를 제 2 서비스로 판단하고, 음성 신호에 기초하여 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 도출할 수 있다(S750).

통합 서버(120)는 도출된 호출 명령어를 공용 단말(110)로 전송할 수 있다(S760).

공용 단말(110)은 호출 명령어에 기초하여 기설치된 앱을 호출하여 서비스를 타겟 서버(130)로 요청하고(S770), 타겟 서버(130)는 요청받은 서비스를 공용 단말(110)로 제공할 수 있다(S780).

공용 단말(110)은 서비스를 제공하기 위해 앱의 초기 화면을 표시할 수 있다(S790).

상술한 설명에서, 단계 S710 내지 S790은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 8a 및 도 8b는 본 발명의 일 실시예에 따른 음성 명령에 기반한 서비스를 설명하기 위한 예시적인 도면이다.

도 8a는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 제 1 서비스로 판단된 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 8a를 참조하면, 통합 서버(120)는 공용 단말(110)이 사용자로부터 음성 신호(예를 들어, 영화보고 싶어')를 수신한 경우, 음성 신호로부터 도출된 명령어를 분석할 수 있다.

예를 들어, 통합 서버(120)는 대화 서버(122)에게 해당 명령어를 전송하여 발화 해석을 요청하고, 대화 서버(122)에서 수행된 명령어에 대한 발화 해석을 대화 서버(122)로부터 수신할 수 있다.

타겟 서버(130)와의 연동 여부에 따라 대화 서버(122)로부터 수신된 발화 해석된 명령어에 해당하는 서비스(예를 들어, 영화 서비스)가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다. 예를 들어, 음성 신호에 해당하는 서비스가 제 1 서비스에 해당하는 경우, 통합 서버(120)는 발화 해석된 명령어에 기초하여 발화 명령어에 대응하는 응답(예를 들어, "재미있는 영화 추천해드릴까요? 황정민이 출연한 영화 어떠세요?")을 공용 단말(110)에게 전송하여 공용 단말(110)의 스피커를 통해 출력시킬 수 있다.

이후, 통합 서버(120)가 공용 단말(110)을 통해 사용자로부터 영화 추천에 대한 긍정적인 답변을 수신하면, 통합 서버(120)는 타겟 서버(130)와 연동하여 해당 서비스를 수행하기 위한 상세 요청 명령어를 도출하고, 도출된 상세 요청 명령어를 공용 단말(110)로 전송할 수 있다.

공용 단말(110)은 수신한 상세 요청 명령어에 기초하여 타겟 서버(130)로부터 서비스를 통해 제공되는 상세 서비스(예를 들어, 황정민이 출연한 영화 리스트)를 수신하여, 공용 단말(110)과 연결된 디스플레이 장치(미도시)의 화면으로 출력시킬 수 있다.

도 8b는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 제 2 서비스로 판단된 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 8b를 참조하면, 통합 서버(120)는 공용 단말(110)이 사용자로부터 음성 신호(예를 들어, 'KT 주가는?')를 수신한 경우, 음성 신호로부터 도출된 명령어를 분석할 수 있다.

이후, 통합 서버(120)는 타겟 서버(130)와의 연동 여부에 따라 대화 서버(122)로부터 수신된 발화 해석된 명령어에 해당하는 서비스(예를 들어, 증권 서비스)가 제 1 서비스 또는 제 2 서비스인지 여부를 판단할 수 있다. 예를 들어, 음성 신호에 해당하는 서비스가 타겟 서버(130)와 연동되지 않는 제 2 서비스에 해당하는 경우, 통합 서버(120)는 음성 신호에 해당하는 서비스를 제공하는 앱(예를 들어, 증권 앱)을 호출하기 위한 호출 명령어를 도출하여 공용 단말(110)로 전송할 수 있다.

공용 단말(110)은 기설치된 앱(예를 들어, 증권 앱)을 호출하여 공용 단말(110)과 연결된 디스플레이 장치(미도시)의 화면을 통해 앱의 초기 화면을 출력시키고, 호출된 앱을 통해 타겟 서버(130)로부터 해당 서비스(예를 들어, KT 주가)를 수신하여 디스플레이 장치(미도시)를 통해 화면으로 출력시킬 수 있다.

도 1 내지 도 8b를 통해 설명된 통합 서버 및 공용 단말에서 음성 신호에 기반하여 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 8b를 통해 설명된 통합 서버 및 공용 단말에서 음성 신호에 기반하여 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 공용 단말
120: 통합 서버
130: 타겟 서버
201: MIC 제어부
202: 카메라 제어 모듈
203: 스피커 모듈
204: IPTV 모듈
205: 커뮤니케이션 모듈
210: 입력부
220: 전송부
230: 수신부
240: 서비스 제공부
250: 표시부
121: 음성 인식 서버
122: 대화 서버
123: 서비스 관리 서버
510: 수신부
520: 판단부
530: 응답 도출부
540: 전송부

Claims

음성 신호에 기반하여 서비스를 제공하는 통합 서버에 있어서,
공용 단말로부터 음성 신호를 수신하는 수신부;
상기 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단하는 판단부;
판단 결과에 기초하여 상기 음성 신호에 대한 응답을 도출하는 응답 도출부; 및
상기 도출된 응답을 상기 공용 단말로 전송하는 전송부
를 포함하는 것이되,
상기 판단부는 상기 통합 서버가 상기 음성 신호에 해당하는 서비스를 제공하는 타겟 서버로 접근 가능한지 여부에 기초하여 상기 서비스를 상기 제 1 서비스 또는 상기 제 2 서비스 중 어느 하나로 판단하고,
상기 응답 도출부는 상기 음성 신호에 해당하는 서비스가 상기 제 1 서비스로 판단된 경우, 상기 음성 신호에 기초하여 상기 서비스를 수행하기 위한 상세 요청 명령어를 도출하는 것인, 통합 서버.
제 1 항에 있어서,
상기 판단부는 상기 통합 서버가 상기 음성 신호에 해당하는 서비스를 제공하는 타겟 서버에 접근할 수 있는 경우 상기 음성 신호에 해당하는 서비스를 상기 제 1 서비스로 판단하는 것인, 통합 서버.
삭제
제 1 항에 있어서,
상기 응답 도출부는 상기 타겟 서버와 연동하여 상기 상세 요청 명령어를 도출하는 것인, 통합 서버.
제 1 항에 있어서,
상기 전송부는 상기 상세 요청 명령어를 상기 공용 단말로 전송하고,
상기 상세 요청 명령어는 상기 공용 단말이 상기 타겟 서버로부터 상기 서비스를 통해 제공되는 상세 서비스를 수신하도록 하는 것인, 통합 서버.
제 1 항에 있어서,
상기 판단부는 상기 통합 서버가 상기 음성 신호에 해당하는 서비스를 제공하는 타겟 서버에 접근할 수 없는 경우 상기 음성 신호에 해당하는 서비스를 상기 제 2 서비스로 판단하는 것인, 통합 서버.
제 6 항에 있어서,
상기 응답 도출부는 상기 음성 신호에 해당하는 서비스가 상기 제 2 서비스로 판단된 경우, 상기 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 도출하는 것인, 통합 서버.
제 7 항에 있어서,
상기 전송부는 상기 호출 명령어를 상기 공용 단말로 전송하고,
상기 호출 명령어는 상기 공용 단말에 기설치된 상기 앱을 호출하여 상기 공용 단말이 상기 타겟 서버로부터 상기 서비스를 수신하도록 하는 것인, 통합 서버.
음성 신호에 기반하여 서비스를 제공하는 공용 단말에 있어서,
사용자로부터 음성 신호를 입력받는 입력부;
상기 입력받은 음성 신호를 통합 서버로 전송하는 전송부;
상기 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부에 대한 판단에 기초하여 상기 통합 서버로부터 도출된 상기 음성 신호에 대한 응답을 수신하는 수신부; 및
상기 수신된 응답에 따라 상기 서비스를 제공하는 서비스 제공부
를 포함하는 것이되,
상기 서비스는 상기 통합 서버가 상기 음성 신호에 해당하는 서비스를 제공하는 타겟 서버로 접근 가능한지 여부에 기초하여 상기 제 1 서비스 또는 상기 제 2 서비스 중 어느 하나로 판단되고,
상기 음성 신호에 해당하는 서비스가 상기 제 1 서비스로 판단된 경우, 상기 음성 신호에 기초하여 상기 서비스를 수행하기 위한 상세 요청 명령어가 상기 통합 서버에 의해 도출되는 것인, 공용 단말.
삭제
제 9 항에 있어서,
상기 서비스 제공부는 상기 상세 요청 명령어에 기초하여 상기 서비스를 통해 제공되는 상세 서비스를 상기 타겟 서버로부터 제공받는 것인, 공용 단말.
제 11 항에 있어서,
상기 서비스를 제공하기 위해 상기 제공받은 상세 서비스를 표시하는 표시부
를 더 포함하는 것인, 공용 단말.
제 9 항에 있어서,
상기 수신부는 상기 음성 신호에 해당하는 서비스가 상기 제 2 서비스로 판단된 경우, 상기 음성 신호에 해당하는 서비스를 제공하는 앱을 호출하기 위한 호출 명령어를 상기 통합 서버로부터 수신하는 것인, 공용 단말.
제 13 항에 있어서,
상기 서비스 제공부는 상기 호출 명령어에 기초하여 상기 공용 단말에 기설치된 상기 앱을 호출하여 상기 타겟 서버로부터 상기 서비스를 제공받는 것인, 공용 단말.
제 14 항에 있어서,
상기 서비스를 제공하기 위해 상기 앱의 초기 화면을 표시하는 표시부
를 더 포함하는 것인, 공용 단말.
통합 서버에서 음성 신호에 기반하여 서비스를 제공하는 방법에 있어서,
공용 단말로부터 음성 신호를 수신하는 단계;
상기 수신된 음성 신호에 해당하는 서비스가 제 1 서비스 또는 제 2 서비스인지 여부를 판단하는 단계;
판단 결과에 기초하여 상기 음성 신호에 대한 응답을 도출하는 응답 단계; 및
상기 도출된 응답을 상기 공용 단말로 전송하는 단계
를 포함하는 것이되,
상기 판단하는 단계는,
상기 통합 서버가 상기 음성 신호에 해당하는 서비스를 제공하는 타겟 서버로 접근 가능한지 여부에 기초하여 상기 서비스를 상기 제 1 서비스 또는 상기 제 2 서비스 중 어느 하나로 판단하는 단계를 포함하고,
상기 음성 신호에 해당하는 서비스가 상기 제 1 서비스로 판단된 경우, 상기 음성 신호에 기초하여 상기 서비스를 수행하기 위한 상세 요청 명령어를 도출하는 단계를 더 포함하는 것인, 서비스 제공 방법.