KR101889278B1

KR101889278B1 - 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말

Info

Publication number: KR101889278B1
Application number: KR1020170051761A
Authority: KR
Inventors: 백송이; 이주현; 곽은경
Original assignee: 주식회사 케이티
Priority date: 2017-01-16
Filing date: 2017-04-21
Publication date: 2018-08-21
Also published as: KR20180084582A; KR20180091798A

Abstract

음성 명령에 기반하여 서비스를 제공하는 공용 단말은 음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부, 상기 공용 단말과 연결된 디스플레이 장치를 통해 시각 기반 서비스를 제공하는 제 1 모드 제공부 및 상기 음성 신호 입출력부를 통해 음성 기반 서비스를 제공하는 제 2 모드 제공부를 포함하고, 상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 입력받은 음성 신호 또는 상기 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력한다.

Description

음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말{PUBLIC DEVICE AND METHOD FOR PROVIDING SERVICE IN RESPONSE TO VOICE COMMAND, AND PUBLIC DEVICE FOR PROVIDING MOVING CHARACTER IN RESPONSE TO VOICE COMMAND}

본 발명은 음성 명령에 기반하여 서비스를 제공하는 공용 단말 및 방법, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말을 제공하는 방법에 관한 것이다.

지능형 개인 비서는 사용자가 요구하는 작업을 처리하고, 사용자에게 특화된 서비스를 제공하는 소프트웨어 에이전트이다. 지능형 개인 비서는 인공 지능(AI) 엔진과 음성 인식을 기반으로 사용자에게 맞춤 정보를 수집하여 제공하고, 사용자의 음성 명령에 따라 일정 관리, 이메일 전송, 식당 예약 등 여러 기능을 수행하는 점에서 사용자의 편의성을 향상시키는 장점을 갖는다.

이러한 지능형 개인 비서는 주로 스마트폰에서 맞춤형 개인 서비스로 제공되고 있으며, 대표적으로 애플의 시리(siri), 구글의 나우(now), 삼성의 S 보이스 등이 이에 포함된다. 이와 관련하여, 선행기술인 한국공개특허 제 2016-0071111호는 전자 장치에서의 개인 비서 서비스 제공 방법을 개시하고 있다.

최근에는 다양한 미디어 장치를 통해서도 지능형 개인 비서가 제공되고 있다. 그러나 지능형 개인 비서가 사용자로부터 인식된 음성에 대한 음성 응답만을 제시하기 때문에 사용자는 오로지 음성 응답에만 의존해야 하는 불편함이 있다. 또한, 지능형 개인 비서를 이용하여 대화를 나누고자 하는 경우, 사용자는 보이지 않는 상대와 혼자 대화를 나누고 있다는 느낌을 받게 된다.

공용 단말로 입력된 사용자의 음성 명령을 분석하고, 분석된 음성 명령에 기초하여 이에 대응되는 질의 결과를 공용 단말 또는 디스플레이 장치를 통해 서비스 형태로 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공하고자 한다. 사용자의 음성 명령에 따라 캐릭터의 의상, 표정 및 동작 애니메이션을 다르게 재생하는 서비스를 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공하고자 한다. 서비스의 포커스에 대응하는 캐릭터와 사용자와 음성 질의 및 응답이 가능한 캐릭터를 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공하고자 한다. 캐릭터의 기분 또는 감정 상태에 따라 다양한 답변을 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공하고자 한다. 또한, 공용 단말의 동작을 제어할 수 있는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부, 상기 공용 단말과 연결된 디스플레이 장치를 통해 시각 기반 서비스를 제공하는 제 1 모드 제공부 및 상기 음성 신호 입출력부를 통해 음성 기반 서비스를 제공하는 제 2 모드 제공부를 포함하고, 상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 입력받은 음성 신호 또는 상기 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력하는 공용 단말을 제공할 수 있다.

본 발명의 다른 실시예는, 음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부, 공용 단말과 연결된 디스플레이 장치를 통해 시각 기반 서비스를 제공하는 제 1 모드 제공부 및 상기 음성 신호 입출력부를 통해 음성 기반 서비스를 제공하는 제 2 모드 제공부를 포함하고, 상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 디스플레이 장치의 상태에 따라 영상 신호와 음성 신호를 선택적으로 출력하는 공용 단말을 제공할 수 있다.

본 발명의 또 다른 실시예는, 공용 단말과 연동된 디스플레이의 상태에 따라 캐릭터를 표시하는 캐릭터 표시부, 음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부 및 상기 입력된 음성 신호 또는 상기 응답에 따라 상기 표시된 캐릭터가 변형 또는 동작하도록 제어하는 캐릭터 제어부를 포함하고, 상기 공용 단말은 상기 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 상기 캐릭터의 표시 형태를 제어하면서 상기 영상 컨텐츠를 표시하는 공용 단말을 제공할 수 있다.

본 발명의 또 다른 실시예는, 음성 신호를 입력받는 단계, 상기 입력받은 음성 신호에 대한 응답을 서버로부터 수신하거나 상기 입력받은 음성 신호에 기초하여 응답을 생성하는 단계 및 상기 수신된 응답에 기초하여 상기 제 1 모드 및 상기 제 2 모드를 선택적으로 제어하는 단계를 포함하는 것인 음성 기반 서비스 제공 방법을 제공할 수 있다.

본 발명의 또 다른 실시예는, 음성 신호를 입력받는 단계, 상기 입력받은 음성 신호에 대한 응답을 서버로부터 수신하거나 상기 입력받은 음성 신호에 기초하여 응답을 생성하는 단계 및 상기 공용 단말과 연결된 디스플레이 장치의 상태에 기초하여 상기 제 1 모드 및 상기 제 2 모드를 선택적으로 제어하는 단계를 포함하는 음성 기반 서비스 제공 방법을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 공용 단말로 입력된 사용자의 음성 명령을 분석하고, 분석된 음성 명령에 기초하여 이에 대응되는 질의 결과를 공용 단말 또는 디스플레이 장치를 통해 서비스 형태로 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공할 수 있다. 사용자의 음성 명령에 따라 캐릭터의 의상, 표정 및 동작 애니메이션을 다르게 재생하는 서비스를 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공할 수 있다. 서비스의 포커스에 대응하는 캐릭터와 사용자와 음성 질의 및 응답이 가능한 캐릭터를 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공할 수 있다. 캐릭터의 기분 또는 감정 상태에 따라 다양한 답변을 제공하는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공할 수 있다. 또한, 공용 단말의 동작을 제어할 수 있는 공용 단말 및 음성 신호 기반 서비스 제공 방법을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 기반 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다.
도 3은 본 발명의 일 실시예에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법의 순서도이다.
도 4는 본 발명의 다른 실시예에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법의 순서도이다.
도 5는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다.
도 6은 본 발명의 일 실시예에 따른 공용 단말에서 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 방법의 순서도이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 동작하는 캐릭터를 도시한 예시적인 도면이다.
도 8은 본 발명의 일 실시예에 따른 캐릭터가 적용된 음성 명령에 기반하여 제공되는 서비스의 로딩 화면을 도시한 예시적인 도면이다.
도 9a 내지 도 9d는 본 발명의 일 실시예에 따른 음성 멍령에 기반하여 동작하는 캐릭터가 적용된 서비스의 메인 화면을 도시한 예시적인 도면이다.
도 10a 내지 10n은 본 발명의 일 실시예에 따른 이벤트에 따라 캐릭터의 의상, 표정 및 애니메이션 동작이 변경되고, 변경된 캐릭터가 음성 명령 기반 서비스에 적용된 화면을 도시한 예시적인 도면이다.
도 11a 내지 도 11l은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스에서 리모트 컨트롤러의 포커스 위치에 따라 캐릭터가 적용된 화면을 도시한 예시적인 도면이다.
도 12a 내지 도 12i는 본 발명의 일 실시예에 따른 사용자의 음성 질의에 대한 캐릭터의 반응을 도시한 예시적인 도면이다. 이 때, 캐릭터는 휴먼형 캐릭터인 지니 캐릭터일 수 있다.
도 13은 본 발명의 일 실시예에 따른 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법의 순서도이다.
도 14는 본 발명의 다른 실시예에 따른 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 기반 서비스 제공 시스템의 구성도이다. 도 1을 참조하면, 음성 기반 서비스 제공 시스템(1)은 서버(110), 공용 단말(120), 디스플레이 장치(130) 및 사용자 단말(140)를 포함할 수 있다. 서버(110), 공용 단말(120), 디스플레이 장치(130) 및 사용자 단말(140)는 음성 기반 서비스 제공 시스템(1)에 의하여 제어될 수 있는 구성요소들을 예시적으로 도시한 것이다.

도 1의 음성 기반 서비스 제공 시스템(1)의 각 구성요소들은 일반적으로 네트워크(network)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 공용 단말(120)은 서버(110) 또는 디스플레이 장치(130)와 동시에 또는 시간 간격을 두고 연결될 수 있다.

네트워크는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.

서버(110)는 STT(Speech to Text) 서버(111), 대화 서버(112), 서비스 관리 서버(113), 가입자 관리 서버(114), 웹 서버(115) 등을 포함할 수 있다.

STT 서버(111)는 음성 인식 서버로, 공용 단말(120)로부터 음성 신호를 전달받고, 해당 음성 신호를 텍스트로 변환함으로써, 음성을 인식할 수 있다.

대화 서버(112)는 공용 단말(120)에 입력된 음성 명령을 분석할 수 있다. 대화 서버는 STT 서버(111)에서 변환한 텍스트와 함께 단말의 상태 정보(어떤 서비스가 실행 중인지 또는 단말 앞에 있는 사용자가 누구인지 등)를 판단할 수 있다. 또한, 대화 서버(112)는 대화 이력 데이터베이스와 연동하여 사용자의 이전 대화 이력을 조회할 수 있다. 또한, 대화 서버(112)는 웹 서버(115)를 통해 질의어 요청을 수신할 수 있다. 또한, 대화 서버(112)는 서비스 관리 서버(113)로부터 변환한 텍스트, 단말의 상태 정보, 이전 대화 이력을 전달받아 사용자의 발화 해석을 요청받을 수 있다. 또한, 대화 서버(112)는 대화 이력 데이터베이스를 통해 사용자 정보(예컨대, 사용자 주소, 사용자 선호도 등)를 조회할 수 있다. 또한, 대화 서버(112)는 사용자의 발화 해석 결과에 따라 서드 파티(3^rd-party) 서비스에게 외부 서비스 조회를 요청할 수 있다. 또한, 대화 서버(112)는 사용자의 발화 해석 결과에 따라 통합 추천 서버에게 추천을 요청할 수 있으며, 통합 추천 서버는 검색 서버, 추천 서버 등의 외부 서버로부터 추천된 컨텐츠를 수신하여 서비스 관리 서버(113)로 전달할 수 있다. 또한, 대화 서버(112)는 사용자의 발화 해석 결과에 따라 교정 서버에게 주소록 인명 교정 검색을 요청할 수 있다. 예를 들어, 사용자가 주소록에 존재하지 않는 이름을 발화한 경우, 대화 서버(112)는 교정 서버로 발화한 이름과 유사한 주소록에 존재하는 이름으로 교정하여 검색하고, 검색 결과를 서비스 관리 서버(113)로 전달할 수 있다. 이 경우, 대화 서버(112)는 발화 해석 결과에 따라 도출된 서비스를 공용 단말(120)로 제공할 수 있다.

서비스 관리 서버(113)는 대화 서버(112)에서 분석된 음성 신호에 대한 질의 결과를 공용 단말(120)로 전송할 수 있다. 또한, 대화 서버(112)에서 해석된 발화에 대응하는 서비스를 공용 단말(120)로 제공할 수 있다. 서비스 관리 서버(113)는 공용 단말(120)의 요청을 확인하고, 공용 단말(120)에게 음악 토큰을 전달하거나, 세션토큰을 발급 및 관리할 수 있다. 서비스 관리 서버(113)는 사용자 단말(140)의 컴패니언(Companion) 앱을 통해 컴패니언 앱의 사용자를 확인할 수 있다.

대화 서버(112)와 서비스 관리 서버(113)는 요청 응답, 세션토큰 발급 및 관리, 일정조회, 연락처 조회, IoT 상태 조회, 서비스 앱 히스토리조회(정기/이벤트), 영상 및 이미지의 업로드 조회 요청, 외부 캘린더 서버 연동, 서비스 관리 서버 자체적으로 사진/영상의 메타 정보 및 목록 관리, 사용자 인증 토큰 및 단말인증토큰을 매핑하여 관리, 서비스통계 정보 및 운영 관리를 수행할 수 있다.

가입자 관리 서버(114)는 사용자 단말(140)의 컴패니언 앱으로부터 ID 인증을 요청받고, 가입자 관리 서버(114)는 ID 인증을 확인할 수 있다. 이 때, 서비스 관리 서버(113)가 가입자 관리 서버(114)로 공용 단말의 인증을 요청하면, 가입자 관리 서버(114)는 서비스 관리 서버(113)에게 공용 단말(120)의 인증 요청을 확인한 결과를 전송할 수 있다.

웹 서버(115)는 미디어 서버, 검색 서버, 교통 서버 등을 포함할 수 있다.

공용 단말(120)은 본체 및 본체에 착탈 가능한 카메라를 포함할 수 있다. 예를 들어, 공용 단말(120)은 웹캠과 셋탑박스를 포함하는 단말일 수 있으며, 셋탑박스는 웹캠이 없이도 동작할 수 있다. 공용 단말(120)의 본체의 전면부, 후면부, 상면부 및 내장 모듈은 하기의 기능 또는 모듈을 포함할 수 있다. 전면부는 전원버튼(전원상태표시 및 리모컨 수신 LED 포함), IR 수신부, 마이크, 볼륨조절버튼(또는 볼륨조절터치), 이더넷 연결 상태 LED, 와이파이 연결상태 LED를 포함할 수 있다. 후면부는 RJ-45 이더넷 포트, HDMI 출력 포트, S/PDIF 출력 포트, 전원어댑터 단자, 전원 on/off 스위치, USB 포트, Micro SD 슬롯, 블루투스 페어링 버튼, WPS 사생활보호 버튼 등을 포함할 수 있다. 상면부는 본체 카메라 인터페이스, 서비스 상태 LED(감정 LED) 등을 포함할 수 있다. 내장 모듈은 블루투스 송수신부, 스피커 와이파이 클라이언트 등을 포함할 수 있다. 공용 단말(100)의 카메라는 전면부, 후면부 및 하면부를 포함할 수 있고, 전면부는 카메라 동작 상태 LED를 포함하고, 후면부는 홈캠 서버 연결 상태 LED를 포함하고, 하면부는 본체카메라의 인터페이스를 포함할 수 있다.

공용 단말(120)은 원거리 음성 및 화자를 인식할 수 있고, 캐릭터 및 TTS(Text to Speech) 서비스를 제공할 수 있다. 또한, 공용 단말(120)은 사용자와 지능형 감성 대화를 수행할 수 있다. 또한, 공용 단말(120)은 주소록, 알람, 일정, 갤러리 등을 설정할 수 있고, 홈 IoT를 제어 및 모니터링할 수 있다. 또한, 공용 단말(120)은 사용자의 음성을 입력받으면 입력된 음성에 대한 응답을 수신하고, 수신된 응답에 기초하여 뮤직 서비스, TV 기반의 음성 및 영상 통화, OTV 서비스와 음성 인식 서비스를 연동하여 사용자에게 제공할 수 있다.

한편, 공용 단말(120)을 제어하는 컴패니언 앱은 공용 단말(120) 내의 서비스에 접근할 수 있는 링크 정보 또는 공용 단말(120)의 페어링 기능을 사용자에게 제공할 수 있다. 또한, 컴패니언 앱은 공용 단말(110) 내에 설치된 런처 앱(예컨대, 뮤직 앱, 주소록, 일정, 알람, 주소록, 갤러리 등)을 연동할 수 있는 인터페이스를 제공할 수 있다. 또한, 컴패니언 앱은 음성 명렁어 리스트, O2O 서비스 연계를 제공할 수 있다. 한편, 컴패니언 앱을 통해 구현되는 기술적 특징은 사용자 단말(140)뿐만 아니라 공용 단말(120)을 통해서도 구현될 수 있다.

공용 단말(120)은 사용자로부터 특정 발화(예컨대, 날짜, 날씨, 감성채팅, 아바타, 일정 및 알람(타이머), 홈 IOT 제어 등에 관한 발화)를 입력받으면, 공용 단말(120)은 입력된 사용자 발화를 STT 서버(111)에게 전달하고, 웹 서버(115)를 통해 대화 서버(112)에게 질의어를 요청할 수 있다. 공용 단말(120)은 대화 서버(112) 또는 서비스 관리 서버(113)로부터 해석된 발화에 대응하는 서비스를 제공받을 수 있다. 이 때, 공용 단말(120)은 제공받은 서비스를 디스플레이 장치(130)를 통해 출력할 수 있고, 상기 서비스가 현재 제공 중인 미디어 서비스와 연동하여 제공될 수도 있다.

일 실시예에 따르면, 공용 단말(120)은 음성 명령에 기반하여 서비스를 제공할 수 있다.

공용 단말(120)은 서비스 관리 서버(113)로 일정등록 및 조회, 연락처 등록 및 조회, IoT 상태 등록 및 조회를 요청하거나, 서비스 앱 히스토리(정기 또는 이벤트식의 히스토리)를 전달하거나, 음악 서비스의 확인을 요청하거나 영상/이미지의 업로드 및 조회를 요청하거나 사용자 서비스(OTV, SoIP, IoT 서비스등)의 프로파일을 전달하거나 외부캘린더 서버와의 연동을 요청할 수 있다.

공용 단말(120)은 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다. 예를 들어, 공용 단말(120)은 음성 신호가 호출어에 해당하는지에 대한 판단 결과에 기초하여 음성 기반 서비스를 제공하고, 음성 신호가 호출어로 판단되는 경우, 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 명령어 대기 UI를 노출시키고, 호출어에 이어지는 음성 신호에 따라 음성 기반 서비스를 수행할 수 있다.

예를 들어, 제 1 서비스가 TV 앱과 관련된 미디어 서비스이고, 제 2 서비스가 웹 브라우저와 관련된 대화형 생활 서비스라고 가정한 경우, 사용자가 "기가지니"라는 음성을 발화하면, 공용 단말(120)은 "기가지니"라는 호출어를 인식하고, 인식 결과에 따라 명령어 대기 UI를 노출시킬 수 있다. 그 후, 예를 들어, 사용자가 "티비켜"라는 음성을 발화하면, 공용 단말(120)은 "티비켜"라는 음성 질의를 인식하고, 서버(110)로 음성 질의에 대한 분석을 요청할 수 있다. 공용 단말(120)은 서버(110)로부터 음성 질의에 대한 분석을 수신하고, 분석 결과에 따라 'TV 앱'을 통해 디스플레이 장치(130)의 전원을 켜도록 제어할 수 있다. 다른 예를 들어, 사용자가 "홍길동이 누구야"라는 음성을 발화하면, 공용 단말(120)은 "홍길동이 누구야?"라는 음성 질의를 인식하고, 서버(110)로 음성 질의에 대한 분석을 요청할 수 있다. 공용 단말(120)은 서버(110)로부터 음성 질의에 대한 분석을 수신하고, 분석 결과에 따라 "홍길동은 OO입니다."라는 발화를 한 후, 웹 브라우저를 호출 및 실행하도록 제어할 수 있다.

공용 단말(120)은 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공하고, 자체 음성 신호 입출력부를 통해 음성 기반 서비스를 제공할 수 있다. 이 때, 공용 단말(120)은 입력받은 음성 신호 또는 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력할 수 있다. 또는, 공용 단말(120)은 공용 단말(120)과 연동된 디스플레이 장치(130)의 상태에 따라 영상 신호 및 음성 신호를 선택적으로 출력할 수 있다.

공용 단말(120)은 입력받은 음성 신호가 기설정된 입력 정보에 해당하는지 판단하고, 기설정된 입력 정보에 따라 동작하는 캐릭터를 표시할 수 있다. 이 때, 입력받은 음성 신호가 기설정된 입력 정보로 판단되는 경우, 공용 단말(120)은 응답에 따라 캐릭터의 음성 신호를 출력하고, 출력되는 음성 신호와 연계하도록 캐릭터의 동작을 제어할 수 있다.

공용 단말(120)은 음성 신호 인식 중이라고 판단되는 경우, 캐릭터가 음성 신호 인식 중에 해당하는 동작을 수행하도록 제어할 수 있다.

공용 단말(120)은 응답에 포함된 문형 태그를 식별하고, 식별된 문형 태그에 따라 캐릭터의 동작을 제어할 수 있다. 또한, 공용 단말(120)은 응답에 포함된 감정 태그를 식별하고, 식별된 감정 태그에 따라 캐릭터의 동작을 제어할 수 있다.

공용 단말(120)이 시각 기반 서비스를 디스플레이 장치(130)의 화면에 출력하는 중에 음성 신호를 입력받은 경우, 음성 신호의 인식 결과에 따른 결과물을 출력 중인 시각 기반 서비스와 연계하여 화면에 더 출력할 수 있다. 이 때, 공용 단말(120)은 시각 기반 서비스가 출력 중인 화면의 일부분에 결과물을 예를 들어, 웹 브라우저의 형태로 오버레이하여 디스플레이 장치(130)에 표시되도록 할 수 있다. 공용 단말(120)은 음성 신호에 따른 결과물에 대해 음성 신호 안내를 출력하고, 음성 안내와 연계하여 출력 중인 시각 기반 서비스의 사운드를 제어할 수 있다.

공용 단말(120)은 리모트 콘트롤러 또는 공용 단말(120)의 버튼으로부터의 입력을 통해 시각 기반 서비스를 제어하거나, 상기 음성 신호 또는 상기 응답에 기초하여 시각 기반 서비스의 제어를 수행할 수 있다.

다른 실시예에 따르면, 공용 단말(120)은 공용 단말(120)과 연동된 디스플레이 장치(130) 의 상태에 따라 캐릭터를 표시할 수 있다. 공용 단말(120)은 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다.

공용 단말(120)은 입력된 음성 신호 또는 응답에 따라 표시된 캐릭터가 변형 또는 동작하도록 제어할 수 있다. 이 때, 공용 단말(120)은 답변이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 캐릭터의 표시 형태를 제어하면서 영상 컨텐츠를 표시할 수 있다.

사용자 단말(140)은 컴패니언 앱을 통해 공용 단말(120)을 제어하거나, 서비스 관리 서버(113)에게 사용자 확인을 요청하거나 음악 토큰을 전달하거나 주요 관리 정보의 등록을 요청할 수 있다. 컴패니언 앱은 음악 서버로 음악 서비스의 아이디 및 패스워드를 전달하면, 음악 서버로부터 음악 토큰을 발급받을 수 있다.

도 2는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다. 도 2를 참조하면, 공용 단말(120)은 음성 신호 입출력부(210), 제 1 모드 제공부(220) 및 제 2 모드 제공부(230)를 포함할 수 있다.

음성 신호 입출력부(210)는 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다. 예를 들어, 음성 신호 입출력부(210)는 '기가지니'라는 음성 신호를 입력받으면, 입력된 음성 신호가 호출어에 해당하는지를 판단하고, 호출어에 이어지는 음성 신호에 따라 음성 기반 서비스를 제공할 수 있다. 예를 들어, 호출어에 이어지는 음성 신호가 대화형 생활 비서, 미디어, 홈 IoT, 통화 등에 대한 음성 명령을 포함하는 경우, 음성 신호 입출력부(210)는 해당 음성 신호에 대한 응답을 출력할 수 있다.

제 1 모드 제공부(220)는 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다. 이 때, 음성 신호가 호출어로 판단되는 경우, 제 1 모드 제공부(220)는 명령어 대기 UI를 노출시킬 수 있다.

구체적으로, 제 1 모드 제공부(220)는 음성 신호가 날짜/시간, 일정, 알람/타이머, 날씨, 교통(대중교통알림/내비정보/택시호출), 음식배달, 웹 검색, 뉴스 속보 등을 포함하는 대화형 생활 비서에 대한 음성 명령을 포함하는 경우, 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다. 예를 들어, 음성 신호 입출력부(210)에서 "지금 몇시야?"라는 날짜/시간에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "지금 OO시 OO분입니다."와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "오늘 일정 알려줘"라는 일정에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "일정을 조회합니다."라는 메시지와 함께 조회된 일정을 디스플레이 장치(130)를 통해 표시할 수 있다. 또 다른 예를 들어, 음성 신호 입출력부(210)에서 "알람 알려줘"라는 알람/타이머에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "총 2건의 알람이 있습니다. 오늘 3시 30분, 내일 2시"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다. 또 다른 예를 들어, 음성 신호 입출력부(210)에서 "오늘 제주도 날씨 알려줘"라는 날씨에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "제주도 날씨는 OO합니다"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다. 또 다른 예를 들어, 음성 신호 입출력부(210)에서 "버스 언제 와?"라는 교통(대중교통알림)에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "OO 정류장에서, XX번 버스가 10분 후 도착합니다"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다.

또한, 제 1 모드 제공부(220)는 음성 신호가 미디어에 대한 음성 명령을 포함하는 경우, 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다. 예를 들어, 음성 신호 입출력부(210)에서 "TV 켜줘"라는 IPTV 제어에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 'TV를 켰습니다"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "무한도전 찾아줘"라는 미디어 통합 검색에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "무한도전 관련 TV 컨텐츠를 검색합니다"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다.

또한, 제 1 모드 제공부(220)는 음성 신호가 통화에 대한 음성 명령을 포함하는 경우, 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다. 예를 들어, 음성 신호 입출력부(210)에서 "XXX에게 영상 통화 해"라는 영상 통화에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 "XXX에게 영상통화로 연결합니다"와 같은 응답을 디스플레이 장치(130)를 통해 표시할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 '즐겨 찾기' 또는 '통화 기록'과 같은 실행 메뉴에 대한 음성 신호를 입력받은 경우, 제 1 모드 제공부(220)는 '즐겨 찾기' 또는 '통화 기록'을 디스플레이 장치(130)를 통해 표시할 수 있다.

제 1 모드 제공부(220)는 입력받은 음성 신호가 기설정된 입력 정보에 해당하는지 판단하고, 기설정된 입력 정보에 따라 동작하는 캐릭터를 표시할 수 있다. 예를 들어, 제 2 모드 제공부(230)에서 입력받은 음성신호가 기설정된 입력 정보로 판단되어, 응답에 따라 캐릭터의 음성 신호를 출력하는 경우, 제 1 모드 제공부(220)는 출력되는 음성 신호와 연계하도록 캐릭터의 동작을 제어할 수 있다. 다른 예를 들어, 제 1 모드 제공부(220)는 음성 신호 인식 중이라고 판단되는 경우, 캐릭터가 음성 신호 인식 중에 해당하는 동작을 수행하도록 제어할 수 있다. 또 다른 예를 들어, 제 1 모드 제공부(220)는 응답에 포함된 문형 태그를 식별한 경우, 식별된 문형 태그에 따라 캐릭터의 동작을 제어할 수 있다. 또 다른 예를 들어, 제 1 모드 제공부(220)는 응답에 포함된 감정 태그를 식별한 경우, 식별된 감정 태그에 따라 캐릭터의 동작을 제어 할 수 있다.

제 1 모드 제공부(220)는 시각 기반 서비스를 디스플레이 장치(130)의 화면에 출력하는 중에 음성 신호를 입력받은 경우, 시각 기반 서비스가 출력 중인 화면의 일부분에 결과물을 오버레이할 수 있다. 예를 들어, 제 1 모드 제공부(220)는 결과물을 웹 브라우저의 형태로 오버레이할 수 있다. 이 때, 제 2 모드 제공부(230)에서 음성 신호에 따른 결과물에 대해 음성 신호 안내를 출력하면, 제 1 모드 제공부(220)는 음성 안내와 연계하여 출력 중인 시각 기반 서비스의 사운드를 제어할 수 있다. 이러한 제 1 모드 제공부(220)는 리모트 콘트롤러 또는 공용 단말(120)의 버튼으로부터의 입력을 통해 시각 기반 서비스를 제어하거나, 음성 신호 또는 응답에 기초하여 시각 기반 서비스의 제어를 수행할 수 있다.

제 2 모드 제공부(230)는 음성 신호 입출력부(210)를 통해 음성 기반 서비스를 제공할 수 있다. 예를 들어, 제 2 모드 제공부(230)는 음성 신호가 호출어에 해당하는지에 대한 판단 결과에 기초하여 음성 기반 서비스를 제공할 수 있으며, 호출어에 이어지는 음성 신호에 따라 음성 기반 서비스를 수행할 수 있다. 이 때, 제 2 모드 제공부(230)는 입력받은 음성 신호가 기설정된 입력 정보에 해당하는지를 판단하여, 답변에 따라 캐릭터의 음성 신호를 출력할 수 있다.

구체적으로, 제 2 모드 제공부(230)는 음성 신호가 감성 채팅, 캐릭터, 상황인지 통합 대화형 추천, 상황인지 통합 능동형 추천, 환율 조회, 위키 검색 등을 포함하는 대화형 생활 비서에 대한 음성 명령을 포함하는 경우, 음성 신호 입출력부(210)를 통해 캐릭터의 음성 신호를 이용한 음성 기반 서비스를 제공할 수 있다. 이를 위해, 예를 들어, 음성 신호 입출력부(210)에서 사용자로부터 "오늘 참 피곤했어"라는 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "요즘 일이 많아 피곤하신듯 하네요"라는 감성 채팅에 대한 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "오늘은 집에서 쉬어야겠어"라는 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "요즘 일이 많아 피곤하신 것 같네요. 쉬는게 좋겠어요"라는 상황 인지 통합 대화형 추천을 기반으로 한 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 또 다른 예를 들어, 음성 신호 입출력부(210)에서 "달러가 얼마야?"라는 환율 조회에 대한 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "오늘의 환율은 OOOO입니다"와 같은 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 여기서, 환율 조회는 전세계 각국에 대한 환율 정보를 제공할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "백두산 높이가 얼마나 돼?"라는 위키 검색에 대한 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "백두산 높이는 2,744m입니다"와 같은 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다.

또한, 제 2 모드 제공부(230)는 음성 신호가 홈 IoT 기기, 홈 어플라이언스 등을 포함하는 홈 IoT에 대한 음성 명령을 포함하는 경우, 음성 신호 입출력부(210)를 통해 음성 기반 서비스를 제공할 수 있다. 예를 들어, 음성 신호 입출력부(210)에서 "환경센서 공기상태는?"이라는 홈 IoT 기기를 이용한 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "습도는 OOO입니다. 현재 OO 상태입니다."라는 홈 IoT 기기를 이용한 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 홈 IoT 기기는 예를 들어, 환경센서, 가스안전기, 문열림감지기, 디지털도어락, 스마트콘센트 등을 포함할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "에어컨을 OO도로 설정해줘"라는 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "에어컨의 온도를 OO도로 맞추겠습니다"와 같은 홈 어플라이언스에 대한 제어를 음성 기반 서비스를 이용하여 음성 신호 입출력부(210)를 통해 제공할 수 있다. 여기서, 홈 어플라이언스는 예를 들어, 공기청정기, 세탁기, 로봇청소기, 오븐, 에어컨, 냉장고 등을 포함할 수 있다.

또한, 제 2 모드 제공부(230)는 음성 신호가 음성 통화, 통화 중 실행 명령 등을 포함하는 통화에 대한 음성 명령을 포함하는 경우, 음성 신호 입출력부(210)를 통해 음성 기반 서비스를 제공할 수 있다. 예를 들어, 음성 신호 입출력부(210)에서 "OOO에게 전화해"라는 음성 통화에 대한 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "OOO 전화로 연결합니다"와 같은 통화와 연관된 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 여기서, 음성 통화는 지인/가족 휴대폰, 집, 사무실로의 연결, 긴급통화 등을 포함할 수 있다. 다른 예를 들어, 음성 신호 입출력부(210)에서 "마이크 꺼줘"라는 통화 중 실행 명령에 대한 음성 신호를 입력받은 경우, 제 2 모드 제공부(230)는 "마이크가 꺼졌습니다"라는 통화 중 실행 명령과 연관된 음성 기반 서비스를 음성 신호 입출력부(210)를 통해 제공할 수 있다. 통화 중 실행 명령은 예를 들어, 앵커 샷, 이모티콘, 내 소리 차단 시작/종료, 대체 영상 시작/해제, 영상 캡쳐 등을 포함할 수 있다.

제 2 모드 제공부(230)는 시각 기반 서비스를 디스플레이 장치(130)의 화면에 출력하는 중에 음성 신호를 입력받은 경우, 음성 신호에 따른 결과물에 대해 음성 신호 안내를 출력할 수 있다.

이와 같이, 제 1 모드 제공부(220) 및 제 2 모드 제공부(230)는 음성 신호 또는 응답에 기초하여 독립적으로 시각 기반 서비스의 제어를 수행할 수 있다.

제 1 모드 제공부(220) 및 제 2 모드 제공부(230)는 입력받은 음성 신호 또는 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력할 수 있으며, 공용 단말(120)과 연동된 디스플레이 장치(130)의 상태에 따라 영상 신호와 음성 신호를 선택적으로 출력할 수도 있다.

예를 들어, 시각 기반 서비스(예를 들어, VOD 또는 TV 앱의 실행에 따라 채널 또는 VOD를 출력하는 서비스)를 출력하는 중에 음성 인식 서비스(예를 들어, 음성 인식 결과에 따른 결과물을 제공하는 서비스)를 요청 받는 경우, 제 1 모드 제공부(220) 및 제 2 모드 제공부(230)는 연동하여 사용자에게 다양한 서비스를 제공할 수 있다. 다른 예를 들어, 공용 단말(120)은 디스플레이 장치(130)가 콘텐츠를 출력하는 중에 사용자의 음성 신호을 입력받아 인식하는 경우, 음성 신호에 따른 결과물을 디스플레이 장치(130)를 통해 출력 중인 콘텐츠의 일부분에 브라우저 형태로 노출하거나, 디스플레이 장치(130)의 콘텐츠 재생에 대한 사운드 볼륨을 줄이거나 뮤트(Mute)하여 명령어의 음성 신호에 따른 결과물에 대한 음성 안내를 제공할 수 있다. 또 다른 예를 들어, 공용 단말(120)은 시각 시반 서비스를 제공하는 중(예를 들어, 캐릭터의 표시)에 음성 기반 서비스에 대한 결과물을 출력하는 경우, 시각 시반 서비스를 통해 표시된 캐릭터는 음성 기반 서비스에 대한 결과물에 따라 캐릭터의 외형 및 표정이 변화/조정되여 출력될 수 있다. 복합 서비스는 상술된 실시예에 한정되지 않으며, 시각 기반 서비스와 음성 기반 서비스가 직간접적 연관성을 가지고 제공하는 모든 서비스의 실시예를 포함할 수 있다.

도 3은 본 발명의 일 실시예에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법의 순서도이다. 도 3에 도시된 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 서비스를 제공하는 방법은 도 1 및 도 2에 도시된 실시예에 따른 음성 기반 서비스 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 및 도 2에 도시된 실시예에 따른 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 서비스를 제공하는 방법에도 적용된다.

단계 S310에서 공용 단말(120)은 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다.

단계 S320에서 공용 단말(120)은 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다.

단계 S330에서 공용 단말(120)은 음성 신호 입출력부를 통해 음성 기반 서비스를 제공할 수 있다.

단계 S340에서 공용 단말(120)은 입력받은 음성 신호 또는 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력할 수 있다.

상술한 설명에서, 단계 S310 내지 S340은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 4는 본 발명의 다른 실시예에 따른 공용 단말에서 음성 명령에 기반하여 서비스를 제공하는 방법의 순서도이다. 도 4에 도시된 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 서비스를 제공하는 방법은 도 1 내지 도 3에 도시된 실시예에 따른 음성 기반 서비스 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 3에 도시된 실시예에 따른 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 서비스를 제공하는 방법에도 적용된다.

단계 S410에서 공용 단말(120)은 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다.

단계 S420에서 공용 단말(120)은 공용 단말(120)과 연결된 디스플레이 장치(130)를 통해 시각 기반 서비스를 제공할 수 있다.

단계 S430에서 공용 단말(120)은 음성 신호 입출력부를 통해 음성 기반 서비스를 제공할 수 있다.

단계 S440에서 공용 단말(120)은 디스플레이 장치(130)의 상태에 따라 영상 신호와 음성 신호를 선택적으로 출력할 수 있다.

상술한 설명에서, 단계 S410 내지 S440은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 5는 본 발명의 일 실시예에 따른 공용 단말의 구성도이다. 도 5를 참조하면, 공용 단말(120)은 캐릭터 표시부(510), 음성 신호 입출력부(520) 및 캐릭터 제어부(530)를 포함할 수 있다.

캐릭터 표시부(510)는 공용 단말(120)과 연동된 디스플레이 장치(130)의 상태에 따라 캐릭터를 표시할 수 있다. 캐릭터는 예를 들어, 차갑고 기계적인 느낌의 IoT 기기에 대한 고정 관념을 깨고 친근감을 제공하기 위해 예를 들어, 빠름을 상징하는 블랙 캐릭터의 'IO(아이오)'와 소통을 상징하는 화이트 캐릭터의 'IT(아이티)' 또는 20대 여성을 형상화한 휴먼형 캐릭터인 '지니 캐릭터'를 표시할 수 있다.

음성 신호 입출력부(520)는 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다. 캐릭터 제어부(530)는 입력된 음성 신호 또는 응답에 따라 표시된 캐릭터가 변형 또는 동작하도록 제어할 수 있다. 예를 들어, 캐릭터 제어부(530)는 입력된 음성 신호 또는 응답에 따라 사용자의 말에 귀를 기울이는 포즈를 취하도록 캐릭터를 제어할 수 있다. 다른 예를 들어, 캐릭터 제어부(530)는 입력된 음성 신호를 이해하지 못한 경우, 이에 대한 응답으로 캐릭터가 갸우뚱한 포즈를 취하도록 제어할 수 있다.

여기서, 공용 단말(120)은 음성 신호에 대한 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 캐릭터의 표시 형태를 제어하면서 영상 컨텐츠를 표시할 수 있다. 예를 들어, 공용 단말(120)은 음성 신호에 대한 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 캐릭터를 사라지게 하거나, 캐릭터의 크기를 작게 하여 표시하거나, 캐릭터를 화면의 특정 영역으로 이동시키거나, 캐릭터의 모습을 특정 모형이나 동물로 변형시킬 수 있다. 다른 예를 들어, 공용 단말(120)은 음성 신호에 대한 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우라도 캐릭터를 영상 컨텐츠에 오버레이하여 표시하도록 할 수도 있다.

도 6은 본 발명의 일 실시예에 따른 공용 단말에서 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 방법의 순서도이다. 도 6에 도시된 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 방법은 도 1 내지 도 5에 도시된 실시예에 따른 음성 기반 서비스 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 5에 도시된 실시예에 공용 단말(120)에 의해 수행되는 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 방법에도 적용된다.

단계 S610에서 공용 단말(120)은 공용 단말(120)과 연동된 디스플레이 장치의 동작 상태에 따라 캐릭터를 표시할 수 있다.

단계 S620에서 공용 단말(120)은 음성 신호를 입력받고, 음성 신호에 대한 응답을 출력할 수 있다.

단계 S630에서 공용 단말(120)은 입력된 음성 신호 또는 응답에 따라 표시된 캐릭터가 변형 또는 동작하도록 제어할 수 있다.

단계 S640에서 공용 단말(120)은 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 캐릭터의 표시 형태를 제어하면서 영상 컨텐츠를 표시할 수 있다.

상술한 설명에서, 단계 S610 내지 S640은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 7a 및 도 7b는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 동작하는 캐릭터를 도시한 예시적인 도면이다.

도 7a는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 동작하는 IoT(Internet of Things)를 형상화한 캐릭터를 도시한 예시적인 도면이다. 도 7a를 참조하면, 지능형 서비스는 'IoT'를 형상화한 두 종류의 캐릭터를 제공할 수 있다.

음성 명령에 기반하여 동작하는 캐릭터는 차갑고 기계적인 느낌의 IoT 기기에 대한 고정 관념을 깨고 친근감을 제공하기 위해 예를 들어, 빠름을 상징하는 블랙 캐릭터의 'IO(아이오, 710)'와 소통을 상징하는 화이트 캐릭터의 'IT(아이티, 720)'를 제공할 수 있다.

도 7b는 본 발명의 일 실시예에 따른 음성 명령에 기반하여 동작하는 휴먼형 캐릭터를 도시한 예시적인 도면이다. 도 7b를 참조하면, 휴먼형 캐릭터(730)는 개인 비서 서비스에 대한 맞춤형 캐릭터로, 20대 여성을 형상화한 휴먼형 캐릭터(730)인 일명 '지니 캐릭터'를 제공할 수 있다.

도 8은 본 발명의 일 실시예에 따른 캐릭터가 적용된 음성 명령에 기반하여 제공되는 서비스의 로딩 화면을 도시한 예시적인 도면이다. 도 8을 참조하면, 공용 단말(120) 및 공용 단말(120)과 연결된 디스플레이 장치(130)의 전원이 온(on)되면, 공용 단말(120)은 'IO'(810)와 'IT'(820)의 캐릭터가 적용된 로딩 화면을 표시할 수 있다.

도 9a 내지 도 9d는 본 발명의 일 실시예에 따른 음성 멍령에 기반하여 동작하는 캐릭터가 적용된 서비스의 메인 화면을 도시한 예시적인 도면이다.

도 9a는 본 발명의 일 실시예에 따른 IO 및 IT 캐릭터가 기본으로 적용된 음성 명령 기반의 서비스의 메인 화면을 도시한 예시적인 도면이다. 도 9a를 참조하면, 지능형 서비스의 기본으로 설정된 메인 화면은 서브 캐릭터로서 IO 및 IT 캐릭터(900)가 온(on)으로 설정되고, 메인 캐릭터로서 휴먼형 캐릭터인 지니 캐릭터가 오프(off)로 설정될 수 있다. 이 때, 공용 단말(120)에서 출력되는 음성은 휴먼형 캐릭터인 '지니 캐릭터'의 음성일 수 있다.

IO 및 IT 캐릭터(900)는 특정 입력 정보가 입력되면, 해당 입력정보와 어울리는 표정 및 동작 애니메이션을 보여주고, 화면에서 퇴장할 수 있다. 여기서, 특정 입력 정보는 예를 들어, 사용자가 음성 명령 기반 서비스에 접속한 날짜가 특정 기념일인 경우, 음성 명령 기반 서비스에 설정된 알람 시간에 도달한 경우, 음성 명령 기반 서비스를 통해 뮤직 애플리케이션을 재생하는 경우, 사용자가 음성 명령 기반 서비스에 진입한 시간대가 언제인지, 리모트 컨트롤러의 포커스가 서비스의 실행 아이콘에 정지해 있는 경우, 사용자가 "IO, IT 나와"라는 호출어를 발화한 경우 등을 포함할 수 있다.

예를 들어, 사용자가 음성 명령 기반 서비스에 접속한 날짜가 어린이날인 경우, IO 캐릭터는 풍선 다발을 들고 장난치다가 하늘로 날아가고, IT 캐릭터는 풍선 하나를 들고 서있다가, 날아가는 IO 캐릭터를 보고 놀라는 애니메이션 동작을 출력할 수 있다.

다른 예를 들어, 음성 명령 기반 서비스에 설정된 알람 시간에 도달한 경우, IO 캐릭터는 북을 치고, IT 캐릭터는 양팔을 벌리며 좋아하는 애니메이션 동작을 알람 시간이 종료될 때까지 반복하여 출력할 수 있다.

도 9b는 본 발명의 일 실시예에 따른 지니 캐릭터가 적용된 음성 명령 기반의 서비스의 메인 화면을 도시한 예시적인 도면이다. 도 9b를 참조하면, 지니 캐릭터(910)는 음성 명령 기반의 서비스의 설정 메뉴를 통해 휴먼형 캐릭터를 온(on)으로 설정함으로써 메인 화면에 표시될 수 있다. 이 때, 디스플레이 장치(130)는 IO 및 IT 캐릭터(900), 지니 캐릭터(910)를 메인 화면에 함께 표시하고, 공용 단말(120)은 지니 캐릭터의 음성을 출력할 수 있다.

IO 및 IT 캐릭터(900)는 도 9a에서 상술한 바와 같이 특정 입력 정보가 입력되면, 해당 입력정보와 어울리는 표정 및 동작 애니메이션을 보여주고, 화면에서 퇴장할 수 있다.

지니 캐릭터(910)는 사용자와 모든 대화 응대를 수행하는 캐릭터로, 컴패니언 애플리케이션, 음성 명령 기반 서비스 설정 화면, 음성 명령어를 이용하여 지니 캐릭터(910)의 표시를 온(on)/오프(off)로 설정할 수 있다. 이 때, 온(on)으로 설정된 지니 캐릭터(910)는 화면에 항상 나타나서, 특정 입력 정보에 따라 의상, 표정 및 애니메이션 동작을 출력할 수 있다.

특정 입력 정보는, 예를 들어, 유휴 상태(Idle), 음성 인식 상태, 사용자가 지능형 서비스 진입한 날짜(예를 들어, 설날, 추석, 가족 휴가 등), 사용자와의 대화 중 지니 캐릭터의 답변에 대한 TTS(Text to Speech), 문형 정보, 감정 정보, 액트타입(actType) 등을 포함할 수 있다.

예를 들어, 지니 캐릭터(910)는 음성 인식 중인 경우, 귀 기울이는 동작, 고개를 갸우뚱하는 동작, 고개를 끄덕이는 동작 중 어느 하나를 랜덤한 순서로 재생할 수 있다.

다른 예를 들어, 답변의 문형 태그가 요청(request)를 포함하는 경우, 지니 캐릭터(910)는 두 뺨에 손 얹는 동작, 고개를 갸우뚱하는 동작, 두 손을 모아 얼굴에 대는 동작 중 어느 하나를 랜덤한 순서로 재생할 수 있다.

또 다른 예를 들어, 지니 캐릭터(910)의 감정 태그가 행복을 나타내는 경우, 지니 캐릭터는 눈을 크게 뜨고, 활짝 웃으며, 양팔을 벌리는 동작의 애니메이션을 재생할 수 있다.

도 9c는 본 발명의 일 실시예에 따른 캐릭터가 설정되지 않은 음성 명령 기반의 서비스의 메인 화면을 도시한 예시적인 도면이다. 도 9c를 참조하면, 음성 명령 기반의 서비스는 컴패니언 애플리케이션, 설정 메뉴를 통해 전체 캐릭터에 대한 표시 여부를 오프(off)로 설정할 수 있다. 디스플레이 장치(130)는 IO 및 IT 캐릭터(900), 지니 캐릭터(910)를 디스플레이에서 표시하지 않고, 지니 캐릭터(910)의 음성만을 출력할 수 있다.

도 9d는 본 발명의 일 실시예에 따른 설정 화면을 도시한 예시적인 도면이다. 도 9d를 참조하면, 공용 단말(120)은 설정 화면(920)을 통해 사용자로부터 예를 들어, "기가지니", "지니야", "친구야", "자기야" 중 어느 하나의 호출어(921)에 대한 선택을 입력받을 수 있다. 또한, 공용 단말(120)은 설정 화면(920)을 통해 사용자로부터 메뉴에서 이용할 캐릭터(922)를 설정할 수 있다. 예를 들어, 사용자는 "IOIT만 표시", "지니, IOIT표시", "모두 표시 안함" 중 어느 하나를 선택함으로써, 캐릭터의 표시 여부를 설정할 수 있다.

도 10a 내지 10n은 본 발명의 일 실시예에 따른 이벤트에 따라 캐릭터의 의상, 표정 및 애니메이션 동작이 변경되고, 변경된 캐릭터가 음성 명령 기반 서비스에 적용된 화면을 도시한 예시적인 도면이다.

도 10a 내지 도 10c는 본 발명의 일 실시예에 따른 공휴일에 따라 의상, 표정 및 애니메이션 동작이 변경된 IO 및 IT 캐릭터를 도시한 예시적인 도면이다. 도 10a는 설날에 맞추어 변경된 IO 및 IT 캐릭터이고, 도 10b는 추석에 맞추어 변경된 IO 및 IT 캐릭터이고, 도 10c는 크리스마스에 맞추어 변경된 IO 및 IT 캐릭터를 도시한 예시적인 도면이다.

도 10d 및 도 10e는 사용자의 개인 일정에 따라 의상, 표정 및 애니메이션 동작이 변경된 IO 및 IT 캐릭터를 도시한 예시적인 도면이다. 도 10d는 결혼기념일에 맞추어 변경된 IO 및 IT 캐릭터이고, 도 10e는 가족 휴가에 맞추어 변경된 IO 및 IT 캐릭터를 도시한 예시적인 도면이다.

도 10f는 그 외의 사용자의 설정에 의해 변경된 IO 및 IT 캐릭터로, 댄스에 맞추어 변경된 IO 및 IT 캐릭터를 도시한 예시적인 도면이다.

도 10g 내지 도 10j는 본 발명의 일 실시예에 따른 이벤트에 따라 의상, 표정 및 애니메이션 동작이 변경된 휴먼형 캐릭터를 도시한 예시적인 도면이다. 도 10g 및 도 10h는 기본형으로 설정된 지니 캐릭터이고, 도 10i는 휴가 의상으로 변경된 지니 캐릭터이고, 도 10j는 한복 의상으로 변경된 지니 캐릭터를 도시한 예시적인 도면이다.

도 10k 내지 도 10n은 본 발명의 일 실시예에 따른 이벤트에 따라 의상, 표정 및 애니메이션 동작이 변경된 IO 및 IT 캐릭터가 적용된 음성 명령 기반 서비스의 기본 화면을 도시한 예시적인 도면이다.

도 10k는 설날에 맞추어 변경된 IO 및 IT 캐릭터가 적용된 음성 명령 기반 서비스의 기본 화면이고, 도 10l은 어린이날에 맞추어 변경된 IO 및 IT 캐릭터가 적용된 음성 명령 기반 서비스의 기본 화면이고, 도 10m은 추석에 맞추어 변경된 IO 및 IT 캐릭터가 적용된 음성 명령 기반 서비스의 기본 화면이고, 도 10n은 크리스마스에 맞추어 변경된 IO 및 IT 캐릭터가 적용된 음성 명령 기반 서비스의 기본 화면을 도시한 예시적인 도면이다.

도 11a 내지 도 11l은 본 발명의 일 실시예에 따른 음성 명령 기반 서비스에서 리모트 컨트롤러의 포커스 위치에 따라 캐릭터가 적용된 화면을 도시한 예시적인 도면이다.

도 11a는 리모트 컨트롤러에 의해 교통 포커스(1101)가 선택된 화면이고, 도 11b는 생활 포커스(1102)가 선택된 화면이고, 도 11c는 설정 포커스(1103)가 선택된 화면이고, 도 11d는 알람 포커스(1104)가 선택된 화면이고, 도 11e는 TV 포커스(1105)가 선택된 화면이고, 도 11f는 음식주문 포커스(1106)가 선택된 화면이고, 도 11g는 이용가이드 포커스(1107)가 선택된 화면이고, 도 11h는 지니 뮤직 포커스(1108)가 선택된 화면이고, 도 11i는 캘린더 포커스(1109)가 선택된 화면이고, 도 11j는 통화 포커스(1110)가 선택된 화면이고, 도 11k는 홈 매니저 포커스(1111)가 선택된 화면이고, 도 11l는 홈캠 포커스(1112)가 선택된 화면을 도시한 예시적인 도면이다. 이와 같이, 포커스가 선택되면, IO 및 IT 캐릭터는 해당 포커스의 위치로 이동하여 표시될 수 있다.

도 12a 내지 도 12i는 본 발명의 일 실시예에 따른 사용자의 음성 질의에 대한 캐릭터의 반응을 도시한 예시적인 도면이다. 이 때, 캐릭터는 휴먼형 캐릭터인 지니 캐릭터일 수 있다.

도 12a는 사용자로부터 음성 입력을 받지 않았을 경우의 지니 캐릭터(1200)를 도시한 예시적인 도면이다.

도 12b 내지 도 12d는 사용자로부터 일반적인 음성 질의를 입력받은 경우의 지니 캐릭터를 도시한 예시적인 도면이다. 도 12b를 참조하면, 사용자로부터 카메라의 온(on)/오프(off)와 같이 카메라의 제어(1210)와 관련된 "홈캠 켜" 또는 "홈캠 꺼"라는 음성 질의를 입력받은 경우, 지니 캐릭터(1200)는 고개를 갸우뚱하는 포즈(1211)를 취할 수 있다. 도 12c를 참조하면, 사용자로부터 지식 정보(1220)와 같이 웹 검색과 관련된 "시청률 제일 높은 드라마가 뭐야?" 또는 "백두산 높이는?"이라는 음성 질의를 입력받은 경우, 지니 캐릭터(1200)는 고개를 끄덕이는 포즈(1221)를 취할 수 있다. 도 12d를 참조하면, 사용자로부터 공용 단말(120)의 설정 변경(1230)과 관련된 "엄마 계정으로 변경해줘" 또는 "핀번호로 인증하기"라는 음성 질의를 입력받은 경우, 지니 캐릭터(1200)는 귀 기울이는 포즈(1231)를 취할 수 있다.

도 12e 내지 도 12h는 지니 캐릭터의 기분에 관련된 음성 질의를 입력받은 경우의 지니 캐릭터를 도시한 예시적인 도면이다.

예를 들어, 지니 캐릭터(1200)는 사용자로부터 "기분 어때?"(1240)라는 음성 질의를 입력받은 경우, 그에 대한 다양한 답변을 제시할 수 있다. 도 12e를 참조하면, 지니 캐릭터(1200)는 "오늘 최고에요."(1241)라는 답변을 할 수 있고, 도 12f를 참조하면, 지니 캐릭터는 "저에게는 특별한 일이 없어요."(1242)라는 답변을 할 수 있고, 도 12g는 "심심해요."(1243)라는 답변을 할 수 있고, 도 12h는 "일에 치어서 힘들어요."(1244)라는 답변을 할 수 있다.

도 12i는 사용자로부터 입력된 음성 질의를 분석하지 못한 경우의 지니 캐릭터를 도시한 예시적인 도면이다. 도 12i를 참조하면, 사용자로부터 "동래역 싫어할까?"(1250)라는 음성 질의를 입력받고, 지니 캐릭터가 해당 음성 질의를 분석하지 못한 경우, 지니 캐릭터는 "죄송한데 무슨 말씀인지 잘 이해하지 못하겠어요."(1251)라는 답변을 할 수 있다.

도 13은 본 발명의 일 실시예에 따른 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법의 순서도이다. 도 13에 도시된 공용 단말(120)에 의해 수행되는 제 1 모드의 시각 기반 서비스 및 제 2 모드의 음성 신호 기반 서비스를 연동하여 음성 신호 기반 서비스를 제공하는 방법은 도 1 내지 도 12i에 도시된 실시예에 따른 음성 기반 서비스 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 12i에 도시된 실시예에 따른 공용 단말(120)에 의해 수행되는 음성 신호 기반 서비스를 제공하는 방법에도 적용된다.

단계 S1310에서 공용 단말(120)은 음성 신호를 입력받을 수 있다.

단계 S1320에서 공용 단말(120)은 입력받은 음성 신호에 대한 응답을 서버(110)로부터 수신하거나 입력받은 음성 신호에 기초하여 응답을 생성할 수 있다.

단계 S1330에서 공용 단말(120)은 수신된 응답에 기초하여 제 1 모드 및 제 2 모드를 선택적으로 제어할 수 있다.

도 13에서는 도시되지 않았으나, 공용 단말(120)은 음성 신호가 호출어로 판단되는 경우, 기설정된 입력 정보에 따라 동작하는 캐릭터를 디스플레이 장치(130)의 화면에 표시하는 단계를 더 포함할 수 있다.

도 13에서는 도시되지 않았으나, 공용 단말(120)은 캐릭터의 음성 신호를 출력하는 단계 및 출력되는 음성 신호와 연계하도록 캐릭터의 동작을 제어하는 단계를 더 포함할 수 있다.

도 13에서는 도시되지 않았으나, 공용 단말(120)은 캐릭터의 의상, 표정 및 동작 애니메이션 중 적어도 하나 이상을 기설정된 정보에 따라 변경하는 단계를 더 포함할 수 있다. 여기서, 기설정된 정보는 이벤트 설정 정보, 알람 시간 정보, 현재 시간 정보, 현재 날씨 정보 중 적어도 하나 이상을 포함하는 것일 수 있다.

도 13에서는 도시되지 않았으나, 공용 단말(120)은 캐릭터로 메인 캐릭터가 설정된 경우, 메인 캐릭터의 음성 신호 및 동작을 통해 사용자와의 대화 응대를 수행하는 단계를 더 포함할 수 있다.

도 13에서는 도시되지 않았으나, 공용 단말(120)은 캐릭터로 서브 캐릭터가 설정된 경우, 서브 캐릭터의 동작 애니메이션을 화면에 표시하는 단계 및 애니메이션의 종료 후에 서브 캐릭터를 화면으로부터 퇴장시키는 단계를 더 포함할 수 있다.

상술한 설명에서, 단계 S1310 내지 S1330은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 14는 본 발명의 다른 실시예에 따른 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법의 순서도이다. 도 14에 도시된 공용 단말(120)에 의해 수행되는 제 1 모드의 시각 기반 서비스 및 제 2 모드의 음성 신호 기반 서비스를 연동하여 음성 신호 기반 서비스를 제공하는 방법은 도 1 내지 도 13에 도시된 실시예에 따른 음성 기반 서비스 제공 시스템(1)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 13에 도시된 실시예에 따른 공용 단말(120)에 의해 수행되는 음성 신호 기반 서비스를 제공하는 방법에도 적용된다.

단계 S1410에서 공용 단말(120)은 음성 신호를 입력받을 수 있다.

단계 S1420에서 공용 단말(120)은 입력받은 음성 신호에 대한 응답을 서버(110)로부터 수신하거나 입력받은 음성 신호에 기초하여 응답을 생성할 수 있다.

단계 S1430에서 공용 단말(120)은 공용 단말(120)과 연결된 디스플레이 장치(130)의 상태에 기초하여 제 1 모드 및 제 2 모드를 선택적으로 제어할 수 있다.

상술한 설명에서, 단계 S1410 내지 S1430은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

한편, STT 서버(111), 대화 서버(112), 서비스 관리 서버(113), 가입자 관리 서버(114), 웹 서버(115)에 해당하는 서버단을 통해 처리되는 기술적 특징은 공용 단말(120)을 통해서도 구현될 수 있다. 또한, STT 서버(111), 대화 서버(112), 서비스 관리 서버(113), 가입자 관리 서버(114), 웹 서버(115)를 통해 구현되는 기술적 특징은 각 기술적 특징을 모듈로서 구성하고 있는 하나의 서버로 구현될 수 있다.

도 1 내지 도 14를 통해 설명된 음성 명령에 기반하여 서비스를 제공하는 공용 단말, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말 및 음성 신호 기반 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 14를 통해 설명된 음성 명령에 기반하여 서비스를 제공하는 공용 단말, 음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말 및 음성 신호 기반 서비스를 제공하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

110: 서버
111: STT 서버
112: 대화 서버
113: 서비스 관리 서버
114: 가입자 관리 서버
115: 웹 서버
120: 공용 단말
130: 디스플레이 장치
210: 음성 신호 입출력부
220: 제 1 모드 제공부
230: 제 2 모드 제공부
510: 캐릭터 표시부
520: 음성 신호 출력부
530: 캐릭터 제어부

Claims

음성 명령에 기반하여 서비스를 제공하는 공용 단말에 있어서,
음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부;
상기 공용 단말과 연결된 디스플레이 장치를 통해 시각 기반 서비스를 제공하는 제 1 모드 제공부; 및
상기 음성 신호 입출력부를 통해 음성 기반 서비스를 제공하는 제 2 모드 제공부
를 포함하고,
상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 입력받은 음성 신호 또는 상기 응답에 기초하여 음성 신호와 영상 신호를 선택적으로 출력하고,
상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 공용 단말에서 별도의 서비스를 제공하는 중에 추가적인 음성 신호가 입력되는 경우, 상기 제공 중인 별도의 서비스와 별개로 상기 음성 신호에 대한 결과값을 더 출력하는, 공용 단말.
제 1 항에 있어서,
상기 음성 신호가 호출어에 해당하는지에 대한 판단 결과에 기초하여 상기 음성 기반 서비스를 제공하는, 공용 단말.
제 2 항에 있어서,
상기 제 1 모드 제공부는 상기 음성 신호가 호출어로 판단되는 경우, 명령어 대기 UI를 노출시키고,
상기 제 2 모드 제공부는 상기 호출어에 이어지는 음성 신호에 따라 상기 음성 기반 서비스를 수행하는, 공용 단말.
제 1 항에 있어서,
상기 제 1 모드 제공부는 상기 입력받은 음성 신호가 기설정된 입력 정보에 해당하는지 판단하고,
상기 기설정된 입력 정보에 따라 동작하는 캐릭터를 표시하는, 공용 단말.
제 4 항에 있어서,
상기 제 2 모드 제공부는 상기 입력받은 음성 신호가 상기 기설정된 입력 정보로 판단되는 경우, 상기 응답에 따라 상기 캐릭터의 음성 신호를 출력하고,
상기 제 1 모드 제공부는 상기 출력되는 음성 신호와 연계하도록 상기 캐릭터의 동작을 제어하는, 공용 단말.
제 5 항에 있어서,
상기 제 1 모드 제공부는 음성 신호 인식 중이라고 판단되는 경우,
상기 캐릭터가 상기 음성 신호 인식 중에 해당하는 동작을 수행하도록 제어하는, 공용 단말.
제 5 항에 있어서,
상기 제 1 모드 제공부는 상기 응답에 포함된 문형 태그를 식별하고,
상기 식별된 문형 태그에 따라 상기 캐릭터의 동작을 제어하는, 공용 단말.
제 5 항에 있어서,
상기 제 1 모드 제공부는 상기 응답에 포함된 감정 태그를 식별하고,
상기 식별된 감정 태그에 따라 상기 캐릭터의 동작을 제어하는, 공용 단말.
제 1 항에 있어서,
상기 시각 기반 서비스를 상기 디스플레이 장치의 화면에 출력하는 중에 상기 음성 신호를 입력받은 경우,
상기 제 1 모드 제공부는 상기 음성 신호의 인식 결과에 따른 결과물을 상기 출력 중인 시각 기반 서비스와 연계하여 상기 화면에 더 출력하는, 공용 단말.
제 9 항에 있어서,
상기 제 1 모드 제공부는 상기 시각 기반 서비스가 출력 중인 상기 화면의 일부분에 상기 결과물을 오버레이하는, 공용 단말.
제 9 항에 있어서,
상기 제 2 모드 제공부는 상기 음성 신호에 따른 결과물에 대해 음성 신호 안내를 출력하고,
상기 제 1 모드 제공부는 상기 음성 신호 안내와 연계하여 상기 출력 중인 시각 기반 서비스의 사운드를 제어하는, 공용 단말.
제 1 항에 있어서,
상기 제 1 모드 제공부는 리모트 콘트롤러 또는 상기 공용 단말의 버튼으로부터의 입력을 통해 상기 시각 기반 서비스를 제어하거나,
상기 음성 신호 또는 상기 응답에 기초하여 상기 시각 기반 서비스의 제어를 수행하는, 공용 단말.
음성 명령에 기반하여 서비스를 제공하는 공용 단말에 있어서,
음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부;
공용 단말과 연결된 디스플레이 장치를 통해 시각 기반 서비스를 제공하는 제 1 모드 제공부; 및
상기 음성 신호 입출력부를 통해 음성 기반 서비스를 제공하는 제 2 모드 제공부를 포함하고,
상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 디스플레이 장치의 상태에 따라 영상 신호와 음성 신호를 선택적으로 출력하고,
상기 제 1 모드 제공부 및 상기 제 2 모드 제공부는 상기 공용 단말에서 별도의 서비스를 제공하는 중에 추가적인 음성 신호가 입력되는 경우, 상기 제공 중인 별도의 서비스와 별개로 상기 음성 신호에 대한 결과값을 더 출력하는, 공용 단말.
음성 명령에 기반하여 동작하는 캐릭터를 제공하는 공용 단말에 있어서,
상기 공용 단말과 연동된 디스플레이의 동작 상태에 따라 캐릭터를 표시하는 캐릭터 표시부;
음성 신호를 입력받고, 상기 음성 신호에 대한 응답을 출력하는 음성 신호 입출력부; 및
상기 입력된 음성 신호 또는 상기 응답에 따라 상기 표시된 캐릭터가 변형 또는 동작하도록 제어하는 캐릭터 제어부
를 포함하고,
상기 공용 단말은 상기 응답이 영상 컨텐츠를 요청하는 것으로 판단되는 경우, 상기 캐릭터의 표시 형태를 제어하면서 상기 영상 컨텐츠를 표시하고,
상기 캐릭터 표시부 및 상기 음성 신호 입출력부는 상기 공용 단말에서 별도의 서비스를 제공하는 중에 추가적인 음성 신호가 입력되는 경우, 상기 제공 중인 별도의 서비스와 별개로 상기 음성 신호에 대한 결과값을 더 출력하는, 공용 단말.
제 1 모드의 시각 기반 서비스 및 제 2 모드의 음성 신호 기반 서비스를 연동하여 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법에 있어서,
음성 신호를 입력받는 단계;
상기 입력받은 음성 신호에 대한 응답을 서버로부터 수신하거나 상기 입력받은 음성 신호에 기초하여 응답을 생성하는 단계;
상기 수신된 응답에 기초하여 상기 제 1 모드 및 상기 제 2 모드를 선택적으로 제어하는 단계; 및
상기 공용 단말에서 별도의 서비스를 제공하는 중에 추가적인 음성 신호가 입력되는 경우, 상기 제공 중인 별도의 서비스와 별개로 상기 음성 신호에 대한 결과값을 더 출력하는 단계를 포함하는, 음성 기반 서비스 제공 방법.
제 15 항에 있어서,
상기 음성 신호가 호출어로 판단되는 경우, 기설정된 입력 정보에 따라 동작하는 캐릭터를 디스플레이 장치의 화면에 표시하는 단계
를 더 포함하는, 음성 기반 서비스 제공 방법.
제 16 항에 있어서,
상기 캐릭터의 음성 신호를 출력하는 단계; 및
상기 출력되는 음성 신호와 연계하도록 상기 캐릭터의 동작을 제어하는 단계
를 더 포함하는, 음성 기반 서비스 제공 방법.
제 16 항에 있어서,
상기 캐릭터의 의상, 표정 및 동작 애니메이션 중 적어도 하나 이상을 기설정된 정보에 따라 변경하는 단계
를 더 포함하고,
상기 기설정된 정보는 이벤트 설정 정보, 알람 시간 정보, 현재 시간 정보, 현재 날씨 정보 중 적어도 하나 이상을 포함하는, 음성 기반 서비스 제공 방법.
제 16 항에 있어서,
상기 캐릭터로 메인 캐릭터가 설정된 경우, 상기 메인 캐릭터의 음성 신호 및 동작을 통해 사용자와의 대화 응대를 수행하는 단계
를 더 포함하는, 음성 기반 서비스 제공 방법.
제 16 항에 있어서,
상기 캐릭터로 서브 캐릭터가 설정된 경우,
상기 서브 캐릭터의 동작 애니메이션을 상기 화면에 표시하는 단계; 및
상기 애니메이션의 종료 후에 상기 서브 캐릭터를 상기 화면으로부터 퇴장시키는 단계
를 더 포함하는, 음성 기반 서비스 제공 방법.
제 1 모드의 시각 기반 서비스 및 제 2 모드의 음성 신호 기반 서비스를 연동하여 공용 단말에서 음성 신호 기반 서비스를 제공하는 방법에 있어서,
음성 신호를 입력받는 단계;
상기 입력받은 음성 신호에 대한 응답을 서버로부터 수신하거나 상기 입력받은 음성 신호에 기초하여 응답을 생성하는 단계;
상기 공용 단말과 연결된 디스플레이 장치의 상태에 기초하여 상기 제 1 모드 및 상기 제 2 모드를 선택적으로 제어하는 단계; 및
상기 공용 단말에서 별도의 서비스를 제공하는 중에 추가적인 음성 신호가 입력되는 경우, 상기 제공 중인 별도의 서비스와 별개로 상기 음성 신호에 대한 결과값을 더 출력하는 단계를 포함하는, 음성 기반 서비스 제공 방법.