KR20190065967A - 외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체 - Google Patents

외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체 Download PDF

Info

Publication number
KR20190065967A
KR20190065967A KR1020180153847A KR20180153847A KR20190065967A KR 20190065967 A KR20190065967 A KR 20190065967A KR 1020180153847 A KR1020180153847 A KR 1020180153847A KR 20180153847 A KR20180153847 A KR 20180153847A KR 20190065967 A KR20190065967 A KR 20190065967A
Authority
KR
South Korea
Prior art keywords
voice
voice input
information
image
external control
Prior art date
Application number
KR1020180153847A
Other languages
English (en)
Inventor
아끼히로 칸자끼
Original Assignee
샤프 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 샤프 가부시키가이샤 filed Critical 샤프 가부시키가이샤
Publication of KR20190065967A publication Critical patent/KR20190065967A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공하는 외부 제어 장치를 실현한다. 외부 제어 장치는, 음성 입출력 장치가 접수한 음성 입력 정보에 관련된 관련 정보를 취득하고, 취득된 관련 정보의 내용에 기초하여, 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고, 당해 화상을 표시 장치에 표시하기 위한 제어를 행한다.

Description

외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체{EXTERNAL CONTROL DEVICE, VOICE INTERACTIVE CONTROL SYSTEM, CONTROL METHOD, AND RECORDING MEDIUM}
본 발명은 음성 입력 정보에 대응하는 응답 정보를 음성 또는 화상으로 제공하는 외부 제어 장치 등에 관한 것이다.
정보를, 음성이나 화상과 같은 복수의 수단을 이용하여 유저에게 제공하는 것이 가능한 장치가 종래 기술로서 알려져 있다. 예를 들어 특허문헌 1에는, 유저의 음성에 대응하는 응답 메시지를, 음성 또는 텍스트 형태로 출력하는 단말 장치가 개시되어 있다.
일본국 공개특허공보 「특개2014-002383호」(2014년 1월 9일 공개)
그러나, 특허문헌 1에 기재된 단말 장치는, 정보를 음성 또는 텍스트 형태로 유저에게 제공하는 것이 가능한 구성이지만, 정보의 내용에 기초하여 당해 정보를 유저에게 있어서 이해하기 쉬운 형식으로 제공할 수 없다는 문제가 있다.
본 발명의 일 형태는, 상기한 문제를 해결하는 것을 목적으로 하며, 유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공하는 외부 제어 장치를 제공한다.
상기한 과제를 해결하기 위해서, 본 발명의 일 형태에 따른 외부 제어 장치는, 음성 입출력 장치가 접수한 유저의 음성 입력 정보를 수신하고, 상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고, 취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고, 상기 유저에게 제공하는 상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 당해 화상을 표시 장치에 표시하기 위한 제어를 행하는 구성이다.
본 발명의 일 형태에 따른 제어 방법은, 음성 입출력 장치가 접수한 유저의 음성 입력 정보를 수신하고, 상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고, 취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 상기 응답 정보에 화상을 포함시킬지 여부를 판정하고, 상기 유저에게 제공하는 상기 응답 정보에 상기 화상을 포함한다고 판정한 경우, 상기 화상을 표시 장치에 표시하기 위한 제어를 행하는 방법이다.
본 발명의 일 형태에 의하면, 유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공할 수 있다.
도 1은, 본 발명의 실시 형태 1에 따른 음성 대화형 제어 시스템의 개요를 나타내는 모식도이다.
도 2는, 본 발명의 실시 형태 1에 따른 음성 대화형 제어 시스템의 주요부 구성의 일례를 나타내는 블록도이다.
도 3은, 본 발명의 실시 형태 1에 따른 음성 대화형 제어 시스템에 있어서의 일련의 처리를 나타내는 시퀀스도이다.
도 4는, 본 발명의 실시 형태 1에 따른 음성 입출력 장치가 실행하는 처리의 일례를 나타내는 흐름도이다.
도 5는, 본 발명의 실시 형태 2에 따른 음성 대화형 제어 시스템의 개요를 나타내는 모식도이다.
도 6은, 본 발명의 실시 형태 2에 따른 음성 대화형 제어 시스템에 있어서의 일련의 처리를 나타내는 시퀀스도이다.
도 7은, 본 발명의 실시 형태 3에 따른 음성 대화형 제어 시스템의 개요를 나타내는 모식도이다.
도 8은, 본 발명의 실시 형태 3에 따른 음성 대화형 제어 시스템에 있어서의 일련의 처리를 나타내는 시퀀스도이다.
도 9는, 본 발명의 실시 형태 3에 따른 음성 입출력 장치가 실행하는 처리의 일례를 나타내는 흐름도이다.
〔실시 형태 1〕
이하, 본 발명의 일 실시 형태에 대하여, 도 1 내지 도 4를 이용하여 상세히 설명한다.
(음성 대화형 제어 시스템의 구성)
본 실시 형태에 따른 음성 대화형 제어 시스템(1)의 구성에 대하여, 도 1 및 도 2를 이용하여 설명한다. 도 1은, 음성 대화형 제어 시스템(1)의 개요를 나타내는 모식도이다.
도 1에 도시한 바와 같이, 음성 대화형 제어 시스템(1)은, 외부 제어 장치(100), 음성 입출력 장치(200), 라우터(300), 및 표시 장치(400)를 구비하고 있다. 음성 대화형 제어 시스템(1)을 구성하는 각종 장치는 모두 동일한 실내 또는 동일한 건물 내에 배치되어 있다. 이하, 각종 장치가 유저의 자택 내에 배치되어 있는 예를 이용하여 설명한다.
도 1에 예시한 바와 같이, 음성 대화형 제어 시스템(1)은, 음성 입출력 장치(200)가 접수한 유저의 음성 입력 정보에 대응하는 응답 정보를 음성 입출력 장치(200)로부터 음성으로 출력한다. 또한, 음성 대화형 제어 시스템(1)은, 응답 정보가 화상에 의한 제공에 적합한 내용인 경우, 표시 장치(400)에 그래프, 일람표, 지도(그림) 또는 동화상 등의 화상을 표시한다.
외부 제어 장치(100)는, 라우터(300)를 통해 음성 입출력 장치(200) 및 표시 장치(400)와 통신 가능한 서버이다. 외부 제어 장치(100)는, 예를 들어 자택에 설치된 태양광 발전 장치에 의한 발전량이나, 자택 내에 설치된 가전 기기에 의한 전력 소비량 등을 관리하는 HEMS(Home Energy Management System) 서버여도 된다. 외부 제어 장치(100)는, 음성 입출력 장치(200)가 접수한 유저의 음성 입력 정보를 수신하고, 당해 음성 입력 정보를 해석한다. 외부 제어 장치(100)는, 해석한 내용에 기초하여, 음성 입력 정보에 관련된 관련 정보를 취득한다. 또한, 외부 제어 장치(100)는, 취득된 관련 정보의 내용에 기초하여, 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정한다. 예를 들어, 취득된 관련 정보에, 그래프, 일람표, 지도(그림) 또는 동화상 등의 화상 정보가 포함되어 있는 경우, 이러한 정보는, 음성으로 제공하는 것보다도, 화상으로 제공하는 쪽이 유저는 내용을 파악하기 쉽다. 그 때문에, 외부 제어 장치(100)는, 관련 정보에 화상으로 표시하는 것에 적합한 정보가 포함되는 경우, 유저에게 제공하는 응답 정보에 화상을 포함한다고 판정한다. 응답 정보에 화상을 포함한다고 판정된 경우, 외부 제어 장치(100)는, 예를 들어 유저에게 제공하는 응답 정보의 일부를 음성 입출력 장치(200)로부터 음성으로 출력시킴과 함께, 표시 장치(400)에 화상을 표시하기 위한 제어를 행한다. 또한, 유저에게 제공하는 화상은, 취득된 관련 정보에 포함되어 있는 것이어도 되며, 또한 취득된 관련 정보로부터 외부 제어 장치(100)가 생성된 것이어도 된다.
또한, 외부 제어 장치(100)는, 화상을 표시 장치(400)에 표시시키기 전에, 화상을 표시 장치(400)에 표시할지 여부를 상기 유저에게 문의하는 제안 메시지(메시지)를 음성 입출력 장치(200)로부터 출력시켜도 된다. 이 경우, 외부 제어 장치(100)는, 제안 메시지에 대해서, 화상을 표시 장치(400)에 표시하는 것을 허가하는 취지의 유저로부터의 음성 입력 정보를 음성 입출력 장치(200)로부터 수신한 후, 화상을 표시 장치(400)에 표시시킨다. 또한, 외부 제어 장치(100)는, 응답 정보의 적어도 일부를 음성 입출력 장치(200)로부터 음성 정보로서 출력하여, 유저에게 제공해도 된다.
(외부 제어 장치(100)의 구성)
외부 제어 장치(100)의 구성에 대하여, 도 2를 이용하여 설명한다. 도 2는, 음성 대화형 제어 시스템(1)의 주요부 구성의 일례를 나타내는 블록도이다.
이하의 설명에 있어서, 외부 제어 장치(100)가, 자택 내에 설치된 가전 기기에 의한 전력 소비량 등을 관리하는 HEMS 서버인 경우를 예로서 설명한다.
외부 제어 장치(100)는, 통신부(10), 기억부(20), 및 제어부(30)를 구비하고 있으며, 제어부(30)는, 음성 해석부(31), 의미 해석부(32), 정보 취득부(33), 화상 표시 판정부(34), 및 발화 데이터 생성부(35)를 구비하고 있다.
통신부(10)는, 라우터(300)를 통해 음성 입출력 장치(200) 및 표시 장치(400)의 사이에서 각종 데이터의 송수신을 행한다. 기억부(20)에는, 자택에 있어서의 발전량 및 전력 소비량 등에 관한 각종 정보가 저장되어 있다. 기억부(20)에 저장되는 정보에는, 예를 들어 발전량 및 전력 소비량의 추이를 나타내는 그래프 등의 화상이 포함되어 있어도 된다.
제어부(30)는, 외부 제어 장치(100)의 각 부를 통괄하여 제어한다. 음성 해석부(31)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보(=유저의 발화를 포함하는 음성 데이터)에 대해서 음성 해석을 행하고, 텍스트 데이터를 생성한다. 의미 해석부(32)는, 음성 해석부(31)에서 생성된 텍스트 데이터에 대해서 적당한 문절로 구획하거나 하여 의미 해석을 행하고, 해석 결과를 정보 취득부(33)로 송신한다. 또한, 음성 해석부(31) 및 의미 해석부(32)에 있어서의 음성 해석 및 의미 해석은, 종래의 음성 인식 기술로 이용되어 온 방법으로 실시되어도 된다.
정보 취득부(33)는, 음성 해석부(31) 및 의미 해석부(32)가 해석한 내용에 기초하여, 외부 제어 장치(100)가 음성 입출력 장치(200)로부터 접수한 음성 입력 정보에 관련된 관련 정보를, 기억부(20)로부터 취득한다. 정보 취득부(33)는 기억부(20)로부터 취득한 관련 정보를 화상 표시 판정부(34)로 출력한다.
화상 표시 판정부(34)는, 정보 취득부(33)로부터 출력된 관련 정보의 내용에 기초하여, 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정한다. 즉, 화상 표시 판정부(34)는, 정보 취득부(33)로부터 취득한 관련 정보의 내용에 기초하여, 응답 정보를 음성만으로 유저에게 제공하거나 또는 음성과 함께 화상으로 유저에게 제공할지를 판정한다. 예를 들어, 정보 취득부(33)로부터 취득한 관련 정보에 그래프, 일람표, 지도(그림) 또는 동화상 등의 화상에 의한 제공에 적합한 정보가 포함되어 있는 경우, 화상 표시 판정부(34)는 응답 정보에 화상을 포함한다고 판정한다. 이 경우, 화상 표시 판정부(34)는, 기억부(20)에 저장된 화상 정보의 URL을 포함하는 응답 정보를 발화 데이터 생성부(35)로 출력한다. 한편, 정보 취득부(33)로부터 취득한 관련 정보에 화상에 의한 제공에 적합한 정보가 포함되지 않는 경우, 화상 표시 판정부(34)는 응답 정보에 화상을 포함하지 않는다고 판정한다. 이 경우, 화상 표시 판정부(34)는, 응답 정보로서 음성 정보만을 발화 데이터 생성부(35)로 출력한다.
발화 데이터 생성부(35)는, 화상 표시 판정부(34)로부터 출력된 응답 정보에 포함되는 음성 정보에 기초하여, 음성 데이터(=발화 데이터)를 생성한다. 발화 데이터 생성부(35)가 발화 데이터를 생성하는 방법은, 종래의 대화형 로봇에 있어서 응답 메시지를 생성하기 위해서 이용되어 온 방법이어도 된다. 발화 데이터 생성부(35)는, 생성한 응답 메시지를, 통신부(10)를 통해 음성 입출력 장치(200)로 송신한다.
음성 입출력 장치(200)는, 음성 대화형 제어 시스템(1)의 유저와의 사이에서 음성의 입출력을 행하기 위한 장치이다. 음성 입출력 장치(200)는, 라우터(300) 등을 통하여 외부 제어 장치(100) 및 표시 장치(400)와 통신 가능하다. 또한, 음성 입출력 장치(200)와 표시 장치(400) 사이의 통신은, 라우터(300)를 통한 통신이어도 되고, 라우터(300)를 통하지 않는, 예를 들어 적외선 통신 등의 직접적인 통신이어도 된다. 음성 입출력 장치(200)는, 유저로부터 접수한 음성을 음성 입력 정보로서 외부 제어 장치(100)로 송신한다. 또한, 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 수신한 발화 데이터를 음성 입력 정보에 대응하는 응답 정보로서 음성으로 제공한다. 또한, 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 수신한 각종 지시에 기초하여 표시 장치(400)를 조작 가능하다. 예를 들어, 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 지시에 기초하여, 표시 장치(400)에 대해서 전원 온의 조작을 행할 수 있다. 또한, 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 지시에 기초하여, 기억부(20)에 저장된 화상 정보의 URL을 표시 장치(400)로 송신한다.
라우터(300)는, 통신 경로를 중계하는 중계 장치이며, 일반적인 통신에서 사용되는 라우터이다.
표시 장치(400)는, 외부 제어 장치(100) 및 음성 입출력 장치(200)와 통신 가능하며, 응답 정보를 화상으로 표시 가능한 디스플레이이다. 표시 장치(400)는, 음성 입출력 장치(200)로부터의 지시에 따라서, 전원을 온으로 한다. 또한, 표시 장치(400)는, 음성 입출력 장치(200)로부터 화상 정보의 URL을 취득한 경우, 외부 제어 장치(100)로 액세스하고, 외부 제어 장치(100)로부터 화상 정보를 취득하여, 그래프 등의 화상을 표시한다. 표시 장치(400)는, 예를 들어 외부와 통신 가능한 텔레비전이어도 된다.
(음성 대화형 제어 시스템에 있어서의 일련의 처리)
도 1에 예시한, 음성 대화형 제어 시스템(1)에 있어서의 일련의 처리에 대하여, 도 3을 이용하여 설명한다.
우선, 음성 대화형 제어 시스템(1)의 유저가 「오늘 발전량은 어느 정도?」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)에 입력된다(S1: 음성 입력(발전량 문의)). 그리고, 음성 입출력 장치(200)는, S1에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S2: 음성 송신(발전량 문의)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 또한, 정보 취득부(33)는, 해석 결과에 기초하여 음성 입력 정보에 관련된 관련 정보로서 당일의 발전량을 기억부(20)로부터 취득한다. 그리고, 외부 제어 장치(100)는 정보 취득부(33)가 취득한, 당일의 발전량으로부터 발화 데이터 생성부(35)에 의해 발화 데이터 「약 22.1㎾입니다. 이번 달 중 가장 많군요.」를 생성하고, 음성 입출력 장치(200)로 송신한다(S3: 발화 데이터 송신(발전량)). 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S4: 음성 출력(발전량)).
S4의 후, 외부 제어 장치(100)의 화상 표시 판정부(34)는, S3에서 정보 취득부(33)가 기억부(20)로부터 취득한 당일의 발전량에 관련된 관련 정보의 내용에 기초하여, 응답 정보에 화상을 포함시킬지 여부를 판정한다. 또한, 화상을 포함한다고 판정된 경우, 외부 제어 장치(100)는 당일의 발전량을 나타내는 그래프를 화상으로서 표시 장치(400)에 표시하는 것을 제안하는 제안 메시지를, 발화 데이터 생성부(35)를 사용하여 생성하고, 음성 입출력 장치(200)로 송신한다(S5: 발화 데이터 송신(그래프 표시 제안)). 제안 메시지는, 「발전 그래프를 보시겠습니까?」라는 발화 데이터이다. 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S6: 음성 출력(그래프 표시 제안)).
S6의 후, 유저가 화상을 표시 장치(400)에 표시하는 것을 허가하는 승낙 메시지로서 「응, 부탁해.」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)로 입력된다(S7: 음성 입력(그래프 표시 지시)). 그리고, 음성 입출력 장치(200)는, S7에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S8: 음성 송신(그래프 표시 지시)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 해석 결과로부터 음성 입력 정보가 승낙 메시지를 포함하는 것임을 알게 되면, 발화 데이터 생성부(35)는, 표시 장치(400)의 전원을 온하기 위한 발화 데이터 「텔레비전을 켭니다」를 생성한다. 외부 제어 장치(100)는, 생성된 발화 데이터를 음성 입출력 장치(200)로 송신한다(S9: 발화 데이터 송신(표시 장치 전원 온)). 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S10: 음성 출력(표시 장치 전원 온)).
S9의 후, 외부 제어 장치(100)의 제어부(30)는, 표시 장치(400)에 당일의 발전량을 나타내는 그래프의 화상을 표시하기 위한 지시를, 당해 그래프의 URL과 함께 음성 입출력 장치(200)로 송신한다(S11: 그래프 화면 표시 지시(URL)). 음성 입출력 장치(200)는, 그래프의 화상을 표시하기 위한 지시 및 당해 그래프의 URL을 수신하면, 표시 장치(400)를 조작하여 전원을 온으로 한다(S12: 표시 장치 전원 온). 또한, 음성 입출력 장치(200)는 그래프의 표시 지시 및 당해 그래프의 URL을 표시 장치(400)로 송신한다(S13: 그래프 화면 표시 지시(URL)). 표시 장치(400)는, 그래프의 표시 지시 및 당해 그래프의 URL을 음성 입출력 장치(200)로부터 수신하면, 외부 제어 장치(100)에 대해서 URL로 지정된 그래프 화면을 요구한다(S14: 그래프 화면 요구(URL)). 외부 제어 장치(100)는, 요구에 따라서, URL로 지정된 그래프 화면을 표시 장치(400)로 송신하고, 표시시킨다(S15: 그래프 화면 송신).
이상의 처리에 의해, 음성 대화형 제어 시스템(1)은, 음성 입출력 장치(200)가 접수한 음성 입력 정보에 대응하는 응답 정보에 화상을 포함시켜 제공한다고 판정하고, 당해 화상을 표시 장치(400)에 표시하기 위한 제어를 외부 제어 장치(100)에 의해 행할 수 있다.
(음성 입출력 장치가 실행하는 처리의 흐름)
본 실시 형태에 있어서, 음성 입출력 장치(200)가 실행하는 처리의 흐름에 대하여, 도 4를 이용하여 설명한다.
우선, 음성 입출력 장치(200)가 음성 대화형 제어 시스템(1)의 유저로부터의 음성 입력을 접수하면(S21에서 "예"), 당해 음성 입력에 의한 음성 입력 정보를 외부 제어 장치(100)로 송신한다. 음성 입출력 장치(200)는, 음성 입력 정보에 대응하는 응답 정보로서 외부 제어 장치(100)에서 생성된 발화 데이터를 수신한다. 그리고, 음성 입출력 장치(200)는, 수신한 발화 데이터를 응답 정보로서 음성으로 출력한다(S22).
S22의 후, 음성 입출력 장치(200)는, 외부 제어 장치(100)에 있어서 응답 정보에 화상을 포함시킬지 여부를 판정한 결과(S23)에 따른 처리를 실행한다. 음성 입출력 장치(200)는, 외부 제어 장치(100)에 있어서 응답 정보에 화상을 포함한다고 판정된 경우(S23에서 "예"), S24의 처리를 실행한다. 한편, 외부 제어 장치(100)에 있어서 응답 정보에 화상을 포함하지 않는다고 판정된 경우(S23에서 "아니오"), 음성 입출력 장치(200)는 일련의 처리를 종료한다.
S24에 있어서, 음성 입출력 장치(200)는, 화상을 표시 장치(400)에 표시할지 여부를 상기 유저에게 문의하는 제안 메시지를 외부 제어 장치(100)에서 생성된 발화 데이터로서 수신하면, 당해 제안 메시지를 음성으로 출력한다(S24). 그 후, 음성 입출력 장치(200)는, 유저로부터 화상을 표시 장치(400)에 표시하는 것을 허가하는 취지의 승낙 메시지를 접수한다. 그리고, 외부 제어 장치(100)에 의해, 음성 입출력 장치(200)가 승낙 메시지를 접수하였는지 여부를 판정한다(S25). 승낙 메시지를 접수한 경우(S25에서 "예"), 처리는 S26으로 진행한다. 한편, 승낙 메시지를 접수하지 않은 경우(S25에서 "아니오"), 일련의 처리를 종료한다.
S26에 있어서, 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 표시 장치(400)의 전원을 온으로 하는 취지의 발화 데이터를 수신하면, 당해 발화 데이터를 음성으로 출력한다(S27). 그 후, 음성 입출력 장치(200)는 외부 제어 장치(100)로부터, 표시 장치(400)에 응답 정보의 화상을 표시시키기 위한 지시를 수신하면, 당해 지시에 기초하여 표시 장치(400)를 조작하고, 당해 표시 장치(400)에 응답 정보의 화상을 표시시킨다(S27).
이상의 처리에 의해, 음성 입출력 장치(200)는 외부 제어 장치(100)에 의해 음성 입력 정보에 대응하는 응답 정보를 음성으로 유저에게 제공하고, 또한 응답 정보가 화상으로 제공 가능할 때는, 당해 화상을 표시하도록 표시 장치(400)를 조작할 수 있다.
이와 같이, 음성 대화형 제어 시스템(1)은, 유저가 음성 입출력 장치(200)에 대해서 음성 입력을 행한 내용에 대응하는 응답 정보에 화상을 포함시킬지 여부를 외부 제어 장치(100)에 의해 판정할 수 있다. 또한, 외부 제어 장치(100)가 응답 정보를 화상으로 제공한다고 판정된 경우에는 당해 화상을 표시 장치(400)에 표시시킬 수 있다. 이에 의해, 화상으로 제공하는 것이 적합한 정보는 화상으로 제공하고, 다른 정보는 예를 들어 음성 입출력 장치로부터 음성으로서 제공할 수 있다. 따라서, 유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공할 수 있는, 편리성이 우수한 외부 제어 장치를 제공할 수 있다는 효과를 발휘한다.
〔실시 형태 2〕
본 발명의 실시 형태 2에 대하여, 도 5 내지 도 6을 이용하여 이하에 설명한다. 또한, 설명의 편의상, 상기 실시 형태에서 설명한 부재와 동일한 기능을 갖는 부재에 대해서는, 동일한 부호를 부기하고, 그 설명을 반복하지 않는다.
(음성 대화형 제어 시스템의 구성)
본 실시 형태에 따른 음성 대화형 제어 시스템(1)의 구성에 대하여, 도 5를 이용하여 설명한다. 도 5는, 음성 대화형 제어 시스템(1)의 개요를 나타내는 모식도이다.
도 5에 도시한 바와 같이, 본 실시 형태에 따른 음성 대화형 제어 시스템(1)은, 기본적인 구성은 상기 실시 형태 1과 동일하지만, 일부 구성이 상이하다. 본 실시 형태에 있어서, 유저가 음성 입출력 장치(200)에 입력한 음성 입력 정보에 관련된 관련 정보를, 음성 입출력 장치(200), 표시 장치(400), 및 외부 제어 장치(100)가 설치되어 있는 위치와는 상이한 위치에 설치된 외부 서버(500)가 갖고 있다. 그리고, 외부 제어 장치(100)는, 음성 입력 정보를 해석한 내용에 기초하여 외부 서버(500)로부터 관련 정보를 취득하는 구성이다. 또한, 외부 제어 장치(100)가 관련 정보를 취득하는 곳인 외부 서버(500)는, 외부 제어 장치(100)가 필요로 하는 관련 정보의 종류에 의해 별도의 외부 서버(500)가 선택되어도 된다. 예를 들어, 외부 제어 장치(100)는, 검색 대상마다 다른 외부 서버(500)로부터 관련 정보를 취득해도 된다.
외부 제어 장치(100)는, 기본적인 구성은 상기 실시 형태 1과 동일하지만, 일부 구성이 상이하다. 본 실시 형태에 있어서, 외부 제어 장치(100)는, 유저가 음성 입출력 장치(200)에 입력한 음성 입력 정보를 해석한 내용에 기초하여 외부 서버(500)로부터 관련 정보를 취득한다. 그리고, 취득된 관련 정보를 음성 입출력 장치(200) 및 표시 장치(400)를 통해 유저에게 제공하는 구성이다.
표시 장치(400)는, 기본적인 구성은 상기 실시 형태 1과 동일하지만, 일부 구성이 상이하다. 본 실시 형태에 있어서, 표시 장치(400)는, 음성 입출력 장치(200)에 의한 조작에 따라서, 외부 서버(500)와의 사이에서 통신을 행하고, 당해 외부 서버(500)로부터 수신한 화상을 표시할 수 있다.
(음성 대화형 제어 시스템에 있어서의 일련의 처리)
도 5에 예시한, 음성 대화형 제어 시스템(1)에 있어서의 일련의 처리에 대하여, 도 6을 이용하여 설명한다.
우선, 음성 대화형 제어 시스템(1)의 유저가 「이번 주말에 재미있을 만한 이벤트가 있을까?」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)에 입력된다(S31: 음성 입력(검색 지시)). 그리고, 음성 입출력 장치(200)는, S31에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S32: 음성 송신(검색 지시)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 또한, 정보 취득부(33)는, 해석 결과에 기초하여, 외부 서버(500)에 대하여 주말에 개최되는 이벤트를 검색한다(S33: 검색). 외부 제어 장치(100)는, 검색 결과를 외부 서버(500)로부터 URL을 포함하는 정보로서 수신하면(S34: 검색 결과 응답(URL)), 화상 표시 판정부(34)는, 검색 결과의 내용으로부터, 응답 정보에 화상을 포함시킬지 여부를 판정한다. 화상을 포함한다고 판정된 경우, 외부 제어 장치(100)는 검색 결과로부터 발화 데이터 생성부(35)에 의해 주말에 개최되는 이벤트의 일람을 표시 장치(400)에 표시하는 것을 제안하는 제안 메시지를 포함한 발화 데이터 「불꽃 대회가 있습니다. 다른 것도 보시겠습니까?」를 생성하고, 음성 입출력 장치(200)로 송신한다(S35: 발화 데이터 송신(검색 결과)). 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S36: 음성 출력(검색 결과)).
S36의 후, 유저가 승낙 메시지로서 「응, 부탁해.」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)로 입력된다(S37: 음성 입력(리스트 표시 지시)). 그리고, 음성 입출력 장치(200)는, S37에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S38: 음성 송신(리스트 표시 지시)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용하여 해석한다. 해석 결과로부터 음성 입력 정보가 승낙 메시지를 포함하는 것임을 알게 되면, 발화 데이터 생성부(35)는, 표시 장치(400)의 전원을 온하기 위한 발화 데이터 「텔레비전을 켭니다」를 생성한다. 외부 제어 장치(100)는, 생성된 발화 데이터를 음성 입출력 장치(200)로 송신한다(S39: 발화 데이터 송신(표시 장치 전원 온)). 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S40: 음성 출력(표시 장치 전원 온)).
S40의 후, 외부 제어 장치(100)의 제어부(30)는, 표시 장치(400)에 주말에 개최되는 이벤트의 일람을 화상으로서 표시하기 위한 지시를, 당해 일람의 URL과 함께 음성 입출력 장치(200)로 송신한다(S41: 표시 지시(검색 결과 화면 URL)). 음성 입출력 장치(200)는, 이벤트의 일람을 포함하는 검색 결과 화면을 표시하기 위한 지시 및 당해 일람의 URL을 수신하면, 표시 장치(400)를 조작해서 전원을 온으로 한다(S42: 표시 장치 전원 온). 또한, 음성 입출력 장치(200)는 일람의 표시 지시 및 당해 일람의 URL을 표시 장치(400)에 송신한다(S43: 표시 지시(검색 결과 화면 URL)). 표시 장치(400)는, 일람의 표시 지시 및 당해 일람의 URL을 음성 입출력 장치(200)로부터 수신하면, 외부 서버(500)에 대해서 URL로 지정된 검색 결과 화면을 요구한다(S44: 화면 요구(검색 결과 화면)). 외부 서버(500)는, 요구에 따라서, URL로 지정된 검색 결과 화면을 표시 장치(400)로 송신하고, 표시시킨다(S45: 화면 출력(검색 결과 화면)).
이상의 처리에 의해, 음성 대화형 제어 시스템(1)은, 음성 입출력 장치(200)가 접수한 음성 입력 정보에 관련된 관련 정보를 외부 서버(500)로부터 취득한다. 또한 응답 정보를 화상으로 제공한다고 판정된 경우, 당해 화상을 표시 장치(400)가 외부 서버(500)로부터 취득해서 표시시키는 제어를 외부 제어 장치(100)에 의해 행할 수 있다.
(음성 입출력 장치가 실행하는 처리의 흐름)
본 실시 형태에 있어서, 음성 입출력 장치(200)가 실행하는 처리의 흐름은, 실시 형태 1에서 도시한 도 4와 동일하다. 음성 입출력 장치(200)는 외부 서버(500)와 통신하는 일이 없어, 당해 음성 입출력 장치(200)가 실행하는 처리로 변경이 없기 때문이다.
〔실시 형태 3〕
본 발명의 실시 형태 3에 대하여, 도 7 내지 도 9를 이용하여 이하에 설명한다. 또한, 설명의 편의상, 상기 실시 형태에서 설명한 부재와 동일한 기능을 갖는 부재에 대해서는, 동일한 부호를 부기하고, 그 설명을 반복하지 않는다.
(음성 대화형 제어 시스템의 구성)
본 실시 형태에 따른 음성 대화형 제어 시스템(1)의 구성에 대하여, 도 7을 이용하여 설명한다. 도 7은, 음성 대화형 제어 시스템(1)의 개요를 나타내는 모식도이며,
도 7에 도시한 바와 같이, 본 실시 형태에 따른 음성 대화형 제어 시스템(1)은, 기본적인 구성은 상기 실시 형태 1과 동일하지만, 일부 구성이 상이하다. 본 실시 형태에 있어서, 음성 대화형 제어 시스템(1)은, 음성 입출력 장치(200), 라우터(300) 및 표시 장치(400)가 설치되어 있는 위치와는 상이한 위치에 외부 제어 장치(100)가 설치된 구성이다. 또한, 외부 제어 장치(100)는, 인터넷을 통해 상품을 판매하는, 인터넷 통신 판매 서비스를 제공하는 서버이다. 그리고, 음성 대화형 제어 시스템(1)은, 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스에 관한 화면을 표시 장치(400)에 화상으로서 출력시킨다. 유저는, 음성 입출력 장치(200)와의 사이에서 음성의 입출력을 행함으로써, 인터넷 통신 판매 서비스에 대해서 주문을 행할 수 있다.
외부 제어 장치(100)는, 기본적인 구성은 상기 실시 형태 1과 동일하지만, 일부 구성이 상이하다. 본 실시 형태에 있어서, 외부 제어 장치(100)는, 인터넷을 통해 상품을 판매하는, 인터넷 통신 판매 서비스를 제공하는 서버이다. 도 7의 예에 있어서, 외부 제어 장치(100)는 라우터(300)를 통해 음성 입출력 장치(200) 및 표시 장치(400)와 접속되어 있지만, 통신 가능한 구성이면, 라우터(300)를 통한 통신으로 한정되지 않아도 된다. 예를 들어, 외부 제어 장치(100)는, 음성 입출력 장치(200)와는 기지국을 통한 휴대 전화망에 의해 접속되고, 표시 장치(400)와는 라우터(300)를 통해 접속되어도 된다.
외부 제어 장치(100)는, 또한 상품을 보관하고 있는 창고(600)와 통신 가능하게 접속되어 있다. 외부 제어 장치(100)는, 유저로부터 접수한 주문 내용이 확정되면, 당해 주문 내용을 창고(600)에 송신한다.
창고(600)는, 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스에서 취급하는 각종 상품을 보관하고 있다. 창고(600)는, 외부 제어 장치(100)로부터 주문 내용을 수신하면, 당해 주문 내용에 따라서 상품을 모아서 포장하고, 주문원인 유저에게 상품을 배송한다.
(음성 대화형 제어 시스템에 있어서의 일련의 처리)
도 7에 예시한, 음성 대화형 제어 시스템(1)에 있어서의 일련의 처리에 대하여, 도 8을 이용하여 설명한다.
우선, 음성 대화형 제어 시스템(1)의 유저가 「오늘의 쇼핑을 부탁해.」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)로 입력된다(S51: 음성 입력(통신 판매 개시 지시)). 그리고, 음성 입출력 장치(200)는, S51에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S52: 음성 송신(통신 판매 개시 지시)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 해석 결과로부터 음성 입력 정보가 통신 판매 개시 지시를 포함하는 것임을 알게 되면, 외부 제어 장치(100)의 화상 표시 판정부(34)는, 표시 장치(400)를 사용한 화상의 표시가 필요하다고 판정한다. 그리고, 발화 데이터 생성부(35)는, 표시 장치(400)의 전원을 온하기 위한 발화 데이터 「텔레비전을 켭니다」를 생성한다. 외부 제어 장치(100)는, 생성된 발화 데이터를 음성 입출력 장치(200)로 송신한다(S53: 발화 데이터 송신(표시 장치 전원 온)). 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로서 유저에게 제공한다(S54: 음성 출력(표시 장치 전원 온)).
S54의 후, 외부 제어 장치(100)는, 표시 장치(400)에 인터넷 통신 판매 서비스의 화면을 화상으로서 표시하기 위한 지시를, 당해 화면의 URL과 함께 음성 입출력 장치(200)로 송신한다(S55: 표시 지시(통신 판매 화면 URL)). 음성 입출력 장치(200)는, 인터넷 통신 판매 서비스의 화면 표시 지시 및 당해 화면의 URL을 수신하면, 표시 장치(400)를 조작해서 전원을 온으로 한다(S56: 표시 장치 전원 온). 또한, 음성 입출력 장치(200)는 화면의 표시 지시 및 당해 화면의 URL을 표시 장치(400)에 송신한다(S57: 표시 지시(통신 판매 화면 URL)). 표시 장치(400)는, 화면의 표시 지시 및 당해 일람의 URL을 음성 입출력 장치(200)로부터 수신하면, 표시 지시에 따라서, 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스의 사이트 URL로의 접속을 행한다(S58: 접속(통신 판매 사이트)). 외부 제어 장치(100)는, 접속에 따라서, URL로 지정된 인터넷 통신 판매 서비스의 화면을 표시 장치(400)에 송신하고, 표시시킨다(S59: 화면 출력(통신 판매 사이트)).
S59에 의해 표시 장치(400)에 인터넷 통신 판매 서비스의 화면이 표시된 후, 유저는, 표시 내용을 확인하고, 「소고기, 감자, 양파, 당근, 쌀,……」이라고 주문 내용을 발화한다. 발화가 행해지면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)로 입력된다(S60: 음성 입력(주문 내용)). 그리고, 음성 입출력 장치(200)는, S60에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S61: 음성 송신(주문 내용)).
외부 제어 장치(100)는, S61에서 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 해석 결과로부터 음성 입력 정보가 주문 내용을 포함하는 것임을 알게 되면, 제어부(30)는, 표시 장치(400)가 당해 주문 내용을 외부 제어 장치(100)로 송신하기 위한 지시를 음성 입출력 장치(200)로 송신한다(S62: 입력 지시(주문 내용)). 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 입력 지시를 수신하면, 주문 내용을 포함하는 유저로부터의 입력 내용을, 당해 입력 내용을 반영한 화면을 표시 장치(400)에 표시시키는 지시와 함께 표시 장치(400)로 송신한다(S63: 표시 지시(입력 결과)). 표시 장치(400)는, 입력 내용 및 지시를 수신하면, 당해 입력 내용을 외부 제어 장치(100)로 송신한다(S64: 송신(입력 내용)). 외부 제어 장치(100)는, 입력 내용을 수신하면, 당해 입력 내용에 기초하여 화면을 갱신하고, 갱신 후의 화면을 표시 장치(400)로 송신한다. 표시 장치(400)는, 수신한 갱신 후의 화면을 표시한다(S65: 화면 출력(갱신 후 화면)).
S65의 후, 외부 제어 장치(100)는, 발화 데이터 생성부(35)에 의해, 갱신 후의 화면이 나타내는 주문 내용으로 주문을 확정시킬지 여부를 확인하는 확인 메시지를 포함하는 발화 데이터를 생성한다. 또한, 외부 제어 장치(100)는, 확인 메시지를 포함하는 발화 데이터를 음성 입출력 장치(200)로 송신한다(S66: 발화 데이터 송신(확인 메시지)). 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 확인 메시지를 포함하는 발화 데이터를 수신하면, 당해 발화 데이터를 출력한다(S67: 음성 출력(확인 메시지)). 도시한 예에 의하면, 음성 입출력 장치(200)는, 확인 메시지를 포함하는 「표시한 그대로 좋습니까? xxxx엔입니다.」라는 발화를 행한다.
S67의 후, 유저가 「좋아.」라고 발화하면, 발화 내용이 음성 입력 정보로서 음성 입출력 장치(200)로 입력된다(S68: 음성 입력(승낙 메시지)). 그리고, 음성 입출력 장치(200)는, S68에서 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신한다(S69: 음성 송신(승낙 메시지)).
외부 제어 장치(100)는, 음성 입출력 장치(200)로부터 수신한 음성 입력 정보를, 음성 해석부(31) 및 의미 해석부(32)를 사용해서 해석한다. 해석 결과로부터 음성 입력 정보가 승낙 메시지를 포함하는 것임을 알게 되면, 외부 제어 장치(100)는, 주문 내용을 확정하는 조작을 표시 장치(400)에 행하게 하는 조작 지시를, 음성 입출력 장치(200)로 송신한다(S70: 입력 지시(주문 확정)). 음성 입출력 장치(200)는, 외부 제어 장치(100)로부터 조작 지시를 수신하면, 당해 조작 지시에 따라서 주문 내용을 확정시키도록, 표시 장치(400)에 지시한다(S71: 확정 조작 지시(주문 내용)). 표시 장치(400)는, 음성 입출력 장치(200)로부터 지시를 수신하면, 당해 지시에 기초하여 화면상에서 조작을 행하고, 외부 제어 장치(100)에 주문 내용을 확정하는 취지의 지시를 송신한다(S72: 송신(확정 조작)). 외부 제어 장치(100)는, 표시 장치(400)로부터 지시를 수신하면, 주문 내용을 확정시키는 처리를 실행하고, 주문이 확정된 취지를 통지하는 화면을 표시 장치(400)로 송신하고, 표시시킨다(S73: 화면 출력(확정 화면)).
이상의 처리에 의해, 음성 대화형 제어 시스템(1)의 유저는, 음성 입출력 장치(200) 및 표시 장치(400)를 사용하여, 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스를 이용할 수 있다. 보다 구체적으로는, 음성 입출력 장치(200)에 대한 음성 입력에 의해 각종 조작을 실행하고, 외부 제어 장치(100)에 대해서 상품을 주문할 수 있다.
(음성 입출력 장치가 실행하는 처리의 흐름)
본 실시 형태에 있어서, 음성 입출력 장치(200)가 실행하는 처리의 흐름에 대하여, 도 9를 이용하여 설명한다.
우선, 음성 입출력 장치(200)는, 유저로부터 음성 입력에 의한 통신 판매 개시 지시를 접수한다(S81에서 "예"). 음성 입출력 장치(200)는, 당해 음성 입력에 의한 음성 입력 정보를 외부 제어 장치(100)로 송신하고, 당해 음성 입력 정보에 대응하는 응답 정보를 수신한다. 응답 정보는, 표시 장치(400)의 전원을 온으로 하는 지시와 당해 지시에 대응하는 발화 데이터 및 당해 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스의 사이트 URL의 표시 지시를 포함한다. 그리고, 음성 입출력 장치(200)는, 발화 데이터를 음성으로 출력한 후, 수신한 지시에 따라서 표시 장치(400)의 전원을 온으로 한다. 그리고, 음성 입출력 장치(200)는, 표시 장치(400)에, 인터넷 통신 판매 서비스의 사이트 URL로 접속시켜 통신 판매 화면을 표시시킨다(S82).
그 후, 음성 입출력 장치(200)는, 표시 장치(400)가 표시하고 있는 통신 판매 화면의 내용에 따라서 유저가 음성으로 입력한 주문을 접수하면(S83), 주문에 관한 음성 입력 정보를 외부 제어 장치(100)로 송신한다. 음성 입출력 장치(200)는, 음성 입력 정보에 대응하는 응답 정보로서, 현재의 주문 내용으로 주문을 확정 할지 여부를 유저에게 확인하는 확인 메시지에 대응하는 발화 데이터를 수신한다. 그리고, 음성 입출력 장치(200)는, 수신한 발화 데이터를 음성으로 출력한다(S84).
S84의 후, 음성 입출력 장치(200)는, 유저로부터 음성 입력에 의해 주문 내용의 확정을 승낙하는 승낙 메시지를 접수하였는지 여부를 판정한다(S85). 승낙 메시지를 접수하면(S85에서 "예"), 음성 입출력 장치(200)는, 승낙 메시지에 관한 음성 입력 정보를 외부 제어 장치(100)로 송신하고, 당해 음성 입력 정보에 대응하는 응답 정보로서, 표시 장치(400)가 주문을 확정하는 조작을 행하는 지시를 수신한다. 음성 입출력 장치(200)는, 표시 장치(400)에, 주문을 확정하는 조작을 행하게 하여, 주문 내용을 확정한다(S86). 한편, 승낙 메시지를 접수하지 않았을 때(S85에서 "아니오"), 음성 입출력 장치(200)는, S83 내지 S85의 처리를 다시 실행함으로써, 또 다른 주문을 접수한다.
이상의 처리에 의해, 음성 입출력 장치(200)는 음성 입력에 의해 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스에 대한 각종 조작을 행할 수 있다. 또한, 음성 입출력 장치(200)는, 음성 입력 정보에 대응하는 응답 정보로서, 확인 메시지 등은 음성으로 출력하고, 통신 판매 화면 등은 화상으로 표시할 수 있다.
이상의 처리에 의해, 음성 대화형 제어 시스템(1)은, 외부 제어 장치(100)가 제공하는 인터넷 통신 판매 서비스에 대해서 입출력되는 정보 중, 유저가 음성 입력한 음성 입력 정보의 내용에 대응하는 응답 정보에 화상을 포함시킬지 여부를 판정할 수 있다. 또한, 외부 제어 장치(100)가 응답 정보에 화상을 포함한다고 판정된 경우에는 당해 화상을 표시 장치(400)에 표시시킬 수 있다.
〔변형예〕
상기 각 실시 형태에 있어서, 외부 제어 장치(100)는 단일의 서버에 의해 구성되어 있었지만, 복수의 서버를 조합한 구성이어도 된다. 예를 들어, 외부 제어 장치(100)는, 음성 입출력 장치(200)와 통신 가능한 서버와, 표시 장치(400)와 통신 가능한 다른 서버로 이루어지는 구성이어도 된다.
상기 각 실시 형태에 있어서, 음성 입출력 장치(200)는 유저로부터 접수한 음성 입력 정보를 외부 제어 장치(100)로 송신하고, 외부 제어 장치(100)가 음성 입력 정보를 해석하는 구성이었다. 그러나, 예를 들어 음성 입출력 장치(200)에 의해 음성 입력 정보의 음성 해석을 행하고, 외부 제어 장치(100)에 의해 음성 해석의 결과에 대해서 의미 해석부(32)를 사용하여 의미 해석을 행하는 구성이어도 된다. 또한 음성 입출력 장치(200)는, 외부 제어 장치(100)의 모든 구성을 구비하는 것이어도 된다.
〔요약〕
본 발명의 양태 1에 따른 외부 제어 장치(100)는, 음성 입출력 장치(200)가 접수한 유저의 음성 입력 정보를 수신하고, 상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고, 취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고, 상기 유저에게 제공하는 상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 당해 화상을 표시 장치(400)에 표시하기 위한 제어를 행하는 구성이다.
상기한 구성에 의하면, 외부 제어 장치는, 유저가 음성 입력을 행한 내용에 대응하는 응답 정보에 화상을 포함시킬지 여부를 판정하고, 화상을 포함한다고 판정된 경우에는 당해 화상을 표시 장치에 표시시킬 수 있다. 이에 의해, 화상으로 제공하는 것이 적합한 정보는 화상으로 제공할 수 있다. 따라서, 유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공할 수 있는, 편리성이 우수한 외부 제어 장치를 제공할 수 있다.
본 발명의 양태 2에 따른 외부 제어 장치(100)는, 상기 양태 1에 있어서, 상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 상기 유저에게 제공하는 상기 응답 정보의 일부를 음성 정보로서 상기 음성 입출력 장치(200)로부터 출력시키는 구성으로 해도 된다.
상기한 구성에 의하면, 응답 정보의 일부를 음성으로 제공할 수 있다. 이에 의해, 화상으로 제공하는 것이 적합한 정보는 화상으로 제공하고, 다른 정보는 예를 들어 음성 입출력 장치로부터 음성으로서 제공할 수 있다. 유저는, 화상과 함께 음성으로도 응답 정보를 확인할 수 있기 때문에, 유저에게 있어서 이해하기 쉬운 형식으로 정보를 제공할 수 있다. 또한, 확인에 요하는 시간을 단축할 수 있는 등, 편리성이 우수하다.
본 발명의 양태 3에 따른 외부 제어 장치(100)는, 상기 양태 1 또는 2에 있어서, 상기 화상을 상기 표시 장치(400)에 표시할지 여부를 상기 유저에게 문의하는 메시지를, 상기 음성 입출력 장치(200)로부터 출력시키고, 상기 유저가 상기 화상을 상기 표시 장치에 표시하는 것을 허가한 경우, 상기 화상을 상기 표시 장치에 표시하는 구성으로 해도 된다.
상기한 구성에 의하면, 외부 제어 장치는, 유저가 허가한 경우에, 응답 정보를 화상으로 제공할 수 있다.
본 발명의 양태 4에 따른 외부 제어 장치(100)는, 상기 양태 1 내지 3 중 어느 하나에 있어서, 외부 서버(500)로부터 상기 관련 정보를 취득하는 구성으로 해도 된다.
상기한 구성에 의하면, 외부 제어 장치는, 외부 서버로부터 관련 정보를 취득할 수 있기 때문에, 외부 제어 장치 자체가 관련 정보를 저장하고 있지 않아도, 관련 정보를 적합하게 취득할 수 있다.
본 발명의 양태 5에 따른 음성 대화형 제어 시스템(1)은, 상기 양태 1 내지 4 중 어느 하나에 있어서의 외부 제어 장치(100)와, 유저의 음성 입력 정보를 접수하는 음성 입출력 장치(200)와, 상기 외부 제어 장치가 취득한 화상을 표시하는 표시 장치(400)를 구비하고 있는 구성으로 해도 된다.
상기한 구성에 의하면, 상기 양태 1과 마찬가지의 작용 효과를 발휘한다.
본 발명의 양태 6에 따른 제어 방법은, 음성 입출력 장치(200)가 접수한 유저의 음성 입력 정보를 수신하고, 상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고, 취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고, 상기 유저에게 제공하는 상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 상기 화상을 표시 장치(400)에 표시하기 위한 제어를 행하는 방법이다.
상기한 구성에 의하면, 상기 양태 1과 마찬가지의 작용 효과를 발휘한다.
본 발명의 각 양태에 따른 외부 제어 장치(100)는, 컴퓨터에 의해 실현해도 되며, 이 경우에는, 컴퓨터를 상기 외부 제어 장치(100)가 구비하는 각 부(소프트웨어 요소)로서 동작시킴으로써 상기 외부 제어 장치(100)를 컴퓨터에 의해 실현시키는 외부 제어 장치(100)의 제어 프로그램 및 그것을 기록한 컴퓨터 판독 가능한 기록 매체도, 본 발명의 범주에 들어간다.
본 발명은 상술한 각 실시 형태로 한정되는 것이 아니라, 청구항에 나타낸 범위에서 다양한 변경이 가능하며, 서로 다른 실시 형태에 각각 개시된 기술적 수단을 적절히 조합하여 얻어지는 실시 형태에 대해서도 본 발명의 기술적 범위에 포함된다. 또한, 각 실시 형태에 각각 개시된 기술적 수단을 조합함으로써, 새로운 기술적 특징을 형성할 수 있다.
1: 음성 대화형 제어 시스템
100: 외부 제어 장치
10: 통신부
20: 기억부
30: 제어부
31: 음성 해석부
32: 의미 해석부
33: 정보 취득부
34: 화상 표시 판정부
35: 발화 데이터 생성부
200: 음성 입출력 장치
400: 표시 장치

Claims (7)

  1. 음성 입출력 장치가 접수한 유저의 음성 입력 정보를 수신하고,
    상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고,
    취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고,
    상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 당해 화상을 표시 장치에 표시하기 위한 제어를 행하는 것을 특징으로 하는, 외부 제어 장치.
  2. 제1항에 있어서,
    상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 상기 응답 정보의 일부를 상기 음성 입출력 장치로부터 음성으로 출력시키는 것을 특징으로 하는, 외부 제어 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 화상을 상기 표시 장치에 표시할지 여부를 상기 유저에게 문의하는 메시지를, 상기 음성 입출력 장치로부터 출력시키고,
    상기 유저가 상기 화상을 상기 표시 장치에 표시하는 것을 허가한 경우, 상기 화상을 상기 표시 장치에 표시하기 위한 제어를 행하는 것을 특징으로 하는, 외부 제어 장치.
  4. 제1항에 있어서,
    상기 외부 제어 장치는, 외부 서버로부터, 상기 관련 정보를 취득하는 것을 특징으로 하는, 외부 제어 장치.
  5. 제1항에 기재된 외부 제어 장치와,
    유저의 음성 입력 정보를 접수하는 음성 입출력 장치와,
    상기 외부 제어 장치가 취득한 화상을 표시하는 표시 장치를 구비하고 있는 것을 특징으로 하는, 음성 대화형 제어 시스템.
  6. 음성 입출력 장치가 접수한 유저의 음성 입력 정보를 수신하고,
    상기 음성 입력 정보를 해석하여, 당해 음성 입력 정보에 관련된 관련 정보를 취득하고,
    취득된 상기 관련 정보의 내용에 기초하여, 상기 유저에게 제공하는 응답 정보에 화상을 포함시킬지 여부를 판정하고,
    상기 유저에게 제공하는 상기 응답 정보에 상기 화상을 포함한다고 판정된 경우, 상기 화상을 표시 장치에 표시하기 위한 제어를 행하는 것을 특징으로 하는, 제어 방법.
  7. 제1항에 기재된 외부 제어 장치로서 컴퓨터를 기능시키기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록 매체.
KR1020180153847A 2017-12-04 2018-12-03 외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체 KR20190065967A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2017-232696 2017-12-04
JP2017232696A JP2019101264A (ja) 2017-12-04 2017-12-04 外部制御装置、音声対話型制御システム、制御方法、およびプログラム

Publications (1)

Publication Number Publication Date
KR20190065967A true KR20190065967A (ko) 2019-06-12

Family

ID=64572197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180153847A KR20190065967A (ko) 2017-12-04 2018-12-03 외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체

Country Status (6)

Country Link
US (1) US20190172459A1 (ko)
EP (1) EP3493049B1 (ko)
JP (1) JP2019101264A (ko)
KR (1) KR20190065967A (ko)
CN (1) CN110058833A (ko)
TW (1) TWI752286B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110265017B (zh) * 2019-06-27 2021-08-17 百度在线网络技术(北京)有限公司 语音处理方法和装置
JP2022092342A (ja) * 2020-12-10 2022-06-22 パナソニックIpマネジメント株式会社 表示制御システムおよびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002383A (ja) 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
US6243685B1 (en) * 1999-02-08 2001-06-05 Rick C. Bergman Voice operated interactive message display system for vehicles
CA2748396A1 (en) * 1999-10-19 2001-04-26 Sony Electronics Inc. Natural language interface control system
US6724868B2 (en) * 2001-04-02 2004-04-20 Hewlett-Packard Development Company, L.P. Telephone-enabled internet access system
JP2009025538A (ja) * 2007-07-19 2009-02-05 Nissan Motor Co Ltd 音声対話装置
JP5620587B2 (ja) * 2010-09-28 2014-11-05 サムスン エレクトロニクスカンパニー リミテッド ビデオ符号化方法及びその装置、並びにビデオ復号化方法及びその装置
TWI478121B (zh) * 2013-10-24 2015-03-21 Inventec Corp 學習影像的查詢系統及其方法
EP3093842B1 (en) * 2014-01-06 2023-06-07 NTT DoCoMo, Inc. Terminal device, program, and server device for providing information according to user data input
US20170200455A1 (en) * 2014-01-23 2017-07-13 Google Inc. Suggested query constructor for voice actions
US20160225372A1 (en) * 2015-02-03 2016-08-04 Samsung Electronics Company, Ltd. Smart home connected device contextual learning using audio commands
EP3279790B1 (en) * 2015-03-31 2020-11-11 Sony Corporation Information processing device, control method, and program
JP6376096B2 (ja) * 2015-09-28 2018-08-22 株式会社デンソー 対話装置及び対話方法
US11587559B2 (en) * 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN108369767B (zh) * 2015-12-06 2021-12-14 声钰科技 基于用户认知状态和/或情境状态的会话调整系统和方法
EP3179744B1 (en) * 2015-12-08 2018-01-31 Axis AB Method, device and system for controlling a sound image in an audio zone
CN105430007A (zh) * 2015-12-24 2016-03-23 北京奇虎科技有限公司 在应用中进行语音通信的方法和装置
US10514881B2 (en) * 2016-02-18 2019-12-24 Sony Corporation Information processing device, information processing method, and program

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002383A (ja) 2012-06-15 2014-01-09 Samsung Electronics Co Ltd 端末装置及び端末装置の制御方法

Also Published As

Publication number Publication date
US20190172459A1 (en) 2019-06-06
EP3493049A1 (en) 2019-06-05
EP3493049B1 (en) 2023-05-03
JP2019101264A (ja) 2019-06-24
TWI752286B (zh) 2022-01-11
TW201926314A (zh) 2019-07-01
CN110058833A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
US20210312888A1 (en) Multiple primary user interfaces
US11790376B2 (en) Predicting customer support requests
CN107133816A (zh) 一种电子书阅读控制方法和装置
US20170148072A1 (en) Transactional, Digital Image-based Asynchronous Electronic Communication
KR20190065967A (ko) 외부 제어 장치, 음성 대화형 제어 시스템, 제어 방법, 및 기록 매체
KR100342958B1 (ko) 인터넷을 기반으로 하는 생활정보 제공장치 및 방법
WO2020094029A1 (zh) 导购系统和方法、智能货架系统以及电子设备
JP2011141617A (ja) webページ閲覧システム及びその制御方法、中継サーバ
KR20170124194A (ko) 여행정보 제공서비스방법 및 프로그램
KR20200106415A (ko) 해외 역직구 이커머스 구현을 위한 자동화 플랫폼 시스템
US20220292939A1 (en) Information processing device, information processing system, of information processing method, and non-transitory recording medium
CN100595719C (zh) 多模态同步的方法和装置
KR20220051769A (ko) 아티스트 캐스팅을 위한 정보를 제공하는 서버 및 아티스트 캐스팅을 위한 정보를 제공하는 방법
JP2017151572A (ja) 移動販売店舗位置情報等システム
KR102459864B1 (ko) 영상 통화를 제공하는 방법, 서버 및 디바이스
JP6355591B2 (ja) 遠隔操作システムおよびその制御方法
JP2007087221A (ja) ショッピングモールシステム
CN104572864A (zh) 一种用于分享用户的关注信息的方法和装置
KR102603433B1 (ko) 응용 프로그램을 안내하는 전자 장치 및 그 제어방법
JP7082234B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
KR20090093370A (ko) 온라인 서비스를 위한 사용자 표시 명칭의 등록 방법
JP6976382B2 (ja) ネットワークシステム、サーバ、プログラム、および端末
KR102234736B1 (ko) 프로젝트빔을 활용한 조리 가이드 하드웨어 플랫폼
JP6265428B2 (ja) 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP4009863B2 (ja) 情報処理システム、サーバー装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application