WO2020051893A1 - 互动系统、方法及处理装置 - Google Patents

互动系统、方法及处理装置 Download PDF

Info

Publication number
WO2020051893A1
WO2020051893A1 PCT/CN2018/105777 CN2018105777W WO2020051893A1 WO 2020051893 A1 WO2020051893 A1 WO 2020051893A1 CN 2018105777 W CN2018105777 W CN 2018105777W WO 2020051893 A1 WO2020051893 A1 WO 2020051893A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
responded
voice
output information
Prior art date
Application number
PCT/CN2018/105777
Other languages
English (en)
French (fr)
Inventor
郑永利
Original Assignee
郑永利
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 郑永利 filed Critical 郑永利
Priority to PCT/CN2018/105777 priority Critical patent/WO2020051893A1/zh
Publication of WO2020051893A1 publication Critical patent/WO2020051893A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • the present disclosure relates to the field of intelligent interaction technology, and in particular, to an interactive system, method, and processing device.
  • the present disclosure provides an interactive system, method and processing device.
  • the present disclosure provides an interactive system including a human-machine interaction device and a processing device;
  • the human-computer interaction device is configured to acquire user's voice and motion information, and pass the acquired voice and motion information to the processing device;
  • the processing device is configured to find matching to-be-responded information from a pre-stored set of to-be-responded information according to the voice and action information, and find out output information that matches the to-be-responded information from the pre-stored output information set, and Outputting information to the human-machine interaction device;
  • the human-machine interaction device is configured to display the output information to achieve interaction with the user.
  • the human-computer interaction device is further configured to detect whether an interaction trigger signal is received, and if the interaction trigger signal is received, pass the interaction trigger signal to all Mentioned processing device;
  • the processing device After the processing device obtains the interaction trigger signal, the processing device is configured to control the human-machine interaction device to display preset interactive guidance information, and use the interactive guidance information to guide the user to execute a corresponding response information to be selected. Speech and action.
  • the interaction trigger signal includes at least one of detecting that a user enters a setting range, detecting that a user inputs a setting voice, and detecting that a user performs a setting action.
  • the processing device is configured to determine whether the output information is accurate according to the feedback information. If it is determined that the output information is inaccurate, then control the human-computer interaction device to reacquire the user's voice and motion information, and according to the reacquired information, The voice and motion information re-finds the information to be responded from the pre-stored set of information to be responded, finds the output information that matches the re-finished information to be responded from the pre-stored output information set, and passes the output information to the person Machine interaction device
  • the human-machine interaction device is configured to display output information that matches the re-finished to-be-responded information to achieve re-interaction with the user.
  • the feedback information includes at least one of an expression, an action, a voice, a tone, and a meaning of the user.
  • the human-computer interaction device is further configured to obtain feedback information of the user after each display of the output information, and pass the feedback information to the processing device;
  • the to-be-responded information set includes a plurality of to-be-responded information sub-sets corresponding to multiple scenarios, and the to-be-responded information sub-set corresponding to each of the scenarios includes multiple levels of to-be-responded information stored in a hierarchy;
  • the output information set includes output information corresponding to each of the sub-sets of information to be responded to, and output information corresponding to each of the sub-sets of information to be responded to in a hierarchical manner in each of the sub-sets of information to be responded;
  • the processing device 10 can perform classification processing on the voice and motion information input by the user, and then convert it into identifiable information. For example, when the information input by the user is voice, the processing device 10 may analyze the voice content through voice recognition, extract the information in the voice content, and find out from the set of information to be responded that the information matches the information in the voice content. Pending information. For another example, when the information input by the user is a limb movement, the processing device 10 may obtain the limb movement of the user through analysis through image recognition, and find out the to-be-responded information matching the limb movement from the to-be-responded information set.
  • step S24 according to the re-acquired voice and motion information, re-find the information to be replied from the pre-stored set of information to be replied, and find the output information matching the re-researched re-request information from the pre-stored output information set.
  • step S25 the output information is transmitted to the human-machine interaction device 20, so that the human-machine interaction device 20 displays the output information that matches the re-finished to-be-responded information to realize re-interaction with the user.
  • the feedback information includes at least one of an expression, an action, a voice, an intonation, and a meaning of the user.
  • the to-be-responded information set includes a plurality of to-be-responded information sub-sets corresponding to multiple scenarios, and the to-be-responded information sub-set corresponding to each of the scenarios includes multiple levels of to-be-responded information stored in a hierarchy;
  • the output information set includes output information corresponding to each of the sub-sets of information to be responded to, and output information corresponding to each of the sub-sets of information to be responded to be stored in a hierarchy.
  • the step of finding the matching to-be-responded information from the pre-stored to-be-responded information set according to the voice and motion information, and finding the output information that matches the to-be-responded information from the pre-stored output information set includes: according to the user Voice and action information, determine a subset of information to be responded corresponding to the user from the plurality of subsets of information to be responded, and first output information corresponding to the subset of information to be responded, The output information is sent to the human-computer interaction device 20 for display. Receiving voice and motion information fed back by the user to the first output information from the human-computer interaction device 20.
  • the corresponding first-level information to be responded to and the second output information corresponding to the first-level information to be responded are sent to the human-computer interaction device 20 for display.
  • Determining, from the voice and motion information fed back by the user for the second output information, corresponding to the voice and motion information fed back by the user for the second output information The second level of information to be responded to and the third output information corresponding to the second level of information to be responded are sent to the human-machine interaction device 20 for display. Receiving voice and motion information fed back by the user to the third output information from the human-computer interaction device 20. The new to-be-responded information and output information are determined according to the voice and motion information fed back by the user for the third output information, until all interactions with the user are completed.
  • the method further includes: according to each of the feedback information, correcting the information to be responded found based on the voice and motion information, so that the output information displayed in the subsequent interaction is accurate.
  • a feedback mechanism is provided to optimize the interaction system and improve the accuracy of the interaction by collecting feedback information.
  • the functional modules in the various embodiments of the present disclosure may be integrated together to form an independent part, or each of the modules may exist alone, or two or more modules may be integrated to form an independent part.
  • the foregoing storage media include: U disk, mobile hard disk, read-only memory (ROM, Read-Only Memory), random access memory (RAM, Random Access Memory), magnetic disks or optical disks and other media that can store program codes .
  • ROM read-only memory
  • RAM random access memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供一种互动系统、方法及处理装置,涉及智能交互技术领域。互动系统,包括人机交互装置和处理装置;所述人机交互装置用于获取用户的语音和动作信息,将获取的所述语音和动作信息传递至所述处理装置;所述处理装置用于根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置;所述人机交互装置用于展示所述输出信息,以实现与所述用户的交互。使用该互动系统、方法及处理装置,能够便捷地实现互动。

Description

互动系统、方法及处理装置 技术领域
本公开涉及智能交互技术领域,具体而言,涉及一种互动系统、方法及处理装置。
背景技术
现今,大多数交流都是靠人和人的互动完成,虽然在某些场景中可以通过人工智能,采用人形硬件与用户进行交互,并然交互的便捷性有待提高。
发明内容
有鉴于此,本公开提供一种互动系统、方法及处理装置。
一方面,本公开提供了一种互动系统,包括人机交互装置和处理装置;
所述人机交互装置用于获取用户的语音和动作信息,将获取的所述语音和动作信息传递至所述处理装置;
所述处理装置用于根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置;
所述人机交互装置用于展示所述输出信息,以实现与所述用户的交互。
可选地,所述人机交互装置在获取用户的语音和动作信息之前,还用于检测是否接收到互动触发信号,若接收到所述互动触发信号,则将所述互动触发信号传递至所述处理装置;
所述处理装置在获得所述互动触发信号之后,用于控制所述人机交互装置展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
可选地,所述互动触发信号包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
可选地,在展示输出信息之后,获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置;
所述处理装置用于根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则控制所述人机交互装置重新获取用户的语音和动作信息,根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置;
所述人机交互装置用于展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
可选地,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
可选地,所述待回应信息集合中包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息;所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息;
所述处理装置用于根据所述人机交互装置传递的所述用户的语音和动作信息,从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置进行展示;
所述人机交互装置用于展示所述第一输出信息,获取所述用户针对所述第一输出信息反馈的语音和动作信息,将所述用户针对所述第一输出信息反馈的语音和动作信息传递至所述处理装置;
所述处理装置用于根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置进行展示;
所述人机交互装置用于展示所述第二输出信息,获取所述用户针对所述第二输出信息反馈的语音和动作信息,将所述用户针对所述第二输出信息反馈的语音和动作信息传递至所述处理装置;
所述处理装置用于根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置进行展示;
所述人机交互装置用于展示所述第三输出信息,获取所述用户针对所述第三输出信息反馈的语音和动作信息,将所述用户针对所述第三输出信息反馈的语音和动作信息传递至所述处理装置进行处理,直至完成与所述用户的所有交互。
可选地,所述人机交互装置在每次展示输出信息之后,还用于获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置;
所述处理装置用于针对所述人机交互装置传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息的步骤;或者,切换为人工服务。
可选地,所述处理装置还用于根据各所述反馈信息,对待回应信息和输出信息的对应关系进行修正;
所述处理装置还存储有针对单个用户的账户,在该账户中,针对同一用户的输入信息、反馈信息和交互记录进行统计和分析,根据统计和分析结果,对该用户的待回应信息和输出信息的对应关系进行修 正。
可选地,所述人机交互装置包括输入装置和输出装置;
其中,所述输入装置包括话筒、摄像头和触摸显示屏,所述话筒用于收集用户的语音信息,所述摄像头用于收集用户的图像和视频信息,所述触摸显示屏用于接收用户的操作指令信息;
所述输出装置包括麦克风、投影机、虚拟设备和显示屏,所述麦克风用于播放语音信息,所述投影机、虚拟设备和显示屏用于展示画面信息。
可选地,所述处理装置用于通过以下方式根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息:
对所述语音和动作信息进行识别,得到识别结果,从待回应信息集合中查找出与所述识别结果匹配度最高的待回应信息作为匹配的待回应信息。
可选地,输出信息包括文字、图像、音频、视频、外接设备执行动作中的至少一个。
另一方面,本公开提供一种互动方法,应用于处理装置,所述处理装置与人机交互装置通信连接,所述方法包括:
接收人机交互装置传递的用户的语音和动作信息;
根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息;
将该输出信息传递至所述人机交互装置进行展示,以实现与所述用户的交互。
可选地,在接收人机交互装置传递的用户的语音和动作信息之前,所述方法还包括:
判断是否接收到互动触发信号,若接收到所述互动触发信号,则控制所述人机交互装置展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
可选地,所述互动触发信号包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
可选地,所述方法还包括:
接收所述人机交互装置传递的用户针对所述输出信息的反馈信息;
根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则控制所述人机交互装置重新获取用户的语音和动作信息;
根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息;
将该输出信息传递至所述人机交互装置,以使所述人机交互装置展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
可选地,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
可选地,所述待回应信息集合中包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息;所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息;
根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息的步骤,包括:
根据所述用户的语音和动作信息,从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置进行展示;
接收所述人机交互装置传递的所述用户针对所述第一输出信息反馈的语音和动作信息;
根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置进行展示;
接收所述人机交互装置传递的所述用户针对所述第二输出信息反馈的语音和动作信息;
根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置进行展示;
接收所述人机交互装置传递的所述用户针对所述第三输出信息反馈的语音和动作信息;
根据所述用户针对所述第三输出信息反馈的语音和动作信息确定出新的待回应信息和输出信息,直至完成与所述用户的所有交互。
可选地,所述方法还包括:
获得所述人机交互装置传递的,每次展示输出信息之后所述用户的反馈信息;
针对所述人机交互装置传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息的步骤;或者,
切换为人工服务。
可选地,所述方法还包括:根据各所述反馈信息,对待回应信息和输出信息的对应关系进行修正;
以及,针对同一用户的输入信息、反馈信息和交互记录进行统计和分析,根据统计和分析结果,对该用户的待回应信息和输出信息的对应关系进行修正。
另一方面,本公开提供了一种处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运 行的计算机程序,所述处理器执行所述程序时实现上述的互动方法。
本公开提供的互动系统、方法及处理装置,自动获取用户的语音和动作信息,进而分析得出与之匹配的待回应信息和输出信息,展示输出信息即可实现与用户的交互,无需局限于人形硬件,实现较为便捷。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开提供的一种应用场景示意图。
图2为本公开提供的一种处理装置的方框示意图。
图3为本公开提供的一种互动方法的流程示意图。
图4为本公开提供的一种互动方法的另一流程示意图。
图标:10-处理装置;11-存储器;12-处理器;13-网络模块;20-人机交互装置。
具体实施方式
下面将结合本公开中附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
鉴于在多种场景下,用户交互较为复杂,因而现有技术中主要采用人工进行交互。然而,采用人工进行交互存在以下问题:人的不稳定性和时效性,人和人的专业性、性格等不同,导致回应提问的质量不同,一个人因为心情,身体状态不同,导致工作效果不同,同时一个人也不可能24小时工作,这些都会导致交互体验的波动。
若采用接待机器人进行智能交互,接待机器人有硬件人形的局限,模仿出人的反应较为困难而且成本很高,鉴于交互处理的复杂性,交互效率较低,对接收方不够友好。导致接待机器人的实现较为困难,硬件的成本较高,交互友好性有待提高,进而导致采用接待机器人进行智能交互的市场接受和普及度有限。
有鉴于此,本公开提供一种互动系统,无需局限于人形硬件,自动获取用户的语音和动作信息,基于预先存储的待回应信息集合和输出信息集合,分析得出与用户的语音和动作信息匹配的待回应信息和输出信息,展示输出信息即可实现与用户的交互,实现较为便捷。
如图1所示,是本公开提供的一种互动方法的应用场景示意图,本公开中的互动方法可以应用于包括处理装置10和人机交互装置20的互动系统。其中,处理装置10可以连接两个以上人机交互装置20,每个人机交互装置20可以分别与用户进行交互,如获取用户的语音和动作信息,展示处理装置10传递的输出信息。处理装置10中预存有待回应信息集合和输出信息集合,处理装置10用于根据用户的语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置20进行展示,从而实现与用户的交互。
请结合参阅图2,本公开提供了一种处理装置10的方框示意图。本公开中的处理装置10可以为服务器等具有通信及处理功能的设备。该处理装置10应用于图1所示应用场景中,能够与人机交互装置20通信。如图2所示,处理装置10包括:存储器11、处理器12和网络模块13。
所述存储器11、处理器12以及网络模块13相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器11中存储有计算机可读存储介质,所述处理器12通过运行存储在存储器11内的计算机可读存储介质,从而执行各种功能应用以及数据处理,即实现本公开中的互动方法。
其中,所述存储器11可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器11用于存储程序,所述处理器12在接收到执行指令后,执行所述程序。
所述处理器12可能是一种集成电路芯片,具有数据的处理能力。上述的处理器12可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等。可以实现或者执行本公开中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
网络模块13用于通过网络建立处理装置10与外部通信终端之间的通信连接,实现网络信号及数据的收发操作。上述网络信号可包括无线信号或者有线信号。
可以理解,图2所示的结构仅为示意,处理装置10还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
在上述基础上,本公开还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序, 所述计算机程序运行时控制所述计算机可读存储介质所在处理装置10执行本公开中的互动方法。
在需要与用户进行交互时,互动系统中的人机交互装置20用于获取用户的语音和动作信息,将获取的所述语音和动作信息传递至所述处理装置10。所述处理装置10用于根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置20。所述人机交互装置20用于展示所述输出信息,以实现与所述用户的交互。
其中,人机交互装置20和处理装置10的实现方式有多种,例如,人机交互装置20和处理装置10可以集成在同一设备中。又例如,人机交互装置20可以和处理装置10无线连接,人机交互装置20和处理装置10通过远程交互实现数据传输。用户的语音信息中可以包括用户所需回应的信息、用户所选择的操作指令等。用户的动作信息可以包括用户的肢体动作、表情动作等,可以通过拍摄用户的图像、视频、感应用户的肢体动作等获得。相应地,所述人机交互装置20可以包括输入装置和输出装置。
输入装置包括话筒、摄像头、触摸显示屏等,所述话筒用于收集用户的语音信息,所述摄像头用于收集用户的图像和视频信息,所述触摸显示屏用于接收用户的操作指令信息。应当理解,根据实际需求,输入装置还可以包括其他,例如,还可以包括红外感应设备,以感应用户的肢体动作。又例如,输入装置还可以包括其他外部设备,通过接收其他外部设备传递的信号得到用户的相关信息。
输出装置包括麦克风、投影机、虚拟(Virtual Reality,VR)设备、显示屏等,所述麦克风用于播放语音信息,所述投影机、虚拟设备和显示屏用于展示画面信息,如图像、视频等。应当理解,根据实际需求,输出装置可以包括其他外部设备,通过其他外部设备实现与用户的进一步交互。
待回应信息集合和输出信息集合可以预先通过大数据收集得到,也可以通过自定义得到。
待回应信息集合可以包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息,从而实现不同场景下的交互。例如,每个场景可以对应一个主题,一个主题可以分为若干个过程,一个过程里可以有若干个项目,一个项目可以向下分为若干个子项目,子项目可以向下继续分若干层。基于该种“分级”架构,可以把复杂的互动工作分解成若干个相对简单和固定的,处理量较小的小项目。每个小项目之间可设定关联,先后关系等,完成一个小项目后,进入下一个关联的小项目。如此,降低交互复杂度,实现与用户在不同场景下的针对性交互,能够实现对待回应信息的快速、准确识别,从而提高用户交互体验。
在待回应信息进行“分级”存储的情况下,相应地,输出信息集合中可以包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息。例如,将输出信息进行对应的“分级”存储,将各待回应信息子集合与对应的输出信息关联存储,从而在根据用户的语音和动作信息查找出匹配的待回应信息之后,快速、准确地查找出匹配的输出信息。
处理装置10用于通过以下方式根据语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息:对所述语音和动作信息进行识别,得到识别结果,从待回应信息集合中查找出与所述识别结果匹配度最高的待回应信息作为匹配的待回应信息。处理装置10用于将用户输入的语音和动作信息,如不同语音、肢体动作、表情、操作指令等转换成可识别的信息,如识别出语音内容、不同肢体动作、表情、操作指令分别对应的用户的待回应信息等,从而在待回应信息集合中查找与之匹配的待回应信息,进而在输出信息集合查找出与用户的待回应信息匹配的输出信息,并将输出信息通过输出装置呈现给用户,实现与用户的交互。应当理解,与用户的交互可以进行多次,相应地,在将输出信息呈现给用户之后,输入装置搜集用户的反应信息,如语音和动作信息并传递至处理装置10继续进行识别,从而进入下一个互动反馈循环。实现与用户的多次交互。
其中,处理装置10可以对用户输入的语音和动作信息进行分类处理,进而转换成可识别的信息。例如,在用户输入的信息为语音时,处理装置10可以通过语音识别,分析得出语音内容,提取出语音内容中的信息,并从待回应信息集合中查找出与语音内容中的信息匹配的待回应信息。又例如,在用户输入的信息为肢体动作时,处理装置10可以通过图像识别,分析得出用户的肢体动作,并从待回应信息集合中查找出与肢体动作匹配的待回应信息。又例如,在用户输入的信息为表情时,处理装置10可以通过人脸识别,分析得出用户的表情动作,如眨眼、皱眉、微笑等,并从待回应信息集合中查找出与各表情动作匹配的待回应信息。又例如,在用户输入的信息为操作指令时,处理装置10可以从待回应信息集合中查找出与操作指令匹配的待回应信息。应当理解,在对用户输入的语音和动作信息进行分类处理的情况下,待回应信息集合中可以将与用户输入的各类信息分别对应的待回应信息进行相应的分类。例如,将与用户输入的语音信息对应的待回应信息作为一类,将与用户输入的操作指令对应的待回应信息作为一类等。从而实现对用户输入的各类信息的快速识别。
为了提高交互的智能性,可选地,所述人机交互装置20在获取用户的语音和动作信息之前,还用于检测是否接收到互动触发信号,若接收到所述互动触发信号,则将所述互动触发信号传递至所述处理装置10。所述处理装置10在获得所述互动触发信号之后,用于控制所述人机交互装置20展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
互动触发信号可以包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
互动引导信息可以包括文字、图像、音频视频或外接设备动作等,通过互动引导信息引导用户执行与所要选择的待回应信息对应的语音和动作,从而便捷、准确地实现智能交互。例如,在互动系统支持多个场景的交互时,可以通过输出装置展示进入不同场景所需执行的语音或者动作,用户执行所需进入的场景所对应的语音和动作,输入装置即可将用户所执行的语音和动作传递至处理装置10,处理装置10对该语音和动作进行识别,即可判定用户所要进入的场景,与用户的后续交互在该场景中做匹配。其 中,互动引导信息可以包括引导性的提问信息,基于用户对提问信息的回应,确定用户的意图。
在互动系统支持多个场景的交互时,所述待回应信息集合中可以包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息,例如一个场景中可以包括一个或者多个主题,每个主题下可以包括多个过程,每个过程里可以包括多个项目,每个项目可以包括多个子项目,每个子项目可以包括多个层等。相应地,所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息。与待回应信息集合的划分类似,输出信息集合亦可以进行对应的分级。例如,针对每个子项目分别设对应的待回应信息库和输出信息库,在待回应信息库中存储多个待回应信息,输出信息库中存储录制好的文字、图像、音频、视频、外接设备的动作等。各场景分别对应不同的待回应信息库和输出信息库,根据用户所选场景的不同,对应的待回应信息库和输出信息库被处理装置10进行选择和触发。本公开中,待回应信息和输出信息可以为一对一的关系,也可以为一对多的关系,对此不作限制。
该种“分级”架构,将复杂的交互工作分解成了多个输入和输出均相对简单的,便于处理的小项目,在各个小项目之间设逻辑关联,即可通过互动引导信息,引导用户便捷地进行交互,提高交互效率和准确性,进而提高交互体验。基于该种“分级”架构,处理装置10通过以下方式实现与用户的互动交互。
所述处理装置10用于根据所述人机交互装置20传递的所述用户的语音和动作信息,从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置20进行展示。
所述人机交互装置20用于展示所述第一输出信息,获取所述用户针对所述第一输出信息反馈的语音和动作信息,将所述用户针对所述第一输出信息反馈的语音和动作信息传递至所述处理装置10。
所述处理装置10用于根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置20进行展示。
所述人机交互装置20用于展示所述第二输出信息,获取所述用户针对所述第二输出信息反馈的语音和动作信息,将所述用户针对所述第二输出信息反馈的语音和动作信息传递至所述处理装置10。
所述处理装置10用于根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置20进行展示。
所述人机交互装置20用于展示所述第三输出信息,获取所述用户针对所述第三输出信息反馈的语音和动作信息,将所述用户针对所述第三输出信息反馈的语音和动作信息传递至所述处理装置10进行处理,直至完成与所述用户的所有交互。
为了提高交互的准确性,提高交互体验,互动系统还可以对用户的连续反馈做评估,以确保输出信息的正确性。如果出现用户反馈连续不满等情况,互动系统可以重新识别用户的语音和动作信息,重新确定输出信息,从而实现对输出信息的修正。或者,通知人工进行服务。
基于此,所述人机交互装置20还用于,在展示输出信息之后,获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置10。所述处理装置10用于根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则控制所述人机交互装置20重新获取用户的语音和动作信息,根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置20。所述人机交互装置20用于展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
其中,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
所述人机交互装置20在每次展示输出信息之后,还用于获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置10。所述处理装置10用于针对所述人机交互装置20传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息的步骤。或者,切换为人工服务。例如,若识别出的待回应信息为多个,默认选择匹配度最高的待回应信息进行输出,然而,根据用户的反馈信息得出,该匹配度最高的待回应信息未满足用户要求,那么进入确认待回应信息环节,通过请用户重复待回应信息,寻找匹配度次高的待回应信息输出并请用户确认,若用户确认匹配度次高的待回应信息准确,则播放与匹配度次高的待回应信息对应的输出信息。若用户确认匹配度次高的待回应信息不准确,则选择匹配度第三高的待回应信息进行输出,以此类推。若经过连续预设次数的输出,用户依然未确定出准确的待回应信息,则切换为人工服务。
通过判断将输出信息展示给用户后,用户的回应,如表情、动作、语音输入等,可以对待回应信息和输出信息的匹配关系进行调整,从而实现对待回应信息和输出信息的匹配关系的修正。例如,还可以集成修正互动系统的评价体系,从而实现对根据语音和动作信息查找出的待回应信息的修正,使用户的输入信息和互动系统的输出信息的匹配度越来越精确,以使之后的互动中,展示的输出信息准确。应当理解,既可以通过用户的反馈修正评价体系,也可以由管理人员手动修正评价体系。其中,自动修正评价体系和手动修正评价体系的功能也可以选择关闭,本公开对此不作限制。
为了进一步提升用户体验,处理装置10在根据用户的反馈信息分析得出输出信息不准确之后,还 可展示相应的交互引导信息,通过交互引导信息引导用户退出当前交互体系,重新对用户的语音和动作信息进行判断,从而再次判断进行何种交互,如进入哪一个交互场景等,或者直接退出交互,或者替换为人工服务等。其中,互动引导信息可以包括引导性的提问信息,基于用户对提问信息的回应,确定用户的意图。
根据实际需求,互动系统可以针对所有用户的反馈信息,通过大数据处理修正评价体系,从而使得用户的输入信息和互动系统的输出信息的匹配度更精确,提高互动系统工作的普适性。互动系统也可以针对单个用户,建立单独的账户,在该账户中,针对同一用户的输入信息、反馈信息、交互记录等进行统计和分析,根据统计和分析结果,对该用户的待回应信息和输出信息的对应关系进行修正,从而提高针对该用户交互的准确性,提高该用户的交互体验。
本公开中,可以在处理装置10中建立交互模型,对不同场景下各用户的输入信息以及互动系统所需对应输出的输出信息进行大数据搜集,结合人工录入等,对输入信息和输出信息进行归类、识别等处理后,生成输入信息和输出信息之间的逻辑关系,得到交互模型。根据交互模型,生成相应的待回应信息集合和输出信息集合,并按照逻辑关系与用户进行交互。应当理解,可以在同一交互模型中集成多种功能,例如,集成对用户输入的语音和动作信息的识别功能,根据识别结果从待回应信息集合中查找出匹配度最高的待回应信息的功能。又例如,集成根据反馈信息对交互模型的评价体系进行修正的功能等。交互模型也可以包括多个子模型,例如,对用户输入的语音和动作信息的识别功能,根据识别结果从待回应信息集合中查找出匹配度最高的待回应信息的功能,根据反馈信息对交互模型的评价体系进行修正的功能等可以通过不同的子模型实现。本公开对此不作限制。
在上述基础上,如图3所示,本公开提供一种互动方法,应用于处理装置10,所述处理装置10与人机交互装置20通信连接,所述方法包括以下步骤。
步骤S11,接收人机交互装置20传递的用户的语音和动作信息。
步骤S12,根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息。
步骤S13,将该输出信息传递至所述人机交互装置20进行展示,以实现与所述用户的交互。
可选地,在接收人机交互装置20传递的用户的语音和动作信息之前,所述方法还包括:
判断是否接收到互动触发信号,若接收到所述互动触发信号,则控制所述人机交互装置20展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
其中,所述互动触发信号包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
请结合参阅图4,所述方法还包括以下步骤。
步骤S21,接收所述人机交互装置20传递的用户针对所述输出信息的反馈信息。
步骤S22,根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则执行步骤S23。
步骤S23,控制所述人机交互装置20重新获取用户的语音和动作信息。
步骤S24,根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息。
步骤S25,将该输出信息传递至所述人机交互装置20,以使所述人机交互装置20展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
其中,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
可选地,所述待回应信息集合中包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息;所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息。
根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息的步骤,包括:根据所述用户的语音和动作信息,从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置20进行展示。接收所述人机交互装置20传递的所述用户针对所述第一输出信息反馈的语音和动作信息。根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置20进行展示。接收所述人机交互装置20传递的所述用户针对所述第二输出信息反馈的语音和动作信息。根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置20进行展示。接收所述人机交互装置20传递的所述用户针对所述第三输出信息反馈的语音和动作信息。根据所述用户针对所述第三输出信息反馈的语音和动作信息确定出新的待回应信息和输出信息,直至完成与所述用户的所有交互。
可选地,所述方法还包括:获得所述人机交互装置20传递的,每次展示输出信息之后所述用户的反馈信息。针对所述人机交互装置20传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的 第一输出信息的步骤;或者,切换为人工服务。
可选地,所述方法还包括:根据各所述反馈信息,对根据语音和动作信息查找出的待回应信息进行修正,以使之后的互动中,展示的输出信息准确。
本公开提供的互动方法,其实现原理和工作过程与前述互动系统类似,相应内容可以参阅前述互动系统中的描述,因而在此不作赘述。
本公开提供的互动系统、方法及处理装置,将不同场景中的人际互动拆分成不同的子项目,实现模型化处理。配合语音、图像识别技术和显示技术等,可以在很多领域取代需要人进行的交互工作,实现智能交互的普及。提供价格更低,质量更好的交流体验。例如,在信息的输出过程,还可以通过VR头盔、3D投影等增加显示效果的真实性。以商场导购的交互为例,假设一个导购的工资是3000元/月,一年需要3.6万元的工资投入,而通过摄像头、投影、话筒、麦克风等作为输入输出,一套设备的成本可以降低到1万元之内,从而显著降低成本。设置有反馈机制,通过对反馈信息的搜集,优化互动系统,提高交互的准确性。
在本公开所提供的几个实施例中,应该理解到,所揭露的互动系统和方法,也可以通过其它的方式实现。以上所描述的互动系统和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本公开的多个实施例的互动系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本公开各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的 其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本公开的可选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
工业实用性
本公开提供的互动系统、方法及处理装置,自动获取用户的语音和动作信息,进而分析得出与之匹配的待回应信息和输出信息,展示输出信息即可实现与用户的交互,无需局限于人形硬件,实现较为便捷。

Claims (20)

  1. 一种互动系统,其特征在于,包括人机交互装置和处理装置;
    所述人机交互装置用于获取用户的语音和动作信息,将获取的所述语音和动作信息传递至所述处理装置;
    所述处理装置用于根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置;
    所述人机交互装置用于展示所述输出信息,以实现与所述用户的交互。
  2. 根据权利要求1所述的互动系统,其特征在于,所述人机交互装置在获取用户的语音和动作信息之前,还用于检测是否接收到互动触发信号,若接收到所述互动触发信号,则将所述互动触发信号传递至所述处理装置;
    所述处理装置在获得所述互动触发信号之后,用于控制所述人机交互装置展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
  3. 根据权利要求2所述的互动系统,其特征在于,所述互动触发信号包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
  4. 根据权利要求1至3任意一项所述的互动系统,其特征在于,所述人机交互装置还用于,在展示输出信息之后,获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置;
    所述处理装置用于根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则控制所述人机交互装置重新获取用户的语音和动作信息,根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息,将该输出信息传递至所述人机交互装置;
    所述人机交互装置用于展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
  5. 根据权利要求4所述的互动系统,其特征在于,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
  6. 根据权利要求1至5任意一项所述的互动系统,其特征在于,所述待回应信息集合中包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息;所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息;
    所述处理装置用于根据所述人机交互装置传递的所述用户的语音和动作信息,从所述多个待回应信 息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置进行展示;
    所述人机交互装置用于展示所述第一输出信息,获取所述用户针对所述第一输出信息反馈的语音和动作信息,将所述用户针对所述第一输出信息反馈的语音和动作信息传递至所述处理装置;
    所述处理装置用于根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置进行展示;
    所述人机交互装置用于展示所述第二输出信息,获取所述用户针对所述第二输出信息反馈的语音和动作信息,将所述用户针对所述第二输出信息反馈的语音和动作信息传递至所述处理装置;
    所述处理装置用于根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置进行展示;
    所述人机交互装置用于展示所述第三输出信息,获取所述用户针对所述第三输出信息反馈的语音和动作信息,将所述用户针对所述第三输出信息反馈的语音和动作信息传递至所述处理装置进行处理,直至完成与所述用户的所有交互。
  7. 根据权利要求6所述的互动系统,其特征在于,所述人机交互装置在每次展示输出信息之后,还用于获取所述用户的反馈信息,将所述反馈信息传递至所述处理装置;
    所述处理装置用于针对所述人机交互装置传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息的步骤;或者,切换为人工服务。
  8. 根据权利要求7所述的互动系统,其特征在于,所述处理装置还用于根据各所述反馈信息,对待回应信息和输出信息的对应关系进行修正;
    所述处理装置还存储有针对单个用户的账户,在该账户中,针对同一用户的输入信息、反馈信息和交互记录进行统计和分析,根据统计和分析结果,对该用户的待回应信息和输出信息的对应关系进行修正。
  9. 根据权利要求1至8任意一项所述的互动系统,其特征在于,所述人机交互装置包括输入装置和输出装置;
    其中,所述输入装置包括话筒、摄像头和触摸显示屏,所述话筒用于收集用户的语音信息,所述摄 像头用于收集用户的图像和视频信息,所述触摸显示屏用于接收用户的操作指令信息;
    所述输出装置包括麦克风、投影机、虚拟设备和显示屏,所述麦克风用于播放语音信息,所述投影机、虚拟设备和显示屏用于展示画面信息。
  10. 根据权利要求1至9任意一项所述的互动系统,其特征在于,所述处理装置用于通过以下方式根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息:
    对所述语音和动作信息进行识别,得到识别结果,从待回应信息集合中查找出与所述识别结果匹配度最高的待回应信息作为匹配的待回应信息。
  11. 根据权利要求1至10任意一项所述的互动系统,其特征在于,输出信息包括文字、图像、音频、视频、外接设备执行动作中的至少一个。
  12. 一种互动方法,其特征在于,应用于处理装置,所述处理装置与人机交互装置通信连接,所述方法包括:
    接收人机交互装置传递的用户的语音和动作信息;
    根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息;
    将该输出信息传递至所述人机交互装置进行展示,以实现与所述用户的交互。
  13. 根据权利要求12所述的互动方法,其特征在于,在接收人机交互装置传递的用户的语音和动作信息之前,所述方法还包括:
    判断是否接收到互动触发信号,若接收到所述互动触发信号,则控制所述人机交互装置展示预设的互动引导信息,通过所述互动引导信息引导所述用户执行与所要选择的待回应信息对应的语音和动作。
  14. 根据权利要求13所述的互动方法,其特征在于,所述互动触发信号包括:检测到用户进入设定范围、检测到用户输入设定语音、检测到用户执行设定动作中的至少一项。
  15. 根据权利要求12至14任意一项所述的互动方法,其特征在于,所述方法还包括:
    接收所述人机交互装置传递的用户针对所述输出信息的反馈信息;
    根据所述反馈信息,判断输出信息是否准确,若判断得出所述输出信息不准确,则控制所述人机交互装置重新获取用户的语音和动作信息;
    根据重新获取的语音和动作信息从预存的待回应信息集合中重新查找出待回应信息,从预存的输出信息集合中查找出与重新查找出的待回应信息匹配的输出信息;
    将该输出信息传递至所述人机交互装置,以使所述人机交互装置展示与重新查找出的待回应信息匹配的输出信息,以实现与所述用户的重新交互。
  16. 根据权利要求15所述的互动方法,其特征在于,所述反馈信息包括所述用户的表情、动作、语音、语调、语意中的至少一个。
  17. 根据权利要求12至16任意一项所述的互动方法,其特征在于,所述待回应信息集合中包括与多个场景分别对应的多个待回应信息子集合,各所述场景对应的待回应信息子集合中包括分级存储的多个待回应信息;所述输出信息集合中包括与各所述待回应信息子集合分别对应的输出信息,以及与各所述待回应信息子集合中分级存储的各待回应信息分别对应的输出信息;
    根据所述语音和动作信息从预存的待回应信息集合中查找出匹配的待回应信息,从预存的输出信息集合中查找出与该待回应信息匹配的输出信息的步骤,包括:
    根据所述用户的语音和动作信息,从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息,将该第一输出信息发送至所述人机交互装置进行展示;
    接收所述人机交互装置传递的所述用户针对所述第一输出信息反馈的语音和动作信息;
    根据所述用户针对所述第一输出信息反馈的语音和动作信息,从与所述用户对应的待回应信息子集合中确定出与所述用户针对所述第一输出信息反馈的语音和动作信息对应的第一级待回应信息,以及与该第一级待回应信息对应的第二输出信息,将该第二输出信息发送至所述人机交互装置进行展示;
    接收所述人机交互装置传递的所述用户针对所述第二输出信息反馈的语音和动作信息;
    根据所述用户针对所述第二输出信息反馈的语音和动作信息,从与所述第一级待回应信息中确定出与所述用户针对所述第二输出信息反馈的语音和动作信息对应的第二级待回应信息,以及与该第二级待回应信息对应的第三输出信息,将该第三输出信息发送至所述人机交互装置进行展示;
    接收所述人机交互装置传递的所述用户针对所述第三输出信息反馈的语音和动作信息;
    根据所述用户针对所述第三输出信息反馈的语音和动作信息确定出新的待回应信息和输出信息,直至完成与所述用户的所有交互。
  18. 根据权利要求17所述的互动方法,其特征在于,所述方法还包括:
    获得所述人机交互装置传递的,每次展示输出信息之后所述用户的反馈信息;
    针对所述人机交互装置传递的每个反馈信息,判断相应的输出信息是否准确,若连续预设数量次的判断结果为输出信息不准确,则根据记录的所述用户的语音和动作信息,返回执行从所述多个待回应信息子集合中确定出与所述用户对应的待回应信息子集合,以及与该待回应信息子集合对应的第一输出信息的步骤;或者,
    切换为人工服务。
  19. 根据权利要求18所述的互动方法,其特征在于,所述方法还包括:根据各所述反馈信息,对待回应信息和输出信息的对应关系进行修正;
    以及,针对同一用户的输入信息、反馈信息和交互记录进行统计和分析,根据统计和分析结果,对该用户的待回应信息和输出信息的对应关系进行修正。
  20. 一种处理装置,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至11任一项所述的互动方法。
PCT/CN2018/105777 2018-09-14 2018-09-14 互动系统、方法及处理装置 WO2020051893A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/105777 WO2020051893A1 (zh) 2018-09-14 2018-09-14 互动系统、方法及处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/105777 WO2020051893A1 (zh) 2018-09-14 2018-09-14 互动系统、方法及处理装置

Publications (1)

Publication Number Publication Date
WO2020051893A1 true WO2020051893A1 (zh) 2020-03-19

Family

ID=69778344

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/105777 WO2020051893A1 (zh) 2018-09-14 2018-09-14 互动系统、方法及处理装置

Country Status (1)

Country Link
WO (1) WO2020051893A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105700438A (zh) * 2016-03-18 2016-06-22 北京光年无限科技有限公司 一种多关节小型机器人电控系统
CN105843382A (zh) * 2016-03-18 2016-08-10 北京光年无限科技有限公司 一种人机交互方法及装置
WO2017054309A1 (zh) * 2015-09-28 2017-04-06 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置
CN108304155A (zh) * 2018-01-26 2018-07-20 广州源创网络科技有限公司 一种人机交互控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017054309A1 (zh) * 2015-09-28 2017-04-06 百度在线网络技术(北京)有限公司 用于语音和视频通讯的交互控制方法及装置
CN105700438A (zh) * 2016-03-18 2016-06-22 北京光年无限科技有限公司 一种多关节小型机器人电控系统
CN105843382A (zh) * 2016-03-18 2016-08-10 北京光年无限科技有限公司 一种人机交互方法及装置
CN108304155A (zh) * 2018-01-26 2018-07-20 广州源创网络科技有限公司 一种人机交互控制方法

Similar Documents

Publication Publication Date Title
KR101825569B1 (ko) 흥미 알고리즘을 이용한 시청각 통신을 위한 기술
CN109189987A (zh) 视频搜索方法和装置
TWI674516B (zh) 動畫顯示方法及人機交互裝置
WO2016029561A1 (zh) 基于显示终端的数据处理方法
TW201719333A (zh) 語音控制系統及方法
CN112653902B (zh) 说话人识别方法、装置及电子设备
US20220214797A1 (en) Virtual image control method, apparatus, electronic device and storage medium
CN107077845A (zh) 一种语音输出方法及装置
CN108881649B (zh) 用于提供语音服务的方法和装置
WO2019223056A1 (zh) 基于手势识别的教学互动方法以及装置
CN111209417A (zh) 一种信息展示方法、服务器、终端及存储介质
CN111950425B (zh) 对象获取方法、装置、客户端、服务器、系统和存储介质
CN114490975B (zh) 用户问题的标注方法及装置
KR20150136312A (ko) 디스플레이 장치 및 이의 정보 제공 방법
CN108804440A (zh) 提供视频搜索结果的方法和装置
WO2020108024A1 (zh) 信息交互方法、装置、电子设备及存储介质
CN109819324A (zh) 一种信息推荐方法和装置及计算机可读存储介质
CN107547942A (zh) 一种二进制电视系统及方法
CN114363547A (zh) 一种双录装置、双录交互控制方法
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
CN114257824A (zh) 直播显示方法、装置、存储介质及计算机设备
WO2020051893A1 (zh) 互动系统、方法及处理装置
CN112533070A (zh) 视频声音和画面的调整方法、终端和计算机可读存储介质
CN111724638A (zh) 一种ar交互学习方法及电子设备
KR102122918B1 (ko) 대화형 질의응답 장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18933674

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18933674

Country of ref document: EP

Kind code of ref document: A1