WO2018000207A1

WO2018000207A1 - 基于单意图的技能包并行执行管理方法、系统及机器人

Info

Publication number: WO2018000207A1
Application number: PCT/CN2016/087525
Authority: WO
Inventors: 王昊奋; 邱楠; 杨新宇
Original assignee: 深圳狗尾草智能科技有限公司
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2018-01-04
Also published as: CN106663001A

Abstract

一种基于单意图的技能包并行执行管理方法，包括：获取用户的语音信息和多模态参数（S101）；根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值（S102）；根据融合排序的算法得到权重值最高的技能包（S103）。该管理方法采用的多个技能包并行执行更加便于模糊意图的理解，在选择的技能包出现失误时，由于是多个技能包并行执行，可以更快的切换到其他技能包，该管理方法容错率也更高，而对于整体来说，该管理方法的鲁棒性和稳健性更高，提高了机器人与用户交互的效率和用户好感度。

Description

基于单意图的技能包并行执行管理方法、系统及机器人

技术领域

本发明涉及机器人交互技术领域，尤其涉及一种基于单意图的技能包并行执行管理方法、系统及机器人。

背景技术

机器人作为与人类的交互工具，使用的场合越来越多，例如一些老人、小孩较孤独时，就可以与机器人交互，包括对话、娱乐等。机器人一般具有很多钟功能，这些功能在机器人系统中称之为技能包，一般一个技能包就对应着机器人的一个功能，例如唱歌是一个技能包，播放音乐也是一个技能包。机器人通常通过识别人类的语音等来了解人类想要机器人执行的技能包，机器人根据语音去搜索到相应的技能包然后执行。

然而，现有的机器人中的技能包管理和搜索效率较低，造成了机器人在交互过程中反应较慢，往往机器人在接受到命令数秒了才会有反应，大大降低了用户使用机器人的舒适度和好感度。

因此，如何提供一种反应速度更快的技能包并行执行管理方法、系统及机器人，提升人机交互体验成为亟需解决的技术问题。

发明内容

本发明的目的是提供一种反应速度更快的技能包并行执行管理方法、系统及机器人，提升人机交互体验。

本发明的目的是通过以下技术方案来实现的：

一种基于单意图的技能包并行执行管理方法，包括：

获取用户的语音信息和多模态参数；

根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

根据融合排序的算法得到权重值最高的技能包。

优选的，在获取用户的语音信息和多模态参数的步骤之后还包括：

根据获取的语音信息和多模态参数，识别用户意图；

所述根据所述语音信息和多模态参数同时向至少两个技能包分别分配权重值的步骤进一步包括：

根据识别的用户意图，通过计算同时向至少两个技能包分别分配权重值。

优选的，所述根据融合排序的算法得到权重值最高的技能包的步骤进一步包括：

判断各个技能包之间是否相互排斥，将存在排斥的技能包去除，并根据用户的历史数据分配权重值，得到权重值最高的技能包。

优选的，在所述根据融合排序的算法得到权重值最高的技能包的步骤之后，进一步包括：

将权重值最高的技能包发送至交互模块，并执行该技能包的功能。

优选的，所述多模态参数至少包括表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种。

一种基于单意图的技能包并行执行管理系统，包括：

获取模块，用于获取用户的语音信息和多模态参数；

搜索模块，用于根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

处理模块，用于根据融合排序的算法得到权重值最高的技能包。

优选的，所述系统还包括：

意图识别模块，用于根据获取的语音信息和多模态参数，识别用户意图；

所述匹配模块进一步用于：根据识别的用户意图，通过计算同时向至少两个技能包分别分配权重值。

优选的，所述处理模块进一步用于：

优选的，所述系统进一步包括：

发送执行模块，将权重值最高的技能包发送至交互模块，并执行该技能包的功能。

优选的，其中，所述多模态参数至少包括表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种。

一种机器人，包括如上述任一所述的一种基于单意图的技能包并行执行管理系统。

本发明公开一种机器人，包括如上述任一所述的一种基于单意图的技能包并行执行管理系统。

相比现有技术，本发明具有以下优点：本发明管理方法由于包括：获取用户的语音信息和多模态参数；根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；根据融合排序的算法得到权重值最高的技能包。这样就可以根据获取用户的语音信息和多模态参数，通过搜索模块的计算来对所有的技能包分配权重值，然后再通过融合排序的方法得到权重值最高的技能包，这样同时向所有的技能包分配权重值，通过技能包的并行触发，可以更快的找到相应的技能包，从而使得系统反应时间大大减少，并且通过并行发生模式，使得产品可以对用户做定制化的使用，对于不同的用户可以使用，扩大了系统的适用范围，并方便管理不同的技能包，并行的使用使得对于资源的管理更方便，使得产品的管理，如更新、调整、下架、修改等不影响用户的使用，并且可以提升产品程序开发的效率。本发明首次提出以技能包的管理方式，对机器人及机器人中的功能模块等进行管理，在并行管理的框架下，可以进一步地提高机器人的处理速度和效率，方便机器人更快更便捷的实现功能的启动，并且，本发明的管理方法和系统采用的多个技能包并行执行更加便于模糊意图的理解，在选择的技能包出现失误时，由于是多个技能包并行执行，可以更快的切换到其他技能包，本发明的管理方案容错率也更高，而对于整体来说，本发明的管理方法和系统的鲁棒性和稳健性更高，提高了机器人与用户交互的效率和用户好感度。

附图说明

图1是本发明实施例一的一种基于单意图的技能包并行执行管理方法的流程图；

图2是本发明实施例二的一种基于单意图的技能包并行执行管理系统的示意图。

具体实施方式

虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

计算机设备包括用户设备与网络设备。其中，用户设备或客户端包括但不限于电脑、智能手机、PDA等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云。计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制，使用这些术语仅仅是为了将一个单元与另一个单元进行区分。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

下面结合附图和较佳的实施例对本发明作进一步说明。

实施例一

如图1所示，本实施例中公开一种基于单意图的技能包并行执行管理方法，包括：

S101、获取用户的语音信息300和多模态参数400；

S102、根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

S103、根据融合排序的算法得到权重值最高的技能包。

本发明管理方法由于包括：S101获取用户的语音信息和多模态参数；S102根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；S103根据融合排序的算法得到权重值最高的技能包。这样就可以根据获取用户的语音信息和多模态参数，通过搜索模块的计算来对所有的技能包分配权重值，然后再通过融合排序的方法得到权重值最高的技能包，这样同时向所有的技能包分配权重值，通过技能包的并行触发，可以更快的找到相应的技能包，从而使得系统反应时间大大减少，并且通过并行发生模式，使得产品可以对用户做定制化的使用，对于不同的用户可以使用，扩大了系统的适用范围，并方便管理不同的技能包，并行的使用使得对于资源的管理更方便，使得产品的管理，如更新、调整、下架、修改等不影响用户的使用，并且可以提升产品程序开发的效率。

本发明首次提出以技能包的管理方式，对机器人及机器人中的功能模块等进行管理，在并行管理的框架下，可以进一步地提高机器人的处理速度和效率，方便机器人更快更便捷的实现功能的启动，并且，本发明的管理方法和系统采用的多个技能包并行执行更加便于模糊意图的理解，在选择的技能包出现失误时，由于是多个技能包并行执行，可以更快的切换到其他技能包，本发明的管理方案容错率也更高，而对于整体来说，本发明的管理方法和系统的鲁棒性和稳健性更高，提高了机器人与用户交互的效率和用户好感度。

语音信息300和多模态参数400可以分别通过语音模块和多模态模块获取到。

根据其中一个示例，在获取用户的语音信息和多模态参数的步骤之后还包括：

根据获取的语音信息和多模态参数，识别用户意图；

这样就可以在获取用户的语音信息和多模态参数之后，进一步的对获取的信息进行分析和研究，以识别用户的意图，获取用户的真实意思表达，以便搜索模块更加准确的计算，向每个技能包分配权重值。本发明中的单意图，一般是指识别用户其中的一种意图，以便于精确的分析用户意图。例如，比如用户说“我想听音乐”，音乐技能包直接播放音乐，这就是单意图。

本实施例中，所述多模态参数至少包括表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种。多模态参数的获取可以是通过摄像头，或其他如光感传感器、指纹识别模块等获取。本实施例中多模态参数中一般是指语音之外的其他参数。因为一般情况下，用户与机器人的交流是通过语音交流，而本发明中，除了获取语音信息外，还获取用户的多模态参数，例如表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种的组合，这样就可以更加准确的识别到用户的意图，了解用户真实的意思表达，从而更加准确的寻找对应的技能包。

根据其中一个示例，所述根据融合排序的算法得到权重值最高的技能包的步骤进一步包括：

例如，用户的语音信息为“噼里啪啦”，然后多模态参数为人脸参数显示用户一脸严肃的表情，这时机器人就根据获取的语音信心和多模态参数，搜索模块就向所有的技能包分配权重值，例如向播放音乐的技能包分配的权重值为75，向机器人处于安静模式的技能包分配的权重值为75，向机器人播放动画片的权重值为70，又根据用户的历史数据得到常用的技能包是播放动画片的技能包，这样系统就会将相互排斥的技能包，例如播放音乐的技能包和处于安静模式下的技能包去除，然后选择播放动画片的技能包。当然，如果根据用户的历史数据得到的常用的技能包是让机器人播放音乐，那么就会将互相排斥的技能包如处于安静模式的技能包和播放动画片的技能包去除，选择播放音乐技能包，作为权重值最高的技能包。

根据其中一个示例，在所述根据融合排序的算法得到权重值最高的技能包的步骤之后，进一步包括：

这样就可以在找到对应的技能包之后，就执行该技能包，从而让机器人体现该技能包对应的功能。

实施例二

如图2所示，本实施例中公开一种基于单意图的技能包并行执行管理系统，包括：

获取模块201，用于获取用户的语音信息和多模态参数，其中，语音信息和多模态参数可以分别通过语音模块301和多模态参数模块401获取到；

搜索模块202，用于根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

处理模块203，用于根据融合排序的算法得到权重值最高的技能包。

这样就可以根据获取用户的语音信息和多模态参数，通过搜索模块的计算来对所有的技能包分配权重值，然后再通过融合排序的方法得到权重值最高的技能包，这样同时向所有的技能包分配权重值，通过技能包的并行触发，可以更快的找到相应的技能包，从而使得系统反应时间大大减少，并且通过并行发生模式，使得产品可以对用户做定制化的使用，对于不同的用户可以使用，扩大了系统的适用范围，并方便管理不同的技能包，并行的使用使得对于资源的管理更方便，使得产品的管理，如更新、调整、下架、修改等不影响用户的使用，并且可以提升产品程序开发的效率。

根据其中一个示例，所述系统还包括：

这样就可以在获取用户的语音信息和多模态参数之后，进一步的对获取的信息进行分析和研究，以识别用户的意图，获取用户的真实意思表达，以便搜索模块更加准确的计算，向每个技能包分配权重值。

根据其中一个示例，所述处理模块进一步用于：

根据其中一个示例，所述系统进一步包括：

此外，本实施例中，还公开一种机器人，包括如上述任一所述的一种基于单意图的技能包并行执行管理系统。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

一种基于单意图的技能包并行执行管理方法，其特征在于，包括：

获取用户的语音信息和多模态参数；

根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

根据融合排序的算法得到权重值最高的技能包。
根据权利要求1所述的管理方法，其特征在于，在获取用户的语音信息和多模态参数的步骤之后还包括：

根据获取的语音信息和多模态参数，识别用户意图；

所述根据所述语音信息和多模态参数同时向至少两个技能包分别分配权重值的步骤进一步包括：

根据识别的用户意图，通过计算同时向至少两个技能包分别分配权重值。
根据权利要求2所述的管理方法，其特征在于，所述根据融合排序的算法得到权重值最高的技能包的步骤进一步包括：

判断各个技能包之间是否相互排斥，将存在排斥的技能包去除，并根据用户的历史数据分配权重值，得到权重值最高的技能包。
根据权利要求1所述的管理方法，其特征在于，在所述根据融合排序的算法得到权重值最高的技能包的步骤之后，进一步包括：

将权重值最高的技能包发送至交互模块，并执行该技能包的功能。
根据权利要求1所述的管理方法，其特征在于，所述多模态参数至少包括表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种。
一种基于单意图的技能包并行执行管理系统，其特征在于，包括：

获取模块，用于获取用户的语音信息和多模态参数；

搜索模块，用于根据所述语音信息和多模态参数，通过计算同时向至少两个技能包分别匹配权重值；

处理模块，用于根据融合排序的算法得到权重值最高的技能包。
根据权利要求6所述的管理系统，其特征在于，所述系统还包括：

意图识别模块，用于根据获取的语音信息和多模态参数，识别用户意图；

所述匹配模块进一步用于：根据识别的用户意图，通过计算同时向至少两个技能包分别分配权重值。
根据权利要求7所述的管理系统，其特征在于，所述处理模块进一步用于：

判断各个技能包之间是否相互排斥，将存在排斥的技能包去除，并根据用户的历史数据分配权重值，得到权重值最高的技能包。
根据权利要求6所述的管理系统，其特征在于，所述系统进一步包括：

发送执行模块，将权重值最高的技能包发送至交互模块，并执行该技能包的功能。
根据权利要求6所述的管理系统，其特征在于，其中，所述多模态参数至少包括表情参数、场景参数、图像参数、视频参数、人脸参数、瞳孔虹膜参数、光感参数和指纹参数中的其中一种或几种。
一种机器人，其特征在于，包括如权利要求6至10任一所述的一种基于单意图的技能包并行执行管理系统。