WO2019119916A1

WO2019119916A1 - 人机交互方法、系统及其电子设备

Info

Publication number: WO2019119916A1
Application number: PCT/CN2018/107891
Authority: WO
Inventors: 许建伟; 秦昌博
Original assignee: 科沃斯商用机器人有限公司
Priority date: 2017-12-22
Filing date: 2018-09-27
Publication date: 2019-06-27
Also published as: CN110019725A

Abstract

本申请实施例提供一种人机交互方法、系统及其电子设备，该方法包括：将用户的语音输入信息识别为文本信息，还包括：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；根据所述意图标签序列，查找数据库，输出商品推荐信息；本次人机交互结束，等待用户的下一次语音输入。本申请实施例基于机器翻译多标签意图分类器找到逻辑树控制下的意图标签序列，快速理清用户需求、提供推荐信息、话题切换自如，实现人机高效沟通。

Description

人机交互方法、系统及其电子设备

交叉引用

本申请引用于2017年12月22日递交的名称为“人机交互方法、系统及其电子设备”的第201711401906.4号中国专利申请，其通过引用被全部并入本申请。

技术领域

本申请涉及一种人机交互方法、系统及其电子设备，属于自动应答系统技术领域。

背景技术

在现有技术中，垂直领域的人机对话通常需要通过如下过程来完成：首先，一般是将接收的语言转化成文本向量化；然后，搜索预先设立的知识库或者数据库对应的答案；最后，将对应的答案以语音的形式输送给用户，从而实现完整的人机对话过程。现有的人机对话系统，更强调满足用户的需求，并没有同时从商家的角度考虑，借助人机对话系统，在用户对全部商品信息没有足够了解的基础上，如何满足商家对商品推荐的需求，进而达到营销推荐的目的。另外，现有的人机对话系统能够实现的对话内容比较单一，当出现用户意图切换改变、意图前后内容矛盾或者意图歧义的情况下，人机互动有可能无法再正常进行下去，严重影响用户的使用体验和机器人的工作效率。

发明内容

本申请所要解决的技术问题在于针对现有技术的不足，提供一种人机交互方法、系统及其电子设备，基于机器翻译多标签意图分类器找到逻辑树控制下的意图标签序列，在最短时间内理清用户需求，提供推荐信息，话题切换自如，在节省人工沟通成本的同时，还能够协助商家达成营销目的，实现人机高效沟通。

本申请所要解决的技术问题是通过如下技术方案实现的：

一种人机交互方法，包括：

步骤100：将用户的语音输入信息识别为文本信息，还包括：

步骤200：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；

步骤300：当所述意图标签序列为一个时，直接进入步骤400；

当所述意图标签为多个时，判断所述意图标签序列对应的意图节点路径是否唯一，如果是，进入步骤400；否则输出询问信息给用户，待用户回复后进入步骤100；

步骤400：根据所述意图标签序列，查找数据库，输出商品推荐信息；

步骤500：本次人机交互结束，等待用户的下一次语音输入。

具体来说，所述步骤200中的染色包括：将多个所述意图标签填充在逻辑树的意图槽中形成意图节点。

为了准确地识别用户的语音输入信息，所述步骤200进一步包括：

所述文本信息进行分词和文本向量化处理，得到对应的词向量；

将所述词向量通过机器翻译多标签意图分类器输出多个意图标签，将每个意图标签填充在逻辑树的意图槽中形成意图节点。

当用户的商品在商家提供的数据库中不存在时，为了及时结束人机交互，所述步骤200进一步包括：所述词向量通过机器翻译多标签意图分类器输出多个意图标签后，判断所述意图标签是否能够填充到逻辑树的意图槽中，如果无法填充，则直接进入步骤500，否则继续填充。

当用户同时提出多个意图时，为了及时结束人机交互，所述步骤200进一步包括：所述词向量通过机器翻译多标签意图分类器输出多个意图标签后，判断所述意图标签填充到逻辑树的意图槽是否为同一槽级中的互斥意图节点，如果是，则直接进入步骤500，否则继续填充。

为了给用户提供更好的服务，所述步骤500进一步包括：在人机交互结束前，输出促销信息。

所述步骤300中所述意图标签序列对应的意图节点路径是否唯一具体包括：从被填充的意图槽所形成的意图节点沿逻辑树的生长路径返回到根节点的路径是否唯一。

为了找到查找数据库，输出商品推荐信息的意图节点，所述步骤400进一步包括：

步骤401：判断被填充的意图槽中形成的意图节点是否为API意图节点，如果是则查找数据库，输出商品推荐信息；否则输出询问信息给用户，待用户回复后进入步骤100。

所述API意图节点是指包含了商品品类信息的意图节点。

为了提供更多的条件，所述步骤400进一步包括：

判断被填充的意图槽中形成的意图节点是否为可选节点，如果不是则进入步骤401；否则输出询问信息给用户，待用户回复后进入步骤100。

为了更有效地为用户提供对话，所述步骤100之后和步骤200之前还包括步骤110：

判断对话场景是否为业务逻辑对话，如果是，则进入步骤200；否则，进入问答对话，并对所述问答对话中的每一个用户语音输入都进行对话场景判断。

通常情况下，所述机器翻译多标签意图分类器为循环神经网络模型。

本申请还提供一种人机交互系统，包括：

语音识别模块：用于将用户的语音输入信息识别为用户文本信息；

业务逻辑对话模块：用于根据所述用户的文本信息，通过机器翻译多标签意图分类器，将所述文本信息输出多个意图标签，将多个所述意图标签填充在逻辑树的意图槽中形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列，确定要推荐的商品；

检索和对话生成模块：根据所述要推荐的商品，查找对应的数据库，输出对应的商品推荐信息。

所述人机交互系统还包括：

场景切分模块：该模块用于对用户输入语句提前预判，根据预判结果将用户输入语句输送到对应的模块，并由所述对应的模块给出相应回答。

本申请还提供一种导购机器人系统，包括：导购机器人和后台服务终端，所述导购机器人包括交互屏、语音识别单元、通讯单元、传感器单元和行走单元，其中，交互屏和语音识别单元用于将用户的语音输入信息识别为文本信息；

通讯单元用于导购机器人与后台服务终端之间的信号指令通讯；

所述后台服务终端包括处理单元、控制单元和存储单元，其中，

存储单元用于存储人机交互程序，所述程序在被处理单元读取执行时，执行如下操作：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；并根据所述意图标签序列，查找数据库，输出商品推荐信息；

控制单元用于输出信号指令，控制导购机器人执行相应动作。

所述交互屏进一步包括与所述语音识别单元相连的话筒、扩音器和触屏式中英文输入系统。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，所述存储器用于存储人机交互程序，所述程序在被处理单元读取执行时，执行如下操作：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；并根据所述意图标签序列，查找数据库，输出商品推荐信息。

综上所述，本申请提供一种人机交互方法、系统及其电子设备，基于机器翻译多标签意图分类器找到逻辑树控制下的意图标签序列，在最短时间内理清用户需求，提供推荐信息，话题切换自如，在节省人工沟通成本的同时，还能够协助商家达成营销目的，实现人机高效沟通。

下面结合附图和具体实施例，对本申请的技术方案进行详细地说明。

附图说明

图1为机器翻译多标签意图分类器的结构图；

图2为逻辑树模型示意图；

图3为本申请人机交互系统的模块通讯示意图；

图4为本申请实施例一预先定制的逻辑树模型示意图；

图5为本申请实施例二的搜索树示意图；

图6为本申请实施例三的搜索树示意图；

图7为本申请实施例四的搜索树示意图；

图8为本申请实施例五的搜索树示意图。

具体实施方式

本申请提供一种人机交互方法、系统及其电子设备，在具体的实施例中可以是基于机器翻译的一种导购机器人或服务机器人。图1为机器翻译多标签意图分类器的结构图。如图1所示，在机器翻译多标签意图分类器中，包括一逻辑树，所述逻辑树由ROOT根节点100和由根节点100衍生下来的第一槽级、第二槽级、第三槽级甚至更多槽级的意图节点200组成树状结构。每一个意图节点200对应一个意图标签400，意图标签400填充在意图槽中形成意图节点的过程为染色。

具体来说，本申请的工作原理是这样的：由于用户通常采用语音输入的方式与导购或服务机器人沟通，因此需要首先将用户的语音输入信息识别为文本信息300，即：转化成文本句子；随后对句子进行分词；并将分词后的句子向量化，这属于编码器部分的工作。然后将向量输入机器翻译多标签意图分类器，输出意图标签400，将意图标签400在逻辑树上染色成对应的意图节点200，找到意图节点200在逻辑树控制下对应的意图标签序列，该意图标签序列形成逻辑树中搜索树，也就是说，搜索树为逻辑树的一个子集。由于机器翻译多标签意图分类器输出的意图标签可能是一个或多个，因此，此时所形成的搜索树可能是一个或多个。当所述意图标签序列为一个时，直接根据所述意图标签序列，查找数据库，输出商品推荐信息；当所述意图标签为多个时，判断所述意图标签序列对应的意图节点路径是否唯一，如果是，也可以根据所述意图标签序列，查找数据库，输出商品推荐信息；否则输出询问信息给用户，待用户回复后重新识别为文本信息，继续判断，直到达到要求，能够输出商品推荐信息；或者因无法输出商品推荐信息而结束本次人机交互，等待用户的下一次语音输入。如上所述仅仅为本申请工作原理，核心内容为基于机器翻译多标签意图分类器和逻辑树的结合，通过由意图标签序列形成的搜索树，在最短时间内理清用户需求，提供推荐信息，实现人机高效沟通。

为了能够根据用户的语音输入信息快速确定用户的意图，输出商品推荐信息，具体步骤如下：

步骤S1：将用户的语音输入信息识别为文本信息；

步骤S2：对所述文本信息进行分词处理；在本步骤中，可以采用现有技术中任意一种分词工具对文本信息进行分词。例如，针对文字信息“我想买个电脑”，分词工具将其分为:我/想/买/个/电脑/；

步骤S3：将分词处理后的文本向量化，例如，通过在语料库中查询词向量，从而将文本转换为多个高维向量的组合。如前的例句，转化后的向量可以表示为：[V1,V2,V3,V4,V5,]，其中V1-V5为例句中各个分词的对应词向量。

词向量化技术包括有word2vec和fasttext。Fasttext技术可以处理OOV 词汇，在本实施例中选用该词向量化技术。

步骤S4：以所述词向量作为意图分类器的输入，得到意图标签。

其中，机器翻译多标签意图分类器为一个意图分类模型，以文本向量为输入，由逻辑树上的意图节点控制对应的意图标签为输出，通过输出的意图标签便可以确定是哪些意图以及它们的序列关系，通过对训练语料进行训练可以得到所述的意图分类模型。可以用循环神经网络(Recurrent Neural Networks，简称RNN)使用机器翻译编码解码过程来获得对应的模型公式。具体来说，编码器是机器翻译模型的左侧部分,将输入信息进行有序编码；解码器是机器翻译模型的右侧部分,将编码的信息进行解码,所述解码就是形成意图标签序列。

图2为逻辑树模型示意图。如图2并结合图1所示，所谓的逻辑树是根据商家的要求是所提供的信息预先定制的，逻辑树的复杂程度和细化程度与定制时所提供的信息量大小有关。逻辑树是根据商家的要求、商家提供的数据和业务架构信息构建的，具体场景预先设置好的,在一个固定场景下是静态的；而搜索树则是在人机对话过程中根据逻辑树生长出来的，是动态变化的。搜索树生长的整个过程是根据逻辑树广度优先遍历染色生成的，因此，搜索树总是逻辑树的一个子树。也就是说，搜索树的生长严格依赖于逻辑树上的染色过程,在对逻辑树的一个意图节点染色时,就能够得到该意图节点在逻辑树控制下的意图标签序列，即：搜索树。

如图2所示，为定制好的逻辑树模型，具体来说，逻辑树的结构包括了根节点100和在根节点100下生成的第一槽级L1上的意图节点200，所对应的意图标签的内容分别为A、B和C，其中A和B代表实体，即：具体意图，如：购物、吃饭等；C代表软节点，即：可选节点。所谓“可选节点”是用来表征一些隐藏特征和用户固有属性的，比如：特殊用户的画像，包括：年龄、性别和购买喜好等等，这些内容是根据消费习惯预设在逻辑树中的。在同一槽级的意图节点中，同一类型的意图节点彼此互斥,不同类型则不互斥，也就是说，如图2所示，A和B的类型相同是互斥的，采用虚线将两者框设起来，而可选节点C和A、B属于不同类型，因此彼此不互斥。设定同一槽级的意图节点中，同一类型的意图节点彼此互斥的意义在于，当话题从第一槽级中的A转换到B时，搜索树转换成了B的逻辑树控制下的意图标签序列，话题围绕着B的搜索树展开，由于B与A是互斥的，此时，A以及A的子树就会被从搜索树中删除，从而完成了一次意图切换。同时，软节点C经过几轮对话后，重要性也在不断降低，使用户的意图越来越明确。

另外，第一槽级L1的每一个意图节点200下还可以分出第二槽级L2的意图节点，比如：第一槽级意图节点200中的A可以分成下一级的意图节点中的D和E，且两者互斥；同样地，第一槽级意图节点200中的B可以分成下一级的意图节点中的F和G，且两者互斥，分别用虚线将两者框设起来，表示为第二槽级L2，以此类推。假设A代表的具体意图为“购物”，则A下一槽级的D和E可以分别代表“家电”和“数码”，而E的下一槽级H和I分别代表“手机”和“电脑”，由于H和I已经涉及到了具体的商品的品类，因此处于该槽级的意图节点为API意图节点210，以此类推，H的下一槽级J和K可以分别代表“苹果”和“三星”，就是商品的具体属性，比如品牌。在逻辑树中，所谓的API意图节点就是该意图节点对应的意图标签一般为商品的品类。商品的品类是根据商家的要求和普通消费者定义而成的。例如：空调、电视、手机等等。但API意图节点的位置和层级并不是固定的，要根据定制逻辑树时商家提供的信息量和细化程度来确定。确定API意图节点的意义在于，它是在数据库中查找商品推荐信息的节点，只有当被填充的意图槽中形成的意图节点为API意图节点时，就可以查找数据库，输出商品推荐信息了。所述数据库是大型的结构化数据库，可以由商家提供，其中会包括商品的型号规格、在商场或库房的摆放位置、库存数量等等具体的与商品有关的信息。另外，为了方便用户获得商品推荐信息，确定所要推荐的商品，首先需要对照数据库中的输出信息对照表，输出推荐的商品信息，然后对商品推荐信息进行自然语言渲染，使最后输出的结果以自然语言的方式语音输出。关于输出信息对照表中所述的输出信息，较佳为文本信息，根据输出格式的需求，例如一些非机器人平台，具有显示界面等设备时，可以输出文本信息，也可以输出语音信息，即在输出前，将文本信息转成语音信息，例如通过tts转为语音信息后播放。输出信息对照表与商品推荐信息可以为一一对应关系，也可以为一对多的对应关系，即：一个推荐商品可以对应多个输出信息，此时，可随机选取其中一个输出。为了提供更方便准确的服务，输出信息对照表基于商家的数据库会不断进行更新。

和大多数机器学习系统类似，本申请所提供的人机交互系统也分为训练单元和预测单元。训练的时候按照人工标注的结果进行机器学习训练；预测的时候使用预先训练好的模型预测。其中的训练，可以理解为建模过程，建模的时候会按照一定百分比使用所有人机交互对话，训练是使用计算硬件自动完成的。预测是使用训练的模型正式投入用户和机器人直接的交互过程。

在训练过程中，通过如下步骤获得相应数据：

步骤Sx：收集输入问句及输出答案的对应信息；

步骤Sy：为每一对输入问句对应信息标注意图。

经过步骤Sx和步骤Sy，得到的数据如表1所示：

表1

输入问题	意图
我要买东西	购物
手机	购物、数码产品、手机(API节点)
苹果的手机	购物、数码产品、手机(API节点)、苹果
128G	128G

在预测过程中，通过如下步骤获得意图标签序列：

将文本信息的词向量作为机器多标签意图分类器的输入，通过机器翻译多标签意图分类器得到一个或多个意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列，对应关系如表2所示：

表2

输入问题	意图标签序列
我要买东西	购物
手机	购物、数码产品、手机(API节点)
苹果的手机	购物、数码产品、手机(API节点)、苹果
128G	128G

经过上述语料训练方法，可以不断扩充语料，为本申请的人机交互提供充分、丰富的语料内容。语料库其实也是数据库的一个子库，属于数据库中的一部分。

在训练的时候，输出解码器部分由逻辑树的某一个路径(path)构成，该路径不包括根节点，使机器翻译能够学习到分类结果以及逻辑层级结构；路径的序列按照广度优先，即：搜索优先访问树的相邻节点并递归的完成整个树的遍历搜索，直到搜索完成。在预测的时候，机器翻译解码器给出的标签按照逻辑树排序，尤其在一些缺失标签的时候，逻辑树能够对机器翻译给出的标签做出严格的筛选和排序，输出的序列总是广度优先搜索树，根据输出序列染色并生成搜索树，因此搜索树是逻辑树的一个子集。

除了上述单元，人机交互系统中还设有一套人工标注辅助系统，可以大大减少人工标注的成本。具体来说，机器学习方法是基于旧的模型可以预先给出一组预测标签值，对人工对错的结果做修正，同时因为逻辑树的存在，可以对人工标注的结果进行强制修改。人工标注是指标注人员对每一句话结合上、下文给出标签，强制修改则是指在人工标注过程中，如果产生不符合逻辑树逻辑的标注，该标注会被识别到并强制修正或者提醒标注人员该标注存在错误。

图3为本申请人机交互系统的模块通讯示意图。如图3所示，为了顺利实现人机交互流程，本申请提供的人机交互系统至少要包括如下几种模块：业务逻辑对话模块、问答模块和开放域对话模块；还包换场景切分模块、机器状态控制模块和贮存模块，对话检索和生成模块。以下分别对上述各个模块的功能做详细地说明。

场景切分模块：该模块包含一个GBDT分类器，用于对用户输入语句提前预判，送入对应的模块，提高对话系统回答的准确性。例如：将用户咨询的问题语句送入对话系统问答模块，由问答模块给出相应回答。当场景切分模块将用户的输入送入业务逻辑对话模块后，就由机器翻译多标签意图分类器来预测用户意图。

业务逻辑对话模块：该模块包含一个逻辑控制器和机器多标签意图分类器，根据用户对话的上、下文引导用户。根据用户对话历史推断其喜好、进而推荐相关产品；也可以提供商家一些公共服务方面的信息。这个模块是主要让商家产生收益的模块，可以为商家节省大量人工成本。其中机器翻译多标签意图分类器包含编码和解码的功能,在训练时,机器翻译学习每个标签意图和逻辑树的结构,在预测时,机器翻译使用训练出来的模型输出意图标签和意图标签间的序列关系。

开放域对话模块：为了使对话系统生动有趣不呆板，开放域对话模块可以简单的应对用户宽泛的问题，例如：询问对话系统的名字，询问天气等。开放域对话模块回答特点是生动有趣，而且如果商家有需求，相应内容也可以整合到业务逻辑对话模块中，开放域对话模块主要使用上、下文相关的机器翻译方法和模板回复方法。

问答模块：主要为应对用户提出的知识范围内的问题咨询。例如：用户咨询某一个地点，询问商家当前的优惠活动等。这个模块可以直接精准的给出用户需要的信息。问答模块包换一个初等的问题类型分类器，将问题划分为地点咨询、存在咨询、可否咨询、实体定义咨询、列举和其他问题等等。

存贮模块：将对话语料和知识库存储在Lucene或Solr系统中。

检索和对话生成模块，用于完成自然语言的渲染：一旦识别到实体和用户意图后，检索问题的答案并通过模板生成的方法生成回复，在回复多样化的同时减少录入语料的规模。

上面列举的各个模块实际上是相互联系相互依存的。但任何一个模块的缺失都不会影响到整个对话系统的稳定性，在一部分模块缺失的情况下，对话系统的回答质量会下降而不是宕机。因此，本领域技术人员可以根据实际的需求，对上述模块进行选择组合，应用到人机互动系统中，从而实现相应的功能。

以下通过具体实施例，对本申请的人机交互过程进行详细地描述。

实施例一

图4为本申请实施例一预先定制的逻辑树模型示意图。如图4所示，对按照商家提供的信息定制的逻辑树，其中仅仅示意了部分信息而非全部，实际操作中定制的逻辑树中的信息量远远超出图4的示意范围，但基于图4所示的逻辑层次关系是不变的。具体来说，图4中的逻辑树在根节点下的第一级槽分为“吃饭”和“购物”两项意图，且该两项意图内容相斥；同一级中还包括“价位”，“价位”则为上述的软节点，与“吃饭”和“购物”不互斥。在“购物”这一节点之下，又分为节点“家电”、“数码”和“食品”，同一级中还包括“进口”，“进口”同样为软节点。而“家电”可以分为“空调”和“电视”；“空调”又进一步分为“大金”、“美的”等不同的品牌。“数码”的下一级可以分为“手机”、“平板”和“电脑”；“手机”按品牌可以包括“苹果”、“三星”和“华为”等等。而“食品”的下一级可以包括“水果”、“零食”等等。以此类推，还可以根据商家提供的更细化的信息继续分级。

在如图4所示的逻辑树预制完成之后，在用户的使用过程中，比如：用户的输入的语音为：“我要买大金的空调，挂在墙上的那种”，机器翻译多标签意图分类器将上述语音转化为文本句子并进行分词处理：我/要/买/大/金/的/空调/，/挂/在/墙/上/的/那/种；将上述分词通过在语料库中查询词向量，从而将文本转换为多个高维向量的组合，并通过Fasttext技术处理获得输出意图标签包括：购物、空调、大金，壁挂式，分别将上述意图标签填充到逻辑树的意图节点中，并找到与其对应的意图标签序列，即：购物-家电-空调-大金-壁挂式，而且从“壁挂式”这一意图节点，可以依此沿“大金-空调-家电-购物”返回到逻辑树的根目录，且路径唯一。通过判断，由于其中的“空调”已经属于API意图节点，因此可以根据上述意图标签序列查找数据库，输出商品推荐信息，获得最终包括产品型号、货架中的摆放位置等内容的具体的商品推荐信息，完成人机交互过程。

实施例二

图5为本申请实施例二的搜索树示意图。如图5所示为常规的人机交互流程，主要的人机对话可以包括如下内容：

人(1)你好！

机(2)你好！你需要购物还是吃饭？

人(3)购物，贵点儿的。

机(4)你要买什么呢？

人(5)手机。

机(6)你要什么品牌？

人(7)苹果的手机。

机(8)你要多大内存？

人(9)4G的。

输出的商品推荐信息：为您推荐苹果iphone TP手机。

从上述内容可知，本实施例与实施例一之间的区别在于，在实施例一中，用户直接说出了购买意图，而在本实施例中，是通过人机逐步对话的方式来确认用户的购买意图。具体的判断和确认过程是这样的：人(1)属于招呼用语，场景切分模块会直接对其内容进行判断，无需对其进行分词处理并直接发出机(2)作为自动回复。人(3)经过分词处理后，获得“购物”和“贵”两个意图标签，将逻辑树中的相应节点染色后，判断发现返回根节点的路径为两条，此时无法确定用户意图，发出机(4)做进一步判断。对人(5)的“手机”做分词处理后获得“手机”的意图标签，将逻辑树中的“手机”染色，找到“手机”所在的意图标签序列为“购物-数码-手机”，且该意图标签序列从“手机”返回根目录的路径唯一。如果在定制的逻辑树中，“手机”被预设为API意图节点，此时就可以直接搜索数据库，输出商品推荐信息了，而在本实施例的定制逻辑树中，“手机”这一槽级的意图节点还不是API意图节点，机(6)继续询问更细化的用户意图。根据人(7)的回答，从上次染色的“手机”意图节点开始，继续向下一级染色，获得“购物-数码-手机-苹果-4G”的意图标签序列，根据上述意图标签序列查找数据库，输出商品推荐信息，完成人机交互过程。

实施例三

图6为本申请实施例三的搜索树示意图。如图6所示为意图切换情况下的人机交互流程，当用户的商品需求从一种情况切换到另一种情况时，主要的人机对话可以包括如下内容：

人(1)你好！

机(2)你好！你需要购物还是吃饭？

人(3)我要买手机，贵的。

机(4)好的，你要什么品牌？

人(5)算了，我还是看看平板吧。

机(6)你要什么品牌？

人(7)看看三星的平板吧。

机(8)你要多大内存？

人(9)其实我想买空调。

机(10)你要多少匹的？

人(11)1.5P，美的的。

输出的商品推荐信息：为您推荐美的1.5P空调。

从上述内容可知，在本实施例中，从人(1)至机(4)的对话和实施例二相同，属于常规的人机对话方式。但是在人(3)中已经完成了对“购物-数码-手机”的染色，而人(5)的购买意图发生的变化，在人(5)之后，同时完成了对“购物-数码-平板”的染色，此时，“手机”和“平板”属于同一槽级相斥的两个意图，因此选择沿着“平板”的搜索树继续向下一槽级染色，而“手机”的搜索树随之删除。同样地，在人(9)中有发生了一次意图切换，此时的意图序列变成了“购物-家电-空调-美的-1.5P”，根据上述意图标签序列查找数据库，输出商品推荐信息，完成人机交互过程。

实施例四

图7为本申请实施例四的搜索树示意图。如图7所示为矛盾并存意图情况下的人机交互流程，当用户同时提出两种以上需求时，或者用户要求的商品商场中不存在时，主要的人机对话可以包括如下内容：

人(1)你好！

机(2)你好！你需要购物还是吃饭？

人(3)我要买苹果手机还有空调。

从上述的人机对话内容可知，在人(3)之后，找到并列的“购物-数码-手机-苹果”和“购物-家电-空调”两个意图标签序列，其中的“数码”和“家电”为同一槽级的互斥意图，用户的输入意图无法构建一条路径下的搜索树，调用普通回应，不再进行逻辑引导。

尽管本次人机交互中没有达成明确的意图，为了进一步为用户提供服务，还可以在判断无法进行逻辑引导之后主动输出促销信息，比如：手机卖场在三楼，空调卖场在四楼，欢迎光临。

如果人机对话的内容为：

人(1)你好，我要买炸弹。

切换到闲聊模块

机(2)商场二楼有促销大卖场，推荐您去看看。

从上述内容可知，当对人(1)的内容进行分词处理时，在定制的逻辑树中显然没有与“炸弹”对应的意图节点，此时，可以切换到闲聊模块或者主动输出促销信息。

如果人机对话的内容为：

人(1)你好，我要买安卓系统的苹果手机。

机(2)不存在这种商品。

同样地，从上述内容可知，当对人(1)的内容进行分词处理时，在定制的逻辑树中只可能出现“购物-数码-手机-苹果-IOS”和“购物-数码-手机-三星-安卓”意图标签序列，且“苹果”和“三星”又属于同一槽级上的互斥意图节点，无法进行逻辑引导，只能输出“不存在这种商品”作为人机互动咨询答复。

实施例五

图8为本申请实施例五的搜索树示意图。如图8所示为歧义节点从底到上的情况下的人机交互流程，主要的人机对话可以包括如下内容：

人(1)你好！

机(2)你好！你需要购物还是吃饭？

人(3)我要买苹果。

机(4)你要买手机、平板？还是水果呢？

人(5)我买手机。

机(6)好的，你要多大内存？

人(7)128G的。

输出的商品推荐信息：为您推荐iphone8，128G。

从上述内容可知，在人(3)之后，能够获得的意图标签序列至少可以包括“购物-数码-手机-苹果”、“购物-数码-平板-苹果”和“购物-食品-水果-苹果”三种，且从“苹果”返回到根目录的路径不是唯一的。当无法判断时,会做出机(4)的反问请求，使得当前选用的意图节点“苹果”有唯一的路径到达根节点。根据该唯一路径上的意图标签序列查找数据库，输出商品推荐信息，完成人机交互过程。

实施例六

以下表3仅以购买苹果手机为例，列出在不同条件下，可能会出现的输出信息的几种情形：

表3

从表3中所罗列的信息可知，本申请的总体原则是：根据用户输入的信息，通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列，如果从意图标签序列对应的意图节点到根节点的路径是唯一的，即可根据所述意图标签序列，查找数据库，输出商品推荐信息。当数据库中没有对应的商品推荐信息时，还可以以输出促销信息的方式来结束人机交互。

本申请还提供一种电子设备，包括：处理器以及存储器，所述存储器用于存储人机交互程序，所述程序在被处理单元读取执行时，执行如下操作：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；并根据所述意图标签序列，查找数据库，输出商品推荐信息。由上述内容可知，尽管在本申请的上述实施例中提供的是一种导购机器人，但在实际应用中，并不局限于此。只要提供一种电子设备，能够通过处理器实现人机交互，并调用存储器中的人机交互程序，经过上述的一系列处理，即可实现对信息的推荐。显然，所推荐的信息也不仅仅局限于商品信息，可以根据实际需要而定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种人机交互方法，其特征在于，包括：

将用户的语音输入信息识别为文本信息；

将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；

根据所述意图标签序列，查找数据库，输出商品推荐信息。
如权利要求1所述的人机互动方法，其特征在于：

当所述意图标签序列为一个时，直接根据所述意图标签序列，查找数据库，输出商品推荐信息；

当所述意图标签为多个时，判断所述意图标签序列对应的意图节点路径是否唯一，如果是，则根据所述意图标签序列，查找数据库，输出商品推荐信息；否则输出询问信息给用户，待用户回复后，返回将用户的语音输入信息识别为文本信息的处理。
如权利要求1所述的人机交互方法，其特征在于，所述染色包括：将多个所述意图标签填充在逻辑树的意图槽中形成意图节点。
如权利要求1所述的人机交互方法，其特征在于，将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列进一步包括：

所述文本信息进行分词和文本向量化处理，得到对应的词向量；

将所述词向量通过机器翻译多标签意图分类器输出多个意图标签，将每个意图标签填充在逻辑树的意图槽中形成意图节点。
如权利要求4所述的人机交互方法，其特征在于，将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列进一步包括：所述词向量通过机器翻译多标签意图分类器输出多个意图标签后，判断所述意图标签是否能够填充到逻辑树的意图槽中，如果无法填充，则直接结束本次人机交互，否则继续填充。
如权利要求4所述的人机交互方法，其特征在于，将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列进一步包括：

所述词向量通过机器翻译多标签意图分类器输出多个意图标签后，判断所述意图标签填充到逻辑树的意图槽是否为同一槽级中的互斥意图节点，如果是，则直接结束本次人机交互，否则继续填充。
如权利要求5或6所述的人机交互方法，其特征在于，所述结束本次人机交互前，输出促销信息。
如权利要求1所述的人机交互方法，其特征在于，所述意图标签序列对应的意图节点路径是否唯一具体包括：从被填充的意图槽所形成的意图节点沿逻辑树的生长路径返回到根节点的路径是否唯一。
如权利要求1所述的人机交互方法，其特征在于，根据所述意图标签序列，查找数据库，输出商品推荐信息进一步包括：

判断被填充的意图槽中形成的意图节点是否为API意图节点，如果是则查找数据库，输出商品推荐信息；否则输出询问信息给用户，待用户回复后，返回将用户的语音输入信息识别为文本信息的处理。
如权利要求8所述的人机交互方法，其特征在于，根据所述意图标签序列，查找数据库，输出商品推荐信息进一步包括：

判断被填充的意图槽中形成的意图节点是否为可选节点，如果不是则判断被填充的意图槽中形成的意图节点是否为API意图节点，如果是则查找数据库，输出商品推荐信息；否则输出询问信息给用户，待用户回复后，返回将用户的语音输入信息识别为文本信息的处理；否则输出询问信息给用户，待用户回复后，返回将用户的语音输入信息识别为文本信息的处理。
如权利要求1所述的人机交互方法，其特征在于，

在将用户的语音输入信息识别为文本信息之后，

将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列之前，

还包括：

判断对话场景是否为业务逻辑对话，如果是，则将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；否则，进入问答对话，并对所述问答对话中的每一个用户语音输入都进行对话场景判断。
如权利要求1所述的人机交互方法，其特征在于，所述机器翻译多标签意图分类器为循环神经网络模型。
一种人机交互系统，包括：

语音识别模块：用于将用户的语音输入信息识别为用户文本信息；

业务逻辑对话模块：用于根据所述用户的文本信息，通过机器翻译多标签意图分类器，将所述文本信息输出多个意图标签，将多个所述意图标签填充在逻辑树的意图槽中形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列，确定要推荐的商品；

检索和对话生成模块：根据所述要推荐的商品，查找对应的数据库，输出对应的商品推荐信息。
如权利要求13所述的人机交互系统，其特征在于，所述人机交互系统还包括：

场景切分模块：该模块用于对用户输入语句提前预判，根据预判结果将用户输入语句输送到对应的模块，并由所述对应的模块给出相应回答。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，所述存储器用于存储人机交互程序，所述程序在被处理单元读取执行时，执行如下操作：将所述文本信息通过机器翻译多标签意图分类器输出意图标签，将所述意图标签在逻辑树上染色形成意图节点，找到所述意图节点在逻辑树控制下对应的意图标签序列；并根据所述意图标签序列，查找数据库，输出商品推荐信息。