WO2020073248A1

WO2020073248A1 - 一种人机交互的方法及电子设备

Info

Publication number: WO2020073248A1
Application number: PCT/CN2018/109704
Authority: WO
Inventors: 张晴; 张锦辉; 张轶博
Original assignee: 华为技术有限公司
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2020-04-16
Also published as: CN112154431A; JP7252327B2; EP3855338A4; US11636852B2; US20210383798A1; EP3855338A1; KR20210062704A; JP2022515005A

Abstract

一种人机交互的方法及电子设备(100)，涉及通信技术领域，有利于准确识别用户的目的，满足用户的需求，提升用户体验，该方法具体包括：在人机对话交互的过程中，服务器(200)对用户话语进行槽位提取时，若存在有未提取到信息的槽位，且该槽位为非必填关键槽位时，服务器(200)向用户发问，以确定该槽位的信息是否必要，若为必要信息，则服务器(200)进一步提取该槽位的信息，若不必要，则服务器(200)不再提取该槽位的信息。

Description

一种人机交互的方法及电子设备

技术领域

本申请涉及通信技术领域，尤其涉及一种人机交互的方法及电子设备。

背景技术

人机对话系统，或称之为人机对话平台、聊天机器人(chatbot)等，是新一代的人机交互界面。聊天机器人可以与用户进行对话，并在对话过程中识别出用户的意图，并为该用户提供例如订餐、订票、打车等服务。

如图1A所示，为一个聊天机器人与用户的对话过程的举例。以该举例说明聊天机器人的工作过程，该工作过程可以包括：开放域对话、准入条件和封闭域对话。其中，开放域对话是指聊天机器人还未识别出用户意图进行对话。在用户说出“帮我叫个车”时，聊天机器人经过逻辑判断(即准入条件)，确定出用户意图(即叫车服务)后，跳转到封闭域对话。封闭域对话是指识别用户意图后，为了明确用户目的(或者称为明确任务细节)而进行的对话。

封闭域对话中具体包含填充槽位(简称为填槽)、澄清话术和响应结果的过程。其中，填槽过程指的是为了让用户意图转化为用户明确的指令而补全信息的过程。其中，槽位可以理解为用户用来表达意图的关键信息。例如，在图1A中所示的对话中，打车服务的槽位有：出发地的槽位、目的地的槽位和出发时间的槽位。聊天机器人根据与用户的对话，提取这些槽位的信息(例如包括槽位的取值等)。当槽位的信息中缺乏一些必要信息时，聊天机器人会主动发问，由用户进行回答，以便聊天机器人在从用户回答中补全必要的槽位信息，这个过程称之为澄清话术的过程。当聊天机器人将槽位信息收集齐全后，可以执行相应的操作，例如为用户去打车应用下单，下单后告知用户，即响应结果的过程。

目前，槽位有两种分类，一类为必填槽位，另一类为非必填槽位。当聊天机器人未提取到必填槽位的信息时，聊天机器人主动发问，要求用户澄清，直到提取到必填槽位的信息。当聊天机器人未提取到非必填槽位的信息时，聊天机器人不会发问，直接按照没有非必填槽位的信息，去执行相应的操作。

在实际的场景中，常常会因为用户输入错误或者语音识别错误，或者槽位提取的算法不足够准确等因素，造成聊天机器人未提取到一些非必填槽位的关键信息，进而造成聊天机器人之后执行的操作可能不满足用户的需求。例如：在图1A所示的对话中，用户说出的“拼车吧”可以是一个非必填槽位的关键信息。当聊天机器人未准确提取出该关键信息时，可能不会为用户预约拼车，违背了用户的意愿，严重影响用户体验。

发明内容

本申请提供的一种人机交互的方法及电子设备，可以准确识别用户的目的，满足用户的需求，提升用户体验。

第一方面，本申请提供的方法，可运用于人机对话系统中，包括：服务器接收第一输入，第一输入包含用户的服务需求；服务器根据第一输入，确定第一输入对应的第一领域，第一领域为用户的服务需求对应的任务场景；服务器将第一输入分发到第一领域对应的意图识别模型中，识别出第一输入对应的第一意图，第一意图为第一领域中的子场景；服务器从第一输入中提取第一意图中第一槽位的信息；其中，第一意图中预先配置有第一槽位，且第一槽位为非必填关键槽位；当服务器确定未提取到第一槽位的信息时，服务器向用户提问，以确定第一槽位的信息是否必要；服务器接收第二输入，第二输入包含用户确认的第一槽位的信息是否必要的信息；若用户确认第一槽位的信息为必要信息，则服务器从第二输入中提取第一槽位的信息；服务器根据第一意图，以及第一槽位的信息执行第一意图对应的操作；若用户确认第一槽位的信息为非必要信息，则服务器不提取第一槽位的信息；服务器根据第一意图执行第一意图对应的操作。

其中，第一输入可以是用户与服务器200的单轮对话中的一次话语，也可以是用户与服务器200的多轮对话中的多次话语，本申请实施例不做限定。

其中，第二输入可以是用户与服务器200的单轮对话中的一次话语，也可以是用户与服务器200的多轮对话中的多次话语，本申请实施例不做限定。

可以理解的是，非必填关键槽位是指，用户在表达自己意图时，并不一定要表达该槽位的信息。若没有表达该槽位的信息，则聊天机器人可以忽略该槽位的信息。但如果用户表达了该槽位的信息，则聊天机器人需要准确提取到该槽位的信息。

由此可见，本申请实施例中，在服务器根据用户话语自动提取预先设置的各个槽位的信息的过程中，若存在未提取到信息的槽位时，且该槽位为非必填关键槽位时，聊天机器人会主动向用户进行确认。确认是否可以缺少该非必填关键槽位的信息，若不可以缺少，则根据用户的回答继续提取该非必填关键槽位的信息。若可以缺少，则不再提取该非必填关键槽位的信息，也就是不再向用户进行确认。这样，当聊天机器人在未提取出非必填关键槽位的信息时，还可以向用户进行确认，以确保准确识别用户的目的，满足用户的需求，提升用户体验。

一种可能的实现方式中，服务器从第一输入中提取第一意图中第一槽位的信息包括：

服务器将第一输入中识别出的各个词或各个实体输入到第一槽位对应的槽位提取模型中，分别计算第一输入中各个词或各个实体对应的置信度；若第一输入中的第一词或者第一实体的置信度大于或等于第一阈值，则服务器确认第一词或者第一实体为第一槽位的信息；若第一输入中各个词或者各个实体的置信度均小于第一阈值，则服务器确定未提取到第一槽位的信息。

一种可能的实现方式中，该方法还包括：若第一槽位对应于自定义槽位类型，则服务器分别计算第一输入中识别出的各个实体与自定义槽位类型中的各个词的相似度。

若第一输入中识别出的各个实体与自定义槽位类型中的各个词的相似度均小于第二阈值，则服务器确认第一输入中不含有第一槽位的信息；若第一输入中第二实体与自定义槽位类型中的第二词的相似度大于或等于第三阈值，则服务器确认第二词为第一槽位的信息；若第一输入中存在任一实体与自定义槽位类型中的任一词的相似度大于或等于第二阈值，且小于第三阈值时，服务器确认向用户提问，以确定第一槽位的信息是否必要。

其中，判断实体与用户词典中的关键词的相似度时，例如可以采用基于拼音相似度的算法，字符串相似度的算法等，计算第一输入中识别出的实体与用户词典中关键词的编辑距离，以确定两者的相似程度。还可以是采用深度学习词向量、句子向量等方法计算词或短语的相似度。本申请实施例对计算相似度的方法不做限定。

考虑到在用户输入错误，或者语音识别错误的情况下，可能造成用户说了第一槽位的信息，但服务器未提取到第一槽位的信息。服务器200可以采用纠错的方法，确定从用户话语(即第一输入)中识别的实体与用户词典中的关键词较为相似时，才触发向用户进行确认的机制。这样，有利于减少向用户进行确认的次数，避免对用户过多打扰，有利于提升用户体验。

一种可能的实现方式中，该方法还包括：若第一输入中的各个词或者各个实体的置信度均小于第四阈值，则服务器确认第一输入中不含有第一槽位的信息；若第一输入中存在任一词或者任一实体的置信度小于第一阈值，且大于或等于第四阈值时，则服务器确认向用户提问，以确定第一槽位的信息是否必要。

考虑到在用户正确表达了第一槽位的信息时，可能由于槽位提取模型自身不够准确，造成未提取到第一槽位信息的情况。例如：由于技能开发者在训练槽位提取模型之前，输入的用户说法的数量较少，或者输入的用户说法不足够准确等因素，造成服务器训练生成槽位提取模型也不足够准确。那么，此时，用户可以设置一个确认阈值，当槽位提取模型对从用户话语中识别出的实体给出的槽位标注概率值大于该确认阈值时，服务器触发向用户进行确认的机制。这样，有利于减少向用户进行确认的次数，避免对用户过多打扰，有利于提升用户体验。

一种可能的实现方式中，若用户确认的第一槽位的信息为必要信息，则服务器从第二输入中提取第一槽位的信息包括：若用户确认第一槽位的信息为必要信息，则服务器采用第一槽位对应的槽位提取模型或者采用规则，从第二输入中提取第一槽位的信息。

针对同一个实体，同一个槽位提取模型，槽位提取模型可能在第一次时不能正确识别该实体，但在第二次时能正确识别出该实体。这是因为，用户在第一次说出该实体时，语句中很可能包含有其他实体，即该实体存在上下文。槽位提取模型不足够准确时，即有可能会因为没有识别出这些上下文，而导致该实体也未识别出。而后，服务器在第一次不能识别该实体时，向用户针对该实体进行提问，那么用户回答则是针对该实体回答。此时，用户回答可能只包含该实体，或者包含极少的上下文。那么，槽位提取模型很可能在本次识别出该实体。在另一些实施例中，针对用户回答，也可以采用非槽位提取模型的方式来识别该实体，例如可以启用规则识别该实体。其中，规则是指可以结合用户回答的上下文逻辑、用户意图的关联性、实体与第一槽位中的对应关系等因素进行识别。这样，也能有效的提高服务器识别用户第二次或以上次数说出实体的概率。

一种可能的实现方式中，第一意图中还预先配置有第二槽位，且第二槽位为必填槽位，的人机交互的方法还包括：当服务器确定未提取到第二槽位的信息时，服务器向用户提问，以便提取第二槽位的信息；服务器接收第三输入，并从第三输入中提取第二槽位的信息，第三输入包含用户的回答；服务器根据第一意图，第一槽位的信息，以及第二槽位的信息执行第一意图对应的操作；或者，服务器根据第一意图，以及第二槽位的信息执行第一意图对应的操作。

一种可能的实现方式中，第一意图中还预先配置有第三槽位，且第三槽位为非必填非关键槽位，的人机交互的方法还包括：当服务器确定未提取到第三槽位的信息时，服务器不提取第三槽位的信息。

第二方面、一种服务器，可运用于人机对话系统中，包括：通信接口、存储器和处理器；通信接口、存储器与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，以使得服务器执行如下步骤：

通过通信接口接收第一输入，第一输入包含用户的服务需求；根据第一输入，确定第一输入对应的第一领域，第一领域为用户的服务需求对应的任务场景；将第一输入分发到第一领域对应的意图识别模型中，识别出第一输入对应的第一意图，第一意图为第一领域中的子场景；从第一输入中提取第一意图中第一槽位的信息；其中，第一意图中预先配置有第一槽位，且第一槽位为非必填关键槽位；当服务器确定未提取到第一槽位的信息时，向用户提问，以确定第一槽位的信息是否必要；通过通信接口接收第二输入，第二输入包含用户确认的第一槽位的信息是否必要的信息；若用户确认第一槽位的信息为必要信息，则从第二输入中提取第一槽位的信息；根据第一意图，以及第一槽位的信息执行第一意图对应的操作；若用户确认第一槽位的信息为非必要信息，则不提取第一槽位的信息；根据第一意图执行第一意图对应的操作。

一种可能的实现方式中，处理器从第一输入中提取第一意图中第一槽位的信息具体包括：处理器将第一输入中识别出的各个词或各个实体输入到第一槽位对应的槽位提取模型中，分别计算第一输入中各个词或各个实体对应的置信度；若第一输入中的第一词或者第一实体的置信度大于或等于第一阈值，则确认第一词或者第一实体为第一槽位的信息；若第一输入中各个词或者各个实体的置信度均小于第一阈值，则确定未提取到第一槽位的信息。

一种可能的实现方式中，处理器还用于若第一槽位对应于自定义槽位类型，则分别计算第一输入中识别出的各个实体与自定义槽位类型中的各个词的相似度。

若第一输入中识别出的各个实体与自定义槽位类型中的各个词的相似度均小于第二阈值，则确认第一输入中不含有第一槽位的信息；若第一输入中第二实体与自定义槽位类型中的第二词的相似度大于或等于第三阈值，则确认第二词为第一槽位的信息；若第一输入中存在任一实体与自定义槽位类型中的任一词的相似度大于或等于第二阈值，且小于第三阈值时，则确认向用户提问，以确定第一槽位的信息是否必要。

一种可能的实现方式中，处理器还用于若第一输入中的各个词或者各个实体的置信度均小于第四阈值，则确认第一输入中不含有第一槽位的信息；若第一输入中存在任一词或者任一实体的置信度小于第一阈值，且大于或等于第四阈值时，则确认向用户提问，以确定第一槽位的信息是否必要。

一种可能的实现方式中，若用户确认第一槽位的信息为必要信息，则处理器从第二输入中提取第一槽位的信息具体包括：若用户确认第一槽位的信息为必要信息，则处理器采用第一槽位对应的槽位提取模型或者采用规则，从第二输入中提取第一槽位的信息。

一种可能的实现方式中，在第一意图中还预先配置有第二槽位，且第二槽位为必填槽位时，处理器还具体用于当处理器确定未提取到第二槽位的信息时，向用户提问，以便提取第二槽位的信息；通过通信接口接收第三输入，并从第三输入中提取第二槽位的信息，第三输入包含用户的回答；根据第一意图，第一槽位的信息，以及第二槽位的信息执行第一意图对应的操作；或者，根据第一意图，以及第二槽位的信息执行第一意图对应的操作。

一种可能的实现方式中，在第一意图中还预先配置有第三槽位，且第三槽位为非必填非关键槽位时，处理器还具体用于当确定未提取到第三槽位的信息时，不提取第三槽位的信息。

第三方面、一种计算机存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端执行如第一方面及其中任一种可能的实现方式中所述的方法。

第四方面、一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面中及其中任一种可能的实现方式中所述的方法。

附图说明

图1A为现有技术中一种人机对话的终端界面示意图；

图1B为本申请实施例提供的一种人机对话的终端界面示意图；

图2为本申请实施例提供的一种人机对话系统的组成示意图一；

图3为本申请实施例提供的一种人机对话系统的组成示意图二；

图4为本申请实施例提供的一种电子设备的结构示意图；

图5为本申请实施例提供的一些电子设备的界面示意图；

图6为本申请实施例提供的又一些电子设备的界面示意图；

图7为本申请实施例提供的又一些电子设备的界面示意图；

图8为本申请实施例提供的又一些电子设备的界面示意图；

图9为本申请实施例提供的一种人机交互的方法的流程示意图一；

图10为本申请实施例提供的一种人机交互的方法的流程示意图二；

图11为本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

考虑到现有技术中，存在由于用户输入错误或者语音识别错误，或者槽位提取的算法不足够准确等因素，造成聊天机器人未提取到一些非必填槽位的关键信息，进而造成聊天机器人之后执行的操作不满足用户需求的情况。本申请实施例提供了一种人机交互的方法，进一步将非必填槽位划分为非必填关键槽位和非必填非关键槽位。并且，为非必填关键槽位配置了用户确认机制。也就是说，在聊天机器人根据用户话语自动提取预先设置的各个槽位的信息的过程中，若存在未提取到信息的槽位时，且该槽位为非必填关键槽位时，聊天机器人会主动向用户进行确认。确认是否可以缺少该非必填关键槽位的信息，若不可以缺少，则根据用户的回答继续提取该非必填关键槽位的信息。若可以缺少，则不再提取该非必填关键槽位的信息，也就是不再向用户进行确认。这样，当聊天机器人在未提取出非必填关键槽位的信息时，还可以向用户进行确认，以确保准确识别用户的目的，满足用户的需求，提升用户体验。

例如：如图1B所示，为本申请实施例提供的一个聊天机器人与用户的对话过程的举例。其中，“拼车”被配置为打车应用中的一个非必填关键槽位。在与用户的对话中，用户说了“拼车吧”，但聊天机器人没有提取到该信息(即非必填关键槽位的信息)。在这种情况下，聊天机器人需要向用户进行进一步确认，向用户提问“是否可以拼车”。再从用户的回答中提取非必填关键槽位的信息，以确保准确执行用户意图。

若用户的回答为“拼车”，则表示用户愿意拼车，该非必填关键槽位的信息重要，聊天机器人提取该非必填关键槽位的信息后，可以为用户下拼车的订单。若用户的回答为“不拼车”，则表示用户不愿意拼车，该非必填关键槽位的信息重要，聊天机器人提取该非必填关键槽位的信息后，可以为用户下非拼车的订单。若用户的回答为“无所谓”，则表示该非必填关键槽位的信息不重要，聊天机器人可以不考虑拼车的因素，为用户下单。可以理解的是，针对非必填关键槽位的信息向用户确认，既可以完成对重要的非必填关键槽位信息的提取，又有利于进一步确认用户的意愿，更有利于提升聊天机器人执行用户意图的准确性，提升用户体验。

本申请实施例提供的一种人机交互的方法，可运用于如图2所示的人机对话系统中。该人机对话系统包括电子设备100以及一个或多个服务器200(例如：聊天机器人)。电子设备100还可以与服务器200之间可以采用电信网络(3G/4G/5G等通信网络)或者WIFI网络等建立连接，本申请实施例对此不做限定。

其中，用户可以通过电子设备100，与服务器200进行人机对话。电子设备100可以为手机、平板电脑、个人计算机(Personal Computer，PC)、个人数字助理(personal digital assistant，PDA)、智能手表、上网本、可穿戴电子设备、增强现实技术(Augmented Reality，AR)设备、虚拟现实(Virtual Reality，VR)设备、车载设备、智能汽车、智能音响等，本申请对该电子设备100的具体形式不做特殊限制。

服务器200，服务器200可以为电子设备100提供人机对话的服务，可以根据电子设备输入的用户话语，识别出用户意图，以了解用户需求，并为该用户提供相应的服务。服务器200可以是电子设备100的厂商的服务器，例如可以是电子设备100中语音助手的云服务器等，服务器300还可以是其他应用的服务器，本申请实施例不做限定。

在一些实施例中，服务器200还可以与一个或多个第三方应用的服务器300建立通信连接，以便服务器200在了解用户的需求后，向相应的第三方应用的服务器300发送相应的服务请求，并且将第三方应用的服务器300的响应信息返回给电子设备100。在另一些实施例中，服务器200还可以与第三方应用的电子设备400建立通信连接，以便第三方应用的开发者或管理者通过电子设备400，登录到服务器200上，对自身提供的服务进行配置和管理等。

如图3所示，为本申请实施例提供的另一种人机对话系统的框架图。下面结合该框架图，先对本申请实施例适用的人机交互的过程进行简要说明。

首先，用户可以通过电子设备100向服务器200输入用户语句(可以是语音形式，也可以是文本形式)。若是语音形式，电子设备100可以将语音形式转化为文本形式，然后发送到服务器200，或者服务器200可以将用户语句的语音形式转化为文本形式。本申请实施例不做限定。

服务器200接收到电子设备100发送的用户语句后，由其中的自然语言理解(Natural Language Understanding，NLU)模块先对用户语句进行语义理解。具体的，当用户语句经过自然语言理解模块时，即需要经过领域分类，意图分类以及槽位提取三个子模块。一般情况下，服务器200上集成有多个具体的任务场景，例如：订餐、打车、天气等。于是，领域分类模块，可以先识别该用户语句是属于哪个具体的任务场景，并将该用户话语分发到具体的任务场景中。意图识别模块，可以识别用户意图，将该用户话语再细分为具体任务场景下的子场景。槽位提取模块，可以对用户语句中的实体(entity)进行识别，并进行槽位填充(Slot Filling)。例如：可以采用命名实体识别(Named Entity Recognition，NER)来识别用户语句中的人名、地名、时间、日期、机构名、组织名、货币等具有特定意义的实体。可简单理解为，提取中用户语句中各个词的特征，与预先定义的各个实体的特征进行比对，以便从该用户语句中识别出相应的实体。

举例来说，仍以图1B所示的对话为例进行说明，领域分类模块可以根据用户的“帮我叫个车”，确定需要为用户执行打车任务(子场景还可以包括专车任务、快车任务、顺风车任务)。而后，意图分类可以根据用户的“滴滴快车”，确定需要为用户执行快车任务。然后，槽位提取模块可以提取出目的地槽位信息为“深圳湾公园”，出发时间槽位信息为“8点半”。需要说明的是，图1B中用户并未说明出发地槽位信息，槽位提取模块可以提取用户设置的默认出发地为出发地槽位信息，或者通过GPS进行定位，将定位的位置作为出发地槽位信息。

自然语言理解模块的输出将作为对话管理(Dialog Management)模块的输入。对话管理模块包括两部分，状态追踪以及对话策略。状态追踪模块包括持续对话的各种信息，根据旧状态，用户状态(自然语言理解模块输出的信息)与系统状态(即通过与数据库的查询情况)来更新当前的对话状态。对话策略与所在任务场景息息相关，通常作为对话管理模块的输出，例如对缺失的必填槽位的追问机制等。

在本申请实施例中，对话策略还包括对缺失的非必填关键槽位的确认机制。具体的，对缺失的非必填关键槽位的确认机制可以与对缺失的必填槽位的追问机制并行处理或串行处理。也就是说，本申请实施例并不限定确认机制和追问机制的执行顺序。具体的确认机制将在下面的实施例中详细阐述，这里不再赘述。

自然语言生成(Natural Language Generation，NLG)模块根据对话管理模块的输出，生成文本信息反馈给用户，即完成与用户的人机交互过程。其中，自然语言生成模块可以采用基于模版，基于语法或基于模型等方式生成自然语言。基于模版与基于语法主要是基于规则的策略，基于模型可以采用例如长短期记忆网络(Long Short-Term Memory，LSTM)等。本申请实施例对自然语言生成的具体实现方式不做限定。

图4示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100 接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

电子设备400的结构也可以参考图4所示的电子设备100的结构，不再赘述。

以下实施例中所涉及的技术方案均可以在具有上述硬件架构电子设备100、服务器200或电子设备400中实现。

下面结合附图对本申请实施例提供的技术方案进行详细说明。

首先，技能开发者(可以是第三方应用开发者、或者服务提供者等)可以通过电子设备400登录到服务器200上，配置一项新的服务，在人机对话平台中也可以称之为一项技能。

其中，图5至图8中示出了技能开发者配置新技能的过程中涉及到的一些界面图。技能开发者配置新技能主要涉及如下一些步骤：

一、设置新技能的基础信息

技能开发者可以通过电子设备400登录到人机对话平台的技能管理页面中，并开始对新技能进行配置。例如，可以在电子设备400的浏览器中输入与人机对话平台相关联的网址，登录技能管理页面。或者，也可以使用相应的APP登录技能管理页面。

如图5中(1)所示，为技能管理页面的首页400，首页400中可以包含有控件401和控件402。人机对话平台上可以提供有技能模板，这些技能模板涵盖了部分使用场景，技能开发者可以通过对这些模板进行部分修改，就可以实现自己的个性化需求。一些实施例中，技能开发者可以通过选择控件402，使用人机对话平台上提供的技能模板，来进行新技能的配置。另一些实施例中，技能开发者可以通过选择控件401，根据自己提供服务添加自定义技能，为终端用户提供语音交互和相应的服务。下文以技能开发者选择控件401，添加自定义技能为例进行说明。

电子设备400在检测到技能开发者选择控件401之后，进入添加自定义技能的界面。如图5中(2)所示，为设置新技能基础信息的页面500。该页面500可以设置新技能的基础信息例如有：技能标识、技能名称、技能分类以及唤醒词等。

其中，技能标识是某个技能的全局唯一标识，每个技能的技能标识不能重复。技能名称是该技能的描述性名称，方便技能开发者自己对创建的各个技能进行管理，对于重复性不作要求。技能开发者需要为每个技能选择一个分类(也可以理解为上文所所说的具体场景)，用于匹配用户说法时的搜索和筛选。每个技能只能从属于一个分类，准确地选择技能分类有助于更快更精准地将用户说法和技能中的意图匹配。唤醒词，可理解为某个技能的一个别名。当用户说了该别名后，人机对话平台可快速的到该技能里来获取对应的服务。

可以理解的是，对新技能的基础信息的设置还可以包括其他内容，不再一一列举。

二、创建新技能中的意图

在完成对新技能基础信息的设置之后，可以开始创建新技能中的意图。如图5中(3)所示，为电子设备400显示的一种创建意图的页面600。该页面600可以包括意图名称、上文语境、下文语境等。

其中，意图名称技能内不得重复。上下文语境主要用于多轮对话场景。上文语境用于触发当前意图，下文语境用于关联下一轮意图。

需要说明的是，用户说的每句话都对应着用户的一个意图，是用户说这句话的目的，每个技能都是由数个意图组成，通过将用户说的每句话来和技能中的意图匹配来了解用户的需求，并提供相应的服务。而在用户使用该技能时，会通过各种表述方式来表达自己的意图。因此，技能开发者需要在意图配置中尽可能多的录入各种用户在日常生活中为了表达该意图所可能有的表达方式(即用户说法)，这样意图的识别更准确。

三、输入用户说法，并标记用户说法中的槽位(包括设置槽位属性，关联槽位类型等)

如图6中(1)所示，为电子设备400上显示意图创建页面中设置用户说法的页面601。该页面601可以包括用于新增用户说法一个或多个控件602。该页面601中还可以显示已有用户说法的信息项603。

其中，技能开发者可以通过在控件602中的文本框中输入新增的用户说法，并点击“新增”的功能按钮，新增用户说法。在一些实施例中，人机对话平台可以自动识别新增用户说法中的实体，并将识别出的实体与槽位，以及槽位类型进行关联。在另一些实施例中，若人机对话平台未自动标注槽位或者标注有误时，技能开发者可以选择手动标记槽位，以及将标记的槽位与槽位类型进行关联。

其中，槽位是指用户说法中包含的用来表达意图的关键信息，可以理解为用户说法中的关键词，一个槽位对应着一个槽位类型，该槽位可以由槽位类型中的其他词进行填充取值。槽位类型可以理解为在某个领域的词汇的集合，在用户说法中的槽位信息由各种槽位类型组成，同一个槽位类型中的词汇在对应的槽位信息中可以替换并被识别提取出来。

例如：响应于技能开发者在控件602中的文本框中输入新增的用户说法，并点击“新增”的功能按钮的操作后，电子设备400弹出如图6中(2)所示的对话框604。技能开发者可以通过对话框604对新增用户说法中标记的槽位以及关联的槽位类型进行查看、修改等操作。该对话框604中还可以显示有用于新增槽位类型的控件605，以便在关联槽位类型时，没有合适的槽位类型可选时，可以新增相应的槽位类型。该对话框604中还可以显示有用于查看槽位列表的控件606。响应于技能开发者点击控件 606，电子设备400显示如图6中(3)所示的页面608。在该页面608中，显示有该用户说法中包含的槽位，以及各个槽位关联的槽位类型，以及各个槽位的属性(必填槽位、非必填关键槽位、非必填非关键槽位)，以及缺失槽位信息时的提问等信息。该页面608中还可以包括新增槽位的控件607，可用于对该用户说法的槽位进行添加。

通常，技能开发者可以在界面608中，为必填槽位配置追问机制，为非必填关键槽位配置确认机制。对于非必填非关键槽位，不用设置提问。也就是说，当某个槽位被设置为必填槽位或非必填关键槽位时，该槽位设置有提问，该提问可以是默认的提问，也可以是技能开发者自定义的提问。当某个槽位被设置为非必填非关键槽位时，该槽位中的提问被默认设置为无，且不可更改。又例如：新增用户说法为“这周五首都下雨吗”，标记的槽位有时间槽位和城市槽位。其中，时间槽位对应的槽位类型为sys.time，该时间槽位的属性为非必填关键槽位。也就是说，当人机对话平台未提取到该时间槽位的信息时，人机对话平台会主动向用户提问，提问的内容为“提问1”。由用户确定是否可以缺少该时间槽位的信息，若不可以缺少，则从用户的回答中提取出该时间槽位的信息，再执行后续操作。若可以缺少，则人机对话平台认为没有该时间槽位信息，直接执行后续操作。

其中，城市槽位对应的槽位类型为sys.local.city，该城市槽位的属性为必填槽位。也就是说，当人机对话平台未提取到该城市槽位的信息时，人机对话平台会主动向用户提问，提问的内容为“提问2”。再从用户的回答中提取出该城市槽位的信息，再执行后续操作。

其中，该新增用户说法中还可以标注其他非必填非关键槽位。也就是说，当人机对话平台未提取到该非必填非关键的信息时，则人机对话平台认为没有该非必填非关键的信息，直接执行后续操作。

在本申请实施例中，槽位类型主要包括系统槽位类型和自定义槽位类型(也可称之为用户字典)。系统槽位类型为人机对话平台预先设置的槽位类型，系统槽位类型内的词为不可枚举，例如：sys.time、sys.location.city、sys.name、sys,phoneNum等。自定义槽位类型为技能开发者自行定义的槽位类型，自定义槽位类型内的词为有限数量。

如图7所示，为电子设备400显示的一种槽位类型的编辑页面700。技能开发者可以在输入框701输入新增的自定义槽位类型的文本，并按回车键确认。可以在取值项702的下方输入该新增的自定义槽位类型的取值，可以在该新增的自定义槽位类型对应的同义词703项的下方输入同义词后，点击“保存”按钮，即可完成一项新增自定义槽位类型。该槽位类型的编辑页面700还可以通过区域704中所示的多个控件，实现对自定义槽位类型的修改与删除等。在一些实施例中，该槽位类型的编辑页面700还可以支持批量添加槽位类型。例如：技能开发者可以通过点击批量添加按键705，选择上传特定文件类型或特定文件格式的文件来批量添加槽位类型。其中，特定文件类型或特定文件格式的文件中包含有一条或多条待新增的槽位类型的信息。本申请实施例对此不做限定。

四、新技能设置完成，训练并发布新技能对应的人机对话模型

在技能开发者输入新技能所需的用户说法，并对用户说法中的槽位进行标注、属性设置、以及槽位类型的关联后，电子设备400可以显示页面800。技能开发者可以通过点击“开始训练”控件801，通知人机对话平台开始训练新技能对应的人机对话模型。人机对话平台训练出的该新技能对应的人机对话模块可以包括：领域分类模型、意图分类模型和槽位提取模型等。其中，领域分类模型可用于对用户话语进行领域分类。意图分类模型可用于对用户话语在对应的领域内再细分，识别出用户话权对应的新技能的意图。槽位提取模型可用于提取用户话语中的槽位信息。这样，可以根据意图分类模型输出的用户意图与槽位提取模型输出的槽位信息，执行用户意图对应的后续操作。

在人机对话平台生成新技能对应的人机对话模型之后，电子设备400可以显示页面900。技能开发者可以通过点击“发布技能”控件902，以通知人机对话平台发布该新技能，将该新技能对应的人机对话模型推送到线上，而后，其他终端可以通过与人机对话平台进行对话，以获取使得人机对话平台为其提供该新技能。页面900还可以包括“重新训练”的控件901，技能开发者可以通过该控件901，重新训练新技能对应的人机对话模型。

如图9所示，为本申请实施例提供的一种人机交互的方法，可运用于电子设备100与服务器200之间交互，该方法具体包括如下步骤：

S101、服务器200接收第一输入。

用户在使用电子设备100与服务器200进行对话交互时，可以通过语音的形式，也可以通过文本的形式，向服务器200提出相应的服务需求。若用户以语音形式输入时，服务器200可以通过自动语音识别模块对语音进行识别，识别为文本形式，即为第一输入，并输入到自然语言理解模块中。若用户以文本形式输入时，则服务器200将用户输入的文本，作为第一输入输入到自然语言理解模块中。

S102、服务器200根据第一输入，进行领域分类，确定第一输入对应的第一领域。

由于第一输入对应于用户的一个意图，即用户想要服务器200提供的一项服务或执行的一些操作。自然语言理解模块中的领域分类模块可以根据第一输入进行搜索和筛选，以确定出第一输入中用户意图是属于哪个具体的任务场景(即第一领域)，并将该第一输入分发到具体的任务场景(即第一领域)中。

S103、服务器200将第一输入分发到第一领域，并识别第一输入对应第一意图。

自然语言理解模块中的意图识别模块可以进一步将第一输入中用户意图再细分为具体任务场景下的子场景，即识别出第一输入对应的用户意图(即第一意图)。

S104、服务器200根据第一意图对应的槽位配置，从第一输入中提取第一意图中各个槽位的信息。

其中，第一意图为服务器200上某个技能中的一个意图。技能开发者在配置该技能时，会对该技能中的第一意图配置相应的槽位，即第一意图需要提取哪些槽位，以及各个槽位的属性。因此，在确定第一输入对应的第一意图后，服务器200中的槽位提取模块可以查找到该第一意图对应的槽位配置。

服务器200中的槽位提取模块可以识别出第一输入中包含的实体，调用槽位提取模块中存储的槽位提取模型，对这些实体进行运算，以确定出这些实体分别对应着第一意图中的哪些槽位，为这些实体打上相应槽位的标签。也可认为是将这些实体确认为相应槽位的取值，即提取到这些槽位的信息。例如：槽位提取模块识别出第一输入中的实体A，将实体A输入到槽位提取模型中各个槽位对应的算法，计算出实体A对应的各个置信度。若实体A输入到槽位A对应的算法中计算得到的置信度不满足预设条件，例如：小于预设阈值，例如阈值C，则认为实体A不是槽位A的信息。若实体A输入到槽位B对应的算法中计算得到的置信度满足预设条件，例如：大于或等于阈值C，则认为实体A为槽位B的信息。

需要说明的是，有一些槽位的信息可以是用户默认设置的，或者可以通过其他方式获取的信息，并不一定是从第一输入中提取的。

例如：第一意图为“订机票”，预设的“订机票”中槽位配置可以有时间槽位、出发地槽位和目的地槽位。若用户说出“订明天去上海的机票”(即第一输入)。那么，服务器200可以识别出第一输入中多个实体，例如：“明天”、“上海”。服务器200可以将“明天”输入到槽位提取模型中时间槽位对应的算法中运算，得到“明天”为时间槽位的置信度满足预设条件，即可以认为“明天”即是“订机票”中的时间槽位的取值。也就是说，服务器200提取到第一意图中的时间槽位的信息。类似的，服务器200可以将“上海”输入到槽位提取模型中目的地槽对应的算法中运算，得到“上海”为目的地槽的置信度满足预设条件，即可以认为“上海”即是“订机票”中的目的地槽位的取值。也就是说，服务器200提取到第一意图中的目的地槽位的信息。第一输入中并没有对应于出发地槽位的实体。可以通过GPS获取用户所使用的电子设备100的当前位置作为出发地槽位的取值，也可以通过用户设置的默认地址为出发地槽位的取值等，也就是说，服务器200提取到第一意图中的出发地槽位的信息。

S105、服务器200确定未提取到第一意图中第一槽位的信息。

在执行步骤S104的过程中，存在这样的情况，第一输入中可能没有包含有第一意图中的某些槽位的信息(例如：用户没有说，或者虽然用户说了，但自动语音识别错误或用户输入错误)，或者服务器200的槽位提取模型不足够准确时，都可能造成服务器200没有提取出第一输入中第一意图中的某些槽位信息。为此，需要执行步骤S106及之后的步骤。

S106、服务器200判断第一槽位的属性。其中，第一槽位的属性包括必填槽位、非必填关键槽位和非必填非关键槽位。若第一槽位为必填槽位，则执行步骤S107；若第一槽位为非必填非关键槽位，则执行步骤S110；若第一槽位为非必填关键槽位，则执行步骤S111。

具体的，服务器200中的槽位提取模块将未提取到的第一槽位的结果，发送给对话管理模块。对话管理模块对第一槽位的属性进行判断，以便根据第一槽位的属性，确定后续的操作。

S107、服务器200向用户追问第一槽位的信息。

对话管理模块根据第一槽位的属性，以及预先设置的对话策略，向用户发出针对第一槽位的提问。示例性的，服务器200可以要求用户重新说一遍，也可以将之前与用户交互的提问再重新问一遍，也可以针对缺失的第一槽位进行提问。本申请实施例对提问的内容和方式均不做限定。

S108、服务器200接收第二输入。

其中，第二输入为用户根据服务器200的提问进行的回答。若用户采用语音形式进行回答，则服务器200中的自动语音识别模块，可以将语音转化为文本，得到第二输入。若用户采用文本形式进行回答，则服务器200将用户输入的文本，作为第二输入。服务器将确定的第二输入发送到自然语言理解模块中。

S109、服务器200根据第二输入，填充第一意图中的第一槽位。

自然语言理解模块中的槽位提取模块，识别第二输入中的实体，调用其上存储的槽位提取模型中第一槽位对应的算法进行运算，以识别出第一槽位对应的实体，即用确定的实体作为第一槽位的取值，即是提取到第一槽位的信息。而后，执行步骤S116。

S110、服务器200不用对第一槽位进行填充。

自然语言理解模块中的槽位提取模块，确定不填充第一槽位的信息，即不用确定第一槽位的取值。执行步骤S116。

S111、服务器200向用户提问，以确认第一槽位的信息是否为必要。

在本申请的一些实施例中，对话管理模块在确定第一槽位为非必填关键槽位(即步骤S106)后，无论用户是否有说第一槽位的信息时，都可直接向用户针对第一槽位的信息进行提问，由用户确认是否需要补齐第一槽位的信息。本申请实施例中对针对第一槽位的信息进行提问的方式和内容均不做限定。

在本申请的另一些实施例中，在确定第一槽位为非必填关键槽位(即步骤S106)后，对话管理模块也可以进一步判断用户是否可能说了第一槽位的信息。在用户极可能说了第一槽位信息的情况下，在向用户针对第一槽位的信息进行提问，由用户确认是否需要补齐第一槽位的信息。这样，有针对性向用户进行确认，这样有利于减少打扰用户的情况。其中，服务器200判断用户是否可能说了第一槽位的信息的过程可以参考下文的描述，这里不再赘述。

S112、服务器200接收电子设备的第三输入。

其中，第三输入为用户根据服务器200的提问进行的回答。若用户采用语音形式进行回答，则服务器200中的自动语音识别模块，可以将语音转化为文本，得到第三输入。若用户采用文本形式进行回答，则服务器200将用户输入的文本，作为第三输入。服务器将确定的第三输入发送到自然语言理解模块中。

其中，第三输入可以是用户与服务器200的单轮对话中的一次话语，也可以是用户与服务器200的多轮对话中的多次话语，本申请实施例不做限定。

S113、服务器200根据电子设备100的第三输入确认第一槽位的信息是否为必要。若必要，则执行步骤S114，否则，执行S115。

S114、服务器200根据第三输入，填充第一槽位。

可参考步骤S109，而后，执行步骤S116。

S115、服务器200不用对第一槽位进行填充。

而后，执行步骤S116。

S116、服务器200根据第一意图，以及提取到的第一意图中的槽位信息，执行第一意图对应的操作。

如图10所示，为本申请实施例提供的又一种人机交互方法的流程示意图，还包括对用户是否可能说了第一槽位的信息的判断过程。也就是说，在步骤S106之后，步骤S111之前，还包括步骤S201，具体如下：

S201、服务器200判断第一输入中是否可能包含有第一槽位的信息。若确认第一输入中可能包含有第一槽位的信息，则执行步骤S111，否则执行步骤S115。

示例性的，考虑到在用户说了第一槽位的信息，但服务器200没有提取到第一槽位信息，可能有以下两种原因：

原因一、用户输入错误，或者语音识别错误，造成未提取到第一槽位的信息。例如：假设有服务器200上有两个意图：意图1为“打开设置”，对应的操作为打开系统设置。意图2为“打开微信设置”，对应的操作为打开微信应用的设置。若用户说“打开微信设置”时，可能因为用户说话时的口音或者停顿等，可能造成服务器200将语音识别为“打开微星啊设置”。那么，服务器200未提取出“微星啊”。若服务器200不向用户进行确认，则很可能直接将该用户的意图识别为“打开设置”，即执行打开系统设置，与用户希望执行的打开微信应用的设置的目标不同。

原因二、用户正确表达了第一槽位的信息，但由于槽位提取模型自身不够准确，造成未提取到第一槽位信息。例如：由于技能开发者在训练槽位提取模型之前，输入的用户说法的数量较少，或者输入的用户说法不足够准确等因素，造成服务器200训练生成槽位提取模型也不足够准确。

针对上述两种不同原因，本申请实施例提供了以下两种方法，可以用于确认用户可能说了第一槽位的信息。具体如下：

方法一、针对用户输入错误，或者语音识别错误的情况。

服务器200可以采用纠错的方法，确定从用户话语(即第一输入)中识别的实体与用户词典中的关键词较为相似时，才触发向用户进行确认的机制。其中，判断实体与用户词典中的关键词的相似度时，例如可以采用基于拼音相似度的算法，字符串相似度的算法等，计算第一输入中识别出的实体与用户词典中关键词的编辑距离，以确定两者的相似程度。还可以是采用深度学习词向量、句子向量等方法计算词或短语的相似度。本申请实施例对计算相似度的方法不做限定。

下文以计算编辑距离为例，对本申请实施例提供的确定第一输入可能含有的第一槽位信息的方法进行说明。其中，编辑距离(Levenshtein Distance)，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。编辑操作可以包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。

首先，判断第一槽位对应着系统槽位类型，还是对应着用户词典(即自定义槽位类型)。

在一些实施例中，服务器200确认第一槽位对应着自定义槽位类型。由于自定义槽位类型中的词为用户自定义的，是有限数量的。因此，服务器200可以通过遍历第一槽位对应的自定义槽位类型中所有的词，分别计算用户话语中确定的实体与自定义槽位类型中各个词的编辑距离，从这些编辑距离中确定最小的编辑距离。该最小的编辑距离对应的第一输入中的实体，可确认为第一槽位的潜在实体，即可能是第一槽位的信息。

可选的，服务器200可以判断该最小值与阈值A的大小。其中，阈值A可以是开发者或者用户设置的阈值。如果该最小值小于阈值A，则可认为用户没有说第一槽位的信息，即第一输入中不含有第一槽位的信息。那么，服务器200可以不向用户进行确认。如果该最小值大于或等于阈值A，则可认为用户可能说了第一槽位的信息。于是，服务器200可以向用户进行确认。

例如：用户的目的是“订一张明天去上海的机票”，而错误输入为“订一张明天去上哈的机票”。第一意图为“订机票”，第一意图中包含的槽位有时间槽位、出发地槽位和目的地槽位。这里假设目的地槽位对应着用户词典1。服务器200未识别出目的地槽位的信息。那么，服务器200可以识别出第一输入中的实体有“明天”和“上哈”。服务器200分别计算“明天”与用户词典1中的所有词的距离，以及分别计算“上哈”与用户词典1中的所有词的距离。从中，选择距离最小的词，例如“上哈”和用户词典1中的“上海”的编辑距离最小，那么，可以确认“上哈”为第一槽位的潜在实体。进一步的，“上哈”与用户词典1中的最相似的词之间的编辑距离若大于阈值A，则认为“上哈”有可能是用户说的第一槽位的信息。那么，可以向用户进行确认。

可选的，开发者或者用户还可以设置阈值B，阈值B大于阈值A。如果该最小值大于或等于阈值B，表明潜在实体与自定义槽位类型中的词极为相似，基本可认为用户说了第一槽位的信息。也就是说，服务器可以不向用户进行确认，直接将该潜在实体确认为第一槽位的信息。如果上述最小值小于或等于阈值B，且大于阈值A，则可认为用户可能说了第一槽位的信息，即是潜在实体可能是第一槽位的信息，于是，服务器可以向用户进一步确认。本申请实施例不做限定。

在另一些实施例中，服务器200确认第一槽位对应着系统槽位类型。由于系统槽位类型中的词为不可枚举的。因此，不可以通过遍历所有的系统槽位类型中词，计算第一输入中的实体词与系统槽位类型中的所有词的编辑距离。于是，服务器200不能确认用户是否说了第一槽位的信息。为了避免对用户造成过多的打扰，可以不就第一槽位的信息向用户进行确认。

第二种情况是，槽位提取模型不够准确，导致服务器200未提取出第一槽位的信息。

槽位提取模型可以采用例如命名实体识别(Named Entity Recognition，NER)的方法识别出第一输入中的实体，并将识别出的实体输入到槽位提取模型中第一槽位对应的算法中，计算各个实体的置信度。可选的，槽位提取模型也可以不识别实体，直接将第一输入中包含的各个词，直接输入到槽位提取模型中第一槽位对应的算法中，计算各个词的置信度。当计算得到的各个实体或者各个词的置信度满足一定条件后，认为用户可能说了第一槽位的信息，才向用户进行确认。其中，计算第一输入中各个实体或各个分词的置信度，可参考现有技术中基于分类的计算方法，以及基于序列标注的计算方法等，这里不再赘述。

示例性的，服务器200可以将第一输入中各个实体分别输入到槽位提取模型中，计算得到各个实体的置信度。在某个实体的置信度满足一定条件后，才向用户进行确认。

槽位提取模型未提取出第一槽位的信息，可以理解为，服务器200中槽位提取模型对从用户话语中识别出的实体给出的槽位标注概率值低于识别阈值。那么，此时，用户可以设置一个确认阈值，当槽位提取模型对从用户话语中识别出的实体给出的槽位标注概率值大于该确认阈值时，服务器200触发向用户进行确认的机制。也就是说，当第一输入中存在某个或某些实体对应的模型提取模型的置信度大于确认阈值，小于识别阈值时，服务器200才就第一槽位的信息向用户进行确认。

需要说明的是，针对同一个实体，同一个槽位提取模型，槽位提取模型可能在第一次时不能正确识别该实体，但在第二次时能正确识别出该实体。这是因为，用户在第一次说出该实体时，语句中很可能包含有其他实体，即该实体存在上下文。槽位提取模型不足够准确时，即有可能会因为没有识别出这些上下文，而导致该实体也未识别出。而后，服务器200在第一次不能识别该实体时，向用户针对该实体进行提问，那么用户回答则是针对该实体回答。此时，用户回答可能只包含该实体，或者包含极少的上下文。那么，槽位提取模型很可能在本次识别出该实体。在另一些实施例中，针对用户回答，也可以采用非槽位提取模型的方式来识别该实体，例如可以启用规则识别该实体。其中，规则是指可以结合用户回答的上下文逻辑、用户意图的关联性、实体与第一槽位中的对应关系等因素进行识别。这样，也能有效的提高服务器200识别用户第二次或以上次数说出实体的概率。

可以理解的是，上述终端等为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

本申请实施例可以根据上述方法示例对上述终端等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图11所示，为本申请实施例公开了一种服务器200的硬件结构示意图，服务器200包括至少一个处理器201、至少一个存储器202、至少一个通信接口203。可选的，服务器200还可以包括输出设备和输入设备，图中未示出。

处理器201、存储器202和通信接口203通过总线相连接。处理器201可以是一个通用中央处理器(Central Processing Unit，CPU)、微处理器、特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或者一个或多个用于控制本申请方案程序执行的集成电路。处理器201也可以包括多个CPU，并且处理器201可以是一个单核(single-CPU)处理器或多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路或用于处理数据(例如计算机程序指令)的处理核。

存储器202可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器202可以是独立存在，通过总线与处理器201相连接。存储器202也可以和处理器201集成在一起。其中，存储器202用于存储执行本申请方案的应用程序代码，并由处理器201来控制执行。处理器201用于执行存储器202中存储的计算机程序代码，从而实现本申请实施例中所述人机交互的方法。

通信接口303，可用于与其他设备或通信网络通信，如以太网，无线局域网(wireless local area networks，WLAN)等。

输出设备和处理器通信，可以以多种方式来显示信息。例如，输出设备可以是液晶显示器(Liquid Crystal Display，LCD)，发光二级管(Light Emitting Diode，LED)显示设备，阴极射线管(Cathode Ray Tube，CRT)显示设备，或投影仪(projector)等。输入设备和处理器通信，可以以多种方式接收用户的输入。例如，输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种人机交互的方法，其特征在于，可运用于人机对话系统中，包括：

服务器接收第一输入，所述第一输入包含用户的服务需求；

所述服务器根据所述第一输入，确定第一输入对应的第一领域，所述第一领域为所述用户的服务需求对应的任务场景；

所述服务器将所述第一输入分发到所述第一领域对应的意图识别模型中，识别出第一输入对应的第一意图，所述第一意图为所述第一领域中的子场景；

所述服务器从所述第一输入中提取所述第一意图中第一槽位的信息；其中，所述第一意图中预先配置有所述第一槽位，且所述第一槽位为非必填关键槽位；

当所述服务器确定未提取到所述第一槽位的信息时，所述服务器向所述用户提问，以确定所述第一槽位的信息是否必要；

所述服务器接收第二输入，所述第二输入包含用户确认的所述第一槽位的信息是否必要的信息；

若所述用户确认所述第一槽位的信息为必要信息，则所述服务器从所述第二输入中提取所述第一槽位的信息；所述服务器根据所述第一意图，以及所述第一槽位的信息执行所述第一意图对应的操作；

若所述用户确认所述第一槽位的信息为非必要信息，则所述服务器不提取所述第一槽位的信息；所述服务器根据所述第一意图执行所述第一意图对应的操作。
根据权利要求1所述的人机交互的方法，其特征在于，所述服务器从所述第一输入中提取所述第一意图中第一槽位的信息包括：

所述服务器将所述第一输入中识别出的各个词或各个实体输入到所述第一槽位对应的槽位提取模型中，分别计算所述第一输入中各个词或各个实体对应的置信度；

若所述第一输入中的第一词或者第一实体的置信度大于或等于第一阈值，则所述服务器确认所述第一词或者所述第一实体为所述第一槽位的信息；

若所述第一输入中各个词或者各个实体的置信度均小于所述第一阈值，则所述服务器确定未提取到所述第一槽位的信息。
根据权利要求1或2所述的人机交互的方法，其特征在于，所述的人机交互的方法还包括：

若所述第一槽位对应于自定义槽位类型，则所述服务器分别计算所述第一输入中识别出的各个实体与所述自定义槽位类型中的各个词的相似度；

若所述第一输入中识别出的各个实体与所述自定义槽位类型中的各个词的相似度均小于第二阈值，则所述服务器确认所述第一输入中不含有所述第一槽位的信息；若所述第一输入中第二实体与所述自定义槽位类型中的第二词的相似度大于或等于第三阈值，则所述服务器确认所述第二词为所述第一槽位的信息；若所述第一输入中存在任一实体与所述自定义槽位类型中的任一词的相似度大于或等于所述第二阈值，且小于所述第三阈值时，所述服务器确认向所述用户提问，以确定所述第一槽位的信息是否必要。
根据权利要求2所述的人机交互的方法，其特征在于，所述的人机交互的方法还包括：

若所述第一输入中的各个词或者各个实体的置信度均小于第四阈值，则所述服务器确认所述第一输入中不含有所述第一槽位的信息；

若所述第一输入中存在任一词或者任一实体的置信度小于所述第一阈值，且大于或等于第四阈值时，则所述服务器确认向所述用户提问，以确定所述第一槽位的信息是否必要。
根据权利要求1-4任一项所述的人机交互的方法，其特征在于，若所述用户确认的所述第一槽位的信息为必要信息，则所述服务器从所述第二输入中提取所述第一槽位的信息包括：

若所述用户确认所述第一槽位的信息为必要信息，则所述服务器采用所述第一槽位对应的槽位提取模型或者采用规则，从所述第二输入中提取所述第一槽位的信息。
根据权利要求1-5任一项所述的人机交互的方法，其特征在于，所述第一意图中还预先配置有第二槽位，且所述第二槽位为必填槽位，所述的人机交互的方法还包括：

当所述服务器确定未提取到所述第二槽位的信息时，所述服务器向所述用户提问，以便提取所述第二槽位的信息；

所述服务器接收第三输入，并从所述第三输入中提取所述第二槽位的信息，所述第三输入包含所述用户的回答；

所述服务器根据所述第一意图，所述第一槽位的信息，以及所述第二槽位的信息执行所述第一意图对应的操作；或者，所述服务器根据所述第一意图，以及所述第二槽位的信息执行所述第一意图对应的操作。
根据权利要求1-6任一项所述的人机交互的方法，其特征在于，所述第一意图中还预先配置有第三槽位，且所述第三槽位为非必填非关键槽位，所述的人机交互的方法还包括：

当所述服务器确定未提取到所述第三槽位的信息时，所述服务器不提取所述第三槽位的信息。
一种服务器，其特征在于，可运用于人机对话系统中，包括：通信接口、存储器和处理器；所述通信接口、所述存储器与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述服务器执行如下步骤：

通过所述通信接口接收第一输入，所述第一输入包含用户的服务需求；

根据所述第一输入，确定第一输入对应的第一领域，所述第一领域为所述用户的服务需求对应的任务场景；

将所述第一输入分发到所述第一领域对应的意图识别模型中，识别出第一输入对应的第一意图，所述第一意图为所述第一领域中的子场景；

从所述第一输入中提取所述第一意图中第一槽位的信息；其中，所述第一意图中预先配置有所述第一槽位，且所述第一槽位为非必填关键槽位；

当所述服务器确定未提取到所述第一槽位的信息时，向所述用户提问，以确定所述第一槽位的信息是否必要；

通过所述通信接口接收第二输入，所述第二输入包含用户确认的所述第一槽位的信息是否必要的信息；

若所述用户确认所述第一槽位的信息为必要信息，则从所述第二输入中提取所述第一槽位的信息；根据所述第一意图，以及所述第一槽位的信息执行所述第一意图对应的操作；

若所述用户确认所述第一槽位的信息为非必要信息，则不提取所述第一槽位的信息；根据所述第一意图执行所述第一意图对应的操作。
根据权利要求8所述的服务器，其特征在于，所述处理器从所述第一输入中提取所述第一意图中第一槽位的信息具体包括：

所述处理器将所述第一输入中识别出的各个词或各个实体输入到所述第一槽位对应的槽位提取模型中，分别计算所述第一输入中各个词或各个实体对应的置信度；

若所述第一输入中的第一词或者第一实体的置信度大于或等于第一阈值，则确认所述第一词或者所述第一实体为所述第一槽位的信息；

若所述第一输入中各个词或者各个实体的置信度均小于所述第一阈值，则确定未提取到所述第一槽位的信息。
根据权利要求8或9所述的服务器，其特征在于，

所述处理器还用于若所述第一槽位对应于自定义槽位类型，则分别计算所述第一输入中识别出的各个实体与所述自定义槽位类型中的各个词的相似度；

若所述第一输入中识别出的各个实体与所述自定义槽位类型中的各个词的相似度均小于第二阈值，则确认所述第一输入中不含有所述第一槽位的信息；若所述第一输入中第二实体与所述自定义槽位类型中的第二词的相似度大于或等于第三阈值，则确认所述第二词为所述第一槽位的信息；若所述第一输入中存在任一实体与所述自定义槽位类型中的任一词的相似度大于或等于所述第二阈值，且小于所述第三阈值时，则确认向所述用户提问，以确定所述第一槽位的信息是否必要。
根据权利要求9所述的服务器，其特征在于，

所述处理器还用于若所述第一输入中的各个词或者各个实体的置信度均小于第四阈值，则确认所述第一输入中不含有所述第一槽位的信息；

若所述第一输入中存在任一词或者任一实体的置信度小于所述第一阈值，且大于或等于第四阈值时，则确认向所述用户提问，以确定所述第一槽位的信息是否必要。
根据权利要求8-11任一项所述的服务器，其特征在于，若所述用户确认所述第一槽位的信息为必要信息，则所述处理器从所述第二输入中提取所述第一槽位的信息具体包括：

若所述用户确认所述第一槽位的信息为必要信息，则所述处理器采用所述第一槽位对应的槽位提取模型或者采用规则，从所述第二输入中提取所述第一槽位的信息。
根据权利要求8-12任一项所述的服务器，其特征在于，在所述第一意图中还预先配置有第二槽位，且所述第二槽位为必填槽位时，

所述处理器还具体用于当所述处理器确定未提取到所述第二槽位的信息时，向所述用户提问，以便提取所述第二槽位的信息；

通过所述通信接口接收第三输入，并从所述第三输入中提取所述第二槽位的信息，所述第三输入包含所述用户的回答；

根据所述第一意图，所述第一槽位的信息，以及所述第二槽位的信息执行所述第一意图对应的操作；或者，根据所述第一意图，以及所述第二槽位的信息执行所述第一意图对应的操作。
根据权利要求8-13任一项所述的服务器，其特征在于，在所述第一意图中还预先配置有第三槽位，且所述第三槽位为非必填非关键槽位时，

所述处理器还具体用于当确定未提取到所述第三槽位的信息时，不提取所述第三槽位的信息。
一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1-7中任一项所述的人机交互的方法。
一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的人机交互的方法。