WO2018006472A1

WO2018006472A1 - 基于知识图谱的人机交互方法及系统

Info

Publication number: WO2018006472A1
Application number: PCT/CN2016/094908
Authority: WO
Inventors: 邱楠; 王昊奋
Original assignee: 深圳狗尾草智能科技有限公司
Priority date: 2016-07-07
Filing date: 2016-08-12
Publication date: 2018-01-11
Also published as: JP2018525691A; CN107589828A

Abstract

本发明提供了一种基于知识图谱的人机交互方法及系统，该方法包括：获取用户的多模态输入记录；根据知识图谱对多模态输入记录和意图模块进行关联；当关联到的意图模块唯一时，获取该意图模块的解析结果，输出该解析结果；或者，当关联到的意图模块不唯一时，获取每个意图模块的解析结果，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。本发明可以根据知识图谱，对用户的输入进行意图识别，以及对意图识别结果进行解析，获取解析结果，从而消除歧义，实现多轮会话。

Description

基于知识图谱的人机交互方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识图谱的人机交互方法及系统。

背景技术

现有的基于知识图谱的人机交互技术无法实现多轮会话的顺利进行，例如，用户输入：声音大一点，机器人无法识别是将所播放的音乐声音调大，还是机器人的声音调大，由此产生歧义，导致多轮会话无法继续。

发明内容

本发明的目的是提供一种基于知识图谱的人机交互方法及系统，解决了现有的基于知识图谱的人机交互技术在用户指令产生歧义时会话无法继续的问题。

本发明解决其技术问题所采用的技术方案是：

一种基于知识图谱的人机交互方法，包括：

获取用户的多模态输入记录，对多模态输入记录进行处理；

根据知识图谱对多模态输入记录和意图模块进行关联，获取关联记录；所述关联记录包括多模态输入记录和关联到的意图模块；

当关联到的意图模块唯一时，基于该意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取该意图模块的解析结果，作为多模态输入记录的解析结果；或者，当关联到的意图模块不唯一时，基于每个意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取每个意图模块的解析结果，作为多模态输入记录的解析结果；

当多模态输入记录的解析结果唯一时，输出该解析结果；或者，当多模态输入记录的解析结果不唯一时，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。

在此基础上，进一步地，所述多模态输入记录为文字、语音、动画、表情、动作、手势、图片或视频。

在上述任意实施例的基础上，进一步地，还包括：

当多模态输入记录的解析结果唯一时，根据多模态输入记录及其解析结果对知识图谱进行更新；或者，

当多模态输入记录的解析结果不唯一时，根据多模态输入记录及其最优解析结果对知识图谱进行更新。

在此基础上，进一步地，还包括：

将知识图谱的更新记录存储于云服务器。

在上述任意实施例的基础上，进一步地，所述意图模块和知识图谱存储于云服务器。

一种基于知识图谱的人机交互系统，包括：

输入模块，用于获取用户的多模态输入记录，对多模态输入记录进行处理；

意图识别模块，用于根据知识图谱对多模态输入记录和意图模块进行关联，获取关联记录；所述关联记录包括多模态输入记录和关联到的意图模块；

解析模块，用于当关联到的意图模块唯一时，基于该意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取该意图模块的解析结果，作为多模态输入记录的解析结果；或者，当关联到的意图模块不唯一时，基于每个意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取每个意图模块的解析结果，作为多模态输入记录的解析结果；

输出模块，用于当多模态输入记录的解析结果唯一时，输出该解析结果；或者，当多模态输入记录的解析结果不唯一时，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。

在上述任意实施例的基础上，进一步地，所述输出模块还用于当多模态输入记录的解析结果唯一时，根据多模态输入记录及其解析结果对知识图谱进行更新；或者，当多模态输入记录的解析结果不唯一时，根据多模态输入记录及其最优解析结果对知识图谱进行更新。

在此基础上，进一步地，还包括：

更新记录模块，用于将知识图谱的更新记录存储于云服务器。

本发明的有益效果是：

本发明提供了一种基于知识图谱的人机交互方法及系统，根据知识图谱，对用户的输入进行意图识别，以及对意图识别结果进行解析，获取解析结果，从而消除歧义，实现多轮会话。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了本发明实施例提供的一种基于知识图谱的人机交互方法的流程图；

图2示出了本发明实施例提供的一种基于知识图谱的人机交互系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

具体实施例一

如图1所示，本发明实施例提供了一种基于知识图谱的人机交互方法，包括：

步骤S101，获取用户的多模态输入记录，对多模态输入记录进行处理；

步骤S102，根据知识图谱对多模态输入记录和意图模块进行关联，获取关联记录；所述关联记录包括多模态输入记录和关联到的意图模块；

步骤S103，当关联到的意图模块唯一时，基于该意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取该意图模块的解析结果，作为多模态输入记录的解析结果；或者，当关联到的意图模块不唯一时，基于每个意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取每个意图模块的解析结果，作为多模态输入记录的解析结果；

步骤S104，当多模态输入记录的解析结果唯一时，输出该解析结果；或者，当多模态输入记录的解析结果不唯一时，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。

在步骤S101中，因为输出的信息多样化(图片、文字、语音、动作、手势、视频等)，因此要对多种输入进行处理，处理的目标就是供意图识别模块能直接利用；

在步骤S102中，把输入信息关联到对应的意图(可以理解成是场景、状态、某项技能等)；需要说明的是，输入的信息有可能是关联到多个，比如“音量增加”，有可能是说“电视音量增加”，也有可能是“机器本身的音量增加”；另外，有时候，仅凭输入信息并不能识别出意图，这个时候，可以结合知识图谱(此处的知识图谱可以简单地分两个部分，一部分是静态的；长期不变的，不同的用户通用的；一部分是动态的，是持续更新的，或者说因用户的不同、时间的不同而不同)进行识别；

在步骤S103中，在意图识别过后，会将多模态输入记录关联到一个或多个意图模块，被关联到的意图模块分别基于自己状态、场景、定义的模板、训练的模型、方法等进行解析；不同的意图模块解析的方式方法各异，其可以是：根据输入信息及知识图谱进行解析；

在步骤S104中，在意图识别过后，有可能关联到了一个或多个意图模块，若是一个意图模块，那解析结果唯一，输出模块就仅仅将该意图模块的解析结果输出；当意图识别过后关联到多个意图模块时，就会有多个解析结果，输出模块就需要对多个解析结果进行评估，并选取一个最优解析结果进行输出。

本发明实施例中的知识图谱可以分为两部分，一部分是公有的知识图谱；一部分是用户私有的知识图谱；公有知识图谱是所有用户通用的知识所构建的图谱；而私有知识图谱是用户私有的，不同用户间其图谱知识不通用。

本发明实施例根据知识图谱，对用户的输入进行意图识别，以及对意图识别结果进行解析，获取解析结果，从而消除歧义，实现多轮会话。

本发明实施例对步骤S101中多模态输入记录的形式不做限定，优选的，所述多模态输入记录可以为文字、语音、动画、表情、动作、手势、图片或视频。

在上述任意实施例的基础上，优选的，本发明实施例还可以包括：

本发明实施例可以在输出的同时，将某些数据抄送给知识图谱，使知识图谱得以更新学习。

在上述实施例的基础上，优选的，本发明实施例还可以包括将知识图谱的更新记录存储于云服务器。这样做的好处是，方便用户查询历史更新记录。

本发明实施例对意图模块和知识图谱的存储位置不做限定，在上述任意实施例的基础上，优选的，所述意图模块和知识图谱可以存储于云服务器。将意图模块和知识图谱存储于云服务器，可以实现用户在使用不同设备时的信息共享。

具体实施例二

如图2所示，本发明实施例提供了一种基于知识图谱的人机交互系统，包括：

在“输入”模块中，因为输出的信息多样化(图片、文字、语音、动作、手势、视频等)，此模块的作用是对多种输入进行处理，处理的目标就是供意图识别模块能直接利用；

意图识别模块主要的作用就是，把输入信息关联到对应的意图(可以理解成是场景、状态、某项技能等)；需要说明的是，输入的信息有可能是关联到多个，比如“音量增加”，有可能是说“电视音量增加”，也有可能是“机器本身的音量增加”；另外，有时候，仅凭输入信息并不能识别出意图，此时可以结合知识图谱(此处的知识图谱可以简单地分两个部分，一部分是静态的；长期不变的，不同的用户通用的；一部分是动态的，是持续更新的，或者说因用户的不同、时间的不同而不同)进行识别；

解析模块属于多轮对话的核心。在意图识别模块对多模态输入记录进行意图识别后，会将输入关联到一个或多个意图模块，被关联到的意图模块分别基于自己状态、场景、定义的模板、训练的模型、方法等进行解析；不同的意图模块解析的方式方法各异，但通用的做法都是：根据输入信息及知识图谱进行解析；

输出模块：在意图识别过后，有可能关联到了一个或多个意图模块，若是一个意图模块，那解析结果唯一，输出模块就仅仅将该意图模块的解析结果输出；当意图识别过后关联到多个意图模块时，就会有多个解析结果，输出模块就需要对多个解析结果进行评估，并选取一个最优解析结果进行输出。

本发明实施例对输入模块中多模态输入记录的形式不做限定，优选的，所述多模态输入记录可以为文字、语音、动画、表情、动作、手势、图片或视频。

在上述任意实施例的基础上，优选的，本发明实施例中所述输出模块还可以用于当多模态输入记录的解析结果唯一时，根据多模态输入记录及其解析结果对知识图谱进行更新；或者，当多模态输入记录的解析结果不唯一时，根据多模态输入记录及其最优解析结果对知识图谱进行更新。本发明实施例可以在输出的同时，将某些数据抄送给知识图谱，使知识图谱得以更新学习。

在上述实施例的基础上，优选的，本发明实施例还可以包括更新记录模块，用于将知识图谱的更新记录存储于云服务器。这样做的好处是，方便用户查询历史更新记录。

尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。

Claims

一种基于知识图谱的人机交互方法，其特征在于，包括：

获取用户的多模态输入记录，对多模态输入记录进行处理；

根据知识图谱对多模态输入记录和意图模块进行关联，获取关联记录；所述关联记录包括多模态输入记录和关联到的意图模块；

当关联到的意图模块唯一时，基于该意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取该意图模块的解析结果，作为多模态输入记录的解析结果；或者，当关联到的意图模块不唯一时，基于每个意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取每个意图模块的解析结果，作为多模态输入记录的解析结果；

当多模态输入记录的解析结果唯一时，输出该解析结果；或者，当多模态输入记录的解析结果不唯一时，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。
根据权利要求1所述的基于知识图谱的人机交互方法，其特征在于，所述多模态输入记录为文字、语音、动画、表情、动作、手势、图片或视频。
根据权利要求1或2所述的基于知识图谱的人机交互方法，其特征在于，还包括：

当多模态输入记录的解析结果唯一时，根据多模态输入记录及其解析结果对知识图谱进行更新；或者，

当多模态输入记录的解析结果不唯一时，根据多模态输入记录及其最优解析结果对知识图谱进行更新。
根据权利要求3所述的基于知识图谱的人机交互方法，其特征在于，还包括：

将知识图谱的更新记录存储于云服务器。
根据权利要求1或2所述的基于知识图谱的人机交互方法，其特征在于，所述意图模块和知识图谱存储于云服务器。
一种基于知识图谱的人机交互系统，其特征在于，包括：

输入模块，用于获取用户的多模态输入记录，对多模态输入记录进行处理；

意图识别模块，用于根据知识图谱对多模态输入记录和意图模块进行关联，获取关联记录；所述关联记录包括多模态输入记录和关联到的意图模块；

解析模块，用于当关联到的意图模块唯一时，基于该意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取该意图模块的解析结果，作为多模态输入记录的解析结果；或者，当关联到的意图模块不唯一时，基于每个意图模块中的状态、场景、模板、模型、方法，根据输入信息和知识图谱对多模态输入记录进行解析，获取每个意图模块的解析结果，作为多模态输入记录的解析结果；

输出模块，用于当多模态输入记录的解析结果唯一时，输出该解析结果；或者，当多模态输入记录的解析结果不唯一时，对多个解析结果进行评估，获取最优解析结果，输出该最优解析结果。
根据权利要求6所述的基于知识图谱的人机交互系统，其特征在于，所述多模态输入记录为文字、语音、动画、表情、动作、手势、图片或视频。
根据权利要求6或7所述的基于知识图谱的人机交互系统，其特征在于，所述输出模块还用于当多模态输入记录的解析结果唯一时，根据多模态输入记录及其解析结果对知识图谱进行更新；或者，当多模态输入记录的解析结果不唯一时，根据多模态输入记录及其最优解析结果对知识图谱进行更新。
根据权利要求8所述的基于知识图谱的人机交互系统，其特征在于，还包括：

更新记录模块，用于将知识图谱的更新记录存储于云服务器。
根据权利要求6或7所述的基于知识图谱的人机交互系统，其特征在于，所述意图模块和知识图谱存储于云服务器。