WO2018072563A1

WO2018072563A1 - 一种知识图谱构建方法、装置及系统

Info

Publication number: WO2018072563A1
Application number: PCT/CN2017/100148
Authority: WO
Inventors: 汪峰来; 李春霞; 黄震江
Original assignee: 中兴通讯股份有限公司
Priority date: 2016-10-18
Filing date: 2017-09-01
Publication date: 2018-04-26
Also published as: CN107967267A

Abstract

一种知识图谱构建方法、装置及系统，涉及人工智能技术领域，用以解决现有技术中知识采集系统定制化程度高，灵活度差，耗费人力成本且效率低下的问题。所述方法包括：根据预设的数据源规则采集相应数据(S11)；通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱(S12)。

Description

一种知识图谱构建方法、装置及系统

技术领域

本发明涉及人工智能技术领域，特别是涉及一种知识图谱构建方法、装置及系统。

背景技术

在互联网时代，搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词，搜索引擎会返回它认为与这个关键词最相关的网页以及查询词相关的知识图谱。

例如，如果想知道“泰山”的相关信息，可以通过搜索引擎搜索“泰山”，搜索引擎会尝试将这个字符串与抓取的大规模网页做比对，根据网页与这个查询词的相关程度，以及网页本身的重要性，对网页进行排序，作为搜索结果返回给用户。而知识图谱则会将“泰山”理解为一个“实体”(entity)，也就是一个现实世界中的事物。这样，搜索引擎会在搜索结果中显示它的基本资料，例如地理位置、海拔高度、别名，以及百科链接等等，此外甚至还会告诉你一些相关的“实体”，如嵩山、华山、衡山和恒山等其他三山五岳等。

知识图谱为查询词赋予丰富的语义信息，建立与现实世界实体的关系，从而帮助用户更快找到所需的信息，可见知识图谱具有重要的现实意义，但是如何快速有效地构建知识图谱一直是业界的一大挑战。现有技术中的知识图谱的构建数据来源复杂多样，知识采集系统定制化程度高，灵活度差，耗费人力成本且效率低下。

发明内容

本发明实施例要解决的技术问题是提供一种知识图谱构建方法、装置及系统，用以解决现有技术中知识采集系统定制化程度高，灵活度差，耗费人力成本且效率低下的问题。

一方面，本发明实施例提供一种知识图谱构建方法，包括：根据预设的数据源规则采集相应数据；通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。

可选的，所述数据源规则包括以下至少一种：要采集的数据的数据源种类、数据格式和采集策略。

可选的，所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱包括：通过训练模型对采集的数据抽取实体关系实例语料；对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；根据识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。

可选的，所述实体识别包括：根据已标注的语料训练实体识别模型；通过所述实体识别模型，对生文本语料进行实体识别；所述类别提取、所述关系提取以及所述属性提取包括：通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。

进一步的，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，所述方法还包括：对所述知识图谱的正确性进行评价及标注。

进一步的，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，所述方法还包括：根据用户对所述知识图谱的反馈修正所述训练模型。

另一方面，本发明实施例还提供一种知识图谱构建装置，包括：采集单元，设置为根据预设的数据源规则采集相应数据；抽取单元，设置为通过训练模型对所述采集单元采集的数据抽取实体关系，以形成相应的知识图谱。

可选的，所述抽取单元包括：抽取模块，设置为通过训练模型对采集的数据抽取实体关系实例语料；识别和提取模块，设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；形成模块，设置为根据所述识别和提取模块识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。

可选的，所述识别和提取模块，具体设置为：根据已标注的语料训练实体识别模型；通过训练后的所述实体识别模型，对生文本语料进行实体识别；通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。

进一步的，所述装置还包括：监督单元，设置为在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，对所述知识图谱的正确性进行评价及标注。

进一步的，所述装置还包括：修正单元，设置为根据用户对所述知识图谱的反馈修正所述训练模型。

另一方面，本发明实施例还提供一种智能互动系统，包括前述实施例提供的任一种知识图谱构建装置。

可选的，所述系统包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。

在本发明实施例中，还提供了一种存储介质，该存储介质可以存储有执行指令，该执行指令用于执行上述实施例中的知识图谱构建方法的实现。

本发明实施例提供的知识图谱构建方法、装置及系统，能够根据预设的数据源规则采集相应数据，通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。这样，当面对复杂多变的数据源时，无需修改各个具体应用，只需直接修改相应的数据源规则，即可采集到所需的数据，通过数据源规则的设置和修改将数据源与数据采集松耦合，因此大大提高了系统的灵活度，为海量数据的采集提供了有效保障。

附图说明

图1是本发明实施例提供的知识图谱构建方法的一种流程图；

图2是本发明实施例中数据源规则引擎的一种结构示意图；

图3是本发明实施例中分类页面的一种结构示意图；

图4是本发明实施例中实体识别过程示意图；

图5是本发明实施例中使用开放域实体上位词获取算法的一种示意图；

图6是本发明实施例中知识图谱形成和反馈过程对应的系统的一种示意图；

图7是本发明实施例提供的知识图谱构建方法所基于的系统的一种结构示意图；

图8是图7所示的系统作为智能客服系统知识库实施的一种示意图；

图9是图7所示系统作为聊天机器人语料库实施的一种示意图；

图10是图7所示系统作为搜索服务知识库实施的一种示意图；

图11是图7所示系统作为语音助手语料库实施的一种示意图。

具体实施方式

以下结合附图对本发明进行详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图1所示，本发明实施例提供一种知识图谱构建方法，包括：

S11，根据预设的数据源规则采集相应数据；

S12，通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。

本发明实施例提供的知识图谱构建方法，能够根据预设的数据源规则采集相应数据，通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。这样，当面对复杂多变的数据源时，无需修改各个具体应用，只需直接修改相应的数据源规则，即可采集到所需的数据，通过数据源规则的设置和修改将数据源与数据采集松耦合，因此大大提高了系统的灵活度，为海量数据的采集提供了有效保障。

可选的，步骤S11中，数据源规则可以包括以下一种或多种：要采集的数据的数据源种类、数据格式和采集策略。在本发明的一个实施例中，可以将数据采集过程设置成一种数据源规则引擎。数据源规则引擎类似于一个IF/THEN的高级解释器，能够将数据源中的数据与规则库里的规则进行对比，激活相符合的规则，再根据规则中声明的执行逻辑进行相应操作。

具体而言，数据源规则引擎可以是一个易于访问、易于调整以及易于管理的多态数据源规则引擎，主要包括三部分：规则库(Rules)、匹配引擎(Inference Engine)和事实工作内存(Working Memory)，如图2所示。其中，数据源采集规则存储在规则库(Production Memory)中，要匹配的事实(facts)存储在工作内存(Working Memory)中。事实被插入到工作内存后，可能被修改或者删除。一个有大量规则和事实的系统可能会有很多规则被满足，这些规则被称为具有冲突性。议程(Agenda)可以通过冲突决策策略管理这些冲突规则的执行顺序。

数据源规则引擎可以采用RETE算法实现，包括：规则编译(rule compilation)和运行时执行(runtime execution)。其中，规则编译是指根据规则集生成推理网络的过程，运行时执行指将数据送入推理网络进行筛选的过程。当进行多态数据源的采集时，从规则集{规则1，规则2……..}中拿出一条来，根据一定算法，变成RETE推理网络的节点。不断循环将所有规则都处理完，RETE推理网络就生成了。

形成了具体的数据源规则后，具体的数据采集操作可以由爬虫集群来执行。具体的，爬虫集群可以采用多源规则引擎作为抓取逻辑，确定抓取什么样的数据源、数据源格式、抓取策略等。进一步的，为了保障爬虫集群爬取数据的质量，可以对爬取数据进行预处理，例如可以进行数据清洗、转换等。

根据预设的数据源采集规则采集数据后，即可进行步骤S12，通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。可选的，所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱具体可包括：

通过训练模型对采集的数据抽取实体关系实例语料；

对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；

根据识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。

具体的，知识图谱可包含两类页面：词条文章页面和类别页面。一个词条文章页面描述了一个实例，一个分类页面描述了一个概念。如图3所示，在分类页面中，可以列出子类、父类以及相关的孩子节点(即具体的词条)。通过解析这些页面来构建一张图，图中的每个节点指的是某个词条或某个类别，而图中的每一条边指的就是类别X至其某个子类或者从某个类别X至一篇X类别下的词条文章。这样，词条文章(实例)和类别(概念)就可以形成一个分类树系统。

一个知识库往往拥有着预先定义好的关系，例如“居住“(人，地点)和”写作“(作者，书)。这样的一个关系的实例包含了概念的实例，彼此之间存在着一种概念的映射关系。例如，“居住”(姚明，上海)就是关系“居住”(人，地点)的一个实例。理论上，可以试图去定义这样的一系列关系，之后再去抽取他们的实例。但是这样做会引起两个问题。首先，海量知识数据中包含着上亿条可能感兴趣的潜在关系，并且这个关系集合每天都在发生着变化，因此，想要快速定义大量有价值的关系是不切实际的。其次，一个更为严重的问题是，从任何非结构化的纯文本中抽取关系实例是非常困难的，并且所消耗的计算代价也十分巨大。

由于上述原因，本实施例中不是预先定义一系列的关系，也不尝试去抽取这些关系的实例，而是直接抓取两个概念在词条页面里所存在的任意关系实例。例如，假设“姚明”这一词条中有一个节标题称作”个人生活“，这其中提到了另一个词条页面—“叶莉”。那么接下来就可以创建一个关系实例--(姚明，叶莉，个人生活)，其表示姚明和叶莉直接有一个关系称作“个人生活”。可选的，抽取的关系实例具有以下形式：概念实例1的名字，概念实例2的名字，表达两个实例间某种关系的文本。

通过训练模型对采集的数据抽取实体关系实例语料之后，可以对训练模型输出的语料进行分词处理、语义分析、实体识别、类别提取、关系提取以及属性提取等自主学习过程。其中，语义分析是自主学习的一个逻辑阶段，语义分析的任务是对结构上正确的语料进行上下文有关性质的审查，进行类型审查。语义分析是审查语料有无语义错误，为知识图谱生成阶段收集类型信息。实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。实体识别(NER)的目的为从语料中抽取出特定领域相关实体。例如，“如何办理酒店留言灯优惠套餐？答：…”，其中加粗部分即为电信领域相关实体。

可选的，本实施例中，实体识别可包括：

根据已标注的语料训练实体识别模型；

通过所述实体识别模型，对生文本语料进行实体识别；

如图4所示，可以首先通过标注语料获得一定数量的已标注的NER数据，用于训练NER模型。然后对于给定的生文本语料，先进行文本预处理(分词、词性标注等)，然后使用训练好的NER模型进行NER识别，最终得到NER识别结果。可选的，可以使用在线学习算法实现NER模块核心算法。将实体识别建模为基于词的序列标注问题。对于输入句子的词序列，模型给句子中的每个词标注一个标识命名实体边界和实体类别的标记。在本发明的一个实施例中，定义的NER类型有4种。见表1所示。

表1

NER类型	NER标记
业务	SER
套餐	PACK
机构	ORG
其他电信领域实体	NER

基于上述实体识别的步骤，所述类别提取、所述关系提取以及所述属性提取可包括：通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。下面分别对类别提取、关系提取以及属性提取进行详细说明。

具体的，对于类别提取，其目的为从语料中抽取出实体的类别。例：“飞young套餐校园T9套餐是中国电信面向校园内大中专学生推出的3G手机套餐”，其中斜体加粗部分为电信领域相关实体，非斜体加粗部分为实体对应的类别。

可选的，对于生文本语料的输入，先进行文本预处理(分词、词性标注、NER识别等)，然后可以通过NER信息或者模板匹配的方式获得实体的类别：

对于NER信息方式，经过NER识别后，可以发现语料中的电信领域相关实体，而对于“SER”、“PACK”、“ORG”，显然是可以得到其对应的类别为“业务”、“套餐”、“机构”。

对于模板匹配方式，可以使用以下模板来获得实体类别：

1、x是[一个|一种]y

2、x[、]等y

3、y[，]特别是x

其中x为电信领域相关实体，y为对应的实体类别，例：“天翼手机套餐是3G套餐。”经过模板匹配以后，再进行相应的候选过滤，主要体现为设定过滤词表，并去除特定前后缀的词。

可选的，如图5所示，也可以使用开放域实体上位词获取算法，例如可以通过利用百度搜索页面、百度百科页面、互动百科页面中的信息，获取上位词候选，再通过一个LR模型，输出有序上位词列表。

具体的，对于实体关系抽取而言，其目的为从语料中抽取出实体的关系。例：“天翼领航A8信息版套餐如何办理？答：…”，其中斜体加粗部分为电信领域相关实体，非斜体加粗部分为实体对应的关系。

对于生文本语料的输入，先进行文本预处理(分词、词性标注、NER识别等)，然后通过模板匹配的方式获得实体关系。可选的，模板匹配主要可以使用如下5个模板：

1、什么是x

2、x是什么

3、x怎么|如何y

4、怎么|如何y x

5、x适用于什么|哪些用户

其中x为电信领域相关实体，y为对应的实体关系。

具体的，对于实体属性抽取而言，其目的为从语料中抽取出实体的属性。例：“加密通信业务有哪些功能？答：…”，其中斜体加粗部分为电信领域相关实体，非斜体加粗部分为实体对应的属性。

对于生文本语料的输入，先进行文本预处理(分词、词性标注、NER识别等)，然后通过模板匹配的方式获得实体属性。可选的，模板匹配主要使用2个模板：

1、x有什么|哪些y

2、x[的]y是什么|多少

进一步的，为了对上述自主学习过程进行有效监控和动态反馈，可以对训练学习效果进行自我诊断测评。自我诊断测评在初次训练时，系统的认知基础判断要通过诊断性评价获取数据，训练完成后的评价是下一步学习内容适应性的依据，也是调整训练目标的基础，可见自我诊断测评是动态反馈机制的重要组成部分。

进一步的，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，本发明实施例提供的知识图谱构建方法还可包括：根据用户对所述知识图谱的反馈修正所述训练模型。通过跟踪训练过程，分析推导训练行为规律，及时将信息反馈来修正训练模型。

如图6所示，将上述知识图谱的形成过程和反馈过程分别抽象成训练子系统和反馈子系统。训练子系统既是采集子系统语料数据的输入者，也是训练后知识图谱数据的输出者，输出到监督子系统中，反馈子系统从存储及应用子系统中采集评价及反馈数据，然后对训练模型进行动态修正，进而调整训练子系统中的训练模型，形成一个动态的训练及反馈系统。训练子系统在训练时需要经过确定训练目标、自主学习以及自我诊断测评三个过程。训练目标是构建分类树及抽取实体关系。反馈子系统能够跟踪训练过程，分析推导训练行为规律，及时将信息反馈至训练子系统指定训练。动态反馈模块是反馈子系统的调度中心，是将行为分析评价数据以定量的方式动态修正训练子系统的训练模型。其中学习模型库、绩效评测库的设计和构建是动态反馈机制有效运行的重要基础。学习模型库是自主学习支持系统实现训练过程有效监控与动态反馈机制的核心模块，学习模型既要描述学习者的静态学习特性也要记录动态学习的过程信息。绩效评测库则是一个以多元智能理论为基础的质量评价数据系统，数据来自于自评模式和他评模式，同时在学习模型库中设置动态标记，以修正和维护学习模块，建立学习评价模式，实现训练过程的动态评价。

进一步的，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，本发明实施例提供的知识图谱构建方法还可包括：对所述知识图谱的正确性进行评价及标注，也就是可以对步骤S12中的知识图谱数据进行评价及标注，保证知识图谱数据的准确性。为了保证系统的运行效率尽量避免人工参与，对于重要的实体类数据可以由人工进行标注，对于一般领域的信息可以根据规则减少人工参与度，由程序完成监督。监督结果可以以三元组的方式存储起来。

下面通过具体实施例对本发明实施例提供的知识图谱构建方法进行详细说明。

本发明实施例提供的知识图谱构建方法所基于的系统可如图7所示。图8是图7所示的系统作为智能客服系统知识库的示意图。结合图7和图8，本发明提供的知识图谱构建方法具体可包括如下步骤：

步骤801，采集子系统根据数据源规则引擎配置客服系统的数据采集规则，客服系统一般是特定领域，采集规则需要针对该特定领域的知识数据进行采集。

步骤802，训练子系统根据客服系统的知识模型进行训练、学习，客服系统训练输出的数据包含实体、实体关系及属性等(问答对)。

步骤803，监督子系统是对训练子系统训练的结果数据进行评价及标注，保证知识图谱数据的准确性。为了保证系统的运行效率尽量避免人工参与，例如对于重要的实体类数据由人工进行标注，对于一般领域的信息根据规则减少人工参与度。

步骤804，监督子系统输出的数据由存储与应用子系统以三元组的方式存储起来。

步骤805，用户登录客服系统，咨询或者办理相关业务。

步骤806，智能客服系统对用户的输入问句进行语义分析。

步骤807，智能客服系统对用户进行意图识别、语境识别。

步骤808，智能客服系统根据上述自然语言处理的结果生成检索或者推理请求。

步骤809，本方案知识图谱存储与应用子系统解析智能客服系统的检索或者推理请求。

步骤810，本方案知识图谱存储与应用子系统返回相应的知识数据。

步骤811，智能客服系统对知识数据进一步处理，生成相应的答案或者推理答案。

步骤812，用户收到相应问题的答案。

步骤813，用户对收到问题的答案进行评价。

步骤814，评价数据发给反馈子系统。

步骤815，反馈子系统对评价数据进行训练，动态调整训练子系统的训练模型。

步骤816，训练子系统根据动态修正后的训练模型重新训练学习。

步骤817，训练学习后的数据经过监督子系统处理后，更新到存储与应用子系统。

图9为图7所示系统作为聊天机器人语料库实施的示意图。本方案首先完成聊天机器人语料库的自学习及构建，另外提供知识图谱应用服务，聊天机器人与本方案交互，本方案作为服务端，并把知识图谱数据传递给聊天机器人。数据流程与图8所示的实施例大致相同，不同点如下：

首先，聊天机器人的语料与智能客服不同，不仅包含实体、实体类别、实体属性等基本的知识结构，还包含基本对话的规则等，本方案采集子系统的数据源规则引擎主要面向对话的数据进行采集。

其次，聊天机器人与本方案交互时，需要根据知识图谱应用服务响应的数据进行包装加工，以便响应更符合实际对话的应用场景。

图10为作为搜索服务知识库实施例的示意图。本方案首先完成搜索引擎知识及网页内容的自学习及构建，另外提供知识图谱应用服务，搜索引擎与本方案交互，本方案作为服务端，并把知识图谱数据传递给搜索引擎。数据流程与图8大致相同，不同点如下：

首先，搜索引擎的语料与智能客服不同，不仅包含实体、实体类别、实体属性等基本的知识结构，还网站地址及分类等，本方案采集子系统的数据源规则引擎主要面向搜索的数据进行采集。

其次，本方案的知识图谱构建完成后，搜索引擎的索引子系统需要对本方案的数据进行采集，采集的结果存储在索引子系统中，并通过检索子系统对外提供服务。搜索引擎的管理子系统管理搜索引擎及本方案的关联关系。

图11为作为语音助手语料库实施的示意图。本方案首先完成语音助手语料库的自学习及构建，然后提供知识图谱应用服务，语音与本方案交互，本方案作为服务端，并把知识图谱数据传递给语音助手。数据流程与图8大致相同，不同点如下：

首先，语音助手的语料与智能客服不同，不仅包含实体、实体类别、实体属性等基本的知识结构，还包含口语咨询、业务办理等，本方案采集子系统的数据源规则引擎主要口语咨询、业务办理的数据进行采集。

其次，语音助手与本方案交互时，需要先对语音的输入进行处理，转换为相应文字，知识图谱应用服务对转换后的文字进行语义理解，然后包装加工相应的语料进行响应，对于需要调用应用的服务转给第三方的应用系统进行处理。

本发明实施例提供的知识图谱构建的方案，实现一个基于分布式爬虫的数据采集集群，数据源可以由规则引擎灵活配置，大大提高数据采集的广度与深度；实现一个知识图谱正反双向训练模型，通过正向训练模型对采集的数据进行训练，从中学习实体、关系以及属性等特征，通过反向模型对反馈或者专家标注的数据进行训练，对训练模型进行修正；实现了知识图谱质量管控体系，对于核心领域的知识可以选择监督或者半监督的方式进行管理，同时引入反馈机制，由知识图谱的上层应用对知识的质量进行反向评价，动态修正训练模型，逐步提高训练模型的成熟度。为智能客服、聊天机器人以及搜索引擎等知识图谱相关应用提供了高质量的知识图谱智能化构建方法。

相应的，如图12所示，本发明的实施例还提供一种知识图谱构建装置，包括：

采集单元91，设置为根据预设的数据源规则采集相应数据；

抽取单元92，设置为通过训练模型对所述采集单元采集的数据抽取实体关系，以形成相应的知识图谱。

本发明实施例提供的知识图谱构建装置，采集单元91能够根据预设的数据源规则采集相应数据，抽取单元92能够通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。这样，当面对复杂多变的数据源时，无需修改各个具体应用，只需直接修改相应的数据源规则，即可采集到所需的数据，通过数据源规则的设置和修改将数据源与数据采集松耦合，因此大大提高了系统的灵活度，为海量数据的采集提供了有效保障。

可选的，抽取单元92可包括：

抽取模块，设置为通过训练模型对采集的数据抽取实体关系实例语料；

识别和提取模块，设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；

形成模块，设置为根据所述识别和提取模块识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。

可选的，所述识别和提取模块，具体可设置为：根据已标注的语料训练实体识别模型；通过训练后的所述实体识别模型，对生文本语料进行实体识别；通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。

进一步的，本发明实施例提供的知识图谱构建装置还可包括：监督单元，设置为在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，对所述知识图谱的正确性进行评价及标注。

进一步的，本发明实施例提供的知识图谱构建装置还可包括：修正单元，设置为根据用户对所述知识图谱的反馈修正所述训练模型。

相应的，本发明还提供一种智能互动系统，包括前述实施例提供的任一种知识图谱构建装置，因此也能实现相应的效果，前文已经进行了详细说明，此处不再赘述。

可选的，所述智能互动系统，可包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的一种或多种。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

工业实用性

本发明实施例提供的上述技术方案，可以应用于知识图谱构建过程中，能够根据预设的数据源规则采集相应数据，通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。这样，当面对复杂多变的数据源时，无需修改各个具体应用，只需直接修改相应的数据源规则，即可采集到所需的数据，通过数据源规则的设置和修改将数据源与数据采集松耦合，因此大大提高了系统的灵活度，为海量数据的采集提供了有效保障。

Claims

一种知识图谱构建方法，包括：

根据预设的数据源规则采集相应数据；

通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱。
根据权利要求1所述的方法，其中，所述数据源规则包括以下至少一种：要采集的数据的数据源种类、数据格式和采集策略。
根据权利要求1所述的方法，其中，所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱包括：

通过训练模型对采集的数据抽取实体关系实例语料；

对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；

根据识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。
根据权利要求3所述的方法，其中，所述实体识别包括：

根据已标注的语料训练实体识别模型；

通过所述实体识别模型，对生文本语料进行实体识别；

所述类别提取、所述关系提取以及所述属性提取包括：

通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。
根据权利要求1所述的方法，其中，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，所述方法还包括：

对所述知识图谱的正确性进行评价及标注。
根据权利要求1至5中任一项所述的方法，其中，在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，所述方法还包括：

根据用户对所述知识图谱的反馈修正所述训练模型。
一种知识图谱构建装置，包括：

采集单元，设置为根据预设的数据源规则采集相应数据；

抽取单元，设置为通过训练模型对所述采集单元采集的数据抽取实体关系，以形成相应的知识图谱。
根据权利要求7所述的装置，其中，所述数据源规则包括以下至少一种：要采集的数据的数据源种类、数据格式和采集策略。
根据权利要求7所述的装置，其中，所述抽取单元包括：

抽取模块，设置为通过训练模型对采集的数据抽取实体关系实例语料；

识别和提取模块，设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取；

形成模块，设置为根据所述识别和提取模块识别出的实体，提取出的所述实体的类别和属性，以及所述实体与其他实体之间的关系，形成相应的知识图谱。
根据权利要求9所述的装置，其中，所述识别和提取模块，具体设置为：

根据已标注的语料训练实体识别模型；

通过训练后的所述实体识别模型，对生文本语料进行实体识别；

通过模板匹配的方式，分别进行类别提取、关系提取以及属性提取。
根据权利要求7所述的装置，其中，还包括：监督单元，设置为在所述通过训练模型对采集的数据抽取实体关系，以形成相应的知识图谱之后，对所述知识图谱的正确性进行评价及标注。
根据权利要求7至11中任一项所述的装置，其中，还包括：修正单元，设置为根据用户对所述知识图谱的反馈修正所述训练模型。
一种智能互动系统，包括权利要求7至12中任一项所述的知识图谱构建装置。
根据权利要求13所述的系统，其中，包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。