WO2019091018A1

WO2019091018A1 - 知识图谱建立方法、装置、计算机设备及计算机存储介质

Info

Publication number: WO2019091018A1
Application number: PCT/CN2018/077038
Authority: WO
Inventors: 吕梓燊; 韦邕; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-11-13
Filing date: 2018-02-23
Publication date: 2019-05-16
Also published as: CN107943873A; CN107943873B

Abstract

一种知识图谱建立方法、装置、计算机设备及存储介质。对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据；当第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与第一实体数据对应的转换逻辑；通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据；计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度；当相似度等于预设值时，则将关系数据添加到实体数据库中与第二实体数据形成知识图谱。

Description

知识图谱建立方法、装置、计算机设备及计算机存储介质

本申请要求于2017年11月13日提交中国专利局、申请号为201711115690.5、发明名称为“知识图谱建立方法、装置、计算机设备及计算机存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种知识图谱建立方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展，越来越多的用户需要从互联网上获取相关的信息或数据，在某类数据或信息非常复杂的情况下，可以将各类数据以及各类数据之间的关系采用构建知识图谱的方法，从而系统地展示给用户。例如，可以建立相应的医疗知识图谱，将疾病、疾病相关的症状以及疾病相应的治疗方式相关联系统地展示给用户。

传统地，建立知识图谱都是将从各网站上爬取的所有数据全部用来建立知识图谱，如果所爬取到的数据中包括一些可信度较低的数据时，则会导致建立的知识图谱不准确。

发明内容

根据本申请的各种实施例，提供一种知识图谱建立方法、装置、计算机设备及计算机存储介质，解决了背景技术中所涉及的一个或多个问题。

一种知识图谱建立方法，所述方法包括：

对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

当所述第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算所述转换后的第一实体数据与所述实体数据库中存储的所述第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述转换后的第一实体数据对应的所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。

一种知识图谱建立装置，所述装置包括：

处理模块，用于对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

选取模块，用于当所述第一实体数据与实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

转换模块，用于通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算模块，用于计算所述转换后的第一实体数据与所述实体数据库中存储的实体数据的相似度；

添加模块，用于当所述相似度等于预设值时，则将所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。

在其中一个实施例中，所述处理模块还包括：

检测单元，用于检测所爬取的爬取数据中是否存在预设字符；

获取单元，用于当存在所述预设字符时，则根据所述预设字符获取所述爬取数据的不同字段；

第一提取单元，用于分别从所述爬取数据的不同字段中提取一标准数据并组合为待添加数据；

第二提取单元，用于提取所述待添加数据的实体数据字段对应的数据作为所述待添加数据的第一实体数据，提取所述待添加数据的关系数据字段对应的数据作为所述待添加数据的关系数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现以下步骤：

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

计算机可读指令计算机可读指令

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一实施例中知识图谱建立方法的应用场景图；

图2为一实施例中知识图谱建立方法的流程图；

图3为图2所示实施例中步骤S202的流程图；

图4为一实施例中添加关系数据步骤的流程图；

图5为图4所示实施例中步骤S402的流程图；

图6为一实施例中关联步骤的流程图；

图7为一实施例中第一实体数据处理的界面图；

图8为一实施例中可信度验证步骤的流程图；

图9为一实施例中知识图谱建立装置的结构示意图；

图10为一实施例中计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本申请，并不用于限定本申请。

在详细说明根据本申请的实施例前，应该注意到的是，所述的实施例主要在于与知识图谱建立方法、装置、计算机设备及存储介质相关的步骤和装置组件的组合。因此，所述装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了，并且只示出了与理解本申请的实施例有关的细节，以免因对于得益于本申请的本领域普通技术人员而言显而易见的那些细节模糊了本申请的公开内容。

在本文中，诸如左和右，上和下，前和后，第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作，而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参照图1，图1为一实施例中知识图谱建立方法的应用场景图，其中包括知识图谱建立平台和待爬取网站服务器，知识图谱建立平台上存储有实体数据库与逻辑转换库，知识图谱建立平台经过待爬取网站服务器验证成功后，则从待爬取网站中爬取待添加数据，知识图谱建立平台爬取到待添加数据后，对待添加数据进行处理得到第一实体数据以及和第一实体数据对应的关系数据，进而将第一实体数据与设置在知识图谱建立平台上设置的实体数据库中存储的第二实体数据进行匹配，当第一实体数据与实体数据库中存储的第二实体数据未完全匹配时，知识图谱建立平台从转换逻辑库中选取与第一实体数据对应的转换逻辑，之后通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据，转换后的第一实体数据对应的关系数据与第一实体数据对应的关系数据相同，进而知识图谱建立平台计算转换后的第一实体数据与实体数据库中存储的实体数据的相似度，当相似度大于预设值时，则将关系数据添加到实体数据库中与第二实体数据形成知识图谱。

请参见图2，在其中一个实施例中，提供一种知识图谱建立方法的流程图，本实施例中以该方法应用到上述图1中的知识图谱建立平台中来举例说明，该平台上运行有知识图谱建立程序，通过该知识图谱建立程序来实施知识图谱处理。该方法包括如下步骤：

S202：对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据。

具体地，待添加数据是指存在于相关网页上的内容等，待添加数据可以是文字数据、数字数据等，例如，相关医疗网站上存在有“感冒，症状，发烧”，则“感冒，症状，发烧”为待添加数据。第一实体数据是指具有相应的特性，且可以表示相关的概念的数据，第一实体数据可以是人物实体数据、地区实体数据、疾病实体数据或症状实体数据等，例如，第一实体数据可以是人物实体数据的张三或李四等，地区实体数据的上海、北京或天津等，疾病实体数据的感冒、更年期综合症或糖尿病等，症状实体数据的发烧、失眠或体重下降等。关系数据是指可以连接两个实体数据的相应属性数据，关系数据可以是出生地关系数据、症状关系数据或身体检查关系数据等，例如，关系数据可以是出生地、疾病症状或检查项目等。

进一步地，知识图谱建立平台从待爬取网页上爬取到相应的待添加数据，将待添加数据进行处理，得到第一实体数据以及与第一实体数据对应的关系数据；具体地，知识图谱建立平台从待爬取网页上爬取到相应的待添加数据，将待添加数据进行相应的标准化处理，并对待添加数据中的特殊字符进行删除，进而将经过与处理后的待添加数据进一步处理得到第一实体数据以及与第一实体数据对应的关系数据。例如，知识图谱建立平台从医疗网站上爬取到相应的待添加数据为“感冒,(可能)症状为发烧”，检测到该待添加数据“感冒,(可能)症状为发烧”中存在有半角字符逗号“,”，则将半角字符统一转换为全角字符，进而检测到待添加数据中存在特殊字符“(可能)”，则将该特殊字符“(可能)”进行删除，进而将经过处理后得到的待添加数据“感冒，症状为咳嗽”经过进步一处理得到第一实体数据为“感冒”“发烧”，关系数据为“症状”。需要说明的是，在对待添加数据进行预处理时，还可以检测待添加数据中是否存在繁体字，若存在繁体字，则统一将繁体字转换为简体字，是否出现特殊标记符，如双引号、空格、下划线或破折号等，如果存在特殊标记符，则将特殊标记符进行删除等。

S204：当第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与第一实体数据对应的转换逻辑。

具体地，实体数据库是指存储有相同领域的且具有相应特性的数据的数据库，实体数据库可以是预先存储在知识图谱建立平台上的数据库。第二实体数据是指具有相应的特性，且可以表示相关的概念的数据，第二实体数据可以是人物实体数据、地区实体数据、疾病实体数据或症状实体数据等，例如，第二实体数据可以是人物实体数据的王某或李某等，地区实体数据的杭州、南京或兰州等，疾病实体数据的感冒、更年期综合症或糖尿病等，症状实体数据的咳嗽、失眠或体重下降等。转换逻辑库中存储有将实体数据转换为另一种预设类型的实体数据的转换规则。

具体地，知识图谱建立平台将第一实体数据与实体数据库中存储的第二实体数据逐一进行匹配，可以是，第一实体数据中的字符与实体数据库中存储的一个第二实体数据的所有字符进行匹配，当所有字符都匹配成功时，则认为第一实体数据与该第二实体数据匹配成功，当未匹配成功时，则与实体数据库中存储的其他第二实体数据进行匹配，直至遍历匹配完实体数据库中所有第二实体数据，当第一实体数据与实体数据库中存储的所有第二实体数据都未完全匹配时，则知识图谱建立平台从转换逻辑库中选取第一实体数据对应的转换逻辑。例如，知识图谱建立平台将第一实体数据“更年期综合征”与实体数据库中存储的第二实体数据逐一进行匹配，当第一实体数据“更年期综合征”与实体数据库中存储的所有第二实体数据都未完全匹配时，则知识图谱建立平台从转换逻辑库中选取第一实体数据“更年期综合征”对应的转换逻辑。

S206：通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据，转换后的第一实体数据对应的关系数据与第一实体数据对应的关系数据相同。

具体地，转换逻辑是将实体数据转换为另一预设的实体数据的转换规则，转换逻辑可以是将第一实体数据中的字符进行转换，转换逻辑可以是去掉第一实体数据中的前缀等，知识图谱建立平台根据选取出来的转换逻辑，将与实体数据库中存储的第二实体数据未匹配成功的第一实体数据进行转换，转换为预设的另一实体数据，即可得到转换后的第一实体数据，该转换后的第一实体数据对应的关系数据与未进行转换的第一实体数据对应的关系数据相同。例如，一个第一实体数据为“更年期综合征”，该第一实体数据“更年期综合征”与实体数据库中存储的第二实体数据都未匹配成功，则知识图谱建立平台根据选取出来的转换逻辑，将该第一实体数据“更年期综合征”转换为“更年期综合症”；另一个第一实体数据为“无眠”，该第一实体数据“无眠”与实体数据库中存储的第二实体数据未匹配成功，则知识图谱建立平台根据选取出来的转换逻辑，将该第一实体数据“无眠”转换为“失眠”，转换后的第一实体数据“更年期综合症”与“失眠”的对应的关系数据“症状”与第一实体数据“更年期综合征”与“无眠”对应的关系数据“症状”相同。

需要说明的是，根据第一实体数据，选取到的转换逻辑还可以是将第一实体数据的前缀删除，例如，将第一实体数据的前缀“小儿”删除，得到相应的转换后的第一实体数据等。

S208：计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度。

具体地，知识图谱建立平台将转换后的第一实体数据与实体数据库中存储的第二实体数据进行匹配，从而计算相似度。进一步地，知识图谱建立平台可以将转换后的第一实体数据与实体数据库中存储的第二实体数据逐一按照字符进行匹配，从而计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度，也即是计算第二实体数据表现的内容与第一实体数据表现的内容的相似度。例如，选取一个实体数据库中的第二实体数据进行说明，知识图谱建立平台将待添加数据“更年期综合征，症状为失眠”中的一个第一实体数据“更年期综合征”转换为“更年期综合症”之后，与在实体数据库中存储的第二实体数据“更年期综合症”按照字符进行匹配，该转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度为100％。

可选地，知识图谱建立平台可以是计算将转换后的第一实体数据再转换为第二实体数据时的转换匹配率，从而根据转换匹配率得到第一实体数据与实体数据库中存储的第二实体数据的相似度；还可以是计算字符匹配率与转换匹配率，将字符匹配率与转换匹配率按照权重计算加权平均值，进而根据加权平均值得到第一实体数据与实体数据库中存储的第二实体数据的相似度。例如，知识图谱建立平台可以计算转换后的第一实体数据“更年期综合症”转换为实体数据库中存储的第二实体数据“更年期综合症”的转换匹配率，将转换后的第一实体数据“更年期综合症”与第二实体数据“更年期综合症”的字符数总和减去第一实体数据转换为第二实体数据所需的步骤数的值，进而与字符总数的值得到转换匹配率，该转换匹配率为1，则转换后的第一实体数据“更年期综合症”与实体数据库中存储的第二实体数据“更年期综合症”的相似度为100％；知识图谱还可以先计算转换后的第一实体数据“更年期综合症”与第二实体数据“更年期综合症”的字符匹配率为1，进而计算转换匹配率为1，根据字符匹配率的权重50％与转换匹配率的权重50％计算字符匹配率与转换匹配率的加权平均值，该加权平均值为1，则转换后的第一实体数据“更年期综合症”与实体数据库中存储的“更年期综合症”的相似度为100％。需要说明的是，字符匹配率与转换匹配率的权重也可以根据需要进行设置，如字符匹配率的权重为30％，转换匹配率的权重为70％等。

S210：当相似度等于预设值时，则将转换后的第一实体数据对应的关系数据添加到实体数据库中与第二实体数据形成知识图谱。

具体地，知识图谱是指可以描述不同领域中存在的各种概念的网络图，知识图谱由实体数据与关系数据构成，关系数据用来连接不同的实体数据，进而可以系统的展示各种数据之间的关系。具体地，知识图谱建立平台计算出的转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度，进而将该相似度与预设的相似度进行比较，当该相似度等于预设的相似度时，则将转换后的第一实体数据对应的关系数据添加到实体数据库中，进而与第二实体数据形成知识图谱。例如，预设的相似度为100％，知识图谱建立平台计算出转换后的一个第一实体数据“更年期综合症”与实体数据库中存储的第二实体数据的相似度为100％，计算另一转换后的第一实体数据“失眠”与实体数据库中存储的第二实体数据“失眠”的相似度为100％，则该转换后的第一实体数据“更年期综合症”“失眠”之间对应的关系数据“症状”添加到实体数据库中，添加的关系数据“症状”与实体数据库中存储的第二实体数据“更年期综合症”“失眠”形成知识图谱，例如形成“更年期综合症-症状-失眠”。

需要说明的是，第一实体数据可以包括至少两个不同的数据、第二实体数据可以包括至少两个不同的数据，关系数据为不同的至少两个第一实体数据或第二实体数据之间一一对应的关系。则第一实体数据中至少两个不同的数据可以分别与实体数据库中存储的第二实体数据一一匹配，当第一实体数据中至少一个数据未与第二实体数据完全匹配时，则选取第一实体数据对应的转换规则将第一实体数据进行转换，当转换后的第一实体数据中的每个数据与实体数据库中存储的第二数据计算相似度，当相似度等于预设值时，则将第一实体数据中至少两个数据之间的关系数据添加到实体数据库中，与实体数据库存储的第二实体数据中至少两个数据形成知识图谱。

本实施例中，当第一实体数据未与实体数据库中的第二实体数据完全匹配时，则采用转换逻辑进行转换，进而通过计算相似度，当相似度大于预设值时，则将第一实体数据对应的关系数据添加到实体数据库中与第二实体数据形成知识图谱，通过双重验证，且采用准确的逻辑转换以及相似度计算，避免直接将从各网站上爬取的所有数据直接全部建立知识图谱，提高建立知识图谱的准确性。

在其中一个实施例中，可参见图3，提供图2所示实施例中步骤S202的流程图；步骤S202，即对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据的步骤可以包括：

S302：检测所爬取的爬取数据中是否存在预设字符。

具体地，知识图谱建立平台根据从待爬取网站上爬取到的爬取数据，检测爬取数据中是否存在有预设字符。例如，知识图谱建立平台预设有字符逗号“，”，知识图谱建立平台从待爬取网站上爬取到的爬取数据为“感冒，症状，咳嗽、发烧”，则逐个字符进行检测，检测爬取数据“感冒，症状，咳嗽、发烧”中是否存在预设字符逗号“，”。需要说明的是，根据待爬取网站上存储的不同的数据格式，预设字符可以根据需要设定为其他字符或特殊符号，例如预设字符可以设定为顿号、空格字符、破折号、句号或冒号等。

S304：当存在预设字符时，则根据预设字符获取爬取数据的不同字段。

具体地，预设字符可以将爬取数据拆分为不同的字段，知识图谱建立平台对从待爬取网站上爬取到的爬取数据进行检测，当检测到存在预设字符时，则根据预设字符，获取到预设字符将爬取数据拆分的不同字段。例如，预设字符为逗号“，”，爬取到的爬取数据为“感冒，症状，咳嗽、发烧”，则预设字符将爬取数据分为第一字段“感冒”，第二字段“症状”，第三字段“咳嗽、发烧”，进而知识图谱建立平台检测到爬取数据“感冒，症状，咳嗽、发烧”中存在预设字符逗号“，”时，则获取预设字符逗号“，”将爬取数据拆分成的第一字段“感冒”，第二字段“症状”，第三字段“咳嗽、发烧”，进而获取爬取数据的第一字段“感冒”，第二字段“症状”，第三字段“咳嗽、发烧”。

S306：分别从爬取数据的不同字段中提取一标准数据并组合为待添加数据。

具体地，标准数据是指具有独立语义的数据，其不受之前或之后的字符的影响，仅通过术语内容的字符即可以确定完整的计算机专业概念。具体地，知识图谱建立平台从爬取数据中检测到预设字符，获取爬取数据的不同字段，分别从爬取数据的不同字段中提取出来一个标准数据组合为待添加数据。例如，预设字符为逗号“，”，知识图谱建立平台从爬取数据“感冒，症状，咳嗽、发烧”检测到该预设字符逗号“，”，获取第一字段“感冒”，第二字段“症状”，第三字段“咳嗽、发烧”，则第一字段中存在标准数据“感冒”，第二字段中存在标准数据“症状”，第三字段中存在标准字段“咳嗽”与“发烧”，则分别从第一字段、第二字段和第三字段中提取一个标准数据组合成为添加数据，如提取第一字段中的“感冒”，第二字段中的“症状”，第三字段中的“咳嗽”，将提取出来的标准数据进行组合，形成待添加数据“感冒，症状，咳嗽”，进而再提取第一字段中的“感冒”，第二字段中的“症状”，第三字段中的“发烧”，将提取出来的标准数据进行组合，形成待添加数据“感冒，症状，发烧”。

S308：提取待添加数据的实体数据字段对应的数据作为待添加数据的第一实体数据，提取待添加数据的关系数据字段对应的数据作为待添加数据的关系数据。

具体地，知识图谱建立平台根据得到的待添加数据，提取待添加数据中的实体数据字段对应的数据，将提取出来的实体数据字段对应的数据添加实体数据标签，进而提取待添加数据中的关系数据字段对应的数据，将提取出来的关系数据字段对应的数据添加关系数据标签，知识图谱建立平台根据添加的实体数据标签与关系数据标签，将待添加数据区分为第一实体数据与关系数据。例如，得到待添加数据“感冒，症状，咳嗽”，将提取待添加数据中的实体数据字段对应的数据为“感冒”和“咳嗽”，将提取出来的实体数据字段对应的数据“感冒”和“咳嗽”添加实体数据标签，进而提取待添加数据中的关系数据字段对应的数据为“症状”，将提取出来的关系数据字段对应的数据“症状”添加关系数据标签，知识图谱建立平台根据添加的实体数据标签与关系数据标签，将待添加数据区分为第一实体数据“感冒”和“咳嗽”，关系数据为“症状”。

需要说明的是，还可以检测爬取数据中的语义，将爬取数据中具有独立语义的数据提取出来进而组合为待添加数据，进而将待添加数据的实体数据字段对应的数据作为待添加数据的第一实体数据，提取待添加数据的关系数据字段对应的数据作为待添加数据的关系数据。具体地，知识图谱建立平台还可以检测爬取数据中的语义，将爬取数据中具有独立语义的数据提取出来进而组合为待添加数据，进而将待添加数据的实体数据字段添加实体数据标签，将待添加数据的关系数据字段添加关系数据标签，知识图谱建立平台根据实体数据标签与关系数据标签将待添加数据区分为第一实体数据与关系数据。例如，检测爬取数据“感冒，症状，咳嗽、发烧”中的语义，将爬取数据“感冒，症状，咳嗽、发烧”中具有独立语义的数据“感冒”、“症状”、“咳嗽”与“发烧”提取出来进而进行组合，得到待添加数据，如得到待添加数据“感冒，症状，咳嗽”与待添加数据“感冒，症状，发烧”，将提取出来的实体数据“感冒”和“咳嗽”或者实体数据“感冒”和“发烧”添加实体数据标签，将提取出来的关系数据“症状”添加关系数据标签，进而知识图谱建立平台根据实体数据标签与关系数据标签将待添加数据区分为第一实体数据“感冒”和“咳嗽”或者“感冒”和“发烧”，以及关系数据“症状”。

本实施例中，根据预设的字符将爬取数据获取到不同的字段，进而从不同字段中提取标准数据组合为待添加数据，将待添加数据中的实体数据字段对应的字段提取出来作为第一实体数据，将待添加数据中的关系数据字段对应的数据提取出来作为关系数据，根据不同的网站，设置不同的预设字符，进而将爬取数据组合为待添加数据，根据待添加数据中的数据获取到第一实体数据与关系数据，对第一实体数据以及关系数据获取准确，提高适用性。

在其中一个实施例中，可参见图4，提供一添加关系数据步骤的流程图，该添加关系数据步骤可在图2所示实施例中步骤S202之后执行，步骤S202，即在对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据的步骤之后执行，该添加关系数据的步骤还包括：

S402：计算第一实体数据和实体数据库中存储的第二实体数据的相似度。

具体地，知识图谱建立平台将第一实体数据与实体数据库中存储的第二实体数据进行匹配，从而计算相似度。进一步地，知识图谱建立平台可以将第一实体数据与实体数据库中存储的第二实体数据逐一按照字符进行匹配，从而计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度。例如，选取一个实体数据库中的第二实体数据进行说明，知识图谱建立平台将待添加数据“感冒，症状为咳嗽”中的一个第一实体数据“感冒”与在实体数据库中存储的第二实体数据“感冒”按照字符进行匹配，第一实体数据“感冒”与实体数据库中存储的第二实体数据“感冒”的相似度为100％。

可选地，知识图谱建立平台也可以是计算将第一实体数据转换为第二实体数据时的转换匹配率，从而根据转换匹配率得到第一实体数据与实体数据库中存储的第二实体数据的相似度；还可以计算字符匹配率与转换匹配率，将字符匹配率与字符匹配率按照权重计算加权平均值，进而根据加权平均值得到第一实体数据与实体数据库中存储的第二实体数据的相似度；例如，知识图谱建立平台也可以计算第一实体数据“感冒”转换为实体数据库中存储的第二实体数据“更年期综合症”的转换匹配率，将转换后的第一实体数据“更年期综合症”与第二实体数据“感冒”的字符数总和减去第一实体数据转换为第二实体数据所需的步骤数的值，进而与字符总数的值得到转换匹配率，该转换匹配率为1，则第一实体数据“感冒”与实体数据库中存储的第二实体数据“感冒”的相似度为100％；知识图谱还可以先计算第一实体数据“感冒”与第二实体数据“感冒”的字符匹配率为1，进而计算转换匹配率为1，进而根据字符匹配率的权重50％与转换匹配率的权重50％计算字符匹配率与转换匹配率的加权平均值，该加权平均值为1，则第一实体数据“感冒”与第二实体数据“感冒”的相似度为100％。

S404：当相似度等于预设值时，则将关系数据添加到实体数据库中与第二实体数据形成知识图谱。

具体地，知识图谱建立平台计算出第一实体数据与实体数据库中存储的第二实体数据的相似度，进而将该相似度与预设的相似度进行比较，当该相似度等于预设的相似度时，则将第一实体数据对应的关系数据直接添加到实体数据库中，进而与第二实体数据形成知识图谱。例如，预设的相似度为100％，知识图谱建立平台计算出转换后的一个第一实体数据“感冒”与实体数据库中存储的第二实体数据“感冒”的相似度为100％，计算另一转换后的第一实体数据“咳嗽”与实体数据库中存储的第二实体数据“咳嗽”的相似度为100％，则第一实体数据“感冒”“咳嗽”之间对应的关系数据“症状”添加到实体数据库中，添加的关系数据“症状”与实体数据库中存储的第二实体数据“感冒”“咳嗽”形成知识图谱，例如形成“感冒-症状-咳嗽”。

本实施例中，计算第一实体数据与实体数据库中存储的第二实体数据的相似度，可以采用字符匹配的方式计算相似度，也可以采用转换匹配率的方式计算相似度，还可以采用字符匹配与转换匹配率结合计算相似度，选取不同的计算方式，保证计算的准确性，进而当相似度等于预设值时，则将关系数据添加到实体数据库中与第二实体数据形成知识图谱，提高知识图谱建立的效率，增强适用性。

在其中一个实施例中，请参见图5，提供图4所示实施例中步骤S402的流程图，步骤S402，即计算第一实体数据和实体数据库中存储的第二实体数据的相似度的步骤可以包括:

S502：根据第一实体数据的字符数与实体数据库中存储的第二实体数据的字符数，计算字符匹配率以及将第一实体数据转换为第二实体数据的步骤数。

具体地，字符匹配率为第一实体数据与实体数据库中存储的第二实体数据中的字符匹配程度，进一步地，字符匹配率可以采用第一实体数据与存储在实体数据库中的第二实体数据匹配成功的字数与第二实体数据的字数的比值进行计算，第一实体数据转换为第二实体数据的步骤数可以为当第一实体数据将与第二实体数据中不同的字符进行删除并且添加对应的第二实体数据的字符所需的步骤数。例如，第一实体数据为“糖尿病”，实体数据库中存储的第二实体“I型糖尿病”，第一实体数据与第二实体数据有三个字符“糖尿病”匹配成功，与第二实体数据“I型糖尿病”的五个字符的字符数据的比值为3/5，则字符匹配率为3/5，第一实体数据“糖尿病”转换为第二实体数据“I型糖尿病”需要增加两个字符，即每次增加一个字符，则第一实体数据“糖尿病”转换为第二实体数据“I型糖尿病”的步骤数为2步。

S504：根据第一实体数据与第二实体数据的字符数和以及步骤数计算转换匹配率。

具体地，转换匹配率为第一实体数据转换为第二实体数据时相应的匹配率，知识图谱建立平台根据第一实体数据与第二实体数据的字符数，以及计算根据第一实体数据与第二实体数据的字符数计算出的步骤数，计算转换匹配率。进一步地，知识图谱建立平台先根据第一实体数据与第二实体数据的字符数的总和与步骤数的差值，进而计算该差值和第一实体数据与第二实体数据的字符数总和的比值，该比值即为转换匹配率。例如，第一实体数据为“糖尿病”，第二实体数据为“I型糖尿病”，第一实体数据与第二实体数据的字符数的总和为8，第一实体数据“糖尿病”转换为第二实体数据“I型糖尿病”需要增加两个字符，也即将“糖尿病”转换我“I型糖尿病”的步骤数为2步，则第一实体数据“糖尿病”与第二实体数据“I型糖尿病”的字符数的总和与步骤数的差值为6，进而该差值6与第一实体数据“糖尿病”与第二实体数据“I型糖尿病”的字符数的总和8的比值为3/4，则转换匹配率为3/4。

S506：计算字符匹配率与转换匹配率的加权平均值作为第一实体数据和实体数据库中存储的第二实体数据的相似度。

具体地，当知识图谱建立平台计算字符匹配率与转换匹配率时，则根据字符匹配率与转换匹配率各自的权重，计算字符匹配率与转换匹配率的加权平均值，则该加权平均值作为第一实体数据与实体数据库中存储的第二实体数据的相似度。例如，设定字符匹配率的权重为50％，转换匹配率的权重为50％，字符匹配率为3/5，转换匹配率为3/4，则字符匹配率与转换匹配率的加权平均值为27/40，则第一实体数据和实体数据库中存储的第二实体数据的相似度为27/40。

本实施例中，采用第一实体数据与实体数据库中存储的第二实体数据的字符匹配率与转换匹配率结合，通过计算字符匹配率与转换匹配率的加权平均值，从而得到第一实体数据与第二实体数据的相似度，采用字符匹配率与转换匹配率的加权平均值，计算相似度准确，且字符匹配率与转换匹配率的权重灵活设置，增强适用性。

在其中一个实施例中，请参见图6，提供一关联步骤的流程图，该关联步骤可在图2所示实例中步骤S208之后执行，步骤S208，即在计算转换后的第一实体数据与实体数据库中存储的实体数据的相似度的步骤之后执行，该关联步骤可以包括：

S602：当转换后的第一实体数据与实体数据库中存储的第二实体数据未完全匹配时，则接收审核指令。

具体地，可参见图7，提供第一实体数据处理的界面图，知识图谱建立平台计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度，当转换后的第一实体数据与第二实体数据的相似度仍未达到预设值时，则转换后的第一实体数据与第二实体数据仍未完全匹配，则接收审核指令，审核指令为知识图谱建立平台将对第一实体数据进行如何处理的指令，审核指令可以为将第一实体数据直接删除，将第一实体数据进行添加等。可以是，当知识图谱建立平台计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度，当转换后的第一实体数据与第二实体数据的相似度仍未达到预设值时，即转换后的第一实体数据与第二实体数据仍未完全匹配，则知识图谱建立平台关联的界面显示提示信息，用户可以根据提示信息选择对第一实体数据的处理，当用户选取完成时，知识图谱建立平台根据用户提交的操作审核指令，根据审核指令，知识图谱建立平台对第一实体数据进行处理。例如，可参见图8，知识图谱建立平台计算转换后的第一实体数据“更年期综合症”与存储在实体数据库中的第二实体数据的相似度，若转换后的第一实体数据“更年期综合症”与第二实体数据的相似度仍未达到预设值时，则转换后的第一实体数据“更年期综合症”与实体数据库中存储的第二实体数据仍未完全匹配，则知识图谱建立平台关联的界面显示提示信息“未匹配成功，请选择下一步”，根据用户的选择，生成审核指令，进而对第一实体数据进行处理。

S604：当审核指令表示将第一实体数据和与第一实体数据对应的关系数据添加到实体数据库中时，则将第一实体数据和与第一实体数据对应的关系数据添加到实体数据库中形成知识图谱。

具体地，可继续参见图7，当知识图谱建立平台接收到审核指令时，且审核指令表示的为将第一实体数据和与第一实体数据对应的关系数据添加到实体数据库中时，则知识图谱建立平台将第一实体数据和与第一实体数据对应的关系数据添加到实体数据库中，进而形成指示图谱。例如，可继续参见图8，当用户选取“添加数据”的选项进行提交后，知识图谱建立平台根据用户进行的“添加数据”的操作生成审核指令，当指示图谱建立平台根据生成的审核指令，将第一实体数据“更年期综合征”“失眠”以及第一实体数据对应的关系数据“症状”添加至实体数据库中，将该第一实体数据“更年期综合征”“失眠”以及第一实体数据对应的关系数据“症状”形成知识图谱，即可形成“更年期综合征-症状-失眠”。

上述实施例中，当转换后的第一实体数据与实体数据库中存储的第二实体数据未完全匹配时，则根据审核指令，将第一实体数据和与第一实体数据对应的关系数据直接添加至实体数据库中形成知识图谱，采用不同的操作方式建立知识图谱，操作灵活，简单易行。增强适用性。

在其中一个实施例中，请参见图8，提供一可信度验证步骤的流程图，该可信度验证步骤可在图2所示实施例中步骤S202之前执行，步骤S202，即在对爬取到的待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据的步骤之前执行，该可信度验证步骤可以包括：

S802：提取待添加数据上携带的数据来源标识。

具体地，数据来源标识是指数据来自的不同网站的标记，数据来源标识可以是待爬取网站URL(Uniform Resoure Locator，统一资源定位器)地址或者待爬取网站的网站名称或者等；爬取到的待添加数据上携带有相应的待爬取网站的标记，即携带有数据来源标识，知识图谱建立平台将待添加数据上携带的数据来源标识进行提取。例如，待爬取网站为“39健康网”，爬取到的待添加数据“感冒，症状，咳嗽”上携带有“39健康网”的数据来源标识，该数据来源标识为URL地址“http://www.39.net/”，则知识图谱建立平台将待添加数据“感冒，症状，咳嗽”上携带的URL地址“http://www.39.net/”进行提取。

S804：从网站信用库中获取与数据来源标识对应的信用等级。

具体地，网站信用库是指存储有不同的网站的信用评级的数据库，网站信用库存储有不同的网站名称以及URL地址等网站标识，对应不同的网站名称以及URL地址有相应的信用评级，信用评级越高，则网站的可信度越高。具体地，知识图谱建立平台根据提取的待添加数据上携带的数据来源标识，从网站信用库中获取到与数据来源标识对应信用等级，该信用等级即表示该数据来源标识对应的网站的信用等级。例如，信用等级最低级别为1级，最高级别为5级，知识图谱建立平台根据提取的待添加数据“感冒，症状，咳嗽”提取到的“39健康网”的数据来源标识，该数据来源标识为URL地址“http://www.39.net/”，根据该URL地址，从网站信用库中获取该与数据来源标识对应的信用等级为4级，则表示39健康网的信用等级为4级。需要说明的是，网站信用等级还可以设置成最高级别为1级，最低级别为5级等。

S806：当信用等级未达到预设的等级时，则删除待添加数据。

具体地，知识图谱建立平台预设有相应的信用等级，当待添加数据的数据来源标识对应的信用等级未达到预设的等级时，则该待添加数据可信度比较低，则将待添加数据直接删除。例如，知识图谱建立平台预设的等级为4级，待添加数据的数据来源标识对应的信用等级小于4级时，则认为该待添加数据不可信，则直接将该待添加数据删除。需要说明的是，预设等级根据知识图谱的建立要求，可以预设为5级、3级等。

本实施例中，知识图谱建立平台将提取的待添加数据上携带的数据来源标识，根据携带的数据来源标识获取对应的信用等级，从而获取数据来源标识对应的网站的信用等级，当信用等级未达到预设值时，则认为该网站的可信度较低，则将该待添加数据直接删除，预先判断待添加数据的信用等级，进而将信用等级低的待添加数据直接删除，提高知识图谱建立的准确度。

在其中一个实施例中，请参加图9，提供一知识图谱建立装置的结构示意图，所述知识图谱建立装置900包括：

处理模块910，用于对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据。

选取模块920，用于当第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与第一实体数据对应的转换逻辑。

转换模块930，用于通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据，转换后的第一实体数据对应的关系数据与第一实体数据对应的关系数据相同。

计算模块940，用于计算转换后的第一实体数据与实体数据库中存储的实体数据的相似度。

添加模块950，用于当相似度等于预设值时，则将转换后的第一实体数据对应的关系数据添加到实体数据库中与第二实体数据形成知识图谱。

在其中一个实施例中，处理模块还可以包括：

检测单元，用于检测所爬取的爬取数据中是否存在预设字符。

获取单元，用于当存在预设字符时，则根据预设字符获取爬取数据的不同字段。

第一提取单元，用于分别从爬取数据的不同字段中提取一标准数据并组合为待添加数据。

第二提取单元，用于提取待添加数据的实体数据字段对应的数据作为待添加数据的第一实体数据，提取待添加数据的关系数据字段对应的数据作为待添加数据的关系数据。

在其中一个实例中，知识图谱建立装置还可以包括：

相似度计算模块，用于计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度。

数据添加模块，用于当所述相似度等于预设值时，则将所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。

在其中一个实施例中，相似度计算模块还可以包括:

计算单元，用于根据所述第一实体数据的字符数与实体数据库中存储的第二实体数据的字符数，计算字符匹配率以及将所述第一实体数据转换为所述第二实体数据的步骤数。

转换匹配率计算单元，用于根据所述第一实体数据与所述第二实体数据的字符数和以及所述步骤数计算转换匹配率。

相似度计算单元，用于计算所述字符匹配率与所述转换匹配率的加权平均值作为所述第一实体数据和所述实体数据库中存储的第二实体数据的相似度。

在其中一个实施例中，知识图谱建立装置还可以包括：

指令接收模块，用于当所述转换后的第一实体数据与所述实体数据库中存储的第二实体数据未完全匹配时，则接收审核指令。

知识图谱形成模块，用于当所述审核指令表示将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中时，则将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中形成知识图谱。

在其中一个实施例中，知识图谱建立装置还可以包括：

提取模块，用于提取待添加数据上携带的数据来源标识。

信用等级获取模块，用于从网站信用库中获取与所述数据来源标识对应的信用等级。

待添加数据删除模块，用于当所述信用等级未达到预设的等级时，则删除所述待添加数据。

上述关于知识图谱建立装置的具体限定可以参见上文中关于知识图谱建立方法的限定，在此不再赘述。上述知识图谱建立装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述知识图谱建立装置可以实现为一种计算机可读指令的形式，计算机可读指令可在如图1所示的知识图谱建立平台设备上运行。

本申请实施例提出了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储知识图谱建立数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种知识图谱建立方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。其中，处理器执行该计算机可读指令时实现以下步骤：对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据。当第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与第一实体数据对应的转换逻辑。通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据，转换后的第一实体数据对应的关系数据与第一实体数据对应的关系数据相同。计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度。当相似度等于预设值时，则将转换后的第一实体数据对应的关系数据添加到实体数据库中与第二实体数据形成知识图谱。

上述关于计算机设备的具体限定可以参见上文中关于知识图谱建立方法的限定，在此不再赘述。

在其中一个实施例中，请继续参见图10，提供一种存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行，使得所述一个或多个处理器执行以下步骤：对待添加数据进行处理得到第一实体数据以及与第一实体数据对应的关系数据。当第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与第一实体数据对应的转换逻辑。通过转换逻辑对第一实体数据进行转换，得到转换后的第一实体数据，转换后的第一实体数据对应的关系数据与第一实体数据对应的关系数据相同。计算转换后的第一实体数据与实体数据库中存储的第二实体数据的相似度。当相似度等于预设值时，则将第一实体数据对应的关系数据添加到实体数据库中与第二实体数据形成知识图谱。

上述关于存储介质的具体限定可以参见上文中关于知识图谱建立方法的限定，在此不再赘述。

计算机可读指令本申请本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种知识图谱建立方法，所述方法包括：

对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

当所述第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算所述转换后的第一实体数据与所述实体数据库中存储的所述第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述转换后的第一实体数据对应的所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求1所述的方法，其特征在于，所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤，包括：

检测所爬取的爬取数据中是否存在预设字符；

当存在所述预设字符时，则根据所述预设字符获取所述爬取数据的不同字段；

分别从所述爬取数据的不同字段中提取一标准数据并组合为待添加数据；及

提取所述待添加数据的实体数据字段对应的数据作为所述待添加数据的第一实体数据，提取所述待添加数据的关系数据字段对应的数据作为所述待添加数据的关系数据。
根据权利要求1所述的方法，其特征在于，所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之后，还包括：

计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求3所述的方法，其特征在于，所述计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度的步骤，包括:

根据所述第一实体数据的字符数与实体数据库中存储的第二实体数据的字符数，计算字符匹配率以及将所述第一实体数据转换为所述第二实体数据的步骤数；

根据所述第一实体数据与所述第二实体数据的字符数和以及所述步骤数计算转换匹配率；及

计算所述字符匹配率与所述转换匹配率的加权平均值作为所述第一实体数据和所述实体数据库中存储的第二实体数据的相似度。
根据权利要求1所述的方法，其特征在于，所述计算所述转换后的第一实体数据与所述实体数据库中存储的实体数据的相似度的步骤之后，还包括：

当所述转换后的第一实体数据与所述实体数据库中存储的第二实体数据未完全匹配时，则接收审核指令；及当所述审核指令表示将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中时，则将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中形成知识图谱。
根据权利要求1所述的方法，其特征在于，所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之前，还包括：

提取待添加数据上携带的数据来源标识；

从网站信用库中获取与所述数据来源标识对应的信用等级；及

当所述信用等级未达到预设的等级时，则删除所述待添加数据。
一种知识图谱建立装置，其特征在于，所述装置包括：

处理模块，用于对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

选取模块，用于当所述第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

转换模块，用于通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算模块，用于计算所述转换后的第一实体数据与所述实体数据库中存储的实体数据的相似度；及

添加模块，用于当所述相似度等于预设值时，则将所述转换后的第一实体数据对应的所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求7所述的装置，其特征在于，所述处理模块还包括：

检测单元，用于检测所爬取的爬取数据中是否存在预设字符；

获取单元，用于当存在所述预设字符时，则根据所述预设字符获取所述爬取数据的不同字段；

第一提取单元，用于分别从所述爬取数据的不同字段中提取一标准数据组合为待添加数据；及

第二提取单元，用于提取所述待添加数据的实体数据字段对应的数据作为所述待添加数据的第一实体数据，提取所述待添加数据的关系数据字段对应的数据作为所述待添加数据的关系数据。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现以下步骤：计算机可读指令计算机可读指令

对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

当所述第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算所述转换后的第一实体数据与所述实体数据库中存储的所述第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述转换后的第一实体数据对应的所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤，包括：

检测所爬取的爬取数据中是否存在预设字符；

当存在所述预设字符时，则根据所述预设字符获取所述爬取数据的不同字段；

分别从所述爬取数据的不同字段中提取一标准数据并组合为待添加数据；及

提取所述待添加数据的实体数据字段对应的数据作为所述待添加数据的第一实体数据，提取所述待添加数据的关系数据字段对应的数据作为所述待添加数据的关系数据。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之后，还包括：

计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求11所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度的步骤，包括:

根据所述第一实体数据的字符数与实体数据库中存储的第二实体数据的字符数，计算字符匹配率以及将所述第一实体数据转换为所述第二实体数据的步骤数；

根据所述第一实体数据与所述第二实体数据的字符数和以及所述步骤数计算转换匹配率；及

计算所述字符匹配率与所述转换匹配率的加权平均值作为所述第一实体数据和所述实体数据库中存储的第二实体数据的相似度。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述计算所述转换后的第一实体数据与所述实体数据库中存储的实体数据的相似度的步骤之后，还包括：

当所述转换后的第一实体数据与所述实体数据库中存储的第二实体数据未完全匹配时，则接收审核指令；及当所述审核指令表示将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中时，则将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中形成知识图谱。
根据权利要求9所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时所实现的所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之前，还包括：

提取待添加数据上携带的数据来源标识；

从网站信用库中获取与所述数据来源标识对应的信用等级；及

当所述信用等级未达到预设的等级时，则删除所述待添加数据。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据；

当所述第一实体数据与预先设置的实体数据库中存储的第二实体数据未完全匹配时，则从转换逻辑库中选取与所述第一实体数据对应的转换逻辑；

通过所述转换逻辑对所述第一实体数据进行转换，得到转换后的第一实体数据，所述转换后的第一实体数据对应的关系数据与所述第一实体数据对应的关系数据相同；

计算所述转换后的第一实体数据与所述实体数据库中存储的所述第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述转换后的第一实体数据对应的所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤时，包括：

检测所爬取的爬取数据中是否存在预设字符；

当存在所述预设字符时，则根据所述预设字符获取所述爬取数据的不同字段；

分别从所述爬取数据的不同字段中提取一标准数据并组合为待添加数据；及

提取所述待添加数据的实体数据字段对应的数据作为所述待添加数据的第一实体数据，提取所述待添加数据的关系数据字段对应的数据作为所述待添加数据的关系数据。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之后，还包括：

计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度；及

当所述相似度等于预设值时，则将所述关系数据添加到所述实体数据库中与所述第二实体数据形成知识图谱。
根据权利要求17所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述计算所述第一实体数据和实体数据库中存储的第二实体数据的相似度的步骤，包括:

根据所述第一实体数据的字符数与实体数据库中存储的第二实体数据的字符数，计算字符匹配率以及将所述第一实体数据转换为所述第二实体数据的步骤数；

根据所述第一实体数据与所述第二实体数据的字符数和以及所述步骤数计算转换匹配率；及

计算所述字符匹配率与所述转换匹配率的加权平均值作为所述第一实体数据和所述实体数据库中存储的第二实体数据的相似度。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述计算所述转换后的第一实体数据与所述实体数据库中存储的实体数据的相似度的步骤之后，还包括：

当所述转换后的第一实体数据与所述实体数据库中存储的第二实体数据未完全匹配时，则接收审核指令；及当所述审核指令表示将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中时，则将所述第一实体数据和与所述第一实体数据对应的关系数据添加到所述实体数据库中形成知识图谱。
根据权利要求15所述的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行所述对待添加数据进行处理得到第一实体数据以及与所述第一实体数据对应的关系数据的步骤之前，还包括：

提取待添加数据上携带的数据来源标识；

从网站信用库中获取与所述数据来源标识对应的信用等级；及

当所述信用等级未达到预设的等级时，则删除所述待添加数据。