WO2024045989A1

WO2024045989A1 - 图网络数据集的处理方法、装置、电子设备、程序及介质

Info

Publication number: WO2024045989A1
Application number: PCT/CN2023/110370
Authority: WO
Inventors: 李龙飞; 张振中; 梁烁斌
Original assignee: 京东方科技集团股份有限公司
Priority date: 2022-08-31
Filing date: 2023-07-31
Publication date: 2024-03-07
Also published as: CN115391561A

Abstract

本公开提供的图网络数据集的处理方法、装置、电子设备、程序及介质，属于知识图谱技术领域。所述方法包括：将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；确定所述训练集中无关联关系的孤立节点；将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。

Description

图网络数据集的处理方法、装置、电子设备、程序及介质

相关申请的交叉引用

本公开要求在2022年8月31日提交中国专利局、申请号为202211057371.4、名称为“图网络数据集的处理方法、装置、电子设备、程序及介质”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开属于知识图谱技术领域，特别涉及一种图网络数据集的处理方法、装置、电子设备、程序及介质。

背景技术

图网络结构数据是由节点和节点之间连接的边所组成，图结构的数据可以很好地表示节点之间的拓扑结构关系，通过学习图网络节点的特征表示可以用来对节点进行分类，或者两两节点之间的边连接预测。但是如果一开始网络里的节点之间的边连接数量多的话，学习出来的网络节点的表征就会过拟合，需要针对当前网络有效地选取一些节点之间的边连接，来代表整个图，从而最大程度地表示整个图，故一般在学习网络节点表征中一般采取分成训练集和测试集，训练集用来训练模型，测试集用来验证模型的预测能力，训练集的数据，需要尽可能最大程度的能够代表整个图的表示，故怎样采集样本数据作为训练集的数据就显得尤为重要。

相关技术中通常是通过图网络数据集按照一定比例进行划分来得到训练集和测试集，但是这种方式可能会由于某一节点的所有关联对被全部划分到测试集中导致训练集中该节点所对应的样本数据中不存在该节点与其他节点之间的关联关系，这就会导致后续模型在利用该训练集进行训练时，无法充分学习到图网络数据集中节点之间的关联关系。

概述

本公开提供的一种图网络数据集的处理方法、装置、电子设备、程序及介质。

本公开一些实施例提供一种图网络数据集的处理方法，所述方法包括：

将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；

确定所述训练集中无关联关系的孤立节点；

将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；

将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。

可选地，所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集，包括：

获取所述第一测试集向所述第一训练集调换的目标样本数量；

在所述第二训练集中确定目标正样本数据，所述目标正样本数据所在的行数据和列数据包含至少两个正样本数据；

将所述目标正样本数据与所述第二测试集中的负样本数据进行调换，直至已调换正样本数据的数量达到所述目标样本数量，得到第三训练集合第三测试集。

可选地，所述获取所述第一测试集向所述第一训练集调换的目标样本数量，包括：

获取所述第二训练集中所包含正样本数据的数量大于或等于2的行数据；

将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据。

可选地，在所述将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据之前，所述方法还包括：

在所述第二训练集中不存在所包含正样本数据的数量大于或等于2的行数据时，停止所述第二训练集向所述第二测试集的正样本调换过程。

可选地，所述确定所述训练集中无关联关系的孤立节点，包括：

获取所述第一训练集中每个节点的邻接矩阵；

在所述邻接矩阵中的任一行或者任一列中的样本数据均为负样本数据时，将所述邻接矩阵所对应的节点作为孤立节点。

可选地，在所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集之后，所述方法还包括：

所述第三训练集和所述第三测试集中的节点关联关系用于表征药物和疾病之间的关联关系；

利用所述第三训练集和所述第三测试集对得分预测模型进行训练，其中所述得分预测模型用于预测所输入的药物信息和疾病信息之间的关联度。

可选地，所述利用所述第三训练集和所述第三测试集对得分预测模型进行训练，包括：

利用所述第三训练集对所述得分预测模型进行训练；

利用所述第三测试集对训练后的得分预测模型进行测试，得到预测概率得分矩阵；

计算所述预测概率得分矩阵的损失值；

在所述损失值得到训练要求时，确认所述得分预测模型训练完成。

可选地，所述计算所述预测概率得分矩阵的损失值，包括：

将所述预测概率得分矩阵输入至如下公式，以得到损失值loss：

其中，(i，j)表示第i个药物和第j个疾病的关联对，S⁺表示所有已知药物疾病关联对的集合，S^-表示所有未知或未观察到的药物疾病关联对的集合，平衡因子用于降低数据不平衡的影响，A′是预测概率得分矩阵，u表示所述预测得分矩阵的行数和v表示所述预测得分矩阵的列数。

本公开一些实施例提供一种图网络数据集的处理装置，所述装置包括：

划分模块，被配置为将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；

确定模块，被配置为确定所述训练集中无关联关系的孤立节点；

调换模块，被配置为将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；

可选地，所述调换模块，还被配置为：

可选地，所述确定模块，还被配置为：

获取所述第一训练集中每个节点的邻接矩阵；

可选地，所述第三训练集和所述第三测试集中的节点关联关系用于表征药物和疾病之间的关联关系；所述模块还包括：

训练模块，被配置为：

可选地，所述训练模块，还被配置为：

利用所述第三训练集对所述得分预测模型进行训练；

计算所述预测概率得分矩阵的损失值；

可选地，所述训练模块，还被配置为：

本公开一些实施例提供一种计算处理设备，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如上述的图网络数据集的处理方法。

本公开一些实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行如上述的图网络数据集的处理方法。

本公开一些实施例提供一种非瞬态计算机可读介质，其中存储了如上述的图网络数据集的处理方法。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图简述

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了本公开一些实施例提供的一种图网络数据集的处理方法的流程示意图；

图2示意性地示出了本公开一些实施例提供的一种图网络数据集的处理方法的效果示意图；

图3示意性地示出了本公开一些实施例提供的另一种图网络数据集的处理方法的流程示意图；

图4示意性地示出了本公开一些实施例提供的再一种图网络数据集的处理方法的流程示意图；

图5示意性地示出了本公开一些实施例提供的一种图网络数据集的处理方法的逻辑示意图；

图6示意性地示出了本公开一些实施例提供的一种模型训练方法的流程示意图；

图7示意性地示出了本公开一些实施例提供的一种图网络数据集的处理装置的结构示意图；

图8示意性地示出了用于执行根据本公开一些实施例的方法的计算处理设备的框图；

图9示意性地示出了用于保持或者携带实现根据本公开一些实施例的方法的程序代码的存储单元。

详细描述

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

对于这个图网络中存在的天然的问题，即在学习网络节点表征的过程中，训练集与测试集随机划分存在的问题；随机划分数据集会导致有些节点与其他节点之间的连接全部被划分到测试集，针对这样一种情况，对应数据格式呈现形式的不同，而有与之对应的表述；

表述1：针对直接邻接矩阵形式来表示的图结构数据来说，图的数据结构的表现形式为二维的矩阵，如果两个节点对之间有相关关系，则矩阵对应位置则为1，否则为0；如果是这种形式的数据格式，针对本提案所说的情况，表现为就是，某一节点与其他节点的所有关联关系的正样本集合被随机分配到测试集里，从而导致图网络中的某一行或者某一列全部为0；

表述2：针对稀疏表示的图结构数据；在邻接矩阵中，若数值为0的元素数目远远多于非0元素的数目，并且非0元素分布没有规律时，则称该邻接矩阵为稀疏矩阵；与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵。定义非0元素的总数比上矩阵所有元素的总数为矩阵的稠密度。因图结构数据大多情况，0元素占大多数，即邻接矩阵大多为稀疏矩阵，将稀疏的邻接矩阵转换为稀疏表示后，会对运算速度有很大提升和内存占用会减少，因为计算机只对非0元素进行操作和存储，这是稀疏矩阵的一个突出的优点。数据格式呈现为N行2列的矩阵表示；N为行数，就是图结构数据中节点之间有相关关系的个数，即邻接矩阵中为1的个数；所对应的邻接矩阵中的行坐标索引放到第一列；列坐标索引放到第二列；所以针对本提案所说的情况，表现为就是，某一节点与其他节点的所有关联关系的正样本集合被随机分配到测试集里，从而会导致第一列的行坐标索引去重复后小于邻接矩阵的行数或第二列中的列坐标索引去重复后小于邻接矩阵的列数；

这两种图结构数据的表示形式，在表象上都可以解释为该图网络中的某些节点为孤立节点，这样的图结构被用于图节点的嵌入表征学习中，只会导致这些孤立节点没有学习到有效的节点嵌入表示，从而降低模型的指标性能。

对于图网络中训练集与测试集随机划分存在的问题，或者换种说法，在图网络结构的数据中随机取消一些两两节点之间连接的边的过程中；随机划分数据集会导致有些节点与其他节点之间的连接全部被划分到测试集，

从数据分布的角度来考虑，是当前基于随机方式采集的样本，并没有使训练集的样本集合最大程度的表示整个样本空间；

然而对于机器学习领域来说，训练集样本空间选择的不同，最终会对数据处理模型的评价指标结果产生很大的影响；

对于图网络节点表征的学习任务来说，邻接矩阵的所有行和列所一一对应的节点对组成的样本空间的选择也是需要去采取一些措施来保证，选到对于当前数据处理任务中最合适的样本空间；

目前，对于处理图网络的样本空间的选择这一领域，相关的研究还没有；只是对所有样本随机选择一些作为训练集，来表征整个样本空间，这样就会导致之前所提到的邻接矩阵有些行或列全为0；而一般用于图网络节点的表征学习过程所需要的邻接矩阵的所有行和列都不全为0时，才能最完整的学习到网络本身最大程度的网络拓扑结构特征。从而对接下来的网络节点的表征学习模型的优劣及评估才能最准确和客观。

对于两类节点之间是否有连接，这在原始样本空间中是已知的，这可以作为先验知识，对接下来训练集样本的采集过程做一个很好的指导过程。这里提到的知识就是，对于图网络表征的算法学习来说，对于所有节点，都至少与其他节点有一条边连接(情况一)，相对于存在孤立节点，即有些节点没有与其他节点有边连接这种情况(情况二)，最终学习到的节点表征肯定是不一样的，基于经验和实验验证，对于多个模型进行测试，第一种情况普遍要好于第二种情况。

所以，基于数据采集过程中，至少要保证所有节点都至少有一条边与其他节点连接这样的一个知识约束，因此本公开所提供图网络数据集的处理方法的过程都是基于这样的一个知识约束来完成的。

图1示意性地示出了本公开提供的一种图网络数据集的处理方法的流程示意图，所述方法包括：

步骤101，将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集。

需要说明的是，原始图网络数据集是图结构数据，而图结构数据是由节点和节点之间连接的边组成，边表示节点和节点的之间的关联关系，这种存在关联关系的两节点对后续将称之为正样本数据，而不存在关联关系的两节点对后续将称之为负样本数据。由于图结构的数据可以很好的表示节点之间的拓扑关系，通过预测模型来学习图网络节点的特征表示可以用于对节点进行分类，或者预测两节点之间的连接边。但是如果一开始图网络中的节点之间的边连接数量多的话，学习出来的网络节点的表征结果过度拟合，需要针对当前万里看过有效的选取一些节点之间的边连接来代表整个图网络，从而最大程度地表示整个图网络。因此在学习图网络节点表征的过程中，一般将图网络数据集按照预先设置的目标比例划分为训练集和测试集，训练集用来训练模型，而测试集用来验证模型的预测能力是否达到预期。

在本公开实施例中，系统将获取到的原始图网络数据中正样本数据按照目标比例进行划分，该目标比例可以是训练集合测试集之间比例是例如4：1，5：1，3：1等，通常训练集的数量大于测试集，当然具体目标比例可以根据实际需求设置，此处不做限定。

步骤102，确定所述训练集中无关联关系的孤立节点。

在本公开实施例中，考虑到虽然原始图网络数据集一般是包含有一定数量正样本数据的数据集。但是若在步骤101的数据集划分过程以下两种情况则会导致训练集中样本数据所组成的邻接矩阵的至少某一行或者某列全为0，即不包含正样本数据，这就会大大影响模型训练的效果，使得模型无法充分学习到该邻接矩阵所对应节点的连接关系。其中一种情况是原始图网络数据集中的至少一个第一类节点与所有第二类节点的关联对，被全部划分至第一测试集，表现为第一训练集的至少某一行全为0；另一种情况是或者是原始图网络数据集中的至少一个第二类节点与所有第一类节点的关联对，被全部划分至第一测试集，表现为第一训练集的至少某一列全为0。

因此本公开实施例在原始图网络数据集划分完成后，将会识别训练集中与其他节点不存在关联关系的孤立节点，以供后续数据集优化使用。

步骤103，将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集。

在本公开实施例中，通过将第一训练集中孤立节点所对应的邻接矩阵与第一测试集中该孤立节点所对应邻接矩阵进行调换，由于原始图网络数据集为正样本数据集，也就是说其中每个节点与其他节点之间至少存在一个关联关系，因此若第一训练集中该孤立节点与其他节点不存在关联关系，则说明该孤立节点与其他节点的关联关系被划分至了第一测试集，因此该第一测试集中该孤立节点所对应的邻接矩阵中必然存在正样本数据，因此通过将第一训练集合第一测试集中该孤立节点所对应的邻接矩阵进行调换，即可使得调换后的第二训练集中该孤立节点所对应的邻接矩阵中存在正样本数据。

但是由于调换邻接矩阵得到的第二训练集中加入了正样本数据，响应的第二测试集中取出了正样本数据，因此第二训练集和第二测试集中的正样本数据的数量之比明显不符合目标比例，因此本公开实施例将对第二训练集和第二测试集中的正样本数据进行调整，以使得训练集和测试集的正样本数据之比可以符合目标比例。

步骤104，将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。

在本公开实施例中，考虑到邻接矩阵的调换过程将会导致之前被调换至测试集中的孤立节点的邻接矩阵被重新调换回训练集，因此本公开实施例在调整训练集和测试集中正样本数据的数量时采用样本数据之间的调换方式。具体的，可通过在第二训练集中选取调换会不会导致所关联节点变成孤立节点的正样本数据与第二测试集中的负样本数据进行调换，以使得调换后的第三训练集和第三测试集中的正样本数据之间的比例符合目标比例的情况下又不会导致第三训练集中再次出现孤立节点。

为了便于理解，图2示意性提出本公开实施例提供的一种图网络数据集的处理方法的效果示意图，其中深色方格代表存在关联关系的正样本数据，浅色方格表示不存在关联关系的负样本数据，将原始图网络数据集划分为训练集和测试集的过程与传统随机划分的过程类似，而本公开实施例进一步在数据集的初步划分之后首先将训练集中孤立节点对应的邻接矩阵调换到测试集中，例如图2中的第一训练集的p1所在邻接矩阵的行数据全为负样本数据，p2所邻接矩阵的行数据全为负样本数据，因此将第一测试集中p1对应位置的p1’，p2对应位置的p2’进行调换，得到第二训练集和第二测试集。

但是此处第二训练集明显比第一训练集中正样本数据的数量多个2，而第二测试集比第一测试集中正样本数据的数量少了2。因此本公开实施例进一步将挑选第二测试集中为负样本数据的p3’、p4’与第二训练集中对应位置的正样本数据p3和p4进行调换，使得最终得到第三训练集与第一训练集中正样本数据的数量持平，第三测试集与第一测试集中正样本数据的数量持平，在保证训练集和测试集中正样本数据之间比例的同时，也可保证训练集中无孤立节点。

在本公开实施例通过在图网络数据集划分为训练集和测试集后，通过首先将训练集中孤立节点的邻接矩阵与测试集中对应位置的邻接矩阵进行调换，使得训练集中不存在孤立节点，然后在保证训练集中不会再次出现孤立节点的前提下将训练集中的正样本数据与测试集中的负样本数据之间进行调换，使得最终得到的训练集不仅不存在孤立节点，还与测试集中之间的正样本数据的比例符合先前划分时的目标比例，从而保证模型在利用训练集和测试集进行训练时不会出现由于训练集存在孤立节点导致模型无法学习到该孤立节点的关联关系的情况，保证模型可以充分学习到每个节点的关联关系。

图2示意性地示出了本公开提供的另一种图网络数据集的处理方法的流程示意图，所述方法包括：

步骤201，将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集。

该步骤可参照步骤101的详细描述，此处不再赘述。

步骤202，获取所述第一训练集中每个节点的邻接矩阵。

在本公开实施例中，假设存在一个二分图bg(u，v，ε)，而二分图等价于g(u∪v，ε)，其中u和v表示两个节点域的两个集合，用第一类节点集合和第二类节点集合来表示，u_i和v_j分别表示u和v的第i个和第j个节点。二分图的所有边都是严格在u和v之间，e_ij表示u_i和v_j之间的边；A为第一类节点与第二类节点之间关联网络的邻接矩阵，如果第一类节点集合中的第i个节点与第二类节点集合中的第j个节点有关联关系，即e_ij＝1，则A(i，j)＝1，否则，A(i，j)＝0。因此可通过节点对应的邻接矩阵中的数值是否为0来确定该节点是否与其他节点之间存在关联关系。

步骤203，在所述邻接矩阵中的任一行或者任一列中的样本数据均为负样本数据时，将所述邻接矩阵所对应的节点作为孤立节点。

在本公开实施例中，可通过将第一训练集中数据样本所组成的邻接矩阵中的任一行或者任一列的样本数据存为负样本数据，也就是均取值为0的邻接矩阵所对应的节点作为孤立节点，以供后续邻接矩阵调换使用，从而可以便捷地识别训练集中的孤立节点。

步骤204，将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集。

该步骤可参照步骤103的详细描述，此处不再赘述。

步骤205，获取所述第一测试集向所述第一训练集调换的目标样本数量。

在本公开实施例中，目标样本数据是指第一测试集向第一训练集中已调换的正样本数据的数量。该目标样本数据可以通过对已调换邻接矩阵中的正样本数据进行计数得到。

步骤206，在所述第二训练集中确定目标正样本数据，所述目标正样本数据所在的行数据和列数据包含至少两个正样本数据。

在本公开实施例中，考虑到第二训练集中的某一正样本数据被调换至第二测试集可能会导致该正样本数据所在的邻接矩阵中的某一行或者某一列中再次全为负样本数据，也就是取值全为0，因此本公开实施例在选取目标正样本数据时，将选取所在邻接矩阵的所在行数据和列数据中存在至少两个正样本数据，这样就保证该目标样本数据被调换至第二测试集后，该目标样本数据原本所在的行数据和列数据中还存在至少一个正样本数据，避免了该目标正样本数据所对应的节点再次成为孤立节点的情况出现。

步骤207，将所述目标正样本数据与所述第二测试集中的负样本数据进行调换，直至已调换正样本数据的数量达到所述目标样本数量，得到第三训练集合第三测试集。

在本公开实施例中，将所确定的目标正样本数据与第二测试集中的服样本数据进行调换，使得第二训练集中的正样本数据减1，而第二测试集中的正样本数据则加1，至此方式调整训练集和测试集中正样本数据的比例。考虑到第二训练集在每次调换目标正样本数据后，其中的邻接矩阵的行数据和列数据将会发生改变，之前可作为目标正样本数据的正样本数据在调换之后可能不可再作为目标正样本数据，因此需要在每次调换后重新进入步骤206的过程来循环选取目标正样本数据，直至已调换的目标正样本数据的数量达到目标样本数据。此时由于第一训练集和第一测试集原本是正样本数据的比例是符合目标比例的，通过上述方式在对目标正样本数据进行调换后，使得第二训练集所包含正样本数据的数量与第一训练集持平，第二测试集所包含正样本数据的数量与第一测试集持平，使得调换得到的第三训练集和第三测试集中正样本数据的数量之比符合目标比例。

可选地，参照图4，所述步骤206，包括：

步骤2061，获取所述第二训练集中所包含正样本数据的数量大于或等于2的行数据。

步骤2062，将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据。

步骤2063，在所述第二训练集中不存在所包含正样本数据的数量大于或等于2的行数据时，停止所述第二训练集向所述第二测试集的正样本调换过程。

在本公开实施例中，首先选取第二训练集中所包含正样本数据的数量大于或等于2的行数据，然后在该行数据的正样本数据中选取所对应列数据中包含正样本数据的数量大于或等于2的列数据，将所选取的列数据和行数据的交点位置所对应的正样本数据作为目标正样本数据，可见该目标正样本数据所在的行数据和列数据在将目标正样本数据调换为负样本数据后，将还包含至少一个正样本数据。当然若未成找到所包含正样本数据大于或等于2的行数据时，说明该第二训练集中不存在可被用于调换的目标正样本数据，此处则停止调换过程，可通过向测试集中重新补入正样本数据来使得训练集和测试集中的正样本数据符合目标比例。

示例性的，参照图5示意性地示出本公开实施例提供的一种图网络数据集的处理方法的逻辑示意图：

S1、选择所有正样本，正样本集合为邻接矩阵中数值为1的位置，所对应的第一类节点与第二类节点之间组成的节点对集合，按照训练集、测试集预定于的比例来，比如4:1，随机采样所有正样本数据的4/5为训练集，记为A_train，1/5为测试集，记为A_test。

S2、将训练集中数据样本所组成的邻接矩阵A_train中全为零的行和列与测试集中数据样本所组成的邻接矩阵A_test中对应位置做调换，经过这一步骤处理完后，满足了A_train中的所有行和列都不为零的要求。

S3、计算出当前需要采集放入测试集中训练集的样本数k。

S4、进入循环，条件是k>0。

S5、获取A_train的所有全为零的行和列的个数，row number和column number。

S6、如果row number＝0和column number＝0，则算法条件不满足退出逻辑过程，若均不为0则继续执行步骤S7。

S7、获取A_train的所有行中，节点连接数＞＝2的位置列表row index list和个数row count。

S8、如果row count＝0，则算法条件不满足退出逻辑过程，若row count≠0则继续执行步骤S9。

S9、随机从位置row index中选择一个i，然后获取A_train第i行的所有节点连接的位置列表column index list。

S10、随机从位置column index中选择一个j，如果A_train的第j列的节点连接数＞＝2，则A_train(i，j)＝0,A_test(i，j)＝1,k减1。

S11、若k大于0则返回执行步骤S4，若k小于或等于0则进入步骤S12。

S12、输出A_train和A_test。

可选地，所述第三训练集和所述第三测试集中的节点关联关系用于表征药物和疾病之间的关联关系，所述方法还包括：利用所述第三训练集和所述第三测试集对得分预测模型进行训练，其中所述得分预测模型用于预测所输入的药物信息和疾病信息之间的关联度。

在本公开实施例中，得分预测模型是用于对节点之间存在关联关系的概率值进行预测得分的模型，可以是逻辑分类模型、决策树模型、支持向量机模型、贝叶斯模型等分类模型。在实际应用中，图网络数据集中节点可以表征药物和疾病，从而节点之间边可以用于表征药物和疾病之间的关联关系，从而使得采用第三训练和第三测试集训练得到的得分预测模型可以充分学习到药物和疾病之间的关联关系，提高了得分预测模型的准确性。

可选地，图6，所述得分预测模型的训练过程如下：

步骤301，利用所述第三训练集对所述得分预测模型进行训练。

步骤302，利用所述第三测试集对训练后的得分预测模型进行测试，得到预测概率得分矩阵。

步骤303，计算所述预测概率得分矩阵的损失值。

步骤304，在所述损失值得到训练要求时，确认所述得分预测模型训练完成。

在本公开实施例中，示例性的为了重建药物和疾病之间的关联，本公开选取的解码器f(H_R，H_D)的公式(1)如下：

其中A′表示预测得到的预测概率得分矩阵，药物r_i和疾病d_j之间关联的预测得分由相应的A′_ij项给出，sigmoid()为激活函数，H_R表示代表学习到的药物节点嵌入，H_D表示疾病节点嵌入。

首先利用第三训练集对得分预测模型进行训练，由于第三训练集中的任一节点通过本公开所提供图网络数据集的处理方法进行了优化，因此第三训练集中的任一节点与其他节点之间至少存在一个关联对，因此训练后的得分预测模型可以完整学习到第三训练集中节点之间的关联关系。然后在利用测试集对训练后的得分预测模型进行测试，由于第三测试集也是通过本公开所提供图网络数据集的处理方法进行了优化，因此第三测试集中的数据量和第三训练集的比例符合预期的目标比例，可满足得分预测模型的测试要求。利用第三测试集交由训练后的得分预测模型进行预测，即可得到预测概率得分矩阵，在对该预测概率得分矩阵求损失值，若损失值符合预期训练要求，例如损失值大于或等于损失值阈值，或者损失值收敛至损失值范围，则可确定得分预测模型的训练过程结果，若不符合预期训练要求，则对得分预测模型进行调参后继续进行训练，直至训练后得分预测模型的损失值符合预期训练要求。

可选地，所述步骤303，包括：

在本公开实施例中，由于已知的药物与疾病的关联已经人工验证过了，它们是高度可靠的，对提高预测性能非常重要。然而，已知药物疾病关联的数量远远少于未知或未观察到的药物疾病对的数量。因此，本方案通过最小化加权二元交叉熵损失来学习参数。

示例性的，参照下述表1：

可见通过本公开所提供图网络数据集的处理方法所得到训练集合测试集得到的模型的评价指标进行分析，其中重要的两个指标aupr提升2个百分点，auc提升10个百分点，其他指标也有不同程度的提升，充分证明了，该措施的有效性。

图7示意性地示出了本公开提供的一种图网络数据集的处理装置40的结构示意图，所述装置包括：

划分模块401，被配置为将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；

确定模块402，被配置为确定所述训练集中无关联关系的孤立节点；

调换模块403，被配置为将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；

可选地，所述调换模块403，还被配置为：

可选地，所述确定模块402，还被配置为：

获取所述第一训练集中每个节点的邻接矩阵；

训练模块，被配置为：

可选地，所述训练模块，还被配置为：

利用所述第三训练集对所述得分预测模型进行训练；

计算所述预测概率得分矩阵的损失值；

可选地，所述训练模块，还被配置为：

本公开实施例通过在图网络数据集划分为训练集和测试集后，通过首先将训练集中孤立节点的邻接矩阵与测试集中对应位置的邻接矩阵进行调换，使得训练集中不存在孤立节点，然后在保证训练集中不会再次出现孤立节点的前提下将训练集中的正样本数据与测试集中的负样本数据之间进行调换，使得最终得到的训练集不仅不存在孤立节点，还与测试集中之间的正样本数据的比例符合先前划分时的目标比例，从而保证模型在利用训练集和测试集进行训练时不会出现由于训练集存在孤立节点导致模型无法学习到该孤立节点的关联关系的情况，保证模型可以充分学习到每个节点的关联关系。

以上所描述的设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在非瞬态计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图8示出了可以实现根据本公开的方法的计算处理设备。该计算处理设备传统上包括处理器510和以存储器520形式的计算机程序产品或者非瞬态计算机可读介质。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有用于执行上述方法中的任何方法步骤的程序代码531的存储空间530。例如，用于程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个程序代码531。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图9所述的便携式或者固定存储单元。该存储单元可以具有与图8的计算处理设备中的存储器520类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元包括计算机可读代码531’，即可以由例如诸如510之类的处理器读取的代码，这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的方法中的各个步骤。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着，结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外，请注意，这里“在一个实施例中”的词语例子不一定全指同一个实施例。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims

一种图网络数据集的处理方法，所述方法包括：

将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；

确定所述训练集中无关联关系的孤立节点；

将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；

将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。
根据权利要求1所述的方法，所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集，包括：

获取所述第一测试集向所述第一训练集调换的目标样本数量；

在所述第二训练集中确定目标正样本数据，所述目标正样本数据所在的行数据和列数据包含至少两个正样本数据；

将所述目标正样本数据与所述第二测试集中的负样本数据进行调换，直至已调换正样本数据的数量达到所述目标样本数量，得到第三训练集合第三测试集。
根据权利要求2所述的方法，所述获取所述第一测试集向所述第一训练集调换的目标样本数量，包括：

获取所述第二训练集中所包含正样本数据的数量大于或等于2的行数据；

将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据。
根据权利要求3所述的方法，在所述将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据之前，所述方法还包括：

在所述第二训练集中不存在所包含正样本数据的数量大于或等于2的行数据时，停止所述第二训练集向所述第二测试集的正样本调换过程。
根据权利要求1所述的方法，所述确定所述训练集中无关联关系的孤立节点，包括：

获取所述第一训练集中每个节点的邻接矩阵；

在所述邻接矩阵中的任一行或者任一列中的样本数据均为负样本数据时，将所述邻接矩阵所对应的节点作为孤立节点。
根据权利要求1所述的方法，在所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集之后，所述方法还包括：

所述第三训练集和所述第三测试集中的节点关联关系用于表征药物和疾病之间的关联关系；

利用所述第三训练集和所述第三测试集对得分预测模型进行训练，其中所述得分预测模型用于预测所输入的药物信息和疾病信息之间的关联度。
根据权利要求6所述的方法，所述利用所述第三训练集和所述第三测试集对得分预测模型进行训练，包括：

利用所述第三训练集对所述得分预测模型进行训练；

利用所述第三测试集对训练后的得分预测模型进行测试，得到预测概率得分矩阵；

计算所述预测概率得分矩阵的损失值；

在所述损失值得到训练要求时，确认所述得分预测模型训练完成。
根据权利要求7所述的方法，所述计算所述预测概率得分矩阵的损失值，包括：

将所述预测概率得分矩阵输入至如下公式，以得到损失值loss：

其中，(i，j)表示第i个药物和第j个疾病的关联对，S⁺表示所有已知药物疾病关联对的集合，S^-表示所有未知或未观察到的药物疾病关联对的集合，平衡因子用于降低数据不平衡的影响，A′是预测概率得分矩阵，u表示所述预测得分矩阵的行数和v表示所述预测得分矩阵的列数。
一种图网络数据集的处理装置，所述装置包括：

划分模块，被配置为将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；

确定模块，被配置为确定所述训练集中无关联关系的孤立节点；

调换模块，被配置为将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；

将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。
一种计算处理设备，包括：

存储器，其中存储有计算机可读代码；

一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如权利要求1-8中任一项所述的图网络数据集的处理方法。
本公开一些实施例提供一种计算机程序，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行如权利要求1-8中任一项的所述的图网络数据集的处理方法。
一种非瞬态计算机可读介质，其中存储了如权利要求1-8中任一项所述的图网络数据集的处理方法的计算机程序。