WO2020207197A1

WO2020207197A1 - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: WO2020207197A1
Application number: PCT/CN2020/079459
Authority: WO
Inventors: 陈世敏; 周东炎; 牛颂杰; 于东海; 孙仕杰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-08
Filing date: 2020-03-16
Publication date: 2020-10-15
Also published as: EP3955133A4; US20210335025A1; CN110019989B; EP3955133A1; CN110019989A; US11450042B2

Abstract

一种数据处理方法、装置、电子设备及存储介质，该方法包括：在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息（S101）；获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率（S102）；根据所述边转移概率在所述第一出邻集合中确定待游走顶点（S103）；基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点（S104）；若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列（S105）。

Description

一种数据处理方法、装置、电子设备及存储介质

本申请要求于2019年4月8日提交中国专利局、申请号为201910276296.2、申请名称为“一种数据处理方法及装置”的中国专利申请的优先权。

技术领域

本申请涉及数据处理的技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

发明背景

图(Graph)在现实应用中无处不在，图能够有效地表达实体之间的关联性，比如社交媒体网络中不同账号之间的关联性、电商平台中商品与客户之间的关联性、万维网的网页信息之间的关联性。但是，图往往对应有大量的顶点与大量的边，并且边与顶点又会关联大量的元数据，比如用户的性别、年龄、地理位置等。因此，对能够快速准确地进行图计算提出了更高的要求。

现有技术中，在对图中所有顶点通过随机游走的算法进行图计算之前，会预先将图中顶点与顶点之间的边转移概率基于边转移概率矩阵进行存储，因此，在对图中顶点进行随机游走时，可以直接从边转移概率矩阵中获取顶点与顶点之间的边转移概率以实现随机游走。但是，由于图包含的顶点数量巨大，图对应的边转移概率矩阵占系统的容量也非常大。

发明内容

本申请实施例提供了一种数据处理方法、装置、电子设备及存储介质，可在图计算任务中节省系统的内存容量。

本申请实施例一方面提供了一种数据处理方法，包括：

在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列。

本申请实施例一方面提供了一种数据处理装置，包括：

获取模块，用于在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

概率确定模块，用于获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

顶点确定模块，用于根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

游走模块，用于基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

序列生成模块，用于若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列。

本申请一方面提供了一种电子设备，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如本申请实施例中一方面中的方法。

本申请实施例另一方面提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。

附图简要说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种分布式图计算的架构示意图；

图1b是本申请实施例提供的一种顶点游走过程的场景示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3a是本申请实施例提供的一种获取边转移概率方法的流程示意图；

图3b是本申请实施例提供的另一种获取边转移概率方法的流程示意图；

图4a是本申请实施例提供的一种创建哈希表的场景示意图；

图4b是本申请实施例提供的一种获取出邻集合的架构示意图；

图5是本申请实施例提供的一种确定目标出边信息的场景示意图；

图6是本申请实施例提供的另一种数据处理方法的流程示意图；

图7a是本申请实施例提供的一种确定待游走顶点方法的流程示意图；

图7b是本申请实施例提供的一种确定每个顶点的权重累积和方法的流程示意图；

图7c是本申请实施例提供的一种确定第一待处理顶点的权重累积和方法的流程示意图；

图7d是本申请实施例提供的一种确定第二待处理顶点的权重累积和方法的流程示意图；

图8是本申请实施例提供的一种计算权重累积和的场景示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，图作为一种网状数据结构，是由非空的顶点集合和一个描述顶点之间关系的集合组成。这种顶点之间的关系称为边。请参见图1a，是本申请实施例提供的一种分布式图计算的架构示意图。如图1a所示，分布式图处理平台f可以与设备s1、设备s2、设备s3、设备s4进行通信，且设备s1、设备s2、设备s3、设备s4之间可以互相通信，设备s1至设备s4中每个设备均存储有目标图中各个顶点所关联的数据。这里以4个设备为例进行说明，设备的具体个数根据实际应用场景决定，此处不做限制。

其中，上述设备s1中关联有图数据z1，图数据z1中可以有多个顶点；上述设备s2中关联有图数据z2，图数据z2中可以有多个顶点；上述设备s3中关联有图数据z3，图数据z3中可以有多个顶点；上述设备s4中关联有图数据为z4，图数据z4中可以有多个顶点。

上述设备s1、设备s2、设备s3、设备s4关联的所有顶点可以构成一个目标图，后续可以在该目标图中进行二阶随机游走(Second-Order random walk)。所谓“二阶随机游走”是指基于最近的两个顶点选择下一个顶点，使用的参数是边到边的转移概率矩阵。

上述每个顶点可以对应于一个用户账号，即所述每个顶点所关联的数据可以是一个用户账号对应的数据信息，比如用户身份信息、位置信息等；又例如，上述每个顶点可以对应于一类商品，即所述每个顶点所关联的数据可以是一类商品对应的数据信息，比如销量信息、产地信息等。

请一并参见图1b，是本申请实施例提供的一种顶点游走过程的场景示意图。由于针对分布式图计算系统上的二阶游走过程中，当前顶点若是二阶随机游走任务中的初始顶点，则当前顶点的下一顶点是由当前顶点的相关信息决定的。若当前顶点不是二阶随机游走任务中的初始顶点，则当前顶点的下一个顶点是由当前顶点的上一个顶点的相关信息与当前顶点的相关信息决定的。因此，本申请实施例以历史游走顶点b1、目标游走顶点b2、待游走顶点b3为例来说明整个二阶随机游走任务。

在分布式图计算系统中，针对一个目标图进行处理，所述目标图中包含若干个顶点，每一个顶点对应于一个设备，一个设备可对应于多个顶点，即历史游走顶点b1、目标游走顶点b2、待游走顶点b3分别都对应于一个设备，且历史游走顶点b1对应的设备、目标游走顶点b2对应的设备、待游走顶点b3对应的设备可以是同一设备，也可以是不同设备。其中，目标游走顶点b2不是二阶随机游走任务的初始顶点，历史游走顶点b1与目标游走顶点b2为相邻游走顶点。

具体的，如图1b所示，游走顶点序列a1是以初始游走顶点b4为起始点并进行二阶随机游走任务所生成的一个顶点序列，其中，对于一个包含若干个顶点的目标图的二阶随机游走任务，所述目标图中的每一个顶点都可以作为初始游走顶点，且每个初始游走顶点都对应于一个独立的二阶随机游走任务，上述每一个初始游走顶点对应的二阶随机游走任务可以同时并行进行，上述每一个初始游走顶点对应的二阶随机游走任务都是以自身为起始点进行的，上述每一个初始游走顶点对应的二阶随机游走任务分别对应有一个确定步数，上述目标图中每一个初始游走顶点对应的二阶随机游走任务一起构成了所述目标图的随机游走任务。上述每一个初始游走顶点对应的二阶随机游走任务的游走规则一致，这里以上述初始游走顶点b4对应的游走顶点序列a1为例进行说明。

此处，假设上述历史游走顶点b1对应的设备是设备s1，上述目标游走顶点b2对应的设备是设备s2，上述待游走顶点b3对应的设备是设备s3。上述设备s1可以生成顶点b1对应的出边信息，所述顶点b1对应的出边信息中包括初始游走顶点b4的标识信息、上述历史游走顶点b1的标识信息、基于上述历史游走顶点b1的位置确定的所述初始游走顶点b4对应的二阶随机游走任务的剩余步数、所述历史游走顶点b1的出邻集合。其中，所述出邻集合是指当前顶点游走到的下一个可能顶点的集合。上述出邻集合中包含若干个顶点，例如，顶点b1的出邻集合中包括顶点1、顶点2和顶点3，则表明所述顶点b1的下一个可能会游走到的顶点为所述顶点1、顶点2和顶点3中某一个顶点。

上述设备s1发送顶点b1对应的出边信息至目标游走顶点b2对应的设备s2，即表示从上述历史游走顶点b1游走至所述目标游走顶点b2。每个顶点对应的设备可以从分布式图计算系统关联的图计算平台f中获取自己的出邻集合，所述设备s2可以从分布式图计算系统关联的图计算平台f中获取所述目标游走顶点b2的出邻集合a2。所述设备s2通过接收到的历史游走顶点b1的出边信息获得顶点b1的出邻集合，并根据顶点b1的出邻集合与目标游走顶点b2的出邻集合，确定在所述出邻集合a2中每个顶点的缩放倍数，根据所述缩放倍数分别对出邻集合a2中每一个顶点与目标游走顶点b2之间的权重进行缩放，将缩放后的出邻集合a2中每个顶点对应的权重归一化，得到出邻集合a2中每个顶点对应与上述目标游走顶点b2之间的边转移概率。

所述边转移概率是指顶点对应的边之间的转移概率，例如出邻集合a2中某个顶点与所述目标游走顶点之间的边转移概率是指，所述历史游走顶点与目标游走顶点构成的边到所述目标游走顶点与所述出邻集合a2中某个顶点构成的边之间的转移概率。

根据出邻集合a2中每个顶点对应的边转移概率得到概率分布，根据所述概率分布在出邻集合a2中确定所述目标游走顶点的下一个顶点，即确定待游走顶点b3。其中，所述目标游走顶点b2到所述待游走顶点b3的边转移概率即是指：上述顶点b1与顶点b2所构成的边到所述顶点b2与上述顶点b3所构成的边之间的转移概率。

上述设备s2将所述目标游走顶点b2的出边信息发送至所述待游走顶点b3对应的设备s3，此时，将所述待游走顶点b3确定为新的目标游走顶点b3，所述目标游走顶点b2为新的目标游走顶点b3的历史游走顶点。

根据上述描述的方法，基于所述设备s3，根据所述设备s2发送的出边信息中顶点b2的出邻集合与目标游走顶点b3的出邻集合确定所述目标游走顶点b3的待游走顶点，并持续上述游走过程，后续游走至的每一个顶点依次确定自己的待游走顶点，即下一个顶点，以完成上述初始游走顶点b4对应的随机游走任务，且后续每一个顶点确定自己的下一个顶点的规则与上述确定目标游走顶点的下一个顶点的规则一致。

上一个顶点对应的设备可以向下一个顶点对应的设备发送相应的出边信息，下一个顶点对应的设备可以基于上一个顶点发送的出边信息，实时动态地计算自己的待游走顶点与自己的出邻集合中的每个顶点之间的边转移概率，从而确定自己的待游走顶点，此间过程中不需要预先将顶点与顶点之间的边转移概率通过边转移概率矩阵缓存下来，节省了系统容量。

当上述目标图的随机游走任务完成之后，所述图处理平台f会生成每一个初始游走顶点对应的随机游走序列，所述每个随机游走序列包括了游走过的各个顶点之间的关联性，其中，一个顶点可以是关联的一个用户账号，用户账号的类型可以是购物账号、通信账号、时事新闻账号等，可以基于所述随机游走序列中包含的顶点与顶点之间的关联性向关联的用户账号推荐商品、好友、新闻等。

请参见图2，是本申请实施例提供的一种数据处理方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。为方便描述，本申请实施例以目标图中的某一个顶点为初始游走顶点，且以所述某一个顶点对应的初始游走顶点的二阶随机游走任务为例进行说明，可以理解的是，上述目标图中的每一个初始游走顶点对应的二阶随机游走任务相互独立，上述目标图中的每一个初始游走顶点对应的二阶随机游走任务中的游走规则与所述某一个顶点对应的初始游走顶点的二阶随机游走任务中的游走规则一致。

如图2所示，所述方法可以包括：

步骤S101，在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

具体的，目标图中包括多个顶点，从中指定一个顶点为目标游走顶点。例如，可以将初始游走顶点指定为目标游走顶点。

所述历史游走顶点即是所述目标游走顶点的上一个已经游走过的顶点，所述目标游走顶点对应的设备接收由所述历史游走顶点对应的设备发送的第一出边信息。

所述历史游走顶点对应的第一出边信息是由所述历史游走顶点对应的设备生成的，所述第一出边信息中包括当前二阶随机游走任务的初始游走顶点的标识信息、上述历史游走顶点的标识信息、基于上述历史游走顶点的位置确定的当前二阶随机游走任务的剩余步数、上述历史游走顶点的出邻集合。

所述历史游走顶点的出邻集合中包括多个顶点，所述历史游走顶点的下一个游走顶点(也可以称之为所述历史游走顶点的待游走顶点)为所述历史游走顶点的出邻集合中的某个顶点，所述历史游走顶点的出邻集合中每个顶点分别与所述历史游走顶点之间具有不同的边转移概率，即游走概率，也可以称之为访问概率。

步骤S102，获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

具体的，所述第一出邻集合是指目标游走顶点对应的出邻集合，目标游走顶点对应的设备可以在关联的图计算平台中直接获取得到所述第一出邻集合。每个顶点对应的设备可以在关联的图计算平台中获取每个顶点自己的出邻集合。

所述第一出边信息中包括所述历史游走顶点的出邻集合，所述目标游走顶点对应的设备基于所述历史游走顶点的出邻集合与所述目标游走顶点的出邻集合，确定所述目标游走顶点的出邻集合中每个顶点的顶点类型，根据每个顶点的顶点类型分别确定所述每个顶点的缩放倍数，根据每个顶点的缩放倍数对所述每个顶点与目标游走顶点之间的权重进行缩放，将缩放后的每个顶点对应的权重进行归一化，得到每个顶点与所述目标游走顶点之间的边转移概率。其中，上述目标游走顶点的出邻集合中所有顶点对应的边转移概率之和为1。

由于一个完整的目标图中的顶点数以及边数往往都异常巨大，所以顶点与顶点之间的边转移概率构成的边转移概率矩阵的数据量也非常多，通过在二阶随机游走任务中实时动态地计算顶点与顶点之间的边转移概率，可以不用保存顶点与顶点之间的边转移概率构成的边转移概率矩阵，解决了单机式图计算中需要保存数据量巨大的边转移概率矩阵的挑战，节省了图计算系统的内存容量。

步骤S103，根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

具体的，基于上述第一出邻集合中每个顶点与所述目标游走顶点之间通过缩放倍数进行缩放后的权重，根据均匀分布产生一个随机数，所述随机数的数值范围为0至1之间。通过上述第一出邻集合中每个顶点对应的边转移概率生成所述每个顶点的边转移概率累积和。通过比较上述随机数与每个顶点的边转移概率累积和的大小关系确定待游走顶点。

具体地，通过上述第一出邻集合中每个顶点对应的边转移概率生成所述每个顶点的边转移概率累积和时，首先对各个顶点进行排序，根据排序后的顺序，确定每个顶点的边转移概率累积和。这样，相邻顶点的两个边转移概率累积和构成了一个概率区间，然后将上述随机数与各个概率区间进行比较，从而确定出上述待游走顶点。

例如，上述第一出邻集合中包括顶点1、顶点2、以及顶点3，所述顶点1与所述目标游走顶点之间的边转移概率为0.2，所述顶点2与所述目标游走顶点之间的边转移概率为0.3，所述顶点3与所述目标游走顶点之间的边转移概率为0.5。上述顶点1对应的标识信息(即顶点1的ID信息)为18，上述顶点2的标识信息为9，上述顶点3的标识信息为22。

将上述顶点1、顶点2、顶点3进行任意排序，例如排序为顶点2、顶点1、顶点3，又例如排序为顶点3、顶点2、顶点1，其中，此处针对所述顶点1、顶点2、顶点3的排序规则没有限定，可以是任意顺序。

之后在计算每个顶点对应的边转移概率累积和时，是基于排序后的顶点1、顶点2、顶点3对应计算得到。例如，当上述顶点1、顶点2、顶点3排序为顶点2、顶点1、顶点3时，所述顶点2、顶点1、顶点3的边转移概率累积和依次为顶点2的边转移概率0.3,、顶点2与顶点1的边转移概率之和0.5、顶点2与顶点1以及顶点3的边转移概率之和1。

上述顶点2、顶点1、顶点3分别对应的边转移概率累积，可以理解为，将长度为1的线段划分为3段子线段，假设上述顶点2、顶点1、顶点3对应的子线段的长度分别为L2、L1、L3，则顶点2对应的子线段长度L2的范围为0＜L2≤0.3，顶点1对应的子线段长度L1的范围为0.3＜L3≤0.5，顶点3对应的子线段长度L3的范围为0.5＜L1≤1。

当上述随机数为0.6时，则可以判断出所述随机数落在顶点3对应的子线段长度L3的范围0.5＜L1≤1内，则将所述顶点3确定为所述目标游走顶点的待游走顶点。

其中，上述随机数落在边转移概率累积和的哪一段数值范围内可以通过二分查找的方式确定，由于上述第一出邻集合中排序之后的每个顶点对应的边转移概率累积和为递增的数列，因此基于二分查找可以快速、准确地判断上述随机数落在边转移概率累积和的哪一段数值范围内，从而根据该段数值范围确定待游走顶点对应的边转移概率，进而确定出待游走顶点。

步骤S104，基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

具体的，上述目标游走顶点对应的设备可以生成所述目标游走顶点的第二出边信息，所述第二出边信息中包括当前二阶随机游走任务的初始游走顶点的标识信息、上述目标游走顶点的标识信息、基于上述目标游走顶点的位置确定的当前二阶随机游走任务的剩余步数、上述目标游走顶点的第一出邻集合。

基于所述目标游走顶点对应的设备将所述目标游走顶点对应的第二出边信息发送至上述待游走顶点对应的设备，即表明游走至了所述待游走顶点。将所述目标游走顶点称之为所述待游走顶点的历史游走顶点，将所述待游走顶点称之为新的目标游走顶点，再次循环执行上述步骤 S101-步骤S103所描述的过程，确定新的目标游走顶点的下一个顶点，即确定新的目标游走顶点的待游走顶点。

步骤S105，若所述目标游走顶点对应的游走次数达到预设游走步数阈值，则生成所述目标游走顶点对应的随机游走序列；

具体的，上述目标图中的每一个顶点都对应有一个确定步数的二阶随机游走任务，所述每一个顶点的二阶随机游走任务对应的确定步数根据游走过程中具体使用的游走算法决定。在一个实施例中，可以将所述初始游走顶点对应的二阶随机游走任务的游走次数作为所述预设游走步数阈值。

当从所述初始游走顶点开始，基于上述描述的顶点之间的游走规则，持续游走次数达到所述预设游走步数阈值时，则表示所述初始游走顶点对应的二阶随机游走任务已经完成，根据随机游走时游走至的顶点的游走先后顺序，生成所述目标游走顶点对应的随机游走序列，即生成以所述初始游走顶点为起点的随机游走序列。

其中，实现上述目标图的随机游走任务的图处理平台可以是GraphLite(同步图计算框架)平台、GAS(分布式图计算)类型的图处理平台。

由此可见，本申请实施例基于目标游走顶点对应的设备接收历史游走顶点发送的出边信息，从而实时动态地计算目标游走顶点与第一出邻集合中每个顶点之间的边转移概率，最后确定待游走顶点，此间过程中无需预先存储目标游走顶点与第一出邻集合中每个顶点之间的边转移概率，节省了系统的内存容量。

请参见图3a，是本申请实施例提供的一种获取边转移概率方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图3a所示，包括如下步骤：

步骤S111,根据所述第一出边信息确定目标出边信息；

具体地，确定目标出边信息是指确定历史游走顶点的第二出邻集合，可以根据实际应用场景决定使用何种方法去获取所述历史游走顶点的第二出邻集合。

步骤S112,根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及所述历史游走顶点对应的第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数；

具体的，上述出邻集合中包括了出邻集合中的每个顶点的标识信息(即顶点的ID)，根据上述目标出边信息中的历史游走顶点的标识信息、上述目标游走顶点的标识信息、上述第一出邻集合中顶点的标识信息以及上述第二出邻集合中顶点的标识信息之间的关系，判断上述第一出邻集合中的每个顶点的顶点类型，根据所述每个顶点的顶点类型确定所述每个顶点与所述目标游走顶点之间的缩放倍数。

步骤S113,在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

具体的，在目标图中获取上述目标游走顶点分别与上述第一出邻集合中的每个顶点之间的转移权重，所述转移权重可以表征顶点与顶点之间的关联关系，一个顶点与另一个顶点之间的关联关系越大，表明该两个顶点之间的游走概率越大。

步骤S114,根据所述转移权重以及所述缩放倍数，确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率。

请参见图3b，是本申请实施例提供的另一种获取边转移概率方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。

图3b中还描述了三种并列的获取目标出边信息的方法，其中，下述步骤S201描述了第一种获取目标出边信息的方法，步骤S202-步骤S203描述了第二种获取目标出边信息的方法，步骤S204-步骤S205描述了第三种获取目标出边信息的方法。

如图3b所示，所述方法可以包括：

步骤S201，若所述历史游走顶点对应的第一出边信息包括第二出邻集合，则将所述第一出边信息确定为目标出边信息；

具体的，所述目标游走顶点对应的设备可以接收由上述历史游走顶点对应的设备发送的上述历史游走顶点对应的出邻集合，其中，所述历史游走顶点对应的出邻集合也可以称之为第二出邻集合，即上述历史游走顶点发送的第一出边信息中携带有所述历史游走顶点的第二出邻集合，将携带有所述历史游走顶点的第二出邻集合的第一出边信息直接作为所述目标出边信息。

步骤S202，当所述历史游走顶点对应的第一出边信息中包括指示信息时，基于所述指示消息在哈希表中获取与所述历史游走顶点的标识信息对应的所述第二出邻集合；

具体的，当在上述历史游走顶点对应的第一出边信息中包括所述指示信息时，表明此时，所述历史游走顶点对应的第一出边信息中没有所述历史游走顶点的第二出邻集合，所述指示信息表明在哈希表中缓存有所述第二出邻集合，所述指示信息用于指示所述目标游走顶点对应的设备可以在哈希表中获取所述第二出邻集合。通过在历史游走顶点对应的第一出边信息中添加所述指示信息来替换所述历史游走顶点的第二出邻集合，可以减少所述历史游走顶点对应的设备与所述目标游走顶点对应的设备之间的通信代价，即上述历史游走顶点对应的设备向上述目标游走顶点的设备发送历史游走顶点的第一出边信息时，无需发送所述历史游走顶点的第二出邻集合，而是发送了一个数据量极小的指示信息，所述指示信息可以是一个特殊的标识符。

上述目标游走顶点对应的设备可以基于上述指示信息，通过上述历史游走顶点的标识信息(即上述历史游走顶点的ID信息)，在创建的哈希表中获取所述历史游走顶点的第二出邻集合。下述描述了在三种不同的缓存策略下创建所述哈希表。

请参见图4a，为本申请实施例提供的一种创建哈希表的场景示意图；如图4a所示，描述了创建所述哈希表的三种方法，即三种基于哈希表缓存顶点的出邻集合的缓存机制。

其中，第一种创建哈希表的方法具体为，目标图P中包括了若干个顶点，预先获取目标图P 中每一个顶点的出度，其中，顶点的出度用于表明该顶点预计访问其他顶点的次数，一个顶点的出度越大表明该个顶点预计访问其他顶点的次数越多。

根据系统的内存容量(即哈希表能缓存的出邻集合的数据量的大小)确定最多能缓存的出邻集合的数据量，优先缓存出度值更大的顶点对应的出邻集合，将能被缓存的多个出邻集合中出度值最小的顶点对应的出度值称之为第一度量值阈值。

当所述出度值达到第一度量值阈值时，确定所述历史游走顶点属于高频访问类型的顶点，并基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表；所述第一度量值阈值是基于系统的内存容量、目标图中所有顶点的出度值确定得到的；所述哈希表中缓存有目标图中多个被频繁访问的顶点对应的多个出邻集合。

例如，在上述目标图中的所有顶点对应的二阶随机游走任务中，通过某个初始游走顶点游走至某个顶点X时，判断顶点X是否初次被访问，一次游走对应于一次访问，即在上述某个初始游走顶点对应的随机游走任务中初次游走至顶点X，且在上述目标图中的除所述某个初始游走顶点之外的所有其他顶点对应的二阶随机游走任务中均未访问过顶点X时，判断顶点X为初次被访问。进而判断顶点X的出度值是否不小于上述第一度量值阈值，当判断出顶点X的出度值不小于上述第一度量值阈值时，将顶点X对应的出邻集合缓存至上述哈希表。

对上述目标图中的每一个顶点都进行上述是否被初次访问的判断，将判断为初次被访问且出度值不小于上述第一度量值阈值的顶点对应的出邻集合缓存至所述哈希表，即完成了创建所述哈希表，基于最大出度的顶点优先的缓存策略得到哈希表f1。

第二种创建哈希表的方法具体为，目标图P中包括了若干个顶点，预先获取目标图P中每一个顶点的入度，其中，顶点的入度用于表明该顶点预计会被访问的次数，一个顶点的入度越大表明该顶点预计被访问的次数越多。

根据系统的内存容量(即哈希表能缓存的出邻集合的数据量的大小)确定能最多缓存的出邻集合的数据量，优先缓存入度值更大的顶点对应的出邻集合，将能被缓存的多个出邻集合中入度值最小的顶点对应的入度值称之为第二度量值阈值。

当所述入度值达到第二度量值阈值时，确定所述历史游走顶点属于高频访问类型的顶点，并基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表；所述第二度量值阈值是基于系统的内存容量、目标图中所有顶点的入度值确定得到的；所述哈希表中缓存有目标图中多个被频繁访问的顶点对应的多个出邻集合。

例如，在上述目标图中的所有初始游走顶点对应的二阶随机游走任务中，通过某个初始游走顶点游走至某个顶点Y时，判断顶点Y是否初次被访问，一次游走对应于一次访问，即在上述某个初始游走顶点对应的随机游走任务中初次游走至顶点Y，且在上述目标图中的除所述某个初始游走顶点之外的所有其他顶点对应的二阶随机游走任务中均未访问过顶点Y时，判断顶点Y为初次被访问。进而判断顶点Y的入度值是否不小于上述第二度量值阈值，当判断出顶点Y的入度值不小于上述第二度量值阈值时，将顶点Y对应的出邻集合缓存至上述哈希表。

对上述目标图中的每一个顶点都进行上述是否被初次访问的判断，将判断为初次被访问且入度值不小于上述第二度量值阈值的顶点对应的出邻集合缓存至所述哈希表，即完成了创建所述哈希表，基于最大入度的顶点优先的缓存策略得到哈希表f2。

第三种创建哈希表的方法具体为，目标图P中包括了若干个顶点，预先获取目标图P中每一个顶点的被访问次数。根据系统的内存容量(即哈希表能缓存的出邻集合的数据量的大小)确定能最多缓存的出邻集合的数据量，优先缓存被访问次数更大的顶点对应的出邻集合，将能被缓存的多个出邻集合中被访问次数最小的顶点对应的被访问次数称之为第三度量值阈值。

当检测到所述历史游走顶点为初次被访问时，获取所述历史游走顶点的访问次数值；

当所述访问次数值达到第三度量值阈值时，确定所述历史游走顶点属于高频访问类型的顶点，并基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表；所述第三度量值阈值是基于系统的内存容量、目标图中所有顶点的访问次数值确定得到的；所述哈希表中缓存有目标图中多个被频繁访问的顶点对应的多个出邻集合。

例如，在上述目标图中的所有初始游走顶点对应的二阶随机游走任务中，通过某个初始游走顶点游走至某个顶点Z时，判断顶点Z是否初次被访问，一次游走对应于一次访问，即在上述某个初始游走顶点对应的随机游走任务中初次游走至顶点Z，且在上述目标图中的除所述某个初始游走顶点之外的所有其他顶点对应的二阶随机游走任务中均未访问过顶点Z时，判断顶点Z为初次被访问。进而判断顶点Z的被访问次数值是否不小于上述第三度量值阈值，当判断出顶点Z的被访问次数值不小于上述第三度量值阈值时，将顶点Z对应的出邻集合缓存至上述哈希表。

对上述目标图中的每一个顶点都进行上述是否被初次访问的判断，将判断为初次被访问且被访问次数值不小于上述第三度量值阈值的顶点对应的出邻集合缓存至所述哈希表，即完成了创建所述哈希表，基于最大被访问次数的顶点优先的缓存策略得到哈希表f3。

其中，可以通过在上述哈希表中缓存键值对创建所述哈希表，一个键值对由一个顶点的标识信息与其对应的出邻集合构成，基于目标图中的所有初始游走顶点对应的随机游走任务创建上述哈希表，可以使得创建哈希表的计算量基于每一个初始游走顶点对应的随机游走任务得到均摊，提高了创建哈希表的效率。

请参见图4b，是本申请实施例提供的一种获取出邻集合的架构示意图。图4b中图处理平台f为图1a中的目标图的二阶游走任务所关联的图处理平台f，s1、s2分别为图1a中图处理平台f所关联的2个设备。将创建的哈希表L缓存至所述图处理平台f所关联的缓存系统中。

如图4b所示，在设备s1对应的随机游走任务中，当游走至所述设备s1对应的顶点1，且所述图处理平台f检测到所述顶点1为初次被访问时，图处理平台f会将所述顶点1对应的出邻集合缓存在所述哈希表L中，上述顶点1的标识信息为13，所述顶点1的出邻集合中包括的顶点的标识信息分别为14、15、16，如图4b所示，以键值对的形式将所述顶点1的出邻集合缓存在上述哈希表L中。

当设备s2接收到其他关联在所述图处理平台f上的设备发送的出边信息，且所述出边信息中包括所述顶点1(即历史游走顶点为所述顶点1)的标识信息以及上述指示信息时，所述设备s2会发送顶点1对应的标识信息至上述图处理平台f，图处理平台f从哈希表中获取到所述顶点1对应的出邻集合，并将所述顶点1对应的出邻集合返回至设备s2。

步骤S203，将所述第二出邻集合添加至所述历史游走顶点对应的第一出边信息中，将包含所述第二出邻集合的第一出边信息确定为所述目标出边信息；

具体的，将上述在哈希表中获取到的第二出邻集合添加至所述历史游走顶点对应的第一出边信息中，可以选择是否将上述指示信息丢弃，将包含了上述第二出邻集合的第一出边信息称之为所述目标出边信息。

步骤S204，当根据图划分标识信息确定所述历史游走顶点与所述目标游走顶点同属于一个子图中的顶点时，获取所述第二出邻集合；

具体的，上述目标图可以划分为多个子图，每个子图包括多个顶点，同一个子图内的顶点对应的设备可以互相获取到所属子图内的任意顶点对应的出邻集合。上述图划分标识信息用于标识所述目标游走顶点与所述历史游走顶点同属于一个子图。其中，上述一个子图可以指一个设备，即属于同一个设备的顶点同属于一个子图。其中，上述目标图的子图划分是在所述目标图的随机游走任务开始之前就已经划分完成。当根据上述图划分标识信息判断出上述历史游走顶点与上述目标游走顶点同属于一个子图时，基于所述目标游走顶点对应的设备在关联的图计算平台中获取所述历史游走顶点对应的第二出邻集合。

步骤S205，将所述第二出邻集合添加至所述历史游走顶点对应的第一出边信息中，将包含所述第二出邻集合的第一出边信息确定为所述目标出边信息；

具体的，将上述获取到的第二出邻集合添加至上述历史游走顶点对应的第一出边信息中，可以选择是否丢弃上述图划分标识信息，将包含上述第二出邻集合的第一出边信息称之为所述目标出边信息。

请参见图5，是本申请实施例提供的一种确定目标出边信息的场景示意图；如图5所示，提供了三种获取目标出边信息的方式，对应于历史游走顶点对应的设备发送的3种历史游走顶点对应的第一出边信息。其中，e1、e2、e3分别为上述历史游走顶点对应的设备发送给上述目标游走顶点对应的设备的第一出边信息。将已经包括所述历史游走顶点对应的第二出邻集合的第一出边信息e1直接称之为所述目标出边信息e4。

其中，上述第一出边信息e2中包括图划分标识信息，当根据所述图划分标识信息判断出上述历史游走顶点与上述目标游走顶点所属于同一个子图，则基于所述目标游走顶点对应的设备在关联的图计算平台中获取所述历史游走顶点的第二出邻集合，将获取到的第二出邻集合添加至上述第一出边信息e2中，将包含所述第二出邻集合的第一出边信息e2称之为所述目标出边信息e4。

其中，上述第一出边信息e3包括指示信息，基于所述指示信息通过历史游走顶点对应的标识信息在哈希表中获取所述历史游走顶点对应的第二出邻集合，将获取到的第二出邻集合添加至所述第一出边信息e3中，将包含所述第二出邻集合的第一出边信息e3称之为所述目标出边信息e4。

步骤S206，获取所述第一出邻集合；

具体的，所述目标游走顶点对应的设备在关联的图计算平台中获取所述目标游走顶点对应的第一出邻集合。其中，每一个顶点对应的设备可以在关联的图计算平台中静态获取自己的出邻信息。

步骤S207，根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数。

步骤S208，在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

比如所述第一出邻集合中包括顶点1和顶点2，所述目标游走顶点与所述顶点1之间的转移权重为2，所述目标游走顶点与所述顶点2之间的转移权重为3。

步骤S209，根据所述转移权重以及缩放倍数确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的初始概率；

具体的，根据上述第一出邻集合中每个顶点对应的缩放倍数分别对所述每个顶点对应的转移权重进行缩放，即将每个顶点对应的转移权重与缩放倍数相乘，将进行缩放的转移权重称之为所述初始概率；所述初始概率的数值范围可以大于1。

步骤S210，将所述初始概率归一化，基于归一化之后的初始概率确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率；

具体的，将上述每个顶点对应的初始概率进行归一化处理，得到所述每个顶点与所述目标游走顶点之间的边转移概率，所述每个顶点对应的边转移概率之和为1。

请参见图6，是本申请实施例提供的另一种数据处理方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图6所示，所述方法可以包括：

步骤S301，获取所述目标图中的所有顶点，并将所述目标图中的每个顶点确定为原始顶点；

步骤S302，分别确定每个原始顶点的目标游走步数，并基于所述目标游走步数对所述每个原始顶点同步触发相互独立的随机游走任务；

具体的，基于随机游走任务中具体使用的随机游走算法分别确定目标图中每个原始顶点的目标游走步数，并根据每个原始顶点对应的目标游走步数同时对所述每个原始顶点触发以自身为起始顶点且游走步数为其分别所对应的目标游走步数的随机游走任务，每个原始顶点对应的随机游走任务相互独立，同时并行进行。

上述随机游走算法可以是Node2Vec(一种对于图中的节点使用向量建模的算法)算法、二阶PageRank(一种链接分析算法)算法、二阶SimRank(一种协同过滤推荐算法)算法、二阶RWR(一种重启随机游走算法)算法中的任意一种确定的二阶随机游走算法。

步骤S303，在已触发所述随机游走任务的原始顶点中确定所述初始游走顶点，从所述初始游走顶点游走至所述目标游走顶点，并将所述初始游走顶点确定为所述目标游走顶点相邻的历史游走顶点；

具体的，在已触发所述随机游走任务的原始顶点中确定所述初始游走顶点，可以将已触发所述随机游走任务的每个原始顶点都确定为所述初始游走顶点。

步骤S304，获取与目标游走顶点相邻的历史游走顶点对应的第一出边信息；所述历史游走顶点对应的出边信息是由所述历史游走顶点传递至所述目标游走顶点的；

具体的，即获取上述初始游走顶点的设备发送的所述初始游走顶点对应的第一出边信息。

步骤S305，根据所述历史游走顶点对应的第一出边信息确定目标出边信息，获取所述第一出邻集合；

其中，所述步骤S305的具体实现方式可以参见图3b对应的实施例中对步骤S201-步骤S207的描述，这里不再进行赘述。

步骤S306，将所述第一出邻集合中为所述历史游走顶点的顶点确定为第一类型顶点；将所述第一出邻集合中与所述第二出邻集合中的顶点为公共出邻顶点的顶点确定为第二类型顶点；将所述第一出邻集合中除所述第一类型顶点以及所述第二类型顶点之外的顶点确定为第三类型顶点；

具体的，上述第一出邻集合中包括目标游走顶点可能会游走的所有顶点的标识信息，上述第二出邻集合中包括历史游走顶点可能会游走的所有顶点的标识信息。将上述第一出邻集合中顶点的标识信息与历史游走顶点的标识信息一致的顶点称之为第一类型顶点，即上述第一出邻集合中包括所述历史游走顶点，将为所述历史游走顶点的顶点确定为第一类型顶点。

将上述第一出邻集合中顶点的标识信息与第二出邻集合中顶点的标识信息相同的公共顶点称之为第二类型顶点，即将上述第一出邻集合与第二出邻集合中包含的相同顶点(公共顶点)确定为第二类型顶点。将所述出邻集合中除上述第一类型顶点与第二类型顶点之外的顶点称之为第三类型顶点。

步骤S307，根据所述顶点类型分别确定所述第一出邻集合中的每个顶点的缩放倍数；

具体的，针对第一出邻集合中不同类型的顶点对应有不同的缩放倍数，根据上述第一出邻集合中每个顶点的顶点类型确定所述每个顶点的缩放倍数。比如上述第一类型顶点对应的缩放倍数为1，上述第二类型顶点对应的缩放倍数为1/2，上述第三类型顶点对应的缩放倍数为1/5。

步骤S308，在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

步骤S309，根据所述转移权重以及缩放倍数确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的初始概率；

步骤S310，将所述初始概率归一化，基于归一化之后的初始概率确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率；

其中，上述步骤S308-步骤S310的具体实现方式可以参见图3b对应的实施例中对步骤S209-步骤S211的描述，这里不再进行赘述。

步骤S311，基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述目标游走顶点确定为所述待游走顶点相邻的历史游走顶点，将所述待游走顶点确定为所述目标游走顶点；

步骤S312，若所述目标游走顶点对应的游走次数达到初始游走顶点对应的游走步数阈值，则生成所述目标游走顶点对应的随机游走序列；所述初始游走顶点是所述随机游走序列中的起始顶点；

其中，上述步骤S311-步骤S312的具体实现方式可以参见图2对应的实施例中对步骤S104-步骤S105的描述，这里不再进行赘述。

由此可见，本申请实施例基于目标游走顶点对应的设备接收历史游走顶点发送的出边信息，从而实时动态地计算目标游走顶点与第一出邻集合中每个顶点之间的边转移概率，最后确定待游走顶点，此过程中无需预先存储目标游走顶点与第一出邻集合中每个顶点之间的边转移概率，节省了系统的内存容量。

在上述图3b确定出了转移权重以及缩放倍数的基础之上，请参见图7a，是本申请实施例提供的一种确定待游走顶点方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图7a所示，所述方法可以包括：

S401，根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的边转移概率，分别确定所述第一出邻集合中的每个顶点的边转移概率累积和；

具体的，例如所述第一出邻集合中排序之后的顶点为顶点1、顶点2、顶点3，其中，所述顶点1与所述目标游走顶点之间的边转移概率为0.3，所述顶点2与所述目标游走顶点之间的边转移概率为0.4，所述顶点3与所述目标游走顶点之间的边转移概率为0.3，则所述顶点1、顶点2、顶点3分别对应的边转移概率累积和分别为顶点1对应的边转移概率0.3、顶点1与顶点2对应的边转移概率之和0.7、顶点1与顶点2以及顶点3对应的边转移概率之和1。

S402，根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的转移权重以及缩放倍数，分别确定所述第一出邻集合中的每个顶点的权重累积和。

请参见图7b，是本申请实施例提供的一种确定每个顶点的权重累积和方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图7b所示，所述方法可以包括：包括如下步骤：

步骤S501，将所述第一出邻集合中的每个顶点确定为目标待处理顶点；

具体的，在所述第一出邻集合中确定所述目标待处理顶点，所述目标待处理顶点可以是所述第一出邻集合中任意一个顶点。

步骤S502，根据所述目标待处理顶点的标识信息、所述第一类型顶点的标识信息和缩放倍数、所述第一类型顶点与所述目标游走顶点之间的转移权重、所述第二类型顶点的标识信息和缩放倍数、所述第二类型顶点与所述目标游走顶点之间的转移权重，确定第一待处理顶点的权重累积和；

步骤S503，根据所述第三类型顶点的标识信息和缩放倍数、所述第三类型顶点与所述目标游走顶点之间的转移权重，确定第二待处理顶点的权重累积和；

步骤S504，根据所述第一待处理顶点的权重累积和以及所述第二待处理顶点的权重累积和，确定所述目标待处理顶点的权重累积和；

具体的，将上述得到的第一待处理顶点的权重累积和上述第二待处理顶点的权重累积和相加得到的结果，称之为上述目标待处理顶点的权重累积和。

这样，将上述第一出邻集合中的每个顶点都作为上述目标待处理顶点，通过步骤S501-步骤S504所描述的方式，分别得到第一出邻集合中每个顶点对应的权重累积和。

步骤S403，基于均匀分布、所述第一出邻集合中的每个顶点的权重累积和生成随机数；

具体的，通过上述第一出邻集合中的每个顶点的权重累积和所决定的概率分布，根据均匀分布生成所述随机数，所述随机数的取值范围为0至1。

步骤S404，根据所述随机数与所述第一出邻集合中的每个顶点的边转移概率累积和的数值范围，确定所述待游走顶点。

针对上述步骤502，请参见图7c，是本申请实施例提供的一种确定第一待处理顶点的权重累积和方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图7c所示，所述方法可以包括：

步骤S601，基于顶点的标识信息的数值，对所述第一类型顶点与所述第二类型顶点进行排序，并根据排序之后的第一类型顶点与第二类型顶点生成第一顶点数组；

具体的，根据顶点的标识信息的数值，按照从小到大的顺序，将上述第一出邻集合中的第一类型顶点对应的标识信息与第二类型顶点对应的标识信息进行排序，将排序之后的第一类型顶点与第二类型顶点的标识信息构成的序列称之为上述第一顶点数组。

从上述第一顶点数组中的第一个标识信息开始，给每个标识信息增加索引，所述索引用于在所述第一顶点数组中查找对应的标识信息。比如第一顶点数组中包括顶点1、顶点2、顶点3，顶点1、顶点2、顶点3在所述第一顶点数组中排序为顶点2、顶点1、顶点3，从0开始给排序之后的每个顶点添加索引，即所述顶点2、顶点1、顶点3的索引值分别为0、1、2。

步骤S602，基于所述第一顶点数组中每个顶点的排序关系、根据所述目标游走顶点与所述第一顶点数组中的每个顶点之间的转移权重以及缩放倍数，确定所述第一顶点数组中的每个顶点的权重累积和，并根据所述第一顶点数组中的每个顶点的权重累积和生成权重数组；

具体的，根据上述第一顶点数组中每个顶点对应的缩放倍数对所述每个顶点对应的转移权重进行缩放，即将每个顶点对应的缩放倍数分别与其对应的转移权重相乘，将与缩放倍数进行相乘之后的转移权重称之为每个顶点对应的新转移权重。基于所述第一顶点数组中每个顶点的排序关系，根据每个顶点对应的所述新转移权重得到第一顶点数组中每个顶点的权重累积和，根据所述第一顶点数组中每个顶点的排序关系以及每个顶点的权重累积和生成所述权重数组。

例如第一顶点数组中包括顶点1、顶点2、顶点3，顶点1、顶点2、顶点3在所述第一顶点数组中排序为顶点2、顶点1、顶点3，所述顶点2对应的转移权重和缩放倍数分别为1和0.5，所述顶点1对应的转移权重和缩放倍数分别为2和0.8，所述顶点3对应的转移权重与缩放倍数分别为2和0.5，则上述顶点2、顶点1、顶点3对应的新转移权重分别为0.5、1.6、1，则上述顶点2、顶点1、顶点3对应的权重累积和分别为顶点2的新转移权重0.5、顶点2与顶点1的新转移权重之和2.1、顶点2与顶点1以及顶点3的新转移权重之后3.1，得到的权重数组为0.5、2.1、3.1。

步骤S603，在所述第一顶点数组中查找标识信息的数值不大于所述目标待处理顶点的标识信息的数值的顶点，将查找到的所有顶点确定为所述第一待处理顶点；

具体的，在上述第一数组中查找标识信息不大于所述目标待处理顶点的标识信息的所有顶点作为所述第一待处理顶点。

步骤S604，在所述权重数组中获取所述第一待处理顶点中顶点的标识信息的数值最大的顶点对应的权重累积和，将获取到的权重累积和确定为所述第一待处理顶点的权重累积和；

具体的，通过确定所述第一待处理顶点的权重累积和对应的索引值，进而可以根据确定的索引值在所述权重数组中查找到所述第一待处理顶点的权重累积和。比如将上述权重数组表示为aws[k]，其中k为每个标识信息的索引值，k的取值范围依次为0，1，2...n。在上述第一待处理顶点中的顶点的标识信息的数值最大的顶点为第三个点，即确定所述第一待处理顶点的权重累积和对应的索引值为2，因此在所述权重数组中获取到的所述第一待处理顶点的权重累积和为aws[2]。

针对上述步骤503，请参见图7d，是本申请实施例提供的一种确定第二待处理顶点的权重累积和方法的流程示意图，可以应用于图1中所示的分布式图处理平台f。如图7d所示，所述方法可以包括：

步骤S701，基于顶点的标识信息的数值，对所述第一出邻集合中的所有顶点进行排序，并根据排序之后的所有顶点生成第二顶点数组；

具体的，根据第一出邻集合中的每个顶点的标识信息的数值大小，按照从小到大的递增顺序进行排序，将排序之后的所述每个顶点基于所述每个顶点的标识信息表示出来，将排序之后的每个顶点的标识信息构成的数组称之为上述第二顶点数组。

步骤S702，在所述第二顶点数组中查找标识信息的数值不大于所述目标待处理顶点的标识信息的数值的所有顶点，将查找到的所有顶点确定为待选择顶点，并将所述待选择顶点中除所述第一待处理顶点之外的所有顶点确定为所述第二待处理顶点。

步骤S703，根据所述目标游走顶点与所述第二待处理顶点中的每个顶点的转移权重以及缩放倍数确定所述第二待处理顶点的权重累积和；

具体的，上述获取到的第二待处理顶点中的每个顶点都是上述描述的第三类型顶点，所述第二待处理顶点中的每个顶点对应的缩放倍数均相同，根据所述每个顶点对应的缩放倍数分别对所述每个顶点对应地转移权重进行缩放，将进行缩放之后的每个顶点对应的转移权重称之为每个顶点对应的新转移权重，将得到的每个顶点对应的新转移权重之和称之为上述第二待处理顶点的权重累积和。

针对上述步骤S404，根据所述随机数与所述第一出邻集合中的每个顶点的边转移概率累积和的数值范围，确定所述待游走顶点；具体的，例如，上述第一出邻集合中包括顶点1、顶点2、以及顶点3，则所述顶点1、顶点2、顶点3的边转移概率累积和依次为0.3、0.7、1。

上述顶点1、顶点2、顶点3分别对应的边转移概率累积和，可以理解为，将长度为1的线段划分为3段子线段，假设上述顶点1、顶点2、顶点3对应的子线段的长度分别为L1、L2、L3，则顶点1对应的子线段长度L1的范围为0＜L1≤0.3，顶点2对应的子线段长度L2的范围为0.3＜L2≤0.7，顶点3对应的子线段长度L3的范围为0.7＜L3≤1。当上述随机数为0.3时，则可以判断出所述随机数落在顶点1对应的子线段长度L1的范围0＜L1≤0.3内，则将所述顶点1确定为所述目标游走顶点的待游走顶点。

请参见图8，是本申请实施例提供的一种计算权重累积和的场景示意图。如图8所示，数组c1为第一出邻集合中的所有顶点的标识信息按照从小到大排列成的数组，可以称之为上述第二顶点数组，所述第二顶点数组c1中包括8个顶点，所述8个顶点的标识信息分别为2、5、8、17、23、64、77、98。其中，所述8个顶点中的每一个顶点分别对应于一个索引k＝0,…,7，如图8所示，索引集合d1为数组c1中每个顶点分别对应的索引的集合，标识信息为2的顶点的索引为0，标识信息为5的顶点的索引为1，标识信息为8的顶点的索引为2，标识信息为17的顶点的索引为3，标识信息为23的顶点的索引为4，标识信息为64的顶点的索引为5，标识信息为77的顶点的索引为6，标识信息为98的顶点的索引为7。

数组c2为数组c1中的第一类型顶点与第二类型顶点的标识信息按照从小到大排列成的数组，可以称之为上述第一顶点数组。所述第一顶点数组中包括3个顶点，所述3个顶点的标识信息分别为8、23、64。其中标识信息为8的顶点为所述第一类型顶点，标识信息为23的顶点与标识信息为64的顶点为所述第二类型顶点。第一顶点数组c2中每个顶点对应有一个索引k＝0,1,2，如图8所示，索引集合d2为数组c2中每个顶点分别对应的索引，在第一顶点数组c2中，标识信息为8的顶点的索引为0，标识信息为23的顶点的索引为1，标识信息为64的顶点的索引为2。

数组c3是数组c2中每个顶点分别对应的权重累积和，可以将数组c3称之为上述权重数组，其中，假设上述第一出邻集合中每个顶点与所述目标游走顶点之间的转移权重都为1，上述第一类型顶点与目标游走顶点之间的缩放倍数为1/p，上述第二类型顶点与目标游走顶点之间的缩放倍数为1，上述第三类型顶点与目标游走顶点之间的缩放倍数为1/q。因此，上述数组c2中标识信息为8的顶点对应的权重累积和为1/p，上述数组c2中标识信息为23的顶点对应的权重累积和为1+1/p，上述数组c2中标识信息为64的顶点对应的权重累积和为1+2/p。

其中，数组c3中每一个权重对应于一个索引0,1,2，如图8所示，索引集合d3为数组c3中每个顶点分别对应的权重累积和的索引的集合，标识信息为8的顶点对应的权重累积和为1/p的索引为0，标识信息为23的顶点对应的权重累积和为1+1/p的索引为1，标识信息为64的顶点对应的权重累积和为1+2/p的索引为2。

将上述第二顶点数组c1表示为O[k]，将上述第一顶点数组c2表示为node[i]，将上述权重数组c3表示为aws[j]。在第二顶点数组c1中选中待处理顶点为标识信息为17的顶点O[3]，在第一顶点数组c2中查找标识信息不大于17的顶点，查找到是标识信息为8的顶点node[0]，在权重数组中查找标识信息为8的顶点对应的权重累积和1/p，即aws[0]，将查找到的aws[0]对应的1/p作为上述第一待处理顶点对应的权重累积和。

用上述标识信息为17的顶点在数组c1中的索引值减去标识信息为8的顶点在数组c2中的索引值，减出来的结果为3，即标识信息为17的顶点在上述第一出邻集合中标识信息小于17的还有另外三个顶点，该三个顶点为第三类型顶点，将这三个顶点称之为上述第二待处理顶点，则所述第二待处理顶点的权重累积和为3/q，则上述目标待处理顶点17的权重累积和为所述第一待处理顶点的权重累积和与第二待处理顶点的权重累积和，为1/p+3/q。其中，上述第一顶点数组c1与权重数组c3是用于计算第一待处理顶点对应的权重累积和与第二待处理顶点对应的权重累积和的中间数组。

请参见图9，是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示，该数据处理装置900，可以应用于图1中所示的分布式图处理平台f，具体包括：获取模块901、概率确定模块902、顶点确定模块903、游走模块904、序列生成模块905；

获取模块901，用于在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

概率获取模块902，用于获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

顶点确定模块903，用于根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

游走模块904，用于基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

序列生成模块905，用于若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列。

其中，所述获取模块901、概率确定模块902、顶点确定模块903、第一游走模块904、序列生成模块905的具体功能实现方式请参见图2对应的实施例中的步骤S101-步骤S105，这里不再进行赘述。

在一实施例中，获取模块901包括：

第一确定单元9011，用于获取所述目标图中的所有顶点，并将所述目标图中的每个顶点确定为原始顶点；

触发单元9012，用于分别确定每个原始顶点的目标游走步数，并基于所述目标游走步数对所述每个原始顶点同步触发相互独立的随机游走任务；

游走单元9013，用于在已触发所述随机游走任务的原始顶点中确定初始游走顶点，从所述初始游走顶点游走至所述目标游走顶点，并将所述初始游走顶点确定为所述目标游走顶点相邻的历史游走顶点。

在一实施例中，概率确定模块902包括：

信息确定单元9021，用于根据所述第一出边信息确定目标出边信息；

缩放倍数确定单元9022，用于根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及所述历史游走顶点对应的第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数；

转移权重确定单元9023，用于在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

边转移概率确定单元9024，用于根据所述转移权重以及所述缩放倍数，确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率。

在一实施例中，缩放倍数确定单元9022用于，根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息以及所述第二出邻集合，分别确定所述第一出邻集合中的每个顶点的顶点类型；根据所述顶点类型分别确定所述第一出邻集合中的每个顶点的缩放倍数。

在一实施例中，缩放倍数确定单元9022用于，将所述第一出邻集合中为所述历史游走顶点的顶点确定为第一类型顶点；将所述第一出邻集合中与所述第二出邻集合中的顶点为公共出邻顶点的顶点确定为第二类型顶点；将所述第一出邻集合中除所述第一类型顶点以及所述第二类型顶点之外的顶点确定为第三类型顶点。

在一实施例中，顶点确定模块903包括：

第一累积和确定单元9031，用于根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的边转移概率，分别确定所述第一出邻集合中的每个顶点的边转移概率累积和；

第二累积和确定单元9032，用于根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的转移权重以及缩放倍数，分别确定所述第一出邻集合中的每个顶点的权重累积和；

随机数生成单元9033，用于基于均匀分布、所述第一出邻集合中的每个顶点的权重累积和生成随机数；

顶点确定单元9034，用于根据所述随机数与所述第一出邻集合中的每个顶点的边转移概率累积和的数值范围，确定所述待游走顶点。

在一实施例中，第二累积和确定单元9032包括：

顶点确定子单元90321，用于将所述第一出邻集合中的每个顶点确定为目标待处理顶点；

第一累积和确定子单元90322，用于根据所述目标待处理顶点的标识信息、所述第一类型顶点的标识信息和缩放倍数、所述第一类型顶点与所述目标游走顶点之间的转移权重、所述第二类型顶点的标识信息和缩放倍数、所述第二类型顶点与所述目标游走顶点之间的转移权重，确定第一待处理顶点的权重累积和；

第二累积和确定子单元90323，用于根据所述第三类型顶点的标识信息和缩放倍数、所述第三类型顶点与所述目标游走顶点之间的转移权重，确定第二待处理顶点的权重累积和；

第三累积和确定子单元90324，用于根据所述第一待处理顶点的权重累积和以及所述第二待处理顶点的权重累积和,确定所述目标待处理顶点的权重累积和。

请参见图10，是本申请实施例提供的一种电子设备的结构示意图。如图10所示，所述电子设备1000，可以为图1中所示的分布式图处理平台f，具体包括：处理器1001，网络接口1004和存储器1005，此外，所述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005 可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文任一个所对应实施例中对所述数据处理方法的描述。

应当理解，本申请实施例中所描述的电子设备1000可执行前文任一个所对应实施例中对所述数据处理方法的描述，也可执行前文图9所对应实施例中对所述数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文任一个所对应实施例中对所述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

一种数据处理方法，其特征在于，应用于电子设备，包括：

在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列。
根据权利要求1所述的方法，其特征在于，所述确定与所述目标游走顶点相邻的历史游走顶点包括：

获取所述目标图中的所有顶点，并将所述目标图中的每个顶点确定为原始顶点；

分别确定每个原始顶点的目标游走步数，并基于所述目标游走步数对所述每个原始顶点同步触发相互独立的随机游走任务；

在已触发所述随机游走任务的原始顶点中确定初始游走顶点，从所述初始游走顶点游走至所述目标游走顶点，并将所述初始游走顶点确定为所述目标游走顶点相邻的历史游走顶点。
根据权利要求1所述的方法，其特征在于，所述根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的边转移概率，包括：

根据所述第一出边信息确定目标出边信息；

根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及所述历史游走顶点对应的第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数；

在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

根据所述转移权重以及所述缩放倍数，确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率。
根据权利要求3所述的方法，其特征在于，所述根据所述第一出边信息确定目标出边信息包括：

若所述第一出边信息包括所述第二出邻集合，则将所述第一出边信息确定为所述目标出边信息。
根据权利要求3所述的方法，其特征在于，所述根据所述第一出边信息确定目标出边信息，包括：

若所述第一出边信息包括图划分标识信息，当根据所述图划分标识信息确定所述历史游走顶点与所述目标游走顶点同属于一个子图中的顶点时，获取所述第二出邻集合；

将所述第二出邻集合添加至所述第一出边信息中，将包含所述第二出邻集合的第一出边信息确定为所述目标出边信息。
根据权利要求3所述的方法，其特征在于，所述根据所述第一出边信息确定目标出边信息，包括：

若所述第一出边信息包括指示信息，基于所述指示消息在哈希表中获取与所述历史游走顶点的标识信息对应的所述第二出邻集合；

将所述第二出邻集合添加至所述第一出边信息中，将包含所述第二出邻集合的第一出边信息确定为所述目标出边信息。
根据权利要求3所述的方法，其特征在于，所述根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及所述历史游走顶点对应的第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数，包括：

根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息以及所述第二出邻集合，分别确定所述第一出邻集合中的每个顶点的顶点类型；

根据所述顶点类型分别确定所述第一出邻集合中的每个顶点的缩放倍数。
根据权利要求7所述的方法，其特征在于，所述根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息以及所述第二出邻集合，分别确定所述第一出邻集合中的每个顶点的顶点类型，包括：

将所述第一出邻集合中为所述历史游走顶点的顶点确定为第一类型顶点；

将所述第一出邻集合中与所述第二出邻集合中的顶点为公共出邻顶点的顶点确定为第二类型顶点；

将所述第一出邻集合中除所述第一类型顶点以及所述第二类型顶点之外的顶点确定为第三类型顶点。
根据权利要求6所述的方法，其特征在于，还包括：

当检测到所述历史游走顶点为初次被访问时，获取所述历史游走顶点的出度值；

当所述出度值达到第一度量值阈值时，基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表。
根据权利要求6所述的方法，其特征在于，还包括：

当检测到所述历史游走顶点为初次被访问时，获取所述历史游走顶点的入度值；

当所述入度值达到第二度量值阈值时，基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表。
根据权利要求6所述的方法，其特征在于，还包括：

当检测到所述历史游走顶点为初次被访问时，获取所述历史游走顶点的访问次数值；

当所述访问次数值达到第三度量值阈值时，基于所述历史游走顶点的标识信息将所述第二出邻集合缓存至所述哈希表。
根据权利要求8所述的方法，其特征在于，所述根据所述边转移概率在所述第一出邻集合中确定待游走顶点，包括：

根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的边转移概率，分别确定所述第一出邻集合中的每个顶点的边转移概率累积和；

根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的转移权重以及缩放倍数，分别确定所述第一出邻集合中的每个顶点的权重累积和；

基于均匀分布、所述第一出邻集合中的每个顶点的权重累积和生成随机数；

根据所述随机数与所述第一出邻集合中的每个顶点的边转移概率累积和的数值范围，确定所述待游走顶点。
根据权利要求12所述的方法，其特征在于，所述根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的转移权重以及缩放倍数，分别确定所述第一出邻集合中的每个顶点的权重累积和，包括：

将所述第一出邻集合中的每个顶点确定为目标待处理顶点；

根据所述目标待处理顶点的标识信息、所述第一类型顶点的标识信息和缩放倍数、所述第一类型顶点与所述目标游走顶点之间的转移权重、所述第二类型顶点的标识信息和缩放倍数、所述第二类型顶点与所述目标游走顶点之间的转移权重，确定第一待处理顶点的权重累积和；

根据所述第三类型顶点的标识信息和缩放倍数、所述第三类型顶点与所述目标游走顶点之间的转移权重，确定第二待处理顶点的权重累积和；

根据所述第一待处理顶点的权重累积和以及所述第二待处理顶点的权重累积和,确定所述目标待处理顶点的权重累积和。
根据权利要求13所述的方法，其特征在于，所述根据所述目标待处理顶点的标识信息、所述第一类型顶点的标识信息和缩放倍数、所述第一类型顶点与所述目标游走顶点之间的转移权重、所述第二类型顶点的标识信息和缩放倍数、所述第二类型顶点与所述目标游走顶点之间的转移权重，确定第一待处理顶点的权重累积和，包括：

基于顶点的标识信息的数值，对所述第一类型顶点与所述第二类型顶点进行排序，并根据排序之后的第一类型顶点与第二类型顶点生成第一顶点数组；

基于所述第一顶点数组中每个顶点的排序关系、根据所述目标游走顶点与所述第一顶点数组中的每个顶点之间的转移权重以及缩放倍数，确定所述第一顶点数组中的每个顶点的权重累积和，并根据所述第一顶点数组中的每个顶点的权重累积和生成权重数组；

在所述第一顶点数组中查找标识信息的数值不大于所述目标待处理顶点的标识信息的数值的顶点，将查找到的所有顶点确定为所述第一待处理顶点；

在所述权重数组中获取所述第一待处理顶点中顶点的标识信息的数值最大的顶点对应的权重累积和，将获取到的权重累积和确定为所述第一待处理顶点的权重累积和。
根据权利要求13所述的方法，其特征在于，所述根据所述第三类型顶点的标识信息和缩放倍数、所述第三类型顶点与所述目标游走顶点之间的转移权重，确定第二待处理顶点的权重累积和，包括：

基于顶点的标识信息的数值，对所述第一出邻集合中的所有顶点进行排序，并根据排序之后的所有顶点生成第二顶点数组；

在所述第二顶点数组中查找标识信息的数值不大于所述目标待处理顶点的标识信息的数值的所有顶点，将查找到的所有顶点确定为待选择顶点，并将所述待选择顶点中除所述第一待处理顶点之外的所有顶点确定为所述第二待处理顶点；

根据所述目标游走顶点与所述第二待处理顶点中的每个顶点的转移权重以及缩放倍数确定所述第二待处理顶点的权重累积和。
一种数据处理装置，其特征在于，包括：

获取模块，用于在目标图中指定目标游走顶点，确定与所述目标游走顶点相邻的历史游走顶点，获取由所述历史游走顶点传递到所述目标游走顶点的第一出边信息；

概率确定模块，用于获取第一出邻集合，所述第一出邻集合是指所述目标游走顶点游走到的下一个可能顶点的集合；根据所述第一出边信息，确定所述目标游走顶点与所述第一出邻集合中每个顶点之间的边转移概率；

顶点确定模块，用于根据所述边转移概率在所述第一出邻集合中确定待游走顶点；

游走模块，用于基于所述第一出邻集合生成所述目标游走顶点对应的第二出边信息，从所述目标游走顶点游走至所述待游走顶点，并将所述第二出边信息传递至所述待游走顶点，将所述待游走顶点确定为新的目标游走顶点；

序列生成模块，用于若目标游走顶点对应的游走次数达到预设游走步数阈值，则生成目标游走顶点对应的随机游走序列。
根据权利要求16所述的装置，其特征在于，所述获取模块包括：

第一确定单元，用于获取所述目标图中的所有顶点，并将所述目标图中的每个顶点确定为原始顶点；

触发单元，用于分别确定每个原始顶点的目标游走步数，并基于所述目标游走步数对所述每个原始顶点同步触发相互独立的随机游走任务；

游走单元，用于在已触发所述随机游走任务的原始顶点中确定初始游走顶点，从所述初始游走顶点游走至所述目标游走顶点，并将所述初始游走顶点确定为所述目标游走顶点相邻的历史游走顶点。
根据权利要求16所述的装置，其特征在于，所述概率确定模块包括：

信息确定单元，用于根据所述第一出边信息确定目标出边信息；

缩放倍数确定单元，用于根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息、所述初始游走顶点的标识信息以及所述历史游走顶点对应的第二出邻集合，分别确定所述目标游走顶点与所述第一出邻集合中的每个顶点之间的缩放倍数；

转移权重确定单元，用于在目标图中获取所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的转移权重；

边转移概率确定单元，用于根据所述转移权重以及所述缩放倍数，确定所述目标游走顶点分别与所述第一出邻集合中的每个顶点之间的边转移概率。
根据权利要求18所述的装置，其特征在于，所述缩放倍数确定单元用于，根据所述目标游走顶点的标识信息、所述第一出邻集合、所述目标出边信息中的所述历史游走顶点的标识信息以及所述第二出邻集合，分别确定所述第一出邻集合中的每个顶点的顶点类型；根据所述顶点类型分别确定所述第一出邻集合中的每个顶点的缩放倍数。
根据权利要求19所述的装置，其特征在于，所述缩放倍数确定单元用于，将所述第一出邻集合中为所述历史游走顶点的顶点确定为第一类型顶点；将所述第一出邻集合中与所述第二出邻集合中的顶点为公共出邻顶点的顶点确定为第二类型顶点；将所述第一出邻集合中除所述第一类型顶点以及所述第二类型顶点之外的顶点确定为第三类型顶点。
根据权利要求20所述的装置，其特征在于，所述顶点确定模块包括：

第一累积和确定单元，用于根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的边转移概率，分别确定所述第一出邻集合中的每个顶点的边转移概率累积和；

第二累积和确定单元，用于根据所述目标游走顶点与所述第一出邻集合中的每个顶点之间的转移权重以及缩放倍数，分别确定所述第一出邻集合中的每个顶点的权重累积和；

随机数生成单元，用于基于均匀分布、所述第一出邻集合中的每个顶点的权重累积和生成随机数；

顶点确定单元，用于根据所述随机数与所述第一出邻集合中的每个顶点的边转移概率累积和的数值范围，确定所述待游走顶点。
根据权利要求21所述的装置，其特征在于，所述第二累积和确定单元包括：

顶点确定子单元，用于将所述第一出邻集合中的每个顶点确定为目标待处理顶点；

第一累积和确定子单元，用于根据所述目标待处理顶点的标识信息、所述第一类型顶点的标识信息和缩放倍数、所述第一类型顶点与所述目标游走顶点之间的转移权重、所述第二类型顶点的标识信息和缩放倍数、所述第二类型顶点与所述目标游走顶点之间的转移权重，确定第一待处理顶点的权重累积和；

第二累积和确定子单元，用于根据所述第三类型顶点的标识信息和缩放倍数、所述第三类型顶点与所述目标游走顶点之间的转移权重，确定第二待处理顶点的权重累积和；

第三累积和确定子单元，用于根据所述第一待处理顶点的权重累积和以及所述第二待处理顶点的权重累积和,确定所述目标待处理顶点的权重累积和。
一种电子设备，其特征在于，包括：处理器和存储器；所述处理器和存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-15任一项所述的方法。
一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-15任一项所述的方法。