WO2022198713A1

WO2022198713A1 - 基于图形处理器的图采样和随机游走加速方法及系统

Info

Publication number: WO2022198713A1
Application number: PCT/CN2021/084847
Authority: WO
Inventors: 李超; 王鹏宇; 王靖; 朱浩瑾; 过敏意
Original assignee: 上海交通大学
Priority date: 2021-03-25
Filing date: 2021-04-01
Publication date: 2022-09-29
Also published as: CN112925627A; CN112925627B

Abstract

一种基于图形处理器的图采样和随机游走加速方法及系统，通过CPU从存储介质中读取图数据并转化为CSR格式后输出至GPU，GPU根据设定的工作模式：实时生成别名表并进行采样；或离线判断是否已有预先生成的别名表并进行采样。本发明能够高效、并行地执行别名方法，能够在相同硬件平台上显著提升图数据处理的性能，包括提高采样吞吐量吞吐量，以及减少整体运行时间。

Description

基于图形处理器的图采样和随机游走加速方法及系统

技术领域

本发明涉及的是一种数据处理领域的技术，具体是一种针对人工智能应用的基于图形处理器的图采样和随机游走加速方法及系统。

背景技术

图采样、随机游走通过一定的评判标准，选取原图数据的子图。图采样、随机游走是对图数据的常用处理技术，可以显著降低对大图处理的开销，同时在人工智能应用中保持较高的准确率等指标，但是图采样和随机游走本身在计算过程中也需要消耗大量的时间，对其进行加速有利于整体性能的提高。

有偏图采样、随机游走是指：在选取图中某顶点的邻居顶点的过程中，依据与邻居顶点相连边的权重对邻居顶点进行随机挑选的过程。有偏图采样、随机游走通常需要计算邻居顶点的转移概率来保证挑选的随机性。别名方法(Alias Method)是计算转移概率的一种方法，但是其一般被认为难以被高效并行化，因而并无利用GPU处理别名方法的系统。

发明内容

本发明针对现有有偏图采样、随机游走系统的复杂度高、加速器执行效率低、整体运行时间较长等缺点，提出一种基于图形处理器的图采样和随机游走加速方法及系统，能够高效、并行地执行别名方法，能够在相同硬件平台上显著提升图数据处理的性能，包括提高采样吞吐量吞吐量，以及减少整体运行时间。

本发明是通过以下技术方案实现的：

本发明涉及一种基于图形处理器的图采样和随机游走加速方法，通过中央处理器(Central Processing Unit，CPU)从存储介质中读取图数据并转化为压缩稀疏行(Compressed Sparse Row，CSR)格式后输出至GPU，GPU根据设定的工作模式：实时生成别名表(Alias Table)并进行采样；或离线判断是否已有预先生成的别名表并进行采样。

所述的中央处理器发起在GPU执行的核函数，该核函数的线程块在其生命周期中不断地参与可变大小的线程工作组，以处理任务队列中的任务，实现随机游走的执行模式。

所述的线程不断参与可变大小的线程工作组是指：采样任务存储在全局任务队列中，线程块中的线程不断地处理任务队列中的任务，根据线程块的不同状态，其中的线程分别参与线程子束、线程束或线程块以协同进行采样。

所述的线程块的不同状态包括：线程子束协同、线程束协同和线程块协同。

所述的采样，通过采用根据待采样顶点的度数将待处理顶点分配给一个不同大小的图形处理器线程组的负载均衡策略实现，具体为：根据出度数组中顶点的出度大小和阈值将顶点分类，然后分别用线程子束(subwarp)、线程束(thread warp)或线程块(thread block)进行处理。

所述的顶点分类，包括：①当待采样顶点出度d＜T ₁，则该顶点采用一个线程子束进行处理；②当T ₁＜d＜T ₂，则该顶点采用一个线程束进行处理；③当T ₂＜d，则该顶点采用一个线程块进行处理，其中：顶点的出度为有向图中各顶点的指向其他顶点的边的数目d，两个阈值T ₁和T ₂分别为8和32。

所述的线程子束，通常大小为4或8个线程；线程束，通常大小为32个线程；线程块，通常大小为256，512或1024个线程。

所述的指定线程束处理阈值小于线程块处理阈值。

本发明涉及一种实现上述方法的系统，包括：CPU主控模块、数据管理模块、GPU执行模块和GPU调度模块，其中：数据管理模块与CPU主控模块相连并根据控制指令管理数据移动，CPU主控模块与GPU执行模块相连并传输任务执行信息，GPU调度模块与GPU执行模块相连并传输调度信息。

技术效果

本发明整体解决了现有技术的并行度低、加速器执行效率低、整体运行时间较长等不足；与现有技术相比，本发明低运行时开销、负载均衡的执行调度策略，以及对实时和离线负载的支持。

附图说明

图1为本发明系统结构图；

图2为本发明流程图；

图3为GPU迭代执行示意图；

图4为不同大小任务组在实时工作模式下进行采样的示意图。

具体实施方式

如图2所示，为本实施例涉及一种基于图形处理器的图采样和随机游走加速方法，通过CPU从存储介质中读取图数据并转化为CSR格式后输出至GPU，GPU根据设定的工作模式：实时生成别名表并进行采样；或离线判断是否已有预先生成的别名表并进行采样，其中：起始阶段图结构数据储存在图形处理器的内存中，待处理的顶点存储在全局任务队列中；迭代执行阶段，核函数中的线程组各自独立地处理全局任务队列中的任务，直到全局任务队列为空。

所述的离线判断是指：当无预先生成的别名表时，先为全图生成别名表后再进行采样，否则利用已有别名表进行采样。

所述的为全图生成别名表，具体包括：

步骤1.1：每个GPU核函数的线程子束向全局任务队列请求任务，当取得任务中的待采样顶点出度d＜T ₁，则此线程子束中的线程对该顶点进行协同处理，即多个GPU线程在同一时间，共同的为一个顶点计算别名表；当T ₁＜d＜T ₂，则将该顶点暂时加入本地任务队列待后续处理；当T ₂＜d，则将该顶点加入全局高度顶点任务队列，其中T ₁、T ₂为两个可调节的阈值，在实践中为32和256；d为顶点的出度，即顶点发出的边的个数。

所述的全局任务队列由主控CPU线程在起始阶段生成，包含D个子任务队列，其中D是采样深度，每个子队列各包含一个待处理顶点，其中采样深度为0的队列初始化为本次采样任务的根顶点。

所述的待处理顶点的度数高于所述可调节的阈值T ₂。

在迭代处理过程中，核函数可以向子队列中添加任务。

所述的本地任务队列由每个线程块各自生成并维护，其存储了线程子束获得的满足T ₁＜d＜T ₂的顶点。

所述的线程子束是指：在运行时多个相邻GPU线程的集合，大小通常为4、8或16。

步骤1.2：当本轮迭代对应的全局任务队列为空，则一个线程束中已完成的线程等待同一个线程束中的其他线程，以参与对本地任务队列的处理过程。

步骤1.3：当本轮迭代对应的本地任务队列为空，则一个线程块中已完成的线程等待同一个线程块中的其他线程，以参与对全局高度顶点任务队列的处理过程。

步骤1.4：由每个线程束对采样深度进行判断，检查当前采样深度是否等于目标采样深度，当采样未达到目标深度，则重复步骤1.1-1.4进行迭代，否则处理结束。

如图4所示，所述的实时生成别名表并进行采样，具体包括：

步骤2.1：每个GPU核函数的工作组向对应任务队列请求任务，获取一个待采样顶点。

步骤2.2：各工作组检查图形处理器的内存中当存在已有待采样顶点的别名表(Alias Table)时直接进入下一步骤，否则多个GPU线程协同地在同一时间为待采样顶点构建别名表。

步骤2.3：各工作组使用min(|WG|，k)个线程进行采样，其中：min表示取最小值，|WG|表示工作组中线程的个数，k表示每个点在当前深度采样的大小。

步骤2.4：各工作组将构建的别名表存储到图形处理器的内存，以备未来使用。

经过具体实际实验，在配备有两个2.40GHz Intel Xeon 6148CPU，256GB内存，1个NVIDIA RTX 2080Ti GPU的测试服务器平台上，以T ₁＝8、T ₂＝256、线程子束大小为4、线程子束大小为32、线程块大小为256运行上述方法，在Arabic-2005数据集上，实时、离线两种工作模式下的采样的吞吐量分别为536、2545百万边每秒(million sampled edge per second)，实时、离线两种工作模式下的随机游走的吞吐量分别为65、3399、8175百万边每秒。相当于基于CPU的KnightKing系统，实时、离线随机游走吞吐量提升499、33倍；相对于基于GPU的C-SAW系统，实时、离线采样吞吐量提升83和65倍，实时、离线随机游走吞吐量提升18和13倍。

与现有技术相比，本方法充分利用GPU的高并行度，保证了负载均衡，减少了运行时的开销。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

一种基于图形处理器的图采样和随机游走加速方法，其特征在于，通过CPU从存储介质中读取图数据并转化为CSR格式后输出至GPU，GPU根据设定的工作模式：实时生成别名表并进行采样；或离线判断是否已有预先生成的别名表并进行采样；

所述的中央处理器发起在GPU执行的核函数，该核函数的线程块在其生命周期中不断地参与可变大小的线程工作组，以处理任务队列中的任务，实现随机游走的执行模式；

所述的离线判断是指：当无预先生成的别名表时，先为全图生成别名表后再进行采样，否则利用已有别名表进行采样。
根据权利要求1所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的线程不断参与可变大小的线程工作组是指：采样任务存储在全局任务队列中，线程块中的线程不断地处理任务队列中的任务，根据线程块的不同状态，其中的线程分别参与线程子束、线程束或线程块以协同进行采样。
根据权利要求2所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的线程块的不同状态包括：线程子束协同、线程束协同和线程块协同。
根据权利要求1所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的采样，通过采用根据待采样顶点的度数将待处理顶点分配给一个不同大小的图形处理器线程组的负载均衡策略实现，具体为：根据出度数组中顶点的出度大小和阈值将顶点分类，然后分别用线程子束、线程束或线程块进行处理。
根据权利要求1～4中任一所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的顶点分类，包括：①当待采样顶点出度d＜T ₁，则该顶点采用一个线程子束进行处理；②当T ₁＜d＜T ₂，则该顶点采用一个线程束进行处理；③当T ₂＜d，则该顶点采用一个线程块进行处理，其中：顶点的出度为有向图中各顶点的指向其他顶点的边的数目d，两个阈值T ₁和T ₂。
根据权利要求5所述的基于图形处理器的图采样和随机游走加速方法，其特征是，通过全局任务队列来指示GPU核函数线程在线程子束协同、线程束协同和线程块协同三种状态间切换，而无需多次启动核函数。
根据权利要求1所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的为全图生成别名表，具体包括：

步骤1：每个GPU核函数的线程子束向全局任务队列请求任务，当取得任务中的待采样顶点出度d＜T ₁，则此线程子束中的线程对该顶点进行协同处理，即多个GPU线程在同一时间，共同的为一个顶点计算别名表；当T ₁＜d＜T ₂，则将该顶点暂时加入本地任务队列待后续处理；当T ₂＜d，则将该顶点加入全局高度顶点任务队列，其中T ₁、T ₂为两个可调节的阈值，在实践中为32和256；d为顶点的出度，即顶点发出的边的个数；

步骤2：当本轮迭代对应的全局任务队列为空，则一个线程束中已完成的线程等待同一个线程束中的其他线程，以参与对本地任务队列的处理过程；

步骤3：当本轮迭代对应的本地任务队列为空，则一个线程块中已完成的线程等待同一个线程块中的其他线程，以参与对全局高度顶点任务队列的处理过程；

步骤4：由每个线程束对采样深度进行判断，检查当前采样深度是否等于目标采样深度，当采样未达到目标深度，则重复步骤1-4进行迭代，否则处理结束。
根据权利要求1所述的基于图形处理器的图采样和随机游走加速方法，其特征是，所述的实时生成别名表并进行采样，具体包括：

步骤①：每个GPU核函数的工作组向对应任务队列请求任务，获取一个待采样顶点；

步骤②：各工作组检查图形处理器的内存中当存在已有待采样顶点的别名表时直接进入下一步骤，否则多个GPU线程协同地在同一时间为待采样顶点构建别名表；

步骤③：各工作组使用min(|WG|，k)个线程进行采样，其中：min表示取最小值，|WG|表示工作组中线程的个数，k表示每个点在当前深度采样的大小；

步骤④：各工作组将构建的别名表存储到图形处理器的内存，以备未来使用。
一种实现权利要求1～8中任一所述方法的系统，其特征在于，包括：CPU主控模块、数据管理模块、GPU执行模块和GPU调度模块，其中：数据管理模块与CPU主控模块相连并根据控制指令管理数据移动，CPU主控模块与GPU执行模块相连并传输任务执行信息，GPU调度模块与GPU执行模块相连并传输调度信息。