WO2022099925A1

WO2022099925A1 - 自适应的面向大图的统一内存管理方法及系统

Info

Publication number: WO2022099925A1
Application number: PCT/CN2021/072376
Authority: WO
Inventors: 李超; 王鹏宇; 邵传明; 王靖; 郭进阳; 朱浩瑾; 过敏意
Original assignee: 上海交通大学
Priority date: 2020-11-10
Filing date: 2021-01-18
Publication date: 2022-05-19
Also published as: CN112346869B; US20230297234A1; CN112346869A

Abstract

一种自适应的面向大图的统一内存管理方法，对图计算应用中的不同类型的图数据按照优先级顺序，依次通过GPU内存判断检查当前GPU内存是否已满、通过数据超出判断当前的图数据的大小是否超出GPU的可用内存容量再进行统一内存管理策略配置。该方法针对图数据的特点采用不同的图算法，结合GPU可用内存的大小，能够显著提升统一内存架构下处理超过显存容量的大图的性能，包括提高GPU带宽利用率、减少缺页的次数和处理缺页的开销，加快图计算程序的运行时间。

Description

自适应的面向大图的统一内存管理方法及系统

技术领域

本发明涉及的是一种图形处理领域的技术，具体是一种在统一内存架构下自适应地对尺寸在超出显存容量的大图数据的读取策略进行内存动态配置的方法及系统。

背景技术

统一内存(Unified Memory)是指：在现有的内存管理方式上增加了一个统一的内存空间，使得程序可以使用一个指针直接访问中央处理器(CPU)的内存或图形处理器(GPU)的显存中存储的数据。通过该技术使得图形处理器增加可用的地址空间，使得GPU可以处理超过显存容量的图数据的技术。但直接使用该技术往往会带来显著的性能损失。

发明内容

本发明针对现有技术的上述不足，提出一种自适应的、面向大图的统一内存管理方法及系统，针对图数据的特点采用不同的图算法，结合GPU可用内存的大小，能够显著提升统一内存架构下处理超过显存容量的大图的性能，包括提高GPU带宽利用率、减少缺页的次数和处理缺页的开销，加快图计算程序的运行时间。

本发明是通过以下技术方案实现的：

本发明涉及一种自适应的面向大图的统一内存管理方法，对图计算应用中的不同类型的图数据按照优先级顺序，依次检查当前GPU内存是否已满、判断当前的图数据的大小是否超出GPU的可用内存容量，再进行统一内存管理的策略配置。

所述的不同类型的图数据包括：顶点偏移量(VertexOffset)、顶点属性标签(VertexProperty)、边(Edge)以及待处理顶点前线(Frontier)，其中：VertexOffset、VertexProperty、Edge为压缩稀疏行格式(CSR)的三个数组。

所述的优先级顺序是指：图数据结构在图算法执行中按照被访问的次数由高到低的顺序，具体为：顶点性质、顶点偏移、前线、边。

所述的图算法可以被分为遍历型算法或计算型算法，包括但不限于单源最短路径算法(SSSP)、广度优先搜索算法(BFS)、网页排名算法(PageRank，PR)、连通分量算法(Connected Component，CC)。

所述的GPU内存判断调用cudaMemGetInfo检查当前GPU内存的剩余容量。数据超出判断比较数据量的大小是否超过GPU可用内存的大小。

所述的统一内存管理策略配置采用但不限于通过调用cudaMemPrefetchAsync和 cudaMemAdvise对当前图数据的管理策略进行设置，其中：cudaMemPrefetchAsync能够预先移动部分数据到GPU显存中；cudaMemAdvise能够为指定的数据设定数据使用提示(Memory Usage Hint，以下简称为提示)以帮助GPU驱动程序采用适当的方式控制数据移动，提高最终的性能，可选的数据使用提示包括AccessedBy和ReadMostly。这些指令针对的是NVIDIA各系列的GPU，具体为：

①针对顶点性质数据，当GPU内存已满时，设置VertexProperty的提示为AccessedBy；否则，即GPU内存未满且当VertexProperty未超出GPU的可用内存容量时，设置VertexProperty的预读量为VertexProperty的大小；当VertexProperty超出GPU的可用内存容量时，设置VertexProperty的提示为AccessedBy，并设置VertexProperty的预读量为：预读率×GPU可用内存容量，单位为字节。

②针对顶点偏移数据，当GPU内存已满时，设置VertexOffset的提示为AccessedBy；否则，即GPU内存未满且当VertexOffset未超出GPU的可用内存容量时，设置VertexOffset的预读量为VertexOffset的大小；当VertexOffset超出GPU的可用内存容量时，设置VertexOffset的提示为AccessedBy，并设置VertexOffset的预读量为：预读率GPU可用内存容量，单位为字节。

③针对前线数据，当GPU内存已满时，设置Frontier的提示为AccessedBy；否则，即GPU内存未满且当Frontier未超出GPU的可用内存容量时，设置Frontier的预读量为Frontier的大小；当Frontier超出GPU的可用内存容量时，设置Frontier的提示为AccessedBy，并设置Frontier的预读量为：预读率GPU可用内存容量，单位为字节。

④针对边数据，当GPU内存已满时，设置Edge的提示为AccessedBy；否则，即GPU内存未满且当Edge未超出GPU的可用内存容量时，设置Edge的预读量为Edge的大小；当Edge超出GPU的可用内存容量时，设置Edge的提示为AccessedBy，并设置Edge的预读量为：预读率GPU可用内存容量，单位为字节。

技术效果

本发明整体解决了现有GPU不具有处理超出显存的大图的能力的技术问题。

与现有技术相比，本发明使用统一内存技术管理图数据，按照特定的优先级顺序，对不同的图数据结构采用针对性的管理策略，根据图数据的大小与GPU可用内存的相对大小、图算法的种类调整图数据的管理策略显著提高了图算法的运行效率。

附图说明

图1为本发明系统示意图；

图2为本发明内存管理策略设置流程示意图。

具体实施方式

如图1所示，为本实施例涉及的一种自适应的面向大图的统一内存管理系统，包括：系统参数设置模块、数据读取模块、内存管理策略设置模块，其中：系统参数设置模块调用CUDA编程接口获取内存管理策略运行参数并进行初始化，数据读取模块从存储器读取图数据文件，在CPU内存中构建相应的图数据结构，内存管理策略设置模块对图数据结构通过调用支持CUDA8.0的应用程序接口设置数据的预读、提示的策略。

所述的运行参数包括：内存已满(GPUIsFull)、GPU当前可用的内存容量(availGPUMemSize)以及预读率τ。

所述的初始化是指：将GPUIsFull设置为false；通过cudaMemGetInfo获取availGPUMemSize。

所述的预读率τ对于遍历型图算法(如BFS)设置为0.5，对于计算型图算法(如CC)设置为0.8。

所述的支持CUDA8.0的应用程序接口，包括但不限于允许与显式内存拷贝和固定API相同的功能，而无需恢复显式GPU内存分配的限制的：显式预取(cudaMemPrefetchAsync)和内存使用提示(cudaMemAdvise)。

如图2所示，本实例涉及基于上述系统的自适应内存管理方法，包括以下步骤：

步骤1(图中B0)：获取运行参数(GPUIsFull、availGPUMemSize、τ)的初始值。

步骤2(图中B1、C0)：依次对图数据结构(VertexProperty,VertexOffset,Frontier,Edge)中的每个数据Data设置内存管理策略，针对其中每条数据依次判断：

步骤2.1(图中C1)：当变量GPUIsFull的值为false时执行步骤2.1.1；否则执行步骤2.1.2。

步骤2.1.1(图中C2)：当Data的大小小于availGPUMemSize时执行步骤2.1.1.1；否则执行步骤2.1.1.2。

步骤2.1.1.1(图中B3～B4)：调用cudaMemPrefetchAsync，将Data预取到GPU内存中；设置AvailGPUMemSize-＝Data的大小；返回步骤2。

步骤2.1.1.2(图中B5～B7)：设置内存已满(GPUIsFull＝true)；调用cudaMemAdvise将Data的提示设为AccessedBy；调用cudaMemPrefetchAsync预取τ×availGPUMemSize大小的Data到GPU内存中；返回步骤2。

步骤2.1.2(图中B8)：调用cudaMemAdvise将Data的提示设为AccessedBy；返回步骤2。

经过具体实际实验，在一个配备Intel Xeon E5-2620CPU，128GB内存和NVIDIA GTX1080Ti GPU的服务器环境下，基于本方法，在不同数据集下执行图算法，测量算法的执行时间，即在GPU上从开始到结束的总运行时间，不包含预处理、数据传送的时间。测量时，算法重复执行5次，取5次执行时间的平均值。

所述的数据集，为多个不同大小的图数据集，具体包含社交网络图数据集(LiveJournal、Orkut、Twitter、Friendster)，以及互联网快照图数据集(UK-2005、SK-2005、UK-union)，其中Livejournal包含5M顶点和69M边，体积为1.4GB；UK-union包含133M顶点和5.5B边，体积为110GB。

所述的图算法，为SSSP、BFS、PR、CC四种图算法，其中SSSP、BFS为遍历型算法，PR、CC为计算型算法。对于BFS和SSSP，算法将每个图数据集中的第一个顶点作为源顶点；对于PR，设置0.85为衰减系数，0.01为容错读。算法结束运行的条件为算法收敛，或者迭代次数达到100次。

试验结果显示本方法可以使图计算的总执行时间得到1.1至6.6倍的加速。其中SSSP的性能提升最高，而PR的性能提升最低，说明本方法对访存密集型的程序更有利。τ＝0.5和τ＝0.8分别是对遍历型算法和计算型算法最优的预读率，相比于τ＝0时分别能达到最高平均1.43和1.48倍的最高平均加速。

综上可见，本发明可以显著缩短图计算程序的运行时间。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

一种自适应的面向大图的统一内存管理方法，其特征在于，对图计算应用中的不同类型的图数据按照优先级顺序，依次通过GPU内存判断检查当前GPU内存是否已满、通过数据超出判断当前的图数据的大小是否超出GPU的可用内存容量再进行统一内存管理策略配置；

所述的统一内存管理策略配置通过调用cudaMemPrefetchAsync和cudaMemAdvise指令对当前图数据的管理策略进行设置，其数据使用提示包括AccessedBy和ReadMostly；

所述的统一内存管理策略配置具体包括：

①针对顶点性质的图数据，当GPU内存已满时，设置VertexProperty的提示为AccessedBy；否则，即GPU内存未满且当VertexProperty未超出GPU的可用内存容量时，设置VertexProperty的预读量为VertexProperty的大小；当VertexProperty超出GPU的可用内存容量时，设置VertexProperty的提示为AccessedBy，并设置VertexProperty的预读量为：预读率×GPU可用内存容量，单位为字节；

②针对顶点偏移的图数据，当GPU内存已满时，设置VertexOffset的提示为AccessedBy；否则，即GPU内存未满且当VertexOffset未超出GPU的可用内存容量时，设置VertexOffset的预读量为VertexOffset的大小；当VertexOffset超出GPU的可用内存容量时，设置VertexOffset的提示为AccessedBy，并设置VertexOffset的预读量为：预读率GPU可用内存容量，单位为字节；

③针对前线的图数据，当GPU内存已满时，设置Frontier的提示为AccessedBy；否则，即GPU内存未满且当Frontier未超出GPU的可用内存容量时，设置Frontier的预读量为Frontier的大小；当Frontier超出GPU的可用内存容量时，设置Frontier的提示为AccessedBy，并设置Frontier的预读量为：预读率GPU可用内存容量，单位为字节；

④针对边的图数据，当GPU内存已满时，设置Edge的提示为AccessedBy；否则，即GPU内存未满且当Edge未超出GPU的可用内存容量时，设置Edge的预读量为Edge的大小；当Edge超出GPU的可用内存容量时，设置Edge的提示为AccessedBy，并设置Edge的预读量为：预读率GPU可用内存容量，单位为字节。
根据权利要求1所述的自适应的面向大图的统一内存管理方法，其特征是，所述的图算法为遍历型算法或计算型算法，对应预读率τ对于遍历型图算法设置为0.5，对于计算型图算法设置为0.8。
根据权利要求1所述的自适应的面向大图的统一内存管理方法，其特征是，具体包括：

步骤1：获取运行参数的初始值；

步骤2：依次对图数据结构中的每个数据设置内存管理策略，针对其中每条数据依次判断：

步骤2.1：当运行参数中的变量GPUIsFull的值为false时执行步骤2.1.1；否则执行步骤2.1.2；

步骤2.1.1：当图数据的大小小于availGPUMemSize时执行步骤2.1.1.1；否则执行步骤2.1.1.2；

步骤2.1.1.1：调用cudaMemPrefetchAsync，将图数据预取到GPU内存中；设置AvailGPUMemSize-＝Data的大小；返回步骤2；

步骤2.1.1.2：设置运行参数中的变量GPUIsFull的值为true时，调用cudaMemAdvise将Data的提示设为AccessedBy；调用cudaMemPrefetchAsync预取大小为运行参数中的预读率τ×availGPUMemSize大小的图数据到GPU内存中；返回步骤2；

步骤2.1.2：调用cudaMemAdvise将Data的提示设为AccessedBy；返回步骤2。
根据权利要求3所述的自适应的面向大图的统一内存管理方法，其特征是，所述的运行参数包括：内存已满(GPUIsFull)、GPU当前可用的内存容量(availGPUMemSize)以及预读率τ。
根据权利要求4所述的自适应的面向大图的统一内存管理方法，其特征是，所述的初始化是指：将GPUIsFull设置为false；通过cudaMemGetInfo获取availGPUMemSize。
一种实现上述任一权利要求所述方法的自适应的面向大图的统一内存管理系统，其特征在于，包括：系统参数设置模块、数据读取模块、内存管理策略设置模块，其中：系统参数设置模块调用CUDA编程接口获取内存管理策略运行参数并进行初始化，数据读取模块从存储器读取图数据文件，在CPU内存中构建相应的图数据结构，内存管理策略设置模块对图数据结构通过调用支持CUDA8.0的应用程序接口设置数据的预读、提示的策略。