WO2023151216A1

WO2023151216A1 - 图数据处理的方法和芯片

Info

Publication number: WO2023151216A1
Application number: PCT/CN2022/100707
Authority: WO
Inventors: 姚鹏程; 蒋颖昕; 郑龙; 鲁芳敏; 张学仓; 金海�; 廖小飞
Original assignee: 华为技术有限公司
Priority date: 2022-02-14
Filing date: 2022-06-23
Publication date: 2023-08-17
Also published as: CN116627887A

Abstract

本申请提供了一种图数据处理的方法和芯片，该方法应用于芯片，该芯片包括预取模块、调度模块和处理模块，处理模块中包括多个处理引擎，调度模块与处理模块之间设置有多条行总线。通过该多条行总线，芯片可以一次向同一行的多个处理引擎分派多个图数据。本申请提供的图数据处理方法有利于提高芯片对于图数据的分派的效率，有利于提高芯片的可扩展性，有利于减少芯片内部计算处理单元的通信开销，有利于提高芯片对图数据的处理效率。

Description

图数据处理的方法和芯片

本申请要求于2022年02月14日提交中国专利局、申请号为202210151161.5、发明名称为“图数据处理的方法和芯片”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机领域，具体地，涉及一种图数据处理的方法和芯片。

背景技术

图计算(graph computing)的性能受图数据的处理速率、图数据的存储速率等多个因素影响。目前，图数据的处理速率并无法充分利用存储设备的高带宽，如何提高图数据的处理速率是亟需解决的问题。

发明内容

本申请提供一种图数据处理的方法和芯片，通过设置行总线，该芯片可以同时将图数据分派至同一行的多个处理引擎，可以提高芯片分派图数据的效率，进而有利于提高图数据处理的速率。

第一方面，提供了一种图数据处理的方法，该方法应用于芯片，该芯片包括N行处理引擎PE，N个行总线；其中，该N个行总线与N行PE相对应；N为大于1的整数，每一行PE包括至少2个PE；该方法包括：获取第一图数据和第二图数据；确定第一图数据和第二图数据需要存储的目标行PE；该目标行PE为N行PE中的一行PE，目标行PE包括第一PE和第二PE；确定目标行PE对应的目标行总线；该目标行总线与第一PE通过第一通信链路连接；该目标行总线与第二PE通过第二通信链路连接；第一通信链路和第二通信链路不经过任何PE；通过目标行总线将第一图数据通过第一通信链路传输给第一PE；通过目标行总线将第二图数据通过第二通信链路传输给第二PE。

可选地，芯片从外部存储设备获取图数据，该图数据包括节点负载和边负载，该节点负载包括节点信息(如节点的属性信息)，该边负载包括源节点的节点标识和/或目的节点的节点标识。

可选地，边负载还可以包括边的信息(例如边的属性、权重等)。

本技术方案中，芯片内部设置行总线，该行总线与N行处理引擎对应，利用行总线可以一次向同一行的多个处理引擎发送多个图数据，而无需通过处理引擎之间的通信链路来转发，有利于提高芯片分派待处理的图数据的速率，进而提高芯片对于图数据处理的整体效率。

结合第一方面，在第一方面的某些实现方式中，该方法还包括：通过该目标行总线将第一图数据通过第二通信链路传输给该第二PE。

本技术方案中，通过行总线还可以向同一个处理引擎发送与该处理引擎处于同一行的其他处理引擎处理的数据，进而当同一行的多个处理引擎中有处于空闲状态的处理引擎时，通过行总线获取其他图数据，有利于提升多个处理引擎的利用率，减少处理引擎处理空转的机率，有利于提高芯片对于图数据的处理效率。

结合第一方面，在第一方面的某些实现方式中，该N行PE还包括第三PE和第四PE，该方法还包括：该第一PE基于该第一图数据计算得到第一计算结果；该第二PE基于该第二图数据计算得到第二计算结果；该第三PE对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE，该第四PE为该第一计算结果和该第二计算结果的目的PE。

本技术方案中，利用芯片中的多个处理引擎的一个或多个处理引擎对图数据处理的中间过程数据先进行规约处理，有利于分担处理引擎的数据处理负担，有利于提高芯片中多个处理引擎的利用率，有利于提高芯片对图数据的处理效率。

结合第一方面，在第一方面的某些实现方式中，该N行PE的每个PE中均包含图处理单元，该第一PE的图处理单元基于该第一图数据计算得到该第一计算结果；该第二PE基于该第二图数据计算得到第二计算结果，包括：该第二PE的图处理单元基于该第二图数据计算得到该第二计算结果。

本技术方案中，通过在每个处理引擎中设置专门的图处理单元用于对图数据进行计算，由于图处理单元的功能是确定的，因而本技术方案的实施例有利于对根据芯片的实际用途对该图处理单元的材料和结构等性质进行定制，有利于提高芯片对于不同应用场景的适应性，有利于提高芯片中数据处理资源的利用率。

结合第一方面，在第一方面的某些实现方式中，该N行PE的每个PE中均包含路由单元，该第三PE的路由单元对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE。

本技术方案中，通过在每个处理引擎中设置专门的路由单元，并利用该路由单元对计算结果执行规约处理，并将规约处理后的结果路由至目的处理引擎。本技术方案的实施，有利于提高处理引擎中路由单元的利用率，有利于提高芯片对于不同应用场景的适应性，有利于提高芯片中数据处理资源的利用率。

结合第一方面，在第一方面的某些实现方式中，该N行PE的每个PE中均包含缓存，该方法还包括：该第一PE保存该第一图数据至该第一PE的缓存中，该第二PE保存该第二图数据至该第二PE的缓存中。

本技术方案中，通过在每个处理引擎中设置专门的缓存，并将图数据保存在缓存中，多个图数据中包含的多个缓存组成了芯片的缓存。分布式缓存的设计，有利于提高芯片对于图数据读取和写入的效率，进而有利于提高芯片对图数据的处理效率。

结合第一方面，在第一方面的某些实现方式中，该N行PE还包括第五PE，该方法还包括：该第五PE对第三处理结果和第四处理结果执行规约处理，该第三处理结果和该第四处理结果用于更新同一个图数据。

本技术方案中，芯片中包含的任意一个处理引擎都可以对图数据处理的中间数据进行规约处理，有利于提高芯片对图数据处理的效率。

结合第一方面，在第一方面的某些实现方式中，该N行PE组成N行M列的PE阵列，M为大于1的整数。

结合第一方面，在第一方面的某些实现方式中，该N行PE包含的所有PE中，相邻PE之间设置有PE通信链路，该PE通信链路用于实现PE之间的数据共享。

通过在计算处理单元之间设置通信链路，不同计算处理单元之间可以直接通过该通信链路进行通信或数据传输。多个计算处理单元之间的通信无需通过集中式的分发机制实现，有利于简化芯片的架构。通过设置通信链路，可以为芯片扩展更多的计算处理单元，从而可以提高芯片的数据的处理效率。

结合第一方面，在第一方面的某些实现方式中，该第一图数据为源节点的节点信息，该方法还包括：获取第三图数据，该第三图数据为该源节点的关联边的边负载；通过该第二通信链路将该第三图数据发送至该第二PE；该第二PE根据该第一图数据和该第三图数据计算目的节点的更新负载，该更新负载用于更新该目的节点的节点信息。

本技术方案中，将边负载发送至与更新源节点的处理引擎同一行的计算处理单元中，获取边负载的处理引擎只需在其所处的列中路由边负载至更新目的节点的计算处理单元。本技术方案的实施，有利于减少计算处理单元在列之间的通信开销。

结合第一方面，在第一方面的某些实现方式中，当该芯片更新完该目的节点的节点信息时，该芯片获取该目的节点的关联边的边负载，该目的节点的关联边与该源节点的关联边不同。

应理解，当芯片获取目的节点的关联边的边负载，并将其分派至处理引擎时，目的节点已经是本轮迭代的活跃节点，目的节点即为本轮迭代的边负载的源节点。

本技术方案中，在某一个处理引擎完成节点信息的更新后，立即为该处理引擎触发执行下一轮迭代，而不是等到所有的处理引擎都完成更新再触发执行。本技术方案的实施，有利于缩减处理引擎的空转时间，有利于多个处理引擎之间的负载均衡，有利于提高芯片的数据处理效率。

第二方面，提供了一种芯片，该芯片包括N行处理引擎PE，N个行总线；其中，该N个行总线与N行PE相对应；N为大于1的整数，每一行PE包括至少2个PE；

该芯片用于：获取第一图数据和第二图数据；确定第一图数据和第二图数据需要存储的目标行PE；该目标行PE为N行PE中的一行PE，目标行PE包括第一PE和第二PE；确定目标行PE对应的目标行总线；该目标行总线与第一PE通过第一通信链路连接；该目标行总线与第二PE通过第二通信链路连接；第一通信链路和第二通信链路不经过任何PE；通过目标行总线将第一图数据通过第一通信链路传输给第一PE；通过目标行总线将第二图数据通过第二通信链路传输给第二PE。

结合第二方面，在第二方面的某些实现方式中，该芯片还用于：通过该目标行总线将第一图数据通过第二通信链路传输给该第二PE。

结合第二方面，在第二方面的某些实现方式中，该芯片的N行PE还包括第三PE和第四PE；该第一PE，用于基于该第一图数据计算得到第一计算结果；该第二PE，用于基于该第二图数据计算得到第二计算结果；该第三PE，用于对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE，该第四PE为该第一计算结果和该第二计算结果的目的PE。

结合第二方面，在第二方面的某些实现方式中，该N行PE的每个PE中均包含图处理单元，该第一PE的图处理单元，用于基于该第一图数据计算得到该第一计算结果；该第二PE的图处理单元，用于基于该第二图数据计算得到该第二计算结果。

结合第二方面，在第二方面的某些实现方式中，该N行PE的每个PE中均包含路由单元，该第三PE的路由单元，用于对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE。

结合第二方面，在第二方面的某些实现方式中，该N行PE的每个PE中均包含缓存，该第一PE还用于：保存该第一图数据至该第一PE的缓存中；该第二PE还用于：保存该第二图数据至该第二PE的缓存中。

结合第二方面，在第二方面的某些实现方式中，该N行PE还包括第五PE，该第五PE，用于对第三处理结果和第四处理结果执行规约处理，该第三处理结果和该第四处理结果用于更新同一个图数据。

结合第二方面，在第二方面的某些实现方式中，该N行PE组成N行M列的PE阵列，M为大于1的整数。

结合第二方面，在第二方面的某些实现方式中，该N行PE包含的所有PE中，相邻PE之间设置有PE通信链路，该PE通信链路用于实现PE之间的数据共享。

结合第二方面，在第二方面的某些实现方式中，该第一图数据为源节点的节点信息，该芯片还用于：获取第三图数据，该第三图数据为该源节点的关联边的边负载；通过该第二通信链路将该第三图数据发送至该第二PE；该第二PE还用于：根据该第一图数据和该第三图数据计算目的节点的更新负载，该更新负载用于更新该目的节点的节点信息。

结合第二方面，在第二方面的某些实现方式中，当该芯片更新完该目的节点的节点信息时，该芯片还用于：获取该目的节点的关联边的边负载，该目的节点的关联边与该源节点的关联边不同。

第三方面，提供一种图数据处理装置，该图数据处理装置包括：获取单元，用于获取第一图数据和第二图数据；N行处理单元，用于处理该第一图数据和该第二图数据，N为大于1的整数，每一行处理单元包括至少2个处理单元；N个行总线，该N个行总线与该N行处理单元相对应；分派单元，用于确定该第一图数据和该第二图数据需要存储的目标行处理单元；该目标行处理单元为该N行处理单元中的一行处理单元，该目标行处理单元包括第一处理单元和第二处理单元；该分派单元，还用于确定该目标行处理单元对应的目标行总线；该目标行总线与该第一处理单元通过第一通信链路连接；该目标行总线与该第二处理单元通过第二通信链路连接；该第一通信链路和该第二通信链路不经过任何处理单元；该分派单元，还用于通过该目标行总线将该第一图数据通过该第一通信链路传输给该第一处理单元；通过该目标行总线将该第二图数据通过该第二通信链路传输给该第二处理单元。

结合第三方面，在第三方面的某些实现方式中，该分派单元还用于，通过该目标行总线将该第一图数据通过该第二通信链路传输给该第二处理单元。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元还包括第三处理单元和第四处理单元，该第一处理单元，用于基于该第一图数据计算得到第一计算结果；该第二处理单元，用于基于该第二图数据计算得到第二计算结果；该第三处理单元，用于对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至第四处理单元，该第四处理单元为该第一计算结果和该第二计算结果的目的处理单元。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元的每个处理单元中均包含图处理子单元，该第一处理单元的图处理子单元，用于基于该第一图数据计算得到该第一计算结果；该第二处理单元的图处理子单元，用于基于该第二图数据计算得到该第二计算结果。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元的每个处理单元中均包含路由子单元，该第三处理单元的路由子单元，用于对该第一计算结果和该第二计算结果进行规约处理，并将规约处理后的结果传输至该第四处理单元。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元的每个处理单元中均包含存储子单元，该第一处理单元，还用于保存该第一图数据至该第一处理单元的存储子单元中；该第二处理单元，还用于保存该第二图数据至该第二处理单元的存储子单元中。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元还包括第五处理单元，该第五处理单元，用于对第三处理结果和第四处理结果执行规约处理，该第三处理结果和该第四处理结果用于更新同一个图数据。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元组成N行M列的处理单元阵列，M为大于1的整数。

结合第三方面，在第三方面的某些实现方式中，该N行处理单元包含的所有处理单元中，相邻处理单元之间设置有处理单元通信链路，该处理单元通信链路用于实现处理单元之间的数据共享。

结合第三方面，在第三方面的某些实现方式中，该第一图数据为源节点的节点信息，该获取单元，还用于获取第三图数据，该第三图数据为该源节点的关联边的边负载；该分派单元，还用于通过该第二通信链路将该第三图数据发送至该第二处理单元；该第二处理单元，还用于根据该第一图数据和该第三图数据计算目的节点的更新负载，该更新负载用于更新该目的节点的节点信息。

结合第三方面，在第三方面的某些实现方式中，当该图数据处理装置更新完该目的节点的节点信息时，该获取单元还用于，获取该目的节点的关联边的边负载，该目的节点的关联边与该源节点的关联边不同。

第四方面，提供一种芯片组，该芯片包括处理器以及第二方面所述的芯片，该处理器与芯片耦合，该处理器用于控制芯片以实现第一方面及其任意可能实现的方式。

第五方面，提供一种电子设备，包括第二方面中的芯片。

第六方面，提供一种电子设备，包括第三方面中的芯片组。

第七方面，提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码在计算机上运行时，第一方面或其任意可能的实现方式被执行。

第八方面，提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机指令，当计算机指令在计算机上运行时，使得第一方面或其任意可能的实现方式中的方法被执行。

附图说明

图1是本申请实施例提供的一种图数据结构。

图2是本申请实施例提供的一种芯片的应用场景。

图3是本申请实施例提供的一种芯片的架构图。

图4是本申请实施例提供的另一种芯片的架构图。

图5是本申请实施例提供的一种图数据处理方法的示意图。

图6是本申请实施例提供的另一种图数据处理方法的示意图。

图7是本申请实施例提供的又一种图数据处理方法的示意图。

图8是本申请实施例提供的又一种图数据处理方法的示意图。

图9是本申请实施例提供的又一种图数据处理方法的示意图。

图10是本申请实施例提供的又一种图数据处理方法的示意图。

图11是本申请实施例提供的一种图数据处理装置的示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是本申请提供的一种图数据结构的示意图。

在计算机科学中，图是一种抽象的数据类型。图的数据结构(data structure)包含一个有限的集合作为节点(如图1所示的节点111)集合，以及一个无序对或有序对的集合作为边(如图1所示的边121)的集合。节点可以是图结构的一部分，也可以是用整数下标或引用表示的外部实体。图的数据结构还可能包含和每条边相关联的数值(edge value)，例如权重(weight)。

如图1所示的图数据结构1，包括节点111、节点112和节点113等多个节点以及边121、边122和边123等多条边。节点111、节点112和节点113两两之间互为相邻节点。节点111与节点112之间通过边121联系，节点111与节点113之间通过边122联系，节点112和节点113之间通过边123联系。

在以节点111为活跃节点确定节点113的节点信息的过程中，又可以称节点111为源节点，节点113为目的节点。

图计算(graph computing或graph processing)是指将数据按照图的方式建模，并通过计算图中节点或边的属性分析图数据(即图属性分析)以获得处理结果的过程。图计算是一种高性能地处理网格图的计算技术，其通过图计算处理可以获得不同节点间的关系或者更新图中节点与边的状态。

图计算中，源节点的节点信息或目的节点的节点信息(或称节点工作负载、节点负载)可以视为是源节点或目的节点的一种或多种属性，相应的连接源节点和目的节点的边也存在一些属性，这里将其称为边负载(或称边的工作负载、边信息)。根据不同的应用场景，节点信息、边负载具有不同的实际意义。节点信息和边负载都可以称为图计算过程中的图数据。

举例而言：社交网络可以看成是以个人和公众号为节点，以个人对公众号的关注、点赞为边构成的图；社交网络中通过个人在网页中的浏览记录、浏览时间等信息以及个人对公众号关注、点赞的数量或频次确定公众号的受喜爱度的过程可以看作图计算中根据源节点的节点信息和边负载确定目的节点的节点信息的过程。

又如，交易网络可以看成是以个人和商品为节点，以个人对商品的购买、收藏为边构成的图。交易网络中根据商品的购买、收藏的月度增长量和月度增长变化量确定商品的年度销售目标的过程可以看作图计算中根据边负载确定目的节点的节点信息的过程。

根据一些节点的信息、节点之间的一些边的信息确定另一些节点的信息或对另一些节点的信息进行更新的过程属于一种图计算。

需要说明的是，对于图结构中的边，其包含的两个端点中的任意一个都可以作为源节点也可以作为目的节点。除非特别说明，以下实施例中均将活跃节点作为源节点，与活跃节点相对的边的另一个端点作为目的节点。

以下实施例中，以图的数据结构作为本申请提供的芯片的处理对象，应理解本申请提供的芯片还适用于堆栈(stack)、队列(queue)、数组(array)、链表(linked list)、树(tree)、堆积(heap)和(hash table)等不同组织方式的数据，本申请对此不作限制。

真实世界的自然图大多满足小世界网络的特点，因而由真实世界的自然图转化得到的图数据结构缺乏固定的结构化关系，且不同节点的出度和入度差别明显，因而针对这类图数据的图计算也缺少扩展性和局部性。

应理解，本申请提供的图数据处理方法对应的图数据结构既适用于源于真实世界的自然图，也适用于合成图，本申请对此不作限制。

以控制流为主的通用处理架构在图计算过程中通常表现出较低的每周期指令吞吐量(instruction per cycle,IPC)，即计算核心的处理计算效率较低。通过为通用处理器设置面向图应用的专用加速器(accelerator)在一定程度上可以提高通用处理器处理图结构数据的效率，而如何高效利用加速器的片上存储资源和提高片外存储带宽的利用率，以增强加速器的效用是亟需解决的问题。

图2是本申请提供的芯片的一种使用场景示意图。

中央处理单元(central process unit,CPU)21包括一个或多个处理器核，在本申请实施例CPU用于处理图数据。

芯片22又可以称为加速器(accelerator)，其可以设置一个或多个加速器内存(片外缓存)24，加速器内存用于保存需要处理的图数据。加速器包括内存控制器以及多个计算处理单元(processelement，PE)，该计算处理单元也可以称为处理引擎(process engine)。控制器用于从加速器内存中读取需要处理的图数据并将数据分发到多个计算处理单元，由多个计算处理单元对图数据结构中的数据进行处理得到处理结果。加速器将处理结果再输出到CPU，CPU可以在处理结果基础上进一步处理，得到目标结果，加速器从而可以实现对CPU处理图数据的加速。

通信通道23位于CPU和加速器之间，为CPU与加速器之间数据的传输提供通道。通信通道可以是高速串行计算机扩展总线(peripheral component interconnect express，PCIe)等。

在图数据处理过程中，CPU和加速器可以按照如下步骤执行：

S101，CPU主机程序通过通信通道将加速器内核所需的数据写入与CPU连接的加速器的全局内存中。

S102，CPU主机程序使用其输入参数设置加速器内核。

S103，CPU主机程序触发加速器内核功能的执行。

S104，加速器执行计算，同时从全局内存中读取数据。

S105，加速器将数据写回到全局内存，并通知主机数据处理已经完成。

S106，CPU主机程序将数据从全局内存读回主机内存，并继续处理。

以下实施例中，重点对S104的内容进行介绍，其余步骤不做详细描述。

图3是本申请提供的一种芯片的架构示意图。

芯片22包括预取模块221、调度模块222和处理模块223，芯片22可以配置一个或多个片外缓存24。预取模块(prefetcher)从片外缓存获取待处理数据后，由调度模块(dispatcher)进一步分配至处理模块(processor)处理，处理得到的结果再经由调度模块和预取模块返回至片外缓存。

应理解，芯片还设置输入输出接口，用于与芯片外部交换数据。例如，预取模块可以通过该接口从片外缓存中获取待处理的图数据，预取模块也可以通过该接口将处理模块的数据处理结果发送到片外缓存。

在一些实施例中，处理模块包括至少两个PE，PE与PE之间通过片上网络(network on chip，NoC)相互连接。

具体地，每个PE包括路由单元(routing unit，RU)，PE与PE之间的路由单元相互连接，并可以用于PE之间的相互通信及数据传输。

通过在多个PE之间设置相互连通的通信链路可以实现芯片上多个PE的数据共享。

在一些实施例中，PE都包括图形单元(graph unit，GU)或称计算单元或称图处理单元、路由单元和暂存单元(scratchpad,SPD)，计算单元用于处理调度模块分配的工作负载(workload)并生成更新请求。路由单元用于将计算单元的计算结果通过NoC发送至存储相对应的节点的PE的暂存单元中；暂存单元用于存储点的属性，所有PE包含的暂存单元组成处理模块缓存或者称为芯片的片上缓存，每个PE包含的暂存单元都属于片上缓存的一部分，即本申请实施例中芯片采用分布式缓存。

在一些实施例中，该处理模块可以包括N行PE，N为大于1的整数，每一行PE包括至少2个PE。

在一些实施例中，处理模块包括N*M个PE(N,M均为大于或等于1的正整数)，N*M个PE形成N行M列的阵列，位于第一行第M列的PE可以表示为PE(1,M)，位于第N行第1列的PE可以表示为PE(N,1)依次类推。以下实施例中，除非特别说明，PE(n,m)即表示第n行，第m列的PE，n,m均为大于或等于1的正整数。

预取模块用于执行预取以获取保存在片外缓存上的图数据。

在一些实施例中，预取模块包多个预取单元，每个预取单元都连接到片外存储器的一个伪通道。

在一些实施例中，预取模块包括N个预取单元(N为大于1的整数)，N个预取单元中的每一个预取单元分别与处理模块中的N行PE中的每一行PE对应。

在一些实施例中，预取单元包括点预取器(vertex prefetcher,Vpref)和边预取器(edge prefetcher,Epref)。点预取器用于获取活跃点的数据，边预取器用于预取活跃边(或称活跃点关联边)的数据。

通过预取模块，芯片可以从外部存储空间中获取数据。芯片可以从外部存储空间一次获取一个或多个图数据。

调度模块用于接收来自预取模块的图数据，并将即将被处理的工作负载分派到处理模块中。

在一些实施例中，调度模块包多个分派单元(dispatcher unit)，每一个分派单元都分别与每一个预取单元相关联，分派单元用于调度相关联的预取单元中的图数据。

在一些实施例中，分派单元包括点分派单元(vertex dispatcher unit,VDU)和边分派单元(edge dispatcher unit,EDU)。点分派单元用于分派活跃点的数据，边分派单元用于分派活跃点关联边的数据。

在一些实施例中，调度模块包括N个分派单元，每个分派单元包括点分派单元和边分派单元，点分派单元与预取模块中某一个预取单元的点预取单元相关联，用于接收相关联的点预取单元中的活跃点数据，并将活跃点数据分派到处理模块；边分派单元与预取模块中某一个预取单元的边预取单元相关联，用于接收相关联的边预取模块中的活跃点关联边的数据，并将活跃点关联边的数据分派到处理模块。

在一些实施例中，预取模块与调度模块之间设置一个或多个第一通信接口，预取模块中包含的多个预取单元与调度模块中包含的多个分派单元通过该第一通信接口进行相互数据传输。

在另一些实施例中，预取模块包含多个预取单元，调度模块包含多个分派单元，相互关联的预取单元与分派单元之间单独设置通信接口。即预取模块与调度模块之间设置多个第二通信接口，第二通信接口用于相互关联的预取单元与分派单元之间进行相互数据传输。

在一些实施例中，调度模块与处理模块之间设置一个或多个第三通信接口，调度模块中包含的多个分派单元与处理模块包含的多个PE之间通过第三通信接口进行数据传输。

在一个实施例中，芯片包括预取模块、调度模块和处理模块，处理模块包括16行16列个PE，所有PE组成PE阵列，相邻的PE之间设置有通信链路。预取模块包括16个预取单元，调度模块包括16个分派单元，16个预取单元中的每一个预取单元分别与16个分派单元中的每一个分派单元相关联。相互关联的预取单元与分派单元又与16行PE中的每一行PE向关联，用于为关联行的PE预取、分派数据。

如图4所示，为本申请实施例提供的另一种芯片架构示意图，相比于图3所示的芯片架构，本申请实施例中预取模块221中的每一个预取单元分别与片外缓存24建立通信链路，即预取模块221与片外缓存之间至少设置N条通信链路，通过该N条通信链路，每一个预取单元可以从片外缓存24中获取该预取单元所需要获取的数据。

预取模块221中的每一个预取单元还分别与调度模块222的每一个分派单元分别建立通信链路，具体的，第1行的预取单元与第1行的分派单元之间设置有通信链路，第2行的预取单元与第2行的分派单元之间设置有通信链路，第n行的预取单元与第n行的分派单元之间设置有通信链路。每一行的分派单元可以通过该通信链路向与其建立连接的预取单元获取相应活跃点的数据。

该芯片中还包括N条行总线224，该N条行总线与N行计算处理单元一一对应。具体的，第1行的行总线224与第1行的M个计算处理单元之间均设置有通信链路，第2行的行总线224与第2行的M个计算处理单元之间均设置有通信链路，第n行的行总线224与第n行的M个计算处理单元之间均设置有通信链路。行总线与计算处理单元之间不经过任何其他计算处理单元。

行总线224的远离处理单元的一端与分派单元连接，具体的，第1行的行总线224与第1行的分派单元之间设置有通信链路，第2行的行总线224与第2行的分派单元之间设置有通信链路，第n行的行总线224与第n行的分派单元之间设置有通信链路。

在一些实施例中，通过上述N条行总线，第n行的分派单元可以一次将相同的点负载或边负载分派到第n行的多个计算处理单元中。在一个实施例中，通过上述N条行总线，第n行的分派单元可以一次将相同的点负载或边负载分派到第n行的所有M个计算处理单元中。

在另一些实施例中，通过上述N条行总线，处于同一行的多个计算处理单元可以同时获取到多个待处理的数据。

需要说明的是，本申请实施例提供的架构可以在现场可编程逻辑门阵列(field programmable gate array,FPGA)的集成电路(例如：Xilinx Alveo U280FPGA)上实现，或者也可以在复杂可编程逻辑器件(complex programmable logic device，CPLD)等其他集成电路上实现，本申请对此不进行限制。

本申请实施例中运用的存储设备可以是双倍数据率同步动态随机存取存储器(double data rate synchronous dynamic random access memory，DDR SDRAM)等多种类型的存储设备。

示例性地，本申请实施例的片外缓存可以使用高带宽(high bandwidth memory，HBM)堆栈。

本申请实施例提供的芯片中，不同的PE之间直接构建了通信链路，PE与PE之间的数据传输可以直接通过PE之间的通信链路完成，无需通过集中式的分派机制进行分派，提高了芯片在进行图数据处理时的可扩展性，提高了芯片对图数据处理的处理效率，提高了芯片对存储设备高带宽的利用率，提升了芯片的性能。

此外，本申请实施例中，每一个PE只与有限的PE相连，降低了芯片的硬件复杂度。

以上结合图2至图4主要说明了本申请实施例提供的芯片的架构，以下结合图5至图10进一步说明适用于本申请提供的芯片的数据处理方法。

图5是本申请实施例提供的芯片进行图数据处理的基本流程图。

本申请实施例中芯片进行图数据处理可以分为两个阶段：分散阶段和应用阶段。其中分散阶段主要负责读取边负载、处理边负载以及生成更新负载分派至PE。应用阶段主要负责接收更新负载并更新活跃节点以便开始下一轮迭代。

S201至S203为分散阶段(scatter phase)，S204至S206为应用阶段(apply phase)。

S201，读取活跃节点和活跃边(活跃节点关联边)。

具体地，调度模块通过预取模块顺序读取活跃节点以及活跃节点关联边的数据。预取模块可以一次读取一个或多个活跃节点的数据和/或活跃节点关联边的数据。

S202，分派工作负载。

具体地，调度模块根据一定的算法分派活跃节点和活跃节点关联边的数据。例如可以根据活跃节点的节点标识来分派活跃节点的节点数据和活跃节点关联边的数据。

调度模块可以通过与之关联的行总线向计算处理单元分派活跃节点和活跃节点关联边的数据。通过行总线，芯片可以一次向同一行的多个计算处理单元分派同一个图数据，也可以一次向同一行的多个计算处理单元分派多个不同的图数据。

S203，处理工作负载。

在一些实施例中，当前PE为更新目的节点的节点信息的PE，则该PE在本地的SPD中保存更新负载。

在另一些实施例中，当前PE不是更新目的节点的节点信息的PE，则该PE将更新负载通过RU发送至负责更新目的节点的节点信息的PE的RU中。

可选地，当用于更新同一目的节点的一个或多个更新负载在路由至负责更新目的节点的节点信息的PE过程中同时路由至任一RU，则该RU对该一个或多个更新负载执行规约操作。

S204，更新(应用)节点属性。

具体地，PE的SPD对与本地存储的每一个点执行应用(apply)函数，并将结果发送至GU。

需要说明的是，这里应用函数可以是用户自定义的函数，也可以是通过其他方式确定的，该应用函数用于计算本轮迭代后节点信息的更新结果。

S205，读取节点属性更新的结果。

GU将SPD发送的处理结果与节点信息上一轮迭代的结果进行比较，并将产出更新的节点信息发送至调度模块。

S206，生成下一轮迭代的活跃点，并将下一轮迭代的活跃点写回片外缓存。

具体地，调度模块将本轮迭代中进行更新的节点作为下一轮迭代的活跃节点，并将一个或多个活跃节点的信息写回片外缓存，从而开启下一轮迭代。

图6为本申请提供的一种芯片进行图数据处理的处理方法示意图。

在本申请实施例中，芯片根据边负载包含的源节点对边负载进行分派，PE对目的节点的节点信息在本地进行更新。

如图6所示，节点1为活跃节点，节点3、节点4和节点8为节点1的相邻节点。本轮迭代用于对节点1的相邻节点的节点信息进行更新，节点1又可以称为源节点，节点3、节点4和节点8又可以称为目的节点(即需要更新节点信息的节点)。节点1和节点4之间通过边a连接，节点1和节点3之间通过边b连接，节点1和节点8之间通过边c连接，这里边a、边b和边c可以称为活跃边或者活跃点关联边。

在执行图数据处理前，芯片可以执行初始化操作，该初始化操作可以确定芯片对图数据处理的第一轮迭代的一个或多个活跃点，可选地，初始化操作还可以确定第一轮迭代的一个或多个活跃点的节点信息。

在一些实施例中，初始化操作有CPU执行。

在分散阶段，

对于边a、边b和边c，这三条边拥有相同的源节点，芯片可以从片外缓存中分别读取边a、边b和边c的边工作负载(以下简称边负载)E1、E2和E3，并根据三条边相同的源节点，将三条边负载发送至已经保存了节点1的节点信息的PE(1,1)。

PE(1,1)接收到三条边的边负载后会对边负载进行处理。

在一些实施例中，PE(1,1)根据边负载确定每一个边负载的目的节点，并将边负载通过RU路由到保存目的节点的节点信息的PE。

可选地，PE(1,1)还将节点1的节点信息路由至保存目的节点的节点信息的PE。

示例性地，PE(1,1)根据边a的边负载E1确定该边负载的目的节点为节点4，PE(1,1)将该边负载E1和/或节点1的节点信息路由至P(2,1)，即保存节点4的节点信息的PE。

边b和边c对应负载的处理过程与边a的处理过程类似，详细可以参考边a的处理过程，边b的边负载E2会路由至PE(1,2)，边c的边负载会路由至PE(3,2)。

如图6所示，分散阶段中，PE(1,1)与PE(1,2)之间、PE(1,2)与PE(1,3)之间、PE(1,1)与PE(2,1)之间、PE(1,2)与PE(2,2)之间以及PE(2,2)与PE(3,2)之间连接的箭头示意性地表示了边负载、节点信息在PE之间路由的过程。

在应用阶段，保存目的节点的节点信息的PE接收包含目的节点的边负载后，对目的节点的节点信息进行更新。

在一些实施例中，保存目的节点的节点信息的PE根据以下信息中的一项或多项更新目的节点的节点信息：边负载、源节点的节点信息或目的节点当前的节点信息。

应理解，对于复杂的图结构，确定图中节点的节点信息的往往是通过多轮的迭代完成的，因而在迭代过程中可能会多次对某一节点的节点信息进行更新。目的节点当前的节点信息是指在本轮迭代完成前或者上一轮迭代结束时，目的节点的节点信息。

这里，节点信息的更新方法可以是芯片根据应用场景确定的，也可以是芯片的用户预先设定好的。

示例性地，芯片可以预先配置如下算法中的一种或多种，并根据预先配置的算法执行应用过程：网页排名(page rank)算法、广度优先(breadth first search，BFS)算法、单源最短路径(single source shortest path，SSSP)算法或协同过滤(collaborative filtering，CF)算法。

在一些实施例中，芯片根据其预配置的节点信息更新方法，确定更新节点信息所需的信息，进而再根据该预配置的节点信息更新方法更新目的节点的节点信息。

示例性地，芯片根据源节点的节点信息确定当前处理的图数据的场景，进而确定节点信息的更新方法。在另一些实施例中，保存目的节点的节点信息的PE接收多个具有相同目的节点的边负载，该PE根据多个边负载更新目的节点的节点信息。

在一轮迭代过程中，芯片中的多个PE保存的节点信息中的一个或多个会进行更新，PE可以通过将一轮迭代过程的处理结果与更新前的节点信息进行比较，对于本轮迭代过程中产生了更新的节点信息发送至调度模块。调度模块可以根据本轮迭代获取的节点信息确定下一轮迭代的活跃节点，并将新的一个或多个活跃节点写回片外缓存中并触发下一轮迭代过程。

示例性地，节点3、节点4和节点8为本轮更新节点信息的节点，调度模块会将这些节点的标识返回至片外缓存，作为下一轮迭代的活跃节点。

本申请实施例中，应用阶段中每个PE更新本地存储的节点的节点信息，无需将节点信息路由至其他PE，因而减少了应用阶段中不同PE之间的通信开销。

图7为本申请提供的另一种芯片进行图数据处理的处理方法示意图。

在本申请实施例中，芯片根据边负载包含的目的节点对边负载进行分派，芯片包含的所有PE中均保存了可能用到的节点的节点信息，在一轮迭代结束时对所有PE中保存的可能用到的节点的节点信息进行更新。

图7所示数据处理方法中处理的图数据结构与图6中所示的图数据结构一致，相关描述可以参考图6所示实施例的内容，此处不做赘述。

在一些实施例中，初始化操作有CPU执行。

在分散阶段，

对于边a、边b和边c，芯片可以从片外缓存中分别读取边a、边b和边c的边负载E ₁、E ₂和E ₃，并根据边a的目的节点为节点4，边b的目的节点为节点3，边c的目的节点为节点8，分别将边a、边b和边c的边负载分派到保存节点4的节点信息的PE(2,1)、保存节点3的节点信息的PE(1,3)和保存节点8的节点信息的PE(3,2)。

以边a为例，PE(2,1)本地保存了边a的源节点1的节点信息的副本V _1R，当PE(2,1)接收到边负载E ₁，PE(2,1)可以根据已经获取的V _1R、边负载E ₁或目的节点当前的节点信息V ₄中的一项或多项更新节点4的节点信息。

边b和边c对应负载的处理过程与边a的处理过程类似，详细可以参考边a的处理过程，PE(1,3)和PE(3,2)同样也会更新节点3和节点8的节点信息。

可选地，芯片根据其预配置的节点信息更新方法，确定更新节点信息所需的信息，进而再根据该预配置的节点信息更新方法更新目的节点的节点信息。

这里，节点信息的更新方法可以是芯片根据应用场景确定的，也可以是芯片的用户预先设定好的一个或多个更新方法中的一种。

示例性地，芯片根据其预配置的节点信息更新方法，确定更新节点信息所需的信息，进而再根据该预配置的节点信息更新方法更新目的节点的节点信息。

示例性地，芯片根据源节点的节点信息确定当前处理的图数据的场景，进而确定节点信息的更新方法。

在另一些实施例中，保存目的节点的节点信息的PE接收多个具有相同目的节点的边负载，该PE根据多个边负载更新目的节点的节点信息。

示例性地，节点3、节点4和节点8为本轮更新节点信息的节点，调度模块会将这些节点的节点标识返回至片外缓存，作为下一轮迭代的活跃节点。

在一些实施例中，一轮迭代结束时，由于部分节点的节点信息已经进行了更新，保存在所有PE的各个节点的节点信息的副本(如V _1R)也需要进行更新。芯片将已经更新的节点信息路由至各个可能用到该节点信息的PE。

示例性地，节点4的节点信息发生了更新，保存节点4的节点信息的PE(2,1)会将节点4更新后的节点信息V ₄分别路由至PE(1,1)、PE(1,3)和PE(3,2)。节点3的节点信息发生了更新，保存节点3的节点信息的PE(1,3)会将节点3更新后的节点信息V ₃分别路由至PE(1,1)、PE(2,1)和PE(3,2)。

图7中应用阶段不同PE之间的连接的箭头示意性地标识了更新了节点信息的PE将更新后的节点信息路由至其他PE的过程。

本申请实施例中，由于所有节点都保留了源节点的节点信息的副本，在对目的节点进行节点信息更新时，无需再由保存源节点的节点信息的PE将源节点的节点信息路由至目的节点，减少了分散阶段的PE间的通信开销。

图8为本申请提供的又一种芯片进行图数据处理的处理方法示意图。

在本申请实施例中，芯片在分派负载的将边负载的源节点的节点信息分派至源节点所在行的所有PE，并将边负载分派至源节点所在行的一个或多个PE。

图8所示数据处理方法中处理的图数据结构与图8中所示的图数据结构一致，相关描述可以参考图6所示实施例的内容，此处不做赘述。

在一些实施例中，初始化操作有CPU执行。

在分散阶段，对于边a、边b和边c的边负载，调度模块在分派边负载的同时会将边a、边b和边c共有的源节点节点1的节点信息V ₁分派至PE(1,1)同一行的所有PE中，PE(1,2)和PE(1,3)可以接收到本轮迭代中源节点的节点信息V ₁。

在另一些实施例中，调度模块在分派边负载的同时也可以将源节点节点1的节点信息V ₁分派至PE(1,1)同一列的所有PE中，PE(2,1)和PE(3,1)可以接收到本轮迭代中源节点的节点信息V ₁。

在一些实施例中，调度模块根据目的节点所在列的先后排序依次分派边负载至PE(1,1)同一行的其他PE，即将边a的边负载E ₁分派至PE(1,1)，将边c的边负载E ₃分派至PE(1,2)，将边b的边负载E ₂分派至PE(1,3)。

示例性地，边c的目的节点为节点8，通过计算得到节点8位于第2列，调度模块将边c的边负载E ₃分派到第1行第2列的PE，即PE(1,2)。

在另一些实施例中，调度模块根据目的节点所在行的先后排序依次分派边负载至PE同一列的其他PE，即将边a的边负载E ₁分派至PE(1,1)，将边b的边负载E ₂分派至PE(1,1)，将边c的负载E ₃分派至PE(3,1)。

在一些实施例中，边a、边b和边c在片外缓存在按照目的节点进行分类存放，调度模块在预取边负载数据时，读取边负载的源节点，如果不是当前源节点则重新取该列的下一个边负载。

在一些实施例中，当接收到边负载和源节点的节点信息，PE会获取边负载的目的节点，并在同一列中寻找保存该目的节点的节点信息的PE。

示例性地，PE(1,2)在接收到边负载E ₃时，获取边负载E ₃的目的节点为节点8，在确定PE(1,2)保存的节点信息不是节点8后，在第2列中找到保存节点8的节点信息的PE(3,2)，进而将源节点信息V ₁和边负载E ₃发送至PE(3,2)。

在一些实施例中，保存目的节点信息的PE为当前PE(例如V ₃)，则当前PE根据源节点的节点信息、边负载或目的节点当前的节点信息中的一项或多项更新保存的目的节点的节点信息。

在另一些实施例中，保存目的节点信息的PE不是当前PE(例如V ₁和V ₂)，当前PE会将源节点的节点信息和/或边负载路由至保存目的节点的节点信息的PE，接收源节点的节点信息和/或边负载后，保存目的节点的节点信息的PE会根据源节点的节点信息、边信息或目的节点当前的节点信息中的一项或多项更新保存的目的节点的节点信息。

示例性地，节点3、节点4和节点8为本轮更新节点信息的节点，调度模块可以将节点3、节点4和节点8中的一个或多个作为下一轮迭代的活跃点，进而从片外缓存中获取活跃点的关联边作为下一轮的迭代的边负载。例如，调度模块将节点3作为下一轮迭代的活跃点，进而从片外缓存中获取节点3的关联边作为下一轮迭代的边负载。

本申请实施例中，芯片通过将边负载分派至与源节点同一行的PE，可以使边负载只在同一列内路由，有利于减少分散阶段边负载在列之间的路由，减少了分散阶段PE之间的通信开销。在应用阶段，通过调度模块将源节点的节点信息分派到源节点同一行的所有PE，应用阶段保存目的节点的节点信息的PE更新目的节点的节点信息时只需在当前列内路由源节点的节点信息，有利于减少应用阶段源节点的节点信息在列之间路由，减少了应用阶段PE之间的通信开销。

图9为本申请提供的又一种芯片进行图数据处理的处理方法示意图。

规约(reduce)函数主要用于对数据处理的中间结果进行一定的合并处理，从而减少数据处理过程中产生的通信开销。在图处理模型中的规约函数能够满足交换律和结合律。以下以图6所示的图数据结构为例，首先简单介绍图数据处理过程中的交换律和结合律。

在某一轮迭代中，节点3和节点4均为活跃节点，节点3和节点4都需要对节点5的节点信息进行更新。这种情况下交换律体现为：对节点5进行节点信息的更新，既可以先根据节点3进行更新也可以先根据节点4进行更新，即本轮迭代结束时节点5的节点信息与节点3对节点5进行信息更新和节点4对节点5进行信息更新的先后顺序无关。

在某一轮迭代中，节点1、节点4和节点8均为活跃节点，节点1、节点4和节点8都需要对节点3的节点信息进行更新。这种情况下结合律体现为：对节点3进行节点信息的更新，既可以先根据节点1和节点4对节点3的节点信息进行更新，再根据节点8对节点3的节点信息进行更新；或者也可以先根据节点8和节点1对节点3的节点信息进行更新，再根据节点4对节点3的节点信息进行更新。也就是说，当存在两个以上的活跃节点对同一目的节点进行节点信息的更新时，可以将其中任意两个或两个以上的活跃点对目的节点节点信息更新结果进行结合，再进一步与其它活跃节点对目的节点的节点信息更新计算，该过程不影响目的节点本轮迭代结束时的节点信息。

以下仅以规约函数为例说明图9所示的数据处理方法，应理解，在图处理模型中满足交换律和结合律的其他函数也适用于本申请实施例提供的数据处理方法。

还应理解，出于清楚、简洁的目的，图9中的实施例是以图8所示的数据处理流程为基础说明的，本申请实施例提供的数据处理方法不仅适用于图8所示的数据处理流程，还适用于图6和图7所示的以及其他数据处理流程，此处并未一一列出。

图9中的(a)示例性地给出了本申请实施例提供的一种PE的RU的架构图，RU包括至少一组输入输出接口，用于RU从RU以外(如其他PE或调度模块)接收数据以及RU向外部发送数据。RU可以设置4个阶段(stage)，每个阶段均包含4个寄存器(register,Reg)和一个规约单元(reduce unit)，其中寄存器用于存储更新负载，规约单元用于执行规约函数相应的操作。位于同一管线的一组寄存器中，相邻阶段的两个寄存器之间都可以实现通信。

每次更新节点信息时，阶段1的某个寄存器会通过输入接口接收一个更新负载。如果该寄存器为空，则该寄存器保存该更新负载。如果寄存器不为空且寄存器中的负载与接收到的负载更新的节点相同则执行规约函数后保存新值；如果寄存器不为空且寄存器中的负载与接收到的负载更新的节点不同则该寄存器将该负载发送到下一阶段的寄存器中，直到该负载与更新的节点相同的负载进行规约操作或者该负载被存入空的寄存器。

在完成上述负载处理后，阶段1中的某个寄存器会将保存的负载值或者执行规约后的负载的值发送至其他PE中。

这里需要说明的是，阶段1中接收负载的寄存器和发送负载的寄存器可以不为同一个寄存器。

还需说明的是，本申请提供的芯片的PE包含的RU，还可以包含更多的或者更少的寄存器，也可以包含更多的或者更少的规约单元，不同寄存器之间也可以设置更多的通信链路，图9中的(a)所示的RU的架构图对此并不构成限定。

示例性地，图9中的(b)给出了RU读写负载的过程，其中V ₁、V ₂、V ₃和V′ ₃用于指示存储中寄存器中的节点1、节点2、节点3以及规约后的节点3的负载，第一行第一列的寄存器可以表示为Reg(1,1)，第二行第二列的寄存器可以表示为Reg(2,2)，依此类推。

在向寄存器中写入负载阶段，Reg(1,1)和Reg(2,1)分别存储了更新V ₁和V ₃的负载，Reg(1,2)存储了更新V ₂的负载。当RU的输入端口接收到一个新的更新V ₃的负载，根据更新负载的序号和管线的数量，RU将该负载发送到第一列(通过将更新负载的序号对管线的数量取余，所得余数即为负载应发送到的列的序号)。RU通过比较Reg(1,1)中已经保存的更新负载的序号与该负载的序号，确定将该负载发送至下一阶段，即第二行第一列的寄存器Reg(2,1)。

Reg(2,1)接收到该负载，RU将第二行第一列的寄存器已经保存的负载更新节点的序号与该负载的序号进行比较，确定为该寄存器中已经保存的更新V ₃的负载与新接收的更新的V ₃负载执行规约操作，该规约操作由规约单元执行，完成规约操作后，规约单元将处理后得到的更新节点3的负载V′ ₃写入到寄存器中。

在从寄存器中读取负载时，以读取节点1的更新负载V ₁为例，RU将节点1的更新负载V ₁发送至RU的输出端口，进而路由至其他PE。RU将与V ₁位于同一管线阶段2的寄存器Reg(2,1)保存的节点负载V′ ₃发送至寄存器Reg(1,1)中。

需要说明的是，图9所示中的RU可以是保存目的节点的节点信息的PE的RU，也可以是芯片包含的任一个PE的RU。

本申请实施例中，通过RU将用于更新同一目的节点的负载在路由过程中进行规约操作，有利于减少更新节点的负载在PE之间传输的总量，即有利于减少PE之间的通信总量，有利于减少芯片的通信开销。

此外，对于图8所示的实施例，负载在列内路由的情况，更新同一节点的负载路由至同一RU的机率提高，由RU执行规约操作的机率因此提高，更有利于减少PE之间的通信总量，更有利于减少芯片的通信开销。

图10为本申请提供的芯片进行图数据处理的又一种处理方法示意图。

在本申请实施例中，芯片中PE(1,1)保存节点1的节点信息V ₁，PE(1,2)保存节点2的节点信息V ₂，PE(2,1)保存节点3的节点信息V ₃。

在第1轮迭代中，应用阶段V ₁的节点信息完成更新后，PE(1,1)立即将V ₁的信息发送至调度模块，调度模块通过对比V ₁本轮更新前的节点信息和获取的节点信息确定V ₁的节点信息在本轮迭代中发生了更新，并将V ₁作为下一轮迭代的活跃点。调度模块进一步通过预取模块获取与V ₁的关联边的边负载，并将获取的边负载发送至PE，用于触发PE(1,1)的下一轮迭代。

在一些实施例中，在本轮迭代中调度模块保存节点1的节点信息。

具体地，调度模块获取V ₁关联边的边负载，并根据该边负载确定其源节点为节点1，进而将该边负载分派至与保存节点1的节点信息的PE(1,1)同一行所有PE，即PE(1,1)和PE(1,2)。

在另一些实施例中，调度模块也可以将节点1的关联边的边负载分派至保存节点1的节点信息的PE(1,1)。

可选地，调度模块还可以将节点1的节点信息分派至保存节点1的节点信息的PE(1,1)同一行所有PE。

类似地，PE(1,2)在完成节点2的节点信息更新后可以立即请求触发下一轮迭代，开始下一轮迭代的分散阶段。PE(2,1)在完成节点3的节点信息更新后可以立即请求触发下一轮迭代，开始下一轮迭代的分散阶段。

在本申请实施例中，保存某一节点信息的PE在执行完应用阶段，完成该节点信息的更新后直接向调度模块请求触发下一轮的迭代，无需等待芯片中的所有PE的本轮迭代全部完成再触发下一轮迭代，有利于减少PE的空转时间，有利于提高芯片中负载的均衡度，有利于提高芯片对图数据处理的效率。

基于相同的发明构思，本申请实施例还提供一种芯片，该芯片可以用于实现如图5至图10中任一种图数据的处理方法。

如图11所示，本申请实施例还提供一种图数据处理装置1100，该图数据处理装置1100可以包括获取单元1110，该获取单元1110用于执行从片外缓存中获取图数据等如图5至图10中预取模块执行的获取动作；

该图数据处理装置1100还可以包括分派单元1120，该分派单元1120用于执行节点信息的分派、调度等如图5至图10中调度模块执行的分派动作；

该图数据处理装置1100还可以包括处理单元1130，该处理单元1130用于执行节点负载的计算等如图5至图10中处理模块执行的处理动作；该处理单元1130还可以包括图处理子单元、路由子单元和存储子单元，其中，处理子单元用于执行如图5至图10中PE执行的数据处理等动作，路由子单元用于执行如图5至图10中更新负载的规约、路由等动作，存储子单元用于执行如图5至图10中存储节点信息等动作。

该图数据处理装置1100还可以包括行总线1140，该行总线1140与每一行的处理模块对应，该行总线与对应行的每一个处理模块之间设置有单独的通信链路，该通信链路中不经过任何其他处理单元，分派单元可以通过该行总线向处理单元分派待处理的数据。

本申请实施例还提供一种芯片组，该芯片组包括处理器和芯片，该芯片组可以用于实现如图5至图10中任一种图数据的处理方法。

本申请实施例还提供一种电子设备，该电子设备包括芯片或芯片组，该电子设备可以用于实现如图5至图10中任一种图数据的处理方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序代码，当计算机程序代码在计算机上运行时，如图5至图10中任一种图数据的处理方法被执行。

本申请实施例还提供一种计算机可读存储介质，该计算即存储介质中存储计算机指令，当计算机指令在计算机上运行时，使得如图5至图10中任一种图数据的处理方法被执行。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种图数据处理的方法，其特征在于，所述方法应用于芯片，所述芯片包括N行处理引擎PE，N个行总线；其中，所述N个行总线与所述N行PE相对应；N为大于1的整数，每一行PE包括至少2个PE；所述方法包括：

获取第一图数据和第二图数据；

确定所述第一图数据和所述第二图数据需要存储的目标行PE；所述目标行PE为所述N行PE中的一行PE，所述目标行PE包括第一PE和第二PE；

确定所述目标行PE对应的目标行总线；所述目标行总线与所述第一PE通过第一通信链路连接；所述目标行总线与所述第二PE通过第二通信链路连接；所述第一通信链路和所述第二通信链路不经过任何PE；

通过所述目标行总线将所述第一图数据通过所述第一通信链路传输给所述第一PE；通过所述目标行总线将所述第二图数据通过所述第二通信链路传输给所述第二PE。
根据权利要求1所述的方法，其特征在于，所述方法还包括：通过所述目标行总线将所述第一图数据通过所述第二通信链路传输给所述第二PE。
根据权利要求1或2所述的方法，其特征在于，所述N行PE还包括第三PE和第四PE，所述方法还包括：

所述第一PE基于所述第一图数据计算得到第一计算结果；所述第二PE基于所述第二图数据计算得到第二计算结果；

所述第三PE对所述第一计算结果和所述第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE，所述第四PE为所述第一计算结果和所述第二计算结果的目的PE。
根据权利要求3所述的方法，其特征在于，所述N行PE的每个PE中均包含图处理单元，所述第一PE基于所述第一图数据计算得到第一计算结果，包括：所述第一PE的图处理单元基于所述第一图数据计算得到所述第一计算结果；

所述第二PE基于所述第二图数据计算得到第二计算结果，包括：所述第二PE的图处理单元基于所述第二图数据计算得到所述第二计算结果。
根据权利要求3或4所述的方法，其特征在于，所述N行PE的每个PE中均包含路由单元，所述第三PE对所述第一计算结果和所述第二计算结果进行规约处理，并将规约处理后的结果传输至第四PE，包括：

所述第三PE的路由单元对所述第一计算结果和所述第二计算结果进行规约处理，并将规约处理后的结果传输至所述第四PE。
根据权利要求1至5中任一项所述的方法，其特征在于，所述N行PE的每个PE中均包含缓存，所述方法还包括：

所述第一PE保存所述第一图数据至所述第一PE的缓存中，所述第二PE保存所述第二图数据至所述第二PE的缓存中。
根据权利要求1至6中任一项所述的方法，其特征在于，所述N行PE还包括第五PE，所述方法还包括：

所述第五PE对第三处理结果和第四处理结果执行规约处理，所述第三处理结果和所述第四处理结果用于更新同一个图数据。
根据权利要求1至7中任一项所述的方法，其特征在于，所述N行PE组成N行M列的PE阵列，M为大于1的整数。
根据权利要求1至8中任一项所述的方法，其特征在于，所述N行PE包含的所有PE中，相邻PE之间设置有PE通信链路，所述PE通信链路用于实现PE之间的数据共享。
根据权利要求2所述的方法，其特征在于，所述第一图数据为源节点的节点信息，所述方法还包括：

获取第三图数据，所述第三图数据为所述源节点的关联边的边负载；

通过所述第二通信链路将所述第三图数据发送至所述第二PE；

所述第二PE根据所述第一图数据和所述第三图数据计算目的节点的更新负载，所述更新负载用于更新所述目的节点的节点信息。
根据权利要求10所述的方法，其特征在于，所述方法还包括：

当所述芯片更新完所述目的节点的节点信息时，所述芯片获取所述目的节点的关联边的边负载，所述目的节点的关联边与所述源节点的关联边不同。
一种图数据处理装置，其特征在于，包括：

获取单元，用于获取第一图数据和第二图数据；

N行处理单元，用于处理所述第一图数据和所述第二图数据，N为大于1的整数，每一行处理单元包括至少2个处理单元；

N个行总线，所述N个行总线与所述N行处理单元相对应；

分派单元，用于确定所述第一图数据和所述第二图数据需要存储的目标行处理单元；所述目标行处理单元为所述N行处理单元中的一行处理单元，所述目标行处理单元包括第一处理单元和第二处理单元；

所述分派单元，还用于确定所述目标行处理单元对应的目标行总线；所述目标行总线与所述第一处理单元通过第一通信链路连接；所述目标行总线与所述第二处理单元通过第二通信链路连接；所述第一通信链路和所述第二通信链路不经过任何处理单元；

所述分派单元，还用于通过所述目标行总线将所述第一图数据通过所述第一通信链路传输给所述第一处理单元；通过所述目标行总线将所述第二图数据通过所述第二通信链路传输给所述第二处理单元。
根据权利要求12所述的图数据处理装置，其特征在于，所述分派单元还用于，通过所述目标行总线将所述第一图数据通过所述第二通信链路传输给所述第二处理单元。
根据权利要求12或13所述的图数据处理装置，其特征在于，所述N行处理单元还包括第三处理单元和第四处理单元，

所述第一处理单元，用于基于所述第一图数据计算得到第一计算结果；

所述第二处理单元，用于基于所述第二图数据计算得到第二计算结果；

所述第三处理单元，用于对所述第一计算结果和所述第二计算结果进行规约处理，并将规约处理后的结果传输至第四处理单元，所述第四处理单元为所述第一计算结果和所述第二计算结果的目的处理单元。
根据权利要求14所述的图数据处理装置，其特征在于，所述N行处理单元的每个处理单元中均包含图处理子单元，

所述第一处理单元的图处理子单元，用于基于所述第一图数据计算得到所述第一计算结果；

所述第二处理单元的图处理子单元，用于基于所述第二图数据计算得到所述第二计算结果。
根据权利要求12至15中任一项所述的图数据处理装置，其特征在于，所述N行处理单元的每个处理单元中均包含路由子单元，

所述第三处理单元的路由子单元，用于对所述第一计算结果和所述第二计算结果进行规约处理，并将规约处理后的结果传输至所述第四处理单元。
根据权利要求12至16中任一项所述的图数据处理装置，其特征在于，所述N行处理单元的每个处理单元中均包含存储子单元，

所述第一处理单元，还用于保存所述第一图数据至所述第一处理单元的存储子单元中；

所述第二处理单元，还用于保存所述第二图数据至所述第二处理单元的存储子单元中。
根据权利要求12至17中任一项所述的图数据处理装置，其特征在于，所述N行处理单元还包括第五处理单元，

所述第五处理单元，用于对第三处理结果和第四处理结果执行规约处理，所述第三处理结果和所述第四处理结果用于更新同一个图数据。
根据权利要求12至18中任一项所述的图数据处理装置，其特征在于，所述N行处理单元组成N行M列的处理单元阵列，M为大于1的整数。
根据权利要求12至19中任一项所述的图数据处理装置，其特征在于，所述N行处理单元包含的所有处理单元中，相邻处理单元之间设置有处理单元通信链路，所述处理单元通信链路用于实现处理单元之间的数据共享。
根据权利要求13所述的图数据处理装置，其特征在于，所述第一图数据为源节点的节点信息，

所述获取单元，还用于获取第三图数据，所述第三图数据为所述源节点的关联边的边负载；

所述分派单元，还用于通过所述第二通信链路将所述第三图数据发送至所述第二处理单元；

所述第二处理单元，还用于根据所述第一图数据和所述第三图数据计算目的节点的更新负载，所述更新负载用于更新所述目的节点的节点信息。
根据权利要求21所述的图数据处理装置，其特征在于，当所述图数据处理装置更新完所述目的节点的节点信息时，所述获取单元还用于，获取所述目的节点的关联边的边负载，所述目的节点的关联边与所述源节点的关联边不同。
一种芯片，其特征在于，包括：处理器，用于读取存储器中存储的指令，当所述处理器执行所述指令时，使得所述芯片实现上述权利要求1至11中任一项所述的方法。
一种电子设备，其特征在于，包括权利要求12所述的芯片。
一种计算机程序产品，其特征在于，所述计算机程序产品中包括计算机程序代码，当所述计算机程序代码在计算机上运行时，权利要求1至11中任一项所述的方法被执行。
一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机执行时，以使得实现权利要求1至11中任一项所述的方法。