WO2021217502A1

WO2021217502A1 - 一种计算架构

Info

Publication number: WO2021217502A1
Application number: PCT/CN2020/087814
Authority: WO
Inventors: 夏天; 任鹏举; 赵浩然; 李泽华; 赵文哲; 郑南宁
Original assignee: 西安交通大学
Priority date: 2020-04-27
Filing date: 2020-04-29
Publication date: 2021-11-04
Also published as: CN111522776A; CN111522776B; US11886347B2; US20220350745A1

Abstract

一种计算架构，包括：片下存储器、片上缓存单元、预取单元、全局调度器、发射单元、预重组网络、后重组网络、主计算阵列、写回缓存单元、数据依赖控制器和辅助计算阵列。本架构通过预取的方式将数据块读入片上缓存中，并按照数据区块进行计算；区块的计算过程中采用区块交换网络来重组数据结构，并设置数据依赖模块来处理不同区块之间可能存在的数据依赖关系。该计算架构能够提高数据利用率、提升数据处理灵活度、从而降低Cache Miss、降低内存带宽压力。

Description

一种计算架构

技术领域

本公开属于一种处理大规模数据技术领域，特别涉及一种计算架构。

背景技术

大规模线性方程组求解和矩阵运算是现代科学计算和工程计算中最为关键的运算之一。目前这类运算主要依赖高性能的线性代数库，如GPU平台的CUBLAS，和CPU平台的Linear Algebra Package(LAPACK)和Intel Math Kernel Library(MKL)等计算库。这类计算库中均普遍采用基于LU分解的矩阵求逆和方程组求解算法，并使用高并行度运算单元的Single Instruction Multiple Data(SIMD)风格进行实现，以求最大化实现数据处理的并行化。然而，对于大规模问题，运算数据无法完全存储在片上缓存中(如多级Cache)，因此需要进行片上存储与片外存储(如DDR内存)之间的数据搬运。例如，对于4096x 4096大小的单精度浮点矩阵，其数据量为64MB，远大于片上存储所能负担的开销。与此同时，方程组求解和矩阵运算问题中对数据的访问特点为：1)数据局部性差、2)数据访问模式不规则、3)数据结构需要在线随机重组。在处理数据规模很大时，以上特点对CUBLAS和MKL等传统高性能计算库造成了巨大的压力。具体地说，这类计算库在处理大规模的方程组求解和矩阵运算时，会不可避免地出现Cache Miss频繁和计算效率低下的问题。此时极低的Cache利用率和有限的内存带宽成为限制性能的主要瓶颈，严重制约了整体的计算性能。

发明内容

为了解决上述问题，本公开提供了一种计算架构，包括：片下存储器、片上缓存单元、发射单元、预重组网络、后重组网络、主计算阵列、数据依赖控制器和全局调度器；其中，

片下存储器，用于以区块格式存储全部的大规模的数据，其中，所述大规模的数据被划分为多个大小相等的区块；

片上缓存单元，用于存储部分的待计算区块的数据以及计算所需的依赖数据；

发射单元，用于根据所述的调度算法所指定的顺序，由片上缓存单元中读取相应的区块的数据并发送给预重组网络；

主计算阵列，用于完成主要的区块的数据的计算；

预重组网络，用于在区块的数据计算前对区块的数据进行任意数据重组；

后重组网络，用于在区块的数据计算后对区块的数据进行任意数据重组；

数据依赖控制器，用于处理区块的数据之间的数据依赖关系；

全局调度器，用于执行预设的调度算法，控制区块的数据的预取、发射、计算、数据重组、和数据依赖关系处理；上述技术方案，通过改变矩阵运算的数据存储方式和计算策略来提升访存的局部性，同时通过增加多功能的数据通路来动态完成数据重组，降低非规则化的数据结构和数据重排对计算效率产生的影响，最大限度地提升片上缓存和计算单元的利用率，提升计算速度。

通过上述技术方案，该计算架构能够提高数据利用率、提升数据处理灵活度、从而降低Cache Miss、降低内存带宽压力。该技术方案所带来的有益效果具体体现在如下三个方面：

第一、将大规模矩阵划分为多个区块(tile)，区块作为矩阵运算的最小粒度数据。每个区块的数据在内存中连续存储，因此可以有效提高cache的利用率。除此之外，通过构建相应的算法，可以实现对区块的多次复用，从而进一步提升了cache的利用率，减轻内存带宽造成的性能瓶颈。

第二、允许多个区块在数据通路中完成灵活的数据重组和交换，从而可以根据计算需求进行数据结构重组，使其可以最大限度满足计算阵列的计算需求，和存储单元的格式需求。例如，区块数据可以针对计算阵列的部署进行排列，从而使计算阵列的效率达到最高。除此之外，通过支持多个区块之间的数据交换和重组，可以高效完成矩阵中的任意全局行列交换，且这一操作是在数据传输途中完成的，并不消耗额外的存储空间和延迟，因此有效提升了矩阵中随机行列交换的效率。理论上任何全局的矩阵重组都可以通过有限次的区块内和区块间的数据重组完成。这样就极大提升了计算系统对不规则矩阵操作的可扩展性和适应性。

第三、根据矩阵运算中的区块依赖关系完成计算的优化调度，实现区块处理的高复用率，进一步提升了cache利用率，可以很好的适配已有矩阵算法。高复用率是提升计算性能的关键，而对于多次迭代的矩阵算法而言，数据的局部性通常较弱，这是因为每次迭代之间一般存在全局的数据依赖关系，因此难以实现局部数据的重复迭代使用，这就会直接导致片上与片下的数据搬运会成为关键瓶颈。本技术方案会分析各个区块在不同迭代之间的依赖关系，并通过区块分组的方式实现符合依赖关系的最大复用率，确保了分块后的矩阵运算具有良好的数据局部性。

附图说明

图1是本公开一个实施例中所提供的一种计算架构的结构示意图；

图2(a)至图2(c)是本公开一个实施例中原始矩阵的区块划分、区块分组，以及各个区块的数据在片下存储中的分布图；

图3是本公开一个实施例中多个区块在经过预重组网络后所产生的变化图；

图4是本公开一个实施例中主计算阵列的操作数输入和结果输出图；

图5(a)至图5(d)是本公开一个实施例中产生数据依赖的示例图；

图6是本公开一个实施例中区块组之间的依赖关系图；

图7是本公开一个实施例中所提供的另一种计算架构的结构示意图；

图8是本公开一个实施例中区块的整体计算流程的流程示意图；

图9是本公开一个实施例中根据区块依赖关系划分的生产者-消费者区块组示意图；

图10是本公开一个实施例中数据依赖控制器的工作流程示意图；

图11是本公开一个实施例中BENES数据交换网络结构示意图；

图12是本公开一个实施例中数据重组网络模块的工作流程示例图；

图13是本公开一个实施例中矩阵全局数据重组示意图；

图14是本公开一个实施例中基于GJE的矩阵求逆计算中的区块依赖关系示意图；

图15是本公开一个实施例中矩阵求逆完整计算流程图；

图16是本公开一个实施例中本架构相比于其他计算平台的矩阵求逆运算加速比对照图；

图17是本公开一个实施例中本架构相比于其他计算平台的线性方程组求解运算加速比对照图。

具体实施方式

在一个实施例中，如图1所示，公开了提供了一种计算架构，包括：片下存储器、片上缓存单元、发射单元、预重组网络、后重组网络、主计算阵列、数据依赖控制器和全局调度器；其中，

主计算阵列，用于完成主要的区块的数据的计算；

就该实施例而言，片下存储器，用于以区块格式存储全部的大规模的数据。片下存储设备为大容量存储设备，例如DDR，这类设备的特点是访问速度较慢，而存储容量较大。在本公开中，全部的大规模矩阵的数据均存储在片下存储中。大规模矩阵预先被划分为多个大小相等的区块(tile)，并存储在片下存储器中。区块是矩阵运算的最小粒度数据，也是传输、运算和控制的最小单元。每个区块为原始数据的局部M*N子矩阵，每个区块内部的元素数据在内存中连续存储。不同区块的数据，通常以区块组为单位连续存储，即由多个区块组成的一组区块在连续的存储地址空间中。可以存在多个区块组。区块的大小，也就是M和N的具体取值，根据具体问题和计算规模而定，某些特殊情况下，可以采用M＝N，即每个区块是一个局部方阵。对于无法划分为M*N子块的原始数据，将通过对边缘进行0扩展的方式使其满足N*N子块的划分方法。图2(a)至图2(c)展示了原始矩阵的区块划分、区块分组，以及各个区块的数据在片下存储中的分布情况。在图2(a)，图2(b)，图2(c)的例子中，M＝3，N＝2，每个区块是3*2大小的子矩阵。原始矩阵按照3*2的大小被划分，如果原始矩阵的大小不构成M*N的整数倍，则在边缘处补0(如图2(b)所示)。可以看到，每个区块内部的各个元素在内存中连续存储，不同区块按照区块组连续存储。除此之外，对于需要与矩阵进行运算的向量，则将这些向量也按照M*N的区块存储，并与矩阵区块统一管理。如图2(c)所示。

本公开虽然针对大规模矩阵运算进行设计，但是在计算资源和存储资源充足的情况下，可以处理任意大小的矩阵。区块的尺寸M和N的取值要和计算阵列的规模相匹配，根据目前主流的计算架构规模和存储器件规模，M和N的合理取值应该在4-32之间，处理的矩阵维度可在4-50000之间。

需要注意的是，区块指的是矩阵中某个特定位置的子矩阵，区块是相对于矩阵而言的概念。一个矩阵被划分为多个区块，即确定每个区块所对应的子矩阵区域范围。区块的数据，指的是一个区块所包含的子矩阵区域里的所有元素。因此，参与运算的实体是区块数据而不是区块，在区块数据被计算之后，这部分数据的值可能会被更改，因此，在矩阵计算中，区块数据是不断在更新的，而区块(作为一个子矩阵的范围)是恒定不变的。

片上缓存单元，为嵌入式的片上存储设备，提供较快的读写访问速度，但是存储容量较低。片上缓存用于存储部分的待计算区块以及计算所需的依赖数据。其中，部分的待计算的区块指的是若干个区块的完整数据。如果片上缓存单元足够大，则可以存储全部的原始矩阵的区块，如果片上缓存单元不够大，那么其中存储的区块仅为待计算的矩阵所划分出的多个区块中的一部分。区块从片下存储单元读取到片上缓存单元并完成计算，然后再写回片下存储单元。计算所依赖的数据指的是片上存储单元中的区块在进行计算的时候所需要的除了区块元素本身之外的其他信息和数值。后文有关于依赖数据的详细解释。

发射单元，用于根据全局调度器模块所指定的顺序，由片上缓存单元中读取相应的区块的数据并发送给预重组网络。发射单元每次可以从片上缓存单元中读取多个区块的数据，通常为2-4个。发射单元还用于在发射每个区块时为其添加相应的标签位。这些标签位跟随着区块数据包流经后续所有处理流程。借助标签位，发射单元可以准确控制所发射的区块在整个计算流程中的行为。后文有关于标签位的详细解释。

预重组网络，为数据宽度k*N*N的无阻塞数据交换网络，这个网络用于处理在发射单元所发出的k个区块，负责在这些区块进入主计算阵列之前，对区块的数据进行数据重组。数据重组可以发生在单个区块内部，可以发生在多个区块之间，其形式可以为任意的行交换、列交换、数据按照任意顺序重排、数据多播等。图3举例说明了多个区块在经过预重组网络后所产生的几类变化。如图3所示，网络输入数据就是单个或者多个区块元素集合，这些元素按照一维向量展开并送入预重组网络中。预重组网络输出的也是一个与输入等长度的一维向量，这个向量就是输出的各个区块的元素。数据重组可以在区块内部的各个元素之间完成，可以将多个区块的元素进行交换和重新排列。该网络可以对输入的数据完成的操作不仅限于图3列出的示例。预重组网络可可以根据具体的重组需求，选择不同的数据交换网络实现。在本实施例中，采用了BENES网络作为预交换网络，其结构和具体介绍见下文。

主计算阵列，用于完成主要的区块的数据的计算，并产生计算结果。主机算阵列包含并行的计算阵列，可以并行地对输入的区块数据进行计算。通常来说，计算阵列的操作数除了输入的区块数据之外，还包括计算所需的依赖数据。依赖数据将在后文详细介绍。主机算阵列对输入的区块进行运算后，会使用计算结果对区块中的对应元素的值进行更新，对于某些算法，还会生成其他计算结果。因此，主计算阵列最终输出的数据包括更新后的区块数据。图4的举例表示了主计算阵列的操作数输入和结果输出，注意图4仅为主计算阵列的一种可能的规模和计算模式。

后重组网络，用于在区块的数据计算后，对主计算阵列所产生的计算结果，即更新后的区块数据，进行任意的数据重组；其重组功能与预重组网络类似。

数据依赖控制器，用于处理区块的数据之间的数据依赖关系。数数据依赖关系是由区块所需进行的运算和操作而产生的。很多时候，区块所需的运算无法仅凭借区块本身的元素完成，而是需要其它信息和数值，这些除区块本身的额外元素就是这个区块运算的依赖数据。依赖数据可以是其它区块的全部元素的值、部分元素的值，或者由其它区块元素计算而得的中间值。依赖数据的存在意味着不同的区块之间存在着依赖关系。依赖关系又分为直接依赖和间接依赖。如果某个运算需要多个区块的全部元素同时参与，那么这些区块之间互为直接依赖，因为它们必须全部直接地参与到运算中。与之相对应的，如果某个区块的依赖数据为其它一个或几个区块的部分元素，或者是由这些区块所衍生的中间计算结果，那么这种依赖关系为间接依赖。在间接依赖关系中，产生依赖数据的区块为“生产者区块”，使用依赖数据的区块为“消费者区块”。图5(a)至图5(d)中列出了几个会产生数据依赖的示例：图5(a)是区块A和区块B进行加法运算，A区块与B区块构成直接依赖关系；图5(b)是区块A和区块B需要进行任意行交换，A区块与B区块构成直接依赖关系；图5(c)是区块A的每一行都需要减去区块B的某一行元素，A区块与B区块构成间接依赖关系，其中B是“生产者区块”，A是“消费者区块”；图5(d)是区块C乘以区块A和B相加后的某一行元素，A区块与B/C区块构成间接依赖关系，B/C区块为“生产者区块”，A为“消费者区块”。

基于区块的依赖关系，可以进一步定义区块组，以及多个区块组之间的依赖关系。区块组是指多干个区块的集合。同一组的多个区块之间可能会存在依赖关系，这种同组内不同区块之间的依赖数据被称为“本地依赖数据”。除此之外，一个区块组中的某些区块可能与另一个区块组中的某些区块构成依赖关系，这种跨区块组的依赖数据被称为“全局依赖数据”。产生“全局依赖数据”的区块组被称为“生产者区块组”，使用“全局依赖数据”的区块组被称为“消费者区块组”。这就构成了区块组之间的依赖关系。图6展示了一个示例，在该示例中，区块A、B、C、D被划分位区块组1，E、F、G被划分为区块组2。在区块组1内部，A为生产者区块，B、C、D为消费者区块，他们之间的依赖数据为区块组1的本地依赖数据。同理，区块组2中由E区块产生本地依赖数据。除此之外，A区块还产生了区块组2中所需的依赖数据，由于该数据跨越了区块组，因此是全局依赖数据。由于该全局依赖数据是区块组1产生的，因此区块组2与区块组1之间构成了依赖关系。其中区块组1为“生产者区块组”，区块组2为“消费者区块组”。

本公开中的依赖数据的提取、计算和管理均由数据依赖管理器模块完成。关于区块依赖关系的具体说明，可详见后文的实施例介绍。

全局调度器，是本架构的核心控制模块，用于执行预设的调度算法，控制区块的数据的预取、发射、计算、数据重组、和数据依赖关系处理。具体来说，全局调度器指示发射模块按照一定的调度顺序读取并发射片上缓存中的区块，并依据全局调度器的指示，为不同的区块设置不同的标签位。每个区块的标签位都指示了其在后续的预交换网络、主计算阵列、后交换网络、数据依赖控制器等各个模块的所需处理和操作。全局调度器基于各个区块之间和以及各个区块组之间的依赖关系，决定区块的发射顺序，以及区块所需完成的操作。简单来说，调度原则为，生产者区块先于消费者区块，生产者区块组先于消费者区块组。例如图6所示的例子中，其一种可能的调度顺序为：A-＞B-＞C-＞D-＞E-＞F-＞G。全局调度器可以采用多种形式实现，包括状态机、动态查询表、MCU处理器等。除此之外，全局调度器还负责根据区块的处理顺序，预先通知预取模块进行片下存储单元和片上存储单元之间的区块搬运。

就该实施例而言，在整个计算过程中，全局调度器依据预设的调度算法来负责区块的预取、计算、数据重组、和依赖关系处理。全局调度器采用预取的方式将数据块读入片上缓存中，并以区块为单位进行计算，在本实施例中，区块的尺寸为M＝N＝8。

发射模块负责根据全局调度器所指定的顺序，由片上缓存中读取相应的数据区块并发送给后续的处理流程。该模块每次读取并发送k个区块(k＞1)。K个区块可并行通过全部运算处理流程。

区块的计算过程中采用区块交换网络来重组数据结构，在本实施例中，预重组网络和后重组网络均为数据宽度k*N*N的无阻塞数据交换BENES交换网络。这两个网络可在计算前后对k个区块进行任意数据重组。

主计算阵列为一组并行的定点/浮点运算单元，运算类型为常见的定点/浮点。在本实施例中，主机算阵列为流水线设计，每周期可输入k*N*N个元素，并完成运算加法(add)、乘法(multiply)或乘加(mac)操作。

数据依赖模块负责来处理不同区块之间可能存在的数据依赖关系。数据依赖模块管理依赖数据，并且其可以调用辅助计算阵列来进行依赖数据的计算。辅助计算阵列为一组并行的定点/浮点运算单元，其阵列规模和运算类型取决于具体的矩阵算法。

在本实施例中，由于区块数据在存储空间中连续分布，且由全局调度器进行统一的预取和管理，因此片上缓存的利用率很高。本实施例中采用的基于依赖关系的区块分组和调度算法，以及对依赖数据的管理模块，可以最大程度的降低区块之间的耦合性，提升区块的复用率，减少对片下存储设备的访问压力，大幅度降低访存延迟所造成的性能瓶颈，进而提供高性能、低延迟的矩阵计算。

在另一个实施例中，如图7所示，公开了的一种计算架构还包括：

预取单元，用于完成区块的数据在片下存储与片上缓存之间的搬运；

写回缓存单元，用于在区块的数据计算后将区块的数据写回片上缓存单元；

辅助计算阵列，用于协助数据依赖控制器进行依赖数据的提取、预处理和计算。

就该实施例而言，预取单元，用于根据全局调度器模块所指定的顺序，完成区块的数据在片下存储与片上缓存之间的搬运。这一模块进行简单的在两个存储设备之间的数据搬运，搬运数据的地址和长度是由全局调度器模块指定的。目前已有的数据搬运技术均可用实现该模块的功能。

辅助计算阵列，用于协助数据依赖控制器进行依赖数据的提取、预处理和计算。需要注意的是，辅助计算阵列的运算单元和运算规模取决于不同的计算算法，且并不是必须的组件。在某些矩阵计算中，并不需要辅助计算阵列参与依赖数据的提取和计算。通常来说，辅助计算阵列的规模小于主机算阵列。

在另一个实施例中，所述区块的数据在内存中连续存储。

就该实施例而言，每个区块的数据在内存中连续存储，因此可以有效提高cache的利用率。每个区块每部的元素始终在连续地址上存储，不同区块的数据，通常以区块组为单位连续存储，即由多个区块组成的一组区块在连续的存储地址空间中。可以存在多个区块组。

在另一个实施例中，发射单元，还用于在发射每个区块时为其添加相应的标签位。

就该实施例而言，这些标签位跟随着区块数据包流经后续所有处理流程。借助标签位，发射单元可以准确控制所发射的区块在整个计算流程中的行为。整体来看，区块的处理流程如图8所示。从图8中可以看出，区块在发射时携带了不同类型的标志位，这些标志位指示了区块在不同模块中的处理方式，并且在完成特定操作后即被抛弃。

在另一个实施例中，所述标签位指示了区块所需要执行的计算任务、数据依赖信息以及区块数据重组信息。

就该实施例而言，标签位具体设置如下表1所示。

表1

例如，在图8所展示的计算流程中，其所涉及的标签位Tag1-4的一种可能的配置方式如下表所示。需要注意的是，表2仅为标签位设置的一种案例，具体的标签位内容及其设置方法需要根据实际计算任务而定。

表2

在另一个实施例中，所述数据依赖关系包括直接依赖和间接依赖；所述直接依赖指需要多个区块直接参与运算，得到的运算结果直接用于更新区块，或者作为中间依赖数据；所述间接依赖指某个区块的计算需要借助其他区块的数据完成。

就该实施例而言，对于需要多次迭代计算的矩阵算法，区块调度算法旨在分析不同区块之间的依赖关系，并优化区块的复用效率。具体来说，各个区块的调度顺序和调度策略取决于区块之间的依赖关系。

间接依赖指某个区块的计算需要借助其他区块的数据信息完成，在这种依赖关系中，所借助的区块被称为前导区块，所借助的数据信息被称为依赖数据。依赖数据作为运算的中间数据，可以存储在在片上缓存中，并在相关区块的计算时进行读取。

直接依赖指需要多个区块直接参与运算，得到的运算结果直接用于更新区块，或者作为中间依赖数据。在这种情况下，所涉及的各个区块互相构成直接依赖关系。例如，对于多个区块之间的数据交换，这些区块之间将构成直接依赖关系。再例如，在搜索矩阵某一列元素的最大值时，这一列元素所属的区块之间将构成直接依赖。

基于以上两类基本依赖关系，对于给定的矩阵算法，我们可以分析并建立其所有区块的依赖关系。基于“生产者-消费者”模型和区块之间的间接依赖关系，可以将所有区块都递归地分组为“生产者区块组”和“消费者区块组”。前者在计算过程中产生依赖数据，后者在计算中使用这些依赖数据。如图9所示：在以上的模型中，我们将区块划分为“生产者区块组”和“消费者区块组”。前者为后者提供计算所需的依赖数据。所有的间接依赖关系均会产生相应的依赖数据，这些数据需要被共享给消费者区块组，以便完成消费者区块的计算。生产者区块组在运算过程中会产生两类依赖数据：一类是“本地依赖数据“，仅用于本组内区块运算，不与其他区块组共享。另一类是“全局依赖数据”，这类数据不仅用于本组内区块的计算，而且需要提供给相应的“消费者区块组”使用。除此之外，还可以看到多层级的“生产者-消费者”依赖关系。即某些生产者/消费者区块组内的各个区块之间仍然存在着更底层的“生产者-消费者”依赖关系。需要注意，对于多层级的“生产者-消费者”关系，底层的“全局依赖数据”可能是上层的“本地依赖数据”。通过缓存“生产者”区块组所产生的“全局依赖数据”，并且在后续供“消费者”区块组使用这种方式，可以有效地将生产者区块和消费者区块解耦，在矩阵计算的迭代过程中，不再需要多次重复的载入生产者区块和消费者区块，可以极大地提升区块在片上缓存的复用率。具体地说，生产者区块可以在片上连续完成多次的计算迭代，并且存储相应的全局缓存数据。后续载入的消费者区块也可以在片上连续完成多次迭代。

另外需要注意的是，在矩阵运算的不同迭代阶段，区块组的划分可能会动态地发生变化。基于以上模型，区块调度算法基于如下原则进行：(1)由最底层的“生产者-消费者”依赖关系开始，优先选择并发射生产者区块组中的区块。(2)所有具有直接依赖关系的区块均连续发射。(3)对片上缓存中已有的区块，重复发射并计算，直至其依赖条件不再满足。(4)预判后续所需的区块组，并提前将其预取到片上缓存中。

具体实施过程中，需要根据矩阵算法的实际情况，分析各个区块之间的依赖关系，建立“生产者区块组”和“消费者区块组”，确定区块的发射顺序和调度策略，并据此设置全局调度器的调度策略。

全局调度器被设置为状态机，用于控制每个时刻的区块预取、发射和计算，并决定着需要执行的与数据依赖相关的操作。这些行为是通过全局调度器与预取模块、发射模块和数据依赖控制器模块之间的控制接口来完成的。

在另一个实施例中，数据依赖控制器，还用于：1)判断当前的区块中是否包含后续区块所依赖的依赖数据，如果包含，则对该依赖数据进行提取、计算和保存，其中对依赖数据的计算依靠辅助计算阵列来完成；2)判断当前的区块运算是否依赖之前存储的区块数据，如果是，则读取相关的依赖数据，并将其提供给主计算阵列以进行当前区块的运算。

就该实施例而言，数据依赖控制器的具体功能如下：(1)管理所有全局依赖数据和本地依赖数据的存储、读取和清空。(2)对于当前发射的各个区块，如果其计算需要依赖数据，则数据依赖控制器从片上缓存中读取相应的依赖数据并发送到主计算阵列中。(3)对于当前发射的各个区块，如果该区块需要产生依赖数据，则数据依赖控制器负责缓存相应的区块数据，并提取所需的依赖数据。对依赖数据的提取可以借助辅助计算阵列来完成。

数据依赖控制器的工作流程如图10所示。在接收到发射区块所携带的标志位后，数据依赖控制器首先判断：(1)该标签对应的区块是否需要依赖数据来完成计算；(2)该区块是否会产生需要保存的依赖数据。注意，以上两种操作可能同时存在。因此，数据依赖控制器中实现了分别处理数据读取和数据保存的两套并行逻辑。对于前者，控制器会计算出依赖数据的读取地址，并将其从片上缓存中读出，发送到主机算阵列进行计算。对于后者，控制器需要进一步判断，依赖数据是否可以由当前的区块数据直接获得，例如是区块中的某一行/列或者某个元素的值。如果是，那么直接在区块中选择出依赖数据，并将其保存到片上缓存中。如果不是，则依赖数据需要对区块数据做进一步计算来获得。在这种情况下，控制器会调用辅助计算阵列完成相应计算，并将计算结果保存到片上缓存中。

在另一个实施例中，所述依赖数据包括本地依赖数据和全局依赖数据；所述本地依赖数据是指由某个区块组产生，且仅在本区块组运算中需要使用的中间数据；所述全局依赖数据是指由某个区块组产生的，且在本区块组和其他区块组运算中都需要使用的中间数据。

就该实施例而言，区块之间可能存在间接依赖关系。为了解耦区块之间的依赖关系，提升区块的复用率，降低片上缓存与片下主存之间的数据搬运，需要在处理“生产者“区块组的时候将其产生的”依赖数据“缓存起来，这些依赖数据之后可供”消费者“区块组进行计算。这些依赖数据都需要数据依赖控制器模块来管理。

本地依赖数据，这类数据不需要分享给其他区块组。因此，本地依赖数据仅在相应区块组的计算阶段被保存，在计算完成后被抛弃。

全局依赖数据是指由某个区块组产生的，且在本区块组和其他区块组(即对应的“消费者区块组”)运算中都需要使用的中间数据。这类数据需要被长期保存在片上缓存中，直到所有相关的依赖区块均计算完毕后，全局依赖数据才可以被抛弃。

数据依赖控制器与全局调度器协作，管理上述两类依赖数据。具体来说，全局调度器确定区块之间的数据依赖关系，并且在相应的区块发射时通过标志位(Tag)指示该区块所需要完成的数据依赖操作。数据依赖控制器在接收到区块携带的标志位后，根据标志位的指示完成对依赖数据的操作。该过程的流程示例可见图10。

在另一个实施例中，所述预重组网络和后重组网络是数据交换网络。该网络可以是BENES网络，也可以是其他具有数据交换功能网络，如Batcher-Banyan 网络。

就该实施例而言，整个计算路径上部署了两个区块交换网络：预数据重组网络和后数据重组网络，分别部署在主计算阵列之前和之后。这两个网络负责完成每个区块内部或者多个区块之间的复杂数据重组任务，包括行交换、列交换、转置、以及其他必要的数据重排。数据重组网络采用k*N*N输入的BENES网络实现。

BENES网络的示意图如图11所示。BENES网络由若干级交换单元组成，每个交换单元可以完成两个输入信号的直通或者交换。通过对BENES网络施加控制信号，可以实现输入端口到输出端口的任意数据重排。这些控制信号被称为“控制字“(control words)。需要注意的是，由于BENES是递归搭建的，所以一个N输入的BENES网络可以被作为两个独立的N/2输入BENES网络来使用。如图11所示，一个8输入的BENES可以作为两个独立的4输入BENES网络使用。k*N*N输入的BENES网络不仅可以完成k个区块之间的任意数据重组，还可以仅针对某一个或几个网络完成数据重组。

在实际使用中，需要事前确定所有需要的数据重排操作，并预先计算其控制字。这些控制字被存在片上ROM中，并且可以由预数据重组网络和后数据重组网络读取。区块的标签位中分别记录了该区块所需的预重排和后重排操作所对应的控制字ID。区块的数据重组可以仅在单个区块内部完成，也可以在并行发射的多个区块之间完成(最多为k个)。对于需要多个区块共同完成的复杂数据重组，需要首先将所涉及的区块缓存在写回缓存模块中，然后由后数据重组网络根据指定顺序进行处理。图12给出了一个示例。

通过设置适当的区块数据重组模式，并且设置合理的区块调度策略，可以完成全矩阵范围内的多种数据重组，如任意行交互、列交换等。下文给出了一个完成矩阵全局行列交换的示例。在这个例子中，需要交换数据的区块之间构成相互的直接依赖关系。其中，区块(9，10，13，14)因为同时需要进行行列交换，因此构成了四个区块的直接依赖关系。除此之外，(1，2)和(5，6)需要完成列交换，(11，12)和(15，16)需要完成行交换，这些区块之间均构成直接依赖关系。全局调度器按照其依赖关系，设置如图13所示的发射顺序。同一时刻发射的区块在数据重组网络中完成行/列交换。通过以上操作，全局的矩阵行列交换可以做到无额外开销地完成。

在另一个实施例中，任意数据重组包括：行交换、列交换、转置和数据重排。

在另一个实施例中，片上缓存单元被实现分区为区块数据、本地依赖数据和全局依赖数据。

就该实施例而言，分区的大小是在系统设计时根据资源限制和算法需求而预先设定好的。数据依赖控制器管理着所有对本地依赖数据和全局依赖数据的读写操作。

在另一个实施例中，给出了本计算架构可高效地完成基于高斯-约旦消元(Gauss-Jordon Elimination，后文简称GJE算法)的矩阵求逆和线性方程组求解算法。

GJE算法是线性代数中的经典算法，且是科学计算中经常使用的算法之一。GJE算法由于其较好的计算并行性和相对简单的计算操作，被许多并行计算系统选为计算线性方程组、矩阵求逆和LU分解等的基础算法。GJE算法的目的是通过一系列的迭代初等行变换，将任意的方形矩阵转化为单位矩阵。对于大小为N*N的矩阵A，GJE算法共需要N次迭代，在第i次迭代，GJE会将矩阵A的第i列转化为单位矩阵。对于第i次迭代，其流程如下：

(1)选取主元(pivoting)：搜索A矩阵第i列中的[i：N-1]个元素，选取其中绝对值最大的元素a _k，i作为主元元素(pivot element)，该元素所对应的第k行被称为主元行(pivot row)。这一过程被称为局部选主元(partial pivoting)。

(2)主元行交换：交换A矩阵主元行(即第k行)和第i行的位置。现在主元行成为A矩阵的第i行。

(3)消元(Elimination)：对于除去主元行(即第i行)，其他所有行的元素a _x，y均按照如下公式更新其值：a _x，y＝a _x，y-(a _i，i/a _x，i)＊a _i，y。其中(a _i，i/a _x，i)被称为消元系数。经过如此更新后，A矩阵第i列的元素，除去主元元素之外，均被消除为0。

(4)归一化(Normalization)：对于主元行的所有元素a _i，y，按照如下公式更新：a _i，y＝a _i，y/a _i，l。经过此更新后，主元元素被归一化为1。至此，GJE算法的第i次迭代结束。

以上迭代连续进行N次，直至矩阵A完全转化为单位矩阵。

GJE算法可以用于计算线性方程组的解或者逆矩阵。

对于线性方程组：AX＝Y，可以将A与Y组合成增强矩阵[A|Y]，然后对A执行GJE算法，且矩阵Y跟随矩阵A的初等行变换。在A被消元为单位矩阵时，Y被转化为方程组的解X。

对于求A矩阵的逆矩阵A ^-1，可以将A与同大小的单位矩阵I合成增强矩阵[A|I]，然后对A执行GJE算法，且矩阵I跟随矩阵A的初等行变换。在A被消元为单位矩阵时，I被转化为逆矩阵A ^-1。

每次迭代中，矩阵A的一列被消元为单元矩阵，于此同时，增强矩阵中右侧的单位矩阵中的一列被转化为逆矩阵A ^-1的一列。由于这种对应关系，在实际计算中我们可以仅保存非单位矩阵的列，从而将整体的矩阵存储开销降低为原始算法的1/2。但是，这种优化方式存在一个问题：由于局部选主元的步骤存在，矩阵A会经历随机的行交换，由此导致，逆矩阵A ^-1的列的出现顺序也是随机的。由于我们只能按照A ^-1的列的出现顺序来存储这些列，因此这些列在内存中的顺序是混乱的。因此，在实际计算中，逆矩阵A ^-1的列需要经过列之间的重新排序来恢复。

在本实施例中，矩阵被分为8x8大小的区块。每一列区块作为一个区块组。由GJE算法可知，计算过程中除去矩阵区块本身的元素之外，还涉及以下几类依赖数据：主元行元素、主元元素和主元列元素。其中主元列元素用于计算矩阵各个行在消元时的消元系数。

以基于GJE的矩阵求逆计算为例，假设图14左侧的矩阵为消元迭代到第10次的状态。其中右侧元素为A矩阵，左侧元素为逆矩阵A ^-1。如图可见，为了消除第10列，需要找到矩阵第10列中A[10：16，10]元素的最大值作为主元元素，经过搜索，该元素为A[15，10]。在接下来的迭代流程中，需要完成以下几项任务：

(1)交换A矩阵的行15与行10；

(2)使用主元元素和主元列元素，计算每一行的消元系数；

(3)使用主元行元素和消元系数，对每一行进行消元操作；

(4)归一化主元行；

(5)为了还原逆矩阵A-1的正确列顺序，交换逆矩阵A ^-1的列2与列8。

在本实施例中，我们划分每个区块列中的所有区块为一个区块组。结合上述的计算任务，可以得到区块之间的依赖关系，如图14中的右侧所示。其中分别标识出了直接依赖关系，以及两种间接依赖关系：本地数据依赖和全局数据依赖。可以看到，区块之间的数据重组构成了直接依赖关系。每个区块组内部的本地数据依赖来自于本列区块组的主元行元。除此之外，各个区块组均需要使用主元元素和主元列所计算的消元系数来完成消元操作。因此，主元元素所在的区块组承担了“生产者”区块组的角色，它在计算中产生的消元系数被作为全局依赖数据保存起来，并供其他区块组使用。与此同时，由于列2和列8之间存在数据交换，因此相对应的区块之间构成直接依赖关系，这就导致这两列所对应的两个区块组合并为同一个区块组。因此，在图8所示的时刻中，共存在一个“生产者”区块组，两个“消费者”区块组。

对于图14所示的依赖关系，全局调度器会遵循调度原则确定各个区块的发射顺序。即：生产者区块优先于消费者区块，且具有直接依赖关系的区块均连续发射。因此，图14中区块的最终发射顺序为：(11，12)-＞(3，7)-＞(12，16)-＞(4，8)-＞(9，10，13，14)-＞(1，2)-＞(5，6)。

需要注意的是，以上调度策略并没有考虑到区块复用的情况。实际上，根据GJE算法以及图14的区块组划分可知，区块组之间仅需要共享主元列对应的消元系数。由于主元列是随着迭代次数逐渐在A矩阵中从左向右顺序推移的，因此主元列在连续的GJE迭代中会顺序存在于一个或多个连续的区块组内。在这种情况下，主元元素所在的“生产者”区块组会在连续的若干个迭代中一直是“生产者”。也就是说，可以首先多次复用“生产者”区块组进行多次的GJE消元迭代计算，并将每次迭代所产生的全局依赖数据均记录下来。然后其他“消费者”区块组也就可以基于这些全局依赖数据，复用完成多次迭代的。

对图14的例子而言，生产者区块组<3，7，11，15>可以连续完成列9-12的消元迭代，然后再由其他区块组连续完成多次消元迭代。这样，对于图14的例子来说，每个区块的复用次数为4。我们还可以更进一步地，将区块组<3，7，11，15>和<4，8，12，16>合并为一个大的区块组<3，7，11，15，4，8，12，16>。这个区块组可以连续完成8次的消元迭代，这种情况下，每个区块的复用系数上升到8。通过提升区块的复用率，可以有效地减少主存和片上缓存之间的数据搬运，提升计算效率。在实际部署中，可以根据片上算力和片下主存带宽等因素来设置最优的区块复用次数，并进而设置区块组的大小。通过设置最优的区块复用次数，可以使对片外主存的访问时间完全覆盖在片上的计算时间之内，理论上可以达到接近100％的计算阵列利用率。

以矩阵求逆计算为例，本实施例的整体计算流程如图15所示。

本实施例中，主干的计算流程是区块的发射-消元-数据重组-写回缓存。区块发射模块在每周期可最多发射两个区块。根据调度策略，可以多次发射同一个区块组，从而实现区块计算的复用。

主要的控制流程包括数据依赖控制和全局调度控制。

依赖数据控制主要针对主元行数据和主元列对应的消元系数。其中主元行数据是本地依赖数据，在每个区块组计算的最开始被提取并保存，并且在该区块组计算结束后抛弃。而消元系数是全局依赖数据，需要在缓存中长期保存。消元系数的计算依赖于主元列元素的值和主元元素的值，需要在迭代过程中预计算。即在消元第k列的迭代时，预计算第k+1列的主元元素和消元系数。因此，数据依赖控制器需要判断区块是否包含下次迭代对应的主元列(即第k+1列，图中成为next主元列)。如果包含，则需要将next主元列缓存，并搜索最大元素作为主元元素。在这之后，数据依赖控制器还要调用辅助计算阵列计算下次迭代对应的消元系数。最终，消元系数作为全局依赖数据被保存到缓存中。需要注意的是，以上的依赖数据提取和计算过程与主干计算流程是并行的，并不会阻塞主干计算流程。

图15的流程图中还描述了全局调度器的工作流程。全局调度器负责产生区块的发射顺序，以及预取顺序。如上所述，本实施例中将每一列的区块划分为一个区块组。全局控制器的调度策略主要包含以下几点因素：

(1)基于消元系数，不同区块组之间的依赖关系。主元列所在的区块组先于其他区块组得到调度。且对同一区块组多次复用。

(2)基于主元行元素，同一区块组中不同区块的依赖关系。包含主元行的区块先于其他区块调度。

(3)由于局部选主元，需要进行全局的矩阵行交换。需要行交换的区块之间构成直接依赖关系，需要同时发射。

(4)由于逆矩阵A ^-1的乱序，需要进行A ^-1矩阵的列交换。需要列交换的区块之间构成直接依赖关系，需要同时发射。

以上几个因素中，(1)和(2)仅取决于矩阵规模和系统资源限制，是离线设置好的。而(3)和(4)则是需要在线动态计算生成的。由之前介绍的GJE算法可知，(3)和(4)都取决于局部选主元过程，即A矩阵的行交换情况。因此全局调度器需要及时获取A矩阵的行交换信息，并根据此信息确定后续需要完成的逆矩阵A ^-1的列交换顺序。最终，全局调度器会综合行交换和列交换需求，产生区块的发射和预取顺序。这一过程可见图15的流程图。

在另一个实施例中，本实施例的性能测试采用仿真完成。仿真实验基于RTL代码、DDR/SRAM的IP仿真模型、浮点运算单元的IP模型。本实施例的系统参数如下：工作频率：800MHz；区块尺寸：8x 8；主计算阵列规模：128x 32-bit FP MAC Unit；辅助计算阵列规模：8x 32-bit FP Division Unit；片上缓存规模：776KB；BENES网络规模：128x32-bit input。

其中，工作频率是由Synopsys Design Compiler(DC)工具对RTL代码和可综合的DDR/SRAM的IP仿真模型、浮点运算单元的IP模型进行综合所得到的，可视为实际可行的工作频率。

测试集为不同尺寸的随机浮点数矩阵。本实施例对测试集矩阵分别完成矩阵求逆和线性方程组求解运算，并记录运算延迟。测试的对照组为目前主流常用的高性能大规模矩阵运算库：MKL，LAPACK和CUBLAS。其中MKL(version 3.8.0)和LAPACK(version 3.8.0)工作在Intel XEON Gold 6146平台，CUBLAS(version 10.1)工作在NVIDIA GPU RTX 2080 Ti平台。本实验中不同平台的参数表格如表3。

表3

对于矩阵求逆运算，测试集测试了矩阵范围32-2048的性能。对于线性方程组求解AX＝Y，测试集测试了矩阵范围32-2048的性能.与求逆运算不同的是，在方程组求解中，Y的大小也会影响整体性能，因此我们分别测试了不同的Y尺寸对性能的影响。Y的大小分别为N*8，N*32与N*64。

表4列出了不同平台在各个尺寸的矩阵上，完成矩阵求逆运算的延迟(单位：秒)，图16列出了本计算架构相比于其他对照组的加速比。图16中的纵坐标是“本计算架构与其他平台相比的加速倍数”。也就是说，纵坐标是其他平台的计算时间与本计算架构计算时间的比值，例如在图16的矩阵规模32中，MKL，LAPACK和CUBLAS的计算时间分别是本计算架构计算时间的47.8倍、128倍和69倍。

Matrix Order	本计算架构	LAPACK	MKL	CUBLAS
32x 32	0.0007	0.093	0.034	0.050
64x 64	0.0043	0.319	0.061	0.217
128x 128	0.0286	1.244	0.144	1.018
256x 256	0.2034	8.281	0.615	4.75
512x 512	1.4878	61.91	3.267	32.64
1024x 1024	11.534	497.21	26.375	268.40
2048x 2048	92.274	3920.8	195.91	2213.90

表4

表5列出了不同平台在各个尺寸的矩阵上，完成矩阵求逆运算的延迟(单位：秒)，图17列出了本发明相比于其他对照组的加速比。

表5

由以上实验结果可知，本实施例在多种规模的矩阵上均明显优于其他计算平台，且在大规模矩阵的计算中仍然具有很高的加速比。尤其需要注意的是，MKL是目前效果最好的高性能科学计算库。本计算架构在大规模矩阵运算中，相对MKL可以稳定地获得两倍的加速比。除此之外，本实施例的资源消耗远远低于其他计算平台，本实施例的片上缓存仅为Intel CPU的1/30，DDR带宽也远低于其他平台。这种对比进一步说明了本架构可以实现对片上缓存资源的高效率使用，从而在较少的资源下取得远优于传统计算方法的性能。

理论上，任何矩阵计算均可以通过分析其区块之间的依赖关系来设计其调度策略，进而部署到本计算架构中。需要注意的是，对于不同的矩阵算法，其所需的数据依赖计算方式和区块计算方式可能有较大不同，因此需要根据不同的矩阵算法来定制对应的计算模块和流水线。但是，本架构的整体结构和计算流程、调度策略算法、以及各个模块的功能等均不会发生变化。

同时，由于高复用性的调度策略需要更多的片上存储资源以储存更多的全局依赖数据，因此本架构对大规模矩阵的支持取决于片上存储资源的多少，以及计算阵列的规模。在实际部署中，可以根据实际算法情况和矩阵大小来定制合适的存储资源和计算阵列。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

一种计算架构，包括：片下存储器、片上缓存单元、发射单元、预重组网络、后重组网络、主计算阵列、数据依赖控制器和全局调度器；其中，

片下存储器，用于以区块格式存储全部的大规模的数据，其中，所述大规模的数据被划分为多个大小相等的区块；

片上缓存单元，用于存储部分的待计算区块的数据以及计算所需的依赖数据；

发射单元，用于根据所述的调度算法所指定的顺序，由片上缓存单元中读取相应的区块的数据并发送给预重组网络；

主计算阵列，用于完成主要的区块的数据的计算；

预重组网络，用于在区块的数据计算前对区块的数据进行任意数据重组；

后重组网络，用于在区块的数据计算后对区块的数据进行任意数据重组；

数据依赖控制器，用于处理区块的数据之间的数据依赖关系；

全局调度器，用于执行预设的调度算法，控制区块的数据的预取、发射、计算、数据重组、和数据依赖关系处理。
根据权利要求1所述的计算架构，还包括：

预取单元，用于完成区块的数据在片下存储与片上缓存之间的搬运；

写回缓存单元，用于在区块的数据计算后将区块的数据写回片上缓存单元；

辅助计算阵列，用于协助数据依赖控制器进行依赖数据的提取、预处理和计算。
根据权利要求1所述的计算架构，其中，所述区块的数据在内存中存储。
根据权利要求1所述的计算架构，其中，发射单元，还用于在发射每个区块时为其添加相应的标签位。
根据权利要求4所述的计算架构，所述标签位指示了区块所需要执行的计算任务、数据依赖信息以及区块的数据重组信息。
根据权利要求1所述的计算架构，其中，所述数据依赖关系包括直接依赖和间接依赖；所述直接依赖指需要多个区块的数据直接参与运算，得到的运算结果直接用于更新区块的数据，或者作为中间依赖数据；所述间接依赖指某个区块的数据的计算需要借助其他区块的数据完成。
根据权利要求1所述的计算架构，其中，数据依赖控制器，还用于：判断当前的区块运算是否依赖之前存储的区块的数据，如果是，则读取相关的依赖数据，并将其提供给主计算阵列以进行当前区块的数据的运算。
根据权利要求2所述的计算架构，其中，数据依赖控制器，还用于：判断当前的区块中是否包含后续区块所依赖的依赖数据，如果包含，则对该依赖数据进行提取、计算和保存，其中对依赖数据的计算依靠辅助计算阵列来完成。
根据权利要求1所述的计算架构，其中，所述依赖数据包括本地依赖数据和全局依赖数据；所述本地依赖数据是指由多个区块组成的某个区块组产生，且仅在本区块组运算中需要使用的中间数据；所述全局依赖数据是指由多个区块组成的某个区块组产生的，且在本区块组和其他区块组运算中都需要使用的中间数据。
根据权利要求1所述的计算架构，其中，片上缓存单元被实现分区为区块的数据、本地依赖数据和全局依赖数据。