WO2021196745A1

WO2021196745A1 - 数据处理装置、集成电路和ai加速器

Info

Publication number: WO2021196745A1
Application number: PCT/CN2020/136960
Authority: WO
Inventors: 张启荣; 王文强; 胡英俊; 蒋科
Original assignee: 上海商汤智能科技有限公司
Priority date: 2020-03-31
Filing date: 2020-12-16
Publication date: 2021-10-07
Also published as: CN113467702A; TWI773051B; TW202138994A; KR20210129715A; JP2022531075A

Abstract

本公开实施例提供用于数据处理的装置、集成电路和AI加速器。用于数据处理的装置包括多个堆存储单元，每个堆存储单元用于存储堆的一组节点的数据，所述一组节点中包括所述堆的同一层节点中的至少部分节点；以及多个堆调整单元，每个堆调整单元用于访问至少两个堆存储单元，以对输入的原始数据与所述至少两个堆存储单元中存储的数据进行排序。

Description

[根据细则37.2由ISA制定的发明名称]　数据处理装置、集成电路和AI加速器

技术领域

本公开涉及数据处理技术领域，尤其涉及数据处理装置、集成电路和人工智能(Artificial Intelligence，AI)加速器。

背景技术

在许多算法或者模型中，经常需要处理排序问题，堆排序(Heapsort)被广泛用于处理排序问题。堆排序是指利用堆这种数据结构所设计的一种排序方式。

发明内容

本公开提供数据处理装置、集成电路和AI加速器。

根据本公开实施例的第一方面，提供一种数据处理装置，所述装置包括：多个堆存储单元，每个堆存储单元用于存储堆的一组节点的数据，所述一组节点中包括所述堆的同一层节点中的至少部分节点；以及多个堆调整单元，每个堆调整单元用于访问至少两个堆存储单元，以对输入的原始数据与所述至少两个堆存储单元中存储的数据进行排序。

根据本公开实施例的第二方面，提供一种集成电路，所述集成电路包括第一方面所述的数据处理装置。

根据本公开实施例的第三方面，提供一种AI加速器，所述AI加速器包括第二方面所述的集成电路。

本公开实施例将堆中各个的节点的数据存储在多个堆存储单元中，多个堆存储单元中的数据可以独立地进行读写，在前一个数据通过所述多个堆调整单元进行排序的同时，可以将后一个数据进堆，从而可以实现在建堆过程中同时进行排序，提高了排序效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1A是一些实施例的堆的示意图。

图1B是一些实施例的堆排序过程的示意图。

图2是本公开实施例的数据处理装置的示意图。

图3A和图3B分别是本公开实施例的数据存储方式的示意图。

图4是本公开另一些实施例的数据处理装置的示意图。

图5A至图5F是本公开实施例的堆排序过程中数据变化的示意图。

图6是本公开实施例的数据流动过程的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

在许多算法或者模型(例如，神经网络模型)中，经常需要处理排序问题，特别是top k(k为正整数)排序问题，即，从一组待排序数据中选择出数值最大或者最小的k 个数据。堆排序被广泛用于处理排序问题。堆排序是指利用堆这种数据结构所设计的一种排序方式。如图1A所示，堆是一个近似完全二叉树的结构，且在堆为最小堆的情况下，堆中的每个节点对应的数据总是小于或等于其子节点；在堆为最大堆的情况下，堆中的每个节点对应的数据总是大于或等于其子节点。

在一种堆排序方式中，可以采用一块完整的存储单元存储整个堆，即，堆的各个节点对应的数据均存储在同一存储单元中。由于读写冲突，每次只能对一个节点及其子节点的数据进行排序。如图1B所示，是一个包括5个节点的示意图，其中，这5个节点对应的数据均存储在同一存储单元中，即图中的mem。在排序的时候，从堆底开始，通过比较，首先将存储单元中节点4的数据与节点1的数据互换，再将节点1与节点0的数据互换，然后将节点4的数据与节点1的数据互换，得到排序后的最大堆，如左下角的示意图所示。将堆顶(即，堆的根节点)的数据从存储单元中写出，剩余的数据再重复上述排序过程，直到堆中各个节点对应的数据均从存储单元中写出。可见，该堆排序方式排序效率低。

基于此，本公开实施例提供一种数据处理装置，如图2所示，所述装置可包括多个堆存储单元201和多个堆调整单元202。

多个堆存储单元201，每个堆存储单元用于存储堆的一组节点的数据，所述一组节点中包括所述堆的同一层节点中的至少部分节点。

多个堆调整单元202，每个堆调整单元用于访问至少两个堆存储单元，以对输入的原始数据与所述至少两个堆存储单元中存储的数据进行排序。

在一种可选的堆排序方式中，数据从堆底进堆，再从堆顶开始排序，因此，建堆和排序过程是独立进行的，在进堆过程中无法进行并行排序。本公开实施例将堆中各个的节点的数据存储在多个堆存储单元201中，多个堆存储单元201中的数据可以独立地进行读写，在前一个数据通过所述多个堆调整单元202进行排序的同时，可以将后一个数据进堆，从而可以实现在建堆过程中同时进行排序，提高了排序效率。

需要说明的是，对于最后一个堆调整单元，如图2所示的堆调整单元n，虽然也连接了两个堆存储单元，如堆存储单元n和堆存储单元n+1，但由于没有调整单元对堆存储单元n+1写入数据，因此，堆调整单元n实际上无法从堆存储单元n+1读取数据。在具体实践中，堆存储单元n+1可以是一个虚拟的存储单元，也可以是一个和其他堆存储单元类似的存储单元。

此外，虽然图2中示意地画出了在排序时堆调整单元访问堆存储单元的数据流方向，但在实际应用中，本公开并不限制堆调整单元i只能向堆存储单元i写入数据，和/或只能从堆存储单元i+1读出数据。

图3A是一个包括4层节点的堆以及所述堆中各个节点的数据的存储方式的示意图。如图3A所示，第i堆存储单元可以用于存储位于堆的第i层的全部节点的数据，例如，第1堆存储单元用于存储堆的第1层节点P11的数据，第2堆存储单元用于存储堆的第2层节点P21和P22的数据，以此类推。

应当说明的是，图3A所示的实施例仅为本公开的一种可能的实现方式，本公开不限于此。在实际应用中，堆的任意一层节点中全部节点的数据也可以存储在多个堆存储单元中。例如，存储节点P31的数据和节点P32的数据的堆存储单元可以与存储节点P33的数据和节点P34的数据的堆存储单元不同。

在一些实施例中，每个堆调整单元访问的所述至少两个堆存储单元用于存储所述堆的相邻层节点的数据。可选地，每个堆调整单元可以访问两个堆存储单元，其中，所述两个堆存储单元用于存储堆中相邻两层节点中的部分或全部节点的数据。例如，在图3A所示的实施例中，堆调整单元1可以访问第1堆存储单元和第2堆存储单元，堆调整单元2可以访问第2堆存储单元和第3堆存储单元，堆调整单元3可以访问第3堆存储单元和第4堆存储单元，以此类推。可选地，在其他实施例中，每个堆调整单元还可以访问两个以上堆存储单元，以对所述两个以上堆存储单元中的数据进行排序，其中，所述两个以上堆存储单元中的数据可以是相邻两层节点中的部分或全部节点的数据，也可以是相邻的三层或三层以上节点中的部分或全部节点的数据。

在另一些实施例中，每个堆调整单元还可以对堆的任意不相邻的两层以上节点中的至少部分数据进行排序，以满足不同应用场景下的排序需求，此处不再赘述。

在一些实施例中，所述多个堆调整单元中的至少两个堆调整单元可以并行地进行排序，从而提高数据处理效率。在另一些实施例中，所述多个堆调整单元也可以对所述多个堆存储单元中的数据进行串行地排序。

为了避免数据冲突，并行地进行排序的至少两个堆调整单元访问的堆存储单元互不相同。例如，在图3A所示的实施例中，堆调整单元2访问的堆存储单元包括第2堆存储单元和第3堆存储单元，堆调整单元3访问的堆存储单元包括第3堆存储单元和第4堆存储单元，由于堆调整单元2和堆调整单元3访问的堆存储单元中均包括第3堆存储单元，因此，堆调整单元2和堆调整单元3不进行并行排序。而堆调整单元1访问的堆存储单元包括第1堆存储单元和第2堆存储单元，堆调整单元3访问的堆存储单元包括第3堆存储单元和第4堆存储单元，则堆调整单元1和堆调整单元3访问的堆存储单元各不相同，即，这两个堆调整单元访问的堆存储单元中不包括相同的堆存储单元。因此，堆调整单元1和堆调整单元3可以并行地进行排序。

作为一种解决数据读写冲突的具体实现方式，多个堆调整单元中两个相邻堆调整单元分别访问的两个堆存储单元中包括一个相同的堆存储单元。例如，堆调整单元1访问的堆存储单元中包括第1堆存储单元和第2堆存储单元，堆调整单元2访问的堆存储单元中包括第2堆存储单元和第3堆存储单元，以此类推。在堆调整单元1访问第2堆存储单元时，堆调整单元2可以访问第3堆存储单元；堆调整单元2访问第2堆存储单元时，堆调整单元1可以访问第1堆存储单元，从而避免数据读写冲突。又例如，堆调整单元1访问的堆存储单元中包括第1堆存储单元至第3堆存储单元，堆调整单元2访问的堆存储单元中包括第3堆存储单元至第5堆存储单元，以此类推。类似的，在堆调整单元1访问第3堆存储单元时，堆调整单元2可以访问第4或第5堆存储单元。

作为另一种解决数据读写冲突的具体实现方式，并行地进行排序的任意两个堆调整单元之间间隔至少一个堆调整单元。例如，访问第1堆存储单元和第2堆存储单元的堆调整单元1与访问第3堆存储单元和第4堆存储单元的堆调整单元3之间间隔一个访问第2堆存储单元和第3堆存储单元的堆调整单元2，则堆调整单元1与堆调整单元3可以并行地进行排序。

在排序过程中，每次将一个数据进堆，可以通过所述多个堆调整单元对进堆的数据与所述多个堆存储单元中存储的数据进行排序。作为再一种解决数据读写冲突的具体实现方式，相邻两个数据的进堆时序之间至少间隔两个堆存储单元的处理时间。例如，如图6所示，数据d1在t1的开始时刻进堆，则下一个数据d2可以在第t3的开始时刻进堆，其中，t1、t2、t3….表示堆存储单元的处理时间。

除了上述方式之外，还可以采用其他方式来解决数据读写冲突的问题，以使多个堆调整单元可以并行地进行排序，此处不再赘述。由于采用了多个堆存储单元，任意一个堆存储单元的读写过程不影响其他的堆存储单元。因此，访问不同堆存储单元的多个堆调整单元可以并行地进行排序，提高了排序效率。

在排序的过程中，所述多个堆调整单元中每个堆调整单可以获取数据，并将获取到的数据和访问的所述至少两个堆存储单元中的至少一个堆存储单元中的数据进行排序。

基于本公开实施例的堆存储单元的结构，在建堆、堆调整及出堆过程中，输入数据可以从堆顶进堆，并采用自上到下的方式进行调整。为了便于理解，下面以每个堆存储单元存储堆的一层节点中所有节点的数据，每个堆调整单元访问的堆存储单元用于存储堆的相邻两层节点的数据为例，对本公开实施例的方案进行说明。假设堆调整单元i用于访问第i堆存储单元和第i+1堆存储单元，i为正整数。其他情况下的排序方式与上述情况类似，此处不再赘述。本实施例中，将堆中相邻两层节点的数据调整操作封装在一个堆调整单元中进行，利用ceil(log ₂k)个堆调整单元组成堆调整流水线。其中，ceil表示向上取整操作，k为需要获取的有序数据的总数，也就是前述top k排序问题中的k。

在进行排序时，先向堆调整单元1输入原始数据d1，堆调整单元1将原始数据d1与第1堆存储单元和第2堆存储单元中至少一个堆存储单元的之前存储的数据进行排序，并根据排序结果向堆调整单元2输出数据d1’，其中d1’可以是原始数据d1，也可以是第2堆存储单元中的一个数据。同理，将数据d1’作为原始数据输入到堆调整单元2，堆调整单元2将数据d1’与第2堆存储单元和第3堆存储单元中至少一个堆存储单元的数据进行排序，并根据排序结果向堆调整单元3输出数据d1”，以此类推。

在堆为最小堆且堆中数据已满的情况下，堆调整单元1先将原始数据d1与根节点P11的两个子节点的数据进行比较，将其中最小的数据(假设为根节点的左子节点P21的数据)写入根节点对应的堆存储单元。然后，将原始数据d1作为堆调整单元2的原始数据，堆调整单元2将原始数据d1与节点P21的两个子节点的数据进行比较，将其中最小的数据(假设为节点P21的左子节点P31的数据)写入节点P21对应的堆存储单元，以此类推。

进一步的，在堆为最小堆且堆中数据已满的情况下，堆调整单元1先将原始数据d1与根节点P11的两个子节点的数据进行比较，若d1小于根节点P11的两个子节点的数据，则可以进一步将d1与根节点P11的数据进行比较。若d1小于等于根节点P11的数据，则直接丢弃d1，若d1大于根节点P11的数据，则将d1存储到第1堆存储单元，后续的堆调整单元不需要启动。在这种情况下，堆调整单元1可以读取第1堆存储单元的数据。

在堆为最大堆且堆中数据已满的情况下，堆调整单元1先将原始数据d1与根节点P11的两个子节点的数据进行比较，将其中最大的数据(假设为根节点的左子节点P21的数据)写入根节点对应的堆存储单元。然后，将原始数据d1作为堆调整单元2的原始数据，堆调整单元2将原始数据d1与节点P21的两个子节点的数据进行比较，将其中最大的数据(假设为节点P21的左子节点P31的数据)写入节点P21对应的堆存储单元，以此类推。

在一些实施例中，所述堆的同一节点的各个子节点的数据存储在同一堆存储单元的同一地址中。例如，假设数据位长为n，则可以将节点的左子节点的数据存储在对应存储地址的低n位中，将同一节点的右子节点的数据存储在对应存储地址的高n位中。在这种情况下，堆存储单元的位宽为数据位长的两倍。如图3B所示，节点P11的数据存储在堆存储单元mem1中，节点P11的两个子节点(即，P21和P22)的数据存储在堆存储单元mem2的同一地址下，节点P21的两个子节点(即，P31和P32)的数据存储在堆存储单元mem3的同一地址下(如mem3的第一行)，节点P22的两个子节点(即，P33和P34)的数据存储在堆存储单元mem3的另一地址下(如mem3的第二行)。通过将同一节点的各个子节点的数据存储在同一存储地址中，可以在一个时钟周期内从同一存储单元的同一存储地址中读取到同一节点的各个子节点的数据，从而减少数据读取次数，提高数据处理效率。

在一些实施例中，所述装置还可包括：预处理单元，用于对从数据存储装置获取的原始数据进行预筛选处理。经过预筛选处理的数据被输入后续的堆调整单元。所述预筛选处理是指从原始数据中过滤掉不需要进堆的数据。通过进行预筛选处理，能够减少数据进堆的次数，从而提高数据处理效率。输入数据量越大，预筛选处理的收益越明显，特别是对于前述top k数据排序场景中，收益较大。

其中，所述数据存储装置可以是位于本公开提供的装置外部的存储器，该外部存储器与本公开的数据处理装置相连。本公开不限制外部存储器的类型，例如，可以是易失性存储器，如RAM(Random Access Memory)、SDRAM(Synchronous Dynamic RAM)、DDR(Double Data Rate)SDRAM等等，也可以是非易失性存储器，如硬盘、移动硬盘、磁盘等等。

可选地，所述预处理单元可以在所述堆存储单元中存储的数据达到预设数量的情况下，对新获取到的所述原始数据进行预筛选处理。可选地，在所述堆存储单元中存储的数据未达到预设数量的情况下，所述预处理单元可以直接将所述原始数据输出至所述多个堆调整单元。所述预设数量可以等于堆存储单元可存储的数据总数，也就是说，在多个堆存储单元存满的情况下，才对新获取到的原始数据进行预筛选处理。在一些实施例中，可以根据原始数据的数量确定启用的堆存储单元的数量，在已启用的堆存储单元存满的情况下，才对新获取到的原始数据进行预筛选处理。例如，在原始数据的数量小于所有堆存储单元可存储的数据总数的情况下，仅启用部分堆存储单元，以使启用的堆存储单元可存储的数据总数等于原始数据的数量。又例如，在原始数据的数量大于或等于所有堆存储单元可存储的数据总数的情况下，可以启用全部堆存储单元。

在一些实施例中，所述预处理单元可以通过比较获取到的原始数据与所述堆的根节点的数据，对原始数据进行预筛选处理，以预先判定所述原始数据是否需要进堆。

例如，在所述堆为最小堆的情况下，堆的根节点的数据小于或等于其余任一节点的数据。在某一原始数据小于堆的根节点的数据的情况下，该原始数据必然也小于堆的其余任一节点的数据，从而无需通过堆调整单元对该原始数据进行排序。只有在某一原始数据大于堆的根节点的数据的情况下，才需要通过堆调整单元对该原始数据进行排序。因此，在获取到的原始数据小于或等于堆的根节点的数据的情况下，判定该原始数据不需要进堆，否则，判定该原始数据需要进堆。同理，在所述堆为最大堆的情况下，在获取到的原始数据大于或等于堆的根节点的数据的情况下，判定该原始数据不需要进堆，否则，判定该原始数据需要进堆。

在应用场景为确定原始数据中的top k个最大数据的情况下，采用最小堆能够有效提高数据处理效率。同理，在应用场景为确定原始数据中的top k个最小数据的情况下，采用最大堆能够有效提高数据处理效率。

在一些实施例中，所述预处理单元的数量可以为多个，可以采用多个所述预处理单元并行地对获取到的原始数据进行预筛选处理。通过进行预筛选处理，使得原始数据中有一部分数据不需要进堆。在top k排序场景下，尤其是在原始数据的数量与k值相差较大的情况下，会有相当一部分数据不需要进堆。因此，通过采用多个预处理单元并行地进行预筛选处理，能够有效提高预筛选效率，避免堆调整单元长时间处于空闲等待状态。

可选地，在判定原始数据需要进堆的情况下，所述预处理单元可以将所述原始数据传输至第一缓存单元或堆调整单元。对于需要进堆的原始数据，可以先将所述原始数据传输至第一缓存单元，然后将第一缓存单元中的原始数据依次输出至所述多个堆调整单元进行排序。或者，也可以由所述预处理单元将需要进堆的原始数据直接依次输出至所述多个堆调整单元进行排序。

可选地，在判定所述原始数据不需要进堆的情况下，所述预处理单元可以将所述原始数据删除。可选地，所述预处理单元还将不需要进堆的原始数据返回所述数据存储装置，并且所述堆调整单元将在排序过程中被挤出的原始数据返回所述数据存储装置，从而消除堆存储单元对输出有序数据量的限制，提高数据处理装置的通用性。其中，通过将不需要进堆的数据删除，可以节约存储空间。通过将此次排序未被选中的数据返回所述数据存储装置，可以便于在后续处理过程中再次使用返回所述数据存储装置的原始数据。例如，所述多个堆调整单元可以在所述多个堆存储单元中的数据均排序完成的情况下，对返回所述数据存储装置的数据进行再次排序。数据处理装置的硬件参数确定后，一次排序输出的有序数据量受堆容量的限制，例如，受到堆的层数、堆调整单元的数量、堆存储单元的大小等的影响，有可能不能输出足够数量的有序数据。本公开实施例提供的装置支持将排序过程中未选中的原始数据(如未进堆的原始数据和进堆后被挤出的原始数据)写回数据存储装置，以便进行多次排序，从而提高了数据处理装置的通用性。

在一些实施例中，可以对进堆的数据进行第一轮排序，在第一轮排序之后，再对第一轮排序未选中的数据进行下一轮排序。进一步地，在第二轮排序中可以按照第一轮排序的方式进行同样的处理，包括再次进行预筛选处理。通过这种方式，可以进行多轮排序，直到满足某一停止条件。该停止条件可以是待排序的原始数据全部排序完成。该停止条件也可以是已排序的数据的数量达到了要求的数量。通过多轮排序，实现了用堆容量较小的数据处理装置对数量较多的原始数据进行排序，避免了堆容量不足导致的排序失败，提高了数据处理装置的适用范围。第二轮及第二轮以后的排序过程与第一轮排序的过程相同，此处不再赘述。

在一些实施例中，在数据存储装置容量受限的情况下，也可以将原始数据分批写入数据存储装置，并分别对每一批写入数据存储装置的数据进行预筛选处理以及排序处理，从而实现了通过容量较小的数据存储装置来对数量较多的数据进行排序，避免了数据存储装置的容量不足导致的排序失败。

在一些实施例中，所述数据处理装置还包括第二缓存单元，用于对从数据存储装置获取的原始数据进行缓存，所述第二缓存单元将缓存后的原始数据发送给所述多个堆调整单元；所述多个堆调整单元用于对从所述第二缓存单元获取的原始数据与所述多个堆存储单元中的数据进行排序。可选地，所述第二缓存单元每次可以从数据存储装置获取一个或多个原始数据，并对获取的原始数据进行缓存。可选地，所述第一缓存单元可以每次从预处理单元获取一个或多个原始数据，并对获取的原始数据进行缓存。所述第一缓存单元和所述第二缓存单元可以是FIFO(First In First Out，先进先出)缓存单元。

如图4所示，是本公开另一些实施例的数据处理装置的示意图。其中，在该示例中，假设数据处理装置包括n+1个堆存储单元201、n个堆调整单元202、1个第一缓存单元203和4个预处理单元204。其中，每个堆存储单元用于存储堆的一层节点的数据，堆调整单元i用于访问第i个堆存储单元和第i+1个堆存储单元。假设在进行top k的数据排序任务下，数据通路如下。

(1)原始数据并行(假设并行度为4)经过4个预处理单元204，如果堆中数据的数量还未达到k个，则该原始数据直接进入第一缓存单元203；如堆中数据的数量达到k个，则每个预处理单元将输入的各个原始数据分别与当前堆顶(即，堆的根节点)的数据进行比较，在堆为最小堆的情况下，将大于堆顶的原始数据输出至第一缓存单元203，将小于或等于堆顶的数据通过第一输出端写回外部的数据存储装置(图中未示出)，以便进行多次排序。

(2)堆调整单元1从第一缓存单元203中取数。多个堆调整单元进行并行堆调整，将堆中数据调整为最小堆，可以通过第二输出端将从堆中挤出的数据写回数据存储装置，以便多次排序，重复上述过程，直到所有原始数据进堆完成。

本示例的装置所执行的指令如下。

(1)执行初始化指令，初始化n+1个堆存储单元201中的标志位。

(2)执行进堆指令，通过并行预筛选过程和并行堆调整过程，选取k个原始数组成最小堆，可采用多条进堆指令。

(3)执行出堆指令，通过并行堆调整向堆中输入数值最大的数据，将堆中k个有效数据通过第二输出端依次替换出，替换出的k个数据即为所需的top k数据。

在一些实施例中，每个堆存储单元可以包括标志位，标志位用于指示所述堆存储单元中的对应位置的数据是否有效。如图3B所示，堆存储单元mem1中包括节点P11的数据的标志位，如图中的flg1的黑色方块所示，堆存储单元mem2中包括节点P21和节点P22的数据的标志位，如图中的flg2，P21的标志位用黑色方块表示，P22的标志位用灰色方块表示，以此类推。在一个存储单元中可存储N个数据的情况下，该存储单元中可包括N个标志位。堆存储单元中的数据有效，表示所述数据是需要进行排序的数据；堆存储单元中的数据无效，表示所述数据不是需要进行排序的数据。在一些实施例中，在所述堆存储单元中的数据有效的情况下，所述标志位为第一数值。在所述堆存储单元中的数据无效的情况下，所述标志位为第二数值。例如，所述第一数值可以是“1”，所述第二数值可以是“0”。

一种常见的堆排序方式对各个堆存储单元中的数据进行初始化，并且，随着堆的深度增加，初始化的时间也会增加。而本公开实施例通过采用标志位，在向堆存储单元写入数据之前，可以对所述堆存储单元中的各个标志位进行初始化处理，从而无需对数据进行初始化处理。由于标志位的位长小于原始数据的位长(例如，标志位可以是1bit)，因此，在一些例子中可以仅需要1个时钟周期就能够实现所有堆存储单元标志位的初始化，对标志位进行初始化处理的时间小于对堆存储单元中的数据进行初始化的时间，从而提高了数据处理效率。每向所述堆存储单元写入一个有效数据，可以对写入的有效数据的标志位进行更新，也就是将该标志位从无效设置为有效，从而根据数据的标志位即可确定堆存储单元中的数据是否为有效数据。

在设置标志位的情况下，所述多个堆调整单元中的每个堆调整单元还用于：在第一堆存储单元的标志位指示对应位置的数据均为有效数据的情况下，对输入该堆调整单元的的原始数据和所述有效数据进行排序；在所述第一堆存储单元中的标志位指示对应位置的数据包括任一无效数据的情况下，输入到该堆调整单元的原始数据写入无效数据对应位置。其中，第一堆存储单元为该堆调整单元所访问的至少两个堆存储单元中更靠近根节点的堆存储单元。

在一些实施例中，在该堆调整单元访问的堆存储单元中的多个无效数据的情况下，按照先左后右的这种顺序，将输入到所述堆调整单元的数据写入靠左的无效数据对应的位置。

也就是说，只有有效数据才会参与排序，无效数据会被输入对应堆调整单元的原始数据直接替换掉。通过这种方式，实现了原始数据的进堆过程，避免了无效数据对有效数据的排序过程产生影响。

在对所述多个堆存储单元中的数据排序完成之后，需要将堆存储单元中的数据出堆。本公开实施例的数据出堆过程与数据进堆过程的处理方式类似，都是向所述多个堆调整单元输入一个数据，再由所述多个堆调整单元对输入的数据与堆存储单元中已存储的数据进行排序。

具体来说，在出堆过程中，所述多个堆调整单元中的每个堆调整单元可以访问至少两个堆存储单元，对获取到的指定数据与所述至少两个堆存储单元中存储的数据进行排序，以使所述至少两个堆存储单元中存储的数据出堆。出堆过程与排序过程类似，也是并行执行的。在出堆过程中，每次可以向所述多个堆存储单元输入一个指定数据，在最小堆应用场景中，所述指定数据的数值可以大于所述多个堆存储单元中存储的各个数据，例如，所述指定数据可以是数值为+∞的数据。所谓+∞的数据可以是原始数据的数据格式下的最大值，例如，对于16位浮点数，7c00 ₁₆可以表示+∞。在最大堆应用场景中，所述指定数据的数值可以小于所述多个堆存储单元中存储的各个数据，例如，所述指定数据可以是数值为-∞的数据。所谓-∞的数据可以是原始数据的数据格式下的最小值，例如，对于16位浮点数，fc00 ₁₆可以表示-∞。在输入指定数据之后，可以将堆的根节点的数据出堆，再由所述多个堆调整单元对所述指定数据以及堆存储单元中的其他数据并行地进行排序。

这样，可以将数据进堆、数据排序和数据出堆这三个过程统一通过相同的流程实现，从而有利于进行数据并行处理。

上述初始化、进堆以及出堆的过程可以分别由不同的指令控制。在传统的堆排序方案中，整个排序过程采用一条指令完成，参数固定后，数据处理装置的通用性较差。在本公开实施例中，一次排序分为初始化、进堆、出堆三个过程，分别对应三种指令，一次排序中可以有多条进堆指令(原始数据可以分多次输入)，既可以消除数据存储装置对原始数据的数量限制，又可以使堆调整单元与预处理单元并行运行，使用比较灵活。所述初始化、进堆以及出堆的过程中的指令可以由上级控制器发送至所述数据处理装置中的堆控制单元，并在所述堆控制单元的控制下实现。

在一些实施例中，所述装置还包括：堆控制单元，用于执行以下至少任一操作：在接收到初始化指令的情况下，控制所述多个堆存储单元在同一个时钟周期内进行初始化；在接收到进堆指令的情况下，从数据存储装置读取原始数据，将读取到的所述原始数据传输至所述多个堆调整单元，以使所述多个堆调整单元对所述原始数据和多个堆存储单元中的数据进行排序；以及在接收到出堆指令的情况下，控制所述多个堆调整单元按照特定顺序将所述多个堆存储单元中的数据从堆顶输出。

具体来说，所述堆控制单元在接收到初始化指令的情况下，可以将初始化信号发送至堆存储单元，以对堆存储单元中的各个标志位进行初始化。所述堆控制单元在接收到进堆指令的情况下，可以从数据存储装置中读取原始数据，将所述原始数据输出至预处理单元，由预处理单元判断所述原始数据是否需要进行预筛选处理。如果需要，所述预处理单元将不需要进堆的原始数据直接删除或返回所述数据存储装置，将需要进堆的数据输出至第一缓存单元；如不需要进行预筛选处理，则直接将原始数据输出至第一缓存单元。堆调整单元接收到第一缓存单元中的原始数据，根据原始数据的大小对堆存储单元中的数据进行逐级调整，直到所有需要排序的原始数据都处理完毕。

所述堆控制单元在接收到出堆指令的情况下，将指定数据输出至堆调整单元，堆调整单元接收所述指定数据，对堆存储单元中的数据进行逐级调整，每一个指定数据进堆之后，堆存储单元中都会有一个数据(即堆的根节点的数据)被挤出堆，所述堆控制单元将该挤出的数据依次输出到数据处理装置的数据输出端口。

如图5A至5F是本公开实施例的排序过程中节点数据变化的示意图。本实施例以最小堆为例进行说明，最大堆的排序过程与最小堆类似，此处不再赘述。假设堆的深度为6，即，堆中包括6层节点，每层节点中各个节点的数据存储在一个独立的堆存储单元中，同一节点的各个子节点的数据存储在同一堆存储单元中相同的地址中，第i层节点对应的堆存储单元为堆存储单元i，访问堆存储单元i与堆存储单元i+1的堆调整单元为堆调整单元i，第i层的各个节点记为Pij，1≤j≤2 ^i-1，i为正整数。

假设初始时刻t0的堆如图5A所示。在t1时刻，原始数据“70”进堆，节点P11的数据“8”从所述堆存储单元1中被挤出，堆调整单元1从堆存储单元2中读取节点P21的数据和节点P22的数据进行比较，堆调整单元1将节点P21的数据写入节点P11对应的堆存储单元1，将原始数据“70”输出至堆调整单元2，如图5B所示。

在t2时刻，堆调整单元2从堆存储单元3中读取节点P31的数据和节点P32的数据进行比较，堆调整单元2将节点P31的数据写入节点P21对应的堆存储单元2，将原始数据“70”输出至堆调整单元3如图5C所示。

在t3时刻，堆调整单元3从堆存储单元4中读取节点P41的数据和节点P42的数据；同时，原始数据“75”进堆，节点P11的数据“12”从所述堆存储单元1中被挤出，堆调整单元1从堆存储单元2中读取节点P21的数据和节点P22的数据，如图5D所示。

在t4时刻，堆调整单元3将节点P41的数据写入节点P31对应的堆存储单元3，将原始数据“70”输出至堆调整单元4，堆调整单元4从堆存储单元5中读取节点P51的数据和节点P52的数据；同时，堆调整单元1将节点P22的数据写入节点P11对应的堆存储单元1，将原始数据“75”输出至堆调整单元2，堆调整单元2从堆存储单元3中读取节点P31的数据和节点P32的数据，堆调整单元4将节点P51的数据写入节点P41对应的堆存储单元3，将原始数据“70”输出至堆调整单元5，如图5E所示。

在t5时刻，堆调整单元5从堆存储单元6中读取节点P61的数据和节点P62的数据；同时，堆调整单元2将节点P34的数据写入节点P22对应的堆存储单元2，将原始数据“75”输出至堆调整单元3，堆调整单元3从堆存储单元4中读取节点P47的数据和节点P48的数据；同时，原始数据“80”进堆，如图5F所示。

其中，在一些例子中，由于堆调整单元的调整需要两个周期，t1和t2的起始时刻相隔至少两个周期，t2和t3的起始时刻相隔至少两个周期。

可见，从t3时刻开始，同时有2个堆调整单元在工作。同理，从t5时刻开始，同时有3个堆调整单元在工作，从t7时刻开始，同时有3个堆调整单元在工作，以此类推。与非并行排序方式中每个时刻只能由一个堆调整单元在运行相比，本公开实施例的并行堆排序的方式能够将排序时间缩短到约为原来的1/3。堆的深度越大，同时工作的堆调整单元的数量也越多，也就是并行度越高，缩短的时间就越多。

图6是堆的深度为8时的数据流动过程的示意图。其中，d1、d2等表示输入的原始数据，t1、t2等表示时间，adj1、adj2等表示堆调整单元。可以看出，本公开实施例在堆排序过程中将建堆、堆调整两个过程合并为统一的自上而下的堆调整过程，堆的相邻两层节点的数据通过一个堆调整单元进行调整，多个堆调整单元组成阵列，输入数据流水经过各个堆调整单元，不同时刻，多个堆调整单元可并行执行。且从t6时刻开始，达到最大并行度，即，4。例如，在t7时刻，堆调整单元1、堆调整单元3、堆调整单元5和堆调整单元7均同时工作。应当说明的是，由于下一级堆调整单元可能会修改上一级堆调整单元所需的堆存储单元中存储的数据，为避免数据读写冲突，相邻两个原始数据进堆的时间需要间隔一级，即第m个原始数据本身或者被第m个原始数据从堆存储单元中替换出来的数据通过adj3进行排序时，第m+1个原始数据才可通过adj1进行排序。

本公开实施例的数据处理装置中的各个单元可基于FPGA(Field Programmable Gate Array，现场可编程门阵列)、PLD(programmable logic device，可编程逻辑器件)、ASIC(Application Specific Integrated Circuit，专用集成电路)控制器、微控制器、微处理器或其他电子元件实现。

本公开提供的数据处理装置实现了并行堆排序，提高了数据处理效率。在一些实施例中，无需对堆存储单元中的数据进行初始化，仅需对标志位进行初始化，提高了初始化效率。在一些实施例中，可以进行预筛选处理，减少了原始数据进堆的次数，进一步提高了数据处理效率。在一些实施例中，可以进行多轮排序，支持对数据存储装置中的原始数据进行多次排序，也支持将原始数据分批写入数据存储装置后与堆存储单元中的同一批数据进行排序，排序过程不受堆存储单元以及数据存储装置大小的限制，通用性较强。

相应地，本公开实施例还提供一种集成电路，所述集成电路包括任一实施例所述的数据处理装置。

在一些实施例中，所述集成电路还包括：控制器，用于向所述数据处理装置发送以下至少任一指令：初始化指令，用于指示所述多个堆存储单元进行初始化；进堆指令，用于指示所述多个堆调整单元获取原始数据，并对所述原始数据和所述多个堆存储单元中存储的数据进行排序；以及出堆指令，用于指示所述多个堆调整单元按照特定顺序将所述多个堆存储单元中存储的数据输出。

其中，所述初始化指令、所述进堆指令和所述出堆指令可以是不同的指令。在本公开实施例中，一次排序分为初始化、进堆、出堆三个过程，分别对应三种指令，一次排序中可以有多条进堆指令(原始数据可以分多次输入)，既可以消除数据存储装置对原始数据的数量限制，又可以使堆调整单元与预处理单元并行运行，使用比较灵活。在一个例子中，所述初始化、进堆以及出堆的过程中的指令可以由集成电路的控制器发送至所述数据处理装置中的堆控制单元，并在所述堆控制单元的控制下实现。

相应地，本公开实施例还提供一种AI(Artificial Intelligence，人工智能)加速器，所述AI加速器包括任一实施例所述的集成电路。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

本领域技术人员在考虑说明书及实践这里公开的说明书后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

Claims

一种用于数据处理的装置，其特征在于，所述装置包括：

多个堆存储单元，每个堆存储单元用于存储堆的一组节点的数据，所述一组节点中包括所述堆的同一层节点中的至少部分节点；以及

多个堆调整单元，每个堆调整单元用于访问至少两个堆存储单元，以对输入的原始数据与所述至少两个堆存储单元中存储的数据进行排序。
根据权利要求1所述的装置，其特征在于，

每个堆调整单元访问的所述至少两个堆存储单元用于存储所述堆的相邻层节点的数据；和/或

所述多个堆调整单元中每个堆调整单元用于获取所述输入的原始数据，并将所述获取到的原始数据和访问的所述至少两个堆存储单元中的至少一个堆存储单元中的数据进行排序。
根据权利要求1或2所述的装置，其特征在于，

所述多个堆调整单元中两个相邻堆调整单元分别访问的两个堆存储单元中包括一个相同的堆存储单元；和/或

所述多个堆调整单元中的至少两个堆调整单元并行进行排序，所述至少两个堆调整单元访问的堆存储单元互不相同。
根据权利要求1至3任意一项所述的装置，其特征在于，相邻两个数据的进堆时序之间间隔两个堆存储单元的处理周期。
根据权利要求1至4任意一项所述的装置，其特征在于，所述堆的同一节点的各个子节点的数据存储在同一堆存储单元的同一地址中。
根据权利要求1至5任意一项所述的装置，其特征在于，所述装置还包括：

预处理单元，用于对从数据存储装置获取的原始数据进行预筛选处理，经过预筛选处理的数据被输入所述多个堆调整单元。
根据权利要求6所述的装置，其特征在于，所述预处理单元用于在所述堆存储单元中存储的数据达到预设数量的情况下，对新获取到的所述原始数据进行所述预筛选处理。
根据权利要求6或7所述的装置，其特征在于，所述预处理单元用于通过比较所述原始数据与所述堆的根节点的数据，对所述原始数据进行所述预筛选处理，以预先判定所述原始数据是否需要进堆。
根据权利要求6至8任意一项所述的装置，其特征在于，所述预处理单元的数量为多个，多个所述预处理单元用于并行对获取到的所述原始数据进行所述预筛选处理。
根据权利要求6至9任意一项所述的装置，其特征在于，所述预处理单元用于：

在判定所述原始数据需要进堆的情况下，将所述原始数据传输至缓存单元或所述多个堆调整单元；和

在判定所述原始数据不需要进堆的情况下，将所述原始数据删除或返回所述数据存储装置。
根据权利要求10所述的装置，其特征在于，所述多个堆调整单元还用于：

将在排序过程中被挤出的原始数据返回所述数据存储装置；

在所述多个堆存储单元中的数据均排序完成的情况下，对返回所述数据存储装置的原始数据进行再次排序。
根据权利要求6至11任意一项所述的装置，其特征在于，所述装置还包括：

第一缓存单元，用于对从所述预处理单元获取的经过所述预筛选处理的原始数据进行缓存；

所述多个堆调整单元用于对从所述第一缓存单元获取的原始数据与所述多个堆存储单元中的数据进行排序。
根据权利要求1至5任意一项所述的装置，其特征在于，所述装置还包括：

第二缓存单元，用于对从数据存储装置获取的原始数据进行缓存；

所述多个堆调整单元用于对从所述第二缓存单元获取的原始数据与所述多个堆存储单元中的数据进行排序。
根据权利要求1至13任意一项所述的装置，其特征在于，所述堆存储单元均包括标志位，其中，所述标志位用于指示所述堆存储单元中的对应位置的数据是否有效。
根据权利要求14所述的装置，其特征在于，所述堆存储单元还用于：

对所述堆存储单元中的各个标志位进行初始化处理；和/或

在确定一个标志位的对应位置写入有效数据的情况下，对该标志位进行更新。
根据权利要求14或15所述的装置，其特征在于，所述多个堆调整单元中的每个堆调整单元还用于：

在该堆调整单元访问的第一堆存储单元的标志位指示对应位置的数据均为有效数据的情况下，对输入到该堆调整单元的原始数据和所述有效数据进行排序，其中，所述第一堆存储单元为该堆调整单元所访问的所述至少两个堆存储单元中更靠近根节点的堆存储单元；和

在所述第一堆存储单元的标志位指示对应位置的数据包括任一无效数据的情况下，将输入到该堆调整单元的所述原始数据写入所述无效数据对应的位置。
根据权利要求1至16任意一项所述的装置，其特征在于，所述多个堆调整单元中的每个堆调整单元用于：

读取至少两个堆存储单元中的至少一个堆存储单元中存储的数据；

对输入该堆调整单元的原始数据与所述读取的数据进行排序；以及

根据排序的要求，将所述排序结果中较大或较小的数据写入所述至少两个堆存储单元中另一个堆存储单元，其中，所述另一个堆存储单元与所述至少一个堆存储单元不是同一个堆存储单元。
根据权利要求1至17任意一项所述的装置，其特征在于，所述装置还包括：堆控制单元，用于执行以下至少任一操作：

在接收到初始化指令的情况下，控制所述多个堆存储单元在同一个时钟周期内进行初始化；

在接收到进堆指令的情况下，从数据存储装置读取原始数据，将读取到的所述原始数据传输至所述多个堆调整单元，以使所述多个堆调整单元对所述原始数据和多个堆存储单元中的数据进行排序；以及

在接收到出堆指令的情况下，控制所述多个堆调整单元按照特定顺序将所述多个堆存储单元中的数据从堆顶输出。
一种集成电路，其特征在于，所述集成电路包括权利要求1至18任意一项所述的数据处理装置。
根据权利要求19所述的集成电路，其特征在于，所述集成电路还包括控制器，用于向所述数据处理装置发送以下至少任一指令：

初始化指令，用于指示所述多个堆存储单元进行初始化；

进堆指令，用于指示所述多个堆调整单元获取原始数据，并对所述原始数据和所述多个堆存储单元中存储的数据进行排序；以及

出堆指令，用于指示所述多个堆调整单元按照特定顺序将所述多个堆存储单元中存储的数据输出。
一种人工智能AI加速器，其特征在于，所述AI加速器包括权利要求19或20所述的集成电路。