WO2022105743A1

WO2022105743A1 - 一种算子计算方法、装置、设备及系统

Info

Publication number: WO2022105743A1
Application number: PCT/CN2021/130883
Authority: WO
Inventors: 鲍旭
Original assignee: 华为技术有限公司
Priority date: 2020-11-19
Filing date: 2021-11-16
Publication date: 2022-05-27
Also published as: CN114519167A; US20230289183A1; EP4242880A1

Abstract

人工智能领域的一种算子计算方法、装置、设备及系统，该方法包括：获取AI网络的第一数据形状的参数数据，第一数据形状是AI网络支持处理的每个维度上的数据长度，参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照组合信息组合后在任一维度上的数据长度大于或等于第一数据形状在同一维度上的数据长度（S171）；调用至少两个计算单元，对具有第一数据形状的第一目标数据进行计算（S172）。因此，该方法通过组合至少两个计算单元的方式来支持任意范围数据形状的变化，实现了AI动态形状算子功能，提高了AI网络启动速度。

Description

一种算子计算方法、装置、设备及系统

本申请要求于2020年11月19日提交中国国家知识产权局、申请号为2020113019355、申请名称为“一种算子计算方法、装置、设备及系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种算子计算方法、装置、设备及系统。

背景技术

AI(Artificial Intelligence,人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人，自然语言处理，计算机视觉，决策与推理，人机交互，推荐与搜索，AI基础理论等。

目前，随着计算机技术的不断发展，AI网络也得到了广泛的应用。并且，AI网络越来越复杂，AI网络中AI算子的类型也越来越多，即使是同一类型AI算子，其需要支持处理的数据的数据形状也越来越多，若针对每个不同的数据形状，均需要重新编译一个AI算子，使得编译越来越耗时，也降低了AI网络启动速度。

发明内容

本申请实施例提供了一种算子计算方法、装置、设备及系统，通过组合至少两个计算单元的方式来支持任意范围数据形状的变化，从而实现了AI动态形状算子功能，提高了AI网络启动速度。

第一方面，本申请实施例提供了一种算子计算方法，所述方法包括：

获取AI网络的第一数据形状的参数数据，所述第一数据形状是所述AI网络支持处理的每个维度上的数据长度，所述参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度；

调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算。

也就是说，针对AI网络支持处理的第一数据形状，不是重新编译算子，而是获取第一数据形状的参数数据，该参数数据包括至少两个计算单元的组合信息，并通过调用这些计算单元来实现对具有第一数据形状的第一目标数据的计算，从而避免了针对每个不同的第一数据形状均需要重新编译一个AI算子，而是通过组合至少两个计算单元的方式来支持任意范围数据形状的变化，实现了AI动态形状算子功能，提高了AI网络启动速度。

其中，该方法中的第一数据形状的数量可能是一个或多个。由于第一数据形状实际上指的是算子的属性，即AI网络中一个或多个算子中每个算子支持处理的每个维度上的数据长度，所以第一数据形状的数量可能是一个或多个。这里的多个算子可以是相同类型的算子，也可以是不同类型的算子。针对相同类型的算子，若算子支持处理的数据形状不一样，将会导致第一数据形状的数量可能为多个；针对不同类型的算子，由于算子类型不同，也会导致第一数据形状的数量可能为多个。

第二数据形状指的是计算单元支持处理的每个维度上的数据长度。

第二数据形状和第一数据形状的关系为：每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。

比如：第二数据形状包括长度、宽度和高度这三个维度；每个计算单元的第二数据形状按照所述组合信息组合后：在长度这个维度上的数据长度大于或等于第一数据形状在长度这个维度上的数据长度，在宽度这个维度上的数据长度大于或等于第一数据形状在宽度这个维度上的数据长度，在高度这个维度上的数据长度大于或等于第一数据形状在高度这个维度上的数据长度。该方法中的计算单元可以等同于算子，该计算单元可以是AI网络的算子，也可以是算子的一个组成部分。该方法中的组合信息可以包括至少两个计算单元的组合模式。比如：第一数据形状在某个维度上的数据长度为11，组合信息中的至少两个计算单元的组合模式可以是数据长度为5的计算单元+数据长度为5的计算单元+数据长度为5的计算单元；也可以是数据长度为5的计算单元+数据长度为5的计算单元+数据长度为1的计算单元。

该方法中的参数数据可以以参数表的形式保存在缓存中。

在一种可能的实现方式中，所述至少两个计算单元包括相同的计算单元；或不同的计算单元；或相同的计算单元和不同的计算单元；

其中，相同的计算单元的第二数据形状，在每个维度上的数据长度均相同；不同的计算单元的第二数据形状，在至少一个维度上的数据长度不同。

也就是说，在该种实现方式中，可以通过在每个维度上的数据长度是否相同，来确定相同的计算单元和不同的计算单元。

在一种可能的实现方式中，所述至少两个计算单元均为所述AI网络的计算单元。

也就是说，在该种实现方式中，可以通过调用AI网络的至少两个计算单元，来实现对AI网络支持处理的第一数据形状的第一目标数据的计算。

其中，该方式中的至少两个计算单元可以是AI网络的计算单元，还可以是除了AI网络之外的其他网络的计算单元。这里的AI网络和其他网络可以用于实现不同的功能，比如：目标检测、图像分类、音频处理、自然语言处理等功能。

针对实现不同功能的AI网络和其他网络，可以包括相同的计算单元，比如：AI网络和其他网络均包括卷积计算单元；也可以包括不同的计算单元，AI网络不包括卷积计算单元，而其他网络包括卷积算子单元。示例性的，若AI网络不包括卷积计算单元，而其他网络包括卷积算子单元，在AI网络需要使用卷积计算单元时，可以使用其他网络包括的卷积算子单元。

在一种可能的实现方式中，所述组合信息包括所述至少两个计算单元的组合模式；

每个计算单元的第二数据形状按照所述组合模式组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。

也就是说，在该种实现方式中，第二数据形状和第一数据形状的关系为：每个计算单元的第二数据形状按照一定的组合模式组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。

在一种可能的实现方式中，所述所述参数数据中还包括针对指定计算单元的标识信息；

其中，所述指定计算单元指的是所述至少两个计算单元中需要处理的数据为具有第三数据形状的数据的计算单元，所述第三数据形状在至少一个维度上的数据长度小于所述指定计算单元支持处理的第二数据形状在同一维度上的数据长度。

也就是说，在该种实现方式中，针对需要处理第三数据形状的数据的指定计算单元，可以在参数数据中对该指定计算单元添加标识信息，以便后续调用该指定计算单元对具有第三数据形状的数据进行计算，从而提高了算子计算的准确性。

在一种可能的实现方式中，所述参数数据中还包括所述指定计算单元针对所述具有第三数据形状的数据的指定处理方式。

也就是说，在该种实现方式中，针对需要处理第三数据形状的数据的指定计算单元，还可以在参数数据中对该指定计算单元添加指定处理方式，以便后续调用该指定计算单元，采用指定处理方式对第三数据形状的数据进行计算。

在一种可能的实现方式中，所述指定处理方式包括：

丢弃无效数据，所述无效数据是所述指定计算单元支持处理的第二数据形状中除了具有所述第三数据形状的数据之外的数据；或

数据重叠，所述数据重叠是将所述无效数据与另一计算单元需要处理的数据进行重叠。

也就是说，在该种实现方式中，指定处理方式可以为丢弃无效数据，也可以是数据重叠，以便后续根据该指定处理方式对第三数据形状的数据进行计算，丰富了算子计算的实现方式，也提高了算子计算的可靠性。

在一种可能的实现方式中，所述参数数据中还包括所述指定计算单元支持所述第三数据形状在每个维度上的指定变化范围。

也就是说，在该种实现方式中，由于指定计算单元支持处理的第二数据形状是固定的，指定计算单元需要处理的第三数据形状是可以变化的，但其变化是有一定变化范围，所以在参数数据中可以添加第三数据形状在每个维度上的指定变化范围，以便实现同一个计算单元可以支持一定变化范围的数据形状的变化。

在一种可能的实现方式中，所述指定变化范围为所述指定计算单元支持处理的第二数据形状在每个维度上的数据长度；或所述第二数据形状在每个维度上的数据长度中的指定部分长度。

也就是说，在该种实现方式中，可以实际情况选择不同的变化范围，若数据在每个维度上的数据长度比较小时，可以在整个数据长度内的变化，比如：数据长度为16，可以在0至16内变化；若数据在每个维度上的数据长度比较大时，可以在该数据长度的尾部小范围内的变化，比如：数据长度为100，可以支持在90至100内变化，这样可以保证算子计算的效率，避免了大量的重复计算。

在一种可能的实现方式中，所述参数数据包括分档参数数据，所述分档参数数据用于支持指定变化范围的数据形状。

也就是说，在该种实现方式中，不同的第一数据形状的参数数据可以相同，即分档参数数据，这样不必每个不同数据形状都对应不同的参数数据，从而有效减少了缓存中参数数据的数量，避免了资源浪费。

在一种可能的实现方式中，所述调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算，包括：

从计算单元算子库中获取所述至少两个计算单元；

通过所述至少两个计算单元对具有所述第一数据形状的第一目标数据进行计算。

也就是说，在该种实现方式中，计算单元算子库可以包括很多个预先编译好的计算单元，在进行算子计算时，可以直接从计算单元算子库获取即可，从而提高了算子计算的效率，也提高了AI网络启动速度。

其中，计算单元算子库包括的计算单元可以用于实现不同的运算，比如：卷积、相加、矩阵相乘等。这些实现不同运算的计算单元可以被多个AI网络使用，这里的多个AI网络可以用于实现不同的功能，比如：目标检测、图像分类、音频处理、自然语言处理等功能。

针对任一计算单元，确定所述任一计算单元中需要处理的第二目标数据在所述第一目标数据中的目标位置；

按照所述目标位置从存储有所述第一目标数据的内存空间中，获取所述任一计算单元需要处理的第二目标数据；

通过所述任一计算单元对所述第二目标数据进行计算。

也就是说，在该种实现方式中，在进行算子计算时，可以先确定需要处理的第二目标数据在第一目标数据中的目标位置，再按照目标位置从内存空间中获取第二目标数据，并通过计算单元来完成对第二目标数据的计算，从而提高了算子计算的可靠性。

其中，该方式中的内存空间可以指的是在内存中用于保存数据的存储空间，其地址是一维的。在内存空间中获取第二目标数据时，由于第二目标数据可能是多维的，需要采用跳读跳写的方式从内存空间中获取第二目标数据，以及计算完成后，再采用跳读跳写的方式将计算得到的输出数据保存至内存空间中。

值得说明的是，在确定需要处理的第二目标数据在第一目标数据中的目标位置时，若参数数据中包括各个第二数据形状在第一数据形状的位置信息，可以根据该位置信息确定第二目标数据在第一目标数据中的目标位置。

在一种可能的实现方式中，所述目标位置包括：所述第二目标数据所在的各个维度；以及，针对任一维度，所述第二目标数据在所述任一维度上的偏移和数据长度。

也就是说，在该种实现方式中，由于第二目标数据可能是多维的，所以目标位置需要包括第二目标数据所在的各个维度，以及第二目标数据在任一维度上的偏移和数据长度，从而提高了目标数据获取的准确性和效率。

在一种可能的实现方式中，所述至少两个计算单元属于不同类型的算子。

也就是说，在该种实现方式中，参数数据中的至少两个计算单元可以属于同一类型的算子，即实现同一功能；也可以属于不同类型的算子，即实现不同功能，比如：卷积算子，add(相加)算子，matmul(矩阵相乘)算子等。

其中，该方式中的不同类型的算子可以指的是级联成融合算子的各个算子。融合算子指的是级联的不同类型算子，融合成一个算子一次性计算完成。此时，参数数据中的至少两个计算单元可以是这些不同类型算子的计算单元，比如：conv算子的计算单元、relu算子的计算单元、abs算子的计算单元、exp算子的计算单元等，这样在算子计算时，可以通过调用参数数据中这些不同类型算子的计算单元来完成融合算子的计算，从而避免了一种类型的算子计算完再调用另一个类型的算子进行计算，提高了融合算子的计算效率。

在一种可能的实现方式中，所述计算单元为预先编译好的算子。

也就是说，在该种实现方式中，该方法中的计算单元可以等同于算子，并且是预先编译好的算子。比如：计算单元算子库中可以包括很多个预先编译好的计算单元，在进行算子计算时，可以直接从计算单元算子库获取即可，从而提高了算子计算的效率，也提高了AI网络启动速度。

其中，该方式中的预先编译好的算子可以是编译主机编译出可发布的静态计算单元二进制包，所有的执行主机都只需要导入静态计算单元二进制包即可；也可以是执行主机预先编译好很多个计算单元，并将这些预先编译好的计算单元存入缓存，这样在进行算子计算时，可以直接从缓存获取即可，同样提高了算子计算的效率，也提高了AI网络启动速度。值得说明的是，静态计算单元中的静态指的是该计算单元支持处理的数据形状是固定不变的，这样预先编译好的计算单元可以直接用于算子计算，而不用重新编译。

第二方面，本申请实施例提供了一种算子计算装置，所述装置包括：

获取模块，被配置为获取AI网络的第一数据形状的参数数据，所述第一数据形状是所述AI网络支持处理的每个维度上的数据长度，所述参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度；

计算模块，被配置为调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算。

在一种可能的实现方式中，所述参数数据中还包括针对指定计算单元的标识信息；

在一种可能的实现方式中，所述指定处理方式包括：

在一种可能的实现方式中，所述计算模块包括：

第一获取子模块，被配置为从计算单元算子库中获取所述至少两个计算单元；

第一计算子模块，被配置为通过所述至少两个计算单元对具有所述第一数据形状的第一目标数据进行计算。

在一种可能的实现方式中，所述计算模块包括：

确定子模块，被配置为针对任一计算单元，确定所述任一计算单元中需要处理的第二目标数据在所述第一目标数据中的目标位置；

第二获取子模块，被配置为按照所述目标位置从存储有所述第一目标数据的内存空间中，获取所述任一计算单元需要处理的第二目标数据；

第二计算子模块，被配置为通过所述任一计算单元对所述第二目标数据进行计算。

第三方面，本申请实施例提供了一种算子计算装置，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行第一方面中的方法。

第四方面，本申请实施例提供了一种算子计算设备，包含第二方面或第三方面中所提供的装置。

第五方面，本申请实施例提供了一种算子计算系统，包括第四方面中所提供的算子计算设备和算子编译设备；

其中，所述算子计算设备包含包含第二方面或第三方面中所提供的装置；

所述算子编译设备用于编译出可发布的计算单元包；

所述算子计算设备用于导入所述计算单元包。

第六方面，本申请实施例提供了一种计算机存储介质，计算机存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行第一方面中所提供的方法。

第七方面，本申请实施例提供了一种包含指令的计算机程序产品，当指令在计算机上运行时，使得计算机执行第一方面中所提供的方法。

第八方面，本申请实施例提供了一种芯片，包括至少一个处理器和接口；

接口，用于为至少一个处理器提供程序指令或者数据；

至少一个处理器用于执行程序行指令，以实现第一方面中所提供的方法。

本申请公开了一种算子计算方法、装置、设备及系统，通过获取AI网络的第一数据形状的参数数据，第一数据形状是AI网络支持处理的每个维度上的数据长度，参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照组合信息组合后在任一维度上的数据长度大于或等于第一数据形状在同一维度上的数据长度；调用至少两个计算单元，对具有第一数据形状的第一目标数据进行计算，这样可以通过组合至少两个计算单元的方式来支持任意范围数据形状的变化，从而实现了AI动态形状算子功能，提高了AI网络启动速度。

附图说明

图1是一种人工智能主体框架示意图；

图2是一种算子计算的系统架构示意图；

图3是一种数据形状变化示意图；

图4是一种算子计算过程的示意图；

图5是一种算子计算的系统架构示意图；

图6是一种终端设备的组件结构图；

图7是一种AI芯片硬件结构图；

图8是一种用于算子计算过程中的跳读跳写场景示意图；

图9是一种跳读跳写支持方式示意图；

图10是一种尾部数据处理方式示意图；

图11是一种参数表结构示意图；

图12是一种分档数据表的应用场景示意图；

图13是一种融合算子示意图；

图14是一种算子计算过程示意图；

图15是一种算子计算过程示意图；

图16是一种算子计算过程示意图；

图17是本申请实施例提供的一种算子计算方法的流程示意图；

图18是本申请实施例提供的一种算子计算装置的结构示意图；

图19是本申请实施例提供的一种算子计算装置的结构示意图；

图20是本申请实施例提供的一种芯片的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是一种人工智能主体框架示意图，该主体框架描述了人工智能系统总体工作流程，适用于通用的人工智能领域需求。

下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。

“智能信息链”反映从数据的获取到处理的一列过程。举例来说，可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中，数据经历了“数据—信息—知识—智慧”的凝练过程。

“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程，反映人工智能为信息技术产业带来的价值。

(1)基础设施：

基础设施为人工智能系统提供计算能力支持，实现与外部世界的沟通，并通过基础平台实现支撑。通过传感器与外部沟通；计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供；基础平台包括分布式计算框架及网络等相关的平台保障和支持，可以包括云存储和计算、互联互通网络等。举例来说，传感器和外部沟通获取数据，这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。

(2)数据

基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、语音、文本，还涉及到传统设备的物联网数据，包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。

(3)数据处理

数据处理通常包括数据训练，机器学习，深度学习，搜索，推理，决策等方式。

其中，机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。

推理是指在计算机或智能系统中，模拟人类的智能推理方式，依据推理控制策略，利用形式化的信息进行机器思维和求解问题的过程，典型的功能是搜索与匹配。

决策是指智能信息经过推理后进行决策的过程，通常提供分类、排序、预测等功能。

(4)通用能力

对数据经过上面提到的数据处理后，进一步基于数据处理的结果可以形成一些通用的能力，比如可以是算法或者一个通用系统，例如，翻译，文本的分析，计算机视觉的处理，语音识别，图像的识别等等。

(5)智能产品及行业应用

智能产品及行业应用指人工智能系统在各领域的产品和应用，是对人工智能整体解决方案的封装，将智能信息决策产品化、实现落地应用，其应用领域主要包括：智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶，平安城市，智能终端等。

需要说明的是，本申请涉及到的算子计算位于上述(3)中的数据处理阶段。

图2是一种算子计算的系统架构示意图，如图2所示，机器学习平台4011在AI网络的初始化4012阶段，可以解析出AI网络中所有的AI算子、以及各个AI算子需要支持处理的数据形状，并利用AI编译器4018完成算子编译；在AI网络的执行阶段(即运行时引擎4014)，可以调用算子4016，并执行算子计算(即执行模块4017)。其中，AI算子可以指的是AI网络中实现一个特定计算的单元模块。比如：卷积算子，add(相加)算子，matmul(矩阵相乘)算子等。

可见，AI网络越复杂，AI网络中AI算子的类型也越多，即使是同一类型AI算子，其需要支持处理的数据的数据形状也越来越多，若针对每个不同的数据形状，均需要重新编译一个AI算子，使得编译越来越耗时，也降低了AI网络启动速度。

需要说明的是，本申请涉及到的数据形状(shape)指的是算子计算的数据在每个维度上的数据长度。该数据形状可以在一个维度上变化，也可以在多个维度上同时变化。如图3所示，该图形数据可以在长度这一个维度上发生变化，也可以在长度、宽度这两个维度上均发生变化。

为了解决上述技术问题，本申请提供了一种算子计算方法、装置、设备及系统，通过组合二进制的静态计算单元的方式实现AI动态shape算子功能，能够支持任意范围数据shape的变化，提高了AI网络启动速度。

需要说明的是，本申请涉及到的静态计算单元中的“静态”指的是该计算单元支持处理的数据形状是固定不变的，这样预先编译好的静态计算单元可以直接用于算子计算，而不用重新编译。

本申请涉及到的参数表指的是以表格的形式来描述AI网络支持的第一数据形状的参数数据，该参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据。

下面通过具体实施例进行说明。

图4是一种算子计算过程的示意图。如图4所示，该算子计算可以用于AI网络，AI网络中算子很多。比如：卷积算子，add(相加)算子，matmul(矩阵相乘)算子等。在AI网络初始化时，通过分析算子并简化网络，得到所需算子的类型。对于执行时数据形状可变的AI网络，部分算子需要支持处理的数据形状是可变的，包含了图4中左侧“执行时数据形状不变”和右侧“执行时数据形状可变”两种场景。对于执行时数据形状不变的AI网络，则只包含图4中左侧“执行时数据形状不变”这一种场景。图4中的静态计算单元可以事先保存在静态计算单元算子库中，在调用静态计算单元完成计算时，可以从静态计算单元算子库取出使用。图4中各部分的含义，具体如下：

静态计算单元：只完成固定数据形状计算的算子单元，该算子单元也等同于一种算子。每种类型算子可以包含调优后的若干个不同数据形状的静态计算单元，不同类型的算子可以实现不同的功能，比如：卷积算子，add(相加)算子，matmul(矩阵相乘)算子等。

参数表：用于描述静态计算单元组合模式的数据结构。每个静态计算单元完成一块数据的计算，根据参数表里的参数将多个静态计算单元组合后能完成全部数据的计算。

AI网络初始化：分析AI网络算子类型等初始化操作阶段。

AI网络初执行：调用算子并完成计算的过程。其中，算子计算可以通过参数表和静态计算单元的结合完成，参数表作为静态计算单元的一个入参。

执行时数据形状不变场景：针对数据形状不变的算子，可以在AI网络初始化时生成参数表并保存在缓存中，在AI网络执行时直接从缓存中获取即可。

执行时数据形状可变场景：针对数据形状可变的算子，可以在AI网络执行时生成参数表，再根据参数表调用静态计算单元完成计算，若使用了缓存机制，再使用该参数表时可以从缓存中获取，而不需要每次使用参数表时都重新生成该参数表。

图5是一种算子计算的系统架构示意图。本申请的产品实现形态，是包含在AI编译器、机器学习/深度学习平台软件中，并部署在主机硬件上的程序代码。以图5所示的应用场景为例，本申请的程序代码存在于AI编译器的静态计算单元编译模块内部和平台软件的初始化模块、以及运行时引擎内部。编译时，本申请的程序代码运行于编译主机的CPU中；运行时，本申请的静态计算单元4016运行于执行主机的AI芯片中，该AI芯片可以搭载有二进制的静态计算单元以及本申请提供的算子计算过程的软件程序。图5示出了本申请在主机AI编译器及平台软件中的实现形态，其中虚线框所示部分4013、4015，4016，4017，4019为本申请在现有平台软件基础上新增加的模块。在初始化模块4012内部，本申请设计了组合算法模块4013；在运行时引擎4013内部，执行模块4017可以根据参数表4015和调用的静态计算单元4016完成算子计算；AI编译器4018，包括静态计算单元编译模块4019，该静态计算单元编译模块4019完成静态计算单元编译后可以得到静态计算单元二进制包4020。

另外，上述图5表示了一种典型的静态计算单元二进制发布的应用场景。在该场景下，编译主机4002和执行主机4001是分开的，发布软件版本前在编译主机4002编译出可发布的静态计算单元二进制包4020，所有的执行主机4001都只需要导入静态计算单元二进制包4020即可。

但是，在另一种应用场景下，机器学习平台4011包含了AI编译器4018，静态计算单元是在执行主机4001上编译出来的。也就是编译主机4002的功能放在执行主机4001上实现，在该种应用场景下，静态计算单元4016在初始化4012时编译。

图6是一种终端设备的组件结构图。如图6所示，在终端设备上使用二进制发布的静态计算单元，通过通用接口NNAPI(Neural Networks Application Programming Interface，神经网络应用程序接口)4011对终端设备上所有的APP提供AI网络执行能力。本申请的静态计算单元4016使用的是二进制发布的算子包4020，无需再次编译。初始化4012时仅需调用组合算法4013，生成算子对应数据形状的参数表4015即可。本实施例能够在APP(应用)打开时将AI网络的启动时间降到最小，大大提高用户体验。其中，本申请的静态计算单元4016可以运行于终端设备的AI芯片中，该AI芯片可以搭载有二进制的静态计算单元以及本申请提供的算子计算过程的软件程序。

值得说明的是，终端设备使用已发布的静态计算单元二进制包可以实现数据的shape信息与算子代码间的解耦，降低算子开发与调优的难度。比如：在手机、平板电脑、智能电视等应用场景下，使用已发布的静态计算单元二进制包，可以大大提高APP中AI网络初始化速度。

图7是一种AI芯片硬件结构图，该AI芯片可以搭载有二进制的静态计算单元以及本申请提供的算子计算过程的软件程序。神经网络处理器(Neural network processor，NPU)50NPU作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路50，通过控制器504控制运算电路503提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路503内部包括多个处理单元(Process Engine,PE)。在一些实现中，运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路503是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器502 中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器501中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器508accumulator中。

统一存储器506用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器505Direct Memory Access Controller，DMAC被搬运到权重存储器502中。输入数据也通过DMAC被搬运到统一存储器506中。

BIU为Bus Interface Unit即，总线接口单元510，用于AXI总线与DMAC和取指存储器509Instruction Fetch Buffer的交互。

总线接口单元510(Bus Interface Unit，简称BIU)，用于取指存储器509从外部存储器获取指令，还用于存储单元访问控制器505从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器506或将权重数据搬运到权重存储器502中或将输入数据数据搬运到输入存储器501中。

向量计算单元507多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如Pooling(池化)，Batch Normalization(批归一化)，Local Response Normalization(局部响应归一化)等。

在一些实现种，向量计算单元能507将经处理的输出的向量存储到统一缓存器506。例如，向量计算单元507可以将非线性函数应用到运算电路503的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元507生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路503的激活输入，例如用于在神经网络中的后续层中的使用。

控制器504连接的取指存储器(instruction fetch buffer)509，用于存储控制器504使用的指令；

统一存储器506，输入存储器501，权重存储器502以及取指存储器509均为On-Chip存储器。外部存储器私有于该NPU硬件架构。

图8是一种用于算子计算过程中的跳读跳写场景示意图。本申请中的静态计算单元只完成固定数据形状的数据的计算，其实现关键是在数据空间里，需要切分出每次计算所需的数据。该数据空间指的是通过数据形状定义的用于保存数据的逻辑空间，其地址是多维的，实际位于内存空间中；而内存空间可以指的是在内存中用于保存数据的存储空间，其地址是一维的。如图8所示，灰色部分为某次静态计算单元需要计算的数据。在内存空间展开后，可以看出灰色部分是不连续的，所以可以采用跳读跳写的方式，从内存空间中获取静态计算单元每次计算需要的数据，以及计算完成后，将计算得到的输出数据保存至内存空间中。

图9是一种跳读跳写支持方式示意图。本申请中支持跳读跳写的方法之一是增加一个接口，比如：bind_buffer(axis，stride，offset)接口，该接口的作用是建立静态计算单元的Tensor(张量)与buffer(缓存)的映射关系。如图8所示，Tensor(张量)对应于该静态计算单元需要处理的数据(图9中灰色部分)，buffer(缓存)的大小与数据空间保存的数据的大小一致。其中，Axis(轴)指的是该Tensor所在的各个维度；Offset(偏移)为该Tensor在需要读取数据的维度上的偏移；Stride(步幅)指的是该Tensor在需要读取数据的维度上需要跳过的数据长度。可见，本申请通过映射多个维度，可以实现多维数据空间的跳读跳写。

图10是一种尾部数据处理方式示意图，该尾部数据指的是在一个维度上被静态计算单元逻辑划分时，得到的需要处理的数据长度比静态计算单元支持处理的数据长度小的一段数据。如图10所示，针对该尾部数据，可以有4种处理方式：

方式1、丢弃无效数据，即将尾部数据超出部分丢弃，优点：标量计算小，缺点：无效计算多。

方式2、部分数据重叠，即将尾部数据超出部分向前平移，部分数据重叠，优点：标量计算小，缺点：重复计算多。也就是说，可以尾部数据超出部分与另一计算单元需要处理的数据进行重叠，即计算尾部数据的静态计算单元读取数据时，可以将起始位置设置在另一计算单元需要处理的数据中，从而造成部分数据重叠。

方式3、支持数据全范围内变化，即数据在每个维度上的数据长度比较小时，可以在整个数据长度内的变化。比如：数据长度为16，可以支持在0至16内变化。

方式4、支持数据部分范围内变化，即数据在每个维度上的数据长度比较大时，只支持在该数据长度的尾部小范围内的变化。比如：数据长度为100，可以支持在90至100内变化。

上述方式3和方式4均是数据形状变化的处理方式，优点：重复计算少，缺点：标量计算多

图11是一种参数表结构示意图，该参数表是用于描述AI网络支持处理的数据形状的参数数据的一种形式。如图11所示，左侧为AI网络支持处理的目标数据的数据形状的一种逻辑切分方式(也可以切分成不同大小的数据形状)，逻辑切分得到的每个数据形状都对应着一次静态计算单元调用，右侧为参数表的数据结构。参数表是用于描述静态计算单元组合模式的数据结构，表中每一项都对应着一次静态计算单元的调用和待调用静态计算单元需要计算的数据在目标数据中的位置。其中，表项中的数据参数主要包括：

1)待调用静态计算单元的ID；

2)目标数据在每个维度上的数据长度，比如：图11中的数据长度0为目标数据在宽度这个维度上的数据长度，数据长度1为目标数据在长度这个维度上的数据长度。

3)待调用静态计算单元需要计算的数据在每个维度上的偏移，比如：图11中的偏移0为目标数据在宽度这个维度上的偏移，偏移1为目标数据在长度这个维度上的偏移。

4)待调用静态计算单元需要计算的数据在每个维度上的数据长度。

另外，参数表中有个公共参数区用于保存各个表项中相同的参数，比如：目标数据在每个维度上的数据长度。

参数表由组合算法生成的。比如：在二维下，组合算法就是做矩形块的拼接；在三维下，组合算法相当于立方体的拼接。

参数表可以分档数据表。由于静态计算单元在处理尾部数据时，是可以变长的。示例性的，如图12所示三个例子均能支持一定变化范围的数据形状，所以不必每个数据形状都生成一个参数表，若以分档参数表的形式，可以有效减少缓存中的参数表个数。其中，图12中左侧的变化范围指的是全局变化，比如：在某个维度上的数据长度为16，全局变化范围可以为0至16；中间的变化范围指的是部分变化，比如：在某个维度上的数据长度为100，部分变化范围可以为90至100；右侧的变化范围指的是只有尾部数据变化。

值得说明的是，AI网络需要支持的数据形状对应的参数表是自动生成的，无需用户配置。该参数表的特征可以包括：1)一种可以描述静态计算单元调用顺序的数据结构；2)还可以描述每个静态计算单元计算的数据块在原始数据中的位置(即各静态计算单元对应的具有第二数据形状的数据块在具有第一数据形状的数据块中的位置)；3)参数表可以描述静态计算单元的组合模式，控制静态计算单元完成所有数据的计算。其中，静态计算单元可以是二进制的静态计算单元。即静态计算单元可以在版本发布前就编译成二进制文件，发布时以二进制文件的形式提供给用户。

并且，通过组合二进制静态计算单元的方式可以支持任意范围数据shape的变化。该方式的特征可以包括：1)一次调用只能完成一块数据的计算；2)支持在原始数据空间中用跳读的方式抽取一块数据，计算完后用跳写的方式写入输出数据空间的对应位置；3)支持用数据驱动计算，包括具体调用哪个静态计算单元、完成哪块数据的计算，都可以通过参数表以数据形式导入。

图13是一种融合算子示意图，融合算子指的是级联的不同类型算子，融合成一个算子一次性计算完成。静态计算单元4016内可以包含不同类型算子的静态计算单元，调用时以ID区分。然后用参数表4015描述不同类型算子的静态计算单元的调用顺序以及相关参数，这样就能完成融合算子的计算。如图13所示，静态计算单元4016包含conv算子的静态计算单元、relu算子的静态计算单元、abs算子的静态计算单元、exp算子的静态计算单元等，调用时以ID区分；参数表4015描述conv算子的静态计算单元、relu算子的静态计算单元、abs算子的静态计算单元、exp算子的静态计算单元等的调用顺序和相关参数。其中，相关参数可以包括各个静态计算单元支持处理的第二数据形状的大小；还可以包括各个静态计算单元支持处理的第二数据形状的数据在具有第一数据形状的数据中的位置信息。

图14是一种算子计算过程示意图，在AI网络执行状态调用算子时，如图14所示，将参数表作为静态计算单元的入参之一，算子会根据参数表的内容依次调用静态计算单元完成算子计算。

图15是一种算子计算过程示意图，如图15所示，左侧的计算过程示意图一指的是三维单输入场景下的算子计算过程；右侧的计算过程示意图二指的是两个算子输入，一个两维的输入数据和一个一维的输入数据。

图16是一种算子计算过程示意图，如图16所示，在遍历每个AI算子需要支持的数据形状时，先查询缓存中是否有支持的参数表，若有，则使用缓存中的参数表；若没有，则先用简化的组合算法生成参数表置于缓存中，同时起线程调用优化的组合算法生成参数表并更新缓存，这样在AI网络第一次起动时，能以最快速度完成网络初始化，而后面再打开AI网络时就可以用优化的参数表，从而提高了用户体验。其中，简化的组合算法指的是只用相同的静态计算单元，组合算法时间最短；优化的组合算法指的是使用不同的静态计算单元做最优组合，组合算法时间较长。

接下来，请参阅图17，图17是本申请实施例提供的一种算子计算方法的流程示意图。其中，该算子计算方法可以用于AI网络。如图17所示，该算子计算方法可以包括以下步骤：

S171、获取AI网络的第一数据形状的参数数据，第一数据形状是AI网络支持处理的每个维度上的数据长度，参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照组合信息组合后在任一维度上的数据长度大于或等于第一数据形状在同一维度上的数据长度。

在一些实施例中，参数数据中的至少两个计算单元可以包括相同的计算单元；或不同的计算单元；或相同的计算单元和不同的计算单元；其中，相同的计算单元的第二数据形状，在每个维度上的数据长度均相同；不同的计算单元的第二数据形状，在至少一个维度上的数据长度不同。

参数数据中的至少两个计算单元可以均为AI网络的计算单元。

参数数据中的至少两个计算单元的组合信息可以包括组合模式，这样每个计算单元的第二数据形状按照该组合模式组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。

参数数据中还可以包括针对指定计算单元的标识信息；其中，指定计算单元指的是所述至少两个计算单元中需要处理的数据为具有第三数据形状的数据的计算单元，第三数据形状在至少一个维度上的数据长度小于指定计算单元支持处理的第二数据形状在同一维度上的数据长度。示例性的，第三数据形状的数据可以是图10中涉及到的尾部数据。

参数数据中还可以包括指定计算单元针对具有第三数据形状的数据的指定处理方式。其中，指定处理方式可以包括：丢弃无效数据，所述无效数据是所述指定计算单元支持处理的第二数据形状中除了具有所述第三数据形状的数据之外的数据；或数据重叠，所述数据重叠是将所述无效数据与另一计算单元需要处理的数据进行重叠。示例性的，丢弃无效数据可以是图10中涉及到的方式1；数据重叠可以是图10中涉及到的方式2。

参数数据中还可以包括指定计算单元支持所述第三数据形状在每个维度上的指定变化范围。其中，指定变化范围可以为所述指定计算单元支持处理的第二数据形状在每个维度上的数据长度；或所述第二数据形状在每个维度上的数据长度中的指定部分长度。示例性的，指定变化范围可以是图10中涉及到的方式3和方式4。

参数数据包括分档参数数据，分档参数数据用于支持指定变化范围的数据形状。示例性的，如图12所示三个例子均能支持一定变化范围的数据形状，所以不必每个数据形状都生成一个参数表，若以分档参数表的形式，可以有效减少缓存中的参数表个数。

参数数据中的至少两个计算单元可以属于不同类型的算子，这样可以通过调用参数数据中这些不同类型算子的计算单元来完成融合算子的计算，从而避免了一种类型的算子计算完再调用另一个类型的算子进行计算，提高了融合算子的计算效率。示例性的，如图13所示，静态计算单元4016包含conv算子的静态计算单元、relu算子的静态计算单元、abs算子的静态计算单元、exp算子的静态计算单元等，调用时以ID区分；参数表4015描述conv算子的静态计算单元、relu算子的静态计算单元、abs算子的静态计算单元、exp算子的静态计算单元等的调用顺序和相关参数。

S172、调用至少两个计算单元，对具有第一数据形状的第一目标数据进行计算。

在一些实施例中，可以从计算单元算子库中获取至少两个计算单元；通过至少两个计算单元对具有第一数据形状的第一目标数据进行计算。示例性的，如图5所示，执行主机4001可以导入编译主机4002已发布的静态计算单元二进制包4020，这样可以从静态计算单元二进制包4020获取至少两个计算单元，通过所述至少两个计算单元对具有第一数据形状的第一目标数据进行计算。

可以确定任一计算单元中需要处理的第二目标数据在第一目标数据中的目标位置；按照目标位置从存储有第一目标数据的内存空间中，获取任一计算单元需要处理的第二目标数据；通过任一计算单元对第二目标数据进行计算。示例性的，如图11所示，左侧为AI网络支持处理的目标数据的数据形状的一种逻辑切分方式(也可以切分成不同大小的数据形状)，逻辑切分得到的每个数据形状都对应着一次静态计算单元调用，右侧为参数表的数据结构。参数表是用于描述静态计算单元组合模式的数据结构，表中每一项都对应着一次静态计算单元的调用和待调用静态计算单元需要计算的数据在目标数据中的位置，这样可以根据待调用静态计算单元需要计算的数据在目标数据中的位置获取需要计算的数据，调用待调用静态计算单元对需要计算的数据进行计算。

由此，通过上述方案，可以支持任意范围数据形状的变化，实现了AI动态形状算子功能，提高了AI网络启动速度。

基于上述实施例中的方法，本申请实施例还提供了一种算子计算装置，其中，该算子计算装置用于AI网络。请参阅图18，图18是本申请实施例提供的一种算子计算装置的结构示意图，如图18所示，该算子计算装置包括：

获取模块181，被配置为获取AI网络的第一数据形状的参数数据，所述第一数据形状是AI网络支持处理的每个维度上的数据长度，所述参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度；

计算模块182，被配置为调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算。

在一种可能的实现方式中，所述至少两个计算单元均为AI网络的计算单元。

在一种可能的实现方式中，所述指定处理方式包括：

在一种可能的实现方式中，所述计算模块182包括：

应当理解的是，上述装置用于执行上述实施例中的方法，装置中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该装置的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的方法，本申请实施例还提供了一种算子计算装置。请参阅图19，图19是本申请实施例提供的一种算子计算装置的结构示意图。如图19所示，本申请实施例提供的算子计算装置，该算子计算装置可用于实现上述方法实施例中描述的方法。

该算子计算装置包括至少一个处理器1601，该至少一个处理器1601可支持算子计算装置实现本申请实施例中所提供的控制方法。

该处理器1601可以是通用处理器或者专用处理器。例如，处理器1601可以包括中央处理器(central processing unit，CPU)和/或基带处理器。其中，基带处理器可以用于处理通信数据(例如，确定目标屏幕终端)，CPU可以用于实现相应的控制和处理功能，执行软件程序，处理软件程序的数据。

进一步的，算子计算装置还可以包括收发单元1605，用以实现信号的输入(接收)和输出(发送)。例如，收发单元1605可以包括收发器或射频芯片。收发单元1605还可以包括通信接口。

可选地，算子计算装置还可以包括天线1606，可以用于支持收发单元1605实现算子计算装置的收发功能。

可选地，算子计算装置中可以包括一个或多个存储器1602，其上存有程序(也可以是指令或者代码)1604，程序1604可被处理器1601运行，使得处理器1601执行上述方法实施例中描述的方法。可选地，存储器1602中还可以存储有数据。可选地，处理器1601还可以读取存储器1602中存储的数据(例如，预存储的第一特征信息)，该数据可以与程序1604存储在相同的存储地址，该数据也可以与程序1604存储在不同的存储地址。

处理器1601和存储器1602可以单独设置，也可以集成在一起，例如，集成在单板或者系统级芯片(system on chip，SOC)上。

关于算子计算装置在上述各种可能的设计中执行的操作的详细描述可以参照本申请实施例提供的算子计算方法的实施例中的描述，在此就不再一一赘述。

基于上述实施例中的装置，本申请实施例还提供了一种算子计算设备，该算子计算设备包含上述实施例中所提供的任一算子计算装置。

可以理解的是，本申请实施例中，算子计算设备可以为手机、平板电脑、数码相机、个人数字助理(personal digitalassistant，PDA)、可穿戴设备、智能电视、华为智慧屏等终端设备。终端设备的示例性实施例包括但不限于搭载iOS、android、Windows、鸿蒙系统(Harmony OS)或者其他操作系统的终端设备。上述终端设备也可以是其他终端设备，诸如具有触敏表面(例如触控面板)的膝上型计算机(laptop)等。本申请实施例对终端设备的类型不做具体限定。其中，终端设备的组件结构图，如图6所示。

基于上述实施例中的算子计算设备，本申请实施例还提供了一种算子计算系统，算子计算设备和算子编译设备；其中，所述算子计算设备包含上述实施例中所提供的任一算子计算装置；所述算子编译设备用于编译出可发布的静态计算单元二进制包；所述算子计算设备用于导入所述静态计算单元二进制包。示例性的，算子计算设备可以为图5中的执行主机4001或图6中的终端设备，算子编译设备可以为图5中的编译主机4002。

基于上述实施例中的方法，本申请实施例还提供了一种芯片。请参阅图20，图20为本申请实施例提供的一种芯片的结构示意图。如图20所示，芯片1900包括一个或多个处理器1901以及接口电路1902。可选的，芯片1900还可以包含总线1903。其中：

处理器1901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1901可以是通用处理器、数字通信器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

接口电路1902可以用于数据、指令或者信息的发送或者接收，处理器1901可以利用接口电路1902接收的数据、指令或者其它信息，进行加工，可以将加工完成信息通过接口电路1902发送出去。

可选的，芯片还包括存储器，存储器可以包括只读存储器和随机存取存储器，并向处理器提供操作指令和数据。存储器的一部分还可以包括非易失性随机存取存储器(NVRAM)。

可选的，存储器存储了可执行软件模块或者数据结构，处理器可以通过调用存储器存储的操作指令(该操作指令可存储在操作系统中)，执行相应的操作。

可选的，接口电路1902可用于输出处理器1901的执行结果。

需要说明的，处理器1901、接口电路1902各自对应的功能既可以通过硬件设计实现，也可以通过软件设计来实现，还可以通过软硬件结合的方式来实现，这里不作限制。

应理解，上述方法实施例的各步骤可以通过处理器中的硬件形式的逻辑电路或者软件形式的指令完成。

可以理解的是，本申请的实施例中的处理器可以是中央处理单元(central processing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

Claims

一种算子计算方法，其特征在于，所述方法包括：

获取人工智能AI网络的第一数据形状的参数数据，所述第一数据形状是所述AI网络支持处理的每个维度上的数据长度，所述参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度；

调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算。
根据权利要求1所述的方法，其特征在于，所述至少两个计算单元包括相同的计算单元；或不同的计算单元；或相同的计算单元和不同的计算单元；

其中，相同的计算单元的第二数据形状，在每个维度上的数据长度均相同；不同的计算单元的第二数据形状，在至少一个维度上的数据长度不同。
根据权利要求1所述的方法，其特征在于，所述至少两个计算单元均为所述AI网络的计算单元。
根据权利要求1所述的方法，其特征在于，所述组合信息包括所述至少两个计算单元的组合模式；

每个计算单元的第二数据形状按照所述组合模式组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。
根据权利要求1所述的方法，其特征在于，所述参数数据中还包括针对指定计算单元的标识信息；

其中，所述指定计算单元指的是所述至少两个计算单元中需要处理的数据为具有第三数据形状的数据的计算单元，所述第三数据形状在至少一个维度上的数据长度小于所述指定计算单元支持处理的第二数据形状在同一维度上的数据长度。
根据权利要求5所述的方法，其特征在于，所述参数数据中还包括所述指定计算单元针对所述具有第三数据形状的数据的指定处理方式。
根据权利要求6所述的方法，其特征在于，所述指定处理方式包括：

丢弃无效数据，所述无效数据是所述指定计算单元支持处理的第二数据形状中除了具有所述第三数据形状的数据之外的数据；或

数据重叠，所述数据重叠是将所述无效数据与另一计算单元需要处理的数据进行重叠。
根据权利要求5所述的方法，其特征在于，所述参数数据中还包括所述指定计算单元支持所述第三数据形状在每个维度上的指定变化范围。
根据权利要求8所述的方法，其特征在于，所述指定变化范围为所述指定计算单元支持处理的第二数据形状在每个维度上的数据长度；或所述第二数据形状在每个维度上的数据长度中的指定部分长度。
根据权利要求1所述的方法，其特征在于，所述参数数据包括分档参数数据，所述分档参数数据用于支持指定变化范围的数据形状。
根据权利要求1所述的方法，其特征在于，所述调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算，包括：

从计算单元算子库中获取所述至少两个计算单元；

通过所述至少两个计算单元对具有所述第一数据形状的第一目标数据进行计算。
根据权利要求1所述的方法，其特征在于，所述调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算，包括：

针对任一计算单元，确定所述任一计算单元中需要处理的第二目标数据在所述第一目标数据中的目标位置；

按照所述目标位置从存储有所述第一目标数据的内存空间中，获取所述任一计算单元需要处理的第二目标数据；

通过所述任一计算单元对所述第二目标数据进行计算。
根据权利要求12所述的方法，其特征在于，所述目标位置包括：所述第二目标数据所在的各个维度；以及，针对任一维度，所述第二目标数据在所述任一维度上的偏移和数据长度。
根据权利要求1所述的方法，其特征在于，所述至少两个计算单元属于不同类型的算子。
根据权利要求1至14任一项所述的方法，其特征在于，所述计算单元为预先编译好的算子。
一种算子计算装置，其特征在于，所述装置包括：

获取模块，被配置为获取人工智能AI网络的第一数据形状的参数数据，所述第一数据形状是所述AI网络支持处理的每个维度上的数据长度，所述参数数据包括至少两个计算单元的组合信息，每个计算单元支持处理的数据为具有第二数据形状的数据，每个计算单元的第二数据形状按照所述组合信息组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度；

计算模块，被配置为调用所述至少两个计算单元，对具有所述第一数据形状的第一目标数据进行计算。
根据权利要求16所述的装置，其特征在于，所述至少两个计算单元包括相同的计算单元；或不同的计算单元；或相同的计算单元和不同的计算单元；

其中，相同的计算单元的第二数据形状，在每个维度上的数据长度均相同；不同的计算单元的第二数据形状，在至少一个维度上的数据长度不同。
根据权利要求16所述的装置，其特征在于，所述至少两个计算单元均为所述AI网络的计算单元。
根据权利要求16所述的装置，其特征在于，所述组合信息包括所述至少两个计算单元的组合模式；

每个计算单元的第二数据形状按照所述组合模式组合后在任一维度上的数据长度大于或等于所述第一数据形状在同一维度上的数据长度。
根据权利要求16所述的装置，其特征在于，所述参数数据中还包括针对指定计算单元的标识信息；

其中，所述指定计算单元指的是所述至少两个计算单元中需要处理的数据为具有第三数据形状的数据的计算单元，所述第三数据形状在至少一个维度上的数据长度小于所述指定计算单元支持处理的第二数据形状在同一维度上的数据长度。
根据权利要求20所述的装置，其特征在于，所述参数数据中还包括所述指定计算单元针对所述具有第三数据形状的数据的指定处理方式。
根据权利要求21所述的装置，其特征在于，所述指定处理方式包括：

丢弃无效数据，所述无效数据是所述指定计算单元支持处理的第二数据形状中除了具有所述第三数据形状的数据之外的数据；或

数据重叠，所述数据重叠是将所述无效数据与另一计算单元需要处理的数据进行重叠。
根据权利要求20所述的装置，其特征在于，所述参数数据中还包括所述指定计算单元支持所述第三数据形状在每个维度上的指定变化范围。
根据权利要求23所述的装置，其特征在于，所述指定变化范围为所述指定计算单元支持处理的第二数据形状在每个维度上的数据长度；或所述第二数据形状在每个维度上的数据长度中的指定部分长度。
根据权利要求16所述的装置，其特征在于，所述参数数据包括分档参数数据，所述分档参数数据用于支持指定变化范围的数据形状。
根据权利要求16所述的装置，其特征在于，所述计算模块包括：

第一获取子模块，被配置为从计算单元算子库中获取所述至少两个计算单元；

第一计算子模块，被配置为通过所述至少两个计算单元对具有所述第一数据形状的第一目标数据进行计算。
根据权利要求16所述的装置，其特征在于，所述计算模块包括：

确定子模块，被配置为针对任一计算单元，确定所述任一计算单元中需要处理的第二目标数据在所述第一目标数据中的目标位置；

第二获取子模块，被配置为按照所述目标位置从存储有所述第一目标数据的内存空间中，获取所述任一计算单元需要处理的第二目标数据；

第二计算子模块，被配置为通过所述任一计算单元对所述第二目标数据进行计算。
根据权利要求27所述的装置，其特征在于，所述目标位置包括：所述第二目标数据所在的各个维度；以及，针对任一维度，所述第二目标数据在所述任一维度上的偏移和数据长度。
根据权利要求16所述的装置，其特征在于，所述至少两个计算单元属于不同类型的算子。
根据权利要求16至29任一项所述的装置，其特征在于，所述计算单元为预先编译好的算子。
一种算子计算装置，其特征在于，包括：

至少一个存储器，用于存储程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-15任一所述的方法。
一种算子计算设备，其特征在于，包含权利要求16-30任一项所述的装置。
一种算子计算系统，其特征在于，包括算子计算设备和算子编译设备；

其中，所述算子计算设备包含权利要求16-30任一项所述的装置；

所述算子编译设备用于编译出可发布的计算单元包；

所述算子计算设备用于导入所述计算单元包。
一种计算机存储介质，所述计算机存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-15任一所述的方法。
一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使得所述计算机执行如权利要求1-15任一所述的方法。
一种芯片，其特征在于，包括至少一个处理器和接口；

所述接口，用于为所述至少一个处理器提供程序指令或者数据；

所述至少一个处理器用于执行所述程序行指令，以实现如权利要求1-15中任一项所述的方法。