WO2022126316A1

WO2022126316A1 - 人工智能ai模型的开发方法和装置

Info

Publication number: WO2022126316A1
Application number: PCT/CN2020/136119
Authority: WO
Inventors: 连朔; 王晨曦; 昌晶; 孙方轩; 梁雪; 周君
Original assignee: 华为技术有限公司
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2022-06-23
Also published as: CN116472533A

Abstract

一种人工智能AI模型的开发方法和装置。该方法包括：对AI模型进行拆分，以得到多种拆分结果，多种拆分结果中的每种拆分结果包括多个第一子模型，多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，每个第一子模型能够运行于对应的至少一个处理器以使得每种拆分结果具有运行多个第一子模型的运行开销（210）；在多种拆分结果中确定第一拆分结果，第一拆分结果的第一运行开销小于多种拆分结果中的一个或多个第二拆分结果的第二运行开销（220）；输出第一拆分结果（230）。当根据第一拆分结果将AI模型部署在包括M个处理器的设备上时，能够提高AI模型在设备上的部署效率和降低AI模型在设备上的运行开销。

Description

人工智能AI模型的开发方法和装置

技术领域

本申请涉及人工智能领域，并且更具体地，涉及一种人工智能AI模型的开发方法和装置。

背景技术

为了降低运行在设备上的人工智能(artificial intelligence，AI)模型的运行开销(例如，运行时间或运行功耗等)，可以通过设计AI模型在设备(例如，终端设备)上的部署策略，以降低上述运行开销。

但基于现有的AI模型部署方法，将AI模型部署在设备上运行时存在以下问题：部署效率低，运行开销大。基于上述问题，导致现有的AI模型部署方法无法满足用户需求。

因此，亟需一种AI模型的开发方法，当根据该开发方法得到的结果将AI模型部署在设备上时，能够提高AI模型在设备上的部署效率和降低AI模型在设备上的运行开销。

发明内容

本申请提供了一种人工智能AI模型的开发方法和装置。当根据该开发方法得到的结果将AI模型部署在设备上时，能够提高AI模型在设备上的部署效率和降低AI模型在设备上的运行开销。

第一方面，提供了一种人工智能AI模型的开发方法。该方法包括：对AI模型进行拆分，以得到多种拆分结果，该多种拆分结果中的每种拆分结果包括多个第一子模型，该多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，该每个第一子模型能够运行于该对应的至少一个处理器以使得该每种拆分结果具有运行该多个第一子模型的运行开销；在该多种拆分结果中确定第一拆分结果，该第一拆分结果的第一运行开销小于该多种拆分结果中的一个或多个第二拆分结果的第二运行开销；输出该第一拆分结果。

可选的，在一些实现方式中，设备是终端设备，上述M个处理器可以理解为是该终端设备包括的处理器。

可选的，在一些实现方式中，还可以输出第一拆分结果对应的计算机程序。其中，该计算机程序用于描述第一拆分结果包括的N个第一子模型在M个处理器上的运行的时序和通信过程。

在上述技术方案中，通过比较AI模型对应的多种拆分结果的多种运行开销，将第一拆分结果确定为对该AI模型进行拆分后的结果。上述方法在不改变AI模型结构和参数的情况下，能够充分考虑多个第一子模型中的每个第一子模型运行在M个处理器上的运行开销，从而对AI模型进行拆分。当根据第一拆分结果将AI模型部署在包括上述M个处理器的设备上时，能够有效提高AI模型在该设备上的部署效率和降低AI模型在该设备上执行时的运行开销。

结合第一方面，在第一种可能的实现方式中，在该多种拆分结果的运行开销中，该第一运行开销最小。

结合第一方面，在第一种可能的实现方式中，该第一拆分结果包括N个第一子模型，N为大于2的正整数；该方法还包括：将该N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，该至少两个第一子模型在执行顺序上相邻，该第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，该X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，该每个第二子模型能够运行于该对应的一个或多个处理器以使得该第三拆分结果具有运行该X个第二子模型的第三运行开销，该第三运行开销小于该第一运行开销。

在上述技术方案中，通过将N个第一子模型中的至少两个第一子模型进行合并，使得对AI模型划分得到的第一子模型的数量较少，能够进一步提高AI模型在设备上的部署效率和降低AI模型在设备上执行时的运行开销。

结合第一方面，在第一种可能的实现方式中，该AI模型包括L个第一算子(operator)，L为大于2的正整数，该多个第一子模型中的每个第一子模型包括该L个第一算子中的部分第一算子。

在上述技术方案中，每个第一子模型中可以包括更多的第一算子。当多个第一算子对应相同的处理器时，可以通过将该多个第一算子合并为一个第一子模型，从而能够减少多个第一算子之间的通信开销。

结合第一方面，在第一种可能的实现方式中，该对该AI模型进行拆分，包括:根据输入信息对该AI模型进行拆分，该输入信息包括如下至少一个：该AI模型中的L个第一算子的执行顺序、或该L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。

结合第一方面，在第一种可能的实现方式中，该运行开销包括：运行该每个第一子模型的开销，在执行顺序上相邻的两个第一子模型之间的通信开销，以及调度该每个第一子模型到对应的至少一个处理器上的调度开销。

在上述技术方案中，AI模型的拆分结果的运行开销不仅包括每个第一子模型的在处理器上的执行时的开销，还包括AI模型中的相邻的两个第一子模型之间的通信开销和调度开销，使得根据运行开销确定的AI模型的拆分结果更加准确。

结合第一方面，在第一种可能的实现方式中，该M个处理器包括以下处理器中的至少两种：中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。

第二方面，提供了一种人工智能AI模型部署的装置。该装置包括：拆分单元，用于对AI模型进行拆分，以得到多种拆分结果，该多种拆分结果中的每种拆分结果包括多个第一子模型，该多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，该每个第一子模型能够运行于该对应的至少一个处理器以使得该每种拆分结果具有运行该多个第一子模型的运行开销；确定单元，用于在该多种拆分结果中确定第一拆分结果，该第一拆分结果的第一运行开销小于该多种拆分结果中的一个或多个第二拆分结果的第二运行开销；输出单元，用于输出该第一拆分结果。

结合第二方面，在第二种可能的实现方式中，在该多种拆分结果的运行开销中，该第一运行开销最小。

结合第二方面，在第二种可能的实现方式中，该第一拆分结果包括N个第一子模型，N为大于2的正整数，该装置还包括合并单元，该合并单元，用于将该N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，该至少两个第一子模型在执行顺序上相邻，该第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，该X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，该每个第二子模型能够运行于该对应的一个或多个处理器以使得该第三拆分结果具有运行该X个第二子模型的第三运行开销，该第三运行开销小于该第一运行开销。

结合第二方面，在第二种可能的实现方式中，该AI模型包括L个第一算子，L为大于2的正整数，该多个第一子模型中的每个第一子模型包括该L个第一算子中的部分第一算子。

结合第二方面，在第二种可能的实现方式中，该拆分单元具体用于：根据输入信息对该AI模型进行拆分，该输入信息包括如下至少一个：该AI模型中的L个第一算子的执行顺序、或该L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。

结合第二方面，在第二种可能的实现方式中，该运行开销包括：运行该每个第一子模型的开销，在执行顺序上相邻的两个第一子模型之间的通信开销，以及调度该每个第一子模型到对应的至少一个处理器上的调度开销。

结合第二方面，在第二种可能的实现方式中，该M个处理器包括以下处理器中的至少两种：中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。

第三方面，提供了一种人工智能AI模型的开发装置，该装置包括存储器和处理器，该存储器用于存储指令，该处理器用于读取该存储器中存储的指令，使得该装置执行上述第一方面及第一方面的任意可能的实现方式中的方法。

第四方面，提供了一种处理器，包括：输入电路、输出电路和处理电路。所述处理电路用于通过所述输入电路接收信号，并通过所述输出电路输出信号，使得所述第一方面中的任一方面，以及第一方面中任一种可能实现方式中的方法被实现。

在具体实现过程中，上述处理器可以为芯片，输入电路可以为输入管脚，输出电路可以为输出管脚，处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路和输出电路可以是同一电路，该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。

第五方面，提供了一种处理装置，包括处理器和存储器。该处理器用于读取存储器中存储的指令，并可通过接收器接收信号，通过输出器输出信号，以执行第一方面以及第一方面任一种可能实现方式中的方法。

可选地，所述处理器为一个或多个，所述存储器为一个或多个。

可选地，所述存储器可以与所述处理器集成在一起，或者所述存储器与处理器分离设置。

在具体实现过程中，存储器可以为非瞬时性(non-transitory)存储器，例如只读存储器(read only memory，ROM)，其可以与处理器集成在同一块芯片上，也可以分别设置在不同的芯片上，本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。

应理解，相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程，接收能力信息可以为处理器接收输入能力信息的过程。具体地，处理输出的数据可以输出给输出器，处理器接收的输入数据可以来自接收器。

第六方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序包括用于执行上述第一方面及上述第一方面的任意可能的实现方式中的方法的指令。

第七方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面及上述第一方面的任意可能的实现方式中的方法。

第八方面，提供了一种芯片，包括至少一个处理器和接口；所述至少一个所述处理器，用于调用并运行计算机程序，以使所述芯片执行上述第一方面及上述第一方面的任意可能的实现方式中的方法。

第九方面，提供了一种系统，包括前述第二方面或第三方面所述的人工智能AI模型的开发装置。

附图说明

图1是适用于本申请实施例的一个系统架构100的示意图。

图2是本申请实施例提供的AI模型的开发方法200的示意性流程图。

图3是本申请实施例提供的AI模型的开发方法300的示意性流程图。

图4是本申请实施例提供的一种AI模型的拆分结果的示意图。

图5是本申请实施例提供的一种AI模型的拆分结果的示意图。

图6是本申请实施例提供的一种AI模型的开发装置600的示意性结构图。

图7是本申请实施例提供的一种AI模型的开发设备700的示意性结构图。

图8是本申请实施例提供的一种系统800的示意性结构图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

本申请中术语“第一”“第二”“第三”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”和“第三”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本申请实施例中，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例中，有时候下标如W ₁可能会笔误为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

为便于理解，首先介绍本申请实施例中涉及到的相关术语。

1、中央处理器(central processing unit，CPU)

CPU，作为计算机系统的运算和控制核心，是信息处理、程序运行的最终执行单元。中央处理器主要包括两个部分，即控制器、运算器，其中还包括高速缓冲存储器及实现它们之间联系的数据、控制的总线。

2、神经网络处理器(neural network processing unit，NPU)

NPU，常是指专门针对神经网络的计算进行加速的处理器，例如运行卷积神经网络的处理器。可选地，NPU可以采用“数据驱动并行计算”的架构，特别擅长处理视频、图像类的海量多媒体数据。

3、图形处理器(graphics processing unit，GPU)

GPU，又可以称为显示核心、视觉处理器、显示芯片。GPU是一种专门在个人电脑、工作站、游戏机和一些移动设备(例如，平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。GPU的生产商主要有NVIDIA和ATI。

4、数字信号处理器(digital signal processor，DSP)

DSP，芯片是一种独特的微处理器，是以数字信号来处理大量信息的器件。其工作原理是接收模拟信号，转换为0或1的数字信号，再对数字信号进行修改、删除、强化，并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。

5、张量处理器(tensor processing unit，TPU)

与GPU相比，TPU采用低精度(8位)计算，以降低每步操作使用的晶体管数量。降低精度对于深度学习的准确度影响很小，但却可以大幅降低功耗、加快运算速度。同时，TPU使用了脉动阵列的设计，用来优化矩阵乘法与卷积运算，减少输入/输出(input/output，I/O)操作。此外，TPU还采用了更大的片上内存，以此减少对动态随机存取存储器(dynamic random access memory，DRAM)的访问，从而更大程度地提升性能。

TPU与NPU有时候指代一个部件，即运行神经网络运算的部件，及二者可以在人工智能处理中指代同样的部件。

6、系统级芯片(system on chip，SOC)

SOC，又称为片上系统。从狭义角度讲，SOC是信息系统核心的芯片集成，是将系统关键部件集成在一块芯片上；从广义角度讲，SOC是一个微小型系统，如果说CPU是大脑，那么SOC就是包括大脑、心脏、眼睛和手的系统。SOC通常是客户定制的，或是面向特定用途的标准产品。例如，SOC可以是一个集成了CPU、GPU和DSP等一系列部件的芯片。

下面，介绍本申请实施例的相关技术：现有技术中，将AI模型部署在设备(例如，终端设备)上时，通常将AI模型部署在设备包括的多个处理器中的同一个处理器上，导致运行开销较大。为了提高AI模型在设备上执行时的运行效率，在一种技术中，通过将AI模型包括的关键功能的算子进行手工优化并封装成库，在设备上执行AI模型时，仅将该关键功能的算子在设备包括的多个处理器上进行调度和执行。例如，设备包括CPU、GPU和NPU，AI模型包括算子1、算子2和算子3，且算子3为关键功能的算子。基于此，可以将AI模型的算子1和算子2部署在CPU上，将算子3部署在NPU上算子，不过该方法存在灵活性差和部署效率低的问题。

本申请提供了一种人工智能AI模型的开发方法和装置。当根据该开发方法得到的结果将AI模型部署在设备上时，能够提高AI模型在设备上的部署效率和降低AI模型在终端设备上的运行开销。应理解，根据本申请提供的AI模型的开发方法得到的结果可以用于不同的应用场景，对此不作具体限定。例如，根据用户需求可以将该结果用于包括终端设备的场景中。例如，根据用户需求可以将该结果用于包括网络设备的场景中。

现在，结合图1以应用场景中包括终端设备为例，介绍本申请实施例提供的AI模型的开发方法适用的系统架构。

图1是适用于本申请实施例的一个系统架构100的示意图。如图1所示，该系统架构100包括：AI模型110，开发装置120，以及终端设备130。其中，终端设备130包括M个处理器，分别为处理器1301，处理器1302，…，处理器130M，M为大于1的正整数。

上述AI模型110可以理解为用户输入的模型。将该AI模型110输入至开发装置120中进行处理，开发装置120可以根据用户需求(例如，运行功耗最低或运行时间最小等)对AI模型110进行拆分得到拆分后的多个子模型，开发装置120还用于输出AI模型拆分后的多个子模型和相应的计算机程序，该计算机程序用于描述AI模型拆分后的多个子模型的执行顺序、运行调度和通信关系。进一步，可以根据用户可以根据开发装置120输出结果将AI模型部署在终端设备130包括的M个处理器上。

在本申请实施例中，对AI模型不作具体限定。例如，该AI模型可以但不限于是以下类型中的一种：回归分析(regression analysis，RA)模型，逻辑回归(logistic regression，LR)模型，贝叶斯模型，决策树模型或深度神经网络模型。

在本申请实施例中，终端设备130可以指智能手机、智能手表、移动设备、用户终端、终端设备(例如，终端服务器)、无线通信设备、具有无线通信功能的手持设备、车载设备、可穿戴设备(例如，智能手环)等，本申请实施例对此并不限定。

在本申请实施例中，对终端设备130包括的M个处理器的类型不作具体限定。其中，该M个处理器的类型可以包括以下中的至少两种：CPU、NPU、GPU、DSP、深度学习处理器(deep learning processing unit，DPU)和TPU等。例如，当M＝2，即终端设备130 仅包括2个处理器(处理器1301和处理器1302)时，处理器1301可以是CPU，处理器1302可以是NPU。

可选的，在一些实现方式中，可以根据用户需求确定终端设备130的类型和该终端设备130包括的M个处理器的类型。

在本申请实施例中，对终端设备130包括的M个处理器在终端设备130中的部署不作具体限定。在一个示例中，终端设备130包括的M个处理器可以部署在该终端设备130包括的一个或多个硬件设备(例如，SOC)上。例如，终端设备130包括CPU、GPU和DSP，其中CPU、GPU和DSP都部署在该终端设备130中的SOC上。例如，终端设备130包括CPU、GPU和NPU，其中CPU和GPU部署在终端设备130的一个硬件设备上，NPU部署在终端设备130的另一个硬件设备上。

在本申请实施例中，对开发装置120的在系统架构100中的部署不作具体限定。在一个示例中，开发装置120可以是独立于终端设备130之外的第三方平台上的装置。在另一个示例中，开发装置120也可以是终端设备130包括的装置。

应理解，图1仅为示意，并不对适用于本申请实施例的系统架构构成任何限定。例如，在一些场景中，该系统架构100还可以包括更多数目的开发装置120。例如，在一些场景中，上述终端设备130还可以替换为网络设备。例如，在一些场景中，上述终端设备130还可以理解为包括终端设备130的设备。

下面，结合图2至图5，对本申请实施例提供的AI模型的开发方法200进行详细介绍。图2是本申请实施例提供的AI模型的开发方法200的示意性流程图。如图2所示，该方法300包括步骤210至步骤230，下面对步骤210至步骤230进行详细介绍。其中，该方法200的执行主体可以是上文中描述的开发装置120。

步骤210，对AI模型进行拆分，以得到多种拆分结果，多种拆分结果中的每种拆分结果包括多个第一子模型，多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，每个第一子模型能够运行于对应的至少一个处理器以使得每种拆分结果具有运行多个第一子模型的运行开销。

在本申请实施例中，对AI模型进行拆分，可以包括：根据输入信息对AI模型进行拆分，输入信息包括如下至少一个：AI模型中的L个第一算子的执行顺序、或L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。

可以理解的是，不同的第一算子对应的属性信息不都相同。在本申请实施例中对AI模型包括的每个第一算子的属性信息不作具体限定。例如，在一个示例中，当AI模型包括的一个第一算子是reshape算子时，则该一个第一算子的属性信息包括输入数据的维度和输出数据的维度。

在本申请实施例中，对第一子模型的结构不作具体限定。上述AI模型可以包括L个第一算子，L为大于2的正整数，多个第一子模型中的每个第一子模型包括L个第一算子中的部分第一算子。也就是说，第一子模型可以包括L个第一算子中的一个或多个第一算子。可以理解的是，当第一子模型中包括多个第一算子时，该多个第一算子在执行顺序上是相邻的。

例如，当AI包括3个第一算子，且对AI模型进行拆分后得到3个第一子模型时，则每个第一子模型都仅包括一个第一算子。例如，当AI包括4个第一算子，且对AI模型进行拆分后得到3个第一子模型时，则有3个第一子模型都仅包括一个第一算子，有1个第一子模型包括2个第一算子，且该2个第一算子在执行顺序上是相邻的，该2个第一算子对应的处理器可以是相同的也可以是不同的。

上述M个处理器，可以理解为是一个设备(例如，终端设备或网络设备)包括的处理器。例如，当上述M个处理器是终端设备包括的处理器时，该M个处理器可以包含于该终端设备包括的SOC中。

上述运行开销包括：运行每个第一子模型的开销，在执行顺序上相邻的两个第一子模型之间的通信开销，以及调度每个第一子模型到对应的至少一个处理器上的调度开销。可以理解的是，上述开销可以是运行时间或运行功耗等，本申请实施例对此不作具体限定。

例如，上述M个处理器是终端设备包括的处理器，对AI模型进行拆分后得到了2个第一子模型，分别为第一子模型1和第一子模型2，且每个第一子模型中仅包括一个第一算子。其中，第一子模型1对应终端设备中的CPU，第一子模型2对应该终端设备中的DSP，且先执行第一子模型1后再执行第一子模型2。在此情况下，拆分后的AI模型部署在该终端设备上执行时的运行开销包括：在CPU上运行第一子模型1的开销，在DSP上运行第一子模型2的开销，第一子模型1在CPU上执行后输入至第一子模型2所在的DSP上的通信开销，调度第一子模型1到CPU上的调度开销和调度第一子模型2到DSP上的调度开销。

在本申请实施例中，M个处理器包括以下处理器中的至少两种：中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。可选的，在步骤210之前，还可以包括如下步骤：获取用户输入的上述AI模型；对上述AI模型进行分析，得到上述输入信息。

步骤220，在多种拆分结果中确定第一拆分结果，第一拆分结果的第一运行开销小于多种拆分结果中的一个或多个第二拆分结果的第二运行开销。在一些实施例中，在多种拆分结果的运行开销中，第一运行开销可以小于多种拆分结果中的最大运行开销，且大于多种拆分结果中的最小运行开销。可选的，在一些实施例中，在多种拆分结果的运行开销中，第一运行开销最小。

可选的，在一些实施例中，第一拆分结果包括N个第一子模型，N为大于2的正整数。在确定第一拆分结果之后，还可以包括如下步骤：将N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，至少两个第一子模型在执行顺序上相邻，第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，每个第二子模型能够运行于对应的一个或多个处理器以使得第三拆分结果具有运行X个第二子模型的第三运行开销，第三运行开销小于第一运行开销。

例如，上述M个处理器是终端设备包括的处理器，对AI模型进行拆分后得到3个第一子模型，分别记为第一子模型1，第一子模型2和第一子模型3。其中，第一子模型1对应终端设备中的CPU，第一子模型2对应该终端设备中的DSP，第一子模型3对应该终端设备中的GPU。第一子模型的执行顺序为：第一子模型1，第一子模型2和第一子模型3。在此情况下，可以将第一子模型1和第一子模型2进行合并得到一个第二子模型1。也就是说，对AI模型进行拆分后包括第二子模型1和第一子模型3。

步骤230，输出第一拆分结果。上述步骤230的执行主体可以是开发装置120中的异构调度描述模块123。

可选的，在一些实施例中，当上述步骤220中包括对第一拆分结果包括的N个第一子模型中的在执行顺序上相邻的第一子模型进行合并，第三拆分结果的运行开销小于第一拆分结果的运行开销，且第三拆分结果的运行开销能够满足用户需求时，还可以输出第三拆分结果。

在上述技术方案中，通过比较AI模型对应的多种拆分结果的多种运行开销，将第一拆分结果确定为对该AI模型进行拆分后的结果。上述方法在不改变AI模型结构和参数的情况下，能够充分考虑多个第一子模型中的每个第一子模型运行在M个处理器上的运行开销，从而对AI模型进行拆分。当根据第一拆分结果将AI模型部署在包括上述M个处理器的设备上时，能够有效提高AI模型在该设备上的部署效率和降低AI模型在该设备上执行时的运行开销。另外，在上述技术方案中，还可以对得到的第一拆分结果包括的N个第一子模型进行合并得到第三拆分结果，该第三拆分结果的运行开销小于第一拆分结果的运行开销，从而进一步降低该AI模型在该设备上执行时的运行开销。

基于上述技术方案，还可以输出计算机程序，该计算机程序可以描述根据第一拆分结果对AI模型进行拆分后得到的N个第一子模型在M个处理器上的运行的时序和通信过程。基于此，用户可以灵活的使用该计算机程序。例如，将该计算机程序集成到其他应用当中。

下面，结合图3至图5，介绍使用上述AI模型的开发方法200对一个AI模型进行拆分的具体的实施例。在本申请实施例中，根据上述方法200对一个AI模型进行拆分可以得到多种拆分结果，每种拆分结果包括N个第一子模型，N为大于2的正整数。为便于描述，下面以对AI模型进行拆分得到二种拆分结果为例，介绍本申请实施例提供的AI模型的开发方法。

图3是本申请实施例提供的AI模型的开发方法300的示意性流程图。如图3所示，该方法300包括步骤310至步骤392，下面对步骤310至步骤392进行详细介绍。其中，该方法300的执行主体可以是上文中描述的开发装置120。在步骤310之前，还可以包括如下步骤：确定AI模型部署的终端设备包括的处理器的类型。在本申请实施例中，根据用户需求确定AI模型部署的终端设备包括3个处理器，分别是CPU、NPU和GPU。

步骤310，输入AI模型。具体的，输入AI模型，可以理解为将AI模型输入至开发装置120中。

步骤320，对AI模型进行分析，得到AI模型包括的L个第一算子和每个第一算子对应的一个处理器，L为大于2的正整数。上述步骤320的执行主体为开发装置120中的模型分析模块121。

具体的，可以参见图4中的(a)，使用模型分析模块121对输入的AI模型进行分析，可以得到该AI模型包括5个第一算子(即，L等于5)。为便于描述，将该5个第一算子分别记为第一算子1，第一算子2，第一算子3，第一算子4和第一算子5。其中，第一算子1对应终端设备中的CPU。也就是说，第一算子1在CPU上执行时的运行开销小于第一算子1在NPU或GPU上执行时的运行开销。第一算子2对应NPU，第一算子3对应NPU，第一算子4对应GPU，第一算子5对应NPU。

步骤330，根据L个第一算子和每个第一算子对应的处理器，得到拆分结果1和拆分结果2，以及拆分结果1的运行开销1和拆分结果2的运行开销2。其中，每种拆分结果包括N个第一子模型，N为大于2的正整数。

在本申请实施例中，执行上述步骤330所述的方法，可以得到二种拆分结果。其中，图4中的(b1)所示的是第一种拆分结果，记为拆分结果1。图4中的(b2)所示的是第二种拆分结果，记为拆分结果2。

如图4中的(b1)所示的拆分结果1，拆分结果1包括4个第一子模型，分别记为第一子模型1，第一子模型2，第一子模型3和第一子模型4。其中，第二子模型1对应CPU，第一子模型1包括第一算子1。第一子模型2对应NPU，第一子模型2包括第一算子2和第一算子3。第一子模型3对应GPU，第一子模型3包括第一算子4。第一子模型4对应NPU，第一子模型4包括第一算子5。也就是说，拆分结果1表示将AI模型拆分为上述4个第一子模型。

基于此，拆分结果1的运行开销1包括：每个第一子模型中的每个第一算子在对应的处理上执行时的开销，调度第一子模型到对应的处理器上的调度开销，第一子模型1在CPU上执行后输入到第一子模型2所在的NPU上的通信开销，第一子模型2在NPU上执行后输入到第一子模型3所在的GPU上的通信开销，第一子模型3在CPU上执行后输入到第一子模型4所在的NPU上的通信开销。

如图4中的(b2)所示的拆分结果2，拆分结果2包括3个第一子模型，分别记为第一子模型1，第一子模型2和第一子模型3。其中，第二子模型1对应CPU，第一子模型1包括第一算子1。第一子模型2对应NPU，第一子模型2包括第一算子2和第一算子3。第一子模型3对应GPU，第一子模型3包括第一算子4和第一算子5。也就是说，拆分结果2表示将AI模型拆分为上述3个第一子模型。

基于此，拆分结果2的运行开销2包括：每个第一子模型中的每个第一算子在对应的处理上执行时的开销，调度第一子模型到对应的处理器上的调度开销，第一子模型1在CPU上执行后输入到第一子模型2所在的NPU上的通信开销，第一子模型2在NPU上执行后输入到第一子模型3所在的GPU上的通信开销。

步骤340，通过比较运行开销1和运行开销2，将具有最小运行开销的拆分结果确定为第一拆分结果。在本申请实施例中，通过比较运行开销1和运行开销2，可以确定运行开销1最小。也就是说，可以确定拆分结果1为第一拆分结果。

步骤350，确定是否需要对第一拆分结果包括的N个第一子模型中的至少两个第一子模型进行合并。其中，至少两个第一子模型在执行顺序上是相邻的。

在确定需要对第一拆分结果包括的N个第一子模型中的在执行顺序上相邻的至少两个第一子模型进行合并的情况下，在步骤350之后执行步骤360至步骤380。也就是说，在步骤310至步骤350之后还可以执行步骤360至步骤380。

在确定不需要对第一拆分结果包括的N个第一子模型中的在执行顺序上相邻的至少两个第一子模型进行合并的情况下，在步骤350之后执行步骤391和步骤392。也就是说，根据上述步骤310至步骤340确定的AI模的第一拆分结果的运行开销能够满足用户的需求。在此情况下，可以将步骤340确定的第一拆分结果确定为对AI模型进行拆分后的结果。其中，可以根据用户需求或实际应用情况确定是否需要对第一拆分结果包括的N个第一子模型中的在执行顺序上相邻的至少两个第一子模型进行合并，在本申请实施例中对此并不进行限定。

由上述步骤340可知，在本申请实施例中，拆分结果1是第一拆分结果，即图4中的(b1)所述的拆分结果。下面，以图4中的(b1)所示的拆分结果1为例，介绍步骤360至步骤380。

步骤360，对N个第一子模型中的在执行顺序上相邻的至少两个第一子模型进行合并，得到拆分结果3和拆分结果4，以及拆分结果3的运行开销3和拆分结果4的运行开销4。

在本申请实施例中，执行上述步骤360所述的方法，可以得到二种拆分结果。其中，图5中的(c1)所示的是第一种拆分结果，记为拆分结果3。图5中的(c2)所示的是第二种拆分结果，记为拆分结果4。

如图5中的(c1)所示的拆分结果3，拆分结果3包括1个第一子模型和1个第二子模型，分别记为第一子模型1，第二子模型1。其中，第一子模型1对应CPU，第一子模型1包括第一算子1。第二子模型1对应NPU，第二子模型1包括第一子模型2，第一子模型3和第一子模型4。也就是说，拆分结果3是将第一拆分结果中的第一子模型2，第一子模型3和第一子模型4进行合并后得到的结果。

基于此，拆分结果3的运行开销3包括：第一子模型1在对应的处理上执行时的开销，第二子模型1中的每个第一子模型在对应的处理上执行时的开销，调度第一子模型1到对应的处理器上的调度开销，调度第二子模型1中的每个第一子模型到对应的处理器上的调度开销，第一子模型1在CPU上执行后输入到第二子模型1所在的NPU上的通信开销。

如图5中的(c2)所示的拆分结果4，拆分结果4包括2个第一子模型和1个第二子模型，分别记为第一子模型1，第一子模型2和第二子模型1。其中，第一子模型1对应CPU，第一子模型1包括第一算子1。第一子模型2对应NPU，第一子模型2包括第一算子2和第一算子3。第二子模型1对应GPU，第二子模型1包括第一子模型3和第一子模型4。也就是说，拆分结果3是将第一拆分结果中的第一子模型3和第一子模型4进行合并后得到的结果。

基于此，拆分结果4的运行开销4包括：每个第一子模型在对应的处理上执行时的开销，第二子模型1中的每个第一子模型在对应的处理上执行时的开销，调度每个第一子模型到对应的处理器上的调度开销，调度第二子模型1中的每个第一子模型到对应的处理器上的调度开销，第一子模型1在CPU上执行后输入到第一子模型2所在的NPU上的通信开销，第一子模型2在NPU上执行后输入到第二子模型1所在的GPU上的通信开销。

步骤370，通过比较运行开销1、运行开销3和运行开销4，确定第三拆分结果，并将第三拆分结果确定为对AI模型进行拆分后的结果。在本申请实施例中，通过比较运行开销1、运行开销3和运行开销4，可以确定运行开销3<运行开销1<运行开销4。基于此，可以确定拆分结果3是第三拆分结果。

步骤380，输出第三拆分结果和相应的计算机程序。在本申请实施例中，第三拆分结果是拆分结果3，即图5中的(c1)所示的拆分结果。

步骤391，将第一拆分结果确定为对AI模型进行拆分后的结果。在本申请实施例中，第一拆分结果是拆分结果1，即图4中的(b1)所示的拆分结果。步骤392，输出第一拆分结果和相应的计算机程序。

在本申请实施例中，上述步骤330至步骤370，以及步骤391的执行主体可以为开发装置120中的模型异构分解模块122。其中，模型异构分解模块122可以使用现有的算法(例如，遗传算法或贪心算法)对模型进行拆分或合并。上述步骤380和步骤392的执行主体可以为开发装置120中的异构调度描述模块123。

应理解，上述图3至图5仅为示意，并不对本申请实施例提供的AI模型的开发方法构成任何限定。在一些实施例中，根据本申请实施例的方法得到的结果可以用于但不限于终端设备。例如，还可以用于网络设备中，也就是说，可以将上述方法300中的终端设备替换为网络设备。在一些实施例中，可以将图4所示的(a)的模型拆分为更多数目(例如，4个或5个)的第一子模型。在一些实施例中，可以将图5所示的(b1)的模型合并为一个第二子模型，在此情况下，该一个第二子模型在一个处理器上执行时的运行开销小于运行开销1。

上文，结合图1至图5详细介绍了本申请提供的人工智能AI模型的开发方法以及该方法适用的系统架构。下面，结合图6至图8详细介绍本申请提供的人工智能AI模型的开发装置、开发设备和系统。应理解，方法实施例的描述与装置、设备和系统实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图6是本申请实施例提供的一种AI模型的开发装置600的示意性结构图。其中，该开发装置600可以为上文图1中描述的开发装置120。如图6所示，该开发装置600包括：拆分单元601，用于对AI模型进行拆分，以得到多种拆分结果，该多种拆分结果中的每种拆分结果包括多个第一子模型，该多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，该每个第一子模型能够运行于该对应的至少一个处理器以使得该每种拆分结果具有运行该多个第一子模型的运行开销；确定单元602，用于在该多种拆分结果中确定第一拆分结果，该第一拆分结果的第一运行开销小于该多种拆分结果中的一个或多个第二拆分结果的第二运行开销；输出单元604，用于输出该第一拆分结果。

可选的，在一些实施例中，在该多种拆分结果的运行开销中，该第一运行开销最小。可选的，在一些实施例中，该第一拆分结果包括N个第一子模型，N为大于2的正整数，该开发装置600还包括合并单元603，

该合并单元603，用于将该N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，该至少两个第一子模型在执行顺序上相邻，该第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，该X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，该每个第二子模型能够运行于该对应的一个或多个处理器以使得该第三拆分结果具有运行该X个第二子模型的第三运行开销，该第三运行开销小于该第一运行开销。

可选的，在一些实施例中，该AI模型包括L个第一算子，L为大于2的正整数，该多个第一子模型中的每个第一子模型包括该L个第一算子中的部分第一算子。

可选的，在一些实施例中，该拆分单元601具体用于：

根据输入信息对该AI模型进行拆分，该输入信息包括如下至少一个：该AI模型中的L个第一算子的执行顺序、或该L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。

可选的，在一些实施例中，该运行开销包括：运行该每个第一子模型的开销，在执行顺序上相邻的两个第一子模型之间的通信开销，以及调度该每个第一子模型到对应的至少一个处理器上的调度开销。

其中，可以通过查表或公式计算等方式确定上述运行开销。

可选的，在一些实施例中，该M个处理器包括以下处理器中的至少两种：中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。

可选的，在一些实施例中，在拆分单元601之前还包括输入单元，该输入单元用于获取该AI模型。

在本申请实施例中，对开发装置600的具体应用形式不作具体限定。在一些实施例中，开发装置600可以以软件开发工具包(software development kit，SDK)的形式开放给用户使用。用户将待部署的AI模型输入SDK后，选择需要部署的处理器的类型，SDK自动输出切分后的第一子模型和描述第一子模型间运行调度的计算机程序。用户可将上述计算机程序和多个第一子模型通过简单的操作封装为一个安卓应用程序包(android application package，APK)直接使用，或自行修改上述计算机程序，将其集成在其他应用当中。

应理解，上述图6仅为示意，并不对本申请实施例提供的开发装置600构成任何限定。例如，在一些场景中，该开发装置600还可以包括存储模块，该存储模块可以用于存储确定单元的处理结果和相应的计算机程序等。

在本申请实施例中，AI模型的开发设备中应包括处理器。可选的，在一些实现方式中，该AI模型的开发设备中还可以包括存储器。下面，结合图7，以AI模型的开发设备中包括处理器和存储器为例进行介绍。

如图7所示，该开发设备700包括：处理器701和存储器702。其中，处理器701和存储器702之间通过内部连接通路互相通信，传递控制和/或数据信号，该存储器702用于存储计算机程序，该处理器701用于从该存储器702中调用并运行该计算机程序，以执行上文所述的方法200和/或方法300。

具体的，处理器701的功能与图6所示的拆分单元601、确定单元602、和合并单元603的具体功能相对应，此处不再赘述。

可选的，在一些实施例中，开发设备700还可以包括接收器和/或输出器。其中，接收器可以用于接收AI模型，输出器的功能与图6中的输出单元604的具体功能相对应，此处不再赘述。

图8是本申请实施例提供的一种系统800的示意性结构图。如图8所示，该系统800包括：AI模型的开发装置600或AI模型的开发设备700。

本申请实施例提供了一种计算机程序产品，当该计算机程序产品在开发装置600或开发设备700上运行时，使得开发装置600或开发设备700执行上述方法实施例中的方法200和/或方法300。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参见前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种人工智能AI模型的开发方法，其特征在于，包括：

对AI模型进行拆分，以得到多种拆分结果，所述多种拆分结果中的每种拆分结果包括多个第一子模型，所述多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，所述每个第一子模型能够运行于所述对应的至少一个处理器以使得所述每种拆分结果具有运行所述多个第一子模型的运行开销；

在所述多种拆分结果中确定第一拆分结果，所述第一拆分结果的第一运行开销小于所述多种拆分结果中的一个或多个第二拆分结果的第二运行开销；

输出所述第一拆分结果。
根据权利要求1所述的方法，其特征在于，在所述多种拆分结果的运行开销中，所述第一运行开销最小。
根据权利要求1或2所述的方法，其特征在于，所述第一拆分结果包括N个第一子模型，N为大于2的正整数；

所述方法还包括：

将所述N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，所述至少两个第一子模型在执行顺序上相邻，所述第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，所述X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，所述每个第二子模型能够运行于所述对应的一个或多个处理器以使得所述第三拆分结果具有运行所述X个第二子模型的第三运行开销，所述第三运行开销小于所述第一运行开销。
根据权利要求1-3任一项所述的方法，其特征在于，所述AI模型包括L个第一算子，L为大于2的正整数，所述多个第一子模型中的每个第一子模型包括所述L个第一算子中的部分第一算子。
根据权利要求1-4任一项所述的方法，其特征在于，所述对所述AI模型进行拆分，包括：

根据输入信息对所述AI模型进行拆分，所述输入信息包括如下至少一个：所述AI模型中的L个第一算子的执行顺序、或所述L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。
根据权利要求1-5任一项所述的方法，其特征在于，所述运行开销包括：

运行所述每个第一子模型的开销，

在执行顺序上相邻的两个第一子模型之间的通信开销，以及

调度所述每个第一子模型到对应的至少一个处理器上的调度开销。
根据权利要求1-6任一项所述的方法，其特征在于，所述M个处理器包括以下处理器中的至少两种：

中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。
一种人工智能AI模型的开发装置，其特征在于，包括：

拆分单元，用于对AI模型进行拆分，以得到多种拆分结果，所述多种拆分结果中的每种拆分结果包括多个第一子模型，所述多个第一子模型中的每个第一子模型对应M个处理器中的至少一个处理器，M为大于1的正整数，所述每个第一子模型能够运行于所述对应的至少一个处理器以使得所述每种拆分结果具有运行所述多个第一子模型的运行开销；

确定单元，用于在所述多种拆分结果中确定第一拆分结果，所述第一拆分结果的第一运行开销小于所述多种拆分结果中的一个或多个第二拆分结果的第二运行开销；

输出单元，用于输出所述第一拆分结果。
根据权利要求8所述的装置，其特征在于，在所述多种拆分结果的运行开销中，所述第一运行开销最小。
根据权利要求8或9所述的装置，其特征在于，所述第一拆分结果包括N个第一子模型，N为大于2的正整数，所述装置还包括合并单元，

所述合并单元，用于将所述N个第一子模型中的至少两个第一子模型进行合并，以得到第三拆分结果，所述至少两个第一子模型在执行顺序上相邻，所述第三拆分结果包括X个第二子模型，X是大于1且小于N的正整数，所述X个第二子模型中的每个第二子模型对应M个处理器中的一个或多个处理器，所述每个第二子模型能够运行于所述对应的一个或多个处理器以使得所述第三拆分结果具有运行所述X个第二子模型的第三运行开销，所述第三运行开销小于所述第一运行开销。
根据权利要求8-10任一项所述的装置，其特征在于，所述AI模型包括L个第一算子，L为大于2的正整数，所述多个第一子模型中的每个第一子模型包括所述L个第一算子中的部分第一算子。
根据权利要求8-11任一项所述的装置，其特征在于，所述拆分单元具体用于：

根据输入信息对所述AI模型进行拆分，所述输入信息包括如下至少一个：所述AI模型中的L个第一算子的执行顺序、或所述L个第一算子中的每个第一算子的属性信息，L为大于2的正整数。
根据权利要求8-12任一项所述的装置，其特征在于，所述运行开销包括：

运行所述每个第一子模型的开销，

在执行顺序上相邻的两个第一子模型之间的通信开销，以及

调度所述每个第一子模型到对应的至少一个处理器上的调度开销。
根据权利要求8-13任一项所述的装置，其特征在于，所述M个处理器包括以下处理器中的至少两种：

中央处理器CPU、神经网络处理器NPU、图形处理器GPU、数字信号处理器DSP、深度学习处理器DPU或张量处理器TPU。
一种人工智能AI模型部署的装置，其特征在于，包括至少一个处理器，所述至少一个处理器，用于执行计算机程序或指令，以使得所述装置执行如权利要求1至7中任一项所述的方法。
一种人工智能AI模型部署的装置，其特征在于，所述装置包括处理器和存储器，所述存储器用于存储指令，所述处理器用于读取所述存储器中存储的指令，以执行权利要求1至7中任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于存储计算机指令，当所述计算机指令被执行时，如权利要求1至7中任一项所述的方法被实现。