WO2023123395A1

WO2023123395A1 - 一种计算任务处理装置、方法及电子设备

Info

Publication number: WO2023123395A1
Application number: PCT/CN2021/143792
Authority: WO
Inventors: 徐涛; 石洁珂; 王晓禹; 郑明�
Original assignee: 华为技术有限公司
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2023-07-06
Also published as: CN116848509A

Abstract

一种计算任务处理装置、方法及电子设备，涉及数据处理技术领域。该装置包括：通用处理器（201）和专用处理器（202），该通用处理器（201）和该专用处理器（202）之间通过物理接口（203）耦合；该通用处理器（201），用于通过该物理接口（203）向该专用处理器（202）发送第一指令，该第一指令为该通用处理器（201）的指令集中的指令且用于指示该专用处理器（202）处理第一计算任务；该专用处理器（202），用于通过该物理接口（203）接收并执行该第一指令，并根据该第一指令处理该第一计算任务。这样在该通用处理器（201）为CPU、该专用处理器（202）为NPU时，该CPU能够通过该CPU与该NPU之间耦合的物理接口（203）调度该NPU处理计算任务，而无需通过软件栈和系统总线调度，从而能够降低CPU复用NPU的计算资源的开销，提高CPU与NPU的交互效率。

Description

一种计算任务处理装置、方法及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种计算任务处理装置、方法及电子设备。

背景技术

随着人工智能(artificial intelligence，AI)技术的快速发展，越来越多的AI业务在终端设备上部署，从而对终端设备中片上系统(system of chip，SoC)的计算能力的要求越来越高。目前，SoC中通常集成有中央处理器(central processing unit，CPU)和神经网络处理器(neural-network processing unit，NPU)，由CPU复用NPU的计算资源，来执行AI业务相关的计算任务。

现有技术中提供了一种CPU基于软件复用NPU的计算资源的架构。如图1所示，该架构中包括系统总线、CPU和NPU，该CPU和该NPU与该系统总线耦合，该CPU上运行有软件栈，该软件栈包括位于内核中(kernel)的NPU驱动(driver)、以及位于用户空间(user space)的NPU运行时(runtime)和应用程序(application，APP)。具体的，当APP产生计算任务，需要CPU复用NPU的计算资源处理该计算任务时，该APP通过NPU运行时和NPU驱动将该计算任务通过CPU和系统总线发送给NPU，当NPU接收到该计算任务时处理该计算任务。

但是，在上述CPU复用NPU的计算资源的过程中，CPU需要在用户态与内核态之间进行切换，且软件栈中的层次较多，从而导致开销较大，不适用于CPU与NPU交互频繁的场景中。

发明内容

本申请的实施例提供一种计算任务处理装置、方法及电子设备，用于降低CPU复用NPU的计算资源的开销，提高CPU与NPU的交互效率。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供一种计算任务处理装置，该装置包括：通用处理器和专用处理器，该通用处理器和该专用处理器之间通过物理接口耦合，比如，该通用处理器为CPU、该专用处理器为NPU；该通用处理器，用于通过该物理接口向该专用处理器发送第一指令，第一指令为该通用处理器的指令集中针对该专用处理器的指令，该第一指令用于指示该专用处理器处理第一计算任务；该专用处理器，用于通过该物理接口接收并执行该第一指令(也即是，第一指令是该专用处理器直接通过物理接口接收到的指令，并不是通过类似于软件栈调度的方式从内存中获取的指令)，并根据该第一指令处理该第一计算任务。

上述技术方案中，通用处理器与专用处理器在物理层通过物理接口耦合，从而通用处理器可以直接通过物理接口向专用处理器发送第一指令，以调度专用处理器处理第一计算任务，即通用处理器能够通过物理接口直接复用专用处理器，该复用过程无需通过软件实现，从而开销小，提高了通用处理器与专用处理器的交互效率。

在第一方面的一种可能的实现方式中，该装置还包括：与该专用处理器耦合的缓存器；该缓存器，用于存储该第一计算任务的任务数据；该专用处理器，用于从该缓存器读取该任务数据，和/或将该任务数据缓存在该缓存器中。上述可能的实现方式中，能够提高该专用处理器读取或存储任务数据的效率，进而提高计算任务的处理效率。

在第一方面的一种可能的实现方式中，该缓存器为该通用处理器的缓存器；或者，该通用处理器与该缓存器耦合。上述可能的实现方式中，能够提高该通用处理器从缓存器读取数据或者向缓存器存储数据的效率，同时还能够提高缓存器的设计灵活性。

在第一方面的一种可能的实现方式中，该通用处理器与该专用处理器共用同一页表，该页表用于指示该任务数据在该缓存器中的逻辑地址与物理地址之间的映射关系。上述可能的实现方式中，通用处理器和专用处理器读取缓存器中的数据、或者向缓存器中存储数据时，无需进行额外的地址转换，从而能够降低的一定的功耗，并提高了数据的读写效率。

在第一方面的一种可能的实现方式中，该通用处理器上运行有该专用处理器的软件栈；该通用处理器，还用于通过该软件栈向该专用处理器发送指示消息，该指示消息用于指示专用处理器获取第二指令，比如，运行在通用处理器上的应用程序产生计算任务时，该应用程序调用该软件栈，以使该软件栈生成指示消息，然后由通用处理器通过系统总线将该指示消息发送给专用处理器，该指示消息可以是中断信号，该通用处理器并不感知该第二指令；该专用处理器，还用于在接收到该指示消息后通过专用处理器的软件栈解析后获取第二指令，并根据该第二指令处理该第二计算任务；其中，该第二指令为该专用处理器的指令集的指令。上述可能的实现方式中，通用处理器还可以基于软件栈复用专用处理器的计算资源，并且能够在专用处理器处理第二计算任务的过程中处理其他任务，从而提高资源利用率。

在第一方面的一种可能的实现方式中，该第一计算任务的计算量小于该第二计算任务的计算量。上述可能的实现方式中，当通用处理器需要复用专用处理器处理不同计算量的计算任务时，通用处理器可以通过物理接口复用专用处理器来处理计算量小的计算任务，通过软件栈复用专用处理器来处理计算量大的计算任务。这是因为通过软件栈复用专用处理器的方式适用于计算量大的计算任务，一般需要的计算时间较长、对调度延迟不敏感，而通过物理接口复用专用处理器的方式适用于计算量小的计算任务，需要的计算时间较短，对调度延迟比较敏感。

在第一方面的一种可能的实现方式中，该第一计算任务和该第二计算任务为并发的两个计算任务。上述可能的实现方式中，能够提高计算任务的处理效率和资源利用率。

在第一方面的一种可能的实现方式中，该专用处理器包括：控制单元和至少一个计算单元；该控制单元，用于在接收到多个计算任务时，根据该多个计算任务的至少一个预设参数为该多个计算任务分配该至少一个计算单元，该多个计算任务可以仅包括通过第一指令或第二指令中的一种指令指示的多个计算任务，也可以同时包括通过第一指令和第二指令指示的多个计算任务；其中，该至少一个预设参数包括以下至少一项：优先级、任务类型。上述可能的实现方式中，能够在多个计算任务并发且计算资源有限的情况下，保证高优先级或者计算量小的计算任务优先被处理，低优先级或者计算量大的计算任务后被处理，从而使得高优先级或者计算量小的计算任务具有较小的处理时延和较高的处理效率。

在第一方面的一种可能的实现方式中，该至少一个预设参数包括该任务类型，该至少一个计算单元包括：矢量运算单元，用于处理该多个计算任务中该任务类型为矢量运算的计算任务；矩阵运算单元，用于处理该多个计算任务中该任务类型为矩阵运算的计算任务。上述可能的实现方式，能够提高计算任务的处理效率。

在第一方面的一种可能的实现方式中，该通用处理器包括中央处理器CPU、或者具有调度功能的图像处理单元GPU(也可以称为宏观GPU，比如内部集成有CPU的GPU)或者具有调度功能的数字信号处理器DSP等；该专用处理器包括以下至少一个：神经网络处理器NPU、数字信号处理器DSP、图像处理单元GPU。上述可能的实现方式，能够提高专用处理器的设计灵活性和多样性。

第二方面，提供一种计算任务处理方法，应用于包括通用处理器和专用处理器的装置中，该通用处理器和该专用处理器之间通过物理接口耦合，该方法包括：该通用处理器通过该物理接口向该专用处理器发送第一指令，该第一指令是该通用处理器的指令集中针对该专用处理器的指令，该第一指令用于指示该专用处理器处理第一计算任务；该专用处理器通过该物理接口接收并执行该第一指令，并根据该第一指令处理该第一计算任务。

在第二方面的一种可能的实现方式中，该装置还包括与该专用处理器耦合的缓存器，该方法还包括：该专用处理器从该缓存器读取该第一计算任务的任务数据；或者，该专用处理器将该第一计算任务的任务数据缓存在该缓存器中。

在第二方面的一种可能的实现方式中，该缓存器为该通用处理器的缓存器；或者，该通用处理器与该缓存器耦合；其中，该通用处理器与该专用处理器共用同一页表，该页表用于指示该任务数据在该缓存器中的逻辑地址与物理地址之间的映射关系。

在第二方面的一种可能的实现方式中，该通用处理器上运行有该专用处理器的软件栈，该方法包括：该通用处理器通过该软件栈向该专用处理器发送指示消息，该指示消息用于指示该专用处理器获取第二指令，比如，运行在通用处理器上的应用程序产生计算任务时，该应用程序调用该软件栈，以使该软件栈生成该计算任务对应的指示消息，然后由通用处理器通过系统总线将该指示消息发送给专用处理器，该指示消息可以是中断信号，该通用处理器并不感知该第二指令；当该专用处理器接收到该指示消息后通过专用处理器的软件栈解析后获取该第二指令，并根据该第二指令处理该第二计算任务；其中，该第二指令为该专用处理器的指令。

在第二方面的一种可能的实现方式中，该第一计算任务的计算量小于该第二计算任务的计算量。

在第二方面的一种可能的实现方式中，该第一计算任务和该第二计算任务为并发的两个计算任务。

在第二方面的一种可能的实现方式中，该专用处理器包括控制单元和至少一个计算单元，该方法还包括：在接收到多个计算任务时，该控制单元根据该多个计算任务的至少一个预设参数为该多个计算任务分配该至少一个计算单元，该多个计算任务可以仅包括通过第一指令或第二指令中的一种指令指示的多个计算任务，也可以同时包括通过第一指令和第二指令指示的多个计算任务；其中，该至少一个预设参数包括以下至少一项：优先级、任务类型。

在第二方面的一种可能的实现方式中，该至少一个预设参数包括该任务类型，该至少一个计算单元包括矢量运算单元和矩阵运算单元，该方法还包括：该矢量运算单元处理该多个计算任务中该任务类型为矢量运算的计算任务；该矩阵运算单元处理该多个计算任务中该任务类型为矩阵运算的计算任务。

在第二方面的一种可能的实现方式中，该通用处理器包括中央处理器CPU、具有调度功能的图像处理单元GPU(比如，该GPU内部集成CPU)或者具有调度功能的数字信号处理器DSP；该专用处理器包括以下至少一个：神经网络处理器NPU、数字信号处理器DSP、图像处理单元GPU。

在本申请的另一方面，提供一种片上系统SoC，该SoC中集成有第一方面或第一方面的任一种可能的实现方式所提供的计算任务处理装置。

在本申请的另一方面，提供一种电子设备，所述电子设备包括第一方面或第一方面的任一种可能的实现方式所提供的计算任务处理装置。

在本申请的另一方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在设备上运行时，使得该设备执行第二方面或第二方面的任一种可能的实现方式所提供的计算任务处理方法。

在本申请的另一方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当该计算机程序被运行时，使得计算机执行上述第二方面或者第二方面的任一种可能的实现方式所提供的计算任务处理方法。

可以理解地，上述提供的任一种计算任务处理方法、电子设备、计算机可读存储介质和计算机程序产品，其所能达到的有益效果可对应参考上文所提供的计算任务处理装置中的有益效果，此处不再赘述。

附图说明

图1为第一种处理器的架构示意图；

图2为第二种处理器的架构示意图；

图3为第三种处理器的架构示意图；

图4为本申请实施例提供的一种计算任务处理装置的结构示意图；

图5为本申请实施例提供的一种CPU复用NPU的示意图；

图6为本申请实施例提供的另一种CPU复用NPU的示意图；

图7为本申请实施例提供的一种NPU的结构示意图；

图8为本申请实施例提供的另一种计算任务处理装置的结构示意图。

具体实施方式

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，本申请实施例采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一阈值和第二阈值仅仅是为了区分不同的阈值，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

需要说明的是，本申请中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

下面在介绍本申请实施例之前，首先对本申请所涉及的相关背景技术进行介绍说明。

随着AI技术的快速发展，越来越多的AI业务在终端设备上部署，从而对终端设备中片上系统SoC的计算能力的要求越来越高。目前，SoC中通常集成有适合AI运算的NPU或数字信号处理器(digital signal processor，DSP)等专用处理器，该专用处理器中通常包括矩阵运算单元和矢量运算单元。当然，除了专用处理器外，CPU和图像处理器(graphics processing unit，GPU)等通用处理器也能够处理AI运算，但是与专用处理器相比，在能效、面积和灵活性等方面存在一定的差距。

此外，AI运算的应用场景和AI算法的数量都很多，且不同的应用场景和不同的AI算法对计算能力的需求的差异较大。例如，图像类的AI算法的计算量大(即对计算能力的需求较高)，而部分语音类的AI算法的计算量小(即对计算能力的需求相对较小)，但是实时性要求高。二者的区别在于：计算量大的AI算法的运算时长较长，对调度时延相对不敏感，一般调度时延为500微秒(us)至几毫秒(ms)；计算量小的AI算法的运算时长较小，计算时长仅为几百us或者1ms内。针对上述问题，图1-图3提供了几种处理器的架构图，下面分别对这几种处理器的架构进行介绍说明。

图1为第一种处理器的架构示意图，该架构包括两个不同的处理器且采用松耦合方式耦合。该架构包括系统总线、CPU和NPU，该CPU和该NPU与该系统总线耦合。该CPU上运行有软件栈，该软件栈包括位于内核中的NPU驱动、以及位于用户空间的NPU运行时和应用程序APP。该NPU包括矩阵运算单元和矢量运算单元。在该架构中，CPU和NPU可以异步执行，即同时用于执行不同的业务。此外，当APP产生计算任务，该CPU可以基于软件栈中的NPU驱动和NPU运行时复用NPU的计算资源，具体过程可以包括：该CPU向该NPU发送中断信号，当该NPU接收到该中断信号时，该NPU通过NPU的软件栈解析后从内存中获取对应的指令，并根据该指令处理该计算任务。但是，该方式中CPU需要在用户态与内核态之间进行切换，且软件栈中的层次较多，从而导致开销较大，不适用于CPU与NPU交互频繁的场景中。

图2为第二种处理器的架构示意图，该架构包括一个处理器且内部设有矩阵运算单元。该架构包括CPU，该CPU包括CPU核(core)、以及与CPU核相互耦合的矩阵运算单元和缓存器(cache)，该矩阵运算单元与该缓存器也相互耦合。当有AI运算需要被处理时，该CPU核可以通过定制指令驱动矩阵运算单元运行，以通过该矩阵运算单元处理AI运算。这种架构的优势是调度开销小，适合CPU核与矩阵运算单元交互比较频繁的场景中。但是，该矩阵运算单元仅能用于处理计算量较小的AI运算和一些普通的矩形运算，无法适用于处理计算量较大的AI运算。

图3为第三种处理器的架构示意图，该架构是上述两种架构的结合。该架构包括系统总线、CPU和NPU，该CPU和该NPU与该系统总线耦合。该CPU内设置有矩阵运算单元，且该CPU上运行有软件栈，该软件栈包括位于内核中的NPU驱动、以及位于用户空间的NPU运行时和应用程序APP。该NPU包括矩阵运算单元和矢量运算单元。当有计算量较小的AI运算需要被处理时，该CPU通过定制指令驱动内部的矩阵运算单元运行来处理；当有计算量较大的AI运算需要被处理时，该CPU通过软件栈复用NPU中的矩阵运算单元来处理。这种架构可以用于处理计算量较小的AI运算，也可以用于处理计算量较大的AI运算。但是，该架构中该CPU和该NPU所包含的矩阵运算单元在物理上是相互独立的，从而需要占用的面积较大，且两个矩阵运算单元无法同时用于处理同一计算任务，从而降低了计算资源的利用率。

基于此，本申请实施例提供一种计算任务处理装置，该计算任务处理装置能够用于处理不同计算量的计算任务，且在处理计算量小的计算任务时具有较小的开销，同时该装置与上述第三种处理器的结构相比，还可以提高减小占用面积，提高计算资源的利用率。该计算任务处理装置可以应用于电子设备中，该电子设备包括但不限于：手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表和智能手环等)、车载设备(例如，汽车、自行车、电动车、飞机、船舶、火车、高铁等)、虚拟现实(virtual reality，VR)设备、增强现实(augmented reality，AR)设备、工业控制(industrial control)中的无线终端、智能家居设备(例如，冰箱、电视、空调、电表等)、智能机器人、车间设备、无人驾驶(self-driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端，或智慧家庭(smart home)中的无线终端、飞行设备(例如，智能机器人、热气球、无人机、飞机)等。

下面对该计算任务处理装置的具体结构进行介绍说明。

图4为本申请实施例提供的一种计算任务处理装置的结构示意图。该计算任务处理装置包括：通用处理器201和专用处理器202，通用处理器201和专用处理器202之间通过物理接口203耦合。

在该计算任务处理装置中，通用处理器201用于通过物理接口203向专用处理器202发送第一指令，第一指令为通用处理器201的指令集中针对专用处理器202的指令，第一指令用于指示专用处理器202处理第一计算任务；专用处理器202用于通过物理接口203接收并执行第一指令，并根据第一指令处理第一计算任务。也即是，通用处理器201可以通过物理接口203复用专用处理器202来处理第一计算任务。

其中，通用处理器201可以包括中央处理器CPU或者具有调度功能的其他处理器中的一个或者多个，比如，具有调度功能的图像处理器GPU(也可以称为宏观GPU，比如内部集成有CPU的GPU)、或者具有调度功能的数字信号处理器DSP等。专用处理器202可以包括神经网络处理器NPU、数字信号处理器DSP等中的一个或者多个，神经网络处理器NPU也可以称为人工智能AI处理器。该计算任务处理装置包括的通用处理器201的数量和专用处理器202的数量均可以为一个或者多个，每个处理器中可以包括一个或者多个处理核。图4中以通用处理器201包括CPU，专用处理器202包括NPU为例进行说明。

另外，专用处理器202可用于处理多个不同维度的数据的运算，比如，该多个不同维度的数据可以包括一维数据(比如，矢量)、二维(比如，矩阵)、以及二维以上的数据(比如，三维数据)等。

再者，相对于通用处理器201的当前指令集而言，第一指令可以为通用处理器201的扩展指令(也可以称为定制指令)，该扩展指令能够用于指示(或称为驱动)专用处理器202处理计算任务，第一指令可以由通用处理器201生成。第一计算任务可以是运行在通用处理器201上的某一应用程序(也可以称为业务)产生的一个计算任务，一个应用程序可以产生一个或者多个计算任务，每个计算任务可以对应一个线程。可选的，第一计算任务可以为AI运算对应的计算任务，该AI运算可以是二维数据的运算、或者二维以上数据的运算等。

具体的，当通用处理器201上的某一应用程序产生第一计算任务时，通用处理器201在执行过程中可以获取到第一指令，通用处理器201可以通过物理接口203向专用处理器202发送第一指令，当专用处理器202接收并执行第一指令时可以处理第一计算任务(也即是，第一指令是该专用处理器直接通过物理接口接收到的指令，并不是通过类似于软件调度的方式从内存中获取的指令)。在专用处理器202处理第一计算任务的过程中，通用处理器201可以处于等待状态，在专用处理器202完成第一计算任务的处理后，通用处理器201可以继续执行后续操作。上述通用处理器201通过物理接口203复用专用处理器202来处理第一计算任务的方式可以称为同步复用专用处理器202的计算资源。

示例性的，如图5所示，假设通用处理器201为CPU、专用处理器202为NPU，则CPU通过物理接口203复用NPU的具体可以包括：CPU加载二进制码(binary code)到指令缓存(instruction cache)中，并对二进制码进行取指(instruction fetch)和译码(decode)操作，当该二进制码中含有扩展指令时，译码操作可以识别到该扩展指令，该扩展指令通过指令队列(issue queue)和指令存放队列(store queue)后，CPU将通过物理接口203该扩展指令发送到NPU中的指令缓存(instruction buffer)中，由NPU完成译码、派发(dispatch)和指令执行(execution)过程，即处理该扩展指令对应的计算任务。

在本申请实施例提供的计算任务处理装置中，通用处理器201与专用处理器202在物理层通过物理接口203耦合，从而通用处理器201可以直接通过物理接口203发送第一指令以调度专用处理器202处理第一计算任务，即通用处理器201能够通过物理接口203复用专用处理器202，该复用过程无需通过软件实现，从而开销小，提高了通用处理器201与专用处理器202的交互效率。

进一步的，如图4所示，该计算任务处理装置还包括：缓存器(cache)204。缓存器204与专用处理器202耦合，从而专用处理器202可用于向缓存器204中存储数据、以及读取缓存器204中的数据。

可选的，缓存器204为集成在通用处理器201内部的缓存器，比如，通用处理器201为包括三级缓存(即L1-L3缓存)的CPU，缓存器204可以为L3缓存。或者，缓存器204为集成在通用处理器201外部的缓存器，通用处理器201与缓存器204耦合，即通用处理器201可用于向缓存器204中存储数据、以及读取缓存器204中的数据。图4中以缓存器204集成在通用处理器201的外部为例进行说明。

在一种可能的实施例中，缓存器204中存储有第一计算任务的第一任务数据，第一任务数据可以是处理第一计算任务时所需的输入数据(即该数据是专用处理器202执行第一指令过程中需要使用的数据)，则专用处理器202还用于：在处理第一计算任务的过程中，从缓存器204中读取第一任务数据。可选的，第一任务数据可以是通用处理器201存储在缓存器204中的数据。

在另一种可能的实施例中，专用处理器202在处理第一计算任务的过程中产生了第二任务数据，第二任务数据可以是处理第一计算任务时的输出数据(即该数据是专用处理器 202执行第一指令后对应输出的数据)，则专用处理器202还用于：将第二任务数据存储在缓存器204中。可选的，通用处理器201可以从缓存器204中读取第二任务数据。

可选的，通用处理器201与专用处理器202可以共用同一页表，该页表可用于指示上述第一任务数据和/或第二任务数据在缓存器204中的逻辑地址与物理地址之间的映射关系。这样，通用处理器201和专用处理器202读取缓存器204中的数据、或者向缓存器204中存储数据时，无需进行额外的地址转换，从而能够降低的一定的功耗，并提高了数据的读写效率。

可选的，该计算任务处理装置还可以包括系统总线205，缓存器204和专用处理器202均与系统总线205耦合。此外，该计算任务处理装置还可以包括内存，比如该内存可以为双倍速率同步动态随机存储器(double data rate synchronous dynamic random access memory，DDR SRAM)，简称DDR。专用处理器202还可以通过缓存器204访问内存，也可以不通过缓存器204访问内存，即专用处理器202有独立的不经过缓存器204访问内存的通道。

进一步的，如图4所示，通用处理器201上运行有专用处理器202的软件栈，该软件栈可以包括专用处理器202的运行时和驱动。图4中该软件栈包括NPU运行时和NPU驱动为例进行说明。

具体的，通用处理器201还用于通过该软件栈向专用处理器202发送指示消息，该指示消息用于指示专用处理器获取第二指令，该第二指令为专用处理器202的指令集中的指令，该通用处理器并不感知该第二指令，比如，运行在通用处理器201上的应用程序产生计算任务时，该应用程序调用该软件栈，以使该软件栈生成该计算任务对应的指示消息，然后由通用处理器201通过系统总线将该指示消息发送给专用处理器202，该指示消息可以是中断信号；专用处理器202还用于在接收到该指示消息后通过专用处理器202的软件栈获取第二指令(比如从内存中获取第二指令)，并根据第二指令处理第二计算任务。也即是，通用处理器201还可以基于软件栈复用专用处理器202的计算资源。在专用处理器202处理第二计算任务的过程中，通用处理器201可以继续执行其他任务，当专用处理器202完成第二计算任务的处理后，专用处理器202向通用处理器201发送中断，这样通用处理器201可以在接收到该中断时继续执行第二计算任务对应的后续操作。上述通用处理器201基于软件栈复用专用处理器202来处理第二计算任务的方式可以称为异步复用专用处理器202的计算资源。

其中，第二计算任务可以是运行在通用处理器201上的某一应用程序(也可以称为业务)产生的一个计算任务。第一计算任务和第二计算任务可以是同一应用程序产生的两个计算任务，也可以是不同应用程序产生的两个计算任务。第二计算任务可以为AI运算对应的计算任务。

示例性的，结合图4，如图6所示，当运行CPU上的APP产生第二计算任务，需要CPU复用NPU的计算资源处理第二计算任务时，该APP可以通过NPU运行时和NPU驱动将第二计算任务发送给NPU，以使NPU处理第二计算任务。

可选的，第一计算任务的计算量小于第二计算任务的计算量。也即是，当通用处理器201需要复用专用处理器202处理不同计算量的计算任务时，通用处理器201可以通过物理接口203复用专用处理器202来处理计算量小的计算任务，通过软件栈复用专用处理器 202来处理计算量大的计算任务。这是因为通过软件栈复用专用处理器202的方式适用于计算量大的计算任务，一般需要的计算时间较长、对调度延迟不敏感，而通过物理接口203复用专用处理器202的方式适用于计算量小的计算任务，需要的计算时间较短，对调度延迟比较敏感。

在实际应用中，通用处理器201可以按照上述两种方式同时复用专用处理器202处理不同计算量的计算任务，也可以分时复用专用处理器202处理不同计算量的计算任务。在一种实施例中，当第一计算任务和第二计算任务为并发的两个计算任务时，通用处理器201按照通过物理接口203复用专用处理器202的方式处理第一计算任务，同时通过软件栈复用专用处理器202的方式处理第二计算任务。

进一步的，当存在并发的多个计算任务时，此时需要有计算资源的管理机制来确保该多个计算任务的正常运行，该多个计算任务可以仅包括上述两种方式中的任意一种方式下专用处理器202接收到的计算任务，也可以同时包括上述两种方式下专用处理器202接收到的计算任务。具体的，如图7所示，专用处理器202可以包括：控制单元和计算单元，该计算单元的数量可以为一个或者多个，控制单元可用于负责管理计算单元。

可选的，控制单元可以包括资源管理单元和指令执行单元，资源管理单元可用于管理和分配计算单元，指令执行单元可用于负责指令缓存、取指和译码等功能。计算单元可以包括不同维度的一个或者多个计算单元，比如，计算单元可以包括矢量运算单元和矩阵运算单元。下面主要以控制单元为主体，对控制单元在资源管理方面的功能进行介绍说明。

在一种可能的实施例中，控制单元用于：在接收到多个计算任务时，根据该多个计算任务的至少一个预设参数为该多个计算任务分配该至少一个计算单元。该多个计算任务包括第一计算任务。该至少一个预设参数包括以下至少一项：优先级、任务类型。下面以几种示例为例进行说明。

在一种示例中，当该至少一个预设参数包括优先级，控制单元接收到多个计算任务时，按照该多个计算任务的优先级从高到低的顺序为该多个计算任务分配该至少一个计算单元。若该至少一个计算单元能够处理的计算量小于该多个计算任务的计算量，控制单元可以优先为高优先级的计算任务分配该至少一个计算单元，在该至少一个计算单元完成该高优先级的计算任务后，再为低优先级的计算任务分配该至少一个计算单元。

可选的，该至少一个计算单元中的每个计算单元可以包括多个计算块，该多个计算块中的每个计算块可以具有相同或者不同的计算能力，一个或者多个计算块可用于处理一个计算任务。控制单元在按照计算任务的优先级或者计算量分配计算单元中的计算块时，可以根据每个计算任务的计算量为该计算任务分配计算能力相匹配的一个或者多个计算块。

此外，当每个计算单元包括多个计算块时，该多个计算块中的至少一个计算块可被静态配置为用于处理通过物理接口203复用专用处理器202的方式下的计算任务。当然，该至少一个计算块也可以用于处理通过软件栈复用专用处理器202的方式下的计算任务。

需要说明的是，计算任务的优先级和计算量可以是由该计算任务决定的，比如，在该计算任务产生时就对应决定了该计算任务的优先级和计算量。当至少一个预设参数包括至少两个参数时，该至少两个参数可以综合用于确定控制单元为每个计算任务分配计算单元的顺序。

可选的，如图8所示，通用处理器201中可以包括优先级控制单元，该优先级控制单元可用于支持计算任务的优先级的设置和查询，专用处理器202中的控制单元可以支持按照优先级分配计算单元。其中，该优先级控制单元可以提供寄存器等接口允许业务软件配置优先级，同时还可以维护允许被查询的优先级队列。对于专用处理器202中的控制单元，当高优先级业务需要使用计算单元时，该控制单元可以控制住正在运行的低优先级业务并进行切换，以优先调度高优先级业务。比如，通用处理器201中的业务以线程为粒度设置优先级，这样专用处理器202中的控制单元可以保证高优先级的线程优先分配到计算单元，低优先级的线程若分配不到计算单元可以休眠(sleep)，在计算单元释放后，低优先级的线程重新被唤醒并分配到计算单元。图8中以通用处理器201为CPU且包括多个处理核为例进行说明。

在又一种示例中，当该至少一个预设参数包括任务类型，计算单元包括矢量运算单元和矩阵运算单元时，控制单元还用于：将该多个计算任务中任务类型为矢量运算的计算任务分配至矢量运算单元，将该多个计算任务中任务类型为矩阵运算的计算任务分配至矩阵运算单元。相应的，矢量运算单元用于处理该多个计算任务中任务类型为矢量运算的计算任务，矩阵运算单元用于处理该多个计算任务中任务类型为矩阵运算的计算任务。图7中以矢量运算单元包括m个计算块、矩阵运算单元包括n个计算块为例进行说明，m和n为正整数。

需要说明的是，当该至少一个预设参数包括任务类型，还包括优先级时，控制单元可以先按照任务类型确定为计算任务分配的计算单元的类型，再按照优先级确定的顺序分配对应类型的计算单元。

在本申请实施例中，控制单元可以按照至少一个预设参数为多个计算任务分配计算单元，从而在多个计算任务并发且计算资源有限的情况下，保证高优先级或者计算量小的计算任务优先被处理，低优先级或者计算量大的计算任务后被处理，从而使得高优先级或者计算量小的计算任务具有较小的处理时延和较高的处理效率。

本申请实施例还提供一种计算任务处理方法，该方法可以应用于上文所提供的计算任务处理装置中，该装置包括通用处理器和专用处理器，所述通用处理器和所述专用处理器之间通过物理接口耦合，关于该装置的具体描述可以参见上文中的相关描述。

具体的，该方法包括：该通用处理器通过该物理接口向该专用处理器发送第一指令，该第一指令用于指示该专用处理器处理第一计算任务，该第一指令可以为该通用处理器的指令集中针对专用处理器的指令；该专用处理器通过该物理接口接收并执行该第一指令(也即是，第一指令是该专用处理器直接通过物理接口接收到的指令，并不是通过类似于软件栈调度的方式从内存中获取的指令)，并根据该第一指令处理该第一计算任务。

可选的，当该装置还包括与该专用处理器耦合的缓存器时，该方法还可以包括：该专用处理器从该缓存器读取该第一计算任务的任务数据；或者，该专用处理器将该第一计算任务的任务数据缓存在该缓存器中。

在一种实施例中，该缓存器为该通用处理器的缓存器。在另一种实施例中，该通用处理器与该缓存器耦合。

在实际应用中，该通用处理器与该专用处理器共用同一页表，该页表用于指示该任务数据在该缓存器中的逻辑地址与物理地址之间的映射关系。

进一步的，该通用处理器上运行有该专用处理器的软件栈，该方法还可以包括：该通用处理器通过该软件栈向该专用处理器发送指示消息，该指示消息用于指示专用处理器获取第二指令，比如，运行在通用处理器上的应用程序产生计算任务时，该应用程序调用该软件栈，以使该软件栈生成指示消息，然后由通用处理器通过系统总线将该指示消息发送给专用处理器，该指示消息可以是中断信号，该通用处理器并不感知该第二指令；该专用处理器，还用于在接收到该指示消息后通过专用处理器的软件解析后获取第二指令(比如从内存中获取第二指令)，并根据该第二指令处理该第二计算任务；其中，该第二指令为该专用处理器的指令集中的指令。

可选的，该第一计算任务的计算量小于该第二计算任务的计算量。在一种实施例中，该第一计算任务和该第二计算任务为并发的两个计算任务。

进一步的，该专用处理器包括控制单元和至少一个计算单元，该方法还可以包括：在接收到多个计算任务时，该控制单元根据该多个计算任务的至少一个预设参数为该多个计算任务分配该至少一个计算单元，该多个计算任务可以仅包括通过第一指令或者第二指令中的一种指令指示的多个计算任务，也可以同时包括通过第一指令和第二指令指示的多个计算任务；其中，该至少一个预设参数包括以下至少一项：优先级、任务类型。

在一种实施例中，该至少一个预设参数包括该任务类型，该至少一个计算单元包括矢量运算单元和矩阵运算单元，该方法还包括：该矢量运算单元处理该多个计算任务中该任务类型为矢量运算的计算任务；该矩阵运算单元处理该多个计算任务中该任务类型为矩阵运算的计算任务。

需要说明的是，关于上述步骤的详细描述具体可以参见上文所提供的计算任务处理装置中的描述，本申请实施例在此不再赘述。

在本申请实施例中，通用处理器与专用处理器在物理层通过物理接口耦合，从而通用处理器可以直接通过物理接口发送第一指令，以调度专用处理器处理第一计算任务，即通用处理器能够通过物理接口复用专用处理器，该复用过程无需通过软件实现，从而开销小，提高了通用处理器与专用处理器的交互效率。

在本申请的另一方面，还提供一种片上系统SoC，该SoC中集成有上文所提供的任一种计算任务处理装置。

在本申请的另一方面，还提供一种电子设备，该电子设备包括上文所提供的任一种计算任务处理装置。

在本申请的又一方面，提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当该指令在设备上运行时，使得该设备执行上述方法实施例提供的计算任务处理方法。

在本申请的又一方面，提供一种计算机程序产品，当该计算机程序产品在设备上运行时，使得该设备执行上述方法实施例提供的任一种计算任务处理方法。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种计算任务处理装置，其特征在于，所述装置包括：通用处理器和专用处理器，所述通用处理器和所述专用处理器之间通过物理接口耦合；

所述通用处理器，用于通过所述物理接口向所述专用处理器发送第一指令，所述第一指令为所述通用处理器的指令集中针对所述专用处理器的指令，所述第一指令用于指示所述专用处理器处理第一计算任务；

所述专用处理器，用于通过所述物理接口接收并执行所述第一指令，并根据所述第一指令处理所述第一计算任务。
根据权利要求1所述的装置，其特征在于，所述装置还包括：与所述专用处理器耦合的缓存器；

所述缓存器，用于存储所述第一计算任务的任务数据；

所述专用处理器，用于从所述缓存器读取所述任务数据，和/或将所述任务数据缓存在所述缓存器中。
根据权利要求2所述的装置，其特征在于，所述缓存器为所述通用处理器的缓存器；或者，

所述通用处理器与所述缓存器耦合。
根据权利要求3所述的装置，其特征在于，所述通用处理器与所述专用处理器共用同一页表，所述页表用于指示所述任务数据在所述缓存器中的逻辑地址与物理地址之间的映射关系。
根据权利要求1-4任一项所述的装置，其特征在于，所述通用处理器上运行有所述专用处理器的软件栈；

所述通用处理器，还用于通过所述软件栈向所述专用处理器发送指示消息，所述指示消息用于指示所述专用处理器获取第二指令；

所述专用处理器，还用于在接收所述指示消息后通过所述专用处理器的软件栈解析后获取所述第二指令，并根据所述第二指令处理所述第二计算任务；

其中，所述第二指令是所述专用处理器的指令集中的指令。
根据权利要求5所述的装置，其特征在于，所述第一计算任务的计算量小于所述第二计算任务的计算量。
根据权利要求5或6所述的装置，其特征在于，所述第一计算任务和所述第二计算任务为并发的两个计算任务。
根据权利要求1-7任一项所述的装置，其特征在于，所述专用处理器包括：控制单元和至少一个计算单元；

所述控制单元，用于在接收到多个计算任务时，根据所述多个计算任务的至少一个预设参数为所述多个计算任务分配所述至少一个计算单元；

其中，所述至少一个预设参数包括以下至少一项：优先级、任务类型。
根据权利要求8所述的装置，其特征在于，所述至少一个预设参数包括所述任务类型，所述至少一个计算单元包括：

矢量运算单元，用于处理所述多个计算任务中所述任务类型为矢量运算的计算任务；

矩阵运算单元，用于处理所述多个计算任务中所述任务类型为矩阵运算的计算任务。
根据权利要求1-9任一项所述的装置，其特征在于，所述通用处理器包括中央处理器CPU；所述专用处理器包括以下至少一个：神经网络处理器NPU、数字信号处理器DSP。
根据权利要求1-10任一项所述的装置，其特征在于，所述装置集成在片上系统SoC中。
一种计算任务处理方法，其特征在于，应用于包括通用处理器和专用处理器的装置中，所述通用处理器和所述专用处理器之间通过物理接口耦合，所述方法包括：

所述通用处理器通过所述物理接口向所述专用处理器发送第一指令，所述第一指令为所述通用处理器的指令集中针对所述专用处理器的指令，所述第一指令用于指示所述专用处理器处理第一计算任务；

所述专用处理器通过所述物理接口接收并执行所述第一指令，并根据所述第一指令处理所述第一计算任务。
根据权利要求12所述的方法，其特征在于，所述装置还包括与所述专用处理器耦合的缓存器，所述方法还包括：

所述专用处理器从所述缓存器读取所述第一计算任务的任务数据；或者，

所述专用处理器将所述第一计算任务的任务数据缓存在所述缓存器中。
根据权利要求13所述的方法，其特征在于，所述缓存器为所述通用处理器的缓存器；或者，

所述通用处理器与所述缓存器耦合。
根据权利要求14所述的方法，其特征在于，所述通用处理器与所述专用处理器共用同一页表，所述页表用于指示所述任务数据在所述缓存器中的逻辑地址与物理地址之间的映射关系。
根据权利要求12-14任一项所述的方法，其特征在于，所述通用处理器上运行有所述专用处理器的软件栈，所述方法包括：

所述通用处理器通过所述软件栈向所述专用处理器发送指示消息，所述指示消息用于指示所述专用处理器获取第二指令；

在所述专用处理器接收到所述指示消息后通过所述专用处理器的软件栈解析后获取所述第二指令，并根据所述第二指令处理所述第二计算任务；

其中，所述第二指令是所述专用处理器的指令集中的指令。
根据权利要求16所述的方法，其特征在于，所述第一计算任务的计算量小于所述第二计算任务的计算量。
根据权利要求16或17所述的方法，其特征在于，所述第一计算任务和所述第二计算任务为并发的两个计算任务。
根据权利要求12-18任一项所述的方法，其特征在于，所述专用处理器包括控制单元和至少一个计算单元，所述方法还包括：

在接收到多个计算任务时，所述控制单元根据所述多个计算任务的至少一个预设参数为所述多个计算任务分配所述至少一个计算单元；

其中，所述至少一个预设参数包括以下至少一项：优先级、任务类型。
根据权利要求19所述的方法，其特征在于，所述至少一个预设参数包括所述任务类型，所述至少一个计算单元包括矢量运算单元和矩阵运算单元，所述方法还包括：

所述矢量运算单元处理所述多个计算任务中所述任务类型为矢量运算的计算任务；

所述矩阵运算单元处理所述多个计算任务中所述任务类型为矩阵运算的计算任务。
根据权利要求12-20任一项所述的方法，其特征在于，所述通用处理器包括中央处理器CPU；所述专用处理器包括以下至少一个：神经网络处理器NPU、数字信号处理器DSP。
一种电子设备，其特征在于，所述电子设备包括如权利要求1-11任一项所述的计算任务处理装置。