WO2023071643A1

WO2023071643A1 - 用于处理任务的方法、装置、电子设备和介质

Info

Publication number: WO2023071643A1
Application number: PCT/CN2022/120604
Authority: WO
Inventors: 彭席汉
Original assignee: 华为技术有限公司
Priority date: 2021-10-29
Filing date: 2022-09-22
Publication date: 2023-05-04
Also published as: CN116069485A

Abstract

本公开提供了用于处理任务的方法、装置、电子设备和介质。在该方法包括基于待执行的任务的配置文件来确定该任务的实时性要求以及用于执行该任务的计算资源。该方法还包括如果实时性要求指示该任务为实时任务，使该计算资源执行该任务。通过本公开的实施例，具有实时性处理要求的任务，例如传统的机器人计算任务和AI推理任务等，能够被更加快速和高效地处理，从而优化了各种任务的调度方式，提高了系统处理效率。

Description

用于处理任务的方法、装置、电子设备和介质

技术领域

本公开的实施例主要涉及计算机技术领域，尤其是人工智能(AI)技术。更具体地，本公开的实施例涉及用户处理任务的方法、装置、电子设备、计算机可读存储介质以及计算机程序产品。

背景技术

近年来，随着AI技术的发展和成熟，AI技术在图像分析(例如，人脸识别、文字识别)、自然语言处理、语音识别等领域已经发挥了很好的效果。在传统的机器人领域，研究者也开始积极探索使用AI技术结合运动控制技术，使得机器人能够完成一些更加开放性的任务，而不仅限于传统的自动化任务。

这种机器人也被称为AI机器人。AI机器人通过传感器来采集周围环境的数据，然后使用AI技术来识别环境中的物体。例如，工业机器人通过摄像头，使用AI技术传送带上的物品并分拣，或者服务机器人识别周围环境是否存在障碍物，并且采取相应的处理措施，例如停车、避障等。在这种情况下，在机器人应用系统中，不仅包含传统的本体控制任务(例如，控制电机运动)，还增加了AI感知或推理任务(例如，识别或检测图像中的物体)。由于机器人的计算资源有限，并且其任务存在一定的实时性要求，这给研究者带来了挑战。

发明内容

本公开的实施例提供了在机器人系统中处理实时任务的方案。

根据本公开的第一方面，提供了一种用于处理任务的方法。方法包括基于待执行的任务的配置文件，确定任务的实时性要求和用于执行任务的计算资源，以及如果实时性要求指示该任务为实时任务，使该计算资源执行该任务。

在一些实施例中，计算资源包括至少一个处理单元，该至少一个处理单元具有用于执行非实时任务的第一线程和用于执行实时任务的第二线程。该至少一个处理单元利用第二线程执行所述任务。在一些实施例中，如果确定该至少一个处理单元正在利用第一线程执行非实时任务，则向该至少一个处理单元发送停止执行非实时任务的信号。

在一些实施例中至少一个处理单元包括多个处理单元，多个处理单元具有相应的第三线程，其中使所述计算资源执行所述任务包括：从所述任务生成多个并行子任务；使所述多个处理单元利用所述第三线程执行所述多个并行子任务；以及基于所述多个处理单元执行所述多个并行子任务的结果，确定合并的处理结果。

在一些实施例中，该至少一个处理单元是CPU核心。任务是用于控制机器人的运动的控制任务。

在一些实施例中，该计算资源包括处理单元，处理单元具有第一任务队列，第一任务队列包括非实时任务的至少一个非实时子任务，使所述计算资源执行所述任务包括：使该处理单元停止执行第一任务队列中的至少一个非实时子任务。

在一些实施例中，处理单元还具有第二任务队列，并且使所述计算资源执行该任务包括：将任务分解为多个实时子任务；将多个实时子任务添加到处理单元的所述第二任务队列；以及使该处理单元执行第二任务队列中的多个实时子任务。

在一些实施例中，使该处理单元停止执行第一任务队列中的至少一个非实时子任务包括：确定该处理单元完成正在执行的非实时子任务所需的剩余时间，如果剩余时间超过预设阈值，则使处理单元被重置。在重置完成之后，所述处理单元执行所述任务。

在一些实施例中，如果剩余时间小于预设阈值，使处理单元在非实时子任务完成后执行该任务。

在一些实施例中，该方法还包括存储被停止执行的非实时子任务在第一任务队列中的位置信息，以及响应于任务的执行完成，使处理单元基于该位置信息恢复执行第一任务队列中的至少一个非实时子任务。

在一些实施例中，处理单元可以是神经网络处理单元或图形处理单元。任务可以是人工智能AI推理任务。

在一些实施例中，配置文件包括任务的实时性要求信息、任务类型信息、以及用于执行任务的计算资源的信息。

根据本公开的第二方面，提供了一种用于处理任务的装置。装置包括任务配置确定单元，被配置为基于待执行的任务的配置文件，确定该任务的实时性要求和用于执行该任务的计算资源。装置还包括任务控制单元，被配置为如果实时性要求指示该任务为实时任务，使该计算资源执行该任务。

根据本公开的第三方面，提供了一种电子设备，包括处理单元和存储器，处理单元执行所述存储器中的指令，使得所述电子设备执行根据本公开的第一方面所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行使处理器执行根据本公开的第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括机器可执行指令，该机器可执行指令在由设备执行时使该设备执行根据本公开的第一方面所述的方法。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的系统架构的示意框图；

图3示出了根据本公开的实施例的用于处理任务的过程的示意流程图；

图4示出了根据本公开的实施例的针对实时CPU任务来切换计算资源的方案的示意图；

图5示出了根据本公开的实施例的针对实时CPU任务来切换计算资源的过程的示意流程图；

图6示出了根据本公开的实施例的针对实时AI推理任务来切换计算资源的方案的示意图；

图7示出了根据本公开的实施例的针对实时AI推理任务来切换计算资源的过程的示意流程图的过程的示意流程图；

图8示出了根据本公开的实施例的任务处理装置的示意框图；

图9示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

机器人本体的运动控制任务需要一定的实时性要求，例如，工业机械臂需要按照固定的频率发送运动控制指令。这里的实时性是指任务的执行时间满足一定的波动性要求，如果超出这个范围将会对机器人的执行体产生影响，如运动不流畅、不顺滑等。当AI推理任务与运动执行任务相关联，例如，需要根据AI推理任务的处理结果来确定运动执行任务，这必然也要求AI推理任务具有一定的实时性要求。

传统上，用户在实现一个实时任务时需要在该任务的实现代码中调用操作系统内核提供的实时进程设置接口，使其执行环境变为一个实时进程的上下文，然后将由操作系统内核来进行实时任务调度和计算资源分配。如果任务涉及多核并行计算和AI推理任务，用户也需要在任务的实时代码中添加显式调用并行计算库(例如OpenMP库)和AI模型框架的SDK接口。因此给用户带来了不便。另外，任务调度和资源分配完全交给操作系统内核来实现，而操作系统内核可能将实时任务分配给负载较大的计算资源，导致调度时间存在不确定性，并且会影响实时任务的执行时间。

有鉴于此，本公开的实施例利用配置文件来提供任务的实时性要求、需要的计算资源等信息，从而以更加高效和准确的方式为实时任务提供所需的计算资源。以此方式，具有实时性处理要求的任务，例如传统的机器人计算任务和AI推理任务等，能够被更加快速和高效地处理，从而优化了各种任务的调度方式，提高了系统处理效率。

以下将进一步参照附图描述根据本公开的实施例。

示例环境

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，环境100是典型的AI机器人系统架构。环境100包括作为机器人系统的软件部分的应用程序110、机器人开发框架120和操作系统130，以及作为硬件部分的机器人片上系统(SoC)芯片140和存储器150。

应用程序110由用户开发，实现与具体应用场景相关联的各种功能和任务。例如，对于工业分拣机器人，应用程序110可以实现机器人的诸如转动、抓取、平移等的运动控制类的任务，并且还可以实现诸如识别由机器人上摄像头捕捉到的传送带图像中的物体的AI任务。对于服务机器人，应用程序110可以实现机器人的诸如前进、后退、刹车、转向的运动控制类任务，并且还可以实现诸如识别接收到的语音信息的AI任务。

取决于应用场景，任务可以具有对应的类型信息和实时性要求。如图所示，应用程序110包括非实时CPU任务112、实时CPU任务114、实时AI任务116、实时AI任务118。在本文中，机器人的运动控制类任务可以交给SoC芯片140中的中央处理单元(CPU)核心142 和144来执行，相应地，这类任务也被称为CPU任务。机器人的推理任务(例如，图像识别和检测)可以交给SoC芯片中的AI处理单元146和148来执行，相应地，这类任务也被称为AI任务。图1示意性地示出了具有不同实时性要求和类型的任务112、114、116、118，应理解，这里不限制任务的数目。应用程序110可以包括更多或更少的任务，并且每种任务的数目可以是任意的。

用户可以基于机器人开发框架120来实现应用程序110的各类任务112、114、116和118。例如，机器人开发框架120可以是机器人操作系统(Robot Operating System：ROS)。ROS ^TM是一个适用于机器人的开源的元操作系统，它提供了操作系统应有的服务，包括硬件抽象、底层设备控制、常用函数的实现、进程间消息传递以及包管理。它也提供用于获取、编译、编写、和跨计算机运行代码所需的工具和库函数。用户可以通过ROS提供应用编程接口(Application Programming Interface：API)来创建机器人任务节点(Node)，节点之间消息通信机制由ROS框架负责实现。用户只需要调用API来实现具体任务的内部逻辑。应理解，机器人开发框架120还可以是除ROS ^TM之外的其他开发框架，本公开对此不做限制。

操作系统130提供应用程序110和机器人开发框架120与硬件环境SoC 140和存储器150之间的接口。操作系统130可以是例如开源Linux ^TM或者任何其他的商用版本操作系统。

SoC芯片140集成有若干个CPU核心142和144、以及神经网络处理单元(NPU)146和148。CPU核心142和144具有例如高速缓存、控制单元和运算单元(图中未示出)，并且一般以顺序方式执行代码或指令，适合执行较为复杂的逻辑控制。每个CPU核心142或144可以具有一个或更多个线程，并且以分时复用方式来执行线程。

AI处理单元146和148采用并行计算结构，更适合运行AI模型来处理例如视频、图像类的数据。AI处理单元可以是例如神经网络处理单元(NPU)。在一些实施例中，NPU可以包括多个(例如，16个、32个、64个或更多个)并行的乘加模块、激活函数模块等。乘加模块用于计算矩阵的乘加、卷积、点乘等。激活函数模块采用例如参数拟合的方式实现神经网络中的激活函数。AI处理单元146和148还可以是图形处理单元(Graphic Processing Unit：GPU)或具有并行计算结构的其他设备，例如现场可编程逻辑门阵列(FPGA)、应用集成电路(ASIC)等。

考虑CPU核心142、144和AI处理单元146、148的性能，机器人的应用程序110中的任务112和114可以由CPU核心142、144执行，而AI任务可以由AI处理单元146、148来执行。图1示出了SoC芯片140的两个CPU核心142、144以及两个AI处理单元146、148，应理解，本公开不限制SoC上的CPU核心和AI处理单元的数量。SoC芯片140可以包括更多或更少的CPU核心和AI处理单元。

在根据本公开的一些实施例中，存储器150也可以被称为内存或主存。存储器150可以是已有或将来开发的任何类型的存储器类型，例如DDR存储器。存储器150存储运行应用程序110、机器人开发框架120和操作系统130所需的可执行代码和数据，例如，待执行的线程的数据、传感器获取到的图像数据、用于推理任务的AI模型等，以便由CPU核心和NPU访问和执行。

应当理解，本公开的实施例还可以与图1所示的不同环境中实现。例如，机器人应用系统中，CPU核心和AI处理单元不一定集成在同一SoC芯片上，还可以分别实现在不同的SoC芯片或设备上。

系统架构和流程

图2示出了根据本公开的实施例的系统架构200的示意框图。总体上，系统结构200包括应用程序210和机器人开发框架220。应用程序210可以被实现为如图1所示的应用程序110，机器人开发框架220可以被实现为图1所示的机器人开发框架120。

应用程序210包括针对任务的配置文件212和任务实现逻辑代码214两部分。这些内容由用户编写和实现。配置文件212可以以可编辑、可阅读的格式定义，例如，JSON、YAML或XML格式。在一些实施例中，配置文件212定义任务名称、该任务运行时所需要的计算资源、该任务是否为实时任务。以下表1给出一个示例性的配置文件。

表1

该示例性配置文件表示名称为“my task”的任务是一个实时CPU任务，并且被指定为当作为CPU任务时，将使用CPU核心0和CPU核心1来执行，当作为AI任务时将使用AI处理单元0来执行。所需要的计算资源的可用性取决于字段“type”。也就是说，当type为“0”时，使用对应的CPU资源来执行任务，当type为“1”时，使用对应的NPU资源来执行该任务。需要说明的是，如果需要的CPU资源被指定为多个CPU核心，这表示该任务可以满足并行执行条件时由多个CPU核心并行处理。

应当理解，上述配置文件仅仅是示例性的，而非限制性的。根据本公开的实施例，配置文件212是可自定义的，例如可以包括更多、更少或不同的字段，例如，配置文件212可以仅包括CPU资源字段和AI计算资源字段中的一项。因此，通过编写任务的配置文件212，用户可以容易地指定任务的类型、实时性要求以及用于执行该任务的计算资源等信息。

任务实现逻辑代码214包括用户实现的具体任务逻辑代码。任务实现逻辑代码214基于机器人开发框架220提供的抽象类编程接口225来实现。例如，任务实现逻辑代码214可以调用或者继承机器人开发框架220提供的工具或库函数，并且可以借开发框架220来实现任务之间的通信。

根据本公开的实施例，用户只需要实现任务逻辑代码，而无需手动创建执行任务所需的线程，并且用户也只需要编排配置文件就可以对任务进行计算资源的分配就，不需要进行编码，因此节省了开发时间。相应的工作由根据本公开的实施例的机器人开发框架220来实现。

机器人开发框架220包括配置参数管理模块221、线程资源调度管理模块222、任务调度管理模块、NPU算子调度管理模块以及抽象类编程接口225。

配置参数管理模块221定义一种用于描述任务执行所需资源的描述文件，即，上述配置文件212。用户编写的配置文件212可以被配置参数管理模块221解析，从而获取与任务执行有关的信息。配置参数管理模块221利用这些信息来促进任务的计算资源的调度。例如，对于“real”字段为TRUE的实时任务，需要尽快让对应的CPU核心或AI处理单元资源为其服务，并且确保它们能够独占这些资源，从而满足实时性要求。

线程池管理模块222用于为SoC芯片上的CPU核心生成和绑定预留线程。预留线程可以包括用于非实时任务的第一线程(也称为非实时线程)、用于实时任务的第二线程(也称为实时线程)以及用于并行子任务的第三线程(也称为并行子任务线程)。当机器人启动时，这些线程就可以被生成和绑定到对应的CPU核心。也就是说，一个CPU核心具有分别用于执行不同任务的三个预留线程。线程池管理模块222在存储器150中分配用于预留线程的存储空间，用于存储将来的待执行任务的数据。利用在存储器150中为CPU核心预留的线程，CPU核心一旦接收到任务，就能快速切换到对应的任务线程，满足实时性要求和提高执行任务的效率。

任务调度管理模块223用于当任务被调度到时完成任务与底层线程资源的分配。任务调度管理管理模块223可以将待执行任务的数据写入对应的预留线程的存储空间，然后向CPU核心发出切换信号，使CPU核心切换到对应的预留线程。应理解，CPU核心的线程是分时复用的，CPU核心只能执行其中一个线程。例如，当实时CPU任务114被触发并且被分配到配置文件所指定的CPU核心时。通过上下文切换(context switch)机制，任务调度管理管理模块223使CPU核心从例如正在执行非实时CPU任务112的非实时线程切换到实时线程。

非实时任务在执行时如果被切换出去而让出CPU核心来执行实时任务，需要保存非实时任务执行的上下文环境。上下文环境包括CPU核心中的寄存器数据，例如程序计数器等。已知CPU核心提供硬件化的上下文切换机制。利用硬件化的上下文切换机制，被中断线程的上下文环境被保存，并且以用于后续快速恢复中断线程。下文将参照图4和图5详细描述关于实时CPU任务的调度机制。

算子调度管理单元224用于调度AI任务以便由NPU来执行。一般地，与AI推理任务相关的AI模型(例如，神经网络模型)具有分层计算结构，每一层内的多个节点执行并行计算，例如乘加运算、激活函数运算等。典型的神经网络模型，例如，卷积神经网络模型(CNN)可以具有几十甚至上百个层。根据本公开的实施例，可以参照层结构将AI模型分解为若干个算子(operator)。一个算子可以包括一个或更多层的并行计算。算子可以被提供给适合并行计算的AI处理单元来执行。AI处理单元通过依次执行AI模型的算子，完成AI任务。一些实施例中，AI处理单元可以交替地执行来自多个AI推理任务的算子。

如上所述，AI任务包括非实时AI任务116和实时AI任务118。为了使实时AI任务118能够被快速处理满足其实时性要求，NPU算子调度管理单元224提供了通过重置NPU来调度实时AI任务的机制。下文将参照图6和图7详细描述。

抽象类编程接口225向用户提供了针对任务实现逻辑代码214的任务模板。例如，抽象类编程接口225采用面向对象编程语言提供的继承机制，定义用户必须要重载的任务实现函数。仅作为示例，可以将机器人系统中的任务划分为任务执行前的准备工作、任务执行体、任务执行后的处理三部分。由此，可以将这三部分抽象定义出三个函数，由用户实现。任务最终都被封装为任务(Task)对象。Task对象可以被CPU核心或AI处理单元加载和执行。以下表2给出以C++语言为例的实现示例。

表2

根据本公开的实施例，一些CPU任务的一部分或全部可以被可以划分为多个并行子任务。例如，某个CPU任务可以包括对图像中的每个像素的像素值进行缩放的图像增强操作。由于每个像素值可以被视为独立的，因此可以从该任务划分为多个独立执行的子任务。根据本公开的实施例，独立执行的子任务也被称为小任务(TaskLet)。TaskLet被分配给在配置文件212中指定的那些CPU核心。针对这种情况，本公开的实施例还提供了用于TaskLet运行的API接口。以下给出了其实现示例：

LaunchTaskLet(InputVec,OutputVec,TaskLetFunc)，其中，InputVec和OutputVec为输入数据和输出数据，它们的第一维为任务切分维度，即，按照第一维将输入数据划分为多个子输入数据，以及将输出数据划分为多个子输出数据。TaskLetFunc为TaskLet执行函数，由用户来实现。例如，TaskLet可以包括针对每个像素进行缩放的函数。通过这个API接口，可以将一个较大的任务分为多个独立的TaskLet，由此封装出多个并行子任务。应理解，这些多个独立子任务将由在配置文件212中指定的CPU核心分别执行。因此，LaunchTaskLet可以根据配置文件中执行的CPU核心的数目来自动生成TaskLet。由此，所生成的多个并行子任务可以被调度到在配置文件212中描述的对应的CPU核心而被执行。对于实时任务而言，这能够减少执行时间，以满足其实时性要求。在一些实施例中，CPU核心可以利用预留的第三线程来执行并行子任务。通过预留的专用线程执行并行子任务，可以进一步减少实时任务的执行时间。

与此相比，传统的多核并行计算(例如，OpenMP库)只能指定采用CPU核心的个数，并不能指定使用具体哪些CPU核心，导致并行子任务被操作系统可能分配到高负载的CPU核心，影响实时任务的执行时间。根据本公开的实施例，通过在配置文件212中指定计算资源，实时任务的计算资源可以被预先确定，从而避免了这一问题。

以上描述了根据本公开的实施例的示例性系统架构200。应当理解，本公开的实施例还可以包括与此不同的架构，例如，系统架构200中任何模块可以分为更多的模块，并且两个或更多的模块可以组合形成单个模块。本公开对此不做限制。

图3示出了根据本公开的实施例的用于处理任务的过程300的示意流程图。过程300可以实现在例如图1的机器人开发框架120和图2的机器人开发框架220中。

在框310，基于待执行的任务的配置文件，确定该任务的实时性要求以及用于执行该任务的计算资源。响应于任务的触发，例如，用户输入或检测到特定事件，应用程序110或210生成了待执行的任务。以服务机器人为例，响应于加速度传感器采集到的重力加速度的变化(机器人可能摔倒)，服务机器人可以生成用于控制机器人保持平衡的运动任务。再例如，响应于图像传感器采集到周围环境图像，服务器机器人可以生成用于识别图像中的目标的识别任务。如上所述，任务实现逻辑代码214已经由用户通过抽象编程接口225实现。此外，用户还编写了与该任务对应的配置文件212以指定对应的计算资源。

配置文件212可以包括任务的实时性要求信息，例如，该任务是实时任务还是非实时任务。配置文件212还可以包括任务的任务类型信息，例如，该任务是用于控制机器人的运动的控制任务还是AI推理任务。控制机器人运动的控制任务可以被分配给一个或多个CPU核心等来执行，因而也可以被称为CPU任务。AI推理任务可以被分配给一个或多个NPU或GPU来执行，因而也可以被称为AI任务。如上所述，用于执行该任务的计算资源被指定在配置文件212中。

在框320，如果实时性要求指示该任务为实时任务，使该任务的计算资源执行该任务。作为示例，如果配置文件212的任务类型信息指示待执行的任务是CPU任务，并且计算资源信息指示CPU核心0和CPU核心1，则该CPU任务将交由例如SoC芯片140中的CPU核心142和CPU核心144来执行。如果配置文件212的任务类型信息指示待执行的任务是CPU任务，并且计算资源信息指示NPU 0，则该NPU任务将交由例如SoC芯片140中的AI处理单元146来执行。

以上描述了对机器人应用中的任务进行抽象接口封装并且对任务需要的资源进行配置管理的方案。本公开的实施例利用配置文件来提供任务的实时性要求、需要的计算资源等信息，从而以更加高效和准确的方式为实时任务提供所需的计算资源。以此方式，具有实时性处理要求的任务，例如传统的机器人计算任务和AI推理任务等，能够被更加快速和高效地处理，从而优化了各种任务的调度方式，提高了系统处理效率。

针对机器人应用系统中存在实时CPU任务和实时AI推理任务，本公开的实施例提供了对应的计算资源切换机制，以满足这两种类型任务对执行时间波动性的要求。

实时CPU任务的计算资源切换

图4示出了根据本公开的实施例的针对实时CPU任务来切换计算资源的示例性方案400的示意图。方案400可以在例如图1所述的机器人开发框架120和图2所示的机器人开发框架220中实施。这里，以配置文件212指定了该实时CPU任务的计算资源为CPU核心0和CPU核心1(例如，对应于图1的CPU核心142和144)为例进行描述。应理解，当配置文件212指定了更多或更少的CPU核心，或者指定了其他不同的CPU核心时，方案400同样适用。

机器人系统启动后，为SoC芯片的每个CPU核心生成三个线程。例如，为CPU核心0生成线程401、线程402和线程403，为CPU核心1生成线程411、线程412和线程413，为CPU核心2生成线程421、线程422和线程423，以此类推。CPU核心中的线程被生成之后就作为预留线程保持在机器人系统的存储器之中。这些线程的执行单位是根据本公开的实施例抽象封装的Task对象，并且被用于不同的Task对象。例如，在CPU核心0中，线程401被用于执行非实时任务，线程402被用于执行实时任务，线程403被用于执行并行子任务。CPU核心中的线程411、412和413与CPU核心40类似。

在没有被分配任务时，CPU核心的线程可以处于空闲状态，直到有对应的任务对象被添加到其执行队列中。

如图4下方的执行进度条406和416所示，在实时任务被触发之前，CPU核心0正在利用非实时任务线程401执行非实时CPU任务，CPU核心1也在利用非实时任务线程411执行非实时CPU任务。响应于实时CPU任务被触发，CPU核心0和CPU核心1将切换计算资源执行该实时CPU任务。

图5示出了根据本公开的实施例的针对实时CPU任务来切换计算资源的过程500的示意流程图。过程500可以在例如图1所述的机器人开发框架120和图2所示的机器人开发框架220中实施。为了方便理解，结合图4来说明过程500。

在框510，确定与待执行的实时CPU任务的相关的CPU核心0和1(例如，对应于图1的CPU核心142和144)是否正在执行非实时任务。在一些实施例中，可以检查CPU核心0 和1的非实时任务线程的状态，由此可以确定CPU核心0和1是否正在执行非实时任务。如果CPU核心0和1中的任一个或两个正在执行非实时任务，则在框520，向对应的CPU核心发送暂停非实时任务的信号(例如，基于Linux ^TM操作系统的SIG_STOP信号)。SIG_STOP可以调用针对该CPU核心的硬件化上下文切换机制，以便将被暂停执行的非实时任务的信息(例如，CPU核心的寄存器数据)保存起来。

然后，在非实时任务被暂停之后，或者所有CPU核心0和1都已经准备好，则方法500前进到框530。在框530，将实时CPU任务调度到一个CPU核心。例如，通过将指向该实时CPU任务的Task对象的指针或地址添加到CPU核心0的实时任务线程402的执行队列中，实时CPU任务被调度，以便CPU核心0利用线程402来执行该任务，如图4的执行进度条407和对应的箭头所示

接下来，在框540，确定是否存在并行子任务。在一些实施例中，当执行到例如基于上述抽象编程接口LaunchTaskLet实现(例如，通过继承)的函数时，确定存在将并行执行的多个子任务。通过该抽象编程接口从实时CPU任务可以生成多个并行子任务TaskLet。

然后，在框550，并行子任务被调度到该实时CPU任务的计算资源。在一些实施例中，并行子任务TaskLet的Task对象可以被添加到CPU核心0和1的并行子任务线程403和413，使得CPU核心0和1利用线程403和413执行并行子任务，如图4的执行进度条408和418所示。

在框560，组合CPU核心各自得到的执行结果，从而获得合并的结果。在该示例中，实时CPU任务通过配置文件212被指定为由两个CPU核心来执行。应理解，被指定的实时CPU任务的计算资源可以包括更多或更少的CPU核心。也就是说，本公开的实施例对并行子任务的规模不做限制。

在框570，响应于实时CPU任务的完成，向该任务涉及的CPU核心发送恢复非实时任务的信号(例如，基于Linux ^TM操作系统的SIG_CONT信号)。SIG_STOP可以调用针对CPU核心的上下文切换机制，以便利用已经存储执行信息来恢复先前被暂停执行的非实时任务，如图4的执行进度条409和419所示。

实时AI推理任务的计算资源切换

图6示出了根据本公开的实施例的针对实时AI推理任务来切换计算资源的方案600的示意图。方案600可以在例如图1所述的机器人开发框架120和图2所示的机器人开发框架220中实施。仅作为示例，图6示出了针对非实时任务的模型610和模型620以及实时任务的模型630来切换计算资源的方案。应理解，可以针对任意数量的非实时任务的模型和实时任务的模型来切换关于AI处理单元的计算资源。

这里，计算资源是AI处理单元650，例如，诸如NPU、GPU、FPGA等的并行处理单元。模型610、620和630中的任一个可以是经过训练的神经网络模型，例如，卷积神经网络模型、循环神经网络模型、图神经网络模型等，本公开对此不做限制。经过训练的模型可以被用于AI推理任务，例如图像识别、目标检测、语音处理等。如上述所述，根据与AI推理任务有关的模型结构，可以将AI推理任务分解为若干个子任务。在本文中，从AI推理任务或对应的模型得到的子任务也可以被称为算子。算子对应于AI模型的一个或更多个层的多个节点的并行计算。算子可以被串行地执行，从而完成AI推理任务。

如图6所示，模型610被分解为在算子流611中依次排列的算子1-1至1-4等，模型620 被分解为算子流621中依次排列的算子2-1至2-4，模型630被分解为算子流631中依次排列的算子3-1至3-4。应理解，分解得到的算子的数量不限于参考图6描述的数量，可以包括更多或更少的算子。算子调度器640可以将算子提供到AI处理单元650以供执行。具体地，算子调度器640可以将算子添加到AI处理单元650的待执行任务队列。

根据本公开的实施例，AI处理单元650的待执行任务队列包括第一任务队列651和第二任务队列652。第一任务队列651用于非实时AI任务，包括从与非实时任务相关的模型610和620分解得到的算子。第二任务队列652用于实时AI任务，包括从与实时任务相关的模型630分解得到的算子。

为了满足公平性，算子调度器640可以将非实时任务模型610和620的算子按照轮询方式添加到第一任务队列651。当存在多个实时任务模型时，也可以按照轮询方式将它们的算子添加第二任务队列652，或者备选地，在一个实时任务模型的算子全部被添加到第二任务队列652之后再添加另一个实时任务模型的算子，这样可以至少尽量满足前一个实时任务的实时性要求。

第一任务队列651和第二任务队列652可以以循环队列的形式存储在存储器150中。算子本身也存储在存储器中。队列651和652中的每个元素可以存储指向算子的指针或地址。第一任务队列651和第二任务队列652可以具有预设的深度，也就是可容纳的最大算子数目。深度可以根据模型的平均算子数目来设置，该数目例如是10、20或其他适当的值。当队列651和652中的算子达到最大数目之后，算子调度器640可以停止从对应的算子流611、621和631获取模型的算子，直到有空的位置。

AI处理单元650从第一任务队列651或第二任务队列652获取算子以用于执行。在一些实施例中，可以为每个队列分别设置一个指示符，AI处理单元650根据该指示符来获取对应的算子。然后，该指示符递增以指向队列中的下一个算子。

根据本公开的实施例，为了满足实时AI推理任务的实时性要求，AI处理单元650优先从第二任务队列652获取待执行的算子。换句话说，一旦第二任务队列652中被添加了实时AI队列任务的算子，AI处理单元650需要切换到第二任务队列652，而不再执行第一任务队列651中的非实时任务算子。

这时，算子调度器640可以基于策略确定是否向AI处理单元650发出重置信号(Reset)。然后，经过重置的NPU可以切换为执行第二任务队列652中的实时任务算子。AI处理单元650的重置机制包括硬件复位的电路和用于复位后的资源初始化的电路。资源初始化以芯片微码的形式体现。当硬件电路复位信号被触发后，AI处理单元650会自动执行这部分的代码，代码执行的速度会非常快。由此，通过重置，AI处理单元650能够更快地从执行第一任务队列651中的非实时算子切换到执行第二任务队列652中实时算子，以满足实时AI推理任务的实时性要求。

图7示出了根据本公开的实施例的针对实时AI推理任务来切换计算资源的过程700的示意流程图。过程700可以在例如图1所述的机器人开发框架120和图2所示的机器人开发框架220中实施。为了方便理解，结合图6来说明过程700。

在框702，计算AI处理单元650正在执行的非实时任务算子的剩余时间。在一些实施例中，执行每个算子所需要的时间可以提前测试得到，并记录在算子信息表中。当AI处理单元650开始执行算子时，记录开始执行的时间点。然后，如果在执行该算子的过程中，实时AI推理任务被触发，则用实时AI推理任务触发时间点减去开始执行的时间点，得到该算子的已执行时间。通过参考在算子信息表中记录的执行该算子所需的时间，就可以得到剩余时间。

在框704，确定剩余时间是否超过预设阈值。在一些实施例中，预设阈值可以是与硬件平台相关的参数，一般根据NPU重置所需要的时间确定。例如，当某个硬件平台实际测试的重置时间是1ms，则可以将阈值设置为1ms。如果算子的剩余时间超过1ms，表明重置AI处理单元可以带来的时间收益更大，实时AI推理任务可以更早地被执行。

在框706，如果确定剩余时间超过预设阈值，则在框706，重置AI处理单元。如果确定剩余时间小于预设阈值，则在框710，等待非实时任务算子执行完成。

在重置NPU的情况下，在框708，存储非实时任务算子在第一任务队列中的位置。应理解，由于AI处理单元被重置，原先正在执行的非实时任务算子被中断，需要在恢复执行第一任务队列651时重新执行该算子。

在框712，切换到第二任务队列。在一些实施例中，算子调度器640可以停止从非实时推理任务对应的模型中取出算子，并且切换为从实时AI推理任务对应的模型中取出算子，插入实时算子执行队列652。

在框714，根据执行第二任务队列中的实时任务算子。在一些实施例中，AI处理单元650根据第二任务队列652的指示符，获取该指示符所指向的实时任务算子的任务数据并执行。

在框716，确定是否执行完第二任务队列中的实时任务算子？如否，则回到框714，继续执行第二任务队列652中的实时任务算子。也就是说，AI处理单元650将保持执行第二任务队列652中的算子，直到其中没有实时任务算子为止。

如果执行完第二任务队列652中的所有算子，则在框718，切换到第一任务队列。在一些实施例中，算子调度器640可以恢复从非实时AI推理任务对应的模型中取出算子，插入第一任务队列651。

在框720，确定非实时任务算子是否被中断。在一些实施例中，可以通过检查是否执行过框708的动作来确定是否存在被中断的非实时任务算子。例如，如果记录了关于第一任务队列651的某个位置信息，则表明对应的算子被中断执行。

如果确定有非实时任务算子被中断，则在框722，重新执行被中断的非实时任务算子。否则，在框724，执行下一个非实时任务算子。由此，AI处理单元650恢复执行非实时AI推理任务。

示例装置和设备

图8示出了根据本公开的实施例的处理任务的装置800的示意框图。装置800可以实现在例如图1的机器人开发框架120和图2的机器人开发框架220中。

装置800包括任务配置确定单元810。任务配置确定单元810被配置为基于待执行的任务的配置文件，确定任务的实时性要求和用于执行任务的计算资源。装置800还包括任务控制单元820。任务控制单元被配置为如果实时性要求指示所述任务为实时任务，使计算资源执行任务。在一些实施例中，配置文件包括任务的实时性要求信息、任务类型信息、以及用于执行任务的计算资源的信息。

在一些实施例，计算资源包括至少一个处理单元，例如CPU核心，并且任务可以是用于控制机器人的运动的控制任务。该至少一个处理单元具有用于执行非实时任务的第一线程和用于执行实时任务的第二线程。任务控制单元还可以被配置为使所述至少一个处理单元利用所述第二线程执行所述任务。

在一些实施例中，任务控制单元还可以被配置为如果确定至少一个处理单元正在利用第一线程执行非实时任务，则向该至少一个处理单元发送停止执行非实时任务的信号。

在一些实施例中，至少一个处理单元包括多个处理单元，例如多个CPU核心，并且多个处理单元具有相应的第三线程。任务控制单元还可以被配置为从任务生成多个并行子任务，以及使多个处理单元利用第三线程执行多个并行子任务。然后，任务控制单元还可以基于多个处理单元执行多个并行子任务的结果来确定合并的处理结果。

在一些实施例中，计算资源可以包括处理单元，例如神经网络处理单元或图形处理单元，并且任务可以是人工智能AI推理任务。该处理单元可以具有第一任务队列。第一任务队列包括非实时任务的至少一个非实时子任务。所述任务控制单元可以被配置为使处理单元停止执行第一任务队列中的至少一个非实时子任务。

在一些实施例中，处理单元还可以具有第二任务队列。任务控制单元还可以被配置为将任务分解为多个实时子任务，将多个实时子任务添加到处理单元的第二任务队列，以及使处理单元执行第二任务队列中的多个实时子任务。实时子任务可以是AI模型的算子。

在一些实施例中，任务控制单元还可以被配置为确定处理单元完成正在执行的非实时子任务所需的剩余时间。如果剩余时间超过预设阈值，该任务控制单元可以使处理单元被重置，并且使处理单元在重置完成之后执行实时任务。在一些实施例中，如果剩余时间小于预设阈值，则任务控制单元使处理单元在非实时子任务完成后执行该实时任务。

在一些实施例中，任务控制单元还可以存储被停止执行的非实时子任务在第一任务队列中的位置信息。由此，响应于任务的执行的完成，任务控制单元可以使处理单元基于该位置信息恢复执行第一任务队列中的至少一个非实时子任务。

图9示出了可以用来实施本公开的实施例的示例设备900的示意性框图。设备900可以用于提供如图1所示的示例环境100，例如，机器人应用系统。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理，例如，控制机器人的运动的控制任务等。在RAM 903中，还可存储设备900操作所需的各种程序和数据。设备900包括图形处理单元(GPU)和/或神经网络处理单元(NPU)911，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行并行计算，例如AI推理任务。CPU 901、GPU/NPU 911、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入输出单元906，例如键盘、鼠标、电机、显示器、扬声器等；传感器907，例如加速度传感器、重力传感器、摄像头等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如过程300、500、700由CPU 901和/或GPU/NPU 911执行。例如，在一些实施例中，过程300、500、700可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU 901和/或GPU/NPU 911执行时，可以执行上文描述的过程300、500、700的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

一种用于处理任务的方法，其特征在于，包括：

基于待执行的任务的配置文件，确定所述任务的实时性要求以及用于执行所述任务的计算资源；以及

如果所述实时性要求指示所述任务为实时任务，使所述计算资源执行所述任务。
根据权利要求1所述的方法，其特征在于，所述计算资源包括至少一个处理单元，所述至少一个处理单元具有用于执行非实时任务的第一线程和用于执行实时任务的第二线程，其中使所述计算资源执行所述任务包括：

使所述至少一个处理单元利用所述第二线程执行所述任务。
根据权利要求2所述的方法，其特征在于，使所述计算资源执行所述任务包括：

如果确定所述至少一个处理单元正在利用所述第一线程执行非实时任务，则向所述至少一个处理单元发送停止执行所述非实时任务的信号。
根据权利要求2所述的方法，其特征在于，所述至少一个处理单元包括多个处理单元，所述多个处理单元具有相应的第三线程，其中使所述计算资源执行所述任务包括：

从所述任务生成多个并行子任务；

使所述多个处理单元利用所述第三线程执行所述多个并行子任务；以及

基于所述多个处理单元执行所述多个并行子任务的结果，确定合并的处理结果。
根据权利要求2至4中任一项所述的方法，其中所述至少一个处理单元是CPU核心。
根据权利要求2至4中任一项所述的方法，其中所述任务是用于控制机器人的运动的控制任务。
根据权利要求1所述的方法，其特征在于，所述计算资源包括处理单元，所述处理单元具有第一任务队列，所述第一任务队列包括非实时任务的至少一个非实时子任务；

其中使所述计算资源执行所述任务包括：使所述处理单元停止执行所述第一任务队列中的所述至少一个非实时子任务。
根据权利要求7所述的方法，其特征在于，所述处理单元还具有第二任务队列，并且其中使所述计算资源执行所述任务包括：

将所述任务分解为多个实时子任务；

将所述多个实时子任务添加到所述处理单元的所述第二任务队列；以及

使所述处理单元执行所述第二任务队列中的所述多个实时子任务。
根据权利要求7或8所述的方法，其特征在于，使所述处理单元停止执行所述第一任务队列中的所述至少一个非实时子任务包括：

确定所述处理单元完成正在执行的非实时子任务所需的剩余时间；以及

如果所述剩余时间超过预设阈值，使所述处理单元被重置。
根据权利要求9所述的方法，其特征在于，还包括：

使所述处理单元在重置完成之后执行所述任务。
根据权利要求9所述的方法，其特征在于，还包括：

如果所述剩余时间小于所述预设阈值，使所述处理单元在所述非实时子任务完成后执行所述任务。
根据权利要求7所述的方法，其特征在于，还包括：

存储被停止执行的所述非实时子任务在所述第一任务队列中的位置信息；以及

响应于所述任务的执行的完成，使所述处理单元基于所述位置信息恢复执行所述第一任务队列中的所述至少一个非实时子任务。
根据权利要求7至12中任一项所述的方法，其特征在于，所述处理单元是神经网络处理单元或图形处理单元。
根据权利要求7至12中任一项所述的方法，其特征在于，所述任务是人工智能AI推理任务。
根据权利要求1至14中任一项所述的方法，其特征在于，所述配置文件包括所述任务的实时性要求信息、任务类型信息、以及用于执行所述任务的计算资源的信息。
一种用于处理任务的装置，其特征在于，包括：

任务配置确定单元，被配置为基于待执行的任务的配置文件，确定所述任务的实时性要求和用于执行所述任务的计算资源；以及

任务控制单元，被配置为如果所述实时性要求指示所述任务为实时任务，使所述计算资源执行所述任务。
根据权利要求16所述的装置，其特征在于，所述计算资源包括至少一个处理单元，所述至少一个处理单元具有用于执行非实时任务的第一线程和用于执行实时任务的第二线程，并且

所述任务控制单元还被配置为使所述至少一个处理单元利用所述第二线程执行所述任务。
根据权利要求17所述的装置，其特征在于，所述任务控制单元还被配置为：

如果确定所述至少一个处理单元正在利用所述第一线程执行非实时任务，则向所述至少一个处理单元发送停止执行所述非实时任务的信号。
根据权利要求17所述的装置，其特征在于，所述至少一个处理单元包括多个处理单元，所述多个处理单元具有相应的第三线程，所述任务控制单元还被配置为：

从所述任务生成多个并行子任务；

使所述多个处理单元利用所述第三线程执行所述多个并行子任务；以及

基于所述多个处理单元执行所述多个并行子任务的结果，确定合并的处理结果。
根据权利要求17至19中任一项所述的装置，其中所述至少一个处理单元是CPU核心。
根据权利要求17至19中任一项所述的装置，其中所述任务是用于控制机器人的运动的控制任务。
根据权利要求16所述的装置，其特征在于，所述计算资源包括处理单元，所述处理单元具有第一任务队列，所述第一任务队列包括非实时任务的至少一个非实时子任务；

所述任务控制单元被配置为使所述处理单元停止执行所述第一任务队列中的所述至少一个非实时子任务。
根据权利要求22所述的装置，其特征在于，所述处理单元还具有第二任务队列，并且所述任务控制单元还被配置为：

将所述任务分解为多个实时子任务；

将所述多个实时子任务添加到所述处理单元的所述第二任务队列；以及

使所述处理单元执行所述第二任务队列中的所述多个实时子任务。
根据权利要求22或23所述的装置，其特征在于，所述任务控制单元还被配置为：

确定所述处理单元完成正在执行的非实时子任务所需的剩余时间；以及

如果所述剩余时间超过预设阈值，使所述处理单元被重置。
根据权利要求24所述的装置，其特征在于，所述任务控制单元还配置为：

使所述处理单元在重置完成之后执行所述任务。
根据权利要求24所述的装置，其特征在于，所述任务控制单元还配置为：

如果所述剩余时间小于所述预设阈值，使所述处理单元在所述非实时子任务完成后执行所述任务。
根据权利要求22所述的装置，其特征在于，所述任务控制单元还配置为：

存储被停止执行的所述非实时子任务在所述第一任务队列中的位置信息；以及

响应于所述任务的执行的完成，使所述处理单元基于所述位置信息恢复执行所述第一任务队列中的所述至少一个非实时子任务。
根据权利要求22至27中任一项所述的装置，其特征在于，所述处理单元是神经网络处理单元或图形处理单元。
根据权利要求22至27中任一项所述的装置，其特征在于，所述任务是人工智能AI推理任务。
根据权利要求1至14中任一项所述的装置，其特征在于，所述配置文件包括所述任务的实时性要求信息、任务类型信息、以及用于执行所述任务的计算资源的信息。
一种电子设备，包括：

处理单元和存储器；

所述处理单元执行所述存储器中的指令，使得所述电子设备执行根据权利要求1至15中任一项所述的方法。
一种计算机可读存储介质，其上存储有一条或多条计算机指令，其中一条或多条计算机指令被处理器执行使所述处理器执行根据权利要求1至15中任一项所述的方法。
一种计算机程序产品，包括机器可执行指令，所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至15中任一项所述的方法。