WO2020098414A1

WO2020098414A1 - 终端数据处理方法、装置及终端

Info

Publication number: WO2020098414A1
Application number: PCT/CN2019/109609
Authority: WO
Inventors: 陈岩
Original assignee: Oppo广东移动通信有限公司
Priority date: 2018-11-13
Filing date: 2019-09-30
Publication date: 2020-05-22
Also published as: CN109523022B; CN109523022A

Abstract

一种终端数据处理方法、装置和终端，其中终端数据处理方法包括：将训练好的神经网络模型按预设模型结构转换；对转换后的所述神经网络模型进行解析；获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值；获取所述至少两个计算处理单元的状态信息；根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。该数据处理方法根据算子的期望值及计算处理单元的状态信息，能够将神经网络中的各个算子灵活、合理地分配到不同的计算处理单元上进行计算，有效利用计算处理单元，提升计算效率。

Description

终端数据处理方法、装置及终端

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种终端数据处理方法、装置及终端。

背景技术

本申请对于背景技术的描述属于与本申请相关的相关技术，仅仅是用于说明和便于理解本申请的申请内容，不应理解为申请人明确认为或推定申请人认为是本申请在首次提出申请的申请日的现有技术。

深度学习在搜索技术、数据挖掘、自然语言处理、语音、推荐等领域的作用越来越大。一般的神经网络模型在终端上进行深度学习的计算时，需要将神经网络模型包含的各算子分配至终端的计算处理单元上运行，当分配不合理时，影响计算效率。

发明内容

本申请实施例提供了一种终端数据处理方法、装置及终端，可以提升计算效率。

第一方面，本申请提供了一种终端数据处理方法，所述终端包括至少两个计算处理单元，所述方法包括：

将训练好的神经网络模型按预设模型结构转换；

对转换后的所述神经网络模型进行解析；

获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值；

获取所述至少两个计算处理单元的状态信息；

根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。

第二方面，本申请实施例提供了一种终端数据处理装置，包括：

转换单元，其用于将训练好的神经网络模型按预设模型结构转换；

解析单元，其用于对转换后的所述神经网络模型进行解析；

确定单元，其用于获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，及所述至少两个计算处理单元的状态信息；

所述确定单元，其还用于根据所述状态信息及所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项方法的步骤。

第四方面，本申请实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项方法的步骤。

本申请实施例具有如下有益效果：

本申请实施例提供的终端数据处理方法，将训练好的神经网络模型按预设模型结构转换；对转换后的神经网络模型进行解析；获取所述转换后的神经网络模型中的算子在至少两个计算处理单元上运行的期望值；获取至少两个所述计算处理单元的状态信息；根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。本申请实施例的数据处理方法根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。

附图说明

图1示出了本申请终端数据处理方法的一实施例的流程图；

图2示出了本申请终端数据处理装置的一实施例的结构示意图；

图3示出了本申请一个实施例的终端的结构示意图。

具体实施方式

下面结合具体实施例对本申请作进一步详细描述，但不作为对本申请的限定。在下述说明中，不同的“一实施例”或“实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

现有技术中，对于神经网络的深度学习计算，都是预先配置好运行的计算处理单元，配置好后所有的运算都放在一个计算处理单元上运行，计算效率不高。或者，智能配置计算时是功耗优先还是速度优先，然后根据其中一种优先策略去确定将神经网络的算子分配至哪一个计算处理单元上，处理方式单一局限，不灵活。

第一方面，本申请实施例提供了一种终端数据处理方法，图1示出了本申请终端数据处理方法的一实施例的流程图。参见图1，该方法具体包括：

将训练好的神经网络模型按预设模型结构转换；

对转换后的所述神经网络模型进行解析；

获取所述至少两个计算处理单元的状态信息；

本申请实施例提供的终端数据处理方法，将训练好的神经网络模型按预设模型结构转换；对转换后的神经网络模型进行解析；获取所述转换后的神经网络模型中的算子在至少两个计算处理单元上运行的期望值；获取至少两个所述计算处理单元的状态信息；根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。本申请实施例的数据处理方法根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。本申请实施例的方法能够充分地利用终端上的计算资源。

本申请实施例中的终端包括至少两个计算处理单元。本申请实施例中的终端包括但不限于手机、平板电脑、膝上型计算机等。

本申请实施例中的终端上的计算处理单元例如可以包括CPU、GPU(图形处理器，Graphics Processing Unit)、DSP(数字信号处理器，digital singnal processor)和NPU(网络处理器，neural-network process units)等。本申请实施例中的终端包括的至少两个计算处理单元可以选自上述或其他未提及的具体的计算处理单元。

本申请实施例对训练好的神经网络模型不作具体限定。训练好的神经网络模型例如可以是卷积神经网络(Convolutional Neural Networks，CNN)模型，也可以是循环神经网络(Recurrent Neural Network，RNN)等。本申请实施例中，将训练好的神经网络模型转换成预设模型结构。本申请实施例中将不同类型的神经网络模型转换成预设模型结构，以便于对其进行读取和分配其算子运行的计算处理单元。其中，不同类型的神经网络模型采用开源代码表示，转换后的预设模型结构采用自定义代码表示。

本申请实施例中，对转换后的模型进行解析。解析后可以对模型快速读取，提高模型的运行速度。例如，本申请可选实施例中，将转换后的模型解析至内存中，可以快速读取模型数据。例如快速读取模型中算子在计算处理单元上运行的期望值，以及将算子放到确定的计算处理单元上运行等。

本申请实施例中，获取算子在至少两个计算处理单元上运行的期望值及至少两个计算处理单元的状态信息，根据期望值及状态信息确定算子运行的计算处理单元。本申请实施例中，综合算子在各计算处理单元上运行的期望值和各计算处理单元的状态信息确定算子运行的计算处理单元，可以灵活分配算子运行的计算处理单元，可以提高模型的运行速度和计算效率，还可以提高终端的整体运行效率。

本申请实施例对计算处理单元的状态信息不作具体限定。作为本申请可选实施例，状态信息例如可以包括计算处理单元的运算空间空闲值等运算性能参数。计算处理单元的运算空间空闲值越高，其剩余处理能力越强。例如，本申请一实施例中的终端包括CPU(中央处理器)和GPU(图形处理器)两个计算处理单元；训练好的神经网络模型按预设模型结构进行转换，该模型中包括算子A和算子B，算子A的输出为算子B的输入，转换后的模型中包括各算子(算子A和算子B)在各计算处理单元(CPU和GPU)上运行的期望值。读取转换后的模型中算子A在CPU和GPU上运行的期望值，结合CPU和GPU的运算空间空闲值确定算子A在哪个计算处理单元上运行。例如，算子A在CPU和GPU上运行的期望值相同时，可以确定算子A在运算空间空闲值较大的计算处理单元上运行。算子A计算完毕，其输出作为算子B的输入，按同样的道理确定算子B在哪个计算处理单元上运行。当然，本申请实施例中，计算处理单元的状态信息也可以包括其他的参数，例如其他表达剩余处理能力的参数，或其他表达计算处理单元当前运行性能的参数，或表达计算处理单元当前运行功耗的参数等。

本申请可选实施例中，对计算处理单元的运算性能参数(以运算空间空闲值为例)和期望值分别加权求和得到算子在至少两个计算处理单元上运行的评分，将评分最高的计算处理单元作为算子运行的计算处理单元。本申请实施例中，通过加权求和的方式综合考虑算子在计算处理单元上运行的期望值和计算处理单元的运算空间空闲值。期望值越高说明算子更倾向于在该计算处理单元上运行，运算空间空闲值越高，其剩余处理能力越强，算子在该计算处理单元上运行的速度相当较快。本实施例中的期望值和运算空间空闲值可以用0-100的数值表达，期望值越高，表明算子在该计算处理单元上运行的期望越高。运算空间空闲值越高，表明计算处理单元的当前处理能力越强。当然，期望值和运算空间空闲值也可以用百分数表达。本实施例通过加权求和，合理分配权重比，可以根据不同情况将模型中的算子灵活分配至不同的计算处理单元上进行运算，有效利用了运算处理单元，提升了运算效率。

本申请实施例对期望值的获取方法不作具体限定。例如可以由经验获得等等。例如根据经验可以知道某一类型的算子更适合在哪个计算处理单元上运行，根据算子在不同计算处理单元上的运行效率，算子在计算处理单元上的运行效率越高，相应的期望值也越高。据此可以确定该算子在不同计算处理单元上运行的期望值。作为本申请可选实施例，期望值通过统计获得。本申请实施例中，期望值可以是通过多个样本模型中的不同算子在不同运算处理单元上运行的频率得出。其中样本数量可以是3000个，也可以是10000个等。本实施例对样本的数量不作具体限定。

本申请实施例中，转换后的模型中包括各算子在各计算处理单元上运行的期望值。确定算子运行的计算处理单元时，可以读取转换后的模型中算子在各计算处理单元上运行的期望值，结合各计算处理单元的运算空间空闲值确定算子在哪个计算处理单元上运行。本申请可选实施例中，可以通过期望值隶属的算子的名称获取算子在至少两个计算处理单元上运行的期望值。在预设模型结构中神经网络可能由N(N≥1)个算子以及它对应的期望值组成。期望值和算子用“隶属的算子的名称”进行关联。通过期望值隶属的算子的名称可以与相应名称的算子关联。

以模型中包括算子A和算子B为例，算子A的输出为算子B的输入，运行该模型的终端的计算处理单元包括CPU和GPU。转换后的模型中包括各算子A和算子B在CPU和GPU上运行的期望值。读取转换后的模型中算子A在CPU和GPU上运行的期望值，结合CPU和GPU的运算空间空闲值确定算子A在哪个计算处理单元上运行。例如，算子A在CPU和GPU上运行的期望值分别为80和60，CPU和GPU的运算空间空闲值分别为40和80，期望值的权重为0.6，运算空间空闲值的权重为0.4。算子A在CPU上运行的评分＝0.6*80+0.4*40，即算子A在CPU上运行的评分为64。算子A在GPU上运行的评分＝0.6*60+0.4*80，即算子A在GPU上运行的评分为68。根据评分，确定算子A运行的计算处理单元是GPU。算子A运算完成，其输出作为算子B的输入，确定算子B在哪个计算处理单元上运行时，读取转换后的模型中算子B在CPU和GPU上运行的期望值，其中算子B在CPU上运行的期望值为70，在GPU上运行的期望值80，此时CPU和GPU的运算空间空闲值分别为70和50，期望值的权重为0.6，运算空间空闲值的权重为0.4。算子B在CPU上运行的评分＝0.6*70+0.4*70，即算子A在CPU上运行的评分为70。算子B在GPU上运行的评分＝0.6*80+0.4*50，即算子A在GPU上运行的评分为68。根据评分，确定算子B运行的计算处理单元是CPU。

第二方面，本申请实施例提供了一种终端数据处理装置，该终端数据处理装置可实现上述实施例终端数据处理方法，上述终端数据处理方法的实施例可用于理解和说明以下终端数据处理装置的实施例。

图2示出了本申请终端数据处理装置的一实施例的结构示意图。参见图 2，本申请实施例的终端数据处理装置包括：

转换单元10，其用于将训练好的神经网络模型按预设模型结构转换；

解析单元20，其用于对转换后的神经网络模型进行解析；

确定单元30，其用于获取转换后的神经网络模型中的算子在至少两个计算处理单元上运行的期望值，及至少两个计算处理单元的状态信息；

所述确定单元30，其还用于根据状态信息及期望值，在所述至少两个计算处理单元中确定算子运行的计算处理单元。

本申请实施例提供的终端数据处理装置，转换单元10将训练好的神经网络模型转换成预设模型结构，解析单元10对转换后的模型进行解析；确定单元30获取转换后的神经网络模型中的算子在至少两个计算处理单元上运行的期望值；确定单元30获取至少两个计算处理单元的状态信息；确定单元30根据状态信息和期望值，在所述至少两个计算处理单元中确定算子运行的计算处理单元。本申请实施例的数据处理装置根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。本申请实施例的方法能够充分地利用终端上的计算资源。

本申请实施例对训练好的神经网络模型不作具体限定。训练好的神经网络模型例如可以是CNN模型，也可以是RNN模型等。本申请实施例中，将训练好的神经网络模型转换成预设模型结构。本申请实施例中转换单元10将不同类型的神经网络模型转换成预设模型结构，以便于确定单元30读取模型中的相应的数据，分配算子运行的计算处理单元。

本申请实施例中，解析单元20对转换后的模型进行解析。解析后可以对模型快速读取，提高模型的运行速度。例如，本申请可选实施例中，将转换后的神经网络模型解析至内存中。将转换后的模型解析至内存中，可以快速读取模型数据。例如快速读取模型中算子在计算处理单元上运行的期望值，以及将算子放到确定的计算处理单元上运行等。

本申请实施例中，确定单元30获取算子在至少两个计算处理单元上运行的期望值及至少两个计算处理单元的状态信息，根据期望值及状态信息确定算子运行的计算处理单元。本申请实施例中，确定单元30综合算子在各计算处理单元上运行的期望值和各计算处理单元的状态信息确定算子运行的计算处理单元，可以灵活分配算子运行的计算处理单元，可以提高模型的运行速度和计算效率，还可以提高终端的整体运行效率。

本申请可行实施例中，确定单元30通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

本申请可行实施例中，确定单元30通过多个样本模型中的不同算子在不同计算处理单元上运行的频率，获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

本申请可行实施例中，确定单元30根据算子在不同计算处理单元上的运行效率，获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

本申请实施例对计算处理单元的状态信息不作具体限定。作为本申请可选实施例，确定单元30获取的状态信息例如可以包括计算处理单元的运算空间空闲值等运算性能参数。计算处理单元的运算空间空闲值越高，其剩余处理能力越强。

本申请可选实施例中，确定单元30对计算处理单元的运算性能参数(以运算空间空闲值为例)和期望值分别加权求和，得到算子在至少两个计算处理单元上运行的评分，将评分中最高评分对应的计算处理单元作为算子运行的计算处理单元。本申请实施例中，确定单元30通过加权求和的方式综合考虑算子在计算处理单元上运行的期望值和计算处理单元的运算空间空闲值。期望值越高说明算子更倾向于在该计算处理单元上运行，运算空间空闲值越高，其剩余处理能力越强，算子在该计算处理单元上运行的速度相当较快。本实施例中的期望值和运算空间空闲值可以用0-100的数值表达，期望值越高，表明算子在该计算处理单元上运行的期望越高。运算空间空闲值越高，表明计算处理单元的当前处理能力越强。当然，期望值和运算空间空闲值也可以用百分数表达。本实施例通过加权求和，合理分配权重比，可以根据不同情况将模型中的算子灵活分配至不同的计算处理单元上进行运算，有效利用了运算处理单元，提升了运算效率。

本申请实施例中，转换后的模型中包括各算子在各计算处理单元上运行的期望值。确定单元30确定算子运行的计算处理单元时，可以读取转换后的模型中算子在各计算处理单元上运行的期望值，结合各计算处理单元的运算空间空闲值确定算子在哪个计算处理单元上运行。本申请可选实施例中，可以通过期望值隶属的算子的名称获取算子在至少两个计算处理单元上运行的期望值。在预设模型结构中神经网络可能由N(N≥1)个算子以及它对应的期望值组成。期望值和算子用“隶属的算子的名称”进行关联。通过期望值隶属的算子的名称可以与相应名称的算子关联。

本申请可选实施例中，解析单元20将所述转换后的神经网络模型解析至内存中。

本申请可选实施例中，至少两个计算处理单元选自CPU、GPU、DSP或NPU。

本领域的技术人员可以清楚地了解到本申请实施例中的“单元”或“模块”的划分，仅仅为一种逻辑功能的划分，实际实现时可以有另外的划分方式，例如多个“单元”或“模块”可以结合或者可以集成为一个“单元”或“模块”实现相应的功能。或者一个“单元”或“模块”分解为多个共同实现相应的功能。本申请实施例中的“单元”或“模块”可以是能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等，在此不再一一赘述。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

第四方面，请参见图3，为本申请实施例提供了一种终端的结构示意图。如图3所示，所述终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个终端1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行终端1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图3所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及终端数据处理应用程序。

在图3所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的终端数据处理应用程序，并具体执行以下操作：

将训练好的神经网络模型按预设模型结构转换；

对转换后的所述神经网络模型进行解析；

获取所述至少两个计算处理单元的状态信息；

在一个实施例中，所述处理器1001在执行所述获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值时，具体执行以下操作：

通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

在一个实施例中，所述处理器1001在执行所述通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值时，具体执行以下操作：

通过多个样本模型中的不同算子在不同计算处理单元上运行的频率，获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

根据算子在不同计算处理单元上的运行效率，获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。

在一个实施例中，状态信息包括：所述计算处理单元的运算空间空闲值。

在一个实施例中，所述处理器1001在执行所述根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元时，具体执行以下操作：

对所述至少两个计算处理单元中各计算处理单元的运算空间空闲值和期望值分别加权求和，得到所述算子在所述各计算处理单元上运行的评分；

将所述评分中最高评分对应的计算处理单元作为所述算子运行的计算处理单元。

通过期望值隶属的算子的名称获取所述算子在至少两个所述计算处理单元上运行的期望值。

在一个实施例中，所述处理器1001还执行以下操作：将所述转换后的神经网络模型解析至内存中。

在一个实施例中，所述至少两个计算处理单元选自CPU、GPU、DSP或NPU。

本申请实施例中，将训练好的神经网络模型按预设模型结构转换；对转换后的神经网络模型进行解析；获取所述转换后的神经网络模型中的算子在至少两个计算处理单元上运行的期望值；获取至少两个所述计算处理单元的状态信息；根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。本申请实施例的数据处理方法根据算子在计算处理单元上运行的期望值及计算处理单元的状态信息确定算子运行的计算处理单元，兼顾了计算处理单元的实际运行状态和算子在计算处理单元上运行的期望值，能够将神经网络中的各个算子灵活、合理地分配到计算处理单元上进行运算，合理、有效利用计算处理单元，提升计算效率。本申请实施例的方法能够充分地利用终端上的计算资源。

在本申请中，术语“第一”、“第二”等仅用于描述的目的，而不能理解为指示或暗示相对重要性或顺序；术语“多个”则指两个或两个以上，除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；“相连”可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

本申请的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作，因此，不能理解为对本申请的限制。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种终端数据处理方法，所述终端包括至少两个计算处理单元，其特征在于，所述方法包括：

将训练好的神经网络模型按预设模型结构转换；

对转换后的所述神经网络模型进行解析；

获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值；

获取所述至少两个计算处理单元的状态信息；

根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。
根据权利要求1所述的方法，其特征在于，所述获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，包括：

通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求2所述的方法，其特征在于，所述通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，包括：

通过多个样本模型中的不同算子在不同计算处理单元上运行的频率，获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求2所述的方法，其特征在于，所述通过统计方法获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，包括：

根据算子在不同计算处理单元上的运行效率，获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求1所述的方法，其特征在于，所述状态信息包括：所述计算处理单元的运算空间空闲值。
根据权利要求5所述的方法，其特征在于，所述根据所述状态信息和所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元，包括：

对所述至少两个计算处理单元中各计算处理单元的运算空间空闲值和期望值分别加权求和，得到所述算子在所述各计算处理单元上运行的评分；

将所述评分中最高评分对应的计算处理单元作为所述算子运行的计算处理单元。
根据权利要求1所述的方法，其特征在于，所述获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，包括：

通过期望值隶属的算子的名称获取所述算子在至少两个所述计算处理单元上运行的期望值。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述转换后的神经网络模型解析至内存中。
根据权利要求1所述的方法，其特征在于，所述至少两个计算处理单元选自CPU、GPU、DSP或NPU。
一种终端数据处理装置，其特征在于，包括：

转换单元，其用于将训练好的神经网络模型按预设模型结构转换；

解析单元，其用于对转换后的所述神经网络模型进行解析；

确定单元，其用于获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值，及所述至少两个计算处理单元的状态信息；

所述确定单元，其还用于根据所述状态信息及所述期望值，在所述至少两个计算处理单元中确定所述算子运行的计算处理单元。
根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

通过统计装置获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

通过多个样本模型中的不同算子在不同计算处理单元上运行的频率，获得所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求11所述的装置，其特征在于，所述确定单元，具体用于：

根据算子在不同计算处理单元上的运行效率，获取所述转换后的神经网络模型中的算子在所述至少两个计算处理单元上运行的期望值。
根据权利要求10所述的装置，其特征在于，所述状态信息包括：所述计算处理单元的运算空间空闲值。
根据权利要求14所述的装置，其特征在于，所述确定单元，具体用于：

对所述至少两个计算处理单元中各计算处理单元的运算空间空闲值和期望值分别加权求和，得到所述算子在所述各计算处理单元上运行的评分；

将所述评分中最高评分对应的计算处理单元作为所述算子运行的计算处理单元。
根据权利要求10所述的装置，其特征在于，所述确定单元，具体用于：

通过期望值隶属的算子的名称获取所述算子在至少两个所述计算处理单元上运行的期望值。
根据权利要求10所述的装置，其特征在于，所述解析单元，具体用于：

将所述转换后的神经网络模型解析至内存中。
根据权利要求10所述的装置，其特征在于，所述至少两个计算处理单元选自CPU、GPU、DSP或NPU。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求1-9中任一项所述方法的步骤。
一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求1-9中任一项所述方法的步骤。