WO2020156212A1

WO2020156212A1 - 一种数据处理的方法、装置及电子设备

Info

Publication number: WO2020156212A1
Application number: PCT/CN2020/072503
Authority: WO
Inventors: 祝夭龙; 何伟; 冯杰
Original assignee: 北京灵汐科技有限公司
Priority date: 2019-01-28
Filing date: 2020-01-16
Publication date: 2020-08-06
Also published as: CN111488216B; CN111488216A

Abstract

本发明提供了一种数据处理的方法、装置及电子设备，用于解决现有技术中在众核芯片中有效算力利用率低的问题。包括：确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；根据所述资源需求量确定所述第一处理核的资源配平数量；将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

Description

一种数据处理的方法、装置及电子设备

本申请要求了2019年01月28日提交的、申请号为201910080981.8、发明名称为“一种数据处理的方法、装置及电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信技术领域，尤其涉及一种数据处理的方法、装置及电子设备。

背景技术

随着互联网应用的发展，人工智能技术得到越来越广泛的应用，影响人工智能技术的三大要素包括数据、算法和算力，其中，算力是由芯片提供的，是处理数据和运行算法的核心动力，如何在节约成本的情况下提升芯片的有效算力并且节约功耗，是目前需要解决的问题。

现有技术中，采用众核芯片来提升有效算力，例如，在卷积神经网络中对数据进行池化操作为例，假设众核芯片布局如图1所示，图1中有9个同构处理核(Processing Core，PCore)，分别为PCore A、PCore B、PCore C、PCoreD、PCoreE、PCoreF、PCoreG、PCoreH和PCore I，核与核之间可以通过片上网络(Networks on Chip，NOC)进行通信，其中，PCore A为第n层卷积层的处理核，PCore E为第n+1层卷积层的处理核，在PCore A中对数据进行池化操作，池化后的数据输入到PCore E处理核，在第n层进行池化操作可以减少第n+1层卷积层的计算量，假设在每个时间段(Ti)中PCore A为满操作运算，采用2X2的池化操作，则计算量降低4倍，当数据输入PCore E时，由于PCore E与PCore A为同构处理核，算力相同，处理能力相同，当计算量降低4倍时，即处理四分之一的计算量，需要的运算时间为每个时间段的四分之一，具体如图2所示，为池化前后PCore A与PCore E的资源需求量分配示意图。可以看出，采用现有技术的方法，PCore E在每个时间段中有四分之三的时间之内是闲置的，浪费了PCore E的计算资源，即浪费了PCore E的算力，因此，如何在众核芯片中提升有效算力是目前需要解决的问题。

发明内容

有鉴于此，本发明提供了一种数据处理的方法、装置及电子设备，用于解决现有技术中在众核芯片中有效算力利用率低的问题。

根据本发明实施例的第一个方面，提供了一种数据处理的方法，包括：确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；根据所述资源需求量确定所述第一处理核的资源配平数量；将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

通过上述方法，可以使第二处理核满负荷工作，提高了第二处理核的有效算力，避免了资源的浪费。

在一个实施例中，若所述众核芯片中的处理核为同构处理核，所述确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量之前，该方法还包括：设置所述众核芯片中任一第一处理核的参数；将所述参数复制到所述众核芯片中的其它第一处理核。

通过该方法，对于多个同构处理核使用相同的参数，只要设置其中一个第一处理核的参数的参数即可，节约了参数配置的时间。

在一个实施例中，若所述第一处理核为满负荷工作，所述第一处理核在设定周期内输出进行池化操作后的资源需求量为池化操作前资源需求量的N分之一，其中，N为池化操作后资源需求量降低的倍数。

通过该方法，通过池化操作降低资源需求量，节约资源。

在一个实施例中，所述根据所述资源需求量确定所述第一处理核的资源配平数量，具体包括：根据所述N分之一确定第一处理核的资源配平数量为N。

在一个实施例中，所述将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理，具体包括：将N个第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理核，其中，所述第二处理核为满负荷工作。

通过该方法，为第二处理核配置N个第一处理核，使第二处理核满负荷工作，避免了第二处理核资源的浪费。

在一个实施例中，若所述众核芯片中的处理核为异构处理核，所述确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量之前，该方法还包括：将所述众核芯片中的第一处理核进行分类；设置每一类所述第一处理核的参数，其中，同一类所述第一处理核的参数相同。

通过该方法，对异构处理核进行分类，每一类设置相同的参数，节约了参数配置的时间。

根据本发明实施例的第二个方面，提供了一种数据处理的装置，包括：第一确定单元，用于确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；第二确定单元，用于根据所述资源需求量确定所述第一处理核的资源配平数量；传输单元，用于将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

根据本发明实施例的第三个方面，提供了一种电子设备，所述电子设备包括：多个处理核；以及片上网络，被配置为交互所述多个处理核间的数据和外部数据；所述多个处理核中存储指令，根据所述指令所述电子设备执行如第一方面或第一方面任一种可能所述的方法。

根据本发明实施例的第四个方面，提供了一种计算机可读存储介质，其上存储计算机程序指令，所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能所述的方法。

根据本发明实施例的第五个方面，提供了一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面或第一方面任一种可能所述的方法。

本发明实施例的有益效果包括：首先确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量，然后根据所述资源需求量确定所述第一处理核的资源配平数量，最后将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。通过上述方法，第二处理核可以同时接收到资源配平数量的第一处理核池化操作后的数据，由于根据资源需求量确定的第一处理核的资源配平数量，因此资源配平数量的第一处理核的输出数据可以使第二处理核满负荷工作，提高了第二处理核的有效算力，避免了资源的浪费。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1是现有技术中一种众核芯片布局示意图；

图2是现有技术中一种池化操作前后资源需求量分配示意图；

图3是现有技术中一种二维池化操作示意图；

图4是现有技术中一种三维维池化操作示意图；

图5是现有技术中另一种池化操作前后资源需求量分配示意图；

图6是本发明实施例提供的一种数据处理的方法流程图；

图7是本发明实施例提供的另一种数据处理的方法流程图；

图8是本发明实施例提供的一种众核芯片布局示意图；

图9是本发明实施例提供的一种池化操作前后资源需求量分配示意图；

图10是本发明实施例提供的一种数据处理的装置示意图；

图11是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。此外，本领域普通技术人员应当理解，在此提供的附图都是为了说明的目的。

除非上下文明确要求，否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义；也就是说，是“包括但不限于”的含义。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，不代表顺序，也不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在现有技术中，采用图1中的众核芯片在卷积神经网络中对数据进行池化操作，通过池化来降低卷积才能输出的特征向量，增加网络的鲁棒性，假设池化前的数据为二维特征图，其中，所述二维特征图如图3所示，包括16个元素，采用2X2的最大池化操作，二维特征图由原来的16个元素下采样成4个元素，池化后二维特征图中的像素个数降低了4倍，即池化前PCore A的资源需求量为满负荷，池化后PCore E的资源需求量成为了池化前的4分之一，也就是说PCore E在每个时间段中有四分之三的时间之内是闲置的，浪费了PCore E的计算资源，即浪费了PCore E的算力。

现有技术中，也可以对三维特征图进行池化操作，具体如图4所示，针对每个图片进行M*N的最大池化操作。现有技术中，针对上述2X2的最大池化操作可以采用如图2所示的池化操作前后资源需求量分配示意图，也可以采用如图5所示的池化操作前后资源需求量分配示意图，即将前四个时间段的任务合并在一个时间段中运行，是该时间段中处理核满负荷工作，但处理核在其他时间段内是闲置的，浪费了PCore E的计算资源，即浪费了PCore E的算力，因此，如何在众核芯片中提升有效算力是目前需要解决的问题。

本发明提供的一种数据处理的方法，具体如图6所示，包括：

步骤S600、确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量。

步骤S601、根据所述资源需求量确定所述第一处理核的资源配平数量。

步骤S602、将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

本发明实施例中，首先确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量，然后根据所述资源需求量确定所述第一处理核的资源配平数量，最后将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。通过上述方法，第二处理核可以同时接收到资源配平数量的第一处理核池化操作后的数据，由于根据资源需求量确定的第一处理核的资源配平数量，因此资源配平数量的第一处理核的输出数据可以使第二处理核满负荷工作，提高了第二处理核的有效算力，避免了资源的浪费。

本发明实施例中，众核芯片中至少一个第一处理核可以为同构处理核，也可以为异构处理核，其中，同构处理核的算力相同，设置的参数相同，异构处理核的算力不同，设置的参数不同，针对上述两种情况通过以下两个具体实施例进行详细说明。

具体实施例一、若所述众核芯片中包括9个处理核，且所述9个处理核为同构处理核，假设所述第一处理核为满负荷工作，处理流程如下：

步骤S700、设置所述众核芯片中任一第一处理核的参数，将所述参数复制到所述众核芯片中的其它第一处理核。

举例说明，在卷积神经网络中，第n层的卷积层进行池化操作，第n层中使用的处理核称为第一处理核，设置任一第一处理核按照2X2进行池化操作，则其他第一处理核也按照2X2进行池化操作。

步骤S701、确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量。

具体的，所述第一处理核在设定周期内进行池化操作后的资源需求量相同。

举例说明，所述第一处理核在审定时间段内进行池化操作后的资源需求量为池化前资源需求量的4分之一。

步骤S702、根据所述第一处理核在设定周期内输出进行池化操作后的资源需求量为池化操作前资源需求量的N分之一，确定第一处理核的资源配平数量为N，其中，N为池化操作后资源需求量降低的倍数。

举例说明，所述第一处理核在设定周期内进行池化操作后的资源需求量为池化前资源需求量的4分之一，由于每个第一处理核池化后的资源需求量为4分之一，池化后输出到第n+1卷积层对应的第二处理核进行处理，当第二处理核需要满负荷，则需要第一处理核的资源配平数量为4。假设，确定的4个第一处理核分别为PCoreA、PCoreB、PCoreC和PCoreD，其中，PCoreA、PCoreB、PCoreC和PCoreD都是满负荷工作。

步骤S703、将所述N个第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

其中，所述第二处理核为满负荷工作。

举例说明，上述4个第一处理核进行池化操作后的资源需求量对应的数据输入到所述众核芯片中的第二处理核PCoreE，具体图8所示。

本发明实施例中，上述举例说明中，池化操作前后资源需求量分配示意图如图9所示，时间段T1时，PCoreA、PCoreB、PCoreC和PCoreD满负荷运行，PCoreA、PCoreB、PCoreC和PCoreD按照2X2进行池化操作，资源需求量为池化前的4分之1，PCoreA、PCoreB、PCoreC和PCoreD的4个处理核心将池化后的资源需求量发送给PCoreE，即在时间段T2时，PCoreE为满负荷运行，其他时间段以此类推，本发明对其不做赘述。

具体实施例二、若所述众核芯片中包括9个处理核，且所述9个处理核为异构处理核，假设所述第一处理核为满负荷工作，所述确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量之前，将所述众核芯片中的第一处理核进行分类；设置每一类所述第一处理核的参数，其中，同一类所述第一处理核的参数相同。

例如，假设将所述众核芯片中的第一处理核分为三类，第一类第一处理核算力为100、第二类第一处理核算力为50、第三类第一处理核为20，即在设定时间内第一处理核的算力是第二类第一处理核的2倍，是第三类第一处理核的5倍，不同第一处理核的池化参数也不同，根据不同的算力及参数进行资源配平，只要多个第一处理核输出的池化后的资源需求量可以使第二处理核满负荷运行即可。

图10是本发明实施例提供的一种数据处理的装置示意图。如图10所示，本实施例的数据处理的装置包括：第一确定单元1001、第二确定单元1002和传输单元1003，其中，所述第一确定单元，用于确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；第二确定单元，用于根据所述资源需求量确定所述第一处理核的资源配平数量；传输单元，用于将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

图11是本发明实施例的电子设备的结构示意图。如图11所示，本实施例的电子设备包括处理核11-1N以及片上网络14。处理核11-1N均与片上网络14连接。片上网络14用于交互所述N个处理核间的数据和外部数据。所述N个处理核中存储指令，根据所述指令所述电子设备执行如下操作：确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；根据所述资源需求量确定所述第一处理核的资源配平数量；将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。

如本领域技术人员将意识到的，本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明实施例的各个方面可以采取如下形式：完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外，本发明实施例的各个方面可以采取如下形式：在一个或多个计算机可读介质中实现的计算机程序产品，计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置，或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项：具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中，计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号，所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式，包括但不限于：电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质：不是计算机可读存储介质，并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写，所述编程语言包括：面向对象的编程语言如Java、Smalltalk、C++等；以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行；部分地在用户计算机上且部分地在远程计算机上执行；或者完全地在远程计算机或服务器上执行。在后一种情况下，可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机，或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是，流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器，以产生机器，使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中，使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上，以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种数据处理的方法，其特征在于，包括：

确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；

根据所述资源需求量确定所述第一处理核的资源配平数量；

将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。
如权利要求1所述的方法，其特征在于，若所述众核芯片中的处理核为同构处理核，所述确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量之前，该方法还包括：

设置所述众核芯片中任一第一处理核的参数；

将所述参数复制到所述众核芯片中的其它第一处理核。
如权利要求2所述的方法，其特征在于，若所述第一处理核为满负荷工作，所述第一处理核在设定周期内输出进行池化操作后的资源需求量为池化操作前资源需求量的N分之一，其中，N为池化操作后资源需求量降低的倍数。
如权利要求3所述的方法，其特征在于，所述根据所述资源需求量确定所述第一处理核的资源配平数量，具体包括：

根据所述N分之一确定第一处理核的资源配平数量为N。
如权利要求4所述的方法，其特征在于，所述将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理，具体包括：

将N个第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理核，其中，所述第二处理核为满负荷工作。
如权利要求1所述的方法，其特征在于，若所述众核芯片中的处理核为异构处理核，所述确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量之前，该方法还包括：

将所述众核芯片中的第一处理核进行分类；

设置每一类所述第一处理核的参数，其中，同一类所述第一处理核的参数相同。
一种数据处理的装置，其特征在于，包括：

第一确定单元，用于确定众核芯片中多个执行第一处理的第一处理核在设定周期内输出进行池化操作后的数据进行第二处理的资源需求量；

第二确定单元，用于根据所述资源需求量确定所述第一处理核的资源配平数量；

传输单元，用于将所述资源配平数量的第一处理核的输出数据输入到所述众核芯片中的任一个第二处理核执行所述第二处理。
一种电子设备，其特征在于，所述电子设备包括：

多个处理核；以及

片上网络，被配置为交互所述多个处理核间的数据和外部数据；

所述多个处理核中存储指令，根据所述指令所述电子设备执行如权利要求1-6中任一项所述的方法。
一种计算机可读存储介质，其上存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
一种计算机程序产品，其特征在于，所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-6中任一项所述的方法。