WO2020103653A1

WO2020103653A1 - 一种全连接层的实现方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2020103653A1
Application number: PCT/CN2019/114085
Authority: WO
Inventors: 李炜; 曹庆新
Original assignee: 深圳云天励飞技术有限公司
Priority date: 2018-11-19
Filing date: 2019-10-29
Publication date: 2020-05-28
Also published as: CN111199268B; WO2020103653A9; CN111199268A

Abstract

本申请公开了一种全连接层的实现方法、装置、电子设备及计算机可读存储介质，包括：获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量，当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；接着获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；然后在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。采用本申请实施例，可以实现全连接层权重系数的复用、提高神经网络中乘法累加器的利用率。

Description

一种全连接层的实现方法、装置、电子设备及计算机可读存储介质技术领域

[0001] 本申请涉及神经网络领域，尤其涉及一种全连接层的实现方法、装置、电子设备及计算机可读存储介质。

[0002] 本申请要求于 2018年 11月 19日提交中国专利局，申请号为 201811375742.7、发明名称为“一种全连接层的实现方法、装置、电子设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

背景技术

[0003] 目前，卷积神经网络 (Convolution Neural Network, CNN) 被广泛地应用于人工智能的各个领域。 CNN是一种深度前馈人工神经网络，包括卷积层、池化层和全连接 (Fully connect, FC) 层。相比于其他神经网络算法， CNN可以处理更大的图像，具有计算量大、带宽需求大以及操作相对固定的特点。其中，在 FC 层中需将处理对象的局部特征整合为全局特征。尽管 FC层的计算量比较小，但需要的权重系数 (weight) 的量却很大。多数情况下， FC层所需的 weight占整个神经网络 weight的 70%以上。在现有的 FC层的实现方案中，一旦系统生成局部特征立即读取 weight对该局部特征进行转化，这种做法不仅无法实现 Fdl weight的复用、而且导致整个神经网络中乘法累加器 (Multiply Accumulate, MAC) 的利用率低。

发明概述

技术问题

问题的解决方案

技术解决方案

[0004] 本申请实施例提供一种全连接层的实现方法、装置、设备及计算机可读存储介质，可以实现 FC层权重系数的复用、提高神经网络中 MAC的利用率。 [0005] 本申请第一方面提供了一种全连接层的实现方法，包括：

[0006] 获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量；

[0007] 当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；

[0008] 获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；

[0009] 在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的所述权重系数，并行确定所述每个输入特征对应的输出特征。

[0010] 本申请第二方面提供了一种全连接层的实现装置，包括：

[0011] 获取模块，用于获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量；

[0012] 传输模块，用于当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；

[0013] 所述获取模块，还用于获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；

[0014] 处理模块，所述处理模块包括所述全连接层对应的多个数据处理单元，用于所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。

[0015] 本申请实施例第三方面提供了一种电子设备，包括：处理器、存储器、通信接口和总线；

[0016] 所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

[0017] 所述存储器存储可执行程序代码；

[0018] 所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行本申请实施例第一方面公开的一种全连接层的实现方法。

[0019] 本申请第四方面提供了一种存储介质，其中，所述存储介质用于存储应用程序，所述应用程序用于在运行时执行本申请实施例第一方面公开的一种全连接层的实现方法。

[0020] 实施本申请实施例，获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量，当获取到的所述多个输入特征的总数量达到第一预设阈值时，首先同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；接着获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；然后在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。可以在多个数据处理单元中对多个输入特征对应的输出特征进行并行确定，实现了在仅读取一次权重系数的前提下完成对多个输入特征的 FC层的计算，相比于现有技术中每对一个输入特征进行 FC 层的计算都要读取一次权重系数的方法，本申请实施例提供的方法实现了权重系数的复用。此外，输入特征的总数量对应的第一预设阈值的选取可以以 FC层对应的数据处理单元的数量为依据，以使每个数据处理单元至少承担一个输入特征的 FC层的计算，避免数据处理单元闲置的情况，提高了 MAC的利用率。发明的有益效果

对附图的简要说明

附图说明

[0021] 为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0022] 图 1是本申请实施例提供的神经网络处理器的结构示意图；

[0023] 图 2是本申请实施例提供的一种全连接层的实现方法的流程示意图；

[0024] 图 3是本申请实施例提供的一种输入特征的示意图；

[0025] 图 4是本申请实施例提供的一种向 PE写入输入特征的示意图；

[0026] 图 5是本申请实施例提供的一种输出特征的示意图；

[0027] 图 6是本申请实施例提供的另一种全连接层的实现方法的流程示意图； [0028] 图 7是本申请实施例提供的一种向 PE写入输入特征的示意图；

[0029] 图 8是本申请实施例提供的另一种输出特征的示意图；

[0030] 图 9是本申请实施例提供的一种全连接层的实现装置的结构示意图；

[0031] 图 10是本申请实施例提供的一种电子设备的结构示意图。

发明实施例

本发明的实施方式

[0032] 请参考图 1，图 1是本申请实施例提供的一种神经网络处理器的结构示意图。如图所示，本申请实施例中神经网络处理器包括数据存储器、数据读取单元、权重存储器、数据回存单元、以及多个数据处理单元 (Processing Element, PE) 。其中，每个 PE可以包括输入数据缓存、卷积运算单元和输出数据缓存。其中，数据存储器用于存储神经网络计算过程中每层产生的输入特征 (input feature map) ，从而将输入特征整合成输出特征 (output feature map) ；数据读取单元用于读取数据存储器中的输入特征，并将输入特征送入对应 PE的输入数据缓存中；权重存储器用于存储神经网络计算过程中每层所需的权重系数 (weight) ，也可以是权重矩阵；数据回存单元用于将输出数据缓存中的输出特征存入数据存储器中。 PE用于完成 FC层的计算，其中，卷积运算单元用于读取输入数据缓存中的输入特征，并执行 FC层的运算或其他卷积运算，输出数据缓存用于存储卷积运算单元计算出来的输出特征。基于以上神经网络处理器，本申请实施例提供以下全连接层的实现方法。

[0033] 请参考图 2, 图 2是本申请实施例提供的一种全连接层的实现方法的流程示意图。如图所示，本申请实施例中的方法包括：

[0034] S201 , 获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量。

[0035] 具体实现中， CNN中包括卷积层、池化层和全连接层。在利用卷积神经网络图像处理的过程中，全连接层可以将经过卷积层和池化层的处理后得到的大量图像特征进行整合，以便对图像进行后续分类或其他处理。因此，可以实时获取 C NN中生成的针对 FC层的输入特征，并将获取到的输入特征存储在数据存储器中，其中，可以将每个输入特征的多个第一特征分量进行批量处理，因此将每个输入特征可以存储在一个 batch中，并且每个第一特征分量占用 batch中的一个输入通道（input channel， ci），每个第一特征分量可以为一个数、一个向量、或者一个矩阵等等。基于此，为了方便叙述，以下将输入特征的第 x个特征分量记为 cix。

[0036] 例如：如图 3所示，输入特征 TO、 Tl、 T2、 ...、 T 15分别存储在数据存储器的 b atchO、 batchl、 ...、 batchl5中。其中，每个输入特征包括 6个特征分量，分别对应 ciO、 cil、、 ci5。

[0037] S202, 当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征。

[0038] 具体实现中， FC层对应的多个数据处理单元可以用于针对多个 batch中的输入特征分别进行 FC层计算，例如： PE0针对 batchO中的输入特征进行 FC层计算、 PE 1针对 batchl中的输入特征进行 FC层计算、 ...、 PE15针对 batchl5中的输入特征进行 FC层计算。第一预设阈值可以根据 FC对应的数据处理单元的数量和 /或数据存储器的存储容量来确定。比如： FC对应的数据处理单元为 16个，则第一预设阈值可以为 16。

[0039] 当获取到的多个输入特征的总数量达到第一预设阈值时，可以同时向多个数据单元中的每个数据处理单元输入获取到的多个输入特征中的一个输入特征。针对获取到的每个输入特征，可以首先从数据存储读取该输入特征，然后向 FC层对应的多个数据处理单元中的一个数据处理单元输入该输入特征，其中，可以将输入特征存储在数据处理单元的输入数据缓存中。相应地，每个数据处理单元中也仅拥有一个输入特征，并且为了提高乘法累加器的利用率，每个数据处理单元中的输入特征均不相同。

[0040] 例如：如图 3所示，总共获取到 16个输入特征，包括 TO、 T1、 ...、 T15 , 它们分别存储在 batchO、 batchl、 ...、 batchl5中。 FC层对应的数据处理单元有 16个，包括 PE0、 PE1、 ...、 PE15。因此，如图 4所示，可以将 T0输入 PE0、 T1输入 PE1 、 ...、 T15输入 PE15。其中，可以按照如下顺序从每个 batch中读取每个输入特征的特征分量，并存入对应的 PE的输入数据缓存中（“batcha-cib”表示 batcha中的第 b个 ci） : [0041] batchO-ciO, batch 1-ciO, batch 15-ciO,

[0042] batchO-cil , batch 1-cil , batch 15-cil,

[0043] .

[0044] batchO-ci5 , batch l-ci5 , …, batch 15-ci5。

[0045] S203 , 获取所述多个特征分量中每个第二特征分量在所述全连接层的输出特中的权重系数。

[0046] 具体实现中，在 CNN中，可以从双倍速率同步动态随机存储器 (Double Data Rate, DDR) 中读取 FC层所需的权重系数，并存储到权重存储器中。其中，输出特征中包含多个第二特征分量，每个第一特征分量对每个第二特征分量均有贡献。因此，获取到的权重系数包括每个第一特征分量在每个第二特征分量中的权重系数。

[0047] 其中，如图 5所示，与输入特征的存储方式相同，输出特征所包含的多个第二特征分量也可以被批量存储在对应数据处理单元的输出数据缓存中，每个第二特征分量占用一个输出通道 (output channel， CO) 。基于此，为了便于叙述以下将输出特征的第 x个第二特征分量记为 cox。

[0048] S204, 在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。

[0049] 具体实现中，可以首先针对每个第一特征分量，向数据处理单元逐个广播该第一特征分量在每个第二特征分量中的权重系数，当该第一特征分量的权重系数均广播完成后，再切换另一个第一特征分量进行权重系数的广播。其中，当 CN N的各项参数确定后，将每个输入特征在 FC层的计算中所需的权重系数是相同的，因此每个数据处理单元中所需的权重系数也相同。

[0050] 例如：每个输入特征包括 6个第一特征分量 ciO、 cil、 ...、 ci5，每个输出特征包括 128个第二特征分量 co0、 col、 ...、 col27。则可以按照如下顺序向每个 PE广播权重系数。其中， cix-coy表示第 x个第一特征分量在第 y个第二特征分量中的权重系数。

[0051] ci0-co0， ciO-col，， ci0-col27 ,

[0052] cil-coO, cil-col，， cil-col27 , [0053] .

[0054] ci5-co0， ci5-col，， ci5-col27

[0055] 接着，在每个数据处理单元中，可以根据权重系数，确定输入该数据处理单元的一个输入特征中的每个第一特征分量对该输入特征对应的输出特征所包含的多个第二特征分量中的每个第二特征分量的贡献值，其中，贡献值可以为第一特征分量与权重系数的乘积。需要说明的是，多个数据单元中的操作是并行执行的。

[0056] 例如，输入特征 T0包括 ciO、 cil和 ci2，它们分别为 0、 6和 5，且 ciO-coO、 cil-co 0、 ci2-co0和 ci3-co0分别为 0.12、 0.15和 0.2，则 ciO、 cil和 ci2对 co0的贡献值分别为 0*0.12=0 6*0.15=0.9、 5*0.2=1。

[0057] 其中，为了最大程度的复用输入特征中的每个第一特征分量，以及最小化数据处理单元的数据缓存。针对输入特征中的多个第一特征分量，可以首先计算其中一个第一特征分量对输出特征中的每个第二特征分量的贡献值，接着将该第一特征分量从数据处理单元中删除；然后切换到另一个第一特征分量进行计算。也就是说，在将其中一个第一特征分量应用于每个第二特征分量之后，再切换第一特征分量进行计算。

[0058] 例如：在向 PE输入 ciO后，向 PE广播 ci0-co0， ciO-col , ci0-col27 , 则 PE可以首先计算出 ciO对 coO, col， ...， col27的贡献值，并将 ciO从输入数据缓存中删除；接着在向 PE输入 cil后，向 PE广播 cil-coO， cil-col , cil-col27 , 则 PE可以计算出 cil对 coO, col， ...， col27的贡献值，并将 cil从输入数据缓存中删除 ... 依次类推，可以得到每个 d对每个 CO的贡献值，从而得到每个第二特征分量。

[0059] 然后，根据贡献值，确定输出特征，其中，可以将每个第一特征分量的贡献值的和作为对应的第二特征分量，而多个第二特征分量共同构成了输出特征。

[0060] 例如，如图 5所示，每个 PE的输出数据缓存中存储着输入该 PE中的输入特征所对应的输出特征，其中， co0、 col、 ...、 col27构成了该输出特征。

[0061] 需要说明的是，在每个数据处理单元计算出输出特征之后，需要将输出特征存储到输出数据缓存中，然后再通过数据回存单元将输出特征读取并存储到数据存储器。因此，若输出数据缓存的存储容量小于输出特征所占的存储空间的大小，则需要将输出特征中的多个第二特征分量进行分组。

[0062] 例如： PE0的输出数据缓存中可以存储 128个 co，而输入特征 TO对应的输出特征 P0包含 148个第二特征分量，则将 148分解为 128+20。首先在 PE0计算其中的 128 个第二特征分量，这 128个第二特征分量可以存储在 PE0的输出数据缓存中，然后当 128个第二特征分量从 PE0的输出数据缓存被读走后，再计算剩下的 20个第二特征分量。

[0063] 综上所述，本申请实施例中的全连接层的实现方法的核心思想是：将权重系数同时广播给多个数据处理单元，其中，每个数据处理单元负责计算获取到的一个输入特征，从而可以实现多个 PE同步进行多个输入特征的 FC层的计算，达到复用权重系数的目的。

[0064] 以下通过一个例子来说明本申请实施例中全连接层的实现方法的完整实施流程

[0065] 假设供获取到 16个输入特征 TO、 T1、 ...、 T15。它们分别存储在数据存储器的 batchO、 batchl、 ...、 batchl5中，每个输入特征中分别包括 6个第一特征分量 ciO 、 cil、、 ci5 （如图 3所示）。 TO、 T1、、 T15对应的输出特征分别为 P0、 P1 '_' P15 , 每个输出特征包含 128个第二特征分量 co0、 col、 ...、 col27。则具体实施流程如下：

[0066] 1）将 TO、 T1、、 T15按照如下顺序从 batchO、 batchl、、 batchl5中读出，并分别存入 PE0、 PE1、 ...、 PE15的输入数据缓存中。其中，可以首先读取每个输入特征的 ciO，再读取每个输入特征的 cil， ...，并放入对应的 PE中。如图 4所示，相当于 PE0中被输入 T0的 ciO、 cil、 ...、 ci5。 PE1中被输入 T1的 ciO、 cil、 ...

、 ci5。 .....， PE15中被输入 T15的 ciO、 cil、、 ci5。

[0067] batchO-ciO, batch 1-ciO, batch 15-ci0,

[0068] batchO-cil , batch 1-cil , batch 15-cil,

[0069] .

[0070] batch0-ci5 , batch l-ci5 , …, batch 15-ci5。

[0071] 2）可以按照如下顺序向 PE0、 PEI、 ...、 PE15广播每个 ci对每个 co的权重系数

。其中，以下所示的权重系数的广播顺序使得每个 PE可以最大程度的复用每个 d 并最小化输入数据缓存，因为当一次性将 cix对 coO、 col、 ...、 col27中每个的贡献值都计算出来后，就可以将 cix从输入数据缓存中删除。

[0072] ciO-coO， ciO-col，， ci0-col27 ,

[0073] cil-coO, cil-col，， cil-col27 ,

[0074] .

[0075] ci5-co0， ci5-col，， ci5-col27

[0076] 3）如图 5所示，在每个 PE中依次计算对应输出特征的 co0、 col、 ...、 col27并存储输出数据缓存中，从而得到 P0、 P1、 ...、 P15。

[0077] 在本申请实施例中，获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量，当获取到的所述多个输入特征的总数量达到预设阈值时，首先同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；接着获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；然后在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。相比于现有技术中每生成一个输入特征就进行 FC层计算的方法，本申请实施例所述的方法中先将输入特征进行累积，当累积到一定数量之后，再利用多个数据处理单元对多个输入特征进行并行确定的方式，实现了在仅读取一次权重系数的前提下完成对多个输入特征的 FC层的计算，从而达到了复用 FC层权重系数的目的，大大减少了读取权重系数的带宽，提高了神经网络 MAC的利用率。此外，通过输入特征分量的读取顺序与权重系数的广播顺序的配合，将完成计算的无效数据及时删除，有效减少了的数据处理单元中的数据缓存压力。

[0078] 请参考图 6 , 图 6是本申请实施例提供的另一种全连接层的实现方法的流程示意图。如图所示，本申请实施例中的方法包括：

[0079] S601 , 获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量。

[0080] 具体实现中， CNN中包括卷积层、池化层和全连接层。在利用卷积神经网络图像处理的过程中，全连接层可以将经过卷积层和池化层的处理后得到的大量图像特征进行整合，以便对图像进行后续分类或其他处理。因此，可以实时获取 C NN中生成的针对 FC层的输入特征，并将获取到的输入特征存储在数据存储器中，其中，可以将每个输入特征的多个第一特征分量进行批量处理，因此将每个输入特征可以存储在一个 batch中，并且每个第一特征分量占用 batch中的一个 ci ，每个第一特征分量可以为一个数、一个向量、或者一个矩阵等等。

[0081] S602, 当获取到的多个输入特征的总数量达到预设阈值时，同时向全连接层对应的多个数据处理单元输入中的每个数据处理单元输入所述多个输入特征。

[0082] 具体实现中，预设阈值可以根据用于 FC对应的数据处理单元的数量和 /或数据存储器的存储容量来确定，如 16、 10等。其中，针对获取到的每个输入特征，可以首先从数据存储器中读取该输入特征，然后向 FC层对应的多个数据处理单元中的每个数据处理单元输入该输入特征，其中，可以将输入特征存储在数据处理单元的输入数据缓存中。因此，每个数据处理单元拥有获取到的所有的输入特征。

[0083] 例如：总共获取到系统生成的 16个输入特征，包括 TO、 T1、 ...、 T15 , 它们分别存储在 batchO、 batchl、 ...、 batchl5中。 FC层对应的数据处理单元有 16个，包括 PEO、 PE1、 ...、 PE15。因此，如图 7所示，可以先将 T0输入 PEO、 PE1、 ...、 PE15；再将 T1输入 PEO、 PE1、、 PE15； ...；最后再将 T15输入 PEO、 PE1、 ... 、 PE15。具体地，可以按照如下顺序从数据存储器中读取每个 TO、 T1、 ...、 T1 5的特征分量，并存入每个 PE的输入数据缓存中。

[0084] batch0-ci0, batchO-cil , ... ,batch0-ci5,

[0085] batch 1-ciO, batch 1-cil , batch l-ci5,

[0086] .

[0087] batch 15-ci0, batch 15-cil , batch 15-ci5。

[0088] S603 , 获取所述多个特征分量中每个第二特征分量在所述全连接层的输出特中的权重系数。

[0089] 具体实现中，在 CNN中，可以从 DDR中读取 FC层所需的权重系数，并存储到权重存储器中。其中，输出特征中包含多个第二特征分量，每个第一特征分量对每个第二特征分量均有贡献。因此，获取到的权重系数为每个第一特征分量在每个第二特征分量中的权重系数。

[0090] S604，在每个数据处理单元中，根据每个输入特征中的多个第一特征分量和多个第一特征分量对应的权重系数，确定每个输入特征对应的输出特征包含的多个第二特征分量中的至少一个第二特征分量。

[0091] 具体实现中，可以将多个第二特征分量进行编号，并按照编号从小到大的顺序将第二特征分量逐一分配给每个数据处理单元进行处理。其中，每个输出特征所包含的第二特征分量的数量相同。相应地，可以根据在每个数据处理单元中进行处理的第二特征分量，向每个数据处理单元逐个广播该数据处理单元所需的多个权重系数，其中，每个数据处理单元所需的权重系数不同。

[0092] 然后，在每个数据处理单元中，根据权重系数，确定该数据处理单元负责处理的至少一个第二特征分量中的每个第二特征分量，其中，多个数据处理单元中的操作是同时进行的。

[0093] 例如：如图 8所示，输出特征总共包含 128个第二特征分量 coO、 col、 ...、 col2 7。 PE的总数量为 16，包括 PEO、 PEI、 ...、 PE15。则可以首先将 co0分配给 PE0 、 col分配给 PEI、 co2分配给 PE2、 ...、以及 col5分配给 PE15 ; 接着将 col6分配给 PE0、将 col7分配给 PE1、 ...。依次类推，得到在 PEi中进行计算的第二特征分量包括 co (i+j*16) , 其中， i=0、 1,2,...,15 , j=0,l ...,7 , 在得到 co (i+j*16) 后，可以将其存储在输出数据缓存中。

[0094] 相应地，可以按照如下顺序向每个 PE输入对应的权重系数，其中， “cix-coy (P Ez) ”表示向 PEz输入 cix在 coy中的权重系数。

[0095] ci0-co0 (PE0) , ciO-col (PEI) ，， ci0-col5 (PE15) ，

[0096] ci0-col6 (PE0) , ci0-col7 (PEI) ，， ci0-co31 (PE15) ，

[0097] .

[0098] ci0-col l2 (PE0) , ci0-col l3 (PEI) ，， ci0-col27 (PE15) ，

[0099] cil-coO (PE0) , cil-col (PEI) ，， cil-col5 (PE15) ，

[0100] cil-col6 (PE0) , cil-col7 (PEI) ，， cil-co31 (PE15) ，

[0101] .

[0102] ci5-col l2 (PE0) , ci5-col l3 (PEl) , ci5-col27 (PE15) [0103] 为了最大程度的复用输入特征中的每个第一特征分量，以及最小化数据处理单元的数据缓存。在将其中一个第一特征分量应用于每个第二特征分量之后，再切换第一特征分量进行计算。

[0104] 例如：需要在 PE0中计算 coO、 col6、 co32、、 col l2。则针对 ciO、 cil、、 ci5 , 可以先计算 ciO对 coO、 col6、 co32、 ...、 col 12的贡献值，再从 PE0中删除 ci 0；接着计算 cil对 co0、 col6、 co32、 ...、 col 12的贡献值，再从 PE0中删除 cil ; …

[0105] S605 , 将每个数据处理单元所确定的至少一个第一特征分量进行组合得到每个输入特征对应的输出特征。

[0106] 例如，如图 8所示，可以从 PE0的输出数据缓存中输入特征 T0对应的输出特征 P 0的 co0、 col6、 co32、、 col l2, 从 PE1中获取 P0的 col、 col7、 co33、 …、 col 13；以及从 PE15中 P0的获取 col5、 co31、 co47、 ...、 col27。然后将 co按照序号从小到大组合成 co0、 col、 co2、 ...、 col27作为 P0。

[0107] 可选的，为了避免在对多个输入特征进行 FC层的计算过程中多次从 DDR中读取权重系数，造成带宽消耗。可以首先确定完成所有输入特征在 FC层的计算所需的权重系数所占的存储空间的大小，并保证该存储空间小于权重存储器的存储容量，从而可以将所需的权重系数一次性从 DDR中全部读出，并存放在权重存储器中。

[0108] 而当权重存储器无法存储所有的权重系数时，则需要将输出特征中的多个第二特征分量进行分组处理。例如：权重存储器中仅能存储 ciO、 cil、 ...、 ci5在 coO 、 col、 ...、 colOO中的权重系数，则可以先计算 coO、 col、 ...、 co 100,

[0109] 然后再进行 colOl、 col02、、 col27的计算。

[0110] 综上所述，本申请实施例中的全连接层的实现方法的核心思想是：针对每个输出特征，将该输出特征所包含的多个第二特征分量拆分成多个组， FC层对应的多个 PE中每个 PE负责计算其中的一组。从而不仅可以实现多个 PE同步进行多个输入特征的 FC的计算，还可以联合多个 PE对一个输出特征进行计算，达到了复用权重系数的目的。

[0111] 以下通过一个例子来说明本申请实施例中的全连接层的实现方法的完整实施流程。

[0112] 假设供获取到 16个输入特征 TO、 Tl、 ...、 T15。它们分别存储在数据存储器的 batchO、 batchl、 ...、 batchl5中，每个输入特征中分别包括 6个第一特征分量 ciO 、 cil、 …、 ci5 (如图 3所示) 。 TO、 T1、 …、 T15对应的输出特征分别为 P0、 P1 、 ...、 P15 , 每个输出特征包含 128个第二特征分量 coO、 col、 ...、 col27。则具体实施流程如下：

[0113] 1) 将 TO、 T1、 …、 T15按照如下顺序从 batchO、 batchl、 …、 batchl5中读出，并向 PE0、 PE1、 ...、 PE15进行广播中。如图 7所示，相当于将 TO、 T1、 ...、 T15 输入每个 PE中；

[0114] batch0-ci0, batchO-cil , ...,batch0-ci5,

[0115] batch 1-ciO, batch 1-cil , batch l-ci5,

[0116] .

[0117] batch 15-ci0, batch 15-cil , batch 15-ci5。

[0118] 2) 将每个输出特征的 co0、 col、 …、 col27分为 16组 ( 16个 PE) ，其中，第 i 组中包括 CO (i+j*16) ， i=0、 1,2, ...,15 , j=0,l ...,7。则 PEi可以用于计算每个输出特征的 co (i+j*16) ；

[0119] 3) 根据 PEi对应的 co (i+j*16) ，按照如下方案向 PEi输入对应的权重系数。

[0120] ci0-co0 (PE0) , ciO-col (PEi) , ci0-col5 (PE15) ，

[0121] ci0-col6 (PE0) , ci0-col7 (PEi) , ci0-co31 (PE15) ，

[0122] .

[0123] ci0-col l2 (PE0) , ci0-col l3 (PEI) ， …， ci0-col27 (PE15) ，

[0124] cil-coO (PE0) , cil-col (PEi) , cil-col5 (PE15) ，

[0125] cil-col6 (PE0) , cil-col7 (PEI) ， …， cil-co31 (PE15) ，

[0126] .

[0127] ci5-col l2 (PE0) , ci5-col l3 (PEi) , ci5-col27 (PE15)

[0128] 4) 如图 8所示，在 PEi中根据权重系数以及 TO、 Tl、 ...、 T15 , 计算得到 P0、 P

1、 …、 P15中每个输出特征的 co (i+j*16) ;

[0129] 5) 从每个 PE中取出同一个输出特征的 co (i+j*16) 并进行组合从而得到 P0、 P 1、、 P15。

[0130] 在本申请实施例中，获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量，当获取到的所述多个输入特征的总数量达到预设阈值时，首先同时向所述全连接层对应的多个数据处理单元中的每个数据处理单元输入所述多个输入特征；接着获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；然后在所述每个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征所包含的多个第二特征分量的至少一个第二特征分量，最后将每个数据单元所确定的所确定的至少一个第二特征分量进行组合到输入特征。本申请实施例中将一个输出特征拆分成多个特征分量组，每个数据处理单元计算其中一个组，实现了多个数据处理单元联合计算一个输出特征，并且多个数据处理单元中的操作均是并行进行的，达到了复用 FC层权重系数、减少读取权重系数的带宽、以及提高神经网络 MAC 利用率的目的。

[0131] 请参考图 9 , 图 9是本申请实施例提供的一种全连接层的实现装置的结构示意图

。如图所示，本申请实施例中的装置包括：

[0132] 获取模块 901，用于获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量。

[0133] 具体实现中， CNN中包括卷积层、池化层和全连接层。在利用卷积神经网络图像处理的过程中，全连接层可以将经过卷积层和池化层的处理后得到的大量图像特征进行整合，以便对图像进行后续分类或其他处理。因此，可以实时获取 C NN中生成针对的 FC层的输入特征，并将获取到的输入特征存储在数据存储器中，其中，可以将每个输入特征的多个第一特征分量进行批量处理，因此将每个输入特征可以存储在一个 batch中，并且每个第一特征分量占用一个 ci，每个第一特征分量可以为一个数、一个向量、或者一个矩阵等等。

[0134] 传输模块 902, 用于当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征。

[0135] 具体实现中， FC层对应的多个数据处理单元可以用于对多个 batch中的输入特征分别进行 FC层的计算。第一预设阈值可以根据 FC对应的数据处理单元的数量和 /或数据存储器的存储容量来确定。比如： FC对应的数据处理单元为 16个，则第一预设阈值可以为 16

[0136] 当获取到的多个输入特征的总数量达到第一预设阈值时，可以同时向多个数据单元中的每个数据处理单元输入获取到的多个输入特征中的一个输入特征。针对获取到的每个输入特征，可以首先从数据存储读取该输入特征，然后向 FC层对应的多个数据处理单元中的一个数据处理单元输入该输入特征，其中，可以将输入特征存储在数据处理单元的输入数据缓存中。相应地，每个数据处理单元中也仅拥有一个输入特征，并且为了提高乘法累加器的利用率，每个数据处理单元中的输入特征均不相同。

[0137] 可选的，可以同时向多个数据单元中的每个数据处理单元输入获取到的多个输入。针对获取到的每个输入特征，可以首先从数据存储器中读取该输入特征，然后向 FC层对应的多个数据处理单元中的每个数据处理单元输入该输入特征，其中，可以将输入特征存储在数据处理单元的输入数据缓存中。因此，每个数据处理单元拥有获取到的所有的输入特征。

[0138] 获取模块 901 还用于获取所述多个特征分量中每个第二特征分量在所述全连接层的输出特中的权重系数。

[0139] 具体实现中，在 CNN中，可以从 DDR中读取 FC层所需的权重系数，并存储到权重存储器中。其中，输出特征中包含多个第二特征分量，每个第一特征分量对每个第二特征分量均有贡献。因此，获取到的权重系数包括每个第一特征分量在每个第二特征分量中的权重系数。

[0140] 处理模块 903 用于根据所述权重系数和所述多个第一特征分量，并行确定每个输入特征对应的输出特征，其中，处理模块 903中包括全连接层对应的多个数据处理单元。

[0141] 具体实现中，可以首先向数据处理单元逐个广播每个第一特征分量在每个第二特征分量中的权重系数。其中，当 CNN的各项参数确定后，将每个输入特征在 F C层的计算中所需的权重系数是相同的。

[0142] 接着，在每个数据处理单元中，可以根据权重系数，确定输入该数据处理单元的一个输入特征中的每个第一特征分量对该输入特征对应的输出特征包含的多个第二特征分量中的每个第二特征分量的贡献值，其中，贡献值可以为第一特征分量与权重系数的乘积。

[0143] 其中，为了最大程度的复用输入特征中的每个第一特征分量，以及最小化数据处理单元的数据缓存。针对输入特征中的多个第一特征分量，可以首先计算其中一个第一特征分量对输出特征中的每个第二特征分量的贡献值，接着将该第一特征分量从数据处理单元中删除；然后切换到另一个第一特征分量进行计算。也就是说，在将其中一个第一特征分量应用于每个第二特征分量之后，再切换第一特征分量进行计算。

[0144] 然后，根据贡献值，确定输出特征，其中，可以将每个第一特征分量的贡献值的和作为对应的第二特征分量，而多个第二特征分量共同构成了输出特征。

[0145] 可选的，可以首先在每个数据处理单元中，根据每个输入特征中的多个第一特征分量和多个第一特征分量对应的权重系数，确定每个输入特征对应的输出特征所包含的多个第二特征分量中的至少一个第二特征分量。然后将每个数据处理单元所确定的至少一个第一特征分量进行组合得到输出特征。

[0146] 具体地，可以将多个第二特征分量进行编号，并按照编号从小到大的顺序将第二特征分量逐一分配给每个数据处理单元进行处理。其中，每个输出特征所包含的第二特征分量的数量相同。相应地，可以根据在每个数据处理单元中进行处理的第二特征分量，向每个数据处理单元输入对应的权重系数。然后，在每个数据处理单元中，根据权重系数，确定该数据处理单元负责处理的至少一个第二特征分量中的每个第二特征分量。

[0147] 其中，为了最大程度的复用输入特征中的每个第一特征分量，以及最小化数据处理单元的数据缓存。在将其中一个第一特征分量应用于每个第二特征分量之后，再切换第一特征分量进行计算。

[0148] 在本申请实施例中，获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量，当获取到的所述多个输入特征的总数量达到预设阈值时，首先同时向所述全连接层对应的数据处理单元输入所述多个输入特征；接着获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；然后在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。相比于现有技术中每生成一个输入特征就进行 FC 层计算的方法，本申请实施例所述的方法中先将输入特征进行累积，当累积到一定数量之后，再利用多个数据处理单元对多个输入特征进行并向计算的方式。实现了在仅读取一次权重系数的前提下完成对多个输入特征的 FC层的计算，从而达到了复用 FC层权重系数的目的，大大减少了读取权重系数的带宽、以及提高了神经网络 MAC的利用率。此外通过输入特征分量的读取顺序与权重系数的广播顺序的配合，将完成计算的无效数据及时删除，有效减少的数据处理单元中的数据缓存压力。

[0149] 请参考图 10，图 10是本申请实施例提供的一种电子设备的结构示意图。如图所示，该电子设备可以包括：至少一个处理器 1001，例如 CPU，至少一个通信接口 1002, 至少一个存储器 1003，至少一个总线 1004。其中，总线 1004用于实现这些组件之间的连接通信。其中，本申请实施例中电子设备的通信接口 1002是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他节点设备进行信令或数据的通信。存储器 1003可以是高速 RAM存储器，也可以是非不稳定的存储器 (non-volatile memory) ，例如至少一个磁盘存储器。存储器 1003可选的还可以是至少一个位于远离前述处理器 1001的存储装置。存储器 1003中存储一组程序代码，且处理器 1001用于调用存储器中存储的程序代码，用于执行以下操作：

[0150] 获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量；

[0151] 当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；

[0152] 获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；

[0153] 在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。。 [0154] 其中，处理器 1001还用于执行如下操作步骤：

[0155] 同时向所述多个数据处理单元中的每个数据处理单元输入所述多个输入特征中的一个输入特征；

[0156] 其中，处理器 1001还用于执行如下操作步骤：

[0157] 在所述每个数据处理单元中，根据所述一个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的权重系数，确定所述一个输入特征对应的输出特征。

[0158] 其中，处理器 1001还用于执行如下操作步骤：

[0159] 同时向所述多个数据处理单元中的每个数据处理单元输入所述多个输入特征。

[0160] 其中，处理器 1001还用于执行如下操作步骤：

[0161] 在所述每个数据处理单元中，根据所述每个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的所述权重系数，确定所述每个输入特征对应的输出特征所包含的多个第二特征分量中的至少一个第二特征分量；

[0162] 将所述每个数据处理单元所确定的所述至少一个第二特征分量进行组合得到所述每个输入特征对应的输出特征。

[0163] 其中，所述一个输入特征对应的输出特征包括多个第二特征分量；

[0164] 处理器 1001还用于执行如下操作步骤：

[0165] 根据所述多个第一特征分量对应的权重系数，确定所述一个输入特征中的所述每个第一特征分量对所述多个第二特征分量中的每个第二特征分量的贡献值；

[0166] 根据所述贡献值，确定所述一个输入特征对应的输出特征。

[0167] 其中，处理器 1001还用于执行如下操作步骤：

[0168] 从所述每个数据处理单元中删除已确定所述贡献值的第一特征分量。

[0169] 其中，处理器 1001还用于执行如下操作步骤：

[0170] 根据所述多个第一特征分量对应的权重系数，确定所述每个输入特征中的所述每个第一特征分量对所述至少一个第二特征分量中的每个第二特征分量的贡献值；

[0171] 根据所述贡献值，确定所述至少一个第二特征分量。

[0172] 其中，处理器 1001还用于执行如下操作步骤： [0173] 确定存储所述权重系数所需的存储空间；

[0174] 当所述存储空间小于第二预设阈值时，执行所述获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数的操作。

[0175] 需要说明的是，本申请实施例同时也提供了一种存储介质，该存储介质用于存储应用程序，该应用程序用于在运行时执行图 2和图 6所示的一种全连接层的实现方法中电子设备执行的操作。

[0176] 需要说明的是，本申请实施例同时也提供了一种应用程序，该应用程序用于在运行时执行图 2和图 6所示的一种全连接层的实现方法中电子设备执行的操作。

Claims

权利要求书

[权利要求 i] 一种全连接层的实现方法，其特征在于，所述方法包括：

获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量；

当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；

在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征。

[权利要求 2] 如权利要求 1所述的方法，其特征在于，所述同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征包括：

同时向所述多个数据处理单元中的每个数据处理单元输入所述多个输入特征中的一个输入特征；

所述在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的权重系数，并行确定所述每个输入特征对应的输出特征包括：

在所述每个数据处理单元中，根据所述一个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的权重系数确定所述一个输入特征对应的输出特征。

[权利要求 3] 如权利要求 1所述的方法，其特征在于，所述同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征包括：

同时向所述多个数据处理单元中的每个数据处理单元输入所述多个输入特征；

所述在所述多个数据处理单元中，根据所述多个第一特征分量和所述多个第一特征分量对应的所述权重系数，并行确定所述每个输入特征对应的输出特征包括：在所述每个数据处理单元中，根据所述每个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的权重系数，确定所述每个输入特征对应的输出特征所包含的多个第二特征分量中的至少一个第二特征分量；

将所述每个数据处理单元所确定的所述至少一个第二特征分量进行组合得到所述每个输入特征对应的输出特征。

[权利要求 4] 如权利要求 2所述的方法，其特征在于，所述一个输入特征对应的输出特征包括多个第二特征分量；

所述根据所述一个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的权重系数，确定所述一个输入特征对应的输出特征包括：

根据所述多个第一特征分量对应的权重系数，确定所述一个输入特征中的所述每个第一特征分量对所述多个第二特征分量中的每个第二特征分量的贡献值；

根据所述贡献值，确定所述一个输入特征对应的输出特征。

[权利要求 5] 如权利要求 4所述的方法，其特征在于，所述根据所述多个第一特征分量对应的权重系数，确定所述一个输入特征中的所述每个第一特征分量对所述多个第二特征分量中的每个第二特征分量的贡献值之后，还包括：

从所述每个数据处理单元中删除已确定所述贡献值的第一特征分量。

[权利要求 6] 如权利要求 3所述的方法，其特征在于，所述根据所述每个输入特征中的所述多个第一特征分量和所述多个第一特征分量对应的权重系数，确定所述每个输入特征对应的输出特征所包含的多个第二特征分量中的至少一个第二特征分量包括：

根据所述多个第一特征分量对应的权重系数，确定所述每个输入特征中的所述每个第一特征分量对所述至少一个第二特征分量中的每个第二特征分量的贡献值；

根据所述贡献值，确定所述至少一个第二特征分量。

[权利要求 7] 如权利要求 1-6任一项所述的方法，其特征在于，所述获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数之前，还包括：

确定存储所述权重系数所需的存储空间；

当所述存储空间小于第二预设阈值时，执行所述获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数的操作。

[权利要求 8] 一种全连接层的实现装置，其特征在于，所述装置包括：

获取模块，用于获取针对全连接层的多个输入特征，所述多个输入特征中的每个输入特征包括多个第一特征分量；

传输模块，用于当获取到的所述多个输入特征的总数量达到第一预设阈值时，同时向所述全连接层对应的多个数据处理单元输入所述多个输入特征；

所述获取模块，还用于获取所述多个第一特征分量中的每个第一特征分量在所述全连接层的输出特征中的权重系数；处理模块，所述处理模块中包括所述全连接层对应的多个数据处理单元，用于根据所述权重系数和所述多个第一特征分量，并行确定所述每个输入特征对应的输出特征。

[权利要求 9] 一种电子设备，其特征在于，包括：处理器、存储器、通信接口和总线；

所述处理器、所述存储器和所述通信接口通过所述总线连接并完成相互间的通信；

所述存储器存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求 1-7任一项所述的全连接层的实现方法。

[权利要求 10] 一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求 1-7任一项所述的全连接层的实现方法。