WO2023077998A1

WO2023077998A1 - 卷积神经网络中自适应特征融合方法及系统

Info

Publication number: WO2023077998A1
Application number: PCT/CN2022/121730
Authority: WO
Inventors: 罗静; 刘阳; 孔祥斌; 李洪研; 沈志忠; 李洁; 王雪嵩; 马黎文; 陈树骏
Original assignee: 通号通信信息集团有限公司
Priority date: 2021-11-05
Filing date: 2022-09-27
Publication date: 2023-05-11
Also published as: CN114092760A

Abstract

本公开涉及一种卷积神经网络中自适应特征融合方法及系统。方法包括：获取当前特征融合层的各个尺度的特征的权重系数；对当前特征融合层的至少一个尺度的特征的权重系数进行激活和归一化；在当前特征融合层对至少一个尺度的特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合。

Description

卷积神经网络中自适应特征融合方法及系统

技术领域

本公开实施例涉及人工智能技术领域，尤其涉及一种卷积神经网络中自适应特征融合方法及系统、电子设备、计算机可读存储介质。

背景技术

近年来，随着基于卷积神经网络(Convolutional Neural Networks，CNN)的深度学习的应用，计算机视觉领域内的图像分类、目标检测、语义分割等方向的研究都取得了显著的进展。与基于手工特征的算法相比，采用CNN可以学习到具有特定表达能力的特征，因此，CNN被广泛使用在目标检测流程中，用于提取目标特征。

发明内容

本公开实施例提供一种卷积神经网络中自适应特征融合方法及系统、电子设备、计算机可读存储介质，其可以提高特征融合的对于不同训练目标的适应和收敛性，以及深度学习算法的整体精度的同时，能有效节省人力、物力和时间成本。

第一方面，本公开实施例提供一种卷积神经网络中自适应特征融合方法，其包括：获取当前特征融合层的至少一个尺度的特征的权重系数；对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化；在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度。

在一些具体实现中，所述获取当前特征融合层的至少一个尺度的特征的权重系数，包括：

在当前的特征融合层处，对来自不同特征提取层的不同尺度的特征进行融合，将所有尺度的特征对应的卷积图通过下采样或上采样操作缩放到相同大小；

将来自至少一个特征提取层的不同尺度的特征的卷积图分别送往一个轻量级卷积分支；

将不同卷积分支的结果在任意像素位置处的数值，作为当前特征融合层的卷积图像素位置处至少一个尺度的特征的权重系数。

在一些具体实现中，所述对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化，包括：

对当前特征融合层的卷积图上任意像素位置处的至少一个尺度的特征的权重系数进行非线性激活；

对非线性激活后的特征的权重系数进行线性归一化，得到每个尺度的特征的归一化权重系数；

获取当前特征融合层卷积图上全部像素位置处的归一化权重系数。

在一些具体实现中，所述在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，包括：

在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合；

获取当前取特征融合层卷积图上全部像素位置处，每个尺度的特征与其他尺度的特征进行加权融合的结果。

在一些具体实现中，所述在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合，包括：

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数大于或等于全部M个不同尺度的特征的归一化权重系数的均值的情况下，在所述卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果等于其自身；其中，m、M均为大于或等于1的整数。

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值的情况下，依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、M个不同尺度的特征、以及在第l特征融合层的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的加权均值，确定在所述卷积图像素位置处的尺度的特征与其他尺度的特征加权融合后的结果；其中，m、M、l均为大于或等于1的整数。

在一些具体实现中，所述在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合之前，还包括：

依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、特征的数量M，确定加权均值；

其中，所述加权均值为在特征融合层l的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的均值，m、M均为大于或等于1的整数。

在一些具体实现中，所述方法，还包括：

在确定所述第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值，且M等于2的情况下，依据第m个尺度的特征在特征融合层l的卷积图像素位置处的归一化权重系数，和，在第l特征融合层的卷积图像素位置处的2个尺度的特征中与第m个特征不一致的特征，确定在所述卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果。

在一些具体实现中，所述将加权融合后的结果进行拼接，包括：

将特征融合层l的卷积图上来自M个特征提取层的至少一个尺度的特征与其他尺度的特征的加权融合结果，依据预设顺序，在预先设定的维度上进行拼接，获得至少一个尺度的特征的自适应融合结果。

第二方面，本公开实施例提供一种卷积神经网络中自适应特征融合系统，其包括：权重系数获取模块、权重系数激活和归一化模块以及特征加权融合拼接模块；

所述权重系数获取模块，用于获取当前特征融合层的至少一个尺度的特征的权重系数；

所述权重系数激活和归一化模块，用于对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化；

所述特征加权融合拼接模块，用于在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度。

第三方面，本公开实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本公开实施例任意一种卷积神经网络中自适应特征融合方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本公开实施例任意一种卷积神经网络中自适应特征融合方法。

在本公开实施例中，通过获取当前特征融合层的至少一个尺度的特征的权重系数；对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化；在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度；能够依靠轻量级的卷积分支以及简单的计算过程，实现在基于向量拼接(concat)的特征融合模式下的自适应特征融合，以此提高卷积神经网络对于不同训练目标的适应和收敛性，从而提升深度学习算法的整体精度。

进一步地，通过非线性激活和线性归一化操作，保证至少一个尺度的特征的权重系数的数值均位于0到1之间且相加之和等于1，特别是利用非线性激活函数的饱和区，避免了数值较大的那些权重系数之间的差距被过快地进一步放大在训练中引发的剧烈震荡，再利用线性归一化降低运算量，提高了权重系数计算的稳定性和效率。通过其轻量级的卷积分支将生成至少一个尺度特征的权重系数的损失与整个卷积神经网络整合到一起，参与端到端训练，在训练过程中无需根据中间结果进行复杂的样本标定或参数调整等额外的人工操作。并且，可方便的嵌套在目标检测、跟踪、语义分割等含有特征融合结构的算法的卷积神经网络中，其对相关算法精度的提升并未以大幅度牺牲运行速度为代价，轻量级的卷积分支结构和简单高效的特征加权融合计算保证了加入本申请后的算法的运行速度接近于相应的原始算法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

图1为本公开实施例提供的一种卷积神经网络中自适应特征融合方法的流程示意图。

图2为本公开实施例提供的一种特征融合层对至少一个尺度的特征进行加权融合的方法的流程示意图。

图3为本公开实施例提供的一种在特征融合层对至少一个尺度的特征进行加权融合和拼接的原理的示意图。

图4为本公开实施例提供的一种卷积神经网络中自适应特征融合系统的组成方框图。

图5为本公开实施例提供的一种电子设备的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例的附图，对本申请实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于所描述的本申请的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

目标检测的解决方案通常采用两种主流框架：一种是以R-CNN、Fast-RCNN、Faster-RCNN和R-FCN等为代表的双阶段检测框架(Two-stage Detection Frameworks)，另一种是以YOLO(You Only Look Once)算法(即神经网络只需要看一次图片，就能输出结果)、单步检测(Single Shot Detector，SSD)算法、Retina-Net算法等为代表的单阶段检测框架(One-stage Detection Frameworks)。

在以目标检测、跟踪、语义分割等为目标的深度学习算法的卷积神经网络中，针对来自不同特征提取层的各个尺度的特征，基于向量拼接(concat)特征融合模式，会造成因人为强制各个尺度的特征以均等的权重参与特征融合，无法避免相邻特征提取层对应的检测器的训练目标之间产生矛盾，从而不利于提高含有特征融合的卷积神经网络对于不同训练目标的适应性和收敛性，降低了深度学习算法的卷积神经网络的精度。

特别是单阶段检测框架,由于其具有速度上的巨大优势，从而在工业中得到了更为广泛的应用。在单阶段检测框架中，为了提高检测精度，SSD创造性地尝试分别从由低到高的多个不同卷积层，平行地提取不同尺度的特征，来分别应对不同大小的目标的检测的方法，从而取得了显著优于此前以YOLO为代表的只从末尾的单个卷积层提取特征的单阶段框架的成绩。然而，单阶段检测框架因为自身网络结构和工作原理限制，难以做到类似Faster RCNN一样利用级联的多次检测机会，在卷积图中通过初步检测切割出可能存在目标的感兴趣的区域，再把该区域的卷积图归一化到指定大小后作为后续检测的初始输入，从而以逐步递进的方式精确的将检测器的感受野与目标特征的尺度进行匹配，最终导致其在对不同大小的目标的适应性上弱于双阶段检测框架。近期，随着以Retina-Net为代表的使用基于特征金字塔网络(Feature Pyramid Network，FPN)的结构，分多层提取不同尺度的特征信息，利用下采样和上采样通路(top-down pathway)将不同尺度的特征信息对应的卷积图调整到相同大小，最终将其中的深层语义信息和浅层位置信息进行融合方法，逐渐成为单阶段检测框架的常用配置，单阶段检测框架对目标尺度的适应能力有了显著的提高。在特征金字塔结构中，典型的特征融合方法包括对来自网络中不同卷积层各个尺度的特征的卷积图进行以像素为单位的对位相加(element-wise)的模式进行特征融合，或将来自网络中不同卷积层各个尺度的特征的卷积图进行向量拼接(concat)的模式进行特征融合等。

带有特征金字塔的单阶段检测框架，将检测不同大小的目标的检测器分别连接在相应特征尺度的特征提取卷积层(以下简称：相应尺度的特征提取层)，会导致如下问题：在训练过程中因为强制将目标样本按照目标标定框大小对应到相应尺度的特征提取层后面的检测器，因而,尽管与之相邻尺度的特征提取层在原始图像的目标位置处也可提取出一部分目标特征，但是该类算法强制的让这些相邻尺度的特征提取层后面的检测器将目标及其类别的特征判断为不存在，最终使检测器对于目标种类的判断不准确，并对目标的位置的回归存在偏差；进一步还会，导致算法的训练难以收敛。为了解决上述问题，已经有研究者针对各层特征融合时将不同尺度特征对应的卷积图像素对位相加的element-wise模式，提出了由数据驱动的能够灵活改变不同尺度的特征的权重的特征融合策略，即自适应空间特征融合的目标检测(Adaptively Spatial Feature Fusion，ASFF)策略。ASFF策略通过一系列可学习的参数，自适应的学习和调整卷积图上每个位置处来自各个特征提取层的不同尺度的特征在卷积神经网络的正向特征融合中的权重，有效地缓解了在反向误差传播阶段相邻特征提取层对应的检测器的训练目标之间的矛盾，采用这种方法的YOLOv3等经典算法在MS COCO数据集上实现了比标准版本更好的速度与精度的折中。

在自适应空间特征融合(ASFF)方法中，对于特征融合层l的卷积图上的每一个像素(i，j)，自适应地学习来自各个特征提取层的不同尺度的特征(该方法一共使用了3个尺度的特征)在该像素位置处的权重。假设

代表深度学习网络中从第n层到第l层的特征向量在第l层卷积图的像素(i，j)位置处的数值，则在特征融合层l的卷积图处融合后的结果在像素(i，j)位置处的数值

可以用以下公式计算：

其中，

分别代表来自3个特征提取层的不同尺度的特征在特征融合层l卷积图的像素(i，j)位置处进行自适应融合时候的归一化权重系数。其中，i、j均为大于或等于1的整数。

该方法通过在3个特征提取层后面各自增加一个额外的卷积分支，分别获得3个卷积图，并将3个卷积图中像素(i，j)位置处的数值

作为3个尺度的特征的权重系数，再利用softmax公式进行归一化，将各个权重系数自身的取值归一化到[0,1]区间，并将各个权重系数相加的和归一化到1，最终获得3个尺度的特征进行特征融合时的归一化的权重系数

其中，e ^x表示以常数e为底数的指数函数，其中，x可以为

等权重系数。

通过上述操作，来自不同尺度的特征就可以在任意一个特征融合层l进行自适应的融合，而融合后的结果

可以被用作后续的检测器的初始输入，来进一步提高检测精度。

随着特征融合技术的发展，在以YOLOV4为代表的越来越多的新一代目标检测算法逐渐证明，将来自网络中来自不同特征提取层的各个尺度的特征进行向量拼接的concat模式由于更完整地保留了各个尺度特征的细节信息，从而基于向量拼接模式的特征融合对提高后续目标检测等任务的精度的效果，显著优于传统的对各个尺度的特征进行以像素为单位的对位相加的模式。然而，现有的自适应空间特征融合(ASFF)方法，只能应用于传统的基于以像素为单位的对位相加的特征融合模式，无法用于上述基于向量拼接的模式。目前，针对上述基于向量拼接的特征融合模式，还无法自适应调整不同尺度特征的权重的特征融合方法，采用人为强制各个尺度的特征以均等的权重进行拼接并参与特征融合，无法避免相邻特征提取层对应的检测器的训练目标之间产生矛盾，不利于提高含有特征融合结构的卷积神经网络对于不同训练目标的适应性和收敛性，最终影响对待检测目标的检测精度。

本申请提供的卷积神经网络中自适应特征融合方法及系统，用于深度学习的卷积神经网络中的依靠自适应的权重来进行特征融合，其主要步骤包括：获取当前特征融合层的各个尺度的特征的权重系数；对当前特征融合层的各个尺度的特征的权重系数进行激活和归一化；在当前特征融合层对各个尺度的特征进行加权融合；在当前特征融合层对各个尺度的特征加权融合后的结果进行拼接；获取卷积神经网络中全部特征融合层的自适应特征融合结果。本申请利用轻量级的卷积分支的结果，结合激活和归一化等操作，为来自各个特征提取层的不同尺度的特征生成归一化权重系数，再利用归一化权重系数对各个尺度的特征进行自适应的加权融合和拼接，从而解决了向量拼接模式下的自适应特征融合问题，在提高卷积神经网络对于不同训练目标的适应性和收敛性，以及深度学习算法的整体精度的同时，能有效节省人力、物力和时间成本。

本申请中的卷积神经网络中自适应特征融合方法可以广泛应用在目标检测、跟踪、语义分割等人工智能技术领域中。

第一方面，本公开实施例提供一种卷积神经网络中自适应特征融合方法。本公开实施例的卷积神经网络中自适应特征融合方法可由相应的卷积神经网络中自适应特征融合装置执行，该装置可采用软件和/或硬件的方式实现，一般可集成于电子设备中。

在本申请的一个实施例中，提供一种卷积神经网络中自适应特征融合方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例利用轻量级的卷积分支，在卷积神经网络的特征融合层处，为来自各个特征提取层的不同尺度的特征生成权重系数，并通过非线性激活和归一化操作，保证各个权重系数的数值均位于0到1之间且相加之和等于1，再利用上述权重系数分别将每个尺度的特征与其他尺度的特征进行加权融合，最后对各个尺度的特征加权融合后的结果进行拼接，获得自适应特征融合结果。上述方法解决了卷积神经网络中基于向量拼接模式的特征融合操作中的自适应特征融合问题，在不显著增加运算复杂度的前提下提高了特征融合的精度，并以此提升深度学习算法的整体性能。

图1示出本申请实施例中的卷积神经网络中自适应特征融合方法的流程示意图。如图1所示，本实施例中，该方法包括以下步骤：

步骤S110，获取当前特征融合层的至少一个尺度的特征的权重系数。

例如，该权重系数的获取方式包括：在当前的特征融合层处，对来自不同特征提取层的不同尺度的特征进行融合，将所有尺度的特征对应的卷积图通过下采样或上采样操作缩放到相同大小；将来自至少一个特征提取层的不同尺度的特征的卷积图分别送往一个轻量级卷积分支；将不同卷积分支的结果在任意像素位置处的数值，作为当前特征融合层的卷积图像素位置处至少一个尺度的特征的权重系数。

假设在卷积神经网络中当前的特征融合层l处，需要对来自M个不同特征提取层的M个尺度的特征进行融合，将所有尺度的特征对应的卷积图通过下采样或上采样操作缩放(resize)到相同大小，然后将来自至少一个特征提取层的不同尺度的特征的卷积图分别送往一个卷积核大小为1*1的轻量级卷积分支，并将上述M个卷积分支的结果在任意像素(i，j)位置处的数值，作为特征融合层l的卷积图像素(i，j)位置处至少一个尺度的特征的权重系数λ _l，1，ij，λ _l，2，ij，...，λ _l，M，ij，M为大于或等于1的整数。

上述轻量级卷积分支通过由其结果计算出的权重系数，经过上述激活和归一化操作后，以影响特征融合层对来自至少一个特征提取层的特征的加权融合结果的方式，参与深度学习基础网络训练过程中的反向误差传播，整个训练过程为端到端模式，不需要额外的人工干预(例如额外标注样本或指定超参数等)。

步骤S120，对当前特征融合层的至少一个尺度的特征的权重系数进行激活和归一化。

例如，步骤S120可采用如下方式实现：对当前特征融合层的卷积图上任意像素位置处的至少一个尺度的特征的权重系数进行非线性激活；对非线性激活后的特征的权重系数进行线性归一化，得到每个尺度的特征的归一化权重系数；获取当前特征融合层卷积图上全部像素位置处的归一化权重系数。

具体地，为了避免至少一个尺度的特征的权重系数中那些数值较大的之间的差距被过快地进一步放大，从而导致训练过程出现不稳定的震荡，同时也为了保证至少一个尺度的特征的权重系数均大于0，使用非线性激活函数Sigmoid对每个尺度的特征的权重系数进行非线性激活，使得激活后的权重系数在取值范围中心点附近的变化呈现较为迅速的线性趋势；而在远离中心点的区域，呈现较为缓慢的非线性饱和趋势。以第m个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的权重系数λ _l，m，ij为例，使用下列公式获得其激活权重系数

重复上述过程，获得特征融合层l的卷积图像素(i，j)位置处，每个尺度的特征的激活权重系数

其中，m∈[1，...，M]。

由于已经通过非线性激活函数的饱和区，避免了数值较大的权重系数之间的差距被过快地进一步放大在训练中引发的剧烈震荡，并且保证了至少一个尺度的特征的非线性激活权重系数的数值均大于零，因此本步骤直接采用线性归一化来保证在卷积图像素(i，j)位置处来自不同尺度的特征的权重系数相加之和等于1。本申请不使用以ASFF等算法的SoftMax为代表的非线性归一化函数的原因包括降低运算量，并且避免对非线性激活函数的饱和区发挥作用产生负面影响。以第m个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的激活权重系数

为例，使用下列公式获得其归一化权重系数α _l，m，ij：

其中，m∈[1，...，M]，n表示特征的尺度的序号，n∈[1，...，M]。由于至少一个尺度的特征的激活权重系数的数值均大于零，因此不存在令上述公式的分母等于0的情况。

重复上述过程，获得特征融合层l的卷积图像素(i，j)位置处，每个尺度的特征的归一化权重系数α _l，1，ij，α _l，2，ij，...，α _l，M，ij。

在特征融合层l的卷积图的每个像素位置处重复上述操作，直到获得全部像素位置处的归一化权重系数。

步骤S130，在当前特征融合层对至少一个尺度的特征进行加权融合。

步骤S140，将加权融合后的结果进行拼接，得到自适应特征融合结果。

其中，加权融合后的结果是在当前特征融合层对至少一个尺度的特征加权融合后的结果。自适应特征融合结果可以包括多个特征融合层的自适应特征融合结果。

在一些具体实现中，可以对全部特征融合层分别进行判断，以确定是否已获得全部特征融合层的自适应特征融合结果。

在确定已获得全部特征融合层的自适应特征融合结果的情况下，结束流程，并确定完成卷积神经网络中自适应特征融合，从而提高检测精度；否则，返回执行步骤S110，继续获取当前特征融合层的至少一个尺度的特征的权重系数。

重复步骤S110至步骤S140，在卷积神经网络中每个需要进行特征融合的特征融合层，直到获得全部特征融合层处的自适应特征融合结果。

在本实施例中，通过获取当前特征融合层的至少一个尺度的特征的权重系数；对当前特征融合层的至少一个尺度的特征的权重系数进行激活和归一化；在当前特征融合层对至少一个尺度的特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度；能够依靠轻量级的卷积分支以及简单的计算过程，实现在基于向量拼接的特征融合模式下的自适应特征融合，以此提高卷积神经网络对于不同训练目标的适应和收敛性，从而提升深度学习算法的整体精度。

在一些具体实现中，步骤S130中的在当前特征融合层对至少一个尺度的特征进行加权融合，可以采用如下方式实现。

图2为本公开实施例提供的一种特征融合层对至少一个尺度的特征进行加权融合的方法的流程示意图。如图2所示，该方法包括但不限于如下步骤：

步骤S131，在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合。

步骤S132，获取当前取特征融合层卷积图上全部像素位置处，每个尺度的特征与其他尺度的特征进行加权融合的结果。

在特征融合层l的卷积图的每个像素位置处重复步骤S131中的操作，直到获得全部像素位置处的每个尺度的特征与其他尺度的特征进行加权融合的结果。

在一些具体实现中，步骤S131中的在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合，包括：

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数大于或等于全部M个不同尺度的特征的归一化权重系数的均值的情况下，在卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果等于其自身；其中，m、M均为大于或等于1的整数。

例如，在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合，包括：如果第m个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的归一化权重系数α _l，m，ij大于或等于全部M个不同尺度的特征的归一化权重系数的均值1/M，则在(i，j)位置处的该尺度的特征与其他尺度的特征加权融合后的结果

等于其自身。

利用特征融合层l的卷积图像素(i，j)位置处的M个尺度的特征的归一化权重系数α _l，1，ij，α _l，2，ij，...，α _l，M，ij，对每个尺度的特征x′ _l，1，ij，x′ _l，2，ij，...，x′ _l，M，ij进行加权融合。对于上述任意第m(m∈[1，...，M])个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的数值x′ _l，m，ij，加权融合的具体方法如下：

如果第m个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的归一化权重系数 α _l，m，ij大于或等于全部M个尺度的特征的归一化权重系数的均值1/M，则在(i，j)位置处的该尺度的特征与其他尺度的特征加权融合后的结果

等于其自身。

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值的情况下，依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、M个不同尺度的特征、以及在第l特征融合层的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的加权均值，确定在卷积图像素位置处的尺度的特征与其他尺度的特征加权融合后的结果；其中，m、M、l均为大于或等于1的整数。

例如，如果第m个尺度的特征在特征融合层l的卷积图像素(i，j)位置处的归一化权重系数α _l，m，ij小于全部M个尺度的特征的归一化权重系数的均值1/M，则在(i，j)位置处的该尺度的特征x _l，m，ij与其他尺度的特征加权融合后的结果

可以使用下列公式计算。

其中，

代表在特征融合层l的卷积图像素(i，j)位置处的其他尺度的特征中，所有归一化权重系数大于1/M的特征的加权均值。

在一些具体实现中，在执行步骤S131中的在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合之前，还包括：

依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、特征的数量M，确定加权均值。

其中，加权均值为在特征融合层l的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的均值，m、M均为大于或等于1的整数。

例如，加权均值可以通过下列公式(7)计算获得：

其中，Max[*，*]表示在括号中的两者之间取较大的一个的数值。n表示尺度的特性的序号，如，第n个尺度的特征。

因为该公式被执行的前提条件就是第m个尺度的特征的非线性激活归一化权重系数α _l，m，ij小于1/M，所以全部尺度的特征中至少有一个的非线性激活归一化权重系数α _l，m，ij大于1/M，即不存在令上述公式的分母等于0的情况。

在一些具体实现中，卷积神经网络中自适应特征融合方法，还包括：在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值，且M等于2的情况下，依据第m个尺度的特征在特征融合层l的卷积图像素位置处的归一化权重系数，和，在第l特征融合层的卷积图像素位置处的2个尺度的特征中与第m个特征不一致的特征，确定在卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果。

特别的，当不同尺度的特征的个数M等于2时，公式(6)可以进一步简化为下列形式：

其中，x _{l，n≠m，ij}表示在特征融合层l的卷积图像素(i，j)位置处的2个尺度的特征中，与第m个不一致的那一个，此时不需要使用公式(7)进一步计算所有归一化权重系数大于1/M的特征的加权均值。

在特征融合层l卷积图像素(i，j)位置处，对于每个尺度的特征重复执行步骤S131的操作，直到获得每个尺度的特征与其他尺度的特征进行加权融合的结果。

在一些具体实现中，步骤S140中的将加权融合后的结果进行拼接，可用采用如下方式实现：

例如，在当前特征融合层对至少一个尺度的特征加权融合后的结果进行拼接，包括：

将特征融合层l的卷积图上来自M个特征提取层的至少一个尺度的特征与其他尺度的特征的加权融合结果，按照1，...，M的顺序，在预先设定的维度上进行拼接，获得至少一个尺度的特征的自适应融合结果Y _l。

Y _l＝(X _l，1，X _l，2，...，X _l，M) (9)

其中，X _l，1，X _l，2，...，X _l，M分别是特征融合层l处，每个尺度的特征在自身卷积图中所有像素位置处与其他尺度的特征进行加权融合的结果的数值组成的向量矩阵，将上述至少一个向量矩阵在预先设定的维度上进行concat模式的拼接，形成的新向量矩阵Y _l即为特征融合层l的至少一个尺度的特征的自适应特征融合结果。

例如，图3为本公开实施例提供的一种在特征融合层对至少一个尺度的特征进行加权融合和拼接的原理的示意图。如图3所示，尺度包括3种：即尺度1、尺度2和尺度3。

在基础网络中，通过对图像进行下采样，获得多个采样后的图像；然后针对每个采样后的图像进行特征提取(如，图3所示的特征提取1、特征提取2、特征提取3等)，获得卷积图；将来自至少一个特征提取层的不同尺度的特征的卷积图分别送往不同的特征融合层。

其中，在特征融合层3处，对来自不同特征提取层的不同尺度(如，尺度1、尺度2和尺度3)的特征进行融合，并将融合后的特征图输入到检测器3中进行检测；

同样的，在特征融合层2处，对来自不同特征提取层的不同尺度(如，尺度1、尺度2和尺度3)的特征进行融合，并将融合后的特征图输入到检测器2中进行检测；在特征融合层1处，对来自不同特征提取层的不同尺度(如，尺度1、尺度2和尺度3)的特征进行融合，并将融合后的特征图输入到检测器1中进行检测，从而获得卷积神经网络中的自适应特征融合结果。

其中，在特征融合层中，会针对尺度1、2、3的特征各自的特征融合结果之间的向量矩阵拼接操作，从而获得拼接后的自适应特征融合结果。

例如，在特征融合层1的拼接过程中，在尺度1的特征融合结果的向量(i，j)位置处，需要判断尺度1的特征的归一化权重系数α _1，1，ij是否大于或等于1/3；在确定α _1，1，ij大于或等于1/3的情况下，计算尺度1的特征数值；在确定α _1，1，ij小于1/3的情况下，计算尺度1的特征数值为：(3*α _1，1，ij)*尺度1的特征数值+(1-3*α _1，1，ij)*归一化权重系数大于1/3的特征的加权均值。

应当理解，以上实施例还可与本公开实施例的其它任意方式结合使用。以上实施例只是本公开的一个具体例子，而不是对本公开保护范围的限定。

第二方面，本公开实施例提供一种卷积神经网络中自适应特征融合系统。图4为本公开实施例提供的一种卷积神经网络中自适应特征融合系统的组成方框图。如图4所示，该卷积神经网络中自适应特征融合系统包括但不限于如下模块：权重系数获取模块401、权重系数激活和归一化模块402以及特征加权融合拼接模块403；

权重系数获取模块401，用于获取当前特征融合层的至少一个尺度的特征的权重系数。

权重系数激活和归一化模块402，用于对当前特征融合层的至少一个尺度的特征的权重系数进行激活和归一化。

特征加权融合拼接模块403，在当前特征融合层对至少一个尺度的特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

第三方面，图5为本公开实施例提供的一种电子设备的框图。如图5所示，该电子设备包括：至少一个处理器501；至少一个存储器502，以及一个或多个I/O接口503，连接在处理器501与存储器502之间；其中，存储器502存储有可被至少一个处理器501执行的一个或多个计算机程序，一个或多个计算机程序被至少一个处理器501执行，以使至少一个处理器501能够执行上述的卷积神经网络中自适应特征融合方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的卷积神经网络中自适应特征融合方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述卷积神经网络中自适应特征融合方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读存储介质上，计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。

如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种卷积神经网络中自适应特征融合方法，其特征在于，包括：

获取当前特征融合层的至少一个尺度的特征的权重系数；

对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化；

在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合。
根据权利要求1所述的方法，其特征在于，所述获取当前特征融合层的至少一个尺度的特征的权重系数，包括：

在当前的特征融合层处，对来自不同特征提取层的不同尺度的特征进行融合，将所有尺度的特征对应的卷积图通过下采样或上采样操作缩放到相同大小；

将来自至少一个特征提取层的不同尺度的特征的卷积图分别送往一个轻量级卷积分支；

将不同卷积分支的结果在任意像素位置处的数值，作为当前特征融合层的卷积图像素位置处至少一个尺度的特征的权重系数。
根据权利要求1所述的方法，其特征在于，所述对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化，包括：

对当前特征融合层的卷积图上任意像素位置处的至少一个尺度的特征的权重系数进行非线性激活；

对非线性激活后的特征的权重系数进行线性归一化，得到每个尺度的特征的归一化权重系数；

获取当前特征融合层卷积图上全部像素位置处的归一化权重系数。
根据权利要求1所述的方法，其特征在于，所述在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，包括：

在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合；

获取当前取特征融合层卷积图上全部像素位置处，每个尺度的特征与其他尺度的特征进行加权融合的结果。
根据权利要求4所述的方法，其特征在于，所述在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合，包括：

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数大于或等于全部M个不同尺度的特征的归一化权重系数的均值的情况下，在所述卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果等于其自身；其中，m、M均为大于或等于1的整数。
根据权利要求4所述的方法，其特征在于，所述在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合，包括：

在确定第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值的情况下，依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、M个不同尺度的特征、以及在第l特征融合层的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的加权均值，确定在所述卷积图像素位置处的尺度的特征与其他尺度的特征加权融合后的结果；其中，m、M、l均为大于或等于1的整数。
根据权利要求6所述的方法，其特征在于，所述在当前特征融合层的卷积图上任意像素位置处分别将每个尺度的特征与其他尺度的特征进行加权融合之前，还包括：

依据第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数、特征的数量M，确定加权均值；

其中，所述加权均值为在特征融合层l的卷积图像素位置处的其他尺度的特征中所有归一化权重系数大于1/M的特征的均值，m、M均为大于或等于1的整数。
根据权利要求6所述的方法，其特征在于，所述方法，还包括：

在确定所述第m个尺度的特征在第l特征融合层的卷积图像素位置处的归一化权重系数小于全部M个不同尺度的特征的归一化权重系数的均值，且M等于2的情况下，依据第m个尺度的特征在特征融合层l的卷积图像素位置处的归一化权重系数，和，在第l特征融合层的卷积图像素位置处的2个尺度的特征中与第m个特征不一致的特征，确定在所述卷积图像素位置处的该尺度的特征与其他尺度的特征加权融合后的结果。
根据权利要求1所述的方法，其特征在于，所述将加权融合后的结果进行拼接，包括：

将特征融合层l的卷积图上来自M个特征提取层的至少一个尺度的特征与其他尺度的特征的加权融合结果，依据预设顺序，在预先设定的维度上进行拼接，获得至少一个尺度的特征的自适应融合结果。
一种卷积神经网络中自适应特征融合系统，其特征在于，所述系统包括：权重系数获取模块、权重系数激活和归一化模块以及特征加权融合拼接模块；

所述权重系数获取模块，用于获取当前特征融合层的至少一个尺度的特征的权重系数；

所述权重系数激活和归一化模块，用于对所述当前特征融合层的至少一个尺度的所述特征的所述权重系数进行激活和归一化；

所述特征加权融合拼接模块，用于在所述当前特征融合层对至少一个尺度的所述特征进行加权融合，并将加权融合后的结果进行拼接，得到自适应特征融合结果，完成卷积神经网络中自适应特征融合，提高检测精度。
一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一所述的卷积神经网络中自适应特征融合方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至9中任一所述的卷积神经网络中自适应特征融合方法。