WO2021244621A1

WO2021244621A1 - 基于全局引导选择性上下文网络的场景语义解析方法

Info

Publication number: WO2021244621A1
Application number: PCT/CN2021/098192
Authority: WO
Inventors: 刘静; 付君; 徐溢璇
Original assignee: 华为技术有限公司; 中国科学院自动化研究所
Priority date: 2020-06-04
Filing date: 2021-06-03
Publication date: 2021-12-09
Also published as: CN113761976A

Abstract

一种基于全局引导选择性上下文网络的场景语义解析方法，该网络包括主干网络(110)、上下文选择网络(120)和像素分类网络(130)，其中，主干网络(110)接收输入数据源图像并进行逐层地特征提取，并将不同层提取的初级特征图(11)输入至上下文选择网络(120)；上下文选择网络(120)通过基于全局信息引导的注意力机制来得到不同像素位置处融合全局上下文和局部上下文的融合权重因子，根据权重因子对初级特征图(11)中的每个像素实现自适应地融合全局上下文和局部上下文得到高分辨率且语义表达鲁棒的次级特征图(12)；最后像素分类网络(130)对次级特征图(12)进行逐像素的分类得到准确的场景语义解析结果，提升了场景语义解析的精度。

Description

基于全局引导选择性上下文网络的场景语义解析方法

本申请要求于2020年06月04日提交中国专利局、申请号为202010499367.8、申请名称为“基于全局引导选择性上下文网络的场景语义解析方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及场景语义解析领域，特别涉及一种基于全局引导选择性上下文网络的场景语义解析方法。

背景技术

场景语义解析是一个广泛应用于场景理解、自动驾驶、图像编辑等人工智能(Artificial Intelligence，AI)领域的重要技术课题，在计算机视觉领域属于场景语义分割分支，旨在将输入数据源图像中的每一个像素进行类别定义(分类)，从而对图像的不同语义区域进行分割。其作为图像语义理解中最细粒度的表达，具有广泛的应用价值。例如，在手机拍照方面，通过对拍摄场景的物体进行识别和定位，精细地分割出感兴趣的区域，然后进行后续的图像编辑与处理，从而实现不同的视觉效果。在自动驾驶领域，对于对车辆行驶场景的精细识别，实现车道线的检测并由此确定可行驶区域；通过识别交通标志和障碍物，可以辅助车辆行驶决策进行障碍物避让等等。当然还有视频分析、遥感图像分析、医学图像分析领域都有广泛的应用。

当前主要的做法是全卷积神经网络(Fully Convolutional Network，FCN)，其通过输入任意尺寸的图像，输出图像中每个像素所属类别的概率，并通过端到端的学习方式，得到图像语义分割结果。FCN在场景解析任务中取得一定的成功，但仍然面临一些基本问题，主要表现在两个方面：一个是网络输出特征的有效感受野有限，无法充分捕获具有判别力区域的信息，导致目标区域内像素分类不一致；另一个是网络中的连续下采样操作使得输出特征损失空间细节信息，进而导致分割结果中目标边缘粗糙或者细小目标丢失；这两个方面因素的存在都会影响场景语义解析的精度。

此外，由于输入数据源图像中的光照、尺度等因素的影响，使得跨越“语义鸿沟”来对图像像素的准确类别分类具有一定挑战性，难以做到精准的场景解析。对于图像中非显著的(例如尺度较小等)物体，由于特征信息较少，使得可以提取的特征信息十分有限，从而导致对于这些小物体的分割就变得尤其困难。对于图像的尺度较大的目标，仅仅依靠局部上下文信息也难以对其进行准确的识别。

发明内容

本申请提供了一种基于全局引导选择性上下文网络的场景语义解析方法，可以提高场景语义解析的精度。

为解决上述技术问题，第一方面，本申请的实施方式提供了一种基于全局引导选择性上下文网络的场景语义解析方法，其中，全局引导选择性上下文网络包括主干网络、上下文选择网络和像素分类网络，该方法包括：主干网络接收输入数据源图像，对输入数据源图像进行逐层地特征提取得到至少一个初级特征图，并将至少一个初级特征图输入至上下文选择网络；上下文选择网络对至少一个初级特征图进行基于全局信息引导的注意力机制来得到至少一个初级特征图的不同像素位置处融合全局上下文和局部上下文的权重因子，并根据权重因子对至少一个初级特征图中的每个像素实现自适应地融合全局上下文和局部上下文，以得到次级特征图，并将次级特征图输入至像素分类网络；像素分类网络对次级特征图进行逐个像素的分类得到场景语义解析结果。

上下文选择网络可以同时考虑不同位置的像素识别对于全局上下文和局部上下文的利用需求，通过基于全局信息引导的注意力机制来确定图像中大尺度目标和细小目标的区域，并以此来针对性地融合全局上下文信息和局部上下文信息，进而促使大尺度目标的特征能得到更大的感受野从而能被准确识别以及减少局部感受野的误导，而细小目标则侧重得到局部感受野从而更精细化的得到分割以及避免其他大尺度目标信息的误导，最终能提升场景语义解析的精度。

在上述第一方面的一种可能的实现中，主干网络为图像分类网络，主干网络包括至少一个主干网络模块，主干网络模块用于输出初级特征图，上下文选择网络包括至少一个上下文选择块；该方法还包括：主干网络模块对输入数据源图像进行逐层地特征提取得到并输出初级特征图至上下文选择块；上下文选择块对初级特征图进行全局上下文的选择和局部上下文的选择的融合得到次级特征图。

在上述第一方面的一种可能的实现中，上下文网络可以通过对初级特征图进行前述选择性地融合上下文信息，先得到选择特征图，再得到高分辨率且语义表达鲁棒的次级特征图。

在上述第一方面的一种可能的实现中，图像分类网络可以是残差网络及其变体网络，也可以是其他类型的网络等。

在上述第一方面的一种可能的实现中，主干网络包括n+1个不同空间分辨率的主干网络模块，上下文选择网络包括n个上下文选择块，n为大于等于3的正整数；该方法还包括：第1主干网络模块根据输入数据源图像输出第1初级特征图，并将其输入至第2主干网络模块和第n上下文选择块；第i主干网络模块根据第i-1初级特征图输出第i初级特征图至下一级主干网络模块以及输入至对应的第n+1-i上下文选择块，2≤i≤n；第n+1主干网络模块根据第n初级特征图输出第n+1初级特征图，并将其输入至第1上下文选择块；第1上下文选择块对接收到的第n+1初级特征图和第n初级特征图进行全局上下文的选择和局部上下文的选择，输出第1选择特征图后并将其输入至第2上下文选择块；第i上下文选择块对接收到的第i-1选择特征图和第n+1-i初级特征图进行全局上下文的选择和局部上下文的选择，输出第i选择特征图，并将其输入至下一级上下文选择块，2≤i≤n-1；第n上下文选择块对接收到的第n-1选择特征图和第1初级特征图进行全局上下文的选择和局部上下文的选择，输出第n选择特征图并将其作为次级特征图。

在上述第一方面的一种可能的实现中，上下文选择块包括基于全局信息引导的全局上下文模块、基于全局信息引导的局部上下文模块和融合模块；该方法还包括：全局上下文模块对输入至全局上下文模块的输入数据的全局上下文根据全局信息引导的注意力机制，自适应地融合到输入数据的不同像素处，得到具有全局上下文信息的输出数据；局部上下文模块对输入至局部上下文模块的输入数据的局部上下文根据全局信息引导的注意力机制，自适应地进行融合处理，得到具有局部上下文信息的输出数据；融合模块根据全局上下文模块的输出数据和局部上下文模块的输出数据，进行拼接融合输出选择特征图。

在上述第一方面的一种可能的实现中，局部上下文模块的输入数据包括选择特征图和初级特征图，例如第1上下文选择块中的局部上下文模块将接收到的第n+1初级特征图和第n初级特征图作为第1局部上下文模块的输入数据，则局部上下文模块对输入数据进行自适应地融合处理可以是将第n初级特征图的局部上下文自适应融合到第n+1初级特征图的不同像素处。第i上下文选择块中的局部上下文模块将接收到的第i-1选择特征图和第n+1-i初级特征图作为第i局部上下文模块的输入数据，则局部上下文模块对输入数据进行融合处理可以是将初级特征图的局部上下文自适应融合到选择特征图的不同像素处。其中，2≤i≤n。

在上述第一方面的一种可能的实现中，第1上下文选择块中的全局上下文模块将接收到的第n+1初级特征图作为第1全局上下文模块的输入数据，并得到第1全局上下文模块的输出数据；第1上下文选择块中的局部上下文模块将接收到的第n+1初级特征图和第n初级特征图作为第1局部上下文模块的输入数据，并得到第1局部上下文模块的输出数据；第1上下文选择块中的融合模块根据第1全局上下文模块的输出数据和第1局部上下文模块的输出数据进行特征拼接融合得到并输出第1选择特征图。

第i上下文选择块中的全局上下文模块将接收到的第i-1选择特征图作为第i全局上下文模块的输入数据，并得到第i全局上下文模块的输出数据；第i上下文选择块中的局部上下文模块将接收到的第i-1选择特征图和第n+1-i初级特征图作为第i局部上下文模块的输入数据，并得到第i局部上下文模块的输出数据；第i上下文选择块中的融合模块根据第i全局上下文模块的输出数据和第i局部上下文模块的输出数据进行特征拼接融合得到第i选择特征图；2≤i≤n-1。

第n上下文选择块中的全局上下文模块将接收到的第n-1选择特征图作为第n全局上下文模块的输入数据，并得到第n全局上下文模块的输出数据；第n上下文选择块中的局部上下文模块将接收到的第n-1选择特征图和第1初级特征图作为第n局部上下文模块的输入数据，并得到局部上下文模块的输出数据；第n上下文选择块中的融合模块根据第n全局上下文模块的输出数据和第n局部上下文模块的输出数据进行特征拼接融合，得到第n选择特征图并将其作为次级特征图。

在上述第一方面的一种可能的实现中，全局上下文模块对输入至上下文选择模块中的输入数据进行基于全局信息引导的全局上下文的选择性融合，包括：对输入数据进行全局平均池化操作处理得到全局池化特征图；对输入数据、全局池化特征图进行融合得到基于全局信息引导的全局上下文注意力图；通过全局上下文注意力图对全局池化特征在不同像素位置进行增强和抑制，得到基于全局信息引导的全局上下文特征图；将输入数据和基于全局信息引导的全局上下文特征图进行融合，得到进行了全局上下文选择的全局上下文模块的输出数据。

在上述第一方面的一种可能的实现中，对全局上下文模块的输入数据进行全局平均池化操作得到全局池化特征图，包括：对全局上下文模块的输入数据依次进行全局平均池化运算、卷积运算、批归一化操作、激活函数处理和上采样操作处理，得到全局池化特征图。

在上述第一方面的一种可能的实现中，对全局上下文模块的输入数据、全局池化特征图进行融合得到全局上下文注意力图，包括：对全局上下文模块的输入数据进行卷积运算、批归一化操作和激活函数处理；对处理后的输入数据和全局池化特征图进行拼接融合，并依次进行卷积运算、批归一化操作、激活函数处理、卷积运算和门控操作，得到全局上下文注意力图。

在上述第一方面的一种可能的实现中，通过全局上下文注意力图对全局池化特征图在不同像素位置进行增强和抑制，得到基于全局信息引导的全局上下文特征图，包括：对全局上下文注意力图和全局池化特征图的逐个通道进行哈达玛积运算，得到基于全局信息引导的全局上下文特征图。

在上述第一方面的一种可能的实现中，将全局上下文模块的输入数据和基于全局信息引导的全局上下文特征图进行融合，包括：将全局上下文模块的输入数据和基于全局信息引导的全局上下文特征图进行逐点相加运算，得到全局上下文模块的输出数据。

在上述第一方面的一种可能的实现中，局部上下文模块对输入至局部上下文模块中输入数据进行基于全局信息引导的局部上下文的选择性融合，包括：对输入数据中的选择特征图进行上采样得到上采样特征图；对上采样特征图进行全局平均池化处理得到全局池化特征图；对输入至局部上下文模块中的第i初级特征图进行卷积处理得到对应的初级局部上下文特征图，1≤i≤n；根据上采样特征图、全局池化特征图和初级局部上下文特征图得到基于全局信息引导的局部上下文注意力图；通过局部上下文注意力图对初级局部上下文特征图的不同像素位置进行增强或抑制，得到基于全局信息引导的局部上下文特征图；将上采样特征图和基于全局信息引导的局部上下文特征图进行融合，得到进行了局部上下文选择的局部上下文模块的输出数据。

在上述第一方面的一种可能的实现中，对上采样特征图进行全局平均池化处理得到全局池化特征图，包括：对上采样特征图依次进行全局池化运算、卷积运算、批归一化操作、激活函数处理和上采样操作处理，得到全局池化特征图。

在上述第一方面的一种可能的实现中，根据上采样特征图、全局池化特征图和初级局部上下文特征图得到局部上下文注意力图，包括：对上采样特征图进行卷积运算、批归一化操作和激活函数处理，及对初级局部上下文特征图进行卷积运算、批归一化操作和激活函数处理；对处理后的上采样特征图和初级局部上下文特征图，以及全局池化特征图进行拼接融合，并依次进行卷积运算、批归一化操作、激活函数处理、卷积运算和门控操作，得到局部上下文注意力图。

在上述第一方面的一种可能的实现中，通过局部上下文注意力图对初级局部上下文特征图的不同像素位置进行增强或抑制，得到基于全局信息引导的局部上下文特征图，包括：将局部上下文注意力图与初级局部上下文特征图的逐个通道进行哈达玛积运算，得到基于全局信息引导的局部上下文特征图。

在上述第一方面的一种可能的实现中，对上采样特征图和基于全局信息引导的局部上下文特征图进行融合，包括：对上采样特征图和基于全局信息引导的局部上下文特征图依次进行拼接融合及卷积运算、批归一化操作、激活函数处理，得到局部上下文模块的输出数据。

在上述第一方面的一种可能的实现中，主干网络对输入数据源图像进行特征提取包括：至少通过卷积层、批归一化层以及激活层的方式对输入数据源图像进行逐层的特征变换；利用主干网络中的残差结构堆叠不同主干网络模块，强化信息的流动和梯度的反向传播，进而得到不同层级的特征语义表达。

第二方面，本申请的实施方式提供了一种全局引导选择性上下文网络，包括：包括主干网络、上下文选择网络和像素分类网络，其中：主干网络，用于接收输入数据源图像，对输入数据源图像进行特征提取得到至少一个初级特征图，并将至少一个初级特征图输入至上下文选择网络；上下文选择网络，用于对至少一个初级特征图进行基于全局信息引导的注意力机制来得到至少一个初级特征图的不同像素位置处融合全局上下文和局部上下文的权重因子，并根据权重因子对至少一个初级特征图中的每个像素实现自适应地融合全局上下文和局部上下文，以得到次级特征图，并将次级特征图输入至像素分类网络；像素分类网络用于对次级特征图进行逐个像素的分类得到场景语义解析结果。

在上述第二方面的一种可能的实现中，主干网络为图像分类网络，主干网络包括至少一个主干网络模块，主干网络模块用于输出初级特征图，上下文选择网络包括至少一个上下文选择块；该主干网络模块用于对输入数据源图像进行特征提取得到并输出初级特征图至上下文选择块；上下文选择块用于对初级特征图进行全局上下文的选择和局部上下文的选择的融合得到次级特征图。

在上述第二方面的一种可能的实现中，主干网络包括n+1个不同空间分辨率的主干网络模块，上下文选择网络包括n个上下文选择块，n为大于等于3的正整数；该方法还包括：第1主干网络模块用于根据输入数据源图像输出第1初级特征图，并将其输入至第2主干网络模块和第n上下文选择块；第i主干网络模块用于根据第i-1初级特征图输出第i初级特征图至下一级主干网络模块以及输入至对应的第n+1-i上下文选择块，2≤i≤n；第n+1主干网络模块用于根据第n初级特征图输出第n+1初级特征图，并将其输入至第1上下文选择块；第1上下文选择块用于对接收到的第n+1初级特征图和第n 初级特征图进行全局上下文的选择和局部上下文的选择，输出第1选择特征图后并将其输入至第2上下文选择块；第i语上下文选择块用于对接收到的第i-1选择特征图和第n+1-i初级特征图进行全局上下文的选择和局部上下文的选择，输出第i选择特征图，并将其输入至下一级上下文选择块，2≤i≤n-1；第n上下文选择块用于对接收到的第n-1选择特征图和第1初级特征图进行全局上下文的选择和局部上下文的选择，输出第n选择特征图并将其作为次级特征图。

在上述第二方面的一种可能的实现中，上下文选择块包括基于全局信息引导的全局上下文模块、基于全局信息引导的局部上下文模块和融合模块；全局上下文模块用于对输入至全局上下文模块的输入数据的全局上下文信息根据全局信息引导的注意力机制，自适应地融合到输入数据的不同像素处，得到具有全局上下文信息的输出数据；局部上下文模块用于对输入至局部上下文模块的输入数据的局部上下文信息根据全局信息引导的注意力机制，自适应地进行融合处理，得到具有局部上下文信息的输出数据；融合模块用于根据全局上下文模块的输出数据和局部上下文模块的输出数据，进行拼接融合输出选择特征图。

在上述第二方面的一种可能的实现中，第1上下文选择块中的全局上下文模块将接收到的第n+1初级特征图作为第1全局上下文模块的输入数据，并得到第1全局上下文模块的输出数据；第1上下文选择块中的局部上下文模块将接收到的第n+1初级特征图和第n初级特征图作为第1局部上下文模块的输入数据，并得到第1局部上下文模块的输出数据；第1上下文选择块中的融合模块根据第1全局上下文模块的输出数据和第1局部上下文模块的输出数据进行特征拼接融合得到并输出第1选择特征图。

第n上下文选择块中的全局上下文模块将接收到的第n-1选择特征图作为第n全局上下文模块的输入数据，并得到第n全局上下文模块的输出数据；第n上下文选择块中的局部上下文模块将接收到的第n-1选择特征图和第1初级特征图作为第n局部上下文模块的输入数据，并得到局部上下文模块的输出数据；第n上下文选择块中的融合模块根据第n全局上下文模块的输出数据和第i局部上下文模块的输出数据进行特征拼接融合，得到第n选择特征图并将其作为次级特征图。

本申请提供的全局引导选择性上下文网络，为实现上述第一方面和/或第一方面的任意一种可能的实现方式所提供的基于全局引导选择性上下文网络的场景语义解析方法的全局引导选择性上下文网络，因此也能实现第一方面提供的基于全局引导选择性上下文网络的场景语义解析方法所具备的有益效果(或优点)。

第三方面，本申请的实施方式提供了一种电子设备，包括：存储器，用于存储计算机程序，计算机程序包括程序指令；处理器，用于执行程序指令，以使该电子设备执行前述的基于全局引导选择性上下文网络的场景语义解析方法。

第四方面，本申请的实施方式提供了一种计算机可读取存储介质，计算机可读取存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被计算机运行以使计算机执行前述的基于全局引导选择性上下文网络的场景语义解析方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所使用的附图作简单介绍。

图1是根据本申请的一些实施例，示出了一种FCN网络中全局上下文和局部上下文对于图像上不同像素的增益情况示意图；

图2是根据本申请的一些实施例，示出了一种全局引导选择性上下文网络的结构以及基于该全局引导选择性上下文网络的场景语义解析过程的示意图；

图3是根据本申请的一些实施例，示出了一种全局信息引导的注意力机制的示意图；

图4是根据本申请的一些实施例，示出了一种SCB网络中的SCB的结构以及其处理过程的示意图；

图5是根据本申请的一些实施例，示出了一种全局引导选择性上下文网络中的GGM模块的处理过程的示意图；

图6是根据本申请的一些实施例，示出了一种全局引导选择性上下文网络中的GLM模块的处理过程的示意图；

图7是根据本申请的一些实施例，示出了一种全局引导选择性上下文网络的结构以及基于该全局引导选择性上下文网络的场景语义解析过程的示意图；

图8A是根据本申请的一些实施例，示出了另一种SCB网络中的SCB的结构以及处理过程的示意图；

图8B是根据本申请的一些实施例，示出了又一种SCB网络中的SCB的结构以及处理过程的示意图；

图9是根据本申请的一些实施例，示出了一种电子设备的结构示意图；

图10是根据本申请的一些实施例，示出了一种片上系统(SoC)的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

在进行场景语义解析时，可以通过将全局上下文引入到各个像素特征中，增大像素特征的有效感受野，使得像素特征进行语义判别时能得到全局信息的语义指导。全局上下文对于大尺度的目标和场景能有较多的关注和分析，从而提升大尺度目标识别的精度，避免大目标识别歧义的情况，但是全局上下文无法有效地表达非显著目标的信息，难以为这些目标提供准确的语义指导。

在进行场景语义解析时，可以将网络中的浅层特征作为局部上下文引入到经过上采样的高层特征中来补充高层特征的空间细节信息，促使网络对目标边缘和细小目标区域进行有效的特征学习，实现精细的分割结果。但是浅层特征与高层特征融合过程中会引入噪音干扰，不利于大尺度目标的语义判别。

示例性的，请参见图1，图1示出了Cityscapes验证集上，将全局上下文和局部上下文分别加入到FCN时数据集中不同类别的增益情况，其中横坐标为Cityscapes数据集的19个类别和总体指标，纵坐标为FCN加全局上下文和FCN加局部上下文相比于FCN所得到的增益情况，该增益可以通过平均交并比(Mean Intersection over Union，mIoU)体现。

由图1可以看出全局上下文和局部上下文对于不同的类别的增益是不一样的。例如，全局上下文对于“公交车”、“卡车”、“火车”等大尺度目标的增益较大，对于“电线杆”、“交通灯”、“交通标志”等细小尺度目标的增益较小。局部上下文则与之相反。

由于全局上下文和局部上下文对于不同尺度目标的分割结果有着差异化的影响，说明在利用全局上下文和局部上下文时，有必要考虑引导两种上下文的有效融合以实现更为准确的场景解析。

由于场景解析任务中，目标的尺度较为丰富，且不同类别的尺度也不一样，而两种上下文信息对不同尺度的目标产生不一样的增益，因此有必要区别对待不同目标的像素点，即不同像素点加入不同的全局上下文信息和局部上下文信息。此外由于人在分析十分复杂场景时往往先从全局的视角进行解析，通过整体的语义识别后再对特定的目标进行具体分析，因此全局信息在场景语义分析过程中十分必要。由此说明利用全局信息引导网络来融合全局上下文和局部上下文是合理的。

另外，并不是所有的像素需要全局上下文或局部上下文，其中，大尺度目标区域往往避免局部上下文(因为局部上下文感受野小且语义信息不足)，细小目标则往往避免全局上下文(因为全局上下文缺少细小目标的语义特征)。

由此，本申请提供了一种全局引导选择性上下文网络(Global-guided Selective Context Network，GSCNet)，该全局引导选择性上下文网络具体是一种基于全局信息引导的全局引导选择性上下文网络，以及提供了一种基于该全局引导选择性上下文网络的场景语义解析方法，可以同时考虑不同的像素对于全局上下文和局部上下文和依赖程度不相同，对输入数据源图像同时进行全局上下文选择和局部上下文选择，可以很好地区分出图像中的大物体和小物体，从而可以提高语义分割的精度。

请参见图2，本申请提供了一种全局引导选择性上下文网络，该全局引导选择性上下文网络包括主干网络110、上下文选择(Selective Context Block，SCB)网络120和像素分类网络130，其中主干网络110可以是经过ImageNet预训练的残差网络(Residual Network，ResNet)，也可以是其他的轻量网络(如Mobilenet系列或者Xception网络等)，其为基础的分类网络。主干网络110对输入数据源图像10进行初级特征提取得到至少一个初级特征图11，将初级特征图11输出至SCB网络120。SCB网络120对初级特征图11基于全局信息引导的注意力机制来得到初级特征图11的不同像素位置处融合全局上下文和局部上下文的权重因子，并根据权重因子对初级特征图11中的每个像素实现自适应地融合全局上下文和局部上下文，即SCB网络120对初级特征图11进行基于全局信息引导的全局上下文和局部上下文信息的选择性融合，得到次级特征图12。SCB网络120将得到的次级特征图12输入至像素分类网络130，次级特征图12通过像素分类网络130进行逐个像素分类得到输入数据源图像10对应的场景语义解析结果13。

本申请中，SCB网络120包括至少一个SCB。

请参见图3，本申请中提供的全局信息引导的注意力机制的核心步骤，主要包括：

S101，SCB对输入其中的输入特征图进行全局平均池化运算得到全局池化特征图(Global pooled feature)。

S102，SCB对全局上下文或者局部上下文(Global/Local Context)、全局池化特征图和输入特征图进行拼接融合得到基于全局信息引导的全局或者局部上下文注意力图(Global/Local ContextAttention Map)。

S103，SCB将全局上下文注意力图和全局上下文进行逐个通道的哈打码积运算，得到基于全局信息引导的全局上下文特征图(Global-guided Global Context)，以及将局部上下文注意力图和局部上下文进行逐个通道的哈打码积运算，得到基于全局信息引导的局部上下文特征图(Global-guided Local Context)。

S104，SCB将该基于全局信息引导的全局上下文特征图和输入特征图进行融合(采用逐点相加或者拼接融合)，即可得到全局上下文输出特征图，以及SCB将基于全局信息引导的局部上下文特征图和输入特征图进行融合(采用逐点相加或者拼接融合)，即可得到局部上下文输出特征图。

SCB可以将该全局上下文输出特征图和局部上下文输出特征图进行融合后，得到该SCB输出的选择特征图。

请参见图4，本申请提供中提供的SCB可以包括并列设置的基于全局信息引导的全局上下文模块1201(Global-guided Global Module，GGM)(可以简称为全局上下文模块)和基于全局信息引导的局部上下文模块1202(Global-guided Local Module，GLM)(可以简称为局部上下文模块)。

其中，GGM1201用于对输入其中的输入数据(来自于主干网络110的初级特征图或上一级SCB块的特征图)进行基于全局信息引导的注意机制来自适应地融合全局上下文信息到各个像素特征，并输出具有全局上下文信息的输出数据，即输出全局上下文输出特征。

GLM1202用于对输入其中的输入数据(来自于主干网络110的初级特征图和上一级SCB块的特征图)进行基于全局信息引导的注意机制来自适应地融合局部上下文信息到各个像素特征，并输出具有局部上下文信息的输出数据，即输出局部上下文输出特征。

进一步地，SCB还可以包括融合模块来融合GGM1201和GLM1202的输出特征，进一步提升特征的表达能力。

请参见图4，该融合模块可以包括特征拼接(Concat)1203和卷积层(Conv)1204，用于对GGM1201和GLM1202输出的特征图进行拼接融合，得到SCB的输出的选择特征图。

全局上下文引入到高层特征中可以增大特征的感受野，有助于改进大尺度目标或者场景的分割。来自细小目标和目标边缘的像素特征，其语义判别更依赖于局部的结构信息，全局上下文对于其语义信息的指导作用有限。因此在融合全局上下文时有必要对每个像素进行差异化的处理。此外全局信息可以表示图像整体语义理解，有助于得到图像整体和细节的区分，因此可以通过GGM1201对每个像素特征实现基于全局信息引导选择性全局上下文融合。

请参见图5，图5示出了本申请提供的一种GGM1201的处理过程示意图。示例性的，对于输入特征图A1，其中A1∈R ^C×H×W，(即A1的维度，其中R是指特征空间，H指图像高度，W指图像宽度，C指特征图的通道数)，GM1201对输入特征图A1进行全局上下文的选择性融合，主要包括：

S201，GGM1201首先对输入特征图A1依次进行全局平均池化(Global pooling)操作、ConvB操作和上采样(Upsampling)运算，生成全局池化特征图B1。

其中，ConvB操作为Conv1×1+BN+Relu，即ConvB包括卷积核大小为1x1的卷积层、批标准化层(Batch Normalization，BN)以及线性整流层(Rectified Linear Unit，ReLU)。上采样采用沿着空间维度复制。

S202，对输入特征图A1进行ConvA运算，生成一个转换后的特征图。

其中，ConvA操作为Conv3×3+BN+Relu，即包括卷积核大小为3x3的卷积层、批标准化层以及线性整流层。

S203，将转换后的输入特征图A1与全局池化特征图B1进行特征拼接(Concat)。

S204，将连接后的输入特征图A1与全局池化特征图B1依次进行ConvA操作、ConvD操作和门控操作(如sigmoid)操作，得到一个全局上下文注意力图G(G∈R ^H×W)，其中ConvD操作卷积核大小为1x1的卷积层，全局上下文注意力图G的响应反映了不同的像素对全局上下文的需求程度，且全局上下文注意力图G中激活较大的像素主要为尺度较大的目标，其更为需要全局上下文信息。

S205，通过使用全局上下文注意力图G来增强或者抑制全局池化特征图B1不同像素位置信息。

示例性的，将全局上下文注意力图G与全局池化特征图B1的逐个通道图进行哈打码积(例如Hadamard product)，然后点乘尺度因子参数α，从而可以得到一个基于全局信息引导的全局上下文特征图C。

S206，将全局信息引导的全局上下文特征图C融合到输入特征图A1中，融合的方式可以是逐点相加(Element-wise sum)，生成一个自适应融合全局上下文信息的特征Og，作为全局上下文模块GGM的输出特征。其中，Og∈R ^C×H×W。

S205和S206的运算过程可以通过以下公式表达：

O _i＝a _i+αg _ib _i

其中，a _i∈A，g _i∈B，b _i∈B，O _i∈Og，i∈[1，2，……，H×W]，i是A，G，B，Og中空间分辨率的第i个位置；αg _ib _i表示基于全局信息引导的全局上下文特征图的第i位置的像素特征；α是一个学习因素，可以被初始化为1。

本申请中，GGM1201构造了一个基于全局信息引导的注意力机制并以此得到了全局上下文注意力图，以对每个像素点自适应地融合全局上下文，其中大尺度目标和场景能得到更多的全局上下文信息，有助于从增加其像素特征的感受野，提升大尺度目标的分类精度。此外，GGM1201在细小目标地方减少了全局上下文中大目标信息的干扰。这里全局信息和全局上下文都采用全局平均池化特征得到。

如前所述，GLM1202侧重改进目标边缘和细小目标的分割精度。由于主干网络的初级特征图(这里指网络的浅层特征)主要是对目标局部细节的响应，其感受野较小且保留高分辨率的位置信息，从而可以用来改进特征的空间细节表达。但同时由于这个性质并不利于大尺度目标主体的准确识别，因此在融合局部上下文时，需要考虑到不同像素点对于空间细节信息的需求。本申请中的局部上下文模块GLM1202通过全局信息引导的注意力机制，对不同尺度目标区域提供不同程度的局部上下信息，即侧重细小目标区域融合更多，而大尺度目标区域则相反。

请参见图6，图6示出了本申请提供的一种GLM1202的处理过程示意图，对输入特征图A2，其中A∈R ^C×H×W，GLM1202对输入特征图A2进行局部上下文的选择性融合，主要包括：

S301，对输入特征图A2进行上采样操作(例如双线性插值操作)提升两倍的分辨率，得到特征图D。

S302，对特征图D进行全局平均池化操作，然后进行ConvB操作和上采样操作，生成全局池化特征图B2。其ConvB操作和S201中的ConvB操作相同。

S303，对前述的主干网络输出的初级特征图进行ConvA操作得到变换的初级特征图E，该ConvA操作和S202中的ConvA操作相同。

S304，对变换的初级特征图E进行ConvA操作，生成一个转换后的特征图。

S305，对特征图D进行ConvA操作，生成一个转换后的特征图。

S306，将S304和S305转换后的特征图，以及全局池化特征图B2按照通道维度进行特征拼接。

S307，将拼接后的特征，依次经过ConvA操作、ConvD操作和sigmoid操作，得到一个局部上下文注意力图L，其中L∈R ^H×W，局部上下文注意力图L的响应表明了不同像素对局部上下文的需求程度，且局部上下文注意力图L中激活较大的像素往往为细小目标或者目标的边缘，其像素特征更需要局部信息。

S308，通过使用局部上下文注意力图L增强或者抑制变换的初级特征图E不同像素特征，得到一个基于全局信息引导的局部上下文特征图F。

将局部上下文注意力图L与变换的初级特征图E逐个通道图进行哈打码积，然后点乘尺度因子β，从而得到一个基于全局信息引导的局部上下文特征图F。

S309，将基于全局信息引导的局部上下文特征图F和特征图D进行特征拼接，特征拼接的方式可以是特征按照通道维度进行拼接(Concat)的方式。

S310，特征连接后，进行ConvA操作，生成一个自适应融合局部上下文信息的特征O _l作为局部上下文模块GLM的输出特征。

S308-S310的运算过程可以通过以下公式表达：

可以被定义为O _i＝conv(cat(d _i,βl _ie _i))

其中，d _i∈D，l _i∈L，e _i∈B，O _i∈O _l，i∈[1，2，……，H×W]，i是D，L，B，O _l中的空间分辨率下的第i位置；βl _ie _i表示全局信息引导的局部上下文特征图F的第i位置的像素特征；β是一个学习因素，可以被初始化为1。

本申请中，GLM1202可以在不同的像素位置融合不同程度的局部上下文，通过网络学习出权重因子来自适应融合局部上下文，增强细小目标的空间细节表示，减少对大尺度目标区域像素特征的语义噪音影响。

本申请中，SCB中的卷积层的设置以及特征的融合的操作(如逐点相加和特征拼接等)都可以根据需要选择，在注意力机制中的注意力图生成过程中加入全局信息的指导是本申请方法的重要思想，因此在实际实现中也可以根据需要来做相应的选择。

本申请中，主干网络层110可以为常见的图像分类网络，主干网络层110对输入数据源图像10进行特征提取包括：至少通过卷积层、批归一化层以及激活层的方式对输入数据源图像10进行逐层的特征变换；以及利用主干网络110中的残差结构连接不同主干网络模块，强化信息的流动和梯度的反向传播，进而得到不同层级的特征语义表达。

请参见图7，示例性的，在本申请的一种实现方式中，主干网络110可以包括按照层级依次设置的第一主干网络模块、第二主干网络模块、第三主干网络模块和第四主干网络模块。本申请的主干网络可以采用残差网络，因此第一主干网络模块为卷积层(conv-1)，第二主干网络模块为第一残差单元(Resnet block-1)，第三主干网络模块为第二残差单元(Resnet block-2)，以及第四主干网络模块为第三残差单元(Resnet block-3)和第四残差单元(Resnet block-4)，其中第四残差模块(Resnet block-4)去掉了下采样操作且采用了膨胀卷积操作，其得到最终特征分辨率为输入图像的1/16。

当然主干网络110也可以为其他图像分类网络(如Mobilenet系列等)。

本申请中，SCB网络120可以包括按照层级依次设置的SCB121、SCB122和SCB123。

输入数据源图像10输入至conv-1，conv-1对输入数据源图像10进行特征提取处理后得到第1初级特征图，并将第1初级特征图分别输入至Resnet block-1和SCB123，Resnet block-1对该第1初级特征图进行特征提取处理后得到第2初级特征图，并将第2初级特征图分别输入至Resnet block-2和SCB122，Resnet block-2对该第2初级特征图进行特征提取处理后得到第3初级特征图，并将第3初级特征图分别输入至Resnet block-3和Resnet block-4，以及输入至SCB121，Resnet block-3和Resnet block-4对该第3初级特征图进行特征提取处理后得到第4初级特征图，并将第4初级特征图输入至SCB121。

SCB121中的GLM的局部上下文模块的输入数据包括第4初级特征图和第3初级特征图，GLM对第4初级特征图自适应融合来自第3初级特征图的局部上下文，得到并输出第1局部上下文模块的输出数据；SCB121中的GGM的全局上下文模块的输入数据包括第4初级特征图，GGM对第4初级特征图进行全局上下文选择性融合，得到并输出第1全局上下文模块的输出数据；SCB121中的融合模块根据第1全局上下文模块的输出数据和第1局部上下文模块的输出数据融合得到并输出第1选择特征图；即SCB121输出第1选择特征图，并将第1选择特征图输入至SCB122。

SCB122中的GLM的局部上下文模块的输入数据包括第1选择特征图和第2初级特征图，SCB122中的GLM对第1初级特征图自适应融合来自第2初级特征图的局部上下文，得到并输出第2局部上下文模块的输出数据；SCB122中的GGM的全局上下文模块的输入数据包括第1选择特征图，SCB122中的GGM对第1选择特征图进行全局上下文选择性融合，得到并输出第2全局上下文模块的输出数据；SCB122中的融合模块根据第2全局上下文模块的输出数据和第2局部上下文模块的输出数据得到并输出第2选择特征图；即SCB122输出第2选择特征图，并将第2选择特征图输入至SCB123。

SCB123中的GLM的局部上下文模块的输入数据包括第2选择特征图和第1初级特征图，SCB123中的GLM对第2初级特征图自适应融合来自第1初级特征图的局部上下文，得到并输出第3局部上下文模块的输出数据；SCB123中的GGM的全局上下文模块的输入数据包括第2选择特征图，SCB123中的GGM对第2选择特征图进行全局上下文选择性融合，得到并输出第3全局上下文模块的输出数据；SCB123中的融合模块根据第3全局上下文模块的输出数据和第3局部上下文模块的输出数据得到并输出第3选择特征图；即SCB123输出第3选择特征图，该第3选择特征图作为SCB网络120的SCB网络输出的次级特征图12。

像素分类网络130中，根据SCB网络120的输出的次级特征图12进行逐个像素的分类得到最终的场景语义解析结果13。

本申请中，SCB的个数可以根据实际需要选择，可以设置为三个、四个或者更多个；另外，SCB中也可以只有GLM或者GGM，这些也是可以根据实际需要选择。

本申请提供基于全局引导选择性上下文网络及基于其的场景语义解析方法，是从分析FCN网络及其改进的角度出发，通过自适应的融合上下文信息的网络结构，极大改进场景解析的精度。其主要是基于全局信息的注意力机制来自适应融合不同层级的上下文。具体来说，通过将全局池化特征引入到注意力图的生成过程中得到不同像素的对于不同层级上下文信息的需求程度，并以此作为权重因子来控制上下文信息融合程度。在注意力图中，可以看到让大目标和场景区域更多融合全局上下文，同时减少局部上下文；在细小目标和目标边缘区域则更多融合局部上下文同时减少全局上下文，这样使得网络既能对大尺度目标有更为准确的识别能力同时对于细小目标和边缘有更为精细的分割结果。

若仅基于全局上下文进行场景语义解析，则对于图像中的每一个像素都获取同等的全局上下文，忽略了不同像素对于全局上下文的依赖程度的差异性。比如一个小物体中间的某一个像素更需要的是其周围与这个像素同属于一个物体的像素，而一个物体的边缘像素则更关注于图像的全局上下文，从而将各个物体很好的区分开。如果从每一个像素上平等的获取全局上下文，势必不能充分地利用图像的上下文。此外，仅基于全局上下文进行场景语义解析，对局部(细节)信息不友好，往往使得对物体的边缘分割的不够准确，或者使得小物体很难去很好地进行分割，另外要获取全局上下文，不可避免地会融合不同位置的特征信息，如果某类别在图像中占比比较小，就很容易在全局上下文的提取操作中丢失，即使在后续通过上采样的方法来恢复图像原始分辨率时，也无法恢复这种细节信息，其无法解决细小目标的识别和定位情况。

若仅基于局部上下文进行场景语义解析，则会导致更需要全局上下文去对分割该像素有增益的目标损失了本可以利用的全局上下文，也会导致对于图像中的细节噪声影响变得很敏感，对于显著目标的内部分类会产生分类错误。而使用本申请提供的全局引导选择性上下文网络及基于其的场景语义解析方法，对图像中的像素基于全局上下文引导并通过注意力机制进行全局上下文和局部上下文的选择，在局部上下文选择的过程中，加入了全局上下文的指导，从而缓解了对于局部上下文对图像的噪声影响。

由此，本申请提供基于全局引导选择性上下文网络的场景语义解析方法中，基于全局引导的注意力机制自适应地对全局上下文和局部上下文进行选择和融合，对图像中的每个像素进行上下文的选择，从而使得对于全局上下文和局部上下文能够均衡，最终使得分割模型既对大物体能够准确分割，并且对于细节的分割也能够做到精准。相比于可以避免仅基于全局上下文解析场景语义解析的方法和仅基于局部上下文进行场景语义解析的方法，对于像素级别的上下文适应性更高，可以根据图像中每个像素对全局上下文和局部上下文的不同依赖程度来进行特征提取和融合操作，以提高语义分割精度。

进一步地，本申请的SCB块的另外一种实现方式中，前述GGM1201和GLM1202也可以是以按照层级依次设置。

例如，请参见图8A，本申请的另外一种实现方式中，GLM1202设置在GGM1201之前，即输入至SCB的输入数据先由GLM1202进行特征提取以对局部上下文进行选择性融合，再输入至GGM1201中进行全局上下文的选择性融合。在这种方式下，可以加强细小目标的空间细节信息后加强大尺度目标的识别精度。

请参见图8B，本申请的另外一种实现方式中，GGM1201设置在GLM1202之前，输入至SCB的输入数据先经过GGM1201的进行全局上下文的选择性融合，再输入至GLM1202，由GLM1202进行局部上下文的选择性融合。在这种方式下，整个SCB可以被看作是一种由粗到细的特征加强过程，即从加强大尺度目标特征学习后精细化目标的细节以及细小目标。

本申请中，SCB网络120中的各SCB的结构可以都相同，如可以为图4所示的结构，或图8A所示的结构，或者也可以是图8B所示的结构；SCB的结构也可以不相同，例如可以包含GGM和GLM，或者也可以只有GGM，或者只有GLM。其皆可以根据需要具体选择。

需要说明的是，本申请中图8A所示的SCB对特征图的处理过程和图8B所示的SCB对特征图的处理过程与前述图7所述的SCB对特征图的处理过程类似，此处不做详细说明。

本申请提供的全局引导选择性上下文网络可以是基于FCN的全局引导选择性上下文网络。

进一步地，本申请中，像素分类网络130可以是常见的将特征转化为像素分类的结果的处理单元。另外，像素分类网络130也可以作为SCB网络120的末端的一个像素分类模块存在，这样SCB网络120则可以直接输出像素分类的结果，即输出场景语义解析结果13。像素分类网络130的设置可以根据需要选择。

需要说明的是，本申请提供的GSCNet的结构包括但不局限于图7的结构，其可以也可以是其他类型的结构，其可以根据需要选择。

本申请提供的全局引导选择性上下文网络及基于其的场景语义解析方法，其可以应用在终端AI领域中的自动驾驶、场景理解、图像编辑、视频分析、医学图像处理、遥感图像处理、手机拍照等领域，其作为图像语义理解的有效方式，能为其他图像处理编辑提供指导。

参见图9，图9所示为根据本申请的一实施方式提供的电子设备900的结构示意图。电子设备900可以包括耦合到控制器中枢904的一个或多个处理器901。对于至少一个实施例，控制器中枢904经由诸如前端总线(FSB)之类的多分支总线、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接与处理器901进行通信。处理器901执行控制一般类型的数据处理操作的指令。在一实施例中，控制器中枢904包括，但不局限于，图形存储器控制器中枢(GMCH)(图中未示出)和输入/输出中枢(IOH)(其可以在分开的芯片上)(图中未示出)，其中GMCH包括存储器和图形控制器并与IOH耦合。

电子设备900还可包括耦合到控制器中枢904的协处理器906和存储器902。或者，存储器902和GMCH中的一个或两者可以被集成在处理器901内(如本申请中所描述的)，存储器902和协处理器906直接耦合到处理器901以及控制器中枢904，控制器中枢904与IOH处于单个芯片中。

存储器902可以是例如动态随机存取存储器(DRAM)、相变存储器(PCM)或这两者的组合。

在一个实施例中，协处理器906是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。协处理器906的任选性质用虚线表示在图9中。

在一个实施例中，电子设备900可以进一步包括网络接口(NIC)903。网络接口903可以包括收发器，用于为电子设备900提供无线电接口，进而与任何其他合适的设备(如前端模块，天线等)进行通信。在各种实施例中，网络接口903可以与电子设备900的其他组件集成。网络接口903可以实现上述实施例中的通信单元的功能。

电子设备900可以进一步包括输入/输出(I/O)设备905。输入/输出(I/O)设备905可以包括：用户界面，该设计使得用户能够与电子设备900进行交互；外围组件接口的设计使得外围组件也能够与电子设备900交互；和/或传感器设计用于确定与电子设备900相关的环境条件和/或位置信息。

值得注意的是，图9仅是示例性的。即虽然图9中示出了电子设备900包括处理器901、控制器中枢904、存储器902等多个器件，但是，在实际的应用中，使用本申请各方法的设备，可以仅包括电子设备900各器件中的一部分器件，例如，可以仅包含处理器901和NIC903。图9中可选器件的性质用虚线示出。

在该电子设备900的存储器中可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令，具体而言，存储有该指令的暂时和永久副本。

本申请中，9该电子设备的存储器中存储的指令可以包括：由处理器中的至少一个单元执行时导致电子设备基于全局引导选择性上下文网络的场景语义解析方法。

参见图10，图10所示为根据本申请的一实施方式提供的SoC(System on Chip，片上系统)1000的结构示意图。在图10中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC1000的可选特征。该SoC 1000可以被用于根据本申请的任一电子设备。根据其所在的设备不同以及其内所存储的指令的不同，可以实现相应的功能。

在图10中，SoC1000包括：互连单元1002，其被耦合至处理器1001；系统代理单元1006；总线控制器单元1005；集成存储器控制器单元1003；一组或一个或多个协处理器1007，其可包括集成图形逻辑、特征图处理器、音频处理器和视频处理器；SRAM(静态随机存取存储器)单元1008；DMA(直接存储器存取)单元1004。在一个实施例中，协处理器1007包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

SRAM单元1008中可以包括用于存储数据和/或指令的一个或多个计算机可读介质。计算机可读存储介质中可以存储有指令，具体而言，存储有该指令的暂时和永久副本。该指令可以包括：由处理器中的至少一个单元执行时导致电子设备基于全局引导选择性上下文网络的场景语义解析方法。

本申请公开的机制的各实施例均可以以软件、硬件、固件或这些实现方法的组合等方式实现。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程程序包括至少一个处理器、存储器(或存储系统，包括易失性和非易失性存储器和/或存储单元)。

可将程序代码应用于输入指令，以执行文本描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。可以理解，在本申请的实施例中，处理系统可以是微处理器、数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)等，和/或其任何组合。根据另一方面，处理器可以是单核处理器、多核处理器等，和/或其任何组合。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理器通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，文本中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其他任何组合来实现。所公开的实施例可以被实现为一个或多个暂时或非暂时性及其可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个多个处理器读取和执行。例如，指令通过网络或气压计算机可读取介质分发。因此，机器可读取介质可以包括用于机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪卡、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字等)的有形的机器可读取存储器。因此，机器可读取介质包括适合于以机器可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

至少一个实施例的一个或多个方面可以由存储在计算机可读取存储介质上的表示性指令来实现，指令表示处理器中的各种逻辑，指令在被机器读取时使得该机制作用于执行文本所述的技术的逻辑。被称为“IP核”的这些表示可以被存储在有形的计算机可读取存储介质上，并被提供给多个客户或生产设备实施以加载到实际制造该逻辑或处理器的制造机器中。

在一些情况下，指令转换器可用来将指令从源指令集转移至目标指令集。例如，指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其他方式将指令转换成由核来处理的一个或多个其他指令。指令转换器可以用软件、硬件、固件、或其他组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。

需要说明的是，如本文所使用的，术语“模块”可以指代或者专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组合的一部分。即本申请各设备实施例中的各模块都是逻辑模块，在物理上，一个逻辑模块可以是一个物理单元，也可以是一个物理单元的一部分，还可以是多个物理单元的组合实现。另外，本申请上述各设备实施例并没有将于解决本申请所提出的技术问题关系不太密切的模块引入，这并不表明上述设备实施例并不存在其他的模块。

需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

虽然通过参照本申请的某些优选实施方式，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。本领域技术人员可以在形式上和细节上对其作各种改变，包括做出若干简单推演或替换，而不偏离本申请的精神和范围。

Claims

一种基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述网络包括主干网络、上下文选择网络和像素分类网络，所述方法包括：

所述主干网络接收输入数据源图像，对所述输入数据源图像进行逐层地特征提取得到至少一个初级特征图，并将所述至少一个初级特征图输入至所述上下文选择网络；

所述上下文选择网络对所述至少一个初级特征图通过基于全局信息引导的注意力机制来得到所述至少一个初级特征图的不同像素位置处融合全局上下文和局部上下文的权重因子，并根据所述权重因子对所述至少一个初级特征图中的每个像素实现自适应地融合全局上下文和局部上下文，以得到次级特征图，并将所述次级特征图输入至所述像素分类网络；

所述像素分类网络对所述次级特征图进行逐个像素的分类得到场景语义解析结果。
根据权利要求1所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述主干网络为图像分类网络，且包括至少一个主干网络模块，所述主干网络模块用于输出初级特征图，所述上下文选择网络包括至少一个上下文选择块；

所述方法还包括：

所述主干网络模块对所述输入数据源图像进行逐层地特征提取得到并输出初级特征图输入至所述上下文选择块；

所述上下文选择块对所述初级特征图进行所述全局上下文的选择和所述局部上下文的选择的融合得到所述次级特征图。
根据权利要求2所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述主干网络包含n+1个不同空间分辨率的主干网络模块，所述上下文选择网络包括n个上下文选择块，n为大于等于3的正整数；

所述方法还包括：

第1主干网络模块根据所述输入数据源图像输出第1初级特征图，并将其输入至第2主干网络模块和第n上下文选择块；

第i主干网络模块根据第i-1初级特征图输出第i初级特征图至下一级主干网络模块以及输入至对应的第n+1-i上下文选择块，2≤i≤n；

第n+1主干网络模块根据第n初级特征图输出第n+1初级特征图，并将其输入至第1上下文选择块；

第1上下文选择块对接收到的第n+1初级特征图和第n初级特征图进行所述全局上下文的选择和所述局部上下文的选择，输出第1选择特征图后并将其输入至第2上下文选择块；

第i语上下文选择块对接收到的第i-1选择特征图和第n+1-i初级特征图进行所述全局上下文的选择和所述局部上下文的选择，输出第i选择特征图，并将其输入至下一级上下文选择块，2≤i≤n-1；

第n上下文选择块对接收到的第n-1选择特征图和第1初级特征图进行所述全局上下文的选择和所述局部上下文的选择，输出第n选择特征图并将其作为所述次级特征图。
根据权利要求3所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述上下文选择块包括基于全局信息引导的全局上下文模块、基于全局信息引导的局部上下文模块和融合模块；

所述方法还包括：

所述全局上下文模块对输入至所述全局上下文模块的输入数据的所述全局上下文根据全局信息引导的注意力机制，自适应地融合到所述输入数据的不同像素处，得到具有全局上下文信息的输出数据；

所述局部上下文模块对输入至所述局部上下文模块的输入数据的所述局部上下文根据全局信息引导的注意力机制，自适应地进行融合处理，得到具有局部上下文信息的输出数据；

所述融合模块根据所述全局上下文模块的输出数据和所述局部上下文模块的输出数据，进行拼接融合输出选择特征图。
根据权利要求4所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，

第1上下文选择块中的全局上下文模块将接收到的第n+1初级特征图作为第1全局上下文模块的输入数据，并得到第1全局上下文模块的输出数据；所述第1上下文选择块中的局部上下文模块将接收到的第n+1初级特征图和第n初级特征图作为第1局部上下文模块的输入数据，并得到第1局部上下文模块的输出数据；所述第1上下文选择块中的融合模块根据所述第1全局上下文模块的输出数据和所述第1局部上下文模块的输出数据进行特征拼接融合得到并输出第1选择特征图；

第i上下文选择块中的全局上下文模块将接收到的第i-1选择特征图作为第i全局上下文模块的输入数据，并得到第i全局上下文模块的输出数据；第i上下文选择块中的局部上下文模块将接收到的第i-1选择特征图和第n+1-i初级特征图作为第i局部上下文模块的输入数据，并得到第i局部上下文模块的输出数据；所述第i上下文选择块中的融合模块根据所述第i全局上下文模块的输出数据和所述第i局部上下文模块的输出数据进行特征拼接融合得到第i选择特征图；2≤i≤n-1；

第n上下文选择块中的全局上下文模块将接收到的第n-1选择特征图作为第n全局上下文模块的输入数据，并得到第n全局上下文模块的输出数据；第n上下文选择块中的局部上下文模块将接收到的第n-1选择特征图和第1初级特征图作为第n局部上下文模块的输入数据，并得到局部上下文模块的输出数据；第n上下文选择块中的融合模块根据所述第n全局上下文模块的输出数据和所述第i局部上下文模块的输出数据进行特征拼接融合，得到第n选择特征图并将其作为所述次级特征图。
根据权利要求4或5所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述全局上下文模块对输入至所述上下文选择模块中的输入数据进行基于全局信息引导的所述全局上下文的选择性融合，包括：

对所述输入数据进行全局平均池化操作处理得到全局池化特征图；

对所述输入数据、所述全局池化特征图进行融合得到基于全局信息引导的全局上下文注意力图；

通过所述全局上下文注意力图对所述全局池化特征在不同像素位置进行增强和抑制，得到基于全局信息引导的全局上下文特征图；

将所述输入数据和所述基于全局信息引导的全局上下文特征图进行融合，得到进行了全局上下文选择的所述全局上下文模块的输出数据。
根据权利要求6所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，对全局上下文模块的输入数据进行全局平均池化操作得到全局池化特征图，包括：

对全局上下文模块的输入数据依次进行全局池化运算、卷积运算、批归一化操作、激活函数处理和上采样操作处理，得到所述全局池化特征图。
根据权利要求6所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，对所述全局上下文模块的输入数据、所述全局池化特征图进行融合得到所述全局上下文注意力图，包括：

对所述全局上下文模块的输入数据进行卷积运算、批归一化操作和激活函数处理；

对处理后的输入数据和所述全局池化特征图进行拼接融合，并依次进行卷积运算、批归一化操作、激活函数处理、卷积运算和门控操作，得到所述全局上下文注意力图。
根据权利要求6所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，通过全局上下文注意力图对所述全局池化特征图在不同像素位置进行增强和抑制，得到基于全局信息引导的全局上下文特征图，包括：

对所述全局上下文注意力图和所述全局池化特征图的逐个通道进行哈达玛积运算，得到所述基于全局信息引导的全局上下文特征图。
根据权利要求6所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，将所述全局上下文模块的输入数据和所述基于全局信息引导的全局上下文特征图进行融合，包括：

将所述全局上下文模块的输入数据和所述基于全局信息引导的全局上下文特征图进行逐点相加运算，得到所述全局上下文模块的输出数据。
根据权利要求4-10任一项所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述局部上下文模块对输入至所述局部上下文模块中输入数据进行基于全局信息引导的局部上下文的选择性融合，包括：

对所述输入数据中的所述选择特征图进行上采样得到上采样特征图；

对所述上采样特征图进行全局平均池化处理得到全局池化特征图；

对输入至所述局部上下文模块中的第i初级特征图进行卷积处理得到对应的初级局部上下文特征图，1≤i≤n；

根据所述上采样特征图、所述全局池化特征图和所述初级局部上下文特征图得到基于全局信息引导的局部上下文注意力图；

通过所述局部上下文注意力图对所述初级局部上下文特征图的不同像素位置进行增强或抑制，得到基于全局信息引导的局部上下文特征图；

将所述上采样特征图和所述基于全局信息引导的局部上下文特征图进行融合，得到进行了局部上下文选择的所述全局上下文模块的输出数据。
根据权利要求11所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，对所述上采样特征图进行全局平均池化处理得到全局池化特征图，包括：

对所述上采样特征图依次进行全局池化运算、卷积运算、批归一化操作、激活函数处理和上采样操作处理，得到所述全局池化特征图。
根据权利要求11所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，根据所述上采样特征图、所述全局池化特征图和所述初级局部上下文特征图得到所述局部上下文注意力图，包括：

对所述上采样特征图进行卷积运算、批归一化操作和激活函数处理，及对所述初级局部上下文特征图进行卷积运算、批归一化操作和激活函数处理；

对经过处理的上采样特征图和初级局部上下文特征图，以及所述全局池化特征图进行拼接融合，并依次进行卷积运算、批归一化操作、激活函数处理、卷积运算和门控操作，得到所述局部上下文注意力图。
根据权利要求11所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，通过所述局部上下文注意力图对所述初级局部上下文特征图的不同像素位置进行增强或抑制，得到基于全局信息引导的局部上下文特征图，包括：

将所述局部上下文注意力图与所述初级局部上下文特征图的逐个通道进行哈达玛积运算，得到所述基于全局信息引导的局部上下文特征图。
根据权利要求11所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，对所述上采样特征图和所述基于全局信息引导的局部上下文特征图进行融合，包括：

对所述上采样特征图和所述基于全局信息引导的局部上下文特征图依次进行拼接融合及卷积运算、批归一化操作、激活函数处理，得到所述局部上下文模块的输出数据。
根据权利要求2-15任一项所述的基于全局引导选择性上下文网络的场景语义解析方法，其特征在于，所述主干网络对所述输入数据源图像进行特征提取包括：

至少通过卷积层、批归一化层以及激活层的方式对所述输入数据源图像进行逐层的特征变换；

利用所述主干网络中的残差结构堆叠不同主干网络模块，强化信息的流动和梯度的反向传播，进而得到不同层级的特征语义表达。
一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序，所述计算机程序包括程序指令；

处理器，用于执行所述程序指令，以使所述电子设备执行如权利要求1-16任一项所述的基于全局引导选择性上下文网络的场景语义解析方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被计算机运行以使计算机执行如权利要求1-16任一项所述的基于全局引导选择性上下文网络的场景语义解析方法。