WO2021093435A1

WO2021093435A1 - 语义分割网络结构的生成方法、装置、设备及存储介质

Info

Publication number: WO2021093435A1
Application number: PCT/CN2020/114372
Authority: WO
Inventors: 孙鹏; 吴家祥
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-11-12
Filing date: 2020-09-10
Publication date: 2021-05-20
Also published as: US20220051056A1; CN110837811A; CN110837811B

Abstract

一种语义分割网络结构的生成方法、装置、电子设备及计算机可读存储介质；方法包括：为语义分割网络结构中组成超单元的各单元生成对应的架构参数（101）；基于图像样本优化语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构（102）；通过改进后的语义分割网络结构中的聚集单元，对被去除冗余单元的超单元的输出进行特征融合，得到融合后的特征图（103）；对融合后的特征图进行识别处理，确定图像样本中存在的物体对应的位置（104）；基于图像样本中存在的物体对应的位置、以及图像样本所对应的标注，对改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构（105）。

Description

语义分割网络结构的生成方法、装置、设备及存储介质

相关申请的交叉引用

本申请基于申请号为201911102046.3、申请日为2019年11月12日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本申请作为参考。

技术领域

本申请涉及人工智能技术，涉及一种语义分割网络结构的生成方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

语义分割是人工智能领域的重要应用之一，在自动驾驶、实时视频编辑、人脸识别系统、智能硬件等中都有广泛的应用，即语义分割是这些复杂系统的基础组件。

但是，目前语义分割网络结构比较单一、固定，且通过固定的语义分割网络结构，无法实时识别图像中存在的内容以及对应的位置。

发明内容

本申请实施例提供一种语义分割网络结构的生成方法、装置、电子设备及计算机可读存储介质，能够动态调整语义分割网络结构，从而提高实时分割的性能。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语义分割网络结构的生成方法，所述方法由电子设备执行，所述语义分割网络结构包括超单元以及聚集单元，所述方法包括：

为所述语义分割网络结构中组成所述超单元的各单元生成对应的架构参数；

基于图像样本优化所述语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，其中，所述目标单元为所述各单元中具有最大架构参数的单元；

通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图；

对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体对应的位置；

基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。

本申请实施例提供一种图像的语义分割方法，所述方法由电子设备执行，应用于所述训练后的语义分割网络结构；

所述方法包括：

确定待语义分割的图像；

通过所述训练后的语义分割网络结构对所述待语义分割的图像进行识别处理，确定所述待语义分割的图像中存在的物体以及所述物体对应的位置，并

通过预设标注方式标注所述物体以及所述物体对应的位置。

本申请实施例提供一种语义分割网络结构的生成装置，所述装置包括：

添加模块，配置为为语义分割网络结构中组成超单元的各单元生成对应的架构参数；

去除模块，配置为基于图像样本优化所述语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，其中，所述目标单元为所述各单元中具有最大架构参数的单元；

融合模块，配置为通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图；

训练模块，配置为对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体对应的位置；基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。

本申请实施例提供一种图像的语义分割装置，所述装置包括：

确定模块，配置为确定待语义分割的图像；

处理模块，配置为通过训练后的语义分割网络结构对所述待语义分割的图像进行识别处理，确定所述待语义分割的图像中存在的物体以及所述物体对应的位置，并通过预设标注方式标注所述物体以及所述物体对应的位置。

本申请实施例提供一种用于生成语义分割网络结构的电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语义分割网络结构的生成方法。

本申请实施例提供一种用于图像的语义分割的电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像的语义分割方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的语义分割网络结构的生成方法，或者实现本申请实施例提供的图像的语义分割方法。

本申请实施例具有以下有益效果：

通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，实现动态调整语义分割网络结构，降低语义分割网络结构的深度；通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率超单元的输出进行自适应融合，提高实时分割的性能。

附图说明

图1是本申请实施例提供的语义分割网络结构的生成系统10的应用场景示意图；

图2是本申请实施例提供的用于生成语义分割网络结构的电子设备500的结构示意图；

图3-6是本申请实施例提供的语义分割网络结构的生成方法的流程示意图；

图7是本申请实施例提供的图像的语义分割系统20的应用场景示意图；

图8是本申请实施例提供的用于图像的语义分割的电子设备600的结构示意图；

图9是本申请实施例提供的图像的语义分割方法的流程示意图；

图10是本申请实施例提供的超单元结构示意图；

图11是本申请实施例提供的单元结构示意图；

图12是本申请实施例提供的语义分割网络结构的示意图；

图13是本申请实施例提供的聚集单元的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)图像识别：利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。图像识别技术一般分为人脸识别与物品识别，人脸识别主要运用在安全检查、身份核验与移动支付中；物品识别主要运用在物品流通过程中，特别是无人货架、智能零售柜等无人零售领域。

2)目标检测：也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

3)单元：由神经网络中的至少一个节点组成，本申请实施例中的单元可以为由两个节点(第一中间节点和第二中间节点)构成，例如将第k-1单元和第k单元的输出结果输入到k+1单元中的第一中间节点，第一中间节点进行处理后将第一中间节点的输出结果输入到k+1单元中的第二中间节点，第二中间节点进行处理后将第二中间节点的输出结果输入到第k+2单元中。

4)超单元：由相同阶段(分辨率)的单元组成，例如k-1单元和第k单元的分辨率为128*128，k+1单元和第k+2单元的分辨率为64*64，则k-1单元和第k单元组成一种超单元，k+1单元和第k+2单元组成另一种超单元。

5)语义分割：通过对图像中的每个像素进行密集的预测、推断标签来实现细粒度的推理，从而使每个像素都被标记所属类别。即通过查找图像中所有像素所属类别来识别图像中存在的内容以及位置。

本申请实施例记载的语义分割网络结构可以应用于各种识别领域，例如可以是图像识别神经网络、目标检测神经网络、人脸检测神经网络、自动驾驶系统等识别领域，即本申请实施例中的语义分割网络结构并不局限于某种识别领域。

相关技术中，针对实时语义分割问题，包括手工设计的网络结构以及神经网络搜索方法。

其中，手工设计的网络结构(例如，密集特征融合方案、双向网络)需要用户不断的试错，尝试新结构并且重新训练。神经网络搜索方法(例如，CAS)虽然可以解决这一重复性的工作，但是不能动态调整网络的层数，也没有考虑不同阶段特征的融合。

综上，本领域技术人员未对语义分割网络结构进行分析，且上述技术问题对于本领域技术人员来说并不是公知常识，因此，本领域技术人员难以发现并提出上述技术问题。而本申请实施例，针对语义分割网络结构进行了分析，从而发现上述技术问题。

为至少解决相关技术的上述技术问题，本申请实施例提供一种语义分割网络结构的生成方法、装置、电子设备和计算机可读存储介质，能够动态调整语义分割网络结构，从而提高实时分割的性能，降低计算复杂度，节约计算成本，并将训练后的语义分割网络结构应用于后续的语义分割操作中。下面说明本申请实施例提供的用于生成语义分割网络结构的电子设备的示例性应用，本申请实施例提供的用于生成语义分割网络结构的电子设备可以是服务器，例如部署在云端的服务器，根据其他电子设备或者用户提供的初始的语义分割网络结构以及图像样本，基于初始的语义分割网络结构以及图像样本进行一系列处理，得到对应训练后的语义分割网络结构，并向用户提供对应训练后的语义分割网络结构，以便进行后续的语义分割操作；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入的初始的语义分割网络结构、以及图像样本，获得对应训练后的语义分割网络结构，并向用户提供对应训练后的语义分割网络结构，以便进行后续的语义分割操作。

作为示例，参见图1，图1是本申请实施例提供的语义分割网络结构的生成系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本申请实施例提供的语义分割网络结构的生成方法来完成根据用户输入的初始的语义分割网络结构以及图像样本，得到训练后的语义分割网络结构，例如，在终端200上安装语义分割网络结构生成助手，用户在语义分割网络结构生成助手中，输入初始的语义分割网络结构以及图像样本，终端200根据输入的初始的语义分割网络结构以及图像样本，得到训练后的语义分割网络结构，并将训练后的语义分割网络结构显示在终端200的显示界面210上，以便用户根据训练后的语义分割网络结构进行图像识别、目标检测等应用。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端200上输入的初始的语义分割网络结构以及图像样本，并调用服务器100提供的语义分割网络结构的生成功能，服务器100通过本申请实施例提供的语义分割网络结构的生成方法获得训练后的语义分割网络结构，例如，在终端200上安装语义分割网络结构生成助手，用户在语义分割网络结构生成助手中，输入初始的语义分割网络结构以及图像样本，终端通过网络300向服务器100发送初始的语义分割网络结构以及图像样本，服务器100接收到该初始的语义分割网络结构以及图像样本进行一系列处理，得到训练后的语义分割网络结构，并返回训练后的语义分割网络结构至语义分割网络结构生成助手，将训练后的语义分割网络结构显示在终端200的显示界面210上，或者，服务器100直接给出训练后的语义分割网络结构，以便用户根据训练后的语义分割网络结构进行图像识别、目标检测等应用。

在一个实施场景中，为了得到针对图像识别的语义分割网络结构，服务器或者终端可以基于初始的语义分割网络结构以及图像样本，基于图像样本优化该初始的语义分割网络结构，并去除冗余单元，通过改进后的语义分割网络结构，确定图像样本中存在的物体以及物体对应的位置，并基于图像样本中存在的物体以及物体对应的位置，训练改进后的语义分割网络结构，以便后续可以根据训练后的语义分割网络结构对图像进行语义分割，确定图像所属类别，例如根据训练后的语义分割网络结构对图像进行语义分割，得到图像所对应的标签(小轿车、汽车、公交车等)。通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，并通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率的融合超单元输出进行自适应融合，提高图像实时分割的性能。

在一个实施场景中，为了得到针对目标检测的语义分割网络结构，服务器或者终端可以基于初始的语义分割网络结构以及目标对象样本，基于目标对象样本优化该初始的语义分割网络结构，并去除冗余单元，得到改进后的语义分割网络结构，通过改进后的语义分割网络结构，确定目标对象样本中存在的物体以及物体对应的位置，并基于目标对象样本中存在的物体以及物体对应的位置，训练改进后的语义分割网络结构，以便后续可以根据训练后的语义分割网络结构对目标对象进行语义分割，确定目标对象所属类别，例如根据训练后的语义分割网络结构对目标对象进行语义分割，得到目标对象所对应的标签(树木、行人、车辆等)，从而检测出行人。通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，并通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率的融合超单元输出进行自适应融合，提高目标对象实时分割的性能。

在一个实施场景中，为了得到针对人脸识别的语义分割网络结构，服务器或者终端可以基于初始的语义分割网络结构、以及人脸样本，基于人脸样本优化该初始的语义分割网络结构，并去除冗余单元，通过改进后的语义分割网络结构，确定人脸样本中存在的物体以及物体对应的位置，基于人脸样本中存在的物体以及物体对应的位置，训练改进后的语义分割网络结构，以便后续可以根据训练后的语义分割网络结构对人脸进行语义分割，确定人脸所属类别，从而实现人脸识别，例如根据训练后的语义分割网络结构对人脸进行语义分割，得到人脸所对应的标签(小明、小红、小强等)。通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，并通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率的融合超单元输出进行自适应融合，提高人脸实时分割的性能。

在一个实施场景中，为了得到针对自动驾驶的语义分割网络结构，服务器或者终端可以基于初始的语义分割网络结构以及路况驾驶样本，基于路况驾驶样本优化该初始的语义分割网络结构，并去除冗余单元，通过改进后的语义分割网络结构中的聚集单元，确定路况驾驶样本中存在的物体以及物体对应的位置，基于路况驾驶样本中存在的物体以及物体对应的位置，训练改进后的语义分割网络结构，以便后续可以根据训练后的语义分割网络结构对路况进行语义分割，确定路况所属的驾驶类别，从而实现根据路况自动驾驶，例如根据训练后的语义分割网络结构对路况进行语义分割，得到路况所对应的标签(左拐、右拐、直行等)。通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，并通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率的融合超单元输出进行自适应融合，提高路况实时分割的性能。

在一个实施场景中，为了得到针对视频编辑的语义分割网络结构，服务器或者终端可以基于初始的语义分割网络结构以及视频编辑样本，基于视频编辑样本优化该初始的语义分割网络结构，并去除架冗余单元，得到改进后的语义分割网络结构，通过改进后的语义分割网络结构，确定视频编辑样本中存在的物体以及物体对应的位置，基于视频编辑样本中存在的物体以及物体对应的位置，训练改进后的语义分割网络结构，以便后续可以根据训练后的语义分割网络结构对视频进行语义分割，确定视频所属的编辑类别，从而实现根据视频自动实时编辑，例如根据训练后的语义分割网络结构对视频进行语义分割，得到视频所对应的标签(裁剪、缩小、放大等)。通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，并通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率的融合超单元输出进行自适应融合，提高视频实时分割的性能。

继续说明本申请实施例提供的用于生成语义分割网络结构的电子设备的结构，用于生成语义分割网络结构的电子设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本申请实施例提供的用于生成语义分割网络结构的电子设备500的结构示意图，图2所示的用于生成语义分割网络结构的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。用于生成语义分割网络结构的电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Rand om Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语义分割网络结构的生成装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的语义分割网络结构的生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语义分割网络结构的生成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本申请实施例提供的语义分割网络结构的生成装置可以采用软件方式实现，图2示出了存储在存储器550中的语义分割网络结构的生成装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括添加模块5551、去除模块5552、融合模块5553、训练模块5554、以及合并模块5555；其中，添加模块5551、去除模块5552、融合模块5553、训练模块5554、以及合并模块5555用于实现本申请实施例提供的语义分割网络结构的生成方法。

根据上文可以理解，本申请实施例提供的语义分割网络结构的生成方法可以由各种类型的用于生成语义分割网络结构的电子设备实施，例如智能终端和服务器等。

下面结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的语义分割网络结构的生成方法。参见图3，图3是本申请实施例提供的语义分割网络结构的生成方法的流程示意图，结合图3示出的步骤进行说明。

在下面步骤中，超单元为由相同阶段(分辨率)的单元组成，例如k-1单元和第k单元的分辨率为128*128，则k-1单元和第k单元组成一种超单元。聚集单元用于进行特征融合，以自适应地融合不同尺度下的特征。

在步骤101中，为语义分割网络结构中组成超单元的各单元生成对应的架构参数。

作为获取语义分割网络结构的示例，用户在客户端(运行于终端)中输入初始的语义分割网络结构以及图像样本，终端自动获取针对语义分割网络结构的生成请求(包括初始的语义分割网络结构)，并将针对语义分割网络结构的生成请求发送至服务器，服务器接收针对语义分割网络结构的生成请求，并提取语义分割网络结构。然后，为了后续更够去除超单元中的冗余单元，可以先为语义分割网络结构中组成超单元的各单元添加对应的架构参数。

参见图4，图4是本申请实施例提供的一个可选的流程示意图，在一些实施例中，图4示出图3中的步骤101之前，还包括步骤106。

在步骤106中，将语义分割网络结构中相同分辨率的单元合并为超单元；根据超单元的数量，确定聚集单元的结构。

在生成对应的架构参数之前，需要初始化语义分割网络结构，即构建语义分割网络结构中的超单元，其中超单元是由语义分割网络结构中相同分辨率的单元组成的，在将相同分辨率的单元合并为超单元后，确定超单元的数量，并根据超单元的数量，确定语义分割网络结构中聚集单元的结构，以便后续聚集单元进行下采样操作。

在一些实施例中，根据超单元的数量，确定聚集单元的结构，包括：确定超单元的数量N；将聚集单元中对应第i超单元的下采样单元的数量确定为N-i；其中，N为大于或者等于2的正整数，i为正整数，且i小于或者等于N。

在确定超单元的数量N后，根据超单元的顺序，依次确定聚集单元中对应N个超单元的下采样单元的数量。例如，当确定超单元的数量为3，则确定聚集单元中对应第1超单元的下采样单元的数量为2、对应第2超单元的下采样单元的数量为1、对应第3超单元的下采样单元的数量为0；当确定超单元的数量为4，则确定聚集单元中对应第1超单元的下采样单元的数量为3、对应第2超单元的下采样单元的数量为2、对应第3超单元的下采样单元的数量为1、对应第4超单元的下采样单元的数量为0。根据经验值，一般超单元的数量为3或4。

在一些实施例中，为语义分割网络结构中组成超单元的各单元添加对应的架构参数，包括：确定语义分割网络结构中组成超单元的单元的数量M；针对语义分割网络结构中组成超单元的各个单元，生成对应的取值为1/M的架构参数。

当初始化语义分割网络结构后，需要为语义分割网络结构中组成超单元的各单元添加对应的初始的架构参数。其中，初始的架构参数是根据超单元的单元的数量确定的。因此，在确定了语义分割网络结构中组成超单元的单元的数量M后，可以针对语义分割网络结构中组成超单元的各个单元，生成对应的取值为1/M的架构参数。例如，确定语义分割网络结构中组成超单元的单元的数量为10，则针对语义分割网络结构中组成超单元的各个单元，生成对应的初始架构参数为0.1。

在步骤102中，基于图像样本优化语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构。

其中，目标单元为各单元中具有最大架构参数的单元。为了确定出架构参数最大值，需要基于图像样本优化语义分割网络结构，并去除优化后架构参数最大值对应的目标单元所属超单元中的冗余单元，从而实现动态调整语义分割网络结构，降低语义分割网络结构的深度。

在一些实施例中，基于图像样本优化语义分割网络结构，包括：基于图像样本，对语义分割网络结构的自身参数、各单元的操作参数以及架构参数进行联合训练，确定训练得到的最大架构参数，并将最大架构参数对应的单元确定为目标单元。

为了确定出架构参数最大值，需要基于图像样本对语义分割网络结构进行粗训练，只要能确定出架构参数最大值即可，其粗训练的过程为基于图像样本，对语义分割网络结构的自身参数、各单元的操作参数以及架构参数进行联合训练，确定出训练得到的最大架构参数后，并将最大架构参数对应的单元确定为目标单元。其中，单元的操作参数可以为池化操作、卷积操作、恒等映射等操作。

在一些实施例中，确定训练得到的最大架构参数，并将最大架构参数对应的单元确定为目标单元，包括：将训练得到的架构参数为1所对应的单元确定为目标单元。

在粗训练的过程中，当各单元的架构参数为1时，则将架构参数为1所对应的单元确定为目标单元，以便后续去除超单元中的冗余单元。例如，各单元初始的架构参数为0.1，经过粗训练后，第4单元的架构参数变换为 1，则第4单元为目标单元。

在一些实施例中，去除架构参数最大值对应的目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，包括：确定目标单元在所属的超单元中的排序j，并去除超单元中在排序j之后的冗余单元；根据去除冗余单元之后的超单元以及聚集单元，构建改进后的语义分割网络结构。

在确定目标单元后，可以确定目标单元在所属的超单元中的排序，并去除超单元中在该序列之后的冗余单元，从而基于除冗余单元之后的超单元以及聚集单元，构建改进后的语义分割网络结构，使得改进后的语义分割网络结构没有冗余单元，实现动态调整语义分割网络结构，降低语义分割网络结构的深度。例如，第1超单元包含10个单元，其中，第4单元的架构参数变换为1，则去除第1超单元中第4单元之后的冗余单元、即去除第1超单元中单元5-单元10，去除冗余单元后的第1超单元仅包含单元1-单元4。其中，粗训练过程中超单元的输出为超单元中单元的输出与各单元的架构参数的加权和，例如，f(x ^k)表示超单元中第k个单元输出的特征，β _k表示第k个单元的架构参数，n表示单元的数量，则该超单元的输出为

在步骤103中，通过改进后的语义分割网络结构中的聚集单元，对被去除冗余单元的超单元的输出进行特征融合，得到融合后的特征图。

在确定了改进后的语义分割网络结构后，可以语义分割网络结构中的聚集单元，对被去除冗余单元的超单元的输出进行特征融合，得到融合后的特征图，以便后续基于融合后的特征图对改进后的语义分割网络结构进行精训练，从而得到训练后的语义分割网络结构，便于后续对图像进行语义分割。

参见图5，图5是本申请实施例提供的一个可选的流程示意图，在一些实施例中，图5示出图3中的步骤103可以通过图5示出的步骤1031至步骤1033实现。

在步骤1031中，通过改进后的语义分割网络结构中超单元的下采样单元，对输入的特征图进行下采样处理，得到对应超单元的特征图。

在通过粗训练确定单元中架构参数最大值，并去除架构参数最大值对应的目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构后，可以先通过改进后的语义分割网络结构中超单元的下采样单元对输入的特征图进行下采样处理，得到对应超单元的特征图。

其中，超单元包括下采样单元和正常单元，下采样单元的步长为2，从而实现下采样的功能，而正常单元的步长为1，不能实现下采样的功能。当确定改进后的语义分割网络结构后，向该改进后的语义分割网络结构输入图像，首先经过一层下采样为的卷积神经网络，然后依次经过三个连续的超单元，其中每个超单元的第一个单元为下采样单元，其余的单元为正常单元，通过各超单元的下采样单元对输入的特征图进行下采样处理，得到对应该超单元的特征图，并输入至下一个超单元或者聚集单元。

在一些实施例中，通过改进后的语义分割网络结构中超单元的下采样单元对输入的特征图进行下采样处理，得到对应超单元的特征图，包括：确定改进后的语义分割网络结构中去除冗余单元的第i超单元；通过第i超单元对输入的特征图进行下采样处理，得到对应第i超单元的特征图。

为了通过改进后的语义分割网络结构中超单元的下采样单元对输入的特征图进行下采样处理，首先可以确定改进后的语义分割网络结构中去除冗余单元的第i超单元，然后通过第i超单元对输入的特征图进行下采样处理，得到对应第i超单元的特征图，并输入至下一个超单元或者聚集单元。例如，当改进后的语义分割网络结构有3个超单元，则当确定改进后的语义分割网络结构中去除冗余单元的第1超单元，通过第1超单元对输入的特征图进行下采样处理，得到对应第1超单元的特征图，并将对应第1超单元的特征图输入至第1超单元以及聚集单元；当确定改进后的语义分割网络结构中去除冗余单元的第2超单元，通过第2超单元对输入的对应第1超单元的特征图进行下采样处理，得到对应第2超单元的特征图，并将对应第2超单元的特征图输入至第3超单元以及聚集单元；当确定改进后的语义分割网络结构中去除冗余单元的第3超单元，通过第3超单元对输入的对应第2超单元的特征图进行下采样处理，得到对应第3超单元的特征图，并将对应第3超单元的特征图输入至聚集单元。

在步骤1032中，通过聚集单元中的下采样单元，依次对被去除冗余单元的超单元输出的特征图进行下采样处理，得到对应超单元的多个相同分辨率的特征图。

在超单元的下采样单元对输入的特征图进行下采样处理后，可以再通过聚集单元中的下采样单元，依次对被去除冗余单元的超单元输出的特征图进行下采样处理，从而得到对应超单元的各相同分辨率的特征图，以便后续对相同分辨率的特征图进行融合处理。

在一些实施例中，通过聚集单元中的下采样单元，依次对被去除冗余单元的超单元输出的特征图进行下采样处理，得到对应超单元的多个相同分辨率的特征图，包括：通过聚集单元中的N-i个下采样单元对第i超单元进行N-i次下采样处理，得到对应第i超单元的下采样特征图。

其中，N个超单元的下采样特征图的分辨率相同。为了使得N个超单元的下采样特征图的分辨率相同，可以通过聚集单元中的下采样单元对超单元进行下采样处理，得到对应超单元的下采样特征图，即通过聚集单元中的N-i个下采样单元对第i超单元进行N-i次下采样处理，得到对应第i超单元的下采样特征图。例如，当改进后的语义分割网络结构有3个超单元，则通过聚集单元中的第2个下采样单元对第1超单元输出的特征图进行2次下采样处理，得到对应第1超单元的下采样特征图；通过聚集单元中的1个下采样单元对第2超单元输出的特征图进行1次下采样处理，得到对应第2超单元的下采样特征图；不对第3超单元输出的特征图进行下采样处理，可以通过聚集单元中的正常单元对第3超单元进行除下采样之外的其他操作，得到对应第3超单元的正常特征图。最后，可以将对应第1超单元的下采样特征图、对应第2超单元的下采样特征图以及对应第3超单元的正常特征图输入至聚集单元中的正常单元再次进行除下采样之外的其他操作，以便后续进行融合处理。

在步骤1033中，对多个相同分辨率的特征图进行融合处理，得到融合后的特征图。

在得到了相同分辨率的特征图后，可以对各相同分辨率的特征图进行融合处理，得到融合后的特征图，以便进行后续的语义分割处理。其中，融合处理可以是拼接处理、即将对应超单元的下采样特征图依次拼接，得到融合后的特征图。通过特征融合，可以对不同分辨率超单元的输出进行自适应融合，提高实时分割的性能，适用于各种语义分割的应用场景。

在步骤104中，对融合后的特征图进行识别处理，确定图像样本中存在的物体对应的位置。

在得到融合后的特征图后，为了对改进后的语义分割网络结构进行精训练，可以对融合后的特征图进行识别处理，从而确定图像样本中存在的物体以及物体对应的位置，以便后续基于图像样本中存在的物体以及物体对应的位置对改进后的语义分割网络结构进行训练。

参见图6，图6是本申请实施例提供的一个可选的流程示意图，在一些实施例中，图6示出图3中的步骤104可以通过图6示出的步骤1041至步骤1042实现。

在步骤1041中，对融合后的特征图进行特征映射，得到对应图像样本的映射特征图。

由于融合后的特征图为低分辨率的特征图，需要将低分辨率的特征图进行特征映射，将低分辨率的特征图映射到像素级别的特征图上，可以通过上采样产生特征密集的特征图。因此可以对融合后的特征图进行特征映射，得到对应图像样本的映射特征图，以便后续进行识别处理。

在步骤1042中，对对应图像样本的映射特征图进行识别处理，确定图像样本中存在的物体对应的位置。

在得到对应图像样本的映射特征图后，根据语义分割方法对对应图像样本的映射特征图进行识别处理，从而确定图像样本中存在的物体以及物体对应的位置，以便后续根据图像样本中存在的物体以及物体对应的位置对改进后的语义分割网络结构进行训练。

在步骤105中，基于图像样本中存在的物体对应的位置、以及图像样本所对应的标注，对改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。

在得到图像样本中存在的物体以及物体对应的位置后，可以获取图像样本所对应的标注，其中图像样本所对应的标注为用户预先通过人工进行标注的图像样本中存在的物体以及物体对应的位置，当获得图像样本中存在的物体以及物体对应的位置、和图像样本所对应的标注之后，可以基于图像样本中存在的物体以及物体对应的位置、和图像样本所对应的标注，对改进后的语义分割网络结构进行迭代训练，从而生成训练后的语义分割网络结构，以便后续通过训练后的语义分割网络结构对其他的图像进行语义分割。

在一些实施例中，基于图像样本中存在的物体以及物体对应的位置、和图像样本所对应的标注，对改进后的语义分割网络结构进行训练，包括：基于图像样本中存在的物体对应的位置、以及图像样本所对应的标注，构建改进后的语义分割网络结构的损失函数；更新改进后的语义分割网络结构的自身参数直至损失函数收敛。

当服务器基于图像样本中存在的物体对应的位置、以及图像样本所对应的标注，构建改进后的语义分割网络结构的损失函数的值后，可以判断损失函数的值是否超出预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定改进后的语义分割网络结构的误差信号，将误差信息在改进后的语义分割网络结构中反向传播，并在传播的过程中更新各个层的模型参数。

这里，对反向传播进行说明，将训练样本数据输入到神经网络模型的输入层，经过隐藏层，最后达到输出层并输出结果，这是神经网络模型的前向传播过程，由于神经网络模型的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整模型参数的值；不断迭代上述过程，直至收敛，其中，语义分割网络结构属于神经网络模型。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的语义分割网络结构的生成方法，下面继续说明本申请实施例提供的语义分割网络结构的生成装置555中各个模块配合实现语义分割网络结构的生成的方案。

添加模块5551，配置为为语义分割网络结构中组成超单元的各单元生成对应的架构参数；去除模块5552，配置为基于图像样本优化所述语义分割网络结构，并去除架构参数最大值对应的目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构；融合模块5553，配置为通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图；训练模块5554，配置为对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体以及所述物体对应的位置；基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。

在一些实施例中，所述语义分割网络结构的生成装置555还包括：合并模块5555，配置为将所述语义分割网络结构中相同分辨率的单元合并为所述超单元；根据所述超单元的数量，确定所述聚集单元的结构。

在一些实施例中，所述合并模块5555还配置为确定所述超单元的数量N；将所述聚集单元中对应第i超单元的下采样单元的数量确定为N-i；其中，N为大于或者等于2的正整数，i为正整数，且i小于或者等于N。

在一些实施例中，所述添加模块5551还配置为确定所述语义分割网络结构中组成所述超单元的单元的数量M；针对所述语义分割网络结构中组成所述超单元的各个单元，生成对应的取值为1/M的架构参数。

在一些实施例中，所述去除模块5552还配置为基于图像样本，对所述语义分割网络结构的自身参数、所述各单元的操作参数以及所述架构参数进行联合训练，确定训练得到的最大架构参数最大值，并将所述最大架构参数对应的单元确定为目标单元。

在一些实施例中，所述去除模块5552还配置为将训练得到的架构参数为1所对应的单元确定为目标单元。

在一些实施例中，所述去除模块5552还配置为确定所述目标单元在所属的超单元中的排序j，并去除所述超单元中在排序j之后的冗余单元；根据去除冗余单元之后的超单元以及所述聚集单元，构建改进后的语义分割网络结构。

在一些实施例中，所述融合模块5553还配置为通过所述改进后的语义分割网络结构中超单元的下采样单元，对输入的特征图进行下采样处理，得到对应所述超单元的特征图；通过所述聚集单元中的下采样单元，依次对被去除所述冗余单元的超单元输出的特征图进行下采样处理，得到对应所述超单元的多个相同分辨率的特征图；对所述多个相同分辨率的特征图进行融合处理，得到融合后的特征图。

在一些实施例中，所述融合模块5553还配置为确定所述改进后的语义分割网络结构中去除所述冗余单元的第i超单元；通过所述第i超单元对输入的特征图进行下采样处理，得到对应所述第i超单元的特征图；通过所述聚集单元中的N-i个下采样单元对所述第i超单元进行N-i次下采样处理，得到对应所述第i超单元的下采样特征图；其中，对应N个所述超单元的下采样特征图的分辨率相同。

在一些实施例中，所述训练模块5554还配置为对所述融合后的特征图进行特征映射，得到对应所述图像样本的映射特征图；对所述对应所述图像样本的映射特征图进行识别处理，确定所述图像样本中存在的物体以及所述物体对应的位置；基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，构建所述改进后的语义分割网络结构的损失函数；更新所述改进后的语义分割网络结构的自身参数直至所述损失函数收敛。

基于上述对语义分割网络结构的生成方法以及结构的说明，接下来对本申请实施例提供的用于图像的语义分割的电子设备的示例性应用，作为示例，参见图7，图7是本申请实施例提供的图像的语义分割系统20的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本申请实施例提供的图像的语义分割方法来完成根据用户输入的待语义分割的图像，得到待语义分割的图像中存在的物体以及物体对应的位置，例如，在终端200上安装语义分割助手，用户在语义分割助手中，输入待语义分割的图像，终端200根据输入的待语义分割的图像，得到待语义分割的图像中存在的物体以及物体对应的位置，并将待语义分割的图像中存在的物体以及物体对应的位置显示在终端200的显示界面210上。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端200上输入的待语义分割的图像，并调用服务器100提供的图像的语义分割功能，服务器100通过本申请实施例提供的图像的语义分割方法获得待语义分割的图像中存在的物体以及物体对应的位置，例如，在终端200上安装语义分割助手，用户在语义分割助手中，输入待语义分割的图像，终端通过网络300向服务器100发送待语义分割的图像，服务器100接收到该待语义分割的图像后，通过对该待语义分割的图像进行识别处理，得到待语义分割的图像中存在的物体以及物体对应的位置，并返回待语义分割的图像中存在的物体以及物体对应的位置至语义分割助手，将待语义分割的图像中存在的物体以及物体对应的位置显示在终端200的显示界面210上，或者，服务器100直接给出待语义分割的图像中存在的物体以及物体对应的位置。

基于上述图像的语义分割系统进行说明。参见图8，图8是本申请实施例提供的用于图像的语义分割的电子设备600的结构示意图，图8所示的用于图像的语义分割的电子设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中，处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似，即输出装置631、输入装置632的功能与输出装置531、输入装置532的功能类似，操作系统651、网络通信模块652、显示模块653、输入处理模块654的功能分别与操作系统551、网络通信模块552、显示模块553、输入处理模块554的功能类似，不做赘述。

在另一些实施例中，本申请实施例提供的图像的语义分割装置可以采用软件方式实现，图8示出了存储在存储器650中的图像的语义分割装置655，其可以是程序和插件等形式的软件，并包括一系列的模块，包括确定模块6551以及处理模块6552；其中，确定模块6551以及处理模块6552用于实现本申请实施例提供的图像的语义分割方法。

根据上文可以理解，本申请实施例提供的图像的语义分割方法可以由各种类型的用于图像的语义分割的电子设备实施，例如智能终端和服务器等。

下面结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的图像的语义分割方法。参见图9，图9是本申请实施例提供的图像的语义分割方法的流程示意图，结合图9示出的步骤进行说明。

在步骤201中，确定待语义分割的图像。

例如，用户在终端上输入的待语义分割的图像，输入完成后，终端也可以通过网络向服务器发送用户在终端上输入的待语义分割的图像，服务器接收到该待语义分割的图像后，可以确定待语义分割的图像，以进行语义分割。

在步骤202中，通过训练后的语义分割网络结构对待语义分割的图像进行识别处理，确定待语义分割的图像中存在的物体以及物体对应的位置，并通过预设标注方式标注物体以及物体对应的位置。

其中，通过训练后的语义分割网络结构中的超单元对带分割的图像进行下采样的处理后，并通过聚集单元对超单元的输出进行特征融合，得到融合后的特征图，再对融合后的特征图进行识别处理，从而确定待语义分割的图像中存在的物体以及物体对应的位置，并通过预设标注方式标注物体以及物体对应的位置，以便用户查看语义分割后的图像。其中，预设标注方式可以是通过不同的颜色对不同的物体进行标注，还可以通过标注方框对待语义分割的图像中存在的物体进行标注，还可以虚线框沿着物体的边缘进行标注，本申请实施例的预设标注方式并不限于上述标注方式。

在一些实施例中，通过聚集单元对超单元的输出进行特征融合，得到融合后的特征图，包括：通过超单元的下采样单元对输入的特征图进行下采样处理，得到对应超单元的特征图；通过聚集单元中的下采样单元，依次对超单元输出的特征图进行下采样处理，得到对应超单元的多个相同分辨率的特征图；对多个相同分辨率的特征图进行融合处理，得到融合后的特征图。

在一些实施例中，通过超单元的下采样单元对输入的特征图进行下采样处理，得到对应超单元的特征图，包括：确定第i超单元；通过第i超单元对输入的特征图进行下采样处理，得到对应第i超单元的特征图；

例如，通过聚集单元中的下采样单元，依次对超单元输出的特征图进行下采样处理，得到对应超单元的各相同分辨率的特征图，包括：通过聚集单元中的N-i个下采样单元对第i超单元进行N-i次下采样处理，得到对应第i超单元的下采样特征图；其中，对应N个超单元的下采样特征图的分辨率相同。

在一些实施例中，对融合后的特征图进行识别处理，从而确定待语义分割的图像中存在的物体以及物体对应的位置，包括：对融合后的特征图进行特征映射，得到对应待语义分割的图像的映射特征图；对对应待语义分割的图像的映射特征图进行识别处理，确定待语义分割的图像中存在的物体以及物体对应的位置。

至此已经说明本申请实施例提供的图像的语义分割方法，下面继续说明本申请实施例提供的图像的语义分割装置655中各个模块配合实现图像的语义分割的方案。

确定模块6551，配置为确定待语义分割的图像；

处理模块6552，配置为通过训练后的语义分割网络结构对待语义分割的图像进行识别处理，确定待语义分割的图像中存在的物体以及物体对应的位置，并通过预设标注方式标注物体以及物体对应的位置。

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本申请实施例所述装置中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例还提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的语义分割网络结构的生成方法，例如，如图3-6示出的语义分割网络结构的生成方法，或本申请实施例提供的图像的语义分割方法，例如，如图9示出的图像的语义分割方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper Text Markup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

为解决手工设计的网络结构以及神经网络搜索方法所产生的问题，本申请实施例提出一种语义分割网络结构的生成方法，将原始的单元按照不同下采样阶段构建多个超单元，并引入超单元架构参数，基于架构参数自适应地调整每个阶段的单元个数；同时，针对图像分割中上下文特征的聚集构建聚集单元，更好地融合不同尺度间的特征。该方法可以在语义分割中，生成出实时高每秒传输帧数(FPS，Frames Per Second)且高性能的语义分割网络，用于自动驾驶、手机端等实时领域。

在语义分割问题中，下采样策略(在合适的地方进行下采样)非常关键，将这一过程建模成单元级别剪枝的过程。如图10所示，图10是本申请实施例提供的超单元结构示意图，将原始的单元结构按照不同下采样阶段(分辨率)分成多个超单元，相同分辨率大小的单元结构属于同一种超单元，在单元间引入架构参数；另外，对于语义分割问题中，不同尺度的特征融合也十分关键，对于高分辨率的空间信息(靠前的超单元的输出)和低分辨率的语义信息(靠后的超单元的输出)，通过建立聚集单元，可以有效的自适应融合特征，提高实时分割网络的性能。

本申请实施例的实现分为三个阶段，分别是：1)单元级别剪枝；2)聚集单元搜索；3)网络预训练和再训练。

1)单元级别剪枝

如图10所示，将相同阶段(分辨率)的单元合并成为超单元，并且引入单元级别的架构参数β，并融合超单元中每个单元的输出，将整个超单元的输出表示成单元输出的结合，超单元的输出的计算公式如公式(1)所示：

其中，f(x ^k)表示超单元中第k个单元输出的特征，β _k表示第k个单元的架构参数，n表示单元的数量，Output_{super_cell}表示超单元的输出。

架构参数β _k采样方式为类别变分自编码器(Gumbel Softmax)，并在训练过程中优化Gumbel Softmax为one-hot编码，通过引入单元级别架构参数β _k，将单元级别架构参数β _k、网络本身的参数以及单元内原始的架构参数λ(候选操作集合中的任意一种操作)一起联合训练，在同一轮反向传播中更新这三种参数。最终优化完成后，如图10，如果架构参数的最大值为虚线β ₃所示，那么其后面的单元(单元2-4)将会被舍弃，从而实现动态调整网络的深度。

其中，如图11所示，图11是本申请实施例提供的单元结构示意图，本申请实施例中的单元由神经网络中的至少一个节点组成，本申请实施例中的单元可以由两个节点(中间节点1和中间节点2)构成，例如将第k-1单元和第k-2单元的输出结果输入到k单元中的中间节点1，中间节点1进行操作处理后将中间节点1的输出结果输入到中间节点2，中间节点进行操作处理后将中间节点2的输出结果输入到第k+1单元以及第k+2单元中，其中实线表示候选操作集合中的任意一项操作，虚线表示输出。

如图12所示，图12是本申请实施例提供的语义分割网络结构的示意图，其中输入为图像，首先经过一层下采样为2的卷积神经网络(CNN)，然后经过三个连续的超单元，每个超单元中的第一个单元为下采样单元(Reduction Cell)，其余单元为正常单元(Normal Cell)，整个语义分割网络结构将图片下采样16倍，最后三个超单元的输出合并，并输入至聚集单元。

其中，下采样单元(Reduction Cell)和正常单元(Normal Cell)的候选操作集合可以由平均池化层、最大池化层、1x1卷积层、恒等映射、3x3卷积层、3x3空洞卷积、5x5空洞卷积、3x3组卷积等组成，即下采样单元和正常单元可以由候选操作集合中的任意一个操作组成。

2)聚集单元搜索

本申请实施例通过使用聚集单元来融合不同分辨率大小的特征图，将低层的空间特征(靠前的超单元的输出，例如超单元1)和深层的语义信息(靠后的超单元的输出，例如超单元3)融合，三个超单元的输出分别需要经过2次、1次、0次下采样来达到同样大小的特征图尺寸，如图13所示，图13是本申请实施例提供的聚集单元的结构示意图，聚集单元总共由5个单元组成，其中对应超单元1有两个下采样单元(Reduction Cell)，对应超单元2有1个下采样单元，对应超单元3有1个正常单元(Normal Cell)，并将下采样单元2、下采样单元3、正常单元1的输出输入至正常单元2，即将三个超单元输出的特征处理成相同尺寸后，再进行特征拼接来有效的自适应的融合特征，提高实时分割网络的性能。

对于聚集单元的候选操作集合可以由平均池化层、最大池化层、1x1卷积层、恒等映射、3x3卷积层、3x3空洞卷积、3x3组卷积和通道注意力机制层、空间注意力机制层等组成，即聚集单元中的单元可以由候选操作集合中的任意一个操作组成。

3)网络预训练和再训练

在本申请实施例基于前两个阶段搜索出的结构，可以得到完整的神经网络结构(改进后的语义分割网络结构)，并使用ImageNet数据集进行预训练，提高网络结构的泛化能力且更好的初始化网络结构的参数；然后将网络结构在分割数据集上进行重新训练，得到更加高效的语义分割网络结构(训练后的语义分割网络结构)。

通过预训练和再训练确定训练后的语义分割网络结构后，可以根据用户输入的待语义分割的图像，通过训练后的语义分割网络结构对待语义分割的图像进行识别处理，确定待语义分割的图像中存在的物体以及物体对应的位置，并通过预设标注方式标注物体以及物体对应的位置，从而得到语义分割后的图像。

在本申请实施例中，一方面可以通过将原始的单元按照不同下采样阶段划分成超单元，并引入可微分的超单元级别的架构参数，通过单元级别裁剪来自适应地调整每个阶段(超单元)的单元个数；另一方面，针对不同尺度的特征融合，通过聚集单元自适应地融合不同尺度下的特征，从而可以生成更加高效的语义分割网络结构。

综上所述，本申请实施例通过去除架构参数最大值对应的目标单元所属超单元中的冗余单元以及对被去除冗余单元的超单元的输出进行特征融合，具有以下有益效果：

通过去除目标单元所属超单元中的冗余单元，从而去除语义分割网络结构中的冗余计算单元，节省后续语义分割的计算量，实现动态调整语义分割网络结构，降低语义分割网络结构的深度；通过去除目标单元所属超单元中的冗余单元，从而确定超单元中的下采样单元在语义分割网络结构的位置，从而在合适的位置进行下采样；通过聚集单元对被去除冗余单元的超单元的输出进行特征融合，从而对不同分辨率超单元的输出进行自适应融合，提高实时分割的性能，适用于各种语义分割的应用场景。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

工业实用性

本申请实施例中电子设备基于图像样本优化语义分割网络结构，以去除冗余单元，并通过改进后的语义分割网络结构中的聚集单元，对被去除冗余单元的超单元的输出进行特征融合，识别融合后的特征图，以确定图像样本中存在的物体对应的位置，基于图像样本中存在的物体对应的位置，训练改进后的语义分割网络结构进行训练，以生成训练后的语义分割网络结构。

Claims

一种语义分割网络结构的生成方法，所述方法由电子设备执行，所述语义分割网络结构包括超单元以及聚集单元，

所述方法包括：

为所述语义分割网络结构中组成所述超单元的各单元生成对应的架构参数；

基于图像样本优化所述语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，其中，所述目标单元为所述各单元中具有最大架构参数的单元；

通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图；

对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体对应的位置；

基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。
根据权利要求1所述的方法，其中，在为所述语义分割网络结构中组成超单元的各单元生成对应的架构参数之前，所述方法还包括：

将所述语义分割网络结构中相同分辨率的单元合并为所述超单元；

根据所述超单元的数量，确定所述聚集单元的结构。
根据权利要求2所述的方法，其中，所述根据所述超单元的数量，确定所述聚集单元的结构，包括：

确定所述超单元的数量N；

将所述聚集单元中对应第i超单元的下采样单元的数量确定为N-i；

其中，N为大于或者等于2的正整数，i为正整数，且i小于或者等于 N。
根据权利要求3所述的方法，其中，所述通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图，包括：

通过所述改进后的语义分割网络结构中超单元的下采样单元，对输入的特征图进行下采样处理，得到对应所述超单元的特征图；

通过所述聚集单元中的下采样单元，依次对被去除所述冗余单元的超单元输出的特征图进行下采样处理，得到对应所述超单元的多个相同分辨率的特征图；

对所述多个相同分辨率的特征图进行融合处理，得到融合后的特征图。
根据权利要求4所述的方法，其中，所述通过所述改进后的语义分割网络结构中超单元的下采样单元，对输入的特征图进行下采样处理，得到对应所述超单元的特征图，包括：

确定所述改进后的语义分割网络结构中去除所述冗余单元的第i超单元；

通过所述第i超单元对输入的特征图进行下采样处理，得到对应所述第i超单元的特征图；

所述通过所述聚集单元中的下采样单元，依次对被去除所述冗余单元的超单元输出的特征图进行下采样处理，得到对应所述超单元的多个相同分辨率的特征图，包括：

通过所述聚集单元中的N-i个下采样单元对所述第i超单元进行N-i次下采样处理，得到对应所述第i超单元的下采样特征图；

其中，N个所述超单元的下采样特征图的分辨率相同。
根据权利要求1所述的方法，其中，所述为所述语义分割网络结构中组成所述超单元的各单元生成对应的架构参数，包括：

确定所述语义分割网络结构中组成所述超单元的单元的数量M；

针对所述语义分割网络结构中组成所述超单元的各个单元，生成对应的取值为1/M的架构参数。
根据权利要求1所述的方法，其中，所述基于图像样本优化所述语义分割网络结构，包括：

基于图像样本，对所述语义分割网络结构的自身参数、所述各单元的操作参数以及所述架构参数进行联合训练，确定训练得到的最大架构参数，并

将所述最大架构参数对应的单元确定为目标单元。
根据权利要求7所述的方法，其中，所述确定训练得到的最大架构参数，并将所述最大架构参数对应的单元确定为目标单元，包括：

将训练得到的架构参数为1所对应的单元确定为目标单元。
根据权利要求1所述的方法，其中，所述去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，包括：

确定所述目标单元在所属的超单元中的排序j，并去除所述超单元中在排序j之后的冗余单元；

根据去除冗余单元之后的超单元以及所述聚集单元，构建改进后的语义分割网络结构。
根据权利要求1所述的方法，其中，所述对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体对应的位置，包括：

对所述融合后的特征图进行特征映射，得到对应所述图像样本的映射特征图；

对所述对应所述图像样本的映射特征图进行识别处理，确定所述图像样本中存在的物体对应的位置；

所述基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，包括：

基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，构建所述改进后的语义分割网络结构的损失函数；

更新所述改进后的语义分割网络结构的自身参数直至所述损失函数收敛。
一种图像的语义分割方法，所述方法由电子设备执行，应用于如权利要求1至10任一项所述的训练后的语义分割网络结构；

所述方法包括：

确定待语义分割的图像；

通过所述训练后的语义分割网络结构对所述待语义分割的图像进行识别处理，确定所述待语义分割的图像中存在的物体以及所述物体对应的位置，并

通过预设标注方式标注所述物体以及所述物体对应的位置。
一种语义分割网络结构的生成装置，所述装置包括：

添加模块，配置为为语义分割网络结构中组成超单元的各单元生成对应的架构参数；

去除模块，配置为基于图像样本优化所述语义分割网络结构，并去除目标单元所属超单元中的冗余单元，得到改进后的语义分割网络结构，其中，所述目标单元为所述各单元中具有最大架构参数的单元；

融合模块，配置为通过所述改进后的语义分割网络结构中的聚集单元，对被去除所述冗余单元的超单元的输出进行特征融合，得到融合后的特征图；

训练模块，配置为对所述融合后的特征图进行识别处理，确定所述图像样本中存在的物体对应的位置；

基于所述图像样本中存在的物体对应的位置、以及所述图像样本所对应的标注，对所述改进后的语义分割网络结构进行训练，以得到训练后的语义分割网络结构。
一种图像的语义分割装置，所述装置包括：

确定模块，配置为确定待语义分割的图像；

处理模块，配置为通过训练后的语义分割网络结构对所述待语义分割的图像进行识别处理，确定所述待语义分割的图像中存在的物体以及所述物体对应的位置，并

通过预设标注方式标注所述物体以及所述物体对应的位置。
一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的语义分割网络结构的生成方法。
一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现权利要求1至10任一项所述的语义分割网络结构的生成方法，或权利要求11所述的图像的语义分割方法。