WO2022257254A1 - 图像数据处理方法、装置、设备以及介质 - Google Patents

图像数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
WO2022257254A1
WO2022257254A1 PCT/CN2021/109293 CN2021109293W WO2022257254A1 WO 2022257254 A1 WO2022257254 A1 WO 2022257254A1 CN 2021109293 W CN2021109293 W CN 2021109293W WO 2022257254 A1 WO2022257254 A1 WO 2022257254A1
Authority
WO
WIPO (PCT)
Prior art keywords
sample
feature map
target
image
feature
Prior art date
Application number
PCT/CN2021/109293
Other languages
English (en)
French (fr)
Inventor
高斌斌
罗凤
Original Assignee
腾讯云计算(北京)有限责任公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯云计算(北京)有限责任公司 filed Critical 腾讯云计算(北京)有限责任公司
Publication of WO2022257254A1 publication Critical patent/WO2022257254A1/zh
Priority to US18/127,223 priority Critical patent/US20230237666A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

公开了一种图像数据处理方法、装置、设备以及介质,属于人工智能领域。本申请实施例提供的技术方案,通过对源图像进行提取,得到具有不同尺寸的M个对象特征图,在获取到每个对象特征图中的像素点所对应的分类置信度的同时,还可以获取每个对象特征图中的像素点所对应的初始预测极径,通过基于每个对象特征图中的轮廓采样点所对应的极径偏差,对初始预测极径进行精修,以获取每个对象特征图中的像素点所对应的目标预测极径,可以提高目标预测极径的回归精度;进而可以根据目标预测极径和分类置信度,确定源图像中所包含的目标对象的对象边缘形状,从而提高图像的分割准确性。

Description

图像数据处理方法、装置、设备以及介质
本申请要求于2021年06月10日提交的申请号为2021106486954、发明名称为“图像数据处理方法、装置、设备以及介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种图像数据处理方法、装置、设备以及介质。
背景技术
实例分割是指给定一张图像或者视频帧,找出该图像或者视频帧中所包含的所有实例并进行识别和分割。实例分割作为视频理解、自动驾驶等计算机视觉任务的基础,已成为计算机视觉领域的热点问题。
发明内容
本申请实施例提供一种图像数据处理方法、装置、设备以及介质,可以提高图像的分割准确性。
本申请实施例一方面提供了一种图像数据处理方法,包括:
获取源图像的M个对象特征图,所述M个对象特征图与所述源图像所包含的目标对象相关联,所述M个对象特征图不同尺寸的图像特征,所述M为正整数;
获取每个所述对象特征图中的像素点在所述源图像中所对应的初始预测极径,根据所述初始预测极径,在每个所述对象特征图中分别获取所述目标对象对应的轮廓采样点;
获取每个所述对象特征图中的轮廓采样点所对应的极径偏差;
确定每个所述对象特征图中的像素点在所述源图像中所对应的目标预测极径,所述目标预测极径为所述极径偏差和所述初始预测极径之和;
根据每个所述对象特征图中的像素点所对应的所述目标预测极径,在所述源图像中确定每个所述对象特征图分别关联的候选边缘形状;
根据每个所述对象特征图中的像素点所对应的分类置信度,在每个所述对象特征图分别关联的候选边缘形状中,确定用于表征所述目标对象的轮廓的对象边缘形状,所述分类置信度用于表征每个所述对象特征图中的像素点与所述目标对象之间的关联程度。
本申请实施例一方面提供了一种图像数据处理方法,包括:
获取包含样本对象的样本图像,将所述样本图像输入至初始图像分割模型,通过所述初始图像分割模型中的残差组件和特征融合组件,输出与所述样本对象相关联的M个样本特征图;所述样本图像携带所述样本对象对应的标签信息,所述M个样本特征图为具有不同尺寸的图像特征,所述M为正整数;
通过所述初始图像分割模型中的分类组件,输出每个样本特征图中的像素点所对应的样本分类置信度;所述样本分类置信度用于表征所述每个样本特征图中的像素点与所述样本对象之间的关联程度;
在所述初始图像分割模型的回归组件中,获取所述每个样本特征图中的像素点所对应的初始样本极径,根据所述初始样本极径,在所述每个样本特征图中分别获取所述样本对象对 应的样本轮廓采样点;所述样本轮廓采样点所构成的轮廓与所述样本对象的轮廓相关联;
获取所述每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,将所述样本极径偏差和所述初始样本极径之和,确定为所述每个样本特征图中的像素点所对应的目标样本极径;
根据所述样本分类置信度、所述初始样本极径、所述目标样本极径以及所述标签信息,对所述初始图像分割模型的网络参数进行训练,得到目标图像分割模型;所述目标图像分割模型用于定位并识别源图像中的目标对象。
本申请实施例一方面提供了一种图像数据处理装置,包括:
第一获取模块,用于获取源图像的M个对象特征图,所述M个对象特征图与所述源图像所包含的目标对象相关联,所述M个对象特征图不同尺寸的图像特征,所述M为正整数;
第一预测模块,用于获取每个所述对象特征图中的像素点在所述源图像中所对应的初始预测极径,根据所述初始预测极径,在每个所述对象特征图中分别获取所述目标对象对应的轮廓采样点;
第二预测模块,用于获取每个所述对象特征图中的轮廓采样点所对应的极径偏差;确定每个所述对象特征图中的像素点在所述源图像中所对应的目标预测极径,所述目标预测极径为所述极径偏差和所述初始预测极径之和;
边缘确定模块,用于根据每个所述对象特征图中的像素点所对应的所述目标预测极径,在所述源图像中确定每个所述对象特征图分别关联的候选边缘形状;根据每个所述对象特征图中的像素点所对应的分类置信度,在每个所述对象特征图分别关联的候选边缘形状中,确定用于表征所述目标对象的轮廓的对象边缘形状,所述分类置信度用于表征每个所述对象特征图中的像素点与所述目标对象之间的关联程度。
本申请实施例一方面提供了一种图像数据处理装置,包括:
第二获取模块,用于获取包含样本对象的样本图像,将样本图像输入至初始图像分割模型,通过初始图像分割模型中的残差组件和特征融合组件,输出与样本对象相关联的M个样本特征图;样本图像携带样本对象对应的标签信息,M个样本特征图为具有不同尺寸的图像特征,M为正整数;
样本分类模块,用于通过初始图像分割模型中的分类组件,输出每个样本特征图中的像素点所对应的样本分类置信度;样本分类置信度用于表征每个样本特征图中的像素点与样本对象之间的关联程度;
第三预测模块,用于在初始图像分割模型的回归组件中,获取每个样本特征图中的像素点所对应的初始样本极径,根据初始样本极径,在每个样本特征图中分别获取样本对象对应的样本轮廓采样点;样本轮廓采样点所构成的轮廓与样本对象的轮廓相关联;
第四预测模块,用于获取每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,将样本极径偏差和初始样本极径之和,确定为每个样本特征图中的像素点所对应的目标样本极径;
网络参数修正模块,用于根据样本分类置信度、初始样本极径、目标样本极径以及标签信息,对初始图像分割模型的网络参数进行训练,得到目标图像分割模型;目标图像分割模型用于定位并识别源图像中的目标对象。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计 算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例提供的技术方案,通过对源图像进行提取,得到具有不同尺寸的M个对象特征图,在获取到每个对象特征图中的像素点所对应的分类置信度的同时,还可以获取每个对象特征图中的像素点所对应的初始预测极径,通过基于每个对象特征图中的轮廓采样点所对应的极径偏差,对初始预测极径进行精修,以获取每个对象特征图中的像素点所对应的目标预测极径,可以提高目标预测极径的回归精度;进而可以根据目标预测极径和分类置信度,确定源图像中所包含的目标对象的对象边缘形状,从而提高图像的分割准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种图像实例分割场景示意图;
图3是本申请实施例提供的一种图像数据处理方法的流程示意图;
图4是本申请实施例提供的残差块结构示意图;
图5是本申请实施例提供的一种图像实例分割的场景示意图;
图6是本申请实施例提供的一种图像数据处理方法的流程示意图;
图7是本申请实施例提供的一种样本图像的对象掩码图像的示意图;
图8是本申请实施例提供的一种初始图像分割模型的训练示意图;
图9是本申请实施例提供的一种目标图像分割模型的分割结果可视化示意图;
图10是本申请实施例提供的一种图像数据处理装置的结构示意图;
图11是本申请实施例提供的一种图像数据处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请具体涉及图像处理中的图像实例分割,在获取到包含目标对象的源图像后,可以对源图像进行特征提取,从源图像中获取具有不同尺寸的特征图,通过对具有不同尺寸的特征图进行信息融合,可以得到不同层级的对象特征图;进而可以分别对不同层级的对象特征图进行后续处理,在源图像中确定用于表征目标对象的轮廓的对象边缘形状,并得到针对目标对象的对象识分类结果。
本申请可以通过API接口的方式接入AI主题商城中的实例分割服务,通过实例分割服务对包含目标对象的源图像进行实例分割,确定源图像中的目标对象所对应的对象边缘形状和分类识别结果。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有图像实例分割功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
如图1所示,以用户终端集群中的用户终端10a为例,该用户终端10a可以获取包含目标对象的源图像(即需要进行图像实例分割的图像),通过对源图像进行特征提取,从上述源图像中提取具有不同尺寸的特征图,进而可以对提取到的特征图进行融合,以得到不同层级的对象特征图(不同层级的对象特征图可以为具有不同尺寸的图像特征);进而分别对不同层级的对象特征图进行分类,以预测得到每个对象特征图中的像素点所对应的类别置信度和中心置信度,其中,类别置信度用于表示对象特征图中的像素点属于各类别的概率,中心置信度用于表征对象特征图中的像素点与目标对象所在图像区域的中心点之间的距离;与此同时,还分别对不同层级的对象特征图进行极径回归,以预测得到每个对象特征图中的像素点所对应的目标预测极径,通过类别置信度、中心置信度以及目标预测极径,可以在源图像中生成用于表征目标对象的轮廓的对象边缘形状,获取对象边缘形状在源图像中所覆盖的目标像素点,根据目标像素点对应的类别置信度,可以确定源图像中的目标对象所对应的对象分类结果。
需要说明的是,本申请可以基于极坐标系进行对象轮廓建模,通过预测源图像中所包含的目标对象的中心点与对象边缘之间的距离,来进行目标对象的检测;本申请将源图像中的目标对象的坐标设置为极坐标,将目标对象的中心点与对象边缘之间的距离表示为一个长度和一个角度,如对于源图像中的一个目标对象,围绕着中心确定36条射线(36条射线之间的角度间隔是相同的,也就是说在极坐标系中,36条射线所对应的极角是已知的,在图像实例分割过程中只需预测36条射线的端点即可,确定端点的射线可以称为极径),通过对预测得到的36条射线的端点进行连接,可以形成目标对象的对象轮廓,进而将源图像中所包含的目标对象的检测与分割统一在同一个框架下。其中,预测得到36条射线的端点可以理解为预测得到目标预测极径,通过中心置信度预测得到源图像中所包含的目标对象的中心,而通过连接该中心所对应的目标预测极径的端点,可以形成目标对象对应的对象边缘形状(目标对象的真实对象轮廓)。
请一并参见图2,图2是本申请实施例提供的一种图像实例分割场景示意图。本申请实施例以上述图1所示的用户终端10a为例,对图像的实例分割过程进行描述。如图2所示,用户终端10a可以获取需要进行实例分割的源图像20a,该源图像20a可以为采用摄像设备(例如,单反相机、手机相机、交通摄像头等)所拍摄的照片,或者为互联网上下载的图片。
用户终端10a获取图像分割模型,该图像分割模型包括特征提取器20b、分类组件以及回归组件;其中,特征提取器20b用于提取源图像20a中的多尺度特征;分类组件用于预测源图像20a中所包含对象的类别,以及源图像20a中所包含对象的中心点(也可以理解为实例中心);回归组件用于预测源图像20a中所包含对象的极径。通过图像分割模型,将图像实例分割任务转换为实例中心分类和距离回归两个并行任务,实例中心分类任务由分类组件来完成,距离回归任务由回归组件来完成,本申请所涉及的距离回归可以使用极坐标系中的 极径来表示。
用户终端10a将源图像20a输入至图像分割模型,该源图像20a首先输入图像分割模型的特征提取器20b中,通过特征提取器20b中的残差组件,依次输出具有不同尺寸的残差特征图,如可以依次输出残差特征图C1、残差特征图C2、残差特征图C3、残差特征图C4以及残差特征图C5,且上述5个残差特征图的尺寸从大到小的排列顺序为:残差特征图C1—>残差特征图C2—>残差特征图C3—>残差特征图C4—>残差特征图C5。进而将残差特征图C3、残差特征图C4以及残差特征图C5作为特征提取器20b中的特征融合组件的输入,通过特征融合组件进一步提取特征,如可以对残差特征图C4和残差特征图C5分别进行上采样操作,使得上采样后的残差特征图C5与残差特征图C4具有相同的尺寸,上采样后的残差特征图C4与残差特征图C3具有相同的尺寸;随后将上采样后的残差特征图C5与残差特征图C4进行元素求和,得到融合后的对象特征图P2;将上采样后的残差特征图C4与残差特征图C3进行元素求和,得到融合后的对象特征图P1;根据残差特征图C5可以得到对象特征图P3,通过对对象特征图P3进行下采样操作,得到对象特征图P4,当然还可以对对象特征图P4继续进行下采样操作,得到对象特征图P5。换言之,通过特征提取组件20b中的特征融合组件,输出对象特征图P1、对象特征图P2、对象特征图P3、对象特征图P4以及对象特征图P5。
进一步地,可以分别对对象特征图P1、对象特征图P2、对象特征图P3、对象特征图P4以及对象特征图P5进行独立预测,如可以在预测头1中对对象特征图P1进行预测,在预测头2中对对象特征图P2进行预测,其他同理。需要说明的是,本申请实施例对各个对象特征图的预测过程是相同的,下面以对象特征图P3所对应的预测头3为例,对对象特征图的预测过程进行描述。预测头3包括分类组件和回归组件;通过分类组件中的4个卷积层对对对象特征图P3进行卷积,得到图像特征20d(该图像特征20d可以理解为对象特征图P3所对应的对象分类特征图);进而分别进入分类组件中的类别预测子组件和中心预测子组件,通过类别预测子组件输出对象特征图P3中的像素点分别属于不同类别的类别置信度20e,通过中心预测子组件输出对象特征图P3中的像素点所对应的中心置信度20f;其中,该类别置信度20e用于确定源图像20a中所包含对象的分类结果,该中心置信度20f用于确定源图像20a中所包含对象的中心点。
在一些实施例中,预测头3中的回归组件包括粗略回归模块(Coarse regression module)和精修回归模块(Refine regression module),即在回归组件中引入由粗到细的策略,将对象特征图P3输入至回归组件后,通过粗略回归模块输出对象特征图P3中的像素点所对应的初始预测极径20g,进而将对象特征图P3和初始预测极径20g作为精修回归模块的输入,在精修回归模块中根据初始预测极径20g从对象特征图P3中确定轮廓采样点,通过计算轮廓采样点所对应的极径偏差,进而可以将初始预测极径20g与极径偏差之和,作为精修回归模块输出的目标预测极径20h,根据对象特征图P3中的像素点所对应的目标预测极径20h,生成源图像20a中所包含对象的候选边缘形状,并将生成的候选边缘形状添加至候选边缘形状集合20p。其中,对于对象特征图P3中的任意一个像素点,其对应的目标预测极径的数量为36,这36个目标预测极径之间具有相等的角度间隔(相邻的两个目标预测极径之间的间隔角度可以为10度),通过对36个目标预测极径的端点进行连接,得到一个候选边缘形状。对于特征融合组件输出的每个对象特征图,均可以执行上述操作,生成每个对象特征图中的像素点所关联的候选边缘形状,并将每个对象特征图所关联的候选边缘形状均添加至候选边缘形状集合20p,例如,候选边缘形状集合20p包括候选边缘形状20i、候选边缘形状20j、候选边缘形状20k、候选边缘形状20m等。
用户终端10a根据候选边缘形状在源图像20a中所覆盖像素点的类别置信度和中心置信度,确定候选边缘形状集合20p中每个候选边缘形状分别对应的权重(也可以称为分割置信度),进而可以根据权重对候选边缘形状集合20p中所包含的所有候选边缘形状进行非极大值抑制(Non-Maximum Suppression,NMS),在源图像20a中确定最终的对象边缘形状,该 对象边缘形状可以是指预测得到的源图像20a中所包含对象的轮廓边界,同时还根据该对象边缘形状所覆盖像素点的类别置信度,确定源图像20a中所包含对象的分类结果为:猫。换言之,通过对源图像20a进行图像实例分割,不仅可以准确检测出源图像20a中所包含对象在该源图像20a中的轮廓边界,还可以识别出所包含对象的分类结果。本申请实施例中,对于源图像20a的实例分割过程,可以在回归组件中引入由粗到细的策略,通过粗略回归模块和精修回归模块可以提高极径回归的准确性,进而可以提高对象边缘分割的准确性。
请参见图3,图3是本申请实施例提供的一种图像数据处理方法的流程示意图。可以理解地,该图像数据处理方法由计算机设备执行,该计算机设备为用户终端,或者服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该图像数据处理方法可以包括以下步骤:
步骤S101,获取源图像的M个对象特征图,该M个对象特征图与该源图像所包含的目标对象相关联,该M个对象特征图不同尺寸的图像特征,该M为正整数。
在一些实施例中,计算机设备获取需要进行图像实例分割的源图像(如上述图2所对应实施例中的源图像20a),该源图像包括一个或多个实例,本申请实施例将源图像中所包含的一个或多个实例均称为目标对象,对源图像进行图像实例分割的目的在于查找该源图像中所包含的目标对象,并对查找出的目标对象进行识别和分割。其中,目标对象可以包括但不限于:人物、动物、植物、交通工具、交通标志、道路障碍物、标牌、标语。
计算机设备获取目标图像分割模型(可以理解为已经训练完成并可以应用于图像实例分割场景的图像分割模型),该目标图像分割模型用于预测源图像中所包含的目标对象的分类结果,以及该源图像中所包含的目标对象的轮廓边界(也可以称为对象边缘形状);该目标图像分割模型可以包括特征提取器、分类组件以及回归组件,其中特征提取器可以包括残差组件和特征融合组件,在一些实施例中,残差组件为残差网络(Residual Networks,ResNets),该残差网络的网络层数根据实际需求来进行设计,在一些实施例中,特征融合组件为特征金字塔(feature pyramid networks,FPN)。在获取到包含目标对象的源图像后,将源图像输入至目标图像分割模型,根据目标图像分割模型中的残差组件,在源图像中获取与目标对象相关联的N个残差特征图,其中N个残差特征图可以为残差组件中的不同网络层所输出的特征,N为正整数,如N可以为1,2,3,……;在目标图像分割模型的特征融合组件中,对N个残差特征图进行特征融合,得到目标对象对应的M个对象特征图,M可以为正整数,如M可以为1,2,3,……。
其中,残差组件所包含的网络层可以被划分为多个阶段(stage),每个阶段均包括一个或多个残差块(residual block),一个残差块是指包含一个“捷径连接(shortcut connections)”的一层或多层网络,本申请对残差组件所包含的阶段数量、每个阶段所包含的残差块数量以及每个残差块所包含的网络层数均不做限定;残差组件中每个阶段所输出的残差特征图可以具有不同的尺寸,如第一阶段输出的残差特征图尺寸可以为源图像尺寸的1/2,第二阶段输出的残差特征图尺寸可以为源图像尺寸的1/4,第三阶段输出的残差特征图尺寸可以为源图像尺寸的1/8,……。计算机设备从残差组件的多个阶段分别输出的残差特征图中,选择N个残差特征图作为特征融合组件的输入,通过特征融合组件,对N个残差特征图进行特征融合,以得到具有不同尺寸的M个对象特征图,其中N可以为小于或等于残差组件中的阶段数量的正整数。
请一并参见图4,图4是本申请实施例提供的残差块结构示意图。如图4所示的残差块包括卷积层1、卷积层2、卷积层3以及一个捷径连接,其中卷积层1可以采用尺寸为1×1的卷积核进行卷积处理,卷积层2可以采用尺寸为3×3的卷积核进行卷积处理,卷积层3同样可以采用尺寸为1×1的卷积核进行卷积处理。对于输入残差块的输入特征图f in,可以依次经过卷积层1、卷积层2以及卷积层3后,得到残差映射特征图f r,输入特征图f in可以直接作为同等映射特征图f ide与残差映射特征图f r进行元素求和,得到该残差块的输出特征图f out, 即f out=f r+f ide,其中,图4所示的符号
Figure PCTCN2021109293-appb-000001
可以表示为基于元素的加法,即对特征图进行元素求和。需要说明的是,若残差映射特征图f r与输入特征图f in的维度相同,则可以直接对残差映射特征图f r与输入特征图f in(此时的输入特征图f in等同于上述同等映射特征图f ide)进行元素求和,以得到输出特征图f out;若残差映射特征图f r与输入特征图f in的维度不相同,则需要对输入特征图f in进行线性映射,来匹配残差映射特征图f r的维度,线性映射后的输入特征图f in可以称为同等映射特征图f ide,通过对残差映射特征图f r与同等映射特征图f i进行元素求和,得到输出特征图f out
可选的,本申请实施例以残差组件包括5个阶段为例进行具体说明,残差组件中的5个阶段所输出的残差特征图可以依次表示为:残差特征图C1,残差特征图C2,残差特征图C3,残差特征图C4,残差特征图C5。当计算机设备从残差组件的5个阶段所输出的残差特征图中选择两个连续的残差特征图作为特征融合组件的输入时,此时所选择的N个残差特征图可以包括第一残差特征图(例如,残差特征图C4)和第二残差特征(例如,残差特征图C5),且第4阶段输出的残差特征图C4的尺寸大于第5阶段输出的残差特征图C5的尺寸;可以在目标图像分割模型的特征融合组件中,分别对第一残差特征图和第二残差特征图进行卷积,得到第一残差特征图对应的第一卷积特征图,以及第二残差特征图对应的第二卷积特征图;对第二卷积特征图进行上采样操作,得到上采样特征图,该上采样特征图的尺寸与第一卷积特征图的尺寸相同,将第一卷积特征图和上采样特征图之和,确定为融合特征图,即可以融合不同层级的特征,使得融合特征图可以包含丰富的语义信息和准确的位置信息;可以对第二卷积特征图进行下采样操作,得到下采样特征图,根据融合特征图、第二卷积特征图以及下采样特征图,确定目标对象对应的M个对象特征图。通过特征融合组件可以输出具有不同尺寸的M个对象特征图,使得提取到的对象特征图可以更好地应对图像实例分割中的物体多尺度(也即是多尺寸)变化问题。
可选的,请一并参见图5,图5是本申请实施例提供的一种图像实例分割的场景示意图。如图5所示,对于源图像30a,可以通过目标图像分割模型中的残差组件30b输出残差特征图C1至残差特征图C5后,计算机设备可以将残差特征图C3、残差特征图C4以及残差特征图C5作为特征融合组件30c的输入。残差特征图C3、残差特征图C4以及残差特征图C5各经过一个卷积层(采用尺寸为3×3的卷积核),得到残差特征图C3对应的卷积特征图P′ 1、残差特征图C4对应的卷积特征图P′ 2,以及残差特征图C5对应的卷积特征图P′ 3,其中,可以对卷积特征图P′ 2进行上采样操作得到上采样特征图P″ 1,对卷积特征图P′ 3进行上采样操作得到上采样特征图P″ 2,进而可以对卷积特征图P′ 1和上采样特征图P″ 1进行元素求和,得到融合特征图P″′ 1(即P″′ 1=P′ 1+P″ 1,可以融合不同层级的特征),对卷积特征图P′ 2和上采样特征图P″ 2进行元素求和,得到融合特征图P″′ 2(即P″′ 2=P′ 2+P″ 2)。进一步地,可以使用尺寸为1x1的卷积核,分别对融合特征图P″′ 1、融合特征图P″′ 2以及卷积特征图P′ 3进行卷积,得到融合特征图P″′ 1对应的对象特征图P1、融合特征图P″′ 2对应的对象特征图P2,以及卷积特征图P′ 3对应的对象特征图P3,此处使用1x1卷积可以用于消除特征图直接相加得到的混叠效应。为了表示更大尺寸的物体,可以对对象特征图P3进行下采样操作,得到对象特征图P4,进而还可以对对象特征图P4进行下采样操作,得到对象特征图P5。换言之,通过特征融合组件30c可以输出具有不同尺寸的对象特征图P1至对象特征图P5,此时对象特征图的数量M可以取值为5。
在基于目标图像分割模型进行分割时,根据M个对象特征图,获取每个对象特征图中的像素点所对应的分类置信度;其中,分类置信度用于表征每个对象特征图中的像素点与目标对象之间的关联程度。
在一些实施例中,计算机设备分别对M个对象特征图(对象特征图P1至对象特征图P5)进行独立预测,以预测得到针对目标对象的类别和极径,如可以在预测头1中对对象特征图 P1进行预测,在预测头2中对对象特征图P2进行预测,其他同理。每个预测头均可以包括分类组件和回归组件,分类组件和回归组件均可以采用全卷积网络(Fully Convolutional Networks,FCN)结构,FCN网络的输入特征图与输出特征图具有相同的尺寸,每个对象特征图均可以分别进入预测头的分类组件和回归组件中,通过分类组件可以输出每个对象特征图中的像素点所对应的分类置信度,该分类置信度可以用于表征每个对象特征图中的像素点与目标对象之间的关联程度。
可选的,当分类组件包括类别预测子组件和中心预测子组件时,此时的分类置信度包括类别预测子组件输出的类别置信度,以及中心预测子组件输出的中心置信度;对于M个对象特征图中的任意一个对象特征图P i(i为小于或等于M的正整数),在目标图像分割模型的分类组件中,获取对象特征图P i对应的对象分类特征图;进而根据分类组件中的类别预测子组件,对对象分类特征图进行像素类别分类,得到对象特征图P i中的像素点分别属于L个类别的类别置信度,该目标图像分割模型可以用于识别L个类别所对应的对象,即目标图像分割模型可以识别的所有类别数量为L,该L为正整数,如L可以取值为1,2,……;根据分类组件中的中心预测子组件,对对象分类特征图进行像素中心分类,得到对象特征图P i中的像素点,在目标对象所处的图像区域中的中心置信度,该中心置信度可以用于表征对象特征图P i中的像素点,与目标对象所在的图像区域的中心点之间的距离。
如图5所示,以对象特征图P3为例,对对象特征图P3的预测过程进行描述。假设对象特征图P3的尺寸为H×W,对象特征图P3输入预测头3中后表示为特征30f,该特征30f是通道数为256维的特征图(尺寸可以为H×W×256);在分类组件中,特征30f经过4个卷积层(此处的4个卷积层均采用尺寸为3×3的卷积核)得到图像特征30g(该图像特征30g可以为用于分类的对象分类特征图,尺寸可以为H×W×256),该图像特征30g分别进入类别预测子组件和中心预测子组件,在类别预测子组件中对图像特征30g进行像素类别分类,得到对象特征图P3中的像素点分别属于L个类别的类别置信度30h(尺寸可以为H×W×L);在中心预测子组件中对图像特征30g进行像素中心分类,得到对象特征图P3中的像素点,在对应目标对象所处的图像区域中的中心置信度30i(尺寸可以为H×W×1)。若目标图像分割模型可以识别的类别数量L为80,则类别置信度30g的尺寸可以表示为H×W×80。例如,对于对象特征图P3中的任意一个像素点S,类别置信度30g中的80维数值可以用于表示像素点S所对应目标对象分别属于80个类别的概率;中心置信度30i中的一维实数用于表示像素点S在对应目标对象所在的图像区域中的中心程度;中心程度越大,表明该像素点S与目标对象的实际中心点之间的距离越近,该像素点S预测的极径质量越高;中心程度越小,表明该像素点S与目标对象的实际中心点之间的距离越远,该像素点S预测的极径质量越低。
步骤S102,获取每个该对象特征图中的像素点在该源图像中所对应的初始预测极径,根据该初始预测极径,在每个该对象特征图中分别获取该目标对象对应的轮廓采样点;轮廓采样点所构成的轮廓与目标对象的轮廓相关联。
具体的,对于M个对象特征图中的任意一个对象特征图P i,在目标图像分割模型的回归组件中,对对象特征图P i进行卷积,得到对象特征图P i对应的距离预测特征图;将距离预测特征图中的像素点确定为候选中心,根据距离预测特征图获取候选中心对应的初始预测极径;根据初始预测极径和对象特征图P i中的像素点,确定采样特征坐标,在对象特征图P i中获取与采样特征坐标相匹配的轮廓采样点。
如图5所示,当i=3时,对象特征图P输入极径回归组件30v(即上述回归组件)后可以表示为H×W×256的图像特征30f,该极径回归组件30v包括粗略回归模块30k和精修回归模块30p。在粗略回归模块30k中,图像特征30f经过4个卷积层(此处的4个卷积层均采用尺寸为3×3的卷积核)得到图像特征30m(该图像特征30m可以理解为用于极径回归的距离预测特征图,尺寸可以为H×W×256),通过距离预测特征图中的每个1×1×256维的向量,预测得到初始预测极径30n,初始预测极径30n的尺寸可以为H×W×36,即目标对象的轮廓可 以由36个极径构成。进一步地,初始预测极径30n和图像特征30f同时输入精修回归模块30p中,该精修回归模块30p由坐标转换层、特征采样器以及精修回归器构成,坐标转换层利用初始预测极径30n计算精修回归所需的采样特征坐标,进而在对象特征图P3中获取与采样特征坐标相匹配的轮廓采样点。对于对象特征图P3中的任意一个像素点S(x c,y c),采样特征坐标的计算过程可以表示为:
Figure PCTCN2021109293-appb-000002
其中,上述公式(1)中的d可以表示为对象特征图P3下采样步长,
Figure PCTCN2021109293-appb-000003
表示为像素点S(x c,y c)对应的第k个初始预测极径,k=1,2,…,36,此处的k表示为目标对象轮廓的采样点编号;θ k表示为像素点S(x c,y c)所对应的第k个初始预测极径的极角,θ 1为0度,θ 2可以为10度,θ 3可以为30度,……,θ 36可以为350度;(x k,y k)表示对象特征图P3中的第k个采样特征坐标,进而根据36个采样特征坐标在对象特征图P3中采样36个轮廓采样点。由于
Figure PCTCN2021109293-appb-000004
的取值范围与输入图像一致,但轮廓采样点是在对象特征图P3上,因此需要用对象特征图P3的下采样步长d对计算坐标进行缩放。
步骤S103,获取每个该对象特征图中的轮廓采样点所对应的极径偏差;确定每个该对象特征图中的像素点在该源图像中所对应的目标预测极径,该目标预测极径为该极径偏差和该初始预测极径之和。
以对象特征图P3为例,精修回归模块中的特征采样器按照轮廓采样点的采样特征坐标,在对象特征图P3中进行采样,得到轮廓采样点对应的极径偏差,进而可以将初始预测极径和极径偏差之和,确定为精修回归模块输出的目标预测极径。可选的,轮廓采样点的数量为K个,K为正整数,如K可以取值为36;通过获取对象特征图P i(例如,对象特征图P3)中的K个轮廓采样点分别对应的采样特征向量,对K个采样特征向量进行叠加,得到目标对象对应的轮廓特征向量;根据K个分组卷积对轮廓特征向量进行卷积,得到K个轮廓采样点分别对应的极径偏差,将K个初始预测极径与对应的极径偏差相加,得到K个目标预测极径。
如图5所示,计算机设备通过精修回归模块30p中的特征采样器,按照采样特征坐标(x k,y k)在对象特征图P3(图像特征30f)中进行采样,得到36个尺寸为(1,1,c)的采样特征向量,随后将36个采样特征向量按照通道数维数进行叠加,得到轮廓特征向量30q;由于采样特征坐标(x k,y k)可能为小数,因此在对象特征图P3中可以使用双线性采样核进行采样,以获取轮廓特征向量30q。进而将轮廓特征向量30q输入精修回归模块30p的精修回归器Φ r,利用分组数为36的一个卷积层(采用尺寸为1×1的卷积核)对每个轮廓采样点分别回归极径偏差30r,该极径偏差30r表示为Φ r(g),进而将初始预测极径30n与极径偏差Φ r(g)之和,确定为回归组件最终输出的目标预测极径30j,该目标预测极径30j的尺寸可以为H×W×36,该目标预测极径30j的计算过程可以表示为:r=r coarser(g),其中r可以表示为上述像素点S(x c,y c)所对应的目标预测极径,r coarse表示为像素点S(x c,y c)所对应的初始预测极径,g表示为像素点S(x c,y c)所对应的轮廓特征向量30q。基于上述相同的操作,可以获取M个对象特征图中的每个像素点所对应的分类置信度、中心置信度以及目标预测极径。
步骤S104,根据每个该对象特征图中的像素点所对应的该目标预测极径,在该源图像中确定每个该对象特征图分别关联的候选边缘形状;根据每个该对象特征图中的像素点所对应的分类置信度,在每个该对象特征图分别关联的候选边缘形状中,确定用于表征该目标对象的轮廓的对象边缘形状,该分类置信度用于表征每个该对象特征图中的像素点与该目标对象之间的关联程度。
在一些实施例中,计算机设备通过目标图像分割模型生成每个对象特征图中的像素点所对应的类别置信度、中心置信度以及目标预测极径后,可以采用非极大值抑制(NMS)算法进行后处理,在源图像中确定目标对象对应的对象边缘形状,以及目标对象的对象分类结果。 对于M个对象特征图中的对象特征图P i,计算机设备在对象特征图P i中获取任意一个像素点S j,其中i可以为小于或等于M的正整数,j可以为小于或等于对象特征图P i所包含的像素数量的正整数;在源图像中对像素点S j对应的目标预测极径的端点进行连接,生成以像素点S j为中心的候选边缘形状B j;进而可以将每个对象特征图中的像素点所关联的候选边缘形状,均添加至目标对象对应的候选边缘形状集合。
进一步地,在源图像中,获取候选边缘形状集合中的候选边缘形状B j所覆盖的候选像素点;根据候选像素点对应的类别置信度与候选像素点对应的中心置信度之间的乘积,确定候选边缘形状B j对应的分割置信度;进而可以根据候选边缘形状集合中的候选边缘形状所对应的分割置信度,在候选边缘形状集合中,确定用于表征目标对象的轮廓的对象边缘形状;进而可以获取对象边缘形状在源图像中所覆盖的目标像素点,根据目标像素点对应的类别置信度,确定目标对象对应的对象分类结果。如图5所示,候选边缘形状集合30s包含每个对象特征图所关联的候选边缘形状,每个候选边缘形状均与源图像中所包含的目标对象的轮廓相关联,进而可以通过非极大值抑制算法,从候选边缘形状集合中确定候选边缘形状,此时所确定的候选边缘形状可以作为用于表征目标对象的轮廓的对象边缘形状30u,根据对象边缘形状30u所覆盖像素点的类别置信度,可以确定源图像30a所包含的目标对象的对象分类结果为:猫。
可选的,通过非极大值抑制算法确定对象边缘形状的过程包括:计算机设备根据候选边缘形状集合中的候选边缘形状所对应的分割置信度,对候选边缘形状集合中的候选边缘形状进行排序,将最大的分割置信度所对应的候选边缘形状确定为第一目标边缘形状;将候选边缘形状集合中,除第一目标边缘形状之外的候选边缘形状确定为第一剩余边缘形状,获取第一目标边缘形状与第一剩余边缘形状之间的第一重叠度,该第一重叠度可以理解为第一目标边缘形状与第一剩余边缘形状之间的交并比(Intersection-over-Union,IoU);在候选边缘形状集合中,删除第一重叠度大于重叠阈值的第一剩余边缘形状和第一目标边缘形状,得到更新后的候选边缘形状集合,在更新后的候选边缘形状集合中,将最大的分割置信度所对应的第一剩余边缘形状确定为第二目标边缘形状;将更新后的候选边缘形状集合中,除第二目标边缘形状之外的第一剩余边缘形状确定为第二剩余边缘形状,当第二目标边缘形状与第二剩余边缘形状之间的第二重叠度均大于重叠阈值时,将第一目标边缘形状和第二目标边缘形状,确定为目标对象对应的对象边缘形状。上述从候选边缘形状集合中删除的过程可以理解为一种筛选过程,也即是,筛选掉第一重叠度大于重叠阈值的第一剩余边缘形状和第一目标边缘形状。
举例来说,假设候选边缘形状集合可以包括6个候选边缘形状,根据6个候选边缘形状分别对应分割置信度,按照从大到小的顺序对6个候选边缘形状进行排序,排序后的6个候选边缘形状分别表示为:候选边缘形状A、候选边缘形状B、候选边缘形状C、候选边缘形状D、候选边缘形状E以及候选边缘形状F。可以将候选边缘形状A确定为第一目标边缘形状,并分别获取候选边缘形状A分别与候选边缘形状B、候选边缘形状C、候选边缘形状D、候选边缘形状E以及候选边缘形状F之间的重叠度(即第一重叠度);若候选边缘形状A与候选边缘形状B、候选边缘形状C之间的重叠度大于重叠阈值(该重叠阈值可以进行人为设置,如重叠阈值可以设置为0.5),则可以从候选边缘形状集合中删除候选边缘形状B和候选边缘形状C,并标记候选边缘形状A,用来表明候选边缘形状A为保留下来的候选边缘形状。进而可以从剩下的候选边缘形状D、候选边缘形状E以及候选边缘形状F中,选择分割置信度最大的候选边缘形状D(即第二目标边缘形状),进而可以获取候选边缘形状D分别与候选边缘形状E、候选边缘形状F之间的重叠度(即第二重叠度);将重叠度大于重叠阈值的候选边缘形状进行删除,并标记候选边缘形状D,用来表明候选边缘形状D为保留下来的候选边缘形状,以此类推,直至找到所有被保留下来的候选边缘形状,进而可以根据保留下来的候选边缘形状确定用于表征目标对象的轮廓的对象边缘形状。当源图像中包含多个目 标对象时,通过非极大值抑制算法可以确定每个目标对象分别对应的对象边缘形状,以及每个目标对象分别对应的对象分类结果,即源图像中的一个目标对象对应一个对象边缘形状。
可选的,在源图像中确定用于表征目标对象的轮廓的对象边缘形状,以及目标对象对应的对象分类结果后,可以将该源图像应用在视频内容理解、自动驾驶等场景中。例如,在视频内容理解场景中,源图像可以为视频帧,在确定视频帧中所包含的所有目标对象对应的对象边缘形状,以及所有目标对象对应的对象分类结果后,有利于准确理解视频内容。在自动驾驶场景中,可以通过目标图像分割模型,查找源图像中所包含的车道、交通工具、交通标志、交通路标、交通摄像头、摄像头支撑杆等目标对象并进行识别和分割,有利于辅助自动驾驶车辆调整驾驶方向以及驾驶车道。
本申请实施例中,在源图像的分割过程中,可以通过对源图像进行特征提取,得到具有不同尺寸的M个对象特征图,在获取到每个对象特征图中的像素点所对应的分类置信度的同时,还可以获取每个对象特征图中的像素点所对应的初始预测极径,通过基于每个对象特征图中的轮廓采样点所对应的极径偏差,对初始预测极径进行精修,以获取每个对象特征图中的像素点所对应的目标预测极径,可以提高目标预测极径的回归精度;进而可以根据目标预测极径和分类置信度,确定源图像中所包含的目标对象的对象边缘形状,从而提高图像的分割准确性。
可选的,在使用目标图像分割模型之前,需要对目标图像分割模型进行训练,为方便描述,下述将未完成训练的图像分割模型称为初始图像分割模型。下面将从图6至图9对初始图像分割模型的训练过程进行描述。
请参见图6,图6是本申请实施例提供的一种图像数据处理方法的流程示意图。可以理解地,该图像数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图6所示,该图像数据处理方法可以包括以下步骤:
步骤S201,获取包含样本对象的样本图像,将样本图像输入至初始图像分割模型,通过初始图像分割模型中的残差组件和特征融合组件,输出与样本对象相关联的M个样本特征图;样本图像携带样本对象对应的标签信息,M个样本特征图为具有不同尺寸的图像特征。
具体的,计算机设备可以获取用于训练初始图像分割模型的样本图像,样本图像中可以包括一个或多个样本对象,且该样本对象可以携带一个或多个样本对象分别对应的标签信息,其中标签信息可以包括样本对象对应的类别标签,以及样本对象的标注轮廓形状。计算机设备可以获取初始化后的图像分割模型(可以称为初始图像分割模型),并将样本图像输入至初始图像分割模型,通过初始图像分割模型中的残差组件,可以依次输出各个阶段分别对应的样本残差特征图,进而可以从各个阶段所输出的样本残差特征图中选择N个样本残差特征图作为初始图像分割模型的特征融合组件的输入,通过特征融合组件可以对N个样本残差特征图进行信息融合,得到与样本对象相关联的M个样本特征图,其中,M个样本特征图可以为具有不同尺寸的图像特征,上述M和N均可以为正整数。需要说明的是,初始图像分割模型可以包括残差组件、特征融合组件、分类组件、回归组件,残差组件和特征融合组件可以从样本图像中提取特征,分类组件可以用于预测样本图像中所包含样本对象的类别,以及样本对象对应的中心置信度,回归组件可以用于预测样本图像中所包含样本对象的极径。其中,M个样本特征图的获取过程可以参见上述步骤S101中对M个对象特征图的描述,这里不再进行赘述。
步骤S202,通过初始图像分割模型中的分类组件,输出每个样本特征图中的像素点所对应的样本分类置信度;样本分类置信度用于表征每个样本特征图中的像素点与样本对象之间的关联程度。
具体的,在获取到M个样本特征图后,可以对M个样本特征图分别进行独立预测,如每个样本特征图均可以输入分类组件和回归组件中,通过初始图像分割模型中的分类组件, 可以输出每个样本特征中的像素点所对应的样本分类置信度。其中,初始图像分割模型中的分类组件可以包括类别预测子组件和中心预测子组件,因此样本分类置信度可以包括类别预测子组件输出的类别置信度,以及中心预测子组件输出的中心置信度;类别置信度用于表征样本图像中所包含的样本对象的类别,中心置信度可以用于表征样本特征图中的像素点,与样本对象在样本图像中所处的图像区域的中心点之间的距离,即样本分类置信度可以用于表征每个样本特征图中的像素点与样本对象之间的关联程度。样本分类置信度的获取过程可以参见上述步骤S101中对分类置信度的描述,这里不再进行赘述。
步骤S203,在初始图像分割模型的回归组件中,获取每个样本特征图中的像素点所对应的初始样本极径,根据初始样本极径,在每个样本特征图中分别获取样本对象对应的样本轮廓采样点;样本轮廓采样点所构成的轮廓与样本对象的轮廓相关联。
具体的,在获取到M个样本特征图后,每个样本特征图均可以输入初始图像分割模型的回归组件中,该回归组件可以包括粗略回归模块和精修回归模块,通过粗略回归模块可以输出每个样本特征图中的像素点所对应的初始样本极径,基于初始样本极径,可以在每个样本特征图中分别获取样本对象对应的样本轮廓采样点,其中样本轮廓采样点所构成的轮廓可以用于表示样本图像中所包含的样本对象的轮廓。其中步骤S203的具体实现过程可以参见上述步骤S102中的描述,这里不再进行赘述。
步骤S204,获取每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,将样本极径偏差和初始样本极径之和,确定为每个样本特征图中的像素点所对应的目标样本极径。
具体的,计算机设备可以在初始图像分割模型的回归组件中,通过精修回归模块可以获取每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,进而可以将样本极径偏差与初始样本极径之和,确定为每个样本特征图中的像素点所对应的目标样本极径。其中,步骤S204的具体实现过程可以参见上述步骤S103中的描述,这里不再进行赘述。
步骤S205,根据样本分类置信度、初始样本极径、目标样本极径以及标签信息,对初始图像分割模型的网络参数进行训练,得到目标图像分割模型,目标图像分割模型用于定位并识别源图像中的目标对象。
其中,对初始图像分割模型的网络参数训练可以理解为对网络参数进行修正。在一些实施例中,当样本分类置信度包括样本类别置信度和样本中心置信度时,计算机设备可以根据样本类别置信度、样本中心置信度、初始样本极径、目标样本极径以及标签信息,确定初始图像分割模型对应的模型损失函数,根据模型损失函数对初始图像分割模型的网络参数进行修正,当初始图像分割模型的训练次数达到训练终止条件时,可以将满足训练终止条件的初始图像分割模型确定为目标图像分割模型;在初始图像分割模型的训练次数未达到训练终止条件的情况下,则修正其网络参数,以基于修正后的网络参数,进行下一次迭代训练,直到达到训练终止条件。其中,训练终止条件可以为训练收敛条件,或者为预先设置的最大迭代次数,训练完成的目标图像分割模型可以用于定位并识别源图像中所包含的所有目标对象。
其中,模型损失函数的确定过程可以包括:计算机设备可以根据样本类别置信度与标签信息中的类别标签,可以确定初始图像分割模型中的类别预测子组件所对应的分类损失函数;根据样本中心置信度与标签信息中的标注轮廓形状,确定初始图像分割模型中的中心预测子组件所对应的中心损失函数;根据初始样本极径与标签信息中的标注轮廓形状,可以确定初始图像分割模型中的粗略回归模块所对应的第一回归损失函数;根据初始样本极径与标签信息中的标注轮廓形状,确定初始图像分割模型中的精修回归模块所对应的第二回归损失函数;进而根据分类损失函数、中心损失函数、第一回归损失函数以及第二回归损失函数,确定初始图像分割模型对应的模型损失函数。
可选的,初始图像分割模型还包括全局轮廓感知组件;计算机设备在该M个样本特征图中,将具有最大尺寸的样本特征图输入至该全局轮廓感知组件,获取与该样本对象相关联的样本轮廓概率图。也即是,在M个样本特征图中,将具有最大尺寸的样本特征图确定为全局 轮廓感知组件的输入特征图,将输入特征图输入至全局轮廓感知组件;在全局轮廓感知组件中,对输入特征图进行卷积,获取与样本对象相关联的样本轮廓概率图。其中,由于初始图像分割模型中的回归组件是以样本特征图中的单个像素为训练样本进行训练的,关注的是样本对象的个体信息,因此在初始图像分割模型中引入了全局轮廓感知组件,该全局轮廓感知组件可行样本对象的边界像素分类,用于引导初始图像分割模型中的特征提取器(包括残差组件和特征融合组件)编码样本对象的全局轮廓信息,以隐式地辅助回归组件中的极径回归,该全局轮廓感知组件仅存在于图像分割模型的训练阶段,在训练完成后,该全局轮廓感知组件会被移除,即目标图像分割模型可以移除全局轮廓感知组件,而不会对模型的预测速度产生影响,通过引入全局轮廓感知组件,可以提高极径的回归精度。全局轮廓感知组件以最大尺寸的样本特征图作为输入,依次经过通道数为128、64、64、64的4个卷积层(该4个卷积层均可以采用尺寸为3×3的卷积核),可以得到与输入的样本特征图具有相同尺寸的样本轮廓概率图,该样本轮廓概率图中的每个像素均可以用于表示对应点为边界像素的概率。
请一并参见图7,图7是本申请实施例提供的一种样本图像的对象掩码图像的示意图。如图7所示,对于样本图像40a,采用现有算法提取该样本图像40a对应的多张掩码图像的轮廓,并将所有轮廓绘制在同一个掩码图像中,得到该样本图像40a对应的对象掩码图像40b,该对象掩码图像40b用于表示样本图像40a中所包含的样本对象的真实轮廓边界。对于样本图像40c,同样采用现有算法得到该样本图像40c对应的对象掩码图像40d,该对象掩码图像40d可以用于表示样本图像40c中所包含的样本对象的真实轮廓边界。
请一并参见图8,图8是本申请实施例提供的一种初始图像分割模型的训练示意图。如图8所示,计算机设备在获取到样本图像50a后,将该样本图像50a输入至初始图像分割模型,通过初始图像分割模型中的残差组件,依次输出样本残差特征图CC1、样本残差特征图CC2、样本残差特征图CC3、样本残差特征图CC4以及样本残差特征图CC5,进而将样本残差特征图CC3、样本残差特征图CC4以及样本残差特征图CC5作为初始图像分割模型的特征融合组件的输入,在特征融合组件中可以对样本残差特征图CC3、样本残差特征图CC4以及样本残差特征图CC5进行信息融合,以得到样本特征图PP1、样本特征图PP2、样本特征图PP3、样本特征图PP4以及样本特征图PP5,其中样本特征图PP1至样本特征图PP5的获取过程与上述对象特征图P1至对象特征图P5的获取过程相同,这里不再进行赘述;初始图像分割模型中的残差组件和特征融合组件可以构成该初始图像分割模型中的特征提取器50b。
进一步地,分别对样本特征图PP1至样本特征图PP5进行独立预测,即对于上述5个样本特征图中的任意一个样本特征图,均分别进入预测头中的分类组件和极径回归组件(即初始图像分割模型中的回归组件)中,如样本特征图PP3输入分类组件和极径回归组件中后,可以将样本特征图PP3表示为图像特征50d,该图像特征50d的尺寸可以为H×W×256,即图像特征50d的高为H,宽为W,通道数为256。在初始图像分割模型的分类组件中,图像特征50d经过4个卷积层(此处的4个卷积层均采用尺寸为3×3的卷积核)得到图像特征50e(该图像特征50e可以理解为用于分类的样本分类特征图,尺寸可以为H×W×256),该图像特征50e分别进入类别预测子组件和中心预测子组件,在类别预测子组件中对图像特征50e进行像素类别分类,得到样本特征图PP3中的像素点分别属于L个类别的样本类别置信度50f(尺寸可以为H×W×L);在中心预测子组件中对图像特征50e进行像素中心分类,得到对象特征图PP3中的像素点,在对应样本对象所处的图像区域中的样本中心置信度50g(尺寸可以为H×W×1)。
其中,初始图像分割模型的极径回归组件包括粗略回归模块50j和精修回归模块50n,在粗略回归模块50j中,图像特征50d可以经过4个卷积层(此处的4个卷积层均采用尺寸为3×3的卷积核)得到图像特征50k(该图像特征50k可以理解为用于极径回归的样本距离特征图,尺寸可以为H×W×256),通过样本距离特征图可以预测得到初始样本极径50m(尺寸可以为H×W×36),即样本图像中的样本对象的轮廓可以由36个极径构成。进一步地,初 始样本极径50m和图像特征50d可以同时输入精修回归模块50n中,根据初始样本极径50m可以计算样本采样特征坐标,按照样本采样特征坐标在样本特征图PP3中进行采样,可以得到36个尺寸为(1,1,c)的特征向量,将36个特征向量按照通道维度进行叠加,得到样本轮廓特征50p,利用分组数为36个1x1分组卷积对每个样本轮廓点分别回归样本极径偏差50q,将样本极径偏差50q与初始样本极径50m之和确定为目标样本极径50i。
如图8所示,初始图像分割模型还包括全局轮廓感知组件,计算机设备将样本特征图PP1输入至全局轮廓感知组件,在该全局轮廓感知组件中,该样本特征图PP1可以依次经过4个卷积层(此处的4个卷积层均可以采用尺寸为3×3的卷积核,该4个卷积层的通道数可以依次为128、64、64、64),得到卷积后的特征50r,通过特征50r可以预测得到与样本特征图PP1具有相同尺寸的样本轮廓概率图像50s。
进一步地,计算机设备根据样本类别置信度,确定样本图像中的样本像素点所对应的样本分类结果,根据样本分类结果与标签信息中的类别标签,确定分类组件对应的分类损失函数L cls,该分类损失函数L cls可以表示为初始图像分割模型中的类别预测子组件所对应的损失函数;根据样本中心置信度,在样本图像中确定样本对象对应的样本预测中心点,根据样本预测中心点与标签信息中的标注轮廓形状之间的距离,确定分类组件对应的中心损失函数L cnt,中心损失函数L cnt表示为初始图像分割模型中的中心预测子组件所对应的损失函数;根据初始样本极径,确定样本对象对应的初始预测轮廓形状,根据初始预测轮廓形状与标注轮廓形状之间的交并比,确定回归组件对应的第一回归损失函数L coarse,第一回归损失函数L coarse表示为初始图像分割模型中的粗略回归模块所对应的损失函数;根据目标样本极径,确定样本对象对应的目标预测轮廓形状,根据目标预测轮廓形状与标注轮廓形状之间的交并比,确定回归组件对应的第二回归损失函数L fine,第二回归损失函数L fine表示为初始图像分割模型中的精修回归模块所对应的损失函数;获取样本图像对应的对象掩码图像,根据样本轮廓概率图与对象掩码图像,确定初始图像分割模型对应的全局轮廓损失函数L hbb,全局轮廓损失函数L hbb可以表示为初始图像分割模型中的全局轮廓感知组件所对应的损失函数;进而根据分类损失函数L cls、中心损失函数L cnt、第一回归损失函数L coarse、第二回归损失函数L fine以及全局轮廓损失函数L hbb,确定初始图像分割模型对应的模型损失函数L all,根据模型损失函数L all可以对初始图像分割模型的网络参数进行修正,将参数修正后的初始图像分割模型确定为目标图像分割模型。其中,模型损失函数L all可以表示为:L all=L cls+L cnt+αL coarse+L fine+L hbb,分类损失函数L cls和全局轮廓损失函数L hbb可以使用Focal loss(一种损失函数),中心损失函数L cnt可以使用二值交叉熵,粗略回归模块对应的第一回归损失函数L coarse以及精修回归模块对应的第二回归损失函数L fine可以使用极径交并比(Polar IOU),α可以表示为超参数。初始图像分割模型可以在模型损失函数L all的监督下进行训练,通过随机梯度下降不断更新模型参数,进而可以将训练完成的初始图像分割模型确定为目标图像分割模型。
可选的,为了验证训练完成的目标图像分割模型的分割效果,可以在数据集COCO(一种应用于图像实例分割场景的数据集)上对目标图像分割模型进行验证,并采用AP(Average Precision,平均精度)、AP 50(预测得到的候选边缘形状与标注轮廓形状之间的交并比阈值可以为0.5,此处的交并比阈值等同于上述提及的重叠阈值)、AP 75(预测得到的候选边缘形状与标注轮廓形状之间的交并比阈值可以为0.75)、AP S(小样本对象的平均精度,其中,小样本对象的区域面积小于32×32)、AP M(中等样本对象的平均精度,其中,中等样本对象的区域面积大于32×32,且小于96×96)以及AP L(大样本对象的平均精度,其中,大样本对象的区域面积大于96×96)作为评价指标,来表示目标图像分割模型的分类效果。在实验过程中,可以使用现有模型PolarMask(一种图像实例分割方法)与本申请提出的方法进行对比,以体现目标图像分割模型的有效性,目标图像分割模型与现有模型PolarMask的实验结果可以如下表1所示:
表1
方法 AP AP 50 AP 75 AP S AP M AP L
PolarMask 30.4 51.1 31.2 13.5 33.5 43.9
目标图像分割模型1 31.2 51.6 32.1 13.9 33.9 45.7
目标图像分割模型2 31.7 52.4 33.0 14.0 34.8 46.5
其中,上述表1中的目标图像分割模型1可以是指通过特征提取器(包括残差组件和特征融合组件)、分类组件以及由粗到细的回归组件(包括粗略回归模块和精修回归模块)训练完成的模型,目标图像分割模型2可以是指通过特征提取器(包括残差组件和特征融合组件)、分类组件、由粗到细的回归组件(包括粗略回归模块和精修回归模块)以及全局轮廓感知组件训练完成的模型。由上述表1可知,与现有模型PolarMask相比,目标图像分割模型1在AP上提升了0.8,在AP L上提升了1.8,可以表明由粗到细的回归策略可以很好地解决长距离回归问题,可以提高极径回归精度。目标图像分割模型2相比于目标图像分割模型1,在AP上提升了0.5,可以表明了全局轮廓感知组件对极径回归具有良好的辅助作用,可以进一步提高极径回归精度,进而可以提高图像的分割准确性。
请一并参见图9,图9是本申请实施例提供的一种目标图像分割模型的分割结果可视化示意图。如图9所示的图像60a和图像60c均为现有模型PolarMask预测的对象边缘形状和分类结果的可视化表示,图像60b和图像60d均为目标图像分割模型(例如,上述目标图像分割模型2)预测的对象边缘形状和分类结果的可视化表示。如图9所示,目标图像分割模型预测的对象边缘形状,很显然比现有模型PolarMask预测的对象边缘形状与实际的对象轮廓边界更加贴合,当图像包括多个目标对象时,通过目标图像分割模型可以预测得到每个目标对象分别对应的对象边缘形状,并识别每个目标对象分别对应的分类结果,基于目标图像分割模型可以提高目标对象的分割准确性。
本申请实施例中,可以在初始图像分割模型中引入由粗到细的极径回归组件,通过对初始样本极径进行精修,以获取每个对象特征图中的像素点所对应的目标样本极径,可以提高极径的回归精度;还可以在初始图像分割模型中引入全局轮廓感知组件,获取图像中所包含的样本对象的全局信息,该全局信息可以用于辅助极径回归,进一步提高图像的分割准确性。
请参见图10,图10是本申请实施例提供的一种图像数据处理装置的结构示意图。可以理解地,图像数据处理装置可以是应用于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置可以为一个图像应用软件,该图像数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,图像数据处理装置1可以包括:第一获取模块11,第一预测模块12,第二预测模块13,边缘确定模块14;
第一获取模块11,用于获取源图像的M个对象特征图,该M个对象特征图与该源图像所包含的目标对象相关联,该M个对象特征图不同尺寸的图像特征,该M为正整数;
第一预测模块12,用于获取每个该对象特征图中的像素点在该源图像中所对应的初始预测极径,根据该初始预测极径,在每个该对象特征图中分别获取该目标对象对应的轮廓采样点;
第二预测模块13,用于获取每个该对象特征图中的轮廓采样点所对应的极径偏差;确定每个该对象特征图中的像素点在该源图像中所对应的目标预测极径,该目标预测极径为该极径偏差和该初始预测极径之和;
边缘确定模块14,用于根据每个该对象特征图中的像素点所对应的该目标预测极径,在该源图像中确定每个该对象特征图分别关联的候选边缘形状;根据每个该对象特征图中的像素点所对应的分类置信度,在每个该对象特征图分别关联的候选边缘形状中,确定用于表征 该目标对象的轮廓的对象边缘形状,该分类置信度用于表征每个该对象特征图中的像素点与该目标对象之间的关联程度。
其中,第一获取模块11,第一预测模块12,第二预测模块13,边缘确定模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
在一些可行的实施方式中,第一获取模块11可以包括:特征提取单元111,特征融合单元112;
特征提取单元111,用于将包含该目标对象的该源图像输入至目标图像分割模型,根据该目标图像分割模型中的残差组件,在该源图像中获取与该目标对象相关联的N个残差特征图;该N个残差特征图为该残差组件中的不同网络层所输出的特征,该N为正整数;
特征融合单元112,用于在该目标图像分割模型的特征融合组件中,融合该N个残差特征图,得到该目标对象对应的该M个对象特征图。
可选的,N个残差特征图包括第一残差特征图和第二残差特征图,第二残差特征图的尺寸小于第一残差特征图的尺寸;
特征融合单元112可以包括:卷积子单元1121,上采样子单元1122,下采样子单元1123;
卷积子单元1121,用于在该目标图像分割模型的特征融合组件中,分别对该第一残差特征图和第二残差特征图进行卷积,得到该第一残差特征图对应的第一卷积特征图,以及该第二残差特征图对应的第二卷积特征图;
上采样子单元1122,用于上采样该第二卷积特征图,得到上采样特征图,确定融合特征图,该融合特征图为该第一卷积特征图和该上采样特征图之和;
下采样子单元1123,用于下采样该第二卷积特征图,得到下采样特征图,根据该融合特征图、该第二卷积特征图以及该下采样特征图,确定该目标对象对应的该M个对象特征图。
其中,特征提取单元111,特征融合单元112的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
在一些可行的实施方式中,分类置信度包括类别置信度和中心置信度;
第一获取模块11可以包括:分类特征获取单元113,类别预测单元114,中心预测单元115;
分类特征获取单元113,用于获取M个对象特征图中的对象特征图P i,在目标图像分割模型的分类组件中,获取对象特征图P i对应的对象分类特征图;i为小于或等于M的正整数;
类别预测单元114,用于根据分类组件中的类别预测子组件,对对象分类特征图进行像素类别分类,得到对象特征图P i中的像素点分别属于L个类别的类别置信度;目标图像分割模型用于识别L个类别所对应的对象,L为正整数;
中心预测单元115,用于根据分类组件中的中心预测子组件,对对象分类特征图进行像素中心分类,得到对象特征图P i中的像素点,在目标对象所处的图像区域中的中心置信度。
其中,分类特征获取单元113,类别预测单元114,中心预测单元115的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
在一些可行的实施方式中,第一预测模块12可以包括:距离特征获取单元121,初始极径预测单元122,特征采样单元123;
距离特征获取单元121,用于在目标图像分割模型的回归组件中,对对象特征图Pi进行卷积,得到该对象特征图Pi对应的距离预测特征图,该i为小于或等于该M的正整数;
初始极径预测单元122,用于将该距离预测特征图中的像素点确定为候选中心,根据该距离预测特征图,获取该候选中心对应的初始预测极径;
特征采样单元123,用于根据初始预测极径和对象特征图P i中的像素点,确定采样特征坐标,在对象特征图P i中获取与采样特征坐标相匹配的轮廓采样点。
其中,距离特征获取单元121,初始极径预测单元122,特征采样单元123的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
在一些可行的实施方式中,对象特征图P i中所包含的轮廓采样点的数量为K个,K为正整数;
第二预测模块13可以包括:向量叠加单元131,极径偏差获取单元132;
向量叠加单元131,用于获取该对象特征图Pi中的K个轮廓采样点分别对应的采样特征向量,叠加K个采样特征向量,得到该目标对象对应的轮廓特征向量;
极径偏差获取单元132,用于根据K个分组卷积对该轮廓特征向量进行卷积,得到该K个轮廓采样点分别对应的极径偏差。
其中,向量叠加单元131,极径偏差获取单元132的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,边缘确定模块14可以包括:特征像素点获取单元141,候选边缘生成单元142,候选边缘添加单元143;
特征像素点获取单元141,用于获取M个对象特征图中的对象特征图P i,在对象特征图P i中获取像素点S j;i为小于或等于M的正整数,j为小于或等于对象特征图P i所包含的像素数量的正整数;
候选边缘生成单元142,用于在源图像中对像素点S j对应的目标预测极径的端点进行连接,生成以像素点S j为中心的候选边缘形状B j
候选边缘添加单元143,用于将每个对象特征图中的像素点所关联的候选边缘形状,均添加至目标对象对应的候选边缘形状集合。
可选的,分类置信度包括类别置信度和中心置信度;
边缘确定模块14可以包括:候选像素点获取单元144,分割置信度获取单元145,对象边缘确定单元146;
候选像素点获取单元144,用于在该源图像中,获取该候选边缘形状Bj所覆盖的候选像素点;
分割置信度获取单元145,用于根据该候选像素点对应的类别置信度与该候选像素点对应的中心置信度之间的乘积,确定该候选边缘形状Bj对应的分割置信度;
对象边缘确定单元146,用于根据每个该候选边缘形状所对应的分割置信度,确定用于表征该目标对象的轮廓的对象边缘形状;
该装置还包括:对象分类结果确定模块,用于用于获取该对象边缘形状在该源图像中所覆盖的目标像素点,根据该目标像素点对应的类别置信度,确定该目标对象对应的对象分类结果。
其中,特征像素点获取单元141,候选边缘生成单元142,候选边缘添加单元143,候选像素点获取单元144,分割置信度获取单元145,对象边缘确定单元146,分类结果确定单元147的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
在一些可行的实施方式中,对象边缘确定单元146可以包括:排序子单元1461,第一重叠度获取子单元1462,集合更新子单元1463,第二重叠度获取子单元1464;
排序子单元1461,用于根据每个该候选边缘形状所对应的分割置信度,对每个该候选边缘形状进行排序,将最大的分割置信度所对应的候选边缘形状确定为第一目标边缘形状;
第一重叠度获取子单元1462,用于将除该第一目标边缘形状之外的候选边缘形状确定为第一剩余边缘形状,获取该第一目标边缘形状与该第一剩余边缘形状之间的第一重叠度;
集合更新子单元1463,用于筛选掉第一重叠度大于重叠阈值的第一剩余边缘形状和该第一目标边缘形状,将剩余的候选边缘形状中,最大的分割置信度所对应的第一剩余边缘形状确定为第二目标边缘形状;
第二重叠度获取子单元1464,用于将除该第二目标边缘形状之外的第一剩余边缘形状确定为第二剩余边缘形状,在该第二目标边缘形状与该第二剩余边缘形状之间的第二重叠度均大于该重叠阈值的情况下,将该第一目标边缘形状和该第二目标边缘形状,确定为该目标对 象对应的对象边缘形状。
其中,排序子单元1461,第一重叠度获取子单元1462,集合更新子单元1463,第二重叠度获取子单元1464的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
本申请实施例中,在源图像的分割过程中,可以通过对源图像进行特征提取,得到具有不同尺寸的M个对象特征图,在获取到每个对象特征图中的像素点所对应的分类置信度的同时,还可以获取每个对象特征图中的像素点所对应的初始预测极径,通过基于每个对象特征图中的轮廓采样点所对应的极径偏差,对初始预测极径进行精修,以获取每个对象特征图中的像素点所对应的目标预测极径,可以提高目标预测极径的回归精度;进而可以根据目标预测极径和分类置信度,确定源图像中所包含的目标对象的对象边缘形状,从而提高图像的分割准确性。
请参见图11,图11是本申请实施例提供的一种图像数据处理装置的结构示意图。可以理解地,图像数据处理装置可以是应用于计算机设备中的一个计算机程序(包括程序代码),例如该图像数据处理装置可以为一个图像应用软件,该图像数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,图像数据处理装置2可以包括:第二获取模块21,样本分类模块22,第三预测模块23,第四预测模块24,网络参数修正模块25;
第二获取模块21,用于获取包含样本对象的样本图像,将样本图像输入至初始图像分割模型,通过初始图像分割模型中的残差组件和特征融合组件,输出与样本对象相关联的M个样本特征图;样本图像携带样本对象对应的标签信息,M个样本特征图为具有不同尺寸的图像特征,M为正整数;
样本分类模块22,用于通过初始图像分割模型中的分类组件,输出每个样本特征图中的像素点所对应的样本分类置信度;样本分类置信度用于表征每个样本特征图中的像素点与样本对象之间的关联程度;
第三预测模块23,用于在初始图像分割模型的回归组件中,获取每个样本特征图中的像素点所对应的初始样本极径,根据初始样本极径,在每个样本特征图中分别获取样本对象对应的样本轮廓采样点;样本轮廓采样点所构成的轮廓与样本对象的轮廓相关联;
第四预测模块24,用于获取每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,将样本极径偏差和初始样本极径之和,确定为每个样本特征图中的像素点所对应的目标样本极径;
网络参数训练模块25,用于根据样本分类置信度、初始样本极径、目标样本极径以及标签信息,对初始图像分割模型的网络参数进行训练,得到目标图像分割模型;目标图像分割模型用于定位并识别源图像中的目标对象。
其中,第二获取模块21,样本分类模块22,第三预测模块23,第四预测模块24,网络参数修正模块25的具体功能实现方式可以参见上述图6所对应实施例中的步骤S201-步骤S205,这里不再进行赘述。
在一些可行的实施方式中,初始图像分割模型还包括全局轮廓感知组件;
该图像数据处理装置2还可以包括:特征输入模块26,样本轮廓获取模块27;
特征输入模块26,用于在M个样本特征图中,将具有最大尺寸的样本特征图确定为输入特征图,将输入特征图输入至全局轮廓感知组件;
样本轮廓获取模块27,用于在全局轮廓感知组件中,对输入特征图进行卷积,获取与样本对象相关联的样本轮廓概率图。
其中,特征输入模块26,样本轮廓获取模块27的具体功能实现方式可以参见上述图6所对应实施例中的步骤S205,这里不再进行赘述。
在一些可行的实施方式中,样本分类置信度包括样本类别置信度和样本中心置信度;
网络参数修正模块25可以包括:第一损失函数确定单元251,第二损失函数确定单元252, 第三损失函数确定单元253,第四损失函数确定单元254,第五损失函数确定单元255,模型参数训练单元256;
第一损失函数确定单元251,用于根据样本类别置信度,确定样本图像中的样本像素点所对应的样本分类结果,根据样本分类结果与标签信息中的类别标签,确定分类组件对应的分类损失函数;
第二损失函数确定单元252,用于根据样本中心置信度,在样本图像中确定样本对象对应的样本预测中心点,根据样本预测中心点与标签信息中的标注轮廓形状之间的距离,确定分类组件对应的中心损失函数;
第三损失函数确定单元253,用于根据初始样本极径,确定样本对象对应的初始预测轮廓形状,根据初始预测轮廓形状与标注轮廓形状之间的交并比,确定回归组件对应的第一回归损失函数;
第四损失函数确定单元254,用于根据目标样本极径,确定样本对象对应的目标预测轮廓形状,根据目标预测轮廓形状与标注轮廓形状之间的交并比,确定回归组件对应的第二回归损失函数;
第五损失函数确定单元255,用于获取样本图像对应的对象掩码图像,根据样本轮廓概率图与对象掩码图像,确定初始图像分割模型对应的全局轮廓损失函数;
模型参数训练单元256,用于根据分类损失函数、中心损失函数、第一回归损失函数、第二回归损失函数以及全局轮廓损失函数,对初始图像分割模型的网络参数进行训练,得到目标图像分割模型。
其中,第一损失函数确定单元251,第二损失函数确定单元252,第三损失函数确定单元253,第四损失函数确定单元254,第五损失函数确定单元255,模型参数训练单元256的具体功能实现方式可以参见上述图6所对应实施例中的步骤S205,这里不再进行赘述。
本申请实施例中,可以在初始图像分割模型中引入由粗到细的极径回归组件,通过对初始样本极径进行精修,以获取每个对象特征图中的像素点所对应的目标样本极径,可以提高极径的回归精度;还可以在初始图像分割模型中引入全局轮廓感知组件,获取图像中所包含的样本对象的全局信息,该全局信息可以用于辅助极径回归,进一步提高图像的分割准确性。
请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取与源图像所包含的目标对象相关联的M个对象特征图,根据M个对象特征图,获取每个对象特征图中的像素点所对应的分类置信度;M个对象特征图为具有不同尺寸的图像特征,分类置信度用于表征每个对象特征图中的像素点与目标对象之间的关联程度,M为正整数;
根据M个对象特征图,获取每个对象特征图中的像素点所对应的初始预测极径,根据初始预测极径,在每个对象特征图中分别获取目标对象对应的轮廓采样点;轮廓采样点所构成 的轮廓与目标对象的轮廓相关联;
获取每个对象特征图中的轮廓采样点所对应的极径偏差,将极径偏差和初始预测极径之和,确定为每个对象特征图中的像素点所对应的目标预测极径;
根据每个对象特征图中的像素点所对应的目标预测极径,在源图像中确定每个对象特征图分别关联的候选边缘形状,将每个对象特征图分别关联的候选边缘形状均添加至候选边缘形状集合,根据每个对象特征图中的像素点所对应的分类置信度,在候选边缘形状集合中确定用于表征目标对象的轮廓的对象边缘形状。
或者处理器1001可以用于实现:获取源图像的M个对象特征图,该M个对象特征图与该源图像所包含的目标对象相关联,该M个对象特征图不同尺寸的图像特征,该M为正整数;获取每个该对象特征图中的像素点在该源图像中所对应的初始预测极径,根据该初始预测极径,在每个该对象特征图中分别获取该目标对象对应的轮廓采样点;获取每个该对象特征图中的轮廓采样点所对应的极径偏差;确定每个该对象特征图中的像素点在该源图像中所对应的目标预测极径,该目标预测极径为该极径偏差和该初始预测极径之和;根据每个该对象特征图中的像素点所对应的该目标预测极径,在该源图像中确定每个该对象特征图分别关联的候选边缘形状;根据每个该对象特征图中的像素点所对应的分类置信度,在每个该对象特征图分别关联的候选边缘形状中,确定用于表征该目标对象的轮廓的对象边缘形状,该分类置信度用于表征每个该对象特征图中的像素点与该目标对象之间的关联程度。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3和图6任一个所对应实施例中对图像数据处理方法的描述,也可执行前文图10所对应实施例中对图像数据处理装置1以及图11所对应实施例中对图像数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像数据处理装置1和图像数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3和图6任一个所对应实施例中对图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3和图6任一个所对应实施例中对图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程 序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的一些实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

  1. 一种图像数据处理方法,由计算机设备执行,包括:
    获取源图像的M个对象特征图,所述M个对象特征图与所述源图像所包含的目标对象相关联,所述M个对象特征图不同尺寸的图像特征,所述M为正整数;
    获取每个所述对象特征图中的像素点在所述源图像中所对应的初始预测极径,根据所述初始预测极径,在每个所述对象特征图中分别获取所述目标对象对应的轮廓采样点;
    获取每个所述对象特征图中的轮廓采样点所对应的极径偏差;
    确定每个所述对象特征图中的像素点在所述源图像中所对应的目标预测极径,所述目标预测极径为所述极径偏差和所述初始预测极径之和;
    根据每个所述对象特征图中的像素点所对应的所述目标预测极径,在所述源图像中确定每个所述对象特征图分别关联的候选边缘形状;
    根据每个所述对象特征图中的像素点所对应的分类置信度,在每个所述对象特征图分别关联的候选边缘形状中,确定用于表征所述目标对象的轮廓的对象边缘形状,所述分类置信度用于表征每个所述对象特征图中的像素点与所述目标对象之间的关联程度。
  2. 根据权利要求1所述的方法,其中,所述获取源图像的M个对象特征图,包括:
    将包含所述目标对象的所述源图像输入至目标图像分割模型,根据所述目标图像分割模型中的残差组件,在所述源图像中获取与所述目标对象相关联的N个残差特征图;所述N个残差特征图为所述残差组件中的不同网络层所输出的特征,所述N为正整数;
    在所述目标图像分割模型的特征融合组件中,融合所述N个残差特征图,得到所述目标对象对应的所述M个对象特征图。
  3. 根据权利要求2所述的方法,其中,所述N个残差特征图包括第一残差特征图和第二残差特征图,所述第二残差特征图的尺寸小于所述第一残差特征图的尺寸;
    所述在所述目标图像分割模型的特征融合组件中,融合所述N个残差特征图,得到所述目标对象对应的所述M个对象特征图,包括:
    在所述目标图像分割模型的特征融合组件中,分别对所述第一残差特征图和第二残差特征图进行卷积,得到所述第一残差特征图对应的第一卷积特征图,以及所述第二残差特征图对应的第二卷积特征图;
    上采样所述第二卷积特征图,得到上采样特征图,确定融合特征图,所述融合特征图为所述第一卷积特征图和所述上采样特征图之和;
    下采样所述第二卷积特征图,得到下采样特征图,根据所述融合特征图、所述第二卷积特征图以及所述下采样特征图,确定所述目标对象对应的所述M个对象特征图。
  4. 根据权利要求1所述的方法,其中,所述分类置信度包括类别置信度和中心置信度;
    所述方法还包括:
    在目标图像分割模型的分类组件中,获取对象特征图Pi对应的对象分类特征图;所述i 为小于或等于所述M的正整数;
    根据所述分类组件中的类别预测子组件,对所述对象分类特征图进行像素类别分类,得到所述对象特征图Pi中的像素点分别属于L个类别的类别置信度;所述目标图像分割模型用于识别所述L个类别所对应的对象,所述L为正整数;
    根据所述分类组件中的中心预测子组件,对所述对象分类特征图进行像素中心分类,得到所述对象特征图Pi中的像素点,在所述目标对象所处的图像区域中的中心置信度。
  5. 根据权利要求1所述的方法,其中,所述获取每个所述对象特征图中的像素点所对应的初始预测极径,根据所述初始预测极径,在每个所述对象特征图中分别获取所述目标对象对应的轮廓采样点,包括:
    在目标图像分割模型的回归组件中,对对象特征图Pi进行卷积,得到所述对象特征图Pi对应的距离预测特征图,所述i为小于或等于所述M的正整数;
    将所述距离预测特征图中的像素点确定为候选中心,根据所述距离预测特征图,获取所述候选中心对应的初始预测极径;
    根据所述初始预测极径和所述对象特征图Pi中的像素点,确定采样特征坐标,在所述对象特征图Pi中获取与所述采样特征坐标相匹配的轮廓采样点。
  6. 根据权利要求5所述的方法,其中,所述对象特征图Pi中所包含的轮廓采样点的数量为K个,所述K为正整数;
    所述获取每个所述对象特征图中的轮廓采样点所对应的极径偏差,包括:
    获取所述对象特征图Pi中的K个轮廓采样点分别对应的采样特征向量,叠加K个采样特征向量,得到所述目标对象对应的轮廓特征向量;
    根据K个分组卷积对所述轮廓特征向量进行卷积,得到所述K个轮廓采样点分别对应的极径偏差。
  7. 根据权利要求1所述的方法,其中,所述根据每个所述对象特征图中的像素点所对应的所述目标预测极径,在所述源图像中确定每个所述对象特征图分别关联的候选边缘形状,包括:
    在所述源图像中对所述像素点Sj对应的目标预测极径的端点进行连接,生成以所述像素点Sj为中心的候选边缘形状Bj,所述i为小于或等于所述M的正整数,所述j为小于或等于所述对象特征图Pi所包含的像素数量的正整数。
  8. 根据权利要求7所述的方法,其中,所述分类置信度包括类别置信度和中心置信度;
    所述根据每个所述对象特征图中的像素点所对应的分类置信度,在每个所述对象特征图分别关联的候选边缘形状中,确定用于表征所述目标对象的轮廓的对象边缘形状,包括:
    在所述源图像中,获取所述候选边缘形状Bj所覆盖的候选像素点;
    根据所述候选像素点对应的类别置信度与所述候选像素点对应的中心置信度之间的乘积,确定所述候选边缘形状Bj对应的分割置信度;
    根据每个所述候选边缘形状所对应的分割置信度,确定用于表征所述目标对象的轮廓的 对象边缘形状;
    所述方法还包括:获取所述对象边缘形状在所述源图像中所覆盖的目标像素点,根据所述目标像素点对应的类别置信度,确定所述目标对象对应的对象分类结果。
  9. 根据权利要求8所述的方法,其中,所述根据每个所述候选边缘形状所对应的分割置信度,确定用于表征所述目标对象的轮廓的对象边缘形状,包括:
    根据每个所述候选边缘形状所对应的分割置信度,对每个所述候选边缘形状进行排序,将最大的分割置信度所对应的候选边缘形状确定为第一目标边缘形状;
    将除所述第一目标边缘形状之外的候选边缘形状确定为第一剩余边缘形状,获取所述第一目标边缘形状与所述第一剩余边缘形状之间的第一重叠度;
    筛选掉第一重叠度大于重叠阈值的第一剩余边缘形状和所述第一目标边缘形状,将剩余的候选边缘形状中,最大的分割置信度所对应的第一剩余边缘形状确定为第二目标边缘形状;
    将除所述第二目标边缘形状之外的第一剩余边缘形状确定为第二剩余边缘形状,在所述第二目标边缘形状与所述第二剩余边缘形状之间的第二重叠度均大于所述重叠阈值的情况下,将所述第一目标边缘形状和所述第二目标边缘形状,确定为所述目标对象对应的对象边缘形状。
  10. 一种图像数据处理方法,包括:
    获取包含样本对象的样本图像,将所述样本图像输入至初始图像分割模型,通过所述初始图像分割模型中的残差组件和特征融合组件,输出与所述样本对象相关联的M个样本特征图;所述样本图像携带所述样本对象对应的标签信息,所述M个样本特征图为具有不同尺寸的图像特征,所述M为正整数;
    通过所述初始图像分割模型中的分类组件,输出每个样本特征图中的像素点所对应的样本分类置信度;所述样本分类置信度用于表征所述每个样本特征图中的像素点与所述样本对象之间的关联程度;
    在所述初始图像分割模型的回归组件中,获取所述每个样本特征图中的像素点所对应的初始样本极径,根据所述初始样本极径,在所述每个样本特征图中分别获取所述样本对象对应的样本轮廓采样点;所述样本轮廓采样点所构成的轮廓与所述样本对象的轮廓相关联;
    获取所述每个样本特征图中的样本轮廓采样点所对应的样本极径偏差,将所述样本极径偏差和所述初始样本极径之和,确定为所述每个样本特征图中的像素点所对应的目标样本极径;
    根据所述样本分类置信度、所述初始样本极径、所述目标样本极径以及所述标签信息,对所述初始图像分割模型的网络参数进行训练,得到目标图像分割模型;所述目标图像分割模型用于定位并识别源图像中的目标对象。
  11. 根据权利要求10所述的方法,其中,所述初始图像分割模型还包括全局轮廓感知组件;
    所述方法还包括:
    在所述M个样本特征图中,将具有最大尺寸的样本特征图输入至所述全局轮廓感知组件, 获取与所述样本对象相关联的样本轮廓概率图。
  12. 根据权利要求11所述的方法,其中,所述样本分类置信度包括样本类别置信度和样本中心置信度;
    所述根据所述样本分类置信度、所述初始样本极径、所述目标样本极径以及所述标签信息,对所述初始图像分割模型的网络参数进行训练,得到目标图像分割模型,包括:
    根据所述样本类别置信度,确定所述样本图像中的样本像素点所对应的样本分类结果,根据所述样本分类结果与所述标签信息中的类别标签,确定所述分类组件对应的分类损失函数;
    根据所述样本中心置信度,在所述样本图像中确定所述样本对象对应的样本预测中心点,根据所述样本预测中心点与所述标签信息中的标注轮廓形状之间的距离,确定所述分类组件对应的中心损失函数;
    根据所述初始样本极径,确定所述样本对象对应的初始预测轮廓形状,根据所述初始预测轮廓形状与所述标注轮廓形状之间的交并比,确定所述回归组件对应的第一回归损失函数;
    根据所述目标样本极径,确定所述样本对象对应的目标预测轮廓形状,根据所述目标预测轮廓形状与所述标注轮廓形状之间的交并比,确定所述回归组件对应的第二回归损失函数;
    获取所述样本图像对应的对象掩码图像,根据所述样本轮廓概率图与所述对象掩码图像,确定所述初始图像分割模型对应的全局轮廓损失函数;
    根据所述分类损失函数、所述中心损失函数、所述第一回归损失函数、所述第二回归损失函数以及所述全局轮廓损失函数,对所述初始图像分割模型的网络参数进行训练,得到目标图像分割模型。
  13. 一种图像数据处理装置,包括:
    第一获取模块,用于获取源图像的M个对象特征图,所述M个对象特征图与所述源图像所包含的目标对象相关联,所述M个对象特征图不同尺寸的图像特征,所述M为正整数;
    第一预测模块,用于获取每个所述对象特征图中的像素点在所述源图像中所对应的初始预测极径,根据所述初始预测极径,在每个所述对象特征图中分别获取所述目标对象对应的轮廓采样点;
    第二预测模块,用于获取每个所述对象特征图中的轮廓采样点所对应的极径偏差;确定每个所述对象特征图中的像素点在所述源图像中所对应的目标预测极径,所述目标预测极径为所述极径偏差和所述初始预测极径之和;
    边缘确定模块,用于根据每个所述对象特征图中的像素点所对应的所述目标预测极径,在所述源图像中确定每个所述对象特征图分别关联的候选边缘形状;根据每个所述对象特征图中的像素点所对应的分类置信度,在每个所述对象特征图分别关联的候选边缘形状中,确定用于表征所述目标对象的轮廓的对象边缘形状,所述分类置信度用于表征每个所述对象特征图中的像素点与所述目标对象之间的关联程度。
  14. 一种计算机设备,包括存储器和处理器;
    所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用 所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
  15. 一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
PCT/CN2021/109293 2021-06-10 2021-07-29 图像数据处理方法、装置、设备以及介质 WO2022257254A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/127,223 US20230237666A1 (en) 2021-06-10 2023-03-28 Image data processing method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110648695.4A CN113822314A (zh) 2021-06-10 2021-06-10 图像数据处理方法、装置、设备以及介质
CN202110648695.4 2021-06-10

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/127,223 Continuation US20230237666A1 (en) 2021-06-10 2023-03-28 Image data processing method and apparatus

Publications (1)

Publication Number Publication Date
WO2022257254A1 true WO2022257254A1 (zh) 2022-12-15

Family

ID=78912518

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/109293 WO2022257254A1 (zh) 2021-06-10 2021-07-29 图像数据处理方法、装置、设备以及介质

Country Status (3)

Country Link
US (1) US20230237666A1 (zh)
CN (1) CN113822314A (zh)
WO (1) WO2022257254A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051662A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和介质
CN116612204A (zh) * 2023-06-01 2023-08-18 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708580B (zh) * 2022-04-08 2024-04-16 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN116563105B (zh) * 2023-04-18 2024-02-02 武汉大学 一种众源卫星遥感影像数据集优选方法及计算机可读介质
CN116645525B (zh) * 2023-07-27 2023-10-27 深圳市豆悦网络科技有限公司 一种游戏图像识别方法及处理系统
CN116740653A (zh) * 2023-08-14 2023-09-12 山东创亿智慧信息科技发展有限责任公司 一种配电箱运行状态监测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123090A1 (en) * 2008-06-30 2011-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for determining a contour and a center of an object
CN109409371A (zh) * 2017-08-18 2019-03-01 三星电子株式会社 用于图像的语义分割的系统和方法
CN112052839A (zh) * 2020-10-10 2020-12-08 腾讯科技(深圳)有限公司 图像数据处理方法、装置、设备以及介质
CN112330701A (zh) * 2020-11-26 2021-02-05 山东师范大学 基于极坐标表示的组织病理图像细胞核分割方法及系统
CN112381062A (zh) * 2020-12-04 2021-02-19 哈尔滨工业大学 一种基于卷积神经网络的目标检测方法及装置
CN112446356A (zh) * 2020-12-15 2021-03-05 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123090A1 (en) * 2008-06-30 2011-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and device for determining a contour and a center of an object
CN109409371A (zh) * 2017-08-18 2019-03-01 三星电子株式会社 用于图像的语义分割的系统和方法
CN112052839A (zh) * 2020-10-10 2020-12-08 腾讯科技(深圳)有限公司 图像数据处理方法、装置、设备以及介质
CN112330701A (zh) * 2020-11-26 2021-02-05 山东师范大学 基于极坐标表示的组织病理图像细胞核分割方法及系统
CN112381062A (zh) * 2020-12-04 2021-02-19 哈尔滨工业大学 一种基于卷积神经网络的目标检测方法及装置
CN112446356A (zh) * 2020-12-15 2021-03-05 西北工业大学 基于多重极坐标的自然场景下任意形状文本的检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANG XUYI, CAO JIALE: "Contour-Point Refined Mask Prediction for Single-Stage Instance Segmentation", ACTA OPTICA SINICA, vol. 40, no. 21, 30 November 2020 (2020-11-30), pages 113 - 121, XP093014405, DOI: 10.3788/AOS202040.2115001 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051662A (zh) * 2023-03-31 2023-05-02 腾讯科技(深圳)有限公司 图像处理方法、装置、设备和介质
CN116612204A (zh) * 2023-06-01 2023-08-18 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质
CN116612204B (zh) * 2023-06-01 2024-05-03 北京百度网讯科技有限公司 图像生成方法、训练方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN113822314A (zh) 2021-12-21
US20230237666A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
WO2022257254A1 (zh) 图像数据处理方法、装置、设备以及介质
EP3605394B1 (en) Method and apparatus for recognizing body movement
CN109753913B (zh) 计算高效的多模式视频语义分割方法
CN111369427B (zh) 图像处理方法、装置、可读介质和电子设备
CN111054080B (zh) 智能检测透视外挂方法、装置、设备及其存储介质
CN111696110B (zh) 场景分割方法及系统
CN111160351B (zh) 基于块推荐网络的快速高分辨率图像分割方法
CN109977832B (zh) 一种图像处理方法、装置及存储介质
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN108170751B (zh) 用于处理图像的方法和装置
CN113420827A (zh) 语义分割网络训练和图像语义分割方法、装置及设备
JP2023131117A (ja) 結合感知モデルのトレーニング、結合感知方法、装置、機器および媒体
CN109241893B (zh) 基于人工智能技术的道路选择方法、装置及可读存储介质
CN114266952A (zh) 基于深监督的实时语义分割方法
CN112288702A (zh) 一种基于车联网的道路图像检测方法
CN114332509B (zh) 图像处理方法、模型训练方法、电子设备及自动驾驶车辆
CN115115513A (zh) 图像处理方法、装置、设备及存储介质
CN115083006A (zh) 虹膜识别模型训练方法、虹膜识别方法及装置
CN111222514B (zh) 一种基于视觉定位的局部地图优化方法
CN114419338B (zh) 图像处理方法、装置、计算机设备和存储介质
CN115049895B (zh) 一种图像属性识别方法、属性识别模型训练方法及装置
WO2023197390A1 (zh) 姿态跟踪方法、装置、电子设备和计算机可读介质
CN114612901A (zh) 图像变化识别方法、装置、设备和存储介质
CN116205998A (zh) 图像处理方法、模型训练方法、相关装置及设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21944757

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE