WO2020238902A1

WO2020238902A1 - 图像分割方法、模型训练方法、装置、设备及存储介质

Info

Publication number: WO2020238902A1
Application number: PCT/CN2020/092356
Authority: WO
Inventors: 陈思宏
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-05-29
Filing date: 2020-05-26
Publication date: 2020-12-03
Also published as: CN110188754A; CN110188754B; US11900613B2; US20210366126A1

Abstract

本申请涉及一种图像分割方法、模型训练方法、装置、设备及存储介质，其中图像分割方法包括：获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息；依据所述历史仿射变换信息对所述当前帧进行仿射变换，得到与所述当前帧对应的候选区域图像；对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果；根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。本申请提供的方案可以提高图像分割准确性。

Description

图像分割方法、模型训练方法、装置、设备及存储介质

本申请要求于2019年05月29日提交的申请号为201910455150.4、发明名称为“图像分割方法和装置、模型训练方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像分割方法和装置、模型训练方法和装置。

背景技术

对图像或视频进行语义分割(semantic segmentation)是计算机视觉研究领域的热点之一，语义分割技术是指计算机设备将图片中属于一大类的区域都分割出来并给出其类别信息。

相关技术中对视频进行语义分割的方式，计算机设备需要对视频的每一帧进行关键点预测，得到每一帧的关键点。计算机设备通过模板，根据每一帧的关键点计算每一帧图像与模板的差异来获取变换参数，基于该变换参数进行仿射(Affine)变换得到ROI(region of interest，感兴趣区域)，随后在ROI上进行目标分割。

然而在上述语义分割方式中，在后的视频帧的关键点的预测依赖于在前的视频帧的目标分割结果，首帧的预测偏差会直接导致后续一系列视频帧的定位偏移，导致对目标对象的语义分割准确性低。

发明内容

本申请提供一种图像分割方法、模型训练方法、装置、设备及存储介质，能够提高语义分割的准确性。

根据本申请的一个方面，提供了一种图像分割方法，应用于计算机设备中，所述方法包括：

获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息；

依据所述历史仿射变换信息对所述当前帧进行仿射变换，得到与所述当前帧对应的候选区域图像；

对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；

基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果；

根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。

根据本申请的一个方面，提供了一种图像分割装置，所述装置包括：

获取模块，用于获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息；

仿射变换模块，用于依据所述历史仿射变换信息对所述当前帧进行仿射变换，得到与所述当前帧对应的候选区域图像；

特征提取模块，用于对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；

语义分割模块，用于基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果；

参数修正模块，用于根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，并将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息；

根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。

根据本申请的一个方面，提供了一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

上述图像分割方法、装置、计算机可读存储介质和计算机设备，依据在前的视频帧的历史仿射变换信息，对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。在前的视频帧的历史仿射变换信息是经过修正后的参数，这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割，可以准确得到当前帧中的目标对应的分割结果。并且，根据该特征图对历史仿射变换信息进行修正，将修正后的仿射变换信息传递至在后的视频帧，以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用，减少了错误定位给后续的分割处理所带来误差，大大提高了对视频进行语义分割处理的准确性。

根据本申请的一个方面，提供了一种模型训练方法，应用于计算机设备中，所述方法包括：

获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息；

将所述视频帧样本输入至目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息；

依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数；

通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果；

根据所述预测仿射变换信息和所述标准仿射变换信息间的差异，确定标准仿射变换差异信息；

依据所述标准仿射变换差异信息和所述预测仿射变换差异信息，构建仿射变换信息修正损失函数；

根据所述预测分割结果和所述样本标注信息，确定分割损失函数；

依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数继续训练，直至满足训练停止条件时停止训练。

根据本申请的一个方面，提供了一种模型训练装置，所述装置包括：

样本获取模块，用于获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息；

确定模块，用于将所述视频帧样本输入至目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息；

构建模块，用于依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数；

输出模块，用于通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果；

所述确定模块还用于根据所述预测仿射变换信息和所述标准仿射变换信息间的差异，确定标准仿射变换差异信息；

所述构建模块还用于依据所述标准仿射变换差异信息和所述预测仿射变换差异信息，构建仿射变换信息修正损失函数；

所述构建模块还用于根据所述预测分割结果和所述样本标注信息，确定分割损失函数；

模型参数调整模块，用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数继续训练，直至满足训练停止条件时停止训练。

依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

上述模型训练方法、装置、计算机可读存储介质和计算机设备，在模型训练过程中一方面引入仿射变换监督信息，也就是标准仿射变换信息，以提高方位预测的准确性；另一方面可通过对预测仿射变换信息进行纠正训练，从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化，使得各个部分在训练过程中相互影响，相互提升，这样训练得到的目标分割模型具有准确的视频语义分割性能。

附图说明

图1为一个实施例中目标分割方法和/或模型训练方法的应用环境图；

图2为一个实施例中图像分割方法的流程示意图；

图3为一个实施例中视频帧序列的结构示意图；

图4为一个实施例中获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息步骤的流程示意图；

图5为一个实施例中目标分割模型的整体框架图；

图6为一个实施例中对心脏超声检测视频中的左心室进行目标分割的目标分割模型的架构示意图；

图7为一个实施例中目标分割模型的训练步骤的流程示意图；

图8为一个实施例中模板的获取流程图；

图9为一个实施例中模型训练方法的流程示意图；

图10为一个实施例中在模型训练过程中目标分割模型的架构示意图；

图11为一个具体实施例中图像分割方法的流程示意图；

图12为一个实施例中图像分割装置的结构框图；

图13为另一个实施例中图像分割装置的结构框图；

图14为一个实施例中模型训练装置的结构框图；

图15为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中图像分割方法和/或模型训练方法的应用环境图。参照图1，该图像分割方法和/或模型训练方法应用于语义分割系统。该语义分割系统包括采集器110和计算机设备120。采集器110和计算机设备120可以通过网络连接，也可以通过传输线连接。计算机设备120可以是终端或服务器。其中，终端可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

采集器110可以实时采集视频，将视频传输至计算机设备120，计算机设备120可以获取视频帧序列中的当前帧、及在前的视频帧所传递的历史仿射变换信息；依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像；对候选区域图像进行特征提取，得到候选区域图像对应的特征图；基于特征图进行语义分割，得到当前帧中的目标对应的分割结果；根据特征图对历史仿射变换信息进行修正，得到更新的仿射变换信息，并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，计算机设备120可以直接获取视频，对视频对应的视频帧序列中的各个视频帧按照上述步骤进行目标分割。

如图2所示，在一个实施例中，提供了一种图像分割方法。本实施例以该方法应用于上述图1中的计算机设备120来举例说明。参照图2，该图像分割方法包括如下步骤：

S202，获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息。

其中，视频帧序列是多于一帧的视频帧按照各视频帧所对应的生成时序而构成的序列。视频帧序列包括：按照生成时序排列的多个视频帧。视频帧是构成视频的基本单位，一段视频可以包括多个视频帧。视频帧序列可以是实时采集的视频帧所构成的序列，例如可以是通过采集器的摄像头实时获取的视频帧序列，也可以是存储的视频对应的视频帧序列。

当前帧是当前处理的视频帧，比如第i帧；在前的视频帧是生成时间在当前帧之前的视频帧，可以是当前帧的前一帧或当前帧的第前几帧的视频帧，也可称作当前帧的历史视频帧。

历史仿射变换信息是在前的视频帧所传递的用于当前帧进行仿射变换的仿射变换信息。此处的“在前的视频帧所传递的”可以理解为：计算机设备根据在前的视频帧所传递的，或者，在前的视频帧所对应的。仿射变换，又称仿射映射，是指对一个空间向量矩阵进行线性变换后再进行平移变换得到另一个空间向量矩阵的过程，线性变换包括卷积运算。仿射变换信息是用于进行仿射变换所需的信息，可以是仿射变换参数、或用于指示如何进行仿射变换的指令。其中，仿射变换参数是指图像进行线性变换或平移变换所需的参考参数，比如旋转角度(angle)、横轴方向的平移像素(Shift _x)，纵轴方向的平移像素(Shift _y)以及缩放系数(Scale)等信息。

计算机设备可以在对视频进行检测的过程中，获取当前帧以及在前的视频帧的历史仿射变换信息。其中，在前的视频帧的历史仿射变换信息，是指依据对在前的视频帧执行该图像分割方法时所得到的已经修正的、且用于当前帧进行仿射变换的参数。计算机设备可通过以下方式得到历史仿射变换信息：计算机设备在对在前的视频帧进行目标分割时，可根据在前的视频帧所对应的特征图，对在前的视频帧对应的仿射变换信息进行修正，得到更新的仿射变换信息，该更新的仿射变换信息即可作为当前帧的历史仿射变换信息。

可以理解，在对整个视频帧序列进行目标分割的过程中，计算机设备对当前帧执行图像分割方法时，同样可根据当前帧的特征图对该历史仿射变换信息进行修正，得到更新的仿射变换信息，并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。这样，在对视频帧序列进行目标分割时，可不断修正并传递仿射变换信息。这样可对当前帧的定位起到纠正作用，减少了错误定位给后续的分割处理所带来误差，以提高对视频进行语义分割处理的准确性。

可以理解，本申请所使用的“当前帧”用于描述当前本方法所处理的视频帧，“当前帧”是一个相对变化的视频帧，比如在处理当前帧的下一个视频帧时，则可以将该下一个视频帧作为新的“当前帧”。

在一个实施例中，计算机设备可将当前帧的前一帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息，以进行仿射变换。相应的，下一帧视频帧可将当前帧所传递的历史仿射变换信息作为下一帧对应的仿射变换信息。依次类推，每一帧视频帧均可将前一帧所传递的历史仿射变换信息作为该帧对应的仿射变换信息以进行仿射变换。

可以理解，在另一些实施例中，计算机设备还可将当前帧的前第N(N为正整数，且N大于1)帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息，以进行仿射变换。相应的，下一帧视频帧可将当前帧的前第N-1帧所传递的历史仿射变换信息作为下一帧对应的仿射变换信息。依次类推，每一帧视频帧均可将前第N帧所传递的历史仿射变换信息作为该帧对应的仿射变换信息以进行仿射变换。

举例说明，参考图3，对于视频帧序列[F1,F2,F3,F4,F5,F6]，计算机设备当前所处理的当前帧为F4，那么当前帧F4可使用在前的视频帧F1所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换；那么当前帧F4可使用在前的视频帧F1所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换；视频帧F5可使用在前的视频帧F2所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换；视频帧F6可使用在前的视频帧F3所传递的历史仿射变换信息作为对应的仿射变换信息以进行仿射变换等等依次类推。

在一个实施例中，当当前帧为初始视频帧时，步骤S202，也就是获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息的步骤包括以下步骤：

S402，获取视频帧序列中的初始视频帧。

其中，初始视频帧是视频帧序列中开始的视频帧。初始视频帧可以是视频帧序列中的第一帧视频帧，也可以是视频帧序列中的第N帧(比如第一个对焦稳定性达到预设条件的帧，第一个出现目标的帧)，也可以是视频帧序列中最靠前的前N(N为正整数，且N大于1)帧视频帧。

可以理解，当计算机设备在执行该图像分割方法，每后一视频帧的仿射变换信息会参考前一帧视频帧的仿射变换信息时，则该初始视频帧为视频帧序列中最开始的视频帧。当计算机设备在执行该图像分割方法，计算机设备将当前帧的前第N(N为正整数，且N大于1)帧所传递的历史仿射变换信息作为当前帧对应的仿射变换信息时，则从该视频帧序列的第一帧开始至前第N帧视频帧均可称作初始视频帧。

S404，通过第一卷积神经网络提取初始视频帧的图像特征。

其中，卷积神经网络(Convolutional Neural Network，简称CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)。卷积神经网络中的隐含层内的卷积核参数共享和层间连接的稀疏性的特定，使得卷积神经网络能够以较小的计算量对格点化特征(例如像素和音频)进行学习。卷积神经网络通常包括卷积层和池化层，可对输入的图像进行卷积和池化处理，以将原始数据映射到隐层特征空间。而图像特征是通过卷积神经网络处理后所得到的能够表示该初始视频帧的图像信息的空间向量矩阵。

可选地，该图像分割方法通过目标分割模型执行，计算机设备可将视频帧序列输入至目标分割模型中，通过目标分割模型中的第一卷积神经网络对初始视频帧进行处理，提取初始视频帧中的特征，得到相应的图像特征。S406，将图像特征输入至第一全连接网络，并通过第一全连接网络对图像特征进行处理，通过第一全连接网络的至少一个输出通道输出仿射变换信息。

全连接网络(Fully Connected Netwok)也可称作全连接层(fully connected layers，FC)，全连接层在整个卷积神经网络中起到“分类器”的作用。全连接层可将卷积层和池化层所学到的图像特征映射到样本标记空间。

可选地，计算机设备可将图像特征输入至第一全连接网络，并通过该第一全连接网络对图像特征进行处理，通过第一全连接网络的至少一个输出通道输出仿射变换信息。

在一个实施例中，目标分割模型包括区域仿射网络(Region Affine Networks，简称RAN)，该RAN网络包括卷积神经网络和全连接网络。可选地，计算机设备在RAN网络中输入视频帧序列中的初始视频帧，通过轻量级MobileNet-V2网络(轻量化网络)作为Generator(生成器)抽取初始视频帧的图像特征，再通过一个输出通道(channel)为4的全连接网络回归出4个仿射变换参数，这4个参数分别为旋转角度、横轴方向的平移像素，纵轴方向的平移像素以及缩放系数。

S408，将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。

可选地，计算机设备可将第一全连接网络所输出的仿射变换信息作为该初始视频帧所对应的仿射变换信息，并依据该仿射变换信息进行仿射变换，得到与初始视频帧对应的候选区域图像。

可以理解，对于初始视频帧而言，初始视频帧并不存在与之对应的可参考的在前的视频帧，因而也没有在前的视频帧的历史仿射变换信息供其使用。

在一个实施例中，目标分割模型在训练时可引入与仿射变换信息对应的监督信息作为训练样本进行模型训练。其中，与仿射变换对应的监督信息可以是与视频帧样本对应的标准仿射变换信息。该标准仿射变换信息是指将视频帧样本转换成模板(Template)所需要的仿射变换信息。该标准仿射变换信息可通过视频帧样本所包括的样本关键点位置信息和模板所包括的模板关键点位置信息进行反射相似度计算所得到。其中，关于该模板是如何获得的、以及目标分割模型的训练过程，在后续的模型训练方法中会进行详细的介绍。

这样，通过引入与仿射变换信息对应的监督信息来训练目标分割模型，可使得该目标分割模型中的区域仿射网络学习到模板的信息，从而可准确地回归出初始视频帧相对于模板的仿射变换信息。

上述实施例中，通过卷积神经网络提取初始视频帧的图像特征，并通过第一全连接网络对图像特征进行处理，可预测出与初始视频帧对应的、且准确性更高的仿射变换信息，从而有助于提高后续处理中对目标进行分割的准确性。

在一个实施例中，当当前帧不为初始视频帧时，在缓存中读取在前的视频帧的历史仿射变换信息。

S204，依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。

可选地，计算机设备依据历史仿射变换信息对当前帧进行仿射变换，可以是依据仿射变换信息对当前帧中的目标所对应的位置、尺寸及方位等进行了纠正，得到对应的候选区域图像。其中，候选区域图像也可称作感兴趣区域(ROI)。

在一个实施例中，计算机设备可将视频帧序列输入至目标分割网络，通过该目标分割模型执行该图像分割方法。其中，目标分割模型是用于对视频中的目标对象进行语义分割的模型，可以是机器学习模型。该目标分割模型可包括多个网络结构，不同的网络结构包括各自网络所对应的模型参数，不同的网络结构用于执行不同的动作。

在一个实施例中，计算机设备可将视频帧序列输入至目标分割模型中，通过目标分割模型所包括的RAN网络，依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。

S206，对候选区域图像进行特征提取，得到候选区域图像对应的特征图。

其中，特征图又称feature map，是通过卷积神经网络对图像进行卷积和/或池化处理后所得到的空间向量矩阵，可用于表示该图像的图像信息。可选地，计算机设备可对候选区域图像进行特征提取，得到候选区域图像对应的特征图。

在一个实施例中，计算机设备可通过目标分割模型中的第二卷积神经网络，对候选区域图像进行特征提取，得到候选区域图像对应的特征图。该卷积神经网络可以是MobileNet-V2、VGG(Visual Geometry Group，视觉集合组)网络、或ResNet(deep Residual learning，深度残差学习)网络等。

其中，第二卷积神经网络可以和第一卷积神经网络共享参数，因而可以认为是相同的卷积神经网络，此处用“第一”“第二”主要是用于区分处于目标分割模型中的不同位置处、且用于处理不同数据的卷积神经网络。

在一个实施例中，对候选区域图像进行特征提取所得到的特征图，融合了视频帧序列所包括的光流信息。

其中，光流信息是图像的运动变化信息，在本申请实施例中可用于表示视频帧序列中各像素点在视频帧中移动的信息，包括视频画面中待检测目标的运动变化信息。在本申请实施例中，前一帧视频帧所对应的光流信息可通过前一帧视频帧中的各像素所对应的位置、及当前帧中各像素所对应的位置来确定。

在一个实施例中，可假定相邻两帧视频帧中目标对应的变化是较为微小的，因而当前帧中目标对象所在的目标分割区域可以通过前一帧视频帧所对应的光流信息确定。比如，当前帧中目标对象所在的目标分割区域，可根据光流信息，以及前一帧视频帧中目标对象所在的目标分割区域共同预测。

为使得目标分割模型中的卷积神经网络在对候选区域图像进行特征提取时，可以融合对应的光流信息，使得提取出的特征图融合光流信息，那么在对目标分割模型的卷积神经网络进行训练时，可引入判别器(discriminator)来共同训练。其中，生成器和判别器共同构成生成式对抗网络(Generative Adversarial Nets，GAN)。

在模型训练阶段，对于当前帧所对应的特征图有两种特征形式：一种是通过第二卷积神经网络基于当前帧所对应的候选区域图像而提取的特征图，可称作CNN特征；另一种是通过光流信息基于上一帧视频帧的特征图进行变换而得到的特征图，可称作光流特征。为此，可设计判别器将这两种信息同时引入。也就是说，在模型训练过程中，可分别将CNN特征和光流特征中的任意一种输入至判别器中，判别器判断当前输入的特征是属于光流特征还是CNN特征。通过不断调整第二卷积神经网络的参数和判别器的参数，使得判别器无法分辨CNN特征和光流特征的区别，那么此时的第二卷积神经网络就可以生成融合了光流信息的特征图。其中，关于判别器和第二卷积神经网络之间更详细的训练过程，在后续模型训练阶段的实施例中将会有详细的描述。

上述实施例中，对候选区域图像进行特征提取所得到的特征图融合了视频帧序列所包括的光流信息，可避免分割结果出现误差，从而产生具有时序渐进性的合理分割结果。

S208，基于特征图进行语义分割，得到当前帧中的目标对应的分割结果。

其中，语义分割是指计算机设备将图片中属于一大类的区域都分割出来并给出其类别信息。分割结果可以是当前帧中属于目标对象的像素点构成的目标分割区域。

可选地，计算机设备可对特征图进行像素维度的检测，也就是基于候选区域图像所对应的特征图，对候选区域图像中每个像素进行检测，输出当前帧中的目标对应的检测结果。在一个实施例中，计算机设备可识别候选区域图像中各个像素各自所对应的类别，根据对应目标类别的各像素点构成目标区域。也就是将目标对象从候选区域图像中区分开来。

在一个实施例中，计算机设备可以通过目标分割模型中的全卷积神经网络对候选区域图像特征进行语义分割，输出当前帧中的目标对应的检测结果。

在一个实施例中，步骤S208，也就是基于特征图进行语义分割，得到当前帧中的目标对应的分割结果的步骤包括：通过全卷积神经网络对特征图进行上采样处理，得到中间图像；通过全卷积神经网络对中间图像中的各像素分别进行像素级分类，得到各像素所对应的类别；依据各像素所对应的类别，输出对当前帧中的目标进行语义分割的分割结果。

其中，全卷积神经网络(Fully Convolutional Networks，简称FCN)通常用于对输入图像进行逐像素分类。全卷积神经网络通常可采用反卷积层对最后一个卷积层的feature map进行上采样(Upsample),使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

像素级是指像素维度；像素级分类是指在像素维度上进行分类处理，是一种精细的分类方式。对中间图像中的各像素分别进行像素级分类，也可称作对中间图像进行像素级的分类，是对中间图像中的每个像素都产生一个预测,进而得到中间图像中每个像素各自所对应的类别。

可选地，计算机设备可通过目标分割模型中的全卷积神经网络对当前帧所对应的特征图进行上采样处理，得到中间图像，通过全卷积神经网络对中间图像中的各像素分别进行像素级分类，得到各像素所对应的类别。比如若候选区域图像中属于目标对象的像素点的类别为1，不属于目标对象的像素点的类别为0，则候选区域图像所有类别为1的像素点所构成的区域为目标分割区域，据此可将目标区域从候选区域图像中分割出来。比如通过红色或绿色突出显示目标分割区域。

在一个实施例中，依据各像素所对应的类别，输出对当前帧中的目标进行语义分割的分割结果的步骤包括：确定中间图像中对应目标类别的像素；从中间图像中，分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。

在一个实施例中，在对该目标分割模型的全卷积神经网络进行训练时，可依据视频帧样本、及对视频帧样本中的目标对象进行标注的样本标注信息来训练该全卷积神经网络，训练得到的该全卷积神经网络具备对像素进行分类的能力。其中，对视频帧样本中的目标对象进行标注的样本标注信息，可以是将对应目标对象的像素标记为“1”，将其他的像素标记为“0”，以此来区分目标对象个非目标对象。

在一个实施例中，计算机设备可通过目标分割模型中的全卷积神经网络确定中间图像中对应目标类别的像素。并对属于目标类别的像素进行标注，比如将标注成红色或绿色等，以此从中间图像中，分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。这样可实现在当前帧中准确地定位到目标对象，并可以准确地确定目标对象在当前帧中所占的面积大小。

在一个实施例中，计算机设备可以根据每一个视频帧的检测结果在视频帧中分割显示目标对象，以实现在连续的视频帧构成的视频中对目标进行自动分割的效果。

上述实施例中，通过全卷积神经网络对特征图进行像素级分类，可得到各像素各自所对应的类别，从而依据各像素所对应的类别，可从像素级别准确地确定出当前帧中的目标所在的目标分割区域，大大提高了对目标对象的分割能力。

S210，根据特征图对历史仿射变换信息进行修正，得到更新的仿射变换信息，将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

其中，对历史仿射变换信息进行修正是指调整历史仿射变换参数，得到更新的仿射变换参数。可选地，计算机设备可根据特征图对历史仿射变换信息进行修正，得到更新的仿射变换信息，该更新的仿射变换信息可作为视频帧序列中在后的视频帧所对应的仿射变换信息。

在一个实施例中，计算机设备可通过目标分割模型所包括的第二全连接网络，对当前帧所对应的特征图进行处理，对该仿射变换信息进行修正，得到更新的仿射变换信息。

在一个实施例中，该目标分割模型所包括的第二全连接网络，可被训练成输出仿射变换差异结果，再依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息，计算得到当前帧所传递的更新的仿射变换信息。计算机设备则可直接将该更新的仿射变换信息传递至在后的视频帧，供在后的视频帧进行仿射变换使用。

在一个实施例中，步骤S210，也就是根据特征图对历史仿射变换信息进行修正，得到更新的仿射变换信息，并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息的步骤包括以下步骤：通过第二全连接网络，对特征图进行处理，通过第二全连接网络的至少一个输出通道输出仿射变换差异结果；依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息，计算得到当前帧所传递的更新的仿射变换信息；将当前帧所传递的更新的仿射变换信息，作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

其中，第二全连接网络和第一全连接网络是相同的全连接网络，或者，是不同的全连接网络。其中，相同的全连接网络是指第一全连接网络和第二全连接网络的参数共享；不同的全连接网络是指第一全连接网络和第二全连接网络的具有各自的模型参数。

可选地，该目标分割模型所包括的第二全连接网络，可被训练成输出仿射变换差异结果。在这种情况下，可通过目标分割模型中的第二全连接网络对与当前帧对应的特征图进行处理，回归出仿射变换差异结果。可选地，该差异结果是进行归一化处理后的差异率。

进一步地，计算机设备可依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息，计算得到当前帧所传递的更新的仿射变换信息。比如，当仿射变换信息为仿射变换参数时，计算机设备可通过以下公式计算得到更新的仿射变换信息：

其中，

表示当前帧所传递的更新的仿射变换参数；

表示仿射变换差异结果；

表示当前帧所对应的仿射变换参数，也就是在前的视频帧所传递的历史仿射变换参数。

进而，计算机设备可将计算得到的更新的仿射变换信息，作为当前帧所传递的历史仿射变换信息，也就是将该更新的仿射变换信息传递至视频帧序列中在后的视频帧，以供在后的视频帧依据该更新的仿射变换信息进行仿射变换。

可以理解，当目标分割模型所包括的第二全连接网络被训练成输出仿射变换差异结果时，该第二全连接网络在训练过程中的监督信息可以是标准仿射变换信息和当前帧所对应的仿射变换信息的差异信息。

上述实施例中，通过第二全连接网络对特征图进行处理，以纠正当前帧所使用的仿射变换信息，得到更新的仿射变换信息。更新的仿射变换信息用于向后传递，这样可对当前帧的定位起到纠正作用，减少了错误定位带来的分割误差。

在一个实施例中，该目标分割模型所包括的第二全连接网络可被训练成输出经纠正过的更新的仿射变换信息。计算机设备则可直接将该更新的仿射变换信息传递至在后的视频帧，供在后的视频帧进行仿射变换使用。

可以理解，当目标分割模型所包括的第二全连接网络被训练成输出经纠正过的更新的仿射变换信息时，该第二全连接网络在训练过程中的监督信息可以是当前帧所对应的标准仿射变换信息。

上述图像分割方法，依据在前的视频帧所传递的历史仿射变换信息，对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。在前的视频帧所传递的历史仿射变换信息是经过修正后的参数，这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割，可以准确得到当前帧中的目标对应的分割结果。并且，根据该特征图对历史仿射变换信息进行修正，将修正后的仿射变换信息传递至在后的视频帧，以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用，减少了错误定位给后续的分割处理所带来误差，大大提高了对视频进行语义分割处理的准确性。

在一个实施例中，该图像分割方法通过目标分割模型执行，该图像分割方法包括以下步骤：获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息；通过目标分割模型中的区域仿射网络，依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像；通过目标分割模型中的第二卷积神经网络，对候选区域图像进行特征提取，得到候选区域图像对应的特征图；通过目标分割模型中的全卷积神经网络，对特征图进行语义分割处理，得到当前帧中的目标对应的分割结果；通过目标分割模型中的第二全连接网络对历史仿射变换信息进行修正，得到更新的仿射变换信息，并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

这样，通过已训练好的目标分割模型可自动化、且准确的分割出视频中的目标对象，具有极强的实时性。并且端到端网络工程化程度高，极易迁移到移动设备中，自适应能力高。

如图5所示，为一个实施例中目标分割模型的整体框架图。参照图5，整体框架图包括区域仿射网络(RAN)510、第二卷积神经网络(generator)520、全卷积神经网络530以及第二全连接网络540。其中，区域仿射网络510包括第一卷积神经网络(generator)512和第一全连接网络514。

在对视频中的目标对象进行目标分割时，按帧输入视频帧序列中的各个视频帧，若当前帧为初始视频帧，则通过第一卷积神经网络512对初始视频帧进行特征提取，得到图像特征，并将图像特征输入至第一全连接网络514中回归出当前的仿射变换信息。通过区域仿射网络510依据当前的仿射变换信息对初始视频帧进行仿射变换，得到对应的候选区域图像(ROI)。再通过第二卷积神经网络520对候选区域图像进行特征提取，得到候选区域图像对应的特征图。该特征图进入两个任务分支，在分割任务分支中，通过全卷积神经网络530进行上采样处理后得到分割预测图，输出分割结果；在定位任务分支中，通过第二全连接网络回归出仿射变换差异结果。再依据仿射变换差异结果纠正当前帧所对应的仿射变换信息，得到更新的仿射变换信息，将该更新的仿射变换信息传递至下一帧。

如图5所示，在下一帧视频帧中，RAN网络依据更新的仿射变换信息对下一帧视频帧进行仿射变换，得到下一帧视频帧所对应的ROI区域，并通过第二卷积神经网络520对候选区域图像进行特征提取，得到候选区域图像对应的特征图。该特征图进入两个任务分支，在分割任务分支中，通过全卷积神经网络530进行上采样处理后得到分割预测图，输出分割结果；在定位任务分支中，通过第二全连接网络回归出仿射变换差异结果。再依据仿射变换差异结果纠正下一帧视频帧帧所对应的仿射变换信息，得到更新的仿射变换信息，将该更新的仿射变换信息传递至在后的视频帧。依次类推，最终实现对视频中的目标进行分割的效果。

在一个实施例中，视频帧序列属于对生物组织进行医学检测得到的检测视频，比如可以是心脏超声检测视频。视频帧中的目标为左心室，检测结果为分割出视频帧中的左心室。

如图6所示，图6为一个实施例中对心脏超声检测视频中的左心室进行目标分割的架构示意图。在该示意图中，前一帧为t-1帧；当前帧为t帧。参照图6，对心脏超声检测视频进行目标分割，对于前一帧视频帧，可通过RAN网络中的生成器和全连接网络生成预测的仿射变换信息

再依据仿射变换信息

进行仿射变换

得到前一帧视频帧的候选区域图像ROI。再通过生成器提取图像特征后分别进入分割任务分支和定位任务分支，得到分割结果t-1、及仿射变换差异参数

该仿射变换差异参数传递到当前帧，区域仿射网络依据仿射变换差异参数

和预测的仿射变换信息

来对当前帧进行仿射变换，如

得到候选区域图像ROI。再通过生成器提取图像特征后分别进入分割任务分支和定位任务分支，得到分割结果t、及仿射变换差异参数

以此循环类推，从而实现了对心脏超声检测视频中的左心室进行标注分割。

参考图7，在一个实施例中，该图像分割方法通过目标分割模型执行，该目标分割模型的训练步骤包括：

S602，获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息。

其中，视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息为训练数据。视频帧样本对应的样本标注信息可以是对视频帧样本中的关键点进行标注的样本关键点位置信息、及对视频帧样本中的目标对象进行标注的样本区域位置信息。其中，视频帧样本中的关键点是用于确定目标对象的关键点，关键点的数量可以是3个、4个或其他数量等。

以心脏超声检测视频为例，视频帧序列中的目标对象为左心室，那么相应的视频帧样本中的关键点可以是左心室尖端、及左心室二尖瓣膜两端，样本关键点位置信息可以是左心室尖端、及左心室二尖瓣膜两端对位置信息；样本区域位置信息可以是视频帧样本中左心室所在的区域的位置信息。

标准仿射变换信息是视频帧样本相对于模版的仿射变换信息，也就是说视频帧样本依据该标准仿射变换信息，可进行仿射变换得到模板。其中，模板是依据多个视频帧样本统计出的可以代表标准视频帧的图像。

在一个实施例中，步骤S602，也就是获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息对步骤包括以下步骤：获取视频帧样本和相应的样本标注信息；样本标注信息包括样本关键点位置信息和样本区域位置信息；根据视频帧样本、样本关键点位置信息和样本区域位置信息，确定模板图像及模板图像对应的模板关键点位置信息；根据样本关键点位置信息和模板关键点位置信息，计算得到与视频帧样本对应的标准仿射变换信息。

可选地，计算机设备可从本地或其他计算机设备处获取多个视频帧样本。并对该视频帧样本采用人工标注或机器标注的方式标注出样本关键点和目标对象在视频帧样本中的位置区域。

进而计算机设备可根据多个包括样本标注信息的视频帧样本，确定模板、以及模板中的模板关键点位置信息。可选地，计算机设备可对多个视频帧样本中的关键点位置信息求平均后得到模板关键点位置信息。

比如，计算机设备可依据对每个视频帧样本中的关键点确定包括有目标对象的区域框，将该区域框外扩一定的范围，得到这个视频帧样本的ROI。再计算所有视频帧样本对应的ROI的平均尺寸，并将所有视频帧样本对应的ROI调整到平均尺寸。对所有调整到平均尺寸的ROI图像求平均即可得到模板。各个ROI图像中的关键点的位置信息求平均即可得到模板的关键点位置信息。

下面以心脏超声检测视频为例详细说明书模板的获取步骤，参考图8，图8为一个实施例中模板的获取流程图。如图8所示，计算机设备可预先通过采集器采集多种标准的心脏切面，比如A2C(apical-2-chamber,A2C，二腔切面)、A3C(apical-3-chamber,A3C，三腔切面)、A4C(apical-4-chamber,A4C，四腔切面)、A5C(apical-5-chamber,A5C，五腔切面)等作为原始图片，也就是作为视频帧样本，再将每张切面图中的3个关键点紧密外扩得到区域框，考虑到各种标准切面中的左心室都在右上方位置，为了获得更多心脏结构信息，可将区域框往左边、往下边各外扩一定比例，比如长宽的50％。最后，区域框四周在这个框基础上外扩一定比例，比如长宽的5％，得到这张切面图的ROI。所有切面图的ROI调整尺寸到一个尺度(该尺寸为所有ROI的平均尺寸)，求平均则得到模板。

进一步地，计算机设备可依据各个视频帧样本的尺寸、关键点位置信息，以及模板的尺寸、模板关键点位置信息，进行反射相似度计算，得到变换矩阵，该变换矩阵中包括仿射变换信息，通过该方法计算得到的仿射变换信息即为与该视频帧样本对应的标准仿射变换信息。

上述实施例中，根据视频帧样本、样本关键点位置信息和样本区域位置信息，可确定模板图像及模板图像对应的模板关键点位置信息。从而可将每张视频帧样本均与模板进行比较，以确定标准仿射变换信息，该标准仿射变换信息可作为后续模型训练的监督信息，用以使得目标分割模型可学习到模板的信息，从而大大提高仿射变换信息的预测准确性。

S604，将视频帧样本输入至目标分割模型中进行训练，通过目标分割模型，确定与视频帧样本对应的预测仿射变换信息。

可选地，计算机设备可将视频帧样本输入到目标分割模型中，根据目标分割模型执行前述的图像分割方法，通过RAN网络获取与视频帧样本对应的预测仿射变换信息。

S606，依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。

其中，仿射损失函数用于评估预测仿射变换信息和标准仿射变换信息之间的差异程度。仿射损失函数承担了训练得到好的RAN网络的责任，使目标分割模型中的RAN网络可以生成相对于模板来说准确的仿射变换信息，这样引入仿射监督信息的使得仿射参数预测更加准确。

可选地，计算机设备可依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。在一个实施例中，计算机设备可通过距离函数，比如L1-Norm(L1-范数，又称曼哈顿距离)函数来计算预测仿射变换信息和标准仿射变换信息的损失，也就是基于L1-Norm函数来构建预测仿射变换信息和标准仿射变换信息的仿射损失函数。可以理解，在本申请实施例中，也可采用其他的函数来构建损失函数，只要该函数可以用来衡量预测仿射变换信息和标准仿射变换信息之间的差异程度即可，比如L2-Norm(又称欧几里德距离)函数等。

S608，通过目标分割模型，输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。

可选地，计算机设备可将视频帧样本输入到目标分割模型中，根据目标分割模型执行前述的图像分割方法，输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。

在一个实施例中，计算机设备可通过目标分割模型中的RAN网络，依据预测仿射变换信息对视频帧样本进行仿射变换，得到对应的样本候选区域图像。通过目标分割模型中的第二卷积神经网络并对样本候选区域图像进行特征提取，得到对应的样本特征图。通过目标分割模型中的全卷积神经网络，对样本特征图进行语义分割，得到视频帧样本中的目标对应的预测分割结果。通过目标分割模型中的第二全连接网络，基于样本特征图对预测仿射变换信息进行修正，得到与视频帧样本对应的预测仿射变换差异信息。

S610，根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息。

其中，标准仿射变换差异信息是作为目标分割模型中仿射变换修正模块的监督信息，也就是作为第二全连接网络在训练过程中的监督信息。可选地，计算机设备可根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息。比如，当仿射变换信息为仿射变换参数时，计算机设备可通过以下公式计算标准仿射变换差异信息：

其中，

标准表示标准仿射变换差异参数；

表示当前帧所对应的仿射变换参数，也就是预测仿射变换参数；θ _t表示标准仿射变换参数。

S612，依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数。

其中，仿射变换信息修正损失函数用于评估预测仿射变换差异信息和标准仿射变换差异信息之间的差异程度。仿射变换信息修正损失函数承担了训练得到好的第二全连接网络的责任，使目标分割模型中的第二全连接网络可以生成对预测仿射变换信息进行修正后的仿射变换差异信息。

可选地，计算机设备可依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数。在一个实施例中，计算机设备可通过距离函数，比如L1-Norm函数来计算标准仿射变换差异信息和预测仿射变换差异信息的损失，也就是基于L1-Norm函数来构建仿射变换信息修正损失函数。可以理解，在本申请实施例中，也可采用其他的函数来构建仿射变换信息修正损失函数，只要该函数可以用来衡量标准仿射变换差异信息和预测仿射变换差异信息之间的差异程度即可，比如L2-Norm函数等。

可以理解，该预测仿射变换差异信息用于确定更新的仿射变换信息，并传递至视频帧序列中在后的视频帧。当仿射变换信息为仿射变换参数时，可通过以下公式计算更新的仿射变换参数：

其中，

表示当前帧所传递的更新的仿射变换参数；

表示预测仿射变换差异参数；

表示预测仿射变换参数。

S614，根据预测分割结果和样本标注信息，确定分割损失函数。

其中，分割损失函数用于评估预测分割结果和样本标注信息之间的差异程度。分割损失函数承担了训练得到好的全卷积神经网络的责任，使目标分割模型中的全卷积神经网络可以准确地从输入的视频帧中分割出目标对象。可选地，计算机设备可根据预测分割结果和样本标注信息，确定分割损失函数。

S616，依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

其中，训练停止条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整模型参数后的目标分割模型的性能指标达到预设指标。调整目标分割模型的模型参数，是对目标分割模型的模型参数进行调整。

可选地，计算机设备可依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数，共同调整目标分割模型中各个网络结构的模型参数并继续训练，直至满足训练停止条件时停止训练。

可以理解，对于每个损失函数，计算机设备可朝着减小相应的预测结果和参考参数之间的差异的方向，调整模型参数。这样，通过不断的输入视频帧样本，得到预测仿射变换信息、预测仿射变换差异信息、及预测分割结果，根据预测仿射变换信息与标准仿射变换信息之间的差异、预测仿射变换差异信息与标准仿射变换差异信息之间的差异、及预测分割结果和样本标注信息之间的差异调整模型参数，以训练目标分割模型，得到训练好的目标分割模型。

上述实施例中，在模型训练过程中一方面引入仿射变换监督信息，也就是标准仿射变换信息，以提高方位预测的准确性；另一方面可通过对预测仿射变换信息进行纠正训练，从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化，使得各个部分在训练过程中相互影响，相互提升，这样训练得到的目标分割模型具有准确的视频语义分割性能。

参考图9，在一个实施例中，该模型训练方法包括以下步骤：

S802，获取第一视频帧样本和第二视频帧样本；第一视频帧样本为第二视频帧样本在前的视频帧。

其中，第一视频帧样本和第二视频帧样本是不同的视频帧样本。第一视频帧样本为第二视频帧样本在前的视频帧，也就是说第一视频帧样本的生成时间在第二视频帧之前。在一个实施例中，第一视频帧样本和第二视频帧样本可以是相邻的视频帧。

S804，分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。

可选地，计算机设备可分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。其中，样本标注信息可包括样本关键点位置信息和样本区域位置信息。标准仿射变换信息的获取步骤可参考前述实施例中所描述的获取步骤。

S806，将第一视频帧样本和第二视频帧样本作为样本对输入至目标分割模型中进行训练，通过目标分割模型对第一视频帧样本进行处理，得到与第一视频帧样本对应的预测仿射变换信息。

可选地，参考图10，图10为一个实施例中在模型训练过程中目标分割模型的架构示意图。如图10所示，计算机设备可将相邻的前后两帧视频帧样本作为样本对输入至目标分割模型中。通过目标分割模型对第一视频帧样本进行处理，得到与第一视频帧样本对应的预测仿射变换信息

S808，依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。

可选地，计算机设备可依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。在一个实施例中，计算机设备可通过距离函数，比如L1-Norm函数来计算预测仿射变换信息和标准仿射变换信息的损失，也就是基于L1-Norm函数来构建预测仿射变换信息和标准仿射变换信息的仿射损失函数。可以理解，在本申请实施例中，也可采用其他的函数来构建损失函数，只要该函数可以用来衡量预测仿射变换信息和标准仿射变换信息之间的差异程度即可，比如L2-Norm函数等。

S810，依据预测仿射变换信息对第一视频帧样本进行仿射变换，得到第一样本候选区域图像，并对第一样本候选区域图像进行特征提取，得到第一样本特征图。

可选地，参考图10上半部分，计算机设备可依据预测仿射变换信息对第一视频帧样本进行仿射变换，得到第一样本候选区域图像，并通过Generator(生成器，可通过卷积神经网络实现)对第一样本候选区域图像进行特征提取，得到与第一视频帧样本对应的第一样本特征图。

S812，基于第一样本特征图进行语义分割，得到第一视频帧样本中的目标对应的预测分割结果。

可选地，参考图10，该第一样本特征图进行两个任务分支，其中一个任务分支是分割任务分支。目标分割模型可通过全卷积神经网络对第一样本特征图进行语义分割处理，通过全卷积神经网络进行两次上采样处理后，基于各个像素预测，得到第一视频帧样本中的目标对应的预测分割结果。

S814，根据第一样本特征图对预测仿射变换信息进行修正，得到与第一视频帧样本对应的预测仿射变换差异信息。

可选地，参考图10，第二个任务分支就是定位任务分支，在定位任务分支中，第一样本特征图通过channel为4的全连接层回归出新的仿射变换差异参数，也就是预测仿射变换差异信息。

S816，根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息。

可选地，计算机设备可根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准

变换参数；θ _t表示标准仿射变换参数。

S818，依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数。

可以理解，该预测仿射变换差异信息用于确定更新的仿射变换信息，并传递至视频帧序列中在后的视频帧。当仿射变换信息为仿射变换参数时，可通过以下公式计算更新的仿射变换信息：

其中，

表示当前帧所传递的更新的仿射变换信息；

表示预测仿射变换差异参数；

表示预测仿射变换参数。

S820，根据第一视频帧样本和第二视频帧样本，确定对应的光流信息，并依据光流信息和第一样本特征图，确定光流特征图。

可选地，计算机设备可根据第一视频帧样本和第二视频帧样本，确定对应的光流信息。比如，计算机设备可通过Lucas-kanade(是一种两帧差分的光流计算方法)光流方法计算第一视频帧样本所对应的光流信息。进而，计算机设备可依据光流信息和第一样本特征图，计算得到光流特征图。其中，该光流特征图可认为是融合了光流信息的、通过第一视频帧样本所预测的第二视频帧样本对应的特征图。

S822，将光流特征图和第二样本特征图作为目标分割模型中判别器的样本输入，并通过判别器对样本输入进行分类处理，得到样本输入的预测类别。

可选地，该目标分割网络在模型训练阶段还包括判别器(Discriminator)。计算机设备可将光流特征图和第二样本特征图作为目标分割模型中判别器的样本输入，输入两种中的任意一种，通过Discriminator判断输入的特征是光流特征图还是第二样本特征图。其中，第二样本特征图是第二视频帧样本所对应的样本特征图，也可称作CNN特征图。

S824，依据预测类别及样本输入所对应的参考类别，构建对抗损失函数。

其中，样本输入所对应的参考类别可以是光流特征图和第二样本特征图分别对应的类别，比如光流类别和特征类别。Discriminator本质是一个二分类网络，计算机设备可使用二分类交叉熵(cross entropy)作为Discriminator的损失函数，以判断样本输入是否为光流特征图。也就是，根据预测类别及样本输入所对应的参考类别，依据交叉熵函数构建目标分割模型的对抗损失函数。

S826，依据光流特征图、第二样本特征图、及参考特征图，构建分割损失函数；参考特征图为对第二视频帧样本中的目标进行特征提取所得到的特征图。

可选地，计算机设备可对第二视频帧样本中的目标进行特征提取，得到参考特征图。进而计算机设备可依据光流特征图、第二样本特征图、及参考特征图，构建分割损失函数。

在一个实施例中，计算机设备可通过以下公式构建分割损失函数：

其中，F′ _CNN，F′ _OF分别代表第二样本特征图和通过光流获取的光流特征图。F _CNN代表参考特征图。f _dice，f _bce，f _mse分别表示Dice计算公式，二分类交叉熵计算公式，均方差(mean square error)计算公式。其中，f _mse越大，表示第二样本特征图和光流特征图的差距越大，从而加重惩罚Generator完成参数更新，使得Generator产生更加符合光流特征的特征图。f _dice和f _bce则是促使Generator产生更加贴合人工标注信息的特征图。

S828，依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

可选地，计算机设备可依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数，共同调整目标分割模型中各个网络结构的模型参数并继续训练，直至满足训练停止条件时停止训练。

在一个实施例中，目标分割模型在训练时，可采用交叉训练和共同训练相结合的方式进行训练。比如，参考图10，计算机设备可先训练生成器一段时间后，固定训练得到的参数，暂时不再回传。再训练判别器，之后再固定判别器的参数，进而再训练生成器，等训练结果稳定后再结合各个网络结构一起训练。那么此时的训练停止条件，也可认为是收敛条件，可以是，判别器的损失函数不再下降，判别器的输出稳定在(0.5,0.5)左右，判别器无法分辨出光流特征图和CNN特征图的区别。

可以理解，当生成器和判别器两者抗衡之后，整个网络达到收敛状态，生成器最终将产生CNN特征和光流信息共有部分的特征，而判别器将分不清光流特征和CNN特征的区别。在模型的使用阶段，可移除判别器，此时生成器将产生融合了光流信息的特征图。

在一个实施例中，目标分割模型中的各个生成器可共享参数。也就是上，上述图9中的三个生成器可认为是相同的生成器。

上述实施例中，在模型训练过程中一方面引入仿射变换监督信息，也就是标准仿射变换信息，以提高方位预测的准确性；另一方面可通过对预测仿射变换信息进行纠正训练，从而减少错误定位带来的分割误差。再者，采用了带有光流信息的对抗学习方式实现网络在时序上的一致性，使得训练时针对性更强，性能更佳。这样，训练时依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数叠加一起优化，使得各个部分在训练过程中相互影响，相互提升，这样训练得到的目标分割模型可以准确且平滑地从视频中分割出目标对象。

在一个实施例中，提供了一种模型训练方法。本实施例主要以该方法应用于图1中的计算机设备来举例说明，该模型训练方法包括以下步骤：获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息；将视频帧样本输入至目标分割模型中进行训练，通过目标分割模型，确定与视频帧样本对应的预测仿射变换信息；依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数；通过目标分割模型，输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果；根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息；依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数；根据预测分割结果和样本标注信息，确定分割损失函数；依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

关于模型训练方法中各个步骤的详细说明可参考前述实施例中机器翻译模型的模型训练步骤的说明，训练方式是一致的，在此不做重复说明。

在一个实施例中，以心脏超声检测视频为例，详细说明该目标分割模型的训练过程。参考图9，在训练时，可将前后两帧视频帧样本作为样本对输入到RAN网络中。第一阶段中，当前帧经过RAN网络的仿射变换对目标位置、尺寸以及方位进行了纠正，得到与模板分布相似的ROI图像，经过纠正的ROI图像减少了很多干扰，如其他心腔与左心室的相似性，图像标记以及伪影等带来的影响等。第二阶段中，再次使用Generator对ROI图像进行特征抽取，输出的特征进入两个任务分支，在分割任务分支中，输出的特征通过两次上采样后得到分割预测图，输出分割结果；在定位任务分支中，特征通过channel为4的全连接层回归出新的仿射变换差异结果。第二阶段通过回归差值的方式对第一阶段产生的仿射变换信息起二次修正作用。

其中，当仿射变换信息为仿射变换参数时，第二阶段的仿射变换差异结果的监督信息可通过下列公式计算：

其中，

标准表示标准仿射变换差异信息；

由于该差值较小，为了加速网络收敛，可以使用L1-Norm函数算损失值。当前帧在第二阶段预测的仿射变换差异参数将用于计算更新的仿射变换信息并传播到下一帧视频帧中，下一帧视频帧根据上述参数直接进行仿射变换得到ROI，同理，ROI经过Generator提取特征，再次预测出分割结果和仿射变换差异结果。以第一阶段为基础，第二阶段进行二次仿射变换信息修正，如上面公式所示。第二阶段预测出相对于第一阶段的仿射变换信息变化值，这里

示预测仿射变换参数。同理，下一帧的视频帧所对应的ROI经过生成器提取特征，再次预测出分割结果和仿射变换差异结果。除此之外，渐进式变化是视频中目标变化的重要特征。在心脏超声检测视频帧中，左心室会随着时间逐渐扩大或者缩小，基本不存在突然变化的情况。然而，由于分割目标边界信息模糊以及伪影的干扰，尽管加入了时序、方位以及结构等先验信息，在某些视频帧上仍然会出现由于误分割引起的左心室容积突变。针对这种情况，在模型训练时可引入光流信息。假定，左心室中相邻两帧的变化是较为微小的，下一帧视频帧可以通过上一帧视频帧的光流信息计算得到。在训练时，对于当前帧应该有两种特征形式：一种是通过CNN网络基于当前帧提取的特征，另一种是通过光流信息基于上一帧的特征变换而来的特征。为此，可设计判别器将这两种信息同时引入。如图9所示，判别器(Discriminator)的输入有两种：一种来源于生成器对下一帧ROI提取的特征，一种来源于利用光流信息基于当前帧ROI特征变换而来的下一帧ROI特征，输入两种中的任意一种，判别器判断输入的特征属于光流变换的特征(Flow Field)还是CNN特征。这样，引入判别器判别器促使生成器产生具备光流信息和CNN本帧信息的分割特征。因此，分割任务分支可采用如下损失函数：

其中，F′ _CNN，F′ _OF分别代表第二样本特征图和通过光流获取的光流特征图。F _CNN代表参考特征图。f _dice，f _bce，f _mse分别表示Dice计算公式，二分类交叉熵计算公式，均方差计算公式。其中，f _mse越大，表示第二样本特征图和光流特征图的差距越大，从而加重惩罚生成器完成参数更新，使得生成器产生更加符合光流特征的特征图。f _dice和f _bce则是促使生成器产生更加贴合人工标注信息的特征图。

此外，对于判别器，使用二分类交叉熵作为损失函数用于判断输入是否为光流特征。两者抗衡之后，当整个网络达到收敛状态，生成器最终将产生CNN特征和光流信息共有部分的特征，而判别器将分不清光流特征和CNN特征的区别。模型使用时，判别器将被移除，生成器将产生融合了光流信息的特征图

下面结合应用场景，比如心脏早期筛查场景，对心脏超声检测视频中的左心室作为目标，通过该图像分割方法实现对左心室的分割来进行详细说明：

临床中，心脏早期筛查是预防以及诊断心脏疾病的重要措施。鉴于其筛查快速，价格低廉，信息丰富的优势，心脏B型超声是目前普遍性较高的早期筛查手段。在心脏超声检测中，临床上常以心动周期超声中左心室在四腔切面和二腔切面的面积，配合Simpson法(辛普森法)估量射血分数，作为诊断心功能的一个重要信息来源。而基于计算机辅助的左心室自动分割是计算心功能指标(如射血分数)的重要依据。然而，左心室物体边界模糊，且容易受伪影影像造成边缘缺失，严重影响了分割准确性。同时，左心室的变化和时间强烈相关，预测错误带来的左心室轮廓突变极容易导致临床指标的误计算。同时，超声视频筛查的落地对网络大小、实时性有很大的需求。

考虑到上述困难，本申请实施例中提出了基于Region Affine Networks的端到端视频目标分割模型，将在前的视频帧帧的目标结构信息(也就是在前的视频帧所传递的历史仿射变换信息)引入到当前帧，提升了分割性能；同时Region Affine Networks是有监督信息的可学习仿射变换信息的预测网络，仿射监督信息的引入使得仿射变化参数预测更加准确。并且，基于二阶段定位网络能够二次纠正在前的视频帧所传递的变换错误，增加网络鲁棒性，减少因为仿射变换信息错误带来的分割误差。同时，基于光流信息的对抗学习网络，在训练时可促使分割结果贴近时序变换渐进性，使得分割结果更加合理。整个网络端到端训练，各个部分相辅相成，相互提高。目标结构信息的引入减少噪声干扰，降低分割难度，使用轻量级的编码网络即可得到优异的分割结果。同时，视频的时序分析、时间平滑处理全部集中在训练阶段，减少了模型在使用过程中的操作处理，大大减少了目标分割的耗时，提高了效率。

本申请实施例所提供的图像分割方法可以用于临床中心脏超声检测配合Simpson法筛查心脏疾病，可以解放医师的双手，减少医师标注带来的重复劳动以及主观差异。由于实现该目标分割模型的各个网络结构小、实时性好，端到端网络工程化程度高，极易迁移到移动设备中。

本申请实施例中对心脏超声检测视频中的左心室进行分割所得到的分割结果，可作为临床上心脏B型超声结合Simpson法测量射血分数的自动化方案；专为视频单物体设计的端到端网络，引入了时序信息、目标的结构位置信息，能得到更加符合视频规律的分割结果；对抗学习网络自适应地增加了视频分割的平滑度，使得分割结果更加合理；该图像分割方法实现了高分割性能的轻量级网络，实时性极强，工程化程度高。

在一个实施例中，如图11所示，该图像分割方法包括以下步骤：

S1002，当当前帧为初始视频帧时，获取视频帧序列中的初始视频帧。

S1004，通过第一卷积神经网络提取初始视频帧的图像特征。

S1006，将图像特征输入至第一全连接网络，通过第一全连接网络对图像特征进行处理，通过第一全连接网络的至少一个输出通道输出仿射变换信息。

S1008，将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。

当当前帧不为初始视频帧时，从缓存中读取在前的视频帧对应的历史仿射变换信息。

S1010，依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。

S1012，通过目标分割模型中的第二卷积神经网络，对候选区域图像进行特征提取，得到候选区域图像对应的特征图；特征图融合了视频帧序列所包括的光流信息。

S1014，通过全卷积神经网络对特征图进行上采样处理，得到中间图像。

S1016，通过全卷积神经网络对中间图像中的各像素分别进行像素级分类，得到各像素所对应的类别。

S1018，确定中间图像中对应目标类别的像素。

S1020，从中间图像中，分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。

S1022，通过第二全连接网络对特征图进行处理，通过第二全连接网络的至少一个输出通道输出仿射变换差异结果。

S1024，依据仿射变换差异结果和在前的视频帧所传递的历史仿射变换信息，计算得到当前帧所传递的更新的仿射变换信息。

S1026，将当前帧所传递的更新的仿射变换信息，作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

图11为一个实施例中图像分割方法的流程示意图。应该理解的是，虽然图11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图12所示，在一个实施例中，提供了图像分割装置1100，包括获取模块1101、仿射变换模块1102、特征提取模块1103、语义分割模块1104和参数修正模块1105。

获取模块1101，用于获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息。

仿射变换模块1102，用于依据历史仿射变换信息对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。

特征提取模块1103，用于对候选区域图像进行特征提取，得到候选区域图像对应的特征图。

语义分割模块1104，用于基于特征图进行语义分割，得到当前帧中的目标对应的分割结果。

参数修正模块1105，用于根据特征图对历史仿射变换信息进行修正，得到更新的仿射变换信息，并将更新的仿射变换信息作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

在一个实施例中，当当前帧为初始视频帧时，获取模块1101还用于当当前帧为初始视频帧时，获取视频帧序列中的初始视频帧；通过第一卷积神经网络提取初始视频帧的图像特征；将图像特征输入至包括第一全连接网络，通过第一全连接网络对图像特征进行处理，通过第一全连接网络的至少一个输出通道输出仿射变换信息；将输出的仿射变换信息作为初始视频帧对应的历史仿射变换信息。

在一个实施例中，对候选区域图像进行特征提取所得到的特征图融合有视频帧序列所包括的光流信息。

在一个实施例中，语义分割模块1104还用于通过全卷积神经网络对特征图进行上采样处理，得到中间图像；通过全卷积神经网络对中间图像中的各像素分别进行像素级分类，得到各像素所对应的类别；依据各像素所对应的类别，输出对当前帧中的目标进行语义分割的分割结果。

在一个实施例中，语义分割模块1104还用于确定中间图像中对应目标类别的像素；从中间图像中，分割出由对应目标类别的各像素所组成的、且包括目标对象的目标分割区域。

在一个实施例中，参数修正模块1105还用于通过第二全连接网络对特征图进行处理，通过第二全连接网络的至少一个输出通道输出仿射变换差异结果；依据仿射变换差异结果和在前的视频帧的历史仿射变换信息，计算得到当前帧的更新的仿射变换信息；将当前帧的更新的仿射变换信息，作为视频帧序列中在后的视频帧所对应的历史仿射变换信息。

在一个实施例中，特征提取模块1103还用于通过目标分割模型中的第二卷积神经网络，对候选区域图像进行特征提取，得到候选区域图像对应的特征图。语义分割模块1104还用于通过目标分割模型中的全卷积神经网络，对特征图进行语义分割处理，得到当前帧中的目标对应的分割结果。参数修正模块1105还用于通过目标分割模型中的第二全连接网络对历史仿射变换信息进行修正，得到更新的仿射变换信息。

如图13所示，在一个实施例中，该图像分割装置还包括模型训练模块1106，用于获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息；将视频帧样本输入至目标分割模型中进行训练，通过目标分割模型，获取与视频帧样本对应的预测仿射变换信息；依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数；通过目标分割模型，输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果；根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息；依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数；根据预测分割结果和样本标注信息，确定分割损失函数；依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

上述图像分割装置，依据在前的视频帧的历史仿射变换信息，对当前帧进行仿射变换，得到与当前帧对应的候选区域图像。在前的视频帧的历史仿射变换信息是经过修正后的参数，这样可大大提高候选区域图像获取的准确性。对与候选区域图像对应的特征图进行语义分割，可以准确得到当前帧中的目标对应的分割结果。并且，根据该特征图对历史仿射变换信息进行修正，将修正后的仿射变换信息传递至在后的视频帧，以供在后的视频帧使用。这样可对当前帧的定位起到纠正作用，减少了错误定位给后续的分割处理所带来误差，大大提高了对视频进行语义分割处理的准确性。

如图14所示，在一个实施例中，提供了模型训练装置1300，包括样本获取模块1301、确定模块1302、构建模块1303、输出模块1304和模型参数调整模块1305。

样本获取模块1301，用于获取视频帧样本、视频帧样本对应的样本标注信息、及视频帧样本对应的标准仿射变换信息。

确定模块1302，用于将视频帧样本输入至目标分割模型中进行训练，通过目标分割模型，确定与视频帧样本对应的预测仿射变换信息。

构建模块1303，用于依据预测仿射变换信息和标准仿射变换信息构建仿射损失函数。

输出模块1304，用于通过目标分割模型，输出与视频帧样本对应的预测仿射变换差异信息、及视频帧样本中目标对应的预测分割结果。

确定模块1302还用于根据预测仿射变换信息和标准仿射变换信息间的差异，确定标准仿射变换差异信息。

构建模块1303还用于依据标准仿射变换差异信息和预测仿射变换差异信息，构建仿射变换信息修正损失函数。

构建模块1303还用于根据预测分割结果和样本标注信息，确定分割损失函数。

模型参数调整模块1305，用于依据仿射损失函数、仿射变换信息修正损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

在一个实施例中，样本获取模块1301还用于获取视频帧样本和相应的样本标注信息；样本标注信息包括样本关键点位置信息和样本区域位置信息；根据视频帧样本、样本关键点位置信息和样本区域位置信息，确定模板图像及模板图像对应的模板关键点位置信息；根据样本关键点位置信息和模板关键点位置信息，计算得到与视频帧样本对应的标准仿射变换信息。

在一个实施例中，样本获取模块1301还用于获取第一视频帧样本和第二视频帧样本；第一视频帧样本为第二视频帧样本在前的视频帧；分别获取与第一视频帧样本及第二视频帧样本各自对应的样本标注信息、及与第一视频帧样本对应的标准仿射变换信息。确定模块1302还用于将第一视频帧样本和第二视频帧样本作为样本对输入至目标分割模型中进行训练，通过目标分割模型对第一视频帧样本进行处理，得到与第一视频帧样本对应的预测仿射变换信息。输出模块1304还用于依据预测仿射变换信息对第一视频帧样本进行仿射变换，得到第一样本候选区域图像，并对第一样本候选区域图像进行特征提取，得到第一样本特征图；基于第一样本特征图进行语义分割，得到第一视频帧样本中的目标对应的预测分割结果；根据第一样本特征图对预测仿射变换信息进行修正，得到与第一视频帧样本对应的预测仿射变换差异信息。该模型训练装置还包括对抗模块1306，用于根据第一视频帧样本和第二视频帧样本，确定对应的光流信息，并依据光流信息和第一样本特征图，确定光流特征图；将光流特征图和第二样本特征图作为目标分割模型中判别器的样本输入，通过判别器对样本输入进行分类处理，得到样本输入的预测类别。构建模块1303还用于依据预测类别及样本输入所对应的参考类别，构建对抗损失函数；依据光流特征图、第二样本特征图、及参考特征图，构建分割损失函数；参考特征图为对第二视频帧样本中的目标进行特征提取所得到的特征图。模型参数调整模块1305还用于依据仿射损失函数、仿射变换信息修正损失函数、对抗损失函数、及分割损失函数，调整目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。

上述模型训练装置，在模型训练过程中一方面引入仿射变换监督信息，也就是标准仿射变换信息，以提高方位预测的准确性；另一方面可通过对预测仿射变换信息进行纠正训练，从而减少错误定位带来的分割误差。训练时将仿射损失函数、仿射变换信息修正损失函数、及分割损失函数叠加一起优化，使得各个部分在训练过程中相互影响，相互提升，这样训练得到的目标分割模型具有准确的视频语义分割性能。

图15示出了一个实施例中计算机设备的内部结构图。该计算机设备可以是图1中的计算机设备。如图15所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现图像分割方法和/或模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行图像分割方法和/或模型训练方法。

本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的图像分割装置和或/模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图15所示的计算机设备上运行。计算机设备的存储器中可存储组成该图像分割装置的各个程序模块，比如，图12所示的获取模块、仿射变换模块、特征提取模块、语义分割模块和参数修正模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像分割方法中的步骤。还比如，图14所示的样本获取模块、确定模块、构建模块、输出模块和模型参数调整模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。

例如，图15所示的计算机设备可以通过如图12所示的图像分割装置中的获取模块执行步骤S202。计算机设备可通过仿射变换模块执行步骤S204。计算机设备可通过特征提取模块执行步骤S206。计算机设备可通过语义分割模块执行步骤S208。计算机设备可通过参数修正模块执行步骤S210。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述图像分割方法和/或模型训练方法的步骤。此处图像分割方法和/或模型训练方法的步骤可以是上述各个实施例的图像分割方法和/或模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述图像分割方法和/或模型训练方法的步骤。此处图像分割方法和/或模型训练方法的步骤可以是上述各个实施例的图像分割方法和/或模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种图像分割方法，应用于计算机设备中，所述方法包括：

获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息；

依据所述历史仿射变换信息对所述当前帧进行仿射变换，得到与所述当前帧对应的候选区域图像；

对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；

基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果；

根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
根据权利要求1所述的方法，其特征在于，所述根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息，包括：

通过第二全连接网络对所述特征图进行处理，通过所述第二全连接网络的至少一个输出通道输出仿射变换差异结果；

依据所述仿射变换差异结果和所述在前的视频帧的历史仿射变换信息，计算得到更新的仿射变换信息；

将所述更新的仿射变换信息，作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
根据权利要求1所述的方法，其特征在于，所述特征图融合有所述视频帧序列所包括的光流信息。
根据权利要求1所述的方法，其特征在于，所述获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息，包括：

当所述当前帧为初始视频帧时，获取所述视频帧序列中的所述初始视频帧；

通过第一卷积神经网络提取所述初始视频帧的图像特征；

将所述图像特征输入至第一全连接网络，通过所述第一全连接网络对所述图像特征进行处理，通过所述第一全连接网络的至少一个输出通道输出的仿射变换信息；

将输出的所述仿射变换信息作为所述初始视频帧对应的历史仿射变换信息。
根据权利要求1所述的方法，其特征在于，所述基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果，包括：

通过全卷积神经网络对所述特征图进行上采样处理，得到中间图像；

通过所述全卷积神经网络对所述中间图像中的各个像素分别进行像素级分类，得到所述各个像素所对应的类别；

依据所述各个像素所对应的类别，输出对所述当前帧中的目标进行语义分割的分割结果。
根据权利要求5所述的方法，其特征在于，所述依据所述各个像素所对应的类别，输出对所述当前帧中的目标进行语义分割的分割结果，包括：

确定所述中间图像中属于目标类别的像素；

从所述中间图像中，分割出由属于所述目标类别的各个所述像素所组成的、且包括所述目标的目标分割区域。
根据权利要求1所述的方法，其特征在于，所述方法通过目标分割模型执行；

所述对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图，包括：

通过所述目标分割模型中的第二卷积神经网络，对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；

所述基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果，包括：

通过所述目标分割模型中的全卷积神经网络，对所述特征图进行语义分割处理，得到所述当前帧中的目标对应的分割结果；

所述根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，包括：

通过所述目标分割模型中的第二全连接网络对所述历史仿射变换信息进行修正，得到更新的仿射变换信息。
根据权利要求1至7中任一项所述的方法，其特征在于，所述方法通过目标分割模型执行，所述目标分割模型的训练步骤包括：

获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息；

将所述视频帧样本输入至所述目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息；

依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数；

通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果；

根据所述预测仿射变换信息和所述标准仿射变换信息间的差异，确定标准仿射变换差异信息；

依据所述标准仿射变换差异信息和所述预测仿射变换差异信息，构建仿射变换信息修正损失函数；

根据所述预测分割结果和所述样本标注信息，确定分割损失函数；

依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。
一种模型训练方法，应用于计算机设备中，所述方法包括：

获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息；

将所述视频帧样本输入至目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息；

依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数；

通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果；

根据所述预测仿射变换信息和所述标准仿射变换信息间的差异，确定标准仿射变换差异信息；

依据所述标准仿射变换差异信息和所述预测仿射变换差异信息，构建仿射变换信息修正损失函数；

根据所述预测分割结果和所述样本标注信息，确定分割损失函数；

依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。
根据权利要求9所述的方法，其特征在于，所述获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息，包括：

获取视频帧样本和相应的样本标注信息；所述样本标注信息包括样本关键点位置信息和样本区域位置信息；

根据所述视频帧样本、所述样本关键点位置信息和所述样本区域位置信息，确定模板图像及所述模板图像对应的模板关键点位置信息；

根据所述样本关键点位置信息和所述模板关键点位置信息，计算得到与所述视频帧样本对应的标准仿射变换信息。
根据权利要求9或10所述的方法，其特征在于，所述获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息，包括：

获取第一视频帧样本和第二视频帧样本；所述第一视频帧样本为所述第二视频帧样本在前的视频帧；

分别获取与所述第一视频帧样本及所述第二视频帧样本各自对应的样本标注信息、及与所述第一视频帧样本对应的标准仿射变换信息；

所述将所述视频帧样本输入至所述目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息，包括：

将所述第一视频帧样本和所述第二视频帧样本作为样本对输入至目标分割模型中进行训练，通过所述目标分割模型对所述第一视频帧样本进行处理，得到与所述第一视频帧样本对应的预测仿射变换信息；

所述通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果，包括：

依据所述预测仿射变换信息对所述第一视频帧样本进行仿射变换，得到第一样本候选区域图像，并对所述第一样本候选区域图像进行特征提取，得到第一样本特征图；

基于所述第一样本特征图进行语义分割，得到所述第一视频帧样本中的目标对应的预测分割结果；

根据所述第一样本特征图对所述预测仿射变换信息进行修正，得到与所述第一视频帧样本对应的预测仿射变换差异信息。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据所述第一视频帧样本和所述第二视频帧样本，确定对应的光流信息，并依据所述光流信息和所述第一样本特征图，确定光流特征图；

将所述光流特征图和所述第二样本特征图作为所述目标分割模型中判别器的样本输入，并通过所述判别器对所述样本输入进行分类处理，得到所述样本输入的预测类别；

依据所述预测类别及所述样本输入所对应的参考类别，构建对抗损失函数；

所述根据所述预测分割结果和所述样本标注信息，确定分割损失函数包括：

依据所述光流特征图、所述第二样本特征图、及参考特征图，构建分割损失函数；所述参考特征图为对所述第二视频帧样本中的目标进行特征提取所得到的特征图；

所述依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练，包括：

依据所述仿射损失函数、所述仿射变换信息修正损失函数、所述对抗损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。
一种图像分割装置，所述装置包括：

获取模块，用于获取视频帧序列中的当前帧、及在前的视频帧的历史仿射变换信息；

仿射变换模块，用于依据所述历史仿射变换信息对所述当前帧进行仿射变换，得到与所述当前帧对应的候选区域图像；

特征提取模块，用于对所述候选区域图像进行特征提取，得到所述候选区域图像对应的特征图；

语义分割模块，用于基于所述特征图进行语义分割，得到所述当前帧中的目标对应的分割结果；

参数修正模块，用于根据所述特征图对所述历史仿射变换信息进行修正，得到更新的仿射变换信息，将所述更新的仿射变换信息作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
根据权利要求13所述的装置，其特征在于，所述参数修正模块，还用于通过第二全连接网络对特征图进行处理，通过所述第二全连接网络的至少一个输出通道输出仿射变换差异结果；依据仿射变换差异结果和所述在前的视频帧的历史仿射变换信息，计算得到所述当前帧的更新的仿射变换信息；将所述更新的仿射变换信息，作为所述视频帧序列中在后的视频帧所对应的历史仿射变换信息。
根据权利要求13所述的装置，其特征在于，所述特征图融合有所述视频帧序列所包括的光流信息。
一种模型训练装置，所述装置包括：

样本获取模块，用于获取视频帧样本、所述视频帧样本对应的样本标注信息、及所述视频帧样本对应的标准仿射变换信息；

确定模块，用于将所述视频帧样本输入至目标分割模型中进行训练，通过所述目标分割模型，确定与所述视频帧样本对应的预测仿射变换信息；

构建模块，用于依据所述预测仿射变换信息和所述标准仿射变换信息构建仿射损失函数；

输出模块，用于通过所述目标分割模型，输出与所述视频帧样本对应的预测仿射变换差异信息、及所述视频帧样本中目标对应的预测分割结果；

所述确定模块，还用于根据所述预测仿射变换信息和所述标准仿射变换信息间的差异，确定标准仿射变换差异信息；

所述构建模块，还用于依据所述标准仿射变换差异信息和所述预测仿射变换差异信息，构建仿射变换信息修正损失函数；

所述构建模块，还用于根据所述预测分割结果和所述样本标注信息，确定分割损失函数；

模型参数调整模块，用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。
根据权利要求16所述的装置，其特征在于，

所述样本获取模块，还用于获取第一视频帧样本和第二视频帧样本；所述第一视频帧样本为所述第二视频帧样本在前的视频帧；分别获取与所述第一视频帧样本及所述第二视频帧样本各自对应的样本标注信息、及与所述第一视频帧样本对应的标准仿射变换信息；

所述确定模块，还用于将所述第一视频帧样本和所述第二视频帧样本作为样本对输入至所述目标分割模型中进行训练，通过所述目标分割模型对第一视频帧样本进行处理，得到与所述第一视频帧样本对应的预测仿射变换信息；

所述输出模块，还用于依据所述预测仿射变换信息对所述第一视频帧样本进行仿射变换，得到第一样本候选区域图像，并对所述第一样本候选区域图像进行特征提取，得到第一样本特征图；基于所述第一样本特征图进行语义分割，得到所述第一视频帧样本中的目标对应的预测分割结果；根据所述第一样本特征图对预测仿射变换信息进行修正，得到与所述第一视频帧样本对应的预测仿射变换差异信息。
根据权利要求16所述的装置，其特征在于，所述装置还包括：

对抗模块，用于根据所述第一视频帧样本和所述第二视频帧样本，确定对应的光流信息，并依据所述光流信息和所述第一样本特征图，确定光流特征图；将所述光流特征图和所述第二样本特征图作为所述目标分割模型中判别器的样本输入，并通过所述判别器对样本输入进行分类处理，得到所述样本输入的预测类别；

所述构建模块，还用于依据所述预测类别及所述样本输入所对应的参考类别，构建对抗损失函数；依据所述光流特征图、所述第二样本特征图、及所述参考特征图，构建分割损失函数；所述参考特征图为对所述第二视频帧样本中的目标进行特征提取所得到的特征图；

所述模型参数调整模块还用于依据所述仿射损失函数、所述仿射变换信息修正损失函数、所述对抗损失函数、及所述分割损失函数，调整所述目标分割模型的模型参数并继续训练，直至满足训练停止条件时停止训练。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至12中任一项所述方法的步骤。