WO2020233427A1

WO2020233427A1 - 目标的特征的确定方法和装置

Info

Publication number: WO2020233427A1
Application number: PCT/CN2020/089410
Authority: WO
Inventors: 刘武; 叶韵; 梅涛; 孙宇
Original assignee: 北京京东尚科信息技术有限公司; 北京京东世纪贸易有限公司
Priority date: 2019-05-17
Filing date: 2020-05-09
Publication date: 2020-11-26
Also published as: CN111783506A

Abstract

本公开涉及一种目标的特征的确定方法、装置和计算机可读存储介质，涉及人工智能技术领域。该方法包括：提取各帧图像中目标的目标特征，各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像；利用注意力机制模型，提取各帧图像的目标特征之间的关联关系，以确定各帧图像的关联特征；根据各帧图像的关联特征，以确定待处理帧图像中目标的综合特征。

Description

目标的特征的确定方法和装置

相关申请的交叉引用

本申请是以CN申请号为201910411768.0，申请日为2019年5月17日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及人工智能技术领域，特别涉及一种目标的特征的确定方法、目标的特征的确定装置和非易失性计算机可读存储介质。

背景技术

通过对视频中各帧图像进行处理，可以获取各帧图像中人的三维形状信息和姿态信息，从而实现人体三维模型的建立。利用人体三维模型可以用于实现诸如智能试衣、身份认证等。

在相关技术中，提取帧图像中人体的关键点，结合图像分割结果估计人体的三维形状信息和姿态信息。

发明内容

根据本公开的一些实施例，提供了一种目标的特征的确定方法，包括：提取各帧图像中目标的目标特征，所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像；利用注意力机制模型，提取所述各帧图像的目标特征之间的关联关系，以确定所述各帧图像的关联特征；根据所述各帧图像的关联特征，对所述待处理帧图像的目标特征进行优化，以确定所述待处理帧图像中目标的综合特征。

在一些实施例中，所述提取各帧图像中目标的目标特征包括：根据所述各帧图像的特征向量，利用第一机器学习模型的第一特征提取模块，提取所述各帧图像中目标的总体特征信息；根据所述各帧图像的特征向量，利用所述第一机器学习模型的第二特征提取模块，提取所述各帧图像中目标的局部特征信息；融合所述总体特征信息和所述局部特征信息，确定所述目标特征。

在一些实施例中，所述第一特征提取模块为反卷积层，所述总体特征信息为所述目标的骨架模型信息。

在一些实施例中，所述第二特征提取模块为全连接层，所述局部特征信息包括局部形状特征和局部姿态特征。

在一些实施例中，所述局部特征信息包括所述目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。

在一些实施例中，所述融合所述总体特征信息和所述局部特征信息，确定所述目标特征包括：对所述总体特征信息和所述局部特征信息进行双线性变换，确定所述目标的形状特征和姿态特征作为所述目标特征。

在一些实施例中，所述注意力机制模型包括多个Transformer(变换器)模块，所述多个Transformer模块之间串联连接。

在一些实施例中，根据所述各帧图像的关联特征，利用卷积神经网络模型，确定所述待处理帧图像中目标的综合特征。

在一些实施例中，所述确定所述待处理帧图像中目标的综合特征包括：按照所述各帧图像在视频中的固有顺序，对各关联特征进行排序；根据排序后的所述各帧图像的关联特征，利用TCN(Temporal Convolutional Net时间卷积网络)模型确定所述待处理帧图像中目标的综合特征，所述综合特征包括所述目标的形状特征和姿态特征。

在一些实施例中，所述注意力机制模型通过下面的步骤进行训练：

根据所述各帧图像的关联特征，生成关联特征队列，所述关联特征队列中各关联特征的排列顺序与对应的帧图像在视频中的固有顺序不同；利用第二机器学习模型，对所述关联特征队列中各关联特征进行排序；根据排序结果和所述固有顺序，对所述注意力机制模型进行训练。

根据本公开的另一些实施例，提供一种目标的特征的确定装置，包括：目标特征提取单元，用于提取各帧图像中目标的目标特征，所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像；关联特征确定单元，用于利用注意力机制模型，提取所述各帧图像的目标特征之间的关联关系，以确定所述各帧图像的关联特征；综合特征确定单元，用于根据所述各帧图像的关联特征，对所述待处理帧图像的目标特征进行优化，以确定所述待处理帧图像中目标的综合特征。

根据本公开的又一些实施例，提供一种目标的特征的确定装置，包括：存储器；和耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行上述任一个实施例中的目标的特征的确定方法。

根据本公开的再一些实施例，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的目标的特征的确定方法。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1示出本公开的目标的特征的确定方法的一些实施例的流程图；

图2示出图1中步骤110的一些实施例的流程图；

图3示出图1中步骤110的一些实施例的示意图；

图4示出图1中步骤120和步骤130的一些实施例的示意图；

图5示出本公开的目标的特征的确定装置的一些实施例的框图；

图6示出本公开的目标的特征的确定装置的另一些实施例的框图；

图7示出本公开的目标的特征的确定装置的又一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的发明人发现上述相关技术中存在如下问题：依赖于单帧图像的关键点提取精度和图像分割准确度，没有利用多帧图像之间的联系，导致特征确定的准确性低。

鉴于此，本公开提出了一种目标的特征的确定技术方案，能够提高特征确定的准确性。

图1示出本公开的目标的特征的确定方法的一些实施例的流程图。

如图1所示，该方法包括：步骤110，提取各帧图像的目标特征；步骤120，确定各帧图像的联合特征；和步骤130，确定待处理帧图像的综合特征。

在步骤110中，提取各帧图像中目标的目标特征。各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像。例如，可以将视频的第k帧图像作为待处理帧图像，将第k帧图像的前N帧和后N帧图像作为相邻帧图像，k和N都是大于0的整数。

在一些实施例中，目标可以是各帧图像中包含的人体，目标特征可以是人体的形状信息和姿态信息。例如，形状信息可以是SMPL(Skinned Multi-Person Linear，具有骨骼蒙皮的多人线性)人体形状模型的形状参数(如长度为10的向量)，姿态信息可以是SMPL人体形状模型形状参数(如长度为72的向量)。

在一些实施例中，可以先对待处理帧图像进行人体检测(如采用AlphaPose算法)，以获取待处理帧图像包含人体的矩形区域(可以称为目标区域)；然后利用机器学习方法(如Resnet-50神经网络模型)从目标区域中提取待处理帧图像的特征向量。例如，可以采用相同的方法提取相邻帧图像的特征向量。

在一些实施例中，步骤110可以通过图2中的步骤实现。

图2示出图1中步骤110的一些实施例的流程图。

如图2所示，步骤110包括：步骤1110，提取各帧图像的目标特征；步骤1120，确定各帧图像的联合特征；和步骤1130，确定待处理帧图像的综合特征。

在步骤1110中，根据各帧图像的特征向量，利用第一机器学习模型的第一特征提取模块，提取各帧图像中目标的总体特征信息。

在一些实施例中，第一特征提取模块为反卷积层(如进行转置卷积处理)，总体特征信息为目标的骨架模型信息。例如，骨架模型信息可以为人体模型关节点的位置坐标。

在步骤1120中，根据各帧图像的特征向量，利用第一机器学习模型的第二特征提取模块，提取各帧图像中目标的局部特征信息。

在一些实施例中，第二特征提取模块为全连接层，局部特征信息包括：局部形状特征和局部姿态特征(如人体的手、头、脚等骨架模型无法体现的局部特征信息)、目标在图像中的位置信息，以及目标相对于摄像机的缩放信息、旋转信息和平移信息。局部特征信息还可以包括人体的形状信息。

在一些实施例中，可以通过图3中的实施例提取目标特征。

图3示出图1中步骤110的一些实施例的示意图。

如图3所示，利用图像特征提取模块31(如Resnet-50神经网络模型)提取第k帧图像的特征向量。例如，特征向量为一个16×512×7×7的向量，将该向量输入第一机器学习模型32。

根据特征向量，利用第一特征提取模块321提取目标的总体特征信息。根据特征向量，利用第二特征提取模块322提取目标的局部特征信息。

在一些实施例中，第一特征提取模块321可以为反卷积层。例如，第一特征提取模块321可以包含3个转置卷积层，将16×512×7×7的向量扩大为16×512×56×56的特征图(例如，特征图可以是描述人体关键点位置的heatmap)作为总体特征信息。

在一些实施例中，第二特征提取模块322可以为一个全连接层。例如，可以采用全局均值池化方法将16×512×7×7的向量转换为16×512的向量，再用一个全连接层，从16×512的向量中提取出同样大小的向量，用于描述局部特征信息(人体的细节信息)。

这样，可以将人体三维模型的建立算法分解为完成两个相对较简单的子任务——总体特征信息提取和局部特征信息提取，从而通过解耦的方式降低了算法的复杂度。

在一些实施例中，将总体特征信息和局部特征信息输入双线性变换层323，获取第k帧图像中的目标特征k。例如，总体特征信息为向量X ₁，局部特征信息为向量X ₂，通过训练可以得到双线性变换层323的权重参数W，则双线性变换层323的输出为

T为转置运算。

这样，通过双线性变换层323融合总体特征信息和局部特征信息，能够保证两种信息互不影响、相互独立，在融合信息的同时保持两者的解耦状态，从而提高特征提取的准确性。

在一些实施例中，可以利用与上述实施例相同的方法，提取待处理的第k帧图像的相邻帧图像中的目标特征。例如，可以提取第k-1帧图像中的目标特征k-1，第k+1帧图像中的目标特征k+1等。

提取了各帧图像中的目标特征，就可以采用图1中的区域步骤确定目标的综合特征了。

在步骤120中，利用注意力机制模型，提取各帧图像的目标特征之间的关联关系，以确定各帧图像的关联特征。例如，可以提取待处理帧图像前4帧和后4帧图像中的目标特征(共9个连续帧图像中的目标特征)，输入注意力机制模型进行处理。

在一些实施例中，注意力机制模型包括多个相互串联的Transformer模块。这样，根据连续帧图像中目标形状的一致性和目标姿态的连续性，多次挖掘各目标特征之间的关联信息，优化从数据中学习的特征表达，从而提高特征确定的准确性。

在步骤130中，根据各帧图像的关联特征，对待处理帧图像的目标特征进行优化，以确定待处理帧图像中目标的综合特征。例如，可以利用卷积神经网络处理基于目标特征获取的关联特征，以实现对目标特征进行优化。

在一些实施例中，按照各帧图像在视频中的固有顺序，对各关联特征进行排序。根据排序后的各帧图像的关联特征，利用TCN模型确定待处理帧图像中目标的综合特征。综合特征包括目标的形状特征和姿态特征。

在上述实施例中，最先提取的目标特征(即待处理特征)中不包含各帧图像之间的关联关系信息，所以该目标特征不够准确；根据目标特征利用注意力机制确定的关联特征为各帧图像的包含了关联关系信息的特征；综合特征为利用关联特征中的关联关系信息确定的目标的特征。这样，相比于目标特征，综合特征能够更准确的描述目标。

在一些实施例中，可以通过图4中的实施例实现步骤120和130。

图4示出图1中步骤120和步骤130的一些实施例的示意图。

如图4所示，可以将提取的连续帧图像中的目标特征k-1、目标特征k、目标特征k+1，按照视频中各帧图像的顺序输入注意力机制模型41，得到相应的关联特征k-1、关联特征k、关联特征k+1。例如，注意力机制模型41包括串联的Transformer模块411和Transformer模块412。

这样，输出的各关联特征中包含了各目标特征之间的关联信息，根据各关联特征确定待处理帧图像中的综合特征，能够提高准确性。

在一些实施例中，将关联特征k-1、关联特征k、关联特征k+1输入TCN模型42，对目标特征k进行优化得到第k帧图像的综合特征k。

在一些实施例中，TCN模型42可以包括两个一维卷积层和一个一维卷积模块组成。TCN模型42可以通过第一卷积层对各关联特征进行信息引入，然后通过一维卷积模块进行处理，最后通过第二卷积层进行结果预测输出。例如，一维卷积模块可以包括残差连接的第三卷积层(进行一维卷积处理)、BN(Batch Normalization，批量归一化)层和激活层。

在一些实施例中，可以根据各帧图像的关联特征，生成关联特征队列，关联特征队列中各关联特征的排列顺序与各帧图像在视频中的固有顺序不同。利用第二机器学习模型43，对关联特征队列中各关联特征进行排序。根据排序结果和固有顺序，对注意力机制模型41进行训练。

例如，第二机器学习模型43为一个包括三个卷积层和三个全连接层的排序网络模型。可以将关联特征k-1、关联特征k、关联特征k+1打乱顺序后输入第二机器学习模型43进行排序。也就是说，可以用帧图像在视频中的固有顺序进行监督训练，以回归出正确的顺序，利用排序结果对注意力机制模型41进行训练。

采用这种对抗训练方法，能够使得注意力机制模型41深入理解各帧图像之间的顺序，从而得到更准确的特征确定结果。

在上述实施例中，利用注意力机制模型确定了待处理帧图像与相邻帧图像的关联特征，通过各关联特征优化待处理帧图像中的目标特征。这样，利用了各帧图像中目标形状的一致性和目标姿态的连续性，提高了目标特征确定的准确性。

图5示出本公开的目标的特征的确定装置的一些实施例的框图。

如图5所示，目标特征的确定装置5包括目标特征提取单元51、关联特征确定单元52和综合特征确定单元53。

目标特征提取单元51提取各帧图像中目标的目标特征，各帧图像包括待处理帧图像和待处理帧图像的相邻帧图像。

在一些实施例中，目标特征提取单元51根据各帧图像的特征向量，利用第一机器学习模型的第一特征提取模块，提取各帧图像中目标的总体特征信息。例如，第一特征提取模块为反卷积层，总体特征信息为目标的骨架模型信息。

在一些实施例中，目标特征提取单元51根据各帧图像的特征向量，利用第一机器学习模型的第二特征提取模块，提取各帧图像中目标的局部特征信息。例如，第二特征提取模块为全连接层，局部特征信息包括局部形状特征和局部姿态特征、目标在图像中的位置信息、相对于摄像机的缩放信息、旋转信息和平移信息。

在一些实施例中，目标特征提取单元51融合总体特征信息和局部特征信息，确定目标特征。目标特征提取单元51对总体特征信息和所述局部特征信息进行双线性变换，确定目标的形状特征和姿态特征作为目标特征。

关联特征确定单元52利用注意力机制模型，提取各帧图像的目标特征之间的关联关系，以确定各帧图像的关联特征。例如，注意力机制模型包括多个Transformer模块，多个Transformer模块之间串联连接。

在一些实施例中，注意力机制模型通过下面的步骤进行训练：根据各帧图像的关联特征，生成关联特征队列，关联特征队列中各关联特征的排列顺序与各帧图像在视频中的固有顺序不同；利用第二机器学习模型，对关联特征队列中各关联特征进行排序；根据排序结果和固有顺序，对注意力机制模型进行训练。

在一些实施例中，综合特征确定单元54根据各帧图像的关联特征，利用卷积神经网络模型，确定待处理帧图像中目标的综合特征。

综合特征确定单元54根据各帧图像的关联特征，对待处理帧图像的目标特征进行优化，以确定待处理帧图像中目标的综合特征。例如，按照各帧图像在视频中的固有顺序，对各关联特征进行排序，根据排序后的各帧图像的关联特征，利用TCN模型确定待处理帧图像中目标的综合特征，综合特征包括目标的形状特征和姿态特征。在上述实施例中，利用注意力机制模型确定了待处理帧图像与相邻帧图像的关联特征，通过各关联特征优化待处理帧图像中的目标特征。这样，利用了各帧图像中目标形状的一致性和目标姿态的连续性，提高了目标特征确定的准确性。

图6示出本公开的目标的特征的确定装置的另一些实施例的框图。

如图6所示，该实施例的目标特征的确定装置6包括：存储器61以及耦接至该存储器61的处理器62，处理器62被配置为基于存储在存储器61中的指令，执行本公开中任意一个实施例中的目标特征的确定方法。

其中，存储器61例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。

如图7所示，该实施例的目标特征的确定装置7包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一个实施例中的目标特征的确定方法。

存储器710例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

目标特征的确定装置7还可以包括输入输出接口730、网络接口740、存储接口 750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的目标的特征的确定方法、目标的特征的确定装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

一种目标的特征的确定方法，包括：

提取各帧图像中目标的目标特征，所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像；

利用注意力机制模型，提取所述各帧图像的目标特征之间的关联关系，以确定所述各帧图像的关联特征；

根据所述各帧图像的关联特征，确定所述待处理帧图像中目标的综合特征。
根据权利要求1所述的确定方法，其中，所述提取各帧图像中目标的目标特征包括：

根据所述各帧图像的特征向量，利用第一机器学习模型的第一特征提取模块，提取所述各帧图像中目标的总体特征信息；

根据所述各帧图像的特征向量，利用所述第一机器学习模型的第二特征提取模块，提取所述各帧图像中目标的局部特征信息；

融合所述总体特征信息和所述局部特征信息，确定所述目标特征。
根据权利要求2所述的确定方法，其中，

所述第一特征提取模块为反卷积层，所述总体特征信息为所述目标的骨架模型信息。
根据权利要求2所述的确定方法，其中，

所述第二特征提取模块为全连接层，所述局部特征信息包括局部形状特征和局部姿态特征。
根据权利要求4所述的确定方法，其中，所述局部特征信息包括：所述目标在图像中的位置信息；以及所述目标相对于摄像机的缩放信息、旋转信息和平移信息。
根据权利要求2所述的确定方法，其中，所述融合所述总体特征信息和所述局部特征信息，确定所述目标特征包括：

对所述总体特征信息和所述局部特征信息进行双线性变换，确定所述目标的形状特征和姿态特征作为所述目标特征。
根据权利要求1所述的确定方法，其中，

所述注意力机制模型包括多个Transformer模块，所述多个Transformer模块之间串联连接。
根据权利要求1所述的确定方法，其中，所述确定所述待处理帧图像中目标的综合特征包括：

根据所述各帧图像的关联特征，利用卷积神经网络模型，确定所述待处理帧图像中目标的综合特征。
根据权利要求1所述的确定方法，其中，所述确定所述待处理帧图像中目标的综合特征包括：

按照所述各帧图像在视频中的固有顺序，对各关联特征进行排序；

根据排序后的所述各帧图像的关联特征，利用时域卷积网络TCN模型确定所述待处理帧图像中目标的综合特征，所述综合特征包括所述目标的形状特征和姿态特征。
根据权利要求1-9任一项所述的确定方法，其中，所述注意力机制模型通过下面的步骤进行训练：

根据所述各帧图像的关联特征，生成关联特征队列，所述关联特征队列中各关联特征的排列顺序与对应的帧图像在视频中的固有顺序不同；

利用第二机器学习模型，对所述关联特征队列中各关联特征进行排序；

根据排序结果和所述固有顺序，对所述注意力机制模型进行训练。
一种目标的特征的确定装置，包括：

目标特征提取单元，用于提取各帧图像中目标的目标特征，所述各帧图像包括待处理帧图像和所述待处理帧图像的相邻帧图像；

关联特征确定单元，用于利用注意力机制模型，提取所述各帧图像的目标特征之间的关联关系，以确定所述各帧图像的关联特征；

综合特征确定单元，用于根据所述各帧图像的关联特征，以确定所述待处理帧图像中目标的综合特征。
一种目标的特征的确定装置，包括：

存储器；和

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器装置中的指令，执行权利要求1-10任一项所述的目标的特征的确定方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述的目标的特征的确定方法。