WO2020248395A1

WO2020248395A1 - 跟拍方法、装置、设备及存储介质

Info

Publication number: WO2020248395A1
Application number: PCT/CN2019/103654
Authority: WO
Inventors: 张明; 董健
Original assignee: 睿魔智能科技（深圳）有限公司
Priority date: 2019-06-12
Filing date: 2019-08-30
Publication date: 2020-12-17
Also published as: CN110232706B; CN110232706A

Abstract

一种跟拍方法、装置、设备及存储介质，所述方法包括：实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像（1100）；利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息（1200）；根据尺度信息和偏移信息确认摄像机的控制偏移信息（1300）。

Description

跟拍方法、装置、设备及存储介质

本申请要求在2019年06月12日提交中国专利局、申请号为201910505922.0的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及拍摄技术领域，例如涉及一种跟拍方法、装置、设备及存储介质。

背景技术

在许多领域中，为了更好的拍摄效果，都需要通过摄像机自动跟拍一个需要跟踪的目标对象。在跟拍镜头中，目标对象通常在画面中的位置相对稳定，而且景别也保持不变。这就要求拍摄者与目标对象的运动速度基本一致，这样才能够保证目标对象在画面中的位置相对稳定，既不会使目标对象移出画面，也不会出现景别的变化。这种拍摄方式通过摄像机的运动，可以记录下目标对象的姿态、动作等，同时不会干扰被摄对象，在一种相对自然的状态下表现被摄人物。

然而，在许多场景下，都需要对目标对象或者整个群体对象进行跟拍，相关技术中一般只能针对单个目标对象进行跟拍，例如针对单个人物的运动轨迹进行跟拍。因此，需要一种合适的方法能够对多个目标对象进行有效跟拍，使拍摄镜头内能够展现多个目标运动轨迹。

发明内容

本申请提供一种跟拍方法、装置、设备及存储介质，以实现对多个目标对象或整个群体对象进行跟拍的效果。

本申请实施例提供了一种跟拍方法，该跟拍方法包括：

实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

根据所述尺度信息和偏移信息确认摄像机的控制偏移信息。

本申请实施例提供了一种跟拍装置，该跟拍装置包括：

获取模块，设置为实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

计算模块，设置为利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；

控制模块，设置为根据所述尺度信息和偏移信息确认摄像机的控制偏移信息。

本申请实施例提供了一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，设置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述中任一所述的跟拍方法。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，该程序指令被处理器执行时实现如上述中任一所述的跟拍方法。

附图说明

图1是本申请实施例一提供的一种跟拍方法的流程示意图；

图2是本申请实施例二提供的另一种跟拍方法的流程示意图；

图3是本申请实施例二提供的另一种跟拍方法的流程示意图；

图4是本申请实施例三提供的另一种跟拍方法的流程示意图；

图5是本申请实施例四提供的另一种跟拍方法的流程示意图；

图6是本申请实施例五提供的一种跟拍装置的结构示意图；

图7是本申请实施例六提供的一种跟拍设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请进行说明。本文所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是本文中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值称为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但第一速度差值和第二速度差值不是同一速度差值。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确的限定。

实施例一

图1为本申请实施例一提供的一种跟拍方法的流程示意图，本实施例适用于采用摄像装置对多人跟拍的情况，所述方法包括如下步骤：

步骤1100、实时获取摄影机的拍摄图像，拍摄图像包括至少一个目标图像。

一实施例中，在摄像机拍摄过程中，获取摄像装置拍摄的每一帧的拍摄图像。本实施例的摄像装置可以包括摄影机、照相机等等。

一实施例中，目标图像为预先选中的拍摄图像中的人物对象图像或拍摄图像中所有的人物对象图像。

一实施例中，目标图像是预先选中的在摄像装置拍摄的每一帧图像中的目标人物的图像，可以为一个人物图像或者多个人物图像。替代实施例中，目标图像除了人物图像还可以是动物图像、车辆图像或者其他摄像素材图像。本实施例中，构建由人物图像及每张人物图像对应的标记数据组成的人物图像数据集，本实施例的标记数据包括每个人物的人像边界框、人物躯干在人物图像中的像素面积及人物离镜头的距离。本实施例中，人像边界框用于确定人物图像在每一帧图像中的位置，边界框指对应于人物图像所出现的画面在每一帧图像中的区域范围，并且一般具有在纵向或横向上长的矩形外框形状。本实施例中，边界框的大小和位置取决于跟踪目标在镜头所采集的图像中的大小，边界框可以基于相关技术中的视觉追踪方法确定。人物图像中的像素面积为每个人物图像对应的所有像素点组成的像素面积。人物离镜头的距离为摄像装置距离所拍摄的人物对象的距离，可以由相关技术中的摄像装置直接获取。

步骤1200、利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息。

一实施例中，本实施例的模型可以为深度卷积神经网络模型，尺度信息为目标图像的人物框尺度大小信息，偏移信息为目标图像移动的位置信息。将人物图像数据集的每张人物图像对应的标记数据输入到训练好的深度卷积神经网络模型中得到每个目标图像对应的尺度响应图和参考位置图像；通过对应的尺度响应图，假定人像边界框的集合为Ψ，每个人像边界框表示为B _i，scale为尺度响应图，使用以下公式获得人像边界框的尺度信息。

计算人像边界框内scale的极值点位置：

(x _pi,y _pi)＝max{scale(x,y)|(x,y)∈B _i}。

scale(x,y)表示scale图上坐标为(x,y)的值，(x _pi,y _pi)为极值点位置。

计算极值点附近一片矩形区域(边长为2N+1)的均值作为尺度信息s _i：

N一般取为0、1、2或3，或者根据需要确定，m和n是用于遍历矩形区域的索引符号。

根据深度卷积神经网络模型得到的参考位置图像XT&YT，XT为参考位置水平坐标图像，YT为参考位置垂直坐标图像，通过参考位置图像XT&YT可以直接计算得到每个像素的偏移图像DX&DY，DX为水平偏移图像，DY为垂直偏移图像，通过偏移图像DX&DY得到偏移信息，偏移信息包括平均偏移控制量(d _xi,d _yi)。

在偏移图像DX&DY上每个像素的偏移计算如下：

DX(x,y)＝XT(x,y)-x；

DY(x,y)＝YT(x,y)-y。

在DX&DY图像上计算每个目标图像的平均偏移控制量(d _xi,d _yi)，如下：

dx(i,j)和dy(i,j)是偏移图像DX&DY中坐标为(i,j)的值。s _th是设定的阈值。

步骤1300、根据尺度信息和偏移信息确认摄像机的控制偏移信息。

一实施例中，根据每个目标图像对应的尺度信息和每个目标图像对应的偏移信息进行计算，得到摄像机的控制偏移信息，保证摄像机能够对图像中的多人移动进行捕捉。

一实施例中，计算过程为对所有目标图像的尺度信息和偏移信息的乘积进行加权计算。

一实施例中，基于所有的目标图像B _i∈Ψ，我们知道了每个目标图像的尺度信息s _i和偏移信息(d _xi,d _yi)，可以使用平均计算，求得最终的偏移控制量：

替代实施例中，计算过程为对所有目标图像的偏移信息和经过幂处理的尺度信息的乘积进行加权计算得到摄像机的控制偏移信息。

为了给距离更近的对象分配更高的控制权重，可以对尺度值进行幂处理，例如：

β为幂指数。该值越大，尺度越大的对象具备更主导的权重。该值越小，则所有目标趋向于同等权重。该值的选择可依据场景的不同设计不同的参数。

本实施例提供的一种跟拍方法，首先通过计算机程序实时获取摄像机的拍摄图像，该拍摄图像包括至少一个目标图像，得到一个或者多个目标图像的信息参数，然后利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息，最后根据目标图像的尺度信息和偏移信息确认摄像机的控制偏移信息，从而实现对多个目标图像进行跟拍的效果，解决了相关技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户能够在特定场景下对多个目标或整个群体对象进行跟拍的效果。

实施例二

请参考图2，图2是本申请实施例二提供的另一种跟拍方法的流程示意图。本实施例以实施例一方案为基础，进行了改进，提供了偏移模型的训练过程的方案。如图2所示，该方法包括如下步骤：

步骤2100，实时获取摄影机的拍摄图像，拍摄图像包括至少一个目标图像。

步骤2200，利用预先训练好的尺度模型预测拍摄图像中每个目标图像对应的尺度信息。

步骤2300，利用预先训练好的偏移模型预测拍摄图像中每个目标图像对应的偏移信息。

步骤2400，根据尺度信息和偏移信息确认摄像机的控制偏移信息。

一实施例中，如图3所示，步骤2300中对偏移模型的训练可以包括以下步骤：

步骤2210、从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。

本实施例中，图像数据集中预先设置有多张训练图像，训练图像类型可以根据拍摄目标不同自行选择，本实施例中以人像拍摄为例，图像数据集中搜集的均为包括人像的训练图像，这些训练图像可以覆盖多类主要场景如：室内、海边和山上以及多种姿态如：跑步、打坐、平躺和舞蹈。

图像数据集中每张训练图像都具有对应的标记数据，本实施列的标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。边界框信息包括边界框的位置和边界框的大小。本实施例中，示例性的选择人体的17个关节点作为关键点，分别标记关节点对应的坐标信息作为关键点信息。每个关节点标记为(xi,yi,si)，i为1到17的自然数，表示第i个关键点，xi为第i个关键点的水平坐标，yi为第i个关键点的垂直坐标，si等于0时表示该关键点不存在不用标记，si等于1时表示该关键点存在，i为1到17时分别对应以下关键点信息：1-头顶、2-左眼、3-右眼、4-鼻子、5-咽喉、6-左肩、7-左肘、8-左腕、9-右肩、10-右肘、11-右腕、12-左臀、13-左膝、14-左踝、15-右臀、16-右膝、17-右踝。

步骤2220、根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置。

传统的“中心控制”法控制目标边界框中心点移动到图像的中心完成构图，这种方式计算过程简单并未考虑到目标的姿态不同对构图的影响，因而拍摄效果与实际期望相差较大，因此，本实施例提供的拍摄方法中，在训练偏移模型时充分考虑跟踪目标不同姿态时的构图需求差异，根据步骤2210中所标记的跟踪目标的关键点信息不同可以区别出跟踪目标的不同姿态，根据跟踪目标的边界框信息和关键点信息计算边界框中心点的参考位置，并且能够充分模拟摄影师的构图控制能力，其构图效果更好。

步骤2230、基于边界框中心点的参考位置获取训练图像对应的参考位置图像。

当训练图像中存在多个目标人像时，需要根据每个跟踪目标的边界框中心点的参考位置、边界框中心点的初始位置和跟踪目标数量获取训练图像对应的参考位置图像，获取方式如下：

所有跟踪目标的边界框中心点的参考位置集合定义为：

Θ＝{O(P _i)}＝{(x _ti,y _ti)}。

每个跟踪目标的边界框中心的初始位置坐标定义为：

Δ＝{(x _ci,y _ci)}。

训练图像中每个像素的参考位置计算公式：

式(1)中，(x,y)为像素归一化坐标，∑ _Θ,Δ1为训练图像中的跟踪目标数量，X _TG(x,y)为每个像素参考位置的水平坐标，Y _TG(x,y)为每个像素参考位置的垂直坐标，x _ti、x _ci分别为每个跟踪目标的边界框中心点的参考位置水平坐标和初始位置水平坐标，y _ti、y _ci分别为每个跟踪目标的边界框中心点的参考位置垂直坐标和初始位置垂直坐标，当每个像素的参考位置坐标确定后即可得到训练图像的参考位置图像。

参考位置图像与传统“中心控制”法得到的图像相比更充分地考虑到了目标姿态不同时的构图需求，构图效果更精细合理。

步骤2240、利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像。

一实施例中，利用深度卷积神经网络初始模型对训练图像进行预测，得到跟踪目标在图像中的参考位置，进而可以得到预测结果图像，预测结果图像中每个像素的水平坐标和垂直坐标分别为X _T(x,y)、Y _T(x,y)。

步骤2250、根据参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节。

一实施例中，第一损失值采用欧几里得距离损失，根据前述得到参考位置图像和预测结果图像通过公式(2)计算得到：

L＝∑ _x,y(X _TG(x,y)-X _T(x,y)) ²+∑ _x,y(Y _TG(x,y)-Y _T(x,y)) ² (2)

(2)式中X _TG(x,y)、Y _TG(x,y)由(1)式求得，X _T(x,y)、Y _T(x,y)由预测结果图像求得。参考位置图像是期望实现构图效果的图像，第一损失值表示预测结果图像与参考位置图像偏差，基于第一损失值对深度卷积神经网络进行反向传播调节深度卷积神经网络参数，使得预测结果图像更接近参考位置图像。

步骤2260、对图像数据集中的多张训练图像依次执行步骤2210-2250，直到步骤2250中的第一损失值不再下降，结束对深度卷积神经网络的训练，得到预先训练好的偏移模型。

一实施例中，根据第一损失值调整深度卷积神经网络的参数，会得到不同的第一损失值，当第一损失值不断下降时表明预测结果图像越来越接近参考位置图像，不断地调节深度卷积神经网络，直到第一损失值不再降低时可以视为此时预测结果图像最接近参考位置图像，此时可以获得所期望的深度卷积神经网络模型作为训练好的深度神经卷纸网络模型使用。

由于不同训练图像得到的第一损失值之间始终可能存在一定差异，不同训练图像的第一损失值标准是不同的，此处所指的第一损失值不再下降是一种表示第一损失值趋于稳定且达到预期要求的表述方式，示例性的：自定义第一损失值预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的第一损失值始终低于k时即可视为第一损失值不再下降。

本实施例提供了实施例一中的利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息的方法，首先，计算机程序通过从预先设定的图像数据集中获取训练图像和对应的标记数据，该标记数据包括训练图像中跟踪目标的边界框信息和关键点信息；其次根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置；然后基于边界框中心点的参考位置获取训练图像对应的参考位置图像；接着利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像；随后根据参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节；最后对图像数据集中的多张训练图像依次执行以上步骤，直到步骤2250中的第一损失值不再下降时，结束对深度卷积神经网络的训练，得到训练好的偏移模型。本实施例提供的偏移模型训练方法解决了如何训练偏移信息的深度神经卷积网络的问题，实现了更好预测跟拍方法中偏移信息的效果。

实施例三

请参考图4，图4是本申请实施例三提供的另一种跟拍方法的流程示意图。本实施例以实施例二方案为基础，进行了改进，提供了根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置的方案。如图4所示，该方法包括如下步骤：

步骤2222、基于训练图像生成一幅网格表将训练图像划分为W*H个网格，W、H为大于1的自然数，每个网格在后续计算边界框的构图位置时提供一个位置选择，W、H的数值可根据精度需求调整。

步骤2224、获取将边界框中心放置于不同的网格中心时的第二损失值。

第二损失值的计算过程如下：

图像的水平坐标范围和垂直坐标范围均为[0，1]。

定义一组参考点，示例如下：

定义一组参考线，示例如下：

参考点和参考线的设置基于构图需求不同可自行调整，本实施例中通过上述参考点、参考线，将水平坐标范围

和垂直坐标范围

所限定的区域定为追踪目标最佳构图区域。

基于跟踪目标的关键点信息定义跟踪目标的关键点集合和对应的权值参数集合：

P＝{p _i},i＝1,2,…,17；

W _p＝{w _pi},i＝1,2,…,17。

根据跟踪目标的关键点信息定义关键线段，关键线段用于补充跟踪目标的姿态信息，基于关键点所体现的姿态在一定情况下存在一些误差，结合基于关键点的关键线段可以更清晰的体现跟踪目标的姿态，示例性的为：

L1：鼻子->{左臀和右臀中点}；

L2：左肩->左肘；

L3：左肘->左腕；

L4：右肩->右肘；

L5：右肘->右腕；

L6：左臀->左膝；

L7：左膝->左踝；

L8：右臀->右膝；

L9：右膝->右踝。

基于上述9条关键线段分别定义跟踪目标的关键线段集合和对应的权值参数集合：

L＝{l _j},j＝1,2,…,9；

W _l＝{w _lj},j＝1,2,…,9。

当跟踪目标的姿态不同时，目标的关键点位置发生变化，上述关键线段的长度、位置均会对应发生变化。

关键点与参考点之间的距离计算公式：

关键点与参考点之间的距离计算公式中p _i、p _j分别代表两个不同的点，x _pi、y _pi分别表示点p _i的水平坐标和垂直坐标，x _pj、y _pj分别表示点p _j的水平坐标和垂直坐标。

关键线与参考线之间的距离计算公式：

关键线与参考线之间的距离计算公式中，(x _c,y _c)是线段l的中点，x＝a表示一条垂直线，y＝a表示一条水平线。

将边界框中心分别放置到不同网格的中心(x，y)处，计算此时第二损失值损失值D _xy：

D _xy＝D _p+D _l。

上述公式中，P _xy＝P→(x,y)为关键点归一化，L _xy＝L→(x,y)为关键线段归一化。

在一实施例中，P _xy＝(x/W，y/H)，L _xy为归一化后的两点的线段。

第二损失值可以体现将边界框放置到不同位置时跟踪目标与自定义的最佳构图区域的符合程度，第二损失值越小越接近自定义的最佳构图区域。

步骤2226、选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

时，选取(x _t,y _t)作为边界框中心点的参考位置，在自定义的网格、参考点和参考线不变的情况下，(x _t,y _t)与对应的关键点信息(此处包括关键线段)关系是确定的，即映射关系为(x _t,y _t)＝Ο(P)，P为镜头追踪拍摄目标的关键点信息。

在替代实施例中，根据对图像精度的需求不同可以调整自定义的网格、参考点和参考线。一实施例中，还可以自定义跟踪目标的关键点以及关键线段和关键点的关系。例如精度要求较高时，可以将W、H提高，即增加了图像分割网格的格数。

本实施例提供了实施例三中根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置的方案的流程，首先计算机程序通过基于训练图像生成一幅网格表将训练图像划分为W*H个网格，其次获取将边界框中心放置于不同的网格中心时的第二损失值，其次选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置，解决了更好获取边界框中心点的参考位置的问题，实现了在偏移模型训练中更好获得偏移信息的效果。

实施例四

请参考图5，图5是本申请实施例四提供的另一种跟拍方法的流程示意图。本实施例以实施例二方案为基础，进行了改进，提供了尺度模型的训练过程的方案。如图5所示，该方法包括如下步骤：

步骤2310、获取训练样本图像的高斯响应图。

一实施例中，首先，通过公式

计算得到人物图像中每个人物的人像边界框的相对尺度S，该公式中w为人物图像的像素宽度，h为人物图像的像素高度，As为人物绝对尺度的量，

d为人物离镜头的距离，a为人物躯干在人物图像中的像素面积；然后，根据每个人物的人像边界框的相对尺度S生成一幅与人物图像尺度一样的高斯响应图，该高斯响应图的极值点位于人像边界框的中心，极值点的大小等于相对尺度S；最后，由每个人物的高斯响应图叠加在一起形成人物图像的高斯响应图；对所有训练样本图像执行以上三个步骤，得到每张训练样本图像对应的高斯响应图。

步骤2320、使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图。

一实施例中，使用深度卷积神经网络处理训练样本图像中的人物图像，得到一幅与训练样本图像中的人物图像相同大小的尺度响应图。

步骤2330、将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数。

一实施例中，将步骤2310生成的高斯响应图与2320获得的尺度响应图进行欧几里得距离损失计算，并将计算结果使用反向传播算法对深度卷积神经网络的参数进行调节。

步骤2340、对多张训练样本图像依次执行步骤2310-2330，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到预先训练好的尺度模型。

一实施例中，根据欧几里得距离损失调整深度卷积神经网络的参数，会得到不同的欧几里得距离损失，当欧几里得距离损失不断下降时表明预测结果图像越来越接近尺度响应图，不断地调节深度卷积神经网络，最终欧几里得距离损失不再降低时可以视为此时预测结果图像最接近尺度响应图，此时可以获得所期望的深度卷积神经网络模型作为训练好的深度神经卷纸网络模型使用。

由于不同训练样本图像得到的欧几里得距离损失之间始终可能存在一定差异，不同训练样本图像的欧几里得距离损失标准是不同的，此处所指的欧几里得距离损失不再下降是一种表示欧几里得距离损失趋于稳定且达到预期要求的表述方式，示例性的：自定义欧几里得距离损失预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的欧几里得距离损失始终低于k时即可视为欧几里得距离损失不再下降。

本实施例提供了一种跟拍方法中尺度模型训练的方法，首先获取训练样本图像的高斯响应图，其次使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图，然后将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数，最后对多张训练样本图像依次执行以上步骤，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到训练好的尺度模型。解决了如何得到对应尺度模型的训练好的深度卷积神经网络的问题，实现了更好地训练尺度模型的效果。

实施例五

本申请实施例五所提供的跟拍装置可执行本申请任意实施例所提供的跟拍方法，具备执行方法相应的功能模块和有益效果。图6是本申请实施例五提供的一种跟拍装置的结构示意图。参照图6，本申请实施例提供的跟拍置可以包括：获取模块3100，设置为实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像；计算模块3200，设置为利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；控制模块3300，设置为根据尺度信息和偏移信息确认摄像机的控制偏移信息。

一实施例中，控制模块3300还可以替换为加权控制模块，设置为对所述目标图象对应的尺度信息和偏移信息的乘积进行加权计算得到摄像机的控制偏移信息。

一实施例中，加权控制模块换可以替换为幂处理控制模块，设置为对所有目标图象对应的偏移信息和经过幂处理的尺度信息的乘积进行加权计算得到摄像机的控制偏移信息。

一实施例中，获取模块3100还可以替换为人物获取模块，设置为实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像，目标图像为预先选中的拍摄图像中的人物对象图像或拍摄图像中所有的人物对象图像。

一实施例中，计算模块3200还可以包括为尺度计算模块和偏移计算模块，尺度计算模块设置为利用预先训练好的尺度模型预测拍摄图像中每个目标图像对应的尺度信息；偏移计算模块设置为利用预先训练好的偏移模型预测拍摄图像中每个目标图像对应的偏移信息。

一实施例中，偏移计算模块包括：偏移获取单元，设置为从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。中心点获取单元，设置为根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置。参考位置获取单元，设置为基于边界框中心点的参考位置获取训练图像对应的参考位置图像。卷积神经网络计算单元，设置为利用深度卷积神经网络预测训练图像的参考位置以得到预测结果图像。损失值计算单元，设置为根据参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络神的参数进行调节。卷积神经网络训练单元，设置为对图像数据集中的多张训练图像依次执行步骤2210-2250进行训练，直到步骤2250中的第一损失值不再下降，结束对深度卷积神经网络的训练，得到预先训练好的偏移模型。

一实施例中，中心点获取单元包括：网格表生成子单元，设置为将训练图像划分为W*H个网格，W、H为大于1的自然数，生成一幅网格表。损失值获取子单元，设置为获取将边界框中心放置于不同的网格中心时的第二损失值。参考位置获取子单元，设置为选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

一实施例中，尺度计算模块包括：高斯响应图单元，设置为获取训练样本图像的高斯响应图。尺度响应图单元，设置为使用深度卷积神经网络处理训练样本图像，得到训练样本图像的尺度响应图。欧几里得距离损失单元，设置为将高斯响应图与尺度响应图进行欧几里得距离损失计算，根据计算结果调节深度卷积神经网络的参数。获取尺度模型单元，设置为对多张训练样本图像依次执行步骤2310-2330，直到计算的欧几里得距离损失不再下降，结束对深度卷积神经网络的训练，得到预先训练好的尺度模型。

本实施例的技术方案，通过提供了一种跟拍装置，解决了相关技术中没有对多个目标或整个群体对象进行跟拍的跟拍方法的问题，实现了用户能够在在特定场景下对多个目标或整个群体对象进行跟拍的效果。

实施例六

图7为本申请实施例六提供的一种计算机设备的结构示意图，如图7所示，该计算机设备包括存储器4100、处理器4200，计算机设备中处理器4200的数量可以是一个或多个，图7中以一个处理器4200为例；设备中的存储器4100、处理器4200可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器4100作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的跟拍方法对应的程序指令/模块(例如，跟拍装置中的获取模块3100、计算模块3200、控制模块3300)。处理器4200通过运行存储在存储器4100中的软件程序、指令以及模块，从而执行设备/终端的至少一种功能应用以及数据处理，即实现上述的跟拍方法。

一实施例中，处理器4200设置为运行存储在存储器4100中的计算机程序，实现如下步骤：实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像；利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；根据尺度信息和偏移信息确认摄像机的控制偏移信息。

一实施例中，本申请实施例所提供的一种计算机设备，其计算机程序不限于如上的方法操作，还可以执行本申请任意实施例所提供的跟拍方法中的相关操作。

存储器4100可主要包括存储程序区和存储数据区。一实施例中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器4100可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器4100可包括相对于处理器4200远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例七

本申请实施例七还提供一种包含计算机可执行指令的存储介质，其上存储有计算机程序，计算机程序包括程序指令，该程序指令被处理器执行时实现一种跟拍方法，该跟拍方法包括：实时获取摄像机的拍摄图像，拍摄图像包括至少一个目标图像；利用预先训练好的模型预测拍摄图像中每个目标图像对应的尺度信息和每个目标图像对应的偏移信息；根据尺度信息和偏移信息确认摄像机的控制偏移信息。

本申请实施例所提供的一种包含计算机可执行指令的存储介质，计算机可执行指令不限于如上的方法操作，还可以执行本申请任意实施例所提供的跟拍方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以了解到，本申请可借助软件及通用硬件来实现，也可以通过硬件实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，设备，或者网络设备等)执行本申请任意实施例所述的方法。

上述跟拍装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，每个功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种跟拍方法，包括：

实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和所述每个目标图像对应的偏移信息；

根据所述尺度信息和所述偏移信息确认所述摄像机的控制偏移信息。
根据权利要求1中所述的方法，其中，所述根据所述尺度信息和所述偏移信息确认所述摄像机的控制偏移信息包括：对所有目标图像对应的尺度信息和偏移信息的乘积进行加权计算得到所述摄像机的控制偏移信息。
根据权利要求2中所述的方法，其中，所述对每个目标图像对应的尺度信息和偏移信息进行加权计算得到所述摄像机的控制偏移信息包括：对所有目标图像对应的偏移信息和经过幂处理的尺度信息的乘积进行加权计算得到所述摄像机的控制偏移信息。
根据权利要求1-3中任一项所述的方法，其中，所述目标图像为预先选中的所述拍摄图像中的人物对象图像或所述拍摄图像中所有的人物对象图像。
根据权利要求1-4中任一项中所述的法，其中，所述预先训练好的模型包括预先训练好的尺度模型和预先训练好的偏移模型；

所述利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和所述每个目标图像对应的偏移信息包括：

利用所述预先训练好的尺度模型预测所述拍摄图像中每个目标图像对应的尺度信息；

利用所述预先训练好的偏移模型预测所述拍摄图像中每个目标图像对应的偏移信息。
根据权利要求5中所述的方法，其中，所述偏移模型的训练过程包括：

从预先设定的图像数据集中获取训练图像和对应的标记数据，所述标记数据包括所述训练图像中跟踪目标的边界框信息和关键点信息；

根据所述跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置；

基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像；

利用深度卷积神经网络预测所述训练图像的参考位置以得到预测结果图像；

根据所述参考位置图像和所述预测结果图像计算第一损失值，并根据所述第一损失值对所述深度卷积神经网络神的参数进行调节；

对所述图像数据集中的多张训练图像依次执行上述步骤，直到第一损失值不再下降，结束对所述深度卷积神经网络的训练，得到所述预先训练好的偏移模型。
根据所述要求6中所述的方法，其中，所述根据所述跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置包括：

将所述训练图像划分为W*H个网格，生成一幅网格表，W和H为大于1的自然数；

获取在将边界框中心放置于不同的网格中心的情况下的第二损失值；

选取所述第二损失值最小的网格的中心位置作为所述边界框中心点的参考位置。
根据权利要求5中所述的方法，其中，所述尺度模型的训练过程包括：

获取训练样本图像的高斯响应图；

使用深度卷积神经网络处理所述训练样本图像，得到所述训练样本图像的尺度响应图；

将所述高斯响应图与所述尺度响应图进行欧几里得距离损失计算，根据计算结果调节所述深度卷积神经网络的参数；

对多张训练样本图像依次执行上述步骤，直到计算的所述欧几里得距离损失不再下降，结束对所述深度卷积神经网络的训练，得到所述预先训练好的尺度模型。
一种跟拍装置，包括：

获取模块，设置为实时获取摄像机的拍摄图像，所述拍摄图像包括至少一个目标图像；

计算模块，设置为利用预先训练好的模型预测所述拍摄图像中每个目标图像对应的尺度信息和所述每个目标图像对应的偏移信息；

控制模块，设置为根据所述尺度信息和所述偏移信息确认所述摄像机的控制偏移信息。
一种设备，包括：

至少一个处理器；

存储器，设置为存储至少一个程序，

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8中任一所述的跟拍方法。
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现如权利要求1-8中任一所述的跟拍方法。