WO2020248396A1

WO2020248396A1 - 图像拍摄方法、装置、设备以及存储介质

Info

Publication number: WO2020248396A1
Application number: PCT/CN2019/103656
Authority: WO
Inventors: 张明; 董健
Original assignee: 睿魔智能科技（深圳）有限公司
Priority date: 2019-06-12
Filing date: 2019-08-30
Publication date: 2020-12-17
Also published as: CN110072064A; US11736800B2; CN110072064B; US20220201219A1

Abstract

本文公开了一种图像拍摄方法、装置、设备以及存储介质，该方法包括：获取待拍摄图像内镜头跟踪目标的边界框；利用预先训练好的参考模型预测待拍摄图像的第一参考位置；根据边界框内每个像素的位置和第一参考位置确定镜头移动偏移量。

Description

图像拍摄方法、装置、设备以及存储介质

本申请要求在2019年06月12日提交中国专利局、申请号为201910506435.6的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机软件应用领域，例如涉及一种图像拍摄方法、装置、设备以及存储介质。

背景技术

随着人们生活水平的提高以及电子设备的发展，拍照更为大众化，但每个人的拍照水平不一样，为了让不同拍摄水平的人也能拍摄出高质量的照片，相机中会设置有智能拍摄模式，在相关技术中，智能拍照模式只是通过检测当前拍摄的环境参数，针对该环境参数进行自动调节，以协助非专业人士拍摄出专业的照片，这种自动调节的参数通常只限于光圈、快门速度等，智能化程度较低。基于此发展出了自动跟踪目标进行拍摄的技术。

自动跟踪目标进行拍摄被应用在众多场景下，通过一个边界框来定位目标的位置，然后基于“中心控制”法来控制镜头的移动，来实现自动跟拍功能。然而，在人像拍摄中，这一方法具有很多局限性。人像拍摄比较复杂，不同姿态下，传统的边界框“中心控制”法实现的效果与人类的实际期望效果存在很大的差异。传统边界框“中心控制法”仅仅适用于目标在画面中非常少的特殊情形下。

发明内容

本申请提供了一种图像拍摄方法、装置、设备以及存储介质，能够基于图像的像素级视觉特征自动控制摄像头的转动，提高拍摄效果。

本申请提供了一种图像拍摄方法，该图像拍摄方法包括：

获取待拍摄图像内镜头跟踪目标的边界框；

利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本申请提供了一种图像拍摄装置，该图像拍摄装置包括：

边界框获取模块，设置为获取待拍摄图像内镜头跟踪目标的边界框；

参考位置预测模块，设置为预先训练好的参考模型利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

镜头偏移确定模块，设置为根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本申请提供了一种图像拍摄设备，该图像拍摄设备包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现前述的图像拍摄方法。

本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现前述的图像拍摄方法。

附图说明

图1是本申请实施例一提供的一种图像拍摄方法的流程图；

图2是本申请实施例一提供的一种图像拍摄方法的子流程图；

图3是本申请实施例二提供的另一种图像拍摄方法的流程图；

图4是本申请实施例二提供的一种参考模型的训练流程图；

图5是本申请实施例二提供的一种参考模型的训练子流程图；

图6是本申请实施例三提供的一种图像拍摄装置的结构示意图；

图7是本申请实施例三提供的一种图像拍摄装置的训练子模块结构示意图；

图8为本申请实施例三提供的一种图像拍摄装置的位置获取单元结构示意图；

图9为本申请实施例三提供的一种图像拍摄装置的镜头偏移确定模块结构示意图；

图10是本申请实施例四提供的一种图像拍摄设备的结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施中的技术方案进行描述。本文所描述的具体实施例仅仅是本申请一部分实施例，而不是全部的实施例，仅用于解释本申请，而非对本申请的限定。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员理解的含义相同。本文中在本申请的说明书中使用的术语只是为了描述实施方式的目的，不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，术语“第一”、“第二”等可在本文中用于描述多种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值称为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但第一速度差值和第二速度差值不是同一速度差值。术语“第一”、“第二”等不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确的限定。在一个部分被称为“固定于”另一个部分的情况下，它可以直接在另一个部分上也可以存在居中的部分。在一个部分被认为是“连接”到另一个部分的情况下，它可以是直接连接到另一个部分或者可能同时存在居中部分。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述，只是为了说明的目的，并不表示是唯一的实施方式。

一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将多个步骤描述成顺序的处理，但是本文中的许多步骤可以被并行地、并发地或者同时实施。此外，多个步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

参见图1，本实施例提供了一种图像拍摄方法，该方法包括以下步骤。

S110、获取待拍摄图像内镜头跟踪目标的边界框。

在拍摄图像的情况下，为了实现更佳的构图效果通常将待拍摄目标或镜头跟踪目标尽可能的置于图像的中心，因此在调整镜头移动前，需要先确定镜头跟踪目标在图像中的位置，此处所指的镜头跟踪目标指的是需要始终保持在镜头内的主要拍摄目标，如人、宠物以及其他摄影素材。本实施例中采用边界框确定镜头跟踪目标的位置，边界框指对应于待拍摄图像中的镜头跟踪目标所出现的画面的区域范围。一实施例中，边界框具有在纵向或横向上长的矩形外框形状。本实施例边界框的大小和位置取决于镜头跟踪目标在镜头所采集的图像中的大小，一实施例中，边界框可以基于相关技术中的视觉追踪方法确定。

S120、利用预先训练好的参考模型预测待拍摄图像的第一参考位置。

相关技术中通常使用“中心控制”法将目标定位到图像的正中心，但是这种方式并未考虑到所跟踪目标的姿态不同在构图时的影响，例如拍摄站立的人像时，“中心控制”法会将站立人像的正中心置于图像中心，而将人体的上半身更靠近图像中心能获得更佳的构图效果，因此本实施例采用预先训练好的参考模型来预测待拍摄图像的第一参考位置。

参考模型基于深度卷积神经网络(Convolutional Neural Networks，CNN)训练得到。第一参考位置为预测镜头跟踪目标在图像中的最佳构图位置，最佳构图位置是根据大量摄影师所拍摄的包含镜头跟踪目标的图像，统计分析得到的镜头跟踪目标在摄影师拍摄的图像中的位置。最佳构图位置由参考模型根据图像中镜头跟踪目标的信息所确定，镜头跟踪目标的信息包括镜头跟踪目标的边界框的大小、位置以及镜头跟踪目标的姿态中的一种或多种。

S130、根据边界框内每个像素位置和第一参考位置确定镜头移动偏移量。

在确定了第一参考位置后即确定了边界框的构图预测位置，结合边界框的初始位置即可计算出镜头需求的移动偏移量。传统的边界框“中心控制”法仅仅使用边界框的中心点进行计算，通过“中心控制”法计算将边界框中心点移动到画面的中心位置镜头需求的移动偏移量，这种计算方式在边界框足够小的情况下效果比较好，但是实际拍摄中边界框的大小是不确定的，且为了构图效果，镜头跟踪目标在图像中所占的比例不能过小，即边界框在图像中所占的比例不能过小，因此为了得到更精确的镜头偏移量计算结果，本实施例在参考模型预测的第一参考位置基础上，基于图像的像素级视觉特征使用边界框内的每个像素位置计算镜头的移动偏移量。

在一些实施例中，如图2所示，步骤S130包括步骤S1310-步骤S1320。

S1310、根据第一参考位置计算得到边界框内每个像素的位置偏移量。

定义：(x,y)为像素归一化坐标，x表示水平方向坐标，y表示垂直方向坐标。

XT为参考位置水平坐标图像，YT为参考位置垂直坐标图像，由参考模型预测得到。

DX为水平偏移图像，DY为垂直偏移图像，通过后续方法计算得到。

一实施例中，根据第一参考位置利用公式

计算得到边界框内每个像素的位置偏移量。

上述公式中，DX(x,y)为边界框内每个像素的水平偏移量，XT(x,y)为在边界框位于第一参考位置的情况下，边界框内每个像素的水平位置，即参考模型预测后的图像中边界框内每个像素的水平坐标，DY(x,y)为边界框内每个像素的垂直偏移量，YT(x,y)为位于第一参考位置的边界框内每个像素的垂直位置即参考模型预测后的图像中边界框内每个像素的垂直坐标，x为边界框内每个像素的水平位置也可以理解为边界框内每个像素的初始位置的水平坐标，y为边界框内每个像素的垂直位置也可以理解为边界框内每个像素的初始位置的垂直坐标。

本实施例中，根据S1310中的计算公式可以分别计算在边界框位于第一参考位置的情况下，边界框内每个像素的位置与所述每个像素的初始位置的坐标差值，以表示参考模型预测的图像与镜头偏移前所拍摄的图像相比，边界框内每个像素的位置偏移量。

S1320、根据边界框内每个像素的位置偏移量计算得到镜头移动偏移量。

一实施例中，根据边界框内每个像素的位置偏移量，利用公式

计算实现参考模型所预测的图像所需的镜头移动偏移量d；上述公式中，d _x为镜头的水平移动偏移量，d _y为镜头的垂直移动偏移量，(x，y)∈Θ表示像素(x，y)属于边界框Θ内，∑ _(x，y)∈Θ1表示的是边界框Θ内包含的像素数之和，镜头移动偏移量d＝(d _x,d _y)。

本实施例中提供了一种图像拍摄方法，采用由深度卷积神经网络训练好的参考模型对待拍摄图像进行预测得到构图效果更佳的第一参考位置，基于图像的像素级视觉特征和第一参考位置计算每个像素的位置偏移量从而得到镜头移动偏移量，本实施例的技术方案能够自动适应拍摄目标的不同姿态、不同位置，预测目标的参考位置控制摄像头移动实现更佳构图效果，无需人为控制摄像头的转动即可提高拍摄效果，提升用户的拍摄体验。

本申请提供的图像拍摄方法通过边界框确定镜头跟踪目标在待拍摄图像中的位置，利用基于卷积神经网络训练好的能够模拟摄像师构图思路的参考模型，预测待拍摄图像的第一参考位置，根据第一参考位置和待拍摄图像中用于确定跟踪目标位置的边界框，采用像素级的计算方式计算出实现跟踪目标位于第一参考位置所需的镜头移动偏移量，实现了基于图像的像素级视觉特征，自动控制摄像头的转动，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

实施例二

图3是本申请实施例二提供的另一种图像拍摄方法的流程示意图，本实施例在实施例一的基础上实现，如图3所示，在步骤S110之前还包括以下步骤。

步骤S100、基于深度卷积神经网络训练得到预先训练好的参考模型。

在一些实施例中，如图4所示，步骤S100、基于深度卷积神经网络训练得到预先训练好的参考模型(即参考模型的训练过程)包括步骤S310-步骤S360。

S310、从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。

本实施例中，图像数据集中预先设置有多张训练图像，训练图像类型可以根据拍摄目标不同自行选择，本实施例中以人像拍摄为例，图像数据集中搜集的均为包括人像的训练图像，这些训练图像可以覆盖多类主要场景如：室内、海边和山上以及多种姿态如：跑步、打坐、平躺和舞蹈。

图像数据集中每张训练图像都具有对应的标记数据，本实施列的标记数据包括训练图像中跟踪目标的边界框信息和关键点信息。边界框信息包括边界框的位置和边界框的大小。本实施例中，示例性的选择人体的17个关节点作为关键点，分别标记关节点对应的坐标信息作为关键点信息。每个关节点标记为(xi,yi,si)，i为1到17的自然数，表示第i个关键点，xi为第i个关键点的水平坐标，yi为第i个关键点的垂直坐标，si等于0时表示该关键点不存在(对应的xi和yi均为0)，si等于1时表示该关键点存在，i为1到17时分别对应以下关键点信息：1-头顶、2-左眼、3-右眼、4-鼻子、5-咽喉、6-左肩、7-左肘、8-左腕、9-右肩、10-右肘、11-右腕、12-左臀、13-左膝、14-左踝、15-右臀、16-右膝、17-右踝。

S320、根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置。

传统的“中心控制”法控制目标边界框中心点移动到图像的中心完成构图，这种方式计算过程简单并未考虑到目标的姿态不同对构图的影响因而拍摄效果与实际期望相差较大，因此，本实施例提供的拍摄方法中，在训练参考模型时充分考虑跟踪目标不同姿态时的构图需求差异，根据步骤S310中所标记的跟踪目标关键点信息不同可以区别出跟踪目标的不同姿态，根据跟踪目标的边界框信息和关键点信息计算边界框中心点的参考位置，并且能够充分模拟摄影师的构图控制能力，其构图效果更好。

在一些实施例中，如图5所示，步骤S320包括步骤S3210-步骤S3230：

S3210、基于训练图像生成一幅网格表，将训练图像划分为W*H个网格，W、H为大于1的自然数，每个网格在后续计算边界框的构图位置时提供一个位置选择，W、H的数值可根据精度需求调整。

S3220、获取在将边界框中心放置于不同的网格中心的情况下的第二损失值。

第二损失值的计算过程如下：

图像的水平坐标范围和垂直坐标范围均为[0，1]。

(1)定义一组参考点，示例如下：

(2)定义一组参考线，示例如下：

参考点和参考线的设置基于构图需求不同可自行调整，本实施例中通过上述参考点、参考线，将水平坐标范围

和垂直坐标范围

所限定的区域定为追踪目标最佳构图区域。

(3)基于跟踪目标的关键点信息定义跟踪目标的关键点集合和对应的权值参数集合：

P＝{p _i}，i＝1，2，…，17；

W _p＝{w _pi}，i＝1，2，…，17。

(4)根据跟踪目标的关键点信息定义关键线段，关键线段用于补充跟踪目标的姿态信息，基于关键点所体现的姿态在一定情况下存在一些误差，结合基于关键点的关键线段可以更清晰的体现跟踪目标的姿态，示例性的为：

L1：鼻子->{左臀和右臀中点}；

L2：左肩->左肘；

L3：左肘->左腕；

L4：右肩->右肘；

L5：右肘->右腕；

L6：左臀->左膝；

L7：左膝->左踝；

L8：右臀->右膝；

L9：右膝->右踝。

(5)基于上述9条关键线段分别定义跟踪目标的关键线段集合和对应的权值参数集合：

L＝{l _j}，j＝1，2，…，9；

W _l＝{w _lj}，j＝1，2，…，9。

当跟踪目标的姿态不同时，目标的关键点位置发生变化，上述关键线段的长度、位置均会对应发生变化。

(6)关键点与参考点之间的距离计算公式：

本实施例中，关键点与参考点之间的距离计算公式中p _i、p _j分别代表两个不同的点，x _pi、y _pi分别表示点p _i的水平坐标和垂直坐标，x _pj、y _pj分别表示点p _j的水平坐标和垂直坐标。

(7)关键线与参考线之间的距离计算公式：

关键线与参考线之间的距离计算公式中，(x _c，y _c)是线段l的中点，x＝a表示一条垂直线，y＝a表示一条水平线。

(8)将边界框中心分别放置到不同网格的中心(x，y)处，计算此时第二损失值损失值D _xy：

D _xy＝D _p+D _l。

上述公式中，P _xy＝P→(x，y)为关键点归一化，L _xy＝L→(x，y)为关键线段归一化。

在一实施例中，P _xy＝(x/W，y/H)，L _xy为归一化后的两点的线段。

第二损失值可以体现将边界框放置到不同位置时跟踪目标与自定义的最佳构图区域的符合程度，第二损失值越小越接近自定义的最佳构图区域。

S3230、选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

时选取(x _t，y _t)作为边界框中心点的参考位置，在自定义的网格、参考点和参考线不变的情况下，(x _t，y _t)与对应的关键点信息(此处包括关键线段)关系是确定的，即映射关系为(x _t，y _t)＝O(P)，P为镜头追踪拍摄目标的关键点信息。

在替代实施例中，根据对图像精度的需求不同可以调整自定义的网格、参考点和参考线。一实施例中，还可以自定义跟踪目标的关键点以及关键线段和关键点的关系。例如精度要求较高时，可以将W、H提高，即增加了图像分割网格的格数。

S330、基于边界框中心点的参考位置获取训练图像对应的参考位置图像。

在训练图像中存在多个目标人像的情况下，需要根据每个跟踪目标的边界框中心点的参考位置、每个跟踪目标的边界框中心点的初始位置和跟踪目标数量获取训练图像对应的参考位置图像，获取方式如下：

(1)所有跟踪目标的边界框中心点的参考位置集合定义为：

Θ＝{O(P _i)}＝{(x _ti，y _ti)}。

(2)每个跟踪目标的边界框中心的初始位置坐标定义为：

Δ＝{(x _ci，y _ci)}。

(3)训练图像中每个像素的参考位置计算公式：

式(1)中，(x，y)为像素归一化坐标，∑ _Θ，Δ1为训练图像中的跟踪目标数量，X _TG(x，y)为每个像素参考位置的水平坐标，Y _TG(x，y)为每个像素参考位置的垂直坐标，x _ti、x _ci分别为每个跟踪目标的边界框中心点的参考位置水平坐标和初始位置水平坐标，y _ti、y _ci分别为每个跟踪目标的边界框中心点的参考位置垂直坐标和初始位置垂直坐标，当每个像素的参考位置坐标确定后即可得到训练图像的参考位置图像。

参考位置图像与传统“中心控制”法得到的图像相比更充分地考虑到了目标姿态不同时的构图需求，构图效果更精细合理。

S340、利用深度卷积神经网络预测训练图像的第二参考位置以得到预测结果图像。

利用深度卷积神经网络初始模型对训练图像进行预测，得到跟踪目标在图像中的第二参考位置。进而可以得到预测结果图像，预测结果图像中每个像素的水平坐标和垂直坐标分别为X _T(x，y)、Y _T(x，y)。

S350、根据参考位置图像和预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络的参数进行调节。

第一损失值采用欧几里得距离损失，根据前述得到参考位置图像和预测结果图像通过公式(2)计算得到：

L＝∑ _x，y(X _TG(x，y)-X _T(x，y)) ²+∑ _x，y(Y _TG(x，y)-Y _T(x，y)) ² (2)

(2)式中X _TG(x，y)、Y _TG(x，y)由(1)式求得，X _T(x，y)、Y _T(x，y)由预测结果图像求得。参考位置图像是期望实现构图效果的图像，第一损失值表示预测结果图像与参考位置图像偏差，基于第一损失值对深度卷积神经网络进行反向传播调节深度卷积神经网络参数，使得预测结果图像更接近参考位置图像。

S360、对图像数据集中的多张训练图像依次执行步骤S310-S350，直到步骤S350中的第一损失值不再下降，结束对深度卷积神经网络的训练，得到预先训练好的参考模型。

根据第一损失值调整深度卷积神经网络的参数，会得到不同的第一损失值，当第一损失值不断下降时表明预测结果图像越来越接近参考位置图像，不断地调节深度卷积神经网络，最终第一损失值不再降低时可以视为此时预测结果图像最接近参考位置图像，此时可以获得所期望的深度卷积神经网络模型作为训练好的参考模型使用。

由于不同训练图像得到的第一损失值之间可能存在一定差异，因此无法保证每个训练图像计算得到的第一损失值能同时达到最低，此处所指的第一损失值不再下降是一种表示第一损失值趋于稳定且达到预期要求的表述方式，示例性的：自定义第一损失值预期要求为低于k，则在采用多个训练图像进行的多次训练后得到的至少m个连续的第一损失值始终低于k时即可视为第一损失值不再下降。

本实施例提供了实施例一中所使用的预先训练好的参考模型的训练流程，基于跟踪目标的关键点信息提供了更为合理的构图方式，其实现的参考图像构图效果更好，基于参考图像和深度卷积神经网络计算得到的第一损失值对深度卷积神经网络进行反向传播得到的训练好的参考模型能够适应目标的不同姿态预测出构图更合理的预测图像。

实施例三

如图6所示，本实施例提供了一种图像拍摄装置500，包括：边界框获取模块510，设置为获取待拍摄图像内镜头跟踪目标的边界框；参考位置预测模块520，设置为利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；镜头偏移确定模块530，设置为根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本实施例中，边框获取模块510是设置为根据待拍摄图像内镜头跟踪目标的数量不同获取多个与镜头跟踪目标对应的边界框。

本实施例中，如图7所示，参考位置预测模块520还包括模型训练子模块521，模型训练子模块521设置为基于深度卷积神经网络训练获得训练好的参考模型。

如图7所示，模型训练子模块521包括：数据集单元5210，设置为从预先设定的图像数据集中获取训练图像和对应的标记数据，标记数据包括训练图像中跟踪目标的边界框信息和关键点信息；位置获取单元5211，设置为根据跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置；图像获取单元5212，设置为基于边界框中心点的参考位置获取训练图像对应的参考位置图像，一实施例中，图像获取单元5212是设置为根据每个跟踪目标的边界框中心点的参考位置、每个跟踪目标的边界框中心点的初始位置和跟踪目标数量获取训练图像对应的参考位置图像；预测结果图像获取单元5213，设置为利用深度卷积神经网络预测训练图像的第二参考位置以得到预测结果图像；损失值处理单元5214，设置为根据参考位置图像和所述预测结果图像计算第一损失值，并根据第一损失值对深度卷积神经网络的参数进行调节；模型获取单元5215，设置为在第一损失值不再下降的情况下，结束对深度卷积神经网络的训练，得到训练好的参考模型。

一实施例中，第一损失值利用公式L＝∑ _x，y(X _TG(x，y)-X _T(x，y)) ²+∑ _x，y(Y _TG(x，y)-Y _T(x，y)) ²得到。

上述公式中，X _TG(，y)为根据边界框中心点的参考位置所计算的边界框内每个像素的水平位置，X _T(，y)为由深度卷积神经网络预测的边界框内每个像素的水平位置，Y _TG(x，y)为根据边界框中心点的参考位置所计算的边界框内每个像素的垂直位置，Y _T(x，y)为由深度卷积神经网络预测的边界框内每个像素的垂直位置。

一实施例中，如图8所示，位置获取单元5212包括：网格划分子单元52120，设置为基于训练图像生成一幅网格表,将训练图像划分为W*H个网格，W、H为大于1的自然数；第二损失值处理子单元52121，设置为获取在将边界框中心放置于不同的网格中心的情况下的第二损失值；参考位置获取子单元52122，设置为选取第二损失值最小的网格的中心位置作为边界框中心点的参考位置。

一实施例中，如图9所示，镜头偏移确定模块530包括：像素的位置偏移量获取子模块5300，设置为根据第一参考位置计算得到边界框内每个像素的位置偏移量；镜头移动偏移量获取子模块5301，设置为根据边界框内每个像素的位置偏移量计算得到镜头移动偏移量。

一实施例中，像素的位置偏移量获取子模块5300是设置为根据第一参考位置，利用公式

计算得到边界框内每个像素的位置偏移量；

其中，DX(x，y)为边界框内每个像素的水平偏移量，XT(x，y)为在边界框位于第一参考位置的情况下，边界框内每个像素的水平位置，x为边界框内每个像素的水平位置，DY(x，y)为边界框内每个像素的垂直偏移量，YT(x，y)为在边界框位于第一参考位置的情况下，边界框内每个像素的垂直位置，y为边界框内每个像素的垂直位置。

一实施例中，镜头移动偏移量获取子模块5301是设置为根据边界框内每个像素的位置偏移量，利用公式

计算得到镜头移动偏移量d；

其中，d＝(d _x,d _y)，d _x为镜头的水平移动偏移量，d _y为镜头的垂直移动偏移量，(x，y)∈Θ表示像素(x，y)属于边界框Θ内，∑ _(x，y)∈Θ1表示的是边界框Θ内包含的像素数之和。

本实施例提供了一种图像拍摄装置，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

本申请实施例所提供的一种图像拍摄装置可执行本申请前述实施例所提供的一种图像拍摄方法，具备执行方法相应的功能模块和有益效果。

实施例四

图10为本申请实施例四提供的一种图像拍摄设备600的结构示意图，如图10所示，该种图像拍摄设备包括存储器610、处理器620，图像拍摄设备中处理器620的数量可以是一个或多个，图10中以一个处理器620为例；图像拍摄设备中的存储器610、处理器620可以通过总线或其他方式连接，图10中以通过总线连接为例。

存储器610作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序以及模块，如本申请实施例中的图像拍摄方法对应的程序指令/模块(例如，图像拍摄装置中的边界框获取模块510、参考位置预测模块520、镜头偏移确定模块530)。处理器620通过运行存储在存储器610中的软件程序、指令以及模块，从而执行图像拍摄设备的多种功能应用以及数据处理，即实现上述的图像拍摄方法。

本实施例中，所述处理器620设置为运行存储在存储器610中的计算机可执行程序，以实现如下：步骤S110、获取待拍摄图像内镜头跟踪目标的边界框；步骤S120、利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；步骤S130、根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本申请实施例所提供的一种图像拍摄设备，该图像拍摄设备不限于如上所述的方法操作，还可以执行本申请实施例任意实施例所提供的图像拍摄方法中的相关操作。

存储器610可主要包括存储程序区和存储数据区。一实施例中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器610可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器610可包括相对于处理器620远程设置的存储器，这些远程存储器可以通过网络连接至图像拍摄设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本实施例提供了一种图像拍摄设备，能自动适应目标姿态的变化及适应相机的拍摄角度变化来进行拍摄，提高拍摄效果，有利于提高用户使用体验。

实施例五

本申请实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种图像拍摄方法，该图像拍摄方法包括：获取待拍摄图像内镜头跟踪目标的边界框；利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。

本申请实施例所提供的一种包含计算机可执行指令的存储介质，该计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的图像拍摄方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以了解到，本申请可借助软件及通用硬件来实现，也可以通过硬件实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，图像拍摄设备，或者网络设备等)执行本申请任意实施例所述的方法。

上述图像拍摄装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，每个功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种图像拍摄方法，包括：

获取待拍摄图像内镜头跟踪目标的边界框；

利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。
根据权利要求1所述的方法，其中，所述根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量包括：

根据所述第一参考位置计算得到所述边界框内每个像素的位置偏移量；

根据所述边界框内每个像素的位置偏移量计算得到镜头移动偏移量。
根据权利要求1或2所述的方法，其中，所述预先训练好的参考模型的训练过程包括：

从预先设定的图像数据集中获取训练图像和对应的标记数据，所述标记数据包括所述训练图像中跟踪目标的边界框信息和关键点信息；

根据所述跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置；

基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像；

利用深度卷积神经网络预测所述训练图像的第二参考位置以得到预测结果图像；

根据所述参考位置图像和所述预测结果图像计算第一损失值，并根据所述第一损失值对所述深度卷积神经网络的参数进行调节；

对所述图像数据集中的多张训练图像依次执行上述步骤，直到第一损失值不再下降，结束对所述深度卷积神经网络的训练，得到所述预先训练好的参考模型。
根据权利要求3所述的方法，其中，所述根据所述跟踪目标的边界框信息和关键点信息获取边界框中心点的参考位置包括：

基于所述训练图像生成一幅网格表，将所述训练图像划分为W*H个网格，W、H为大于1的自然数；

获取在将边界框中心放置于不同的网格中心的情况下的第二损失值；

选取所述第二损失值最小的网格的中心位置作为所述边界框中心点的参考位置。
根据权利要求3或4所述的方法，其中，所述基于所述边界框中心点的参考位置获取所述训练图像对应的参考位置图像包括：根据每个跟踪目标的边界框中心点的参考位置、所述每个跟踪目标的边界框中心点的初始位置和跟踪目标数量获取所述训练图像对应的参考位置图像。
根据权利要求2-5任一项所述的方法，其中，所述根据所述第一参考位置计算得到所述边界框内每个像素的位置偏移量包括：根据所述第一参考位置，利用公式
计算得到所述边界框内每个像素的位置偏移量；

其中，DX(x，y)为所述边界框内每个像素的水平偏移量，XT(x，y)为在所述所述边界框位于所述第一参考位置的情况下，所述边界框内每个像素的水平位置，DY(x，y)为所述边界框内每个像素的垂直偏移量，YT(x，y)为在所述边界框位于所述第一参考位置的情况下，所述边界框内每个像素的垂直位置，x为所述边界框内每个像素的水平位置，y为所述边界框内每个像素的垂直位置；

所述根据所述边界框内每个像素的位置偏移量计算得到镜头移动偏移量包括：根据所述边界框内每个像素的位置偏移量，利用公式
计算得到镜头移动偏移量d；

其中，d＝(d _x,d _y)，d _x为镜头的水平移动偏移量，d _y为镜头的垂直移动偏移量，(x，y)∈Θ表示像素(x，y)属于边界框Θ内，∑ _(x，y)∈Θ1表示的是所述边界框Θ内包含的像素数之和。
根据权利要求3-6任一项所述的方法，其中，所述第一损失值利用公式L＝∑ _x，y(X _TG(x，y)-X _T(x，y)) ²+∑ _x，y(Y _TG(x，y)-Y _T(x，y)) ²计算得到；

其中，X _TG(x，y)为根据所述边界框中心点的参考位置所计算的边界框内每个像素的水平位置，X _T(x，y)为由所述深度卷积神经网络预测的边界框内每个像素的水平位置，Y _TG(x，y)为根据所述边界框中心点的参考位置所计算的边界框内每个像素的垂直位置，Y _T(x，y)为由所述深度卷积神经网络预测的边界框内每个像素的垂直位置。
一种图像拍摄装置，包括：

边界框获取模块，设置为获取待拍摄图像内镜头跟踪目标的边界框；

参考位置预测模块，设置为预先训练好的参考模型利用预先训练好的参考模型预测所述待拍摄图像的第一参考位置；

镜头偏移确定模块，设置为根据所述边界框内每个像素位置和所述第一参考位置确定镜头移动偏移量。
一种图像拍摄设备，包括存储器和处理器，所述存储器上存储有可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7的图像拍摄方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被执行时实现如权利要求1-7任意一项所述的图像拍摄方法。