WO2020073860A1

WO2020073860A1 - 一种视频裁剪方法及装置

Info

Publication number: WO2020073860A1
Application number: PCT/CN2019/109269
Authority: WO
Inventors: 吉恒杉
Original assignee: 传线网络科技（上海）有限公司
Priority date: 2018-10-08
Filing date: 2019-09-30
Publication date: 2020-04-16
Also published as: CN111010590B; CN111010590A

Abstract

本申请实施方式公开了一种视频裁剪方法及装置，其中，所述方法包括：获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。本申请提供的技术方案，能够使得裁剪后的视频依然能够展示原版视频的主要内容。

Description

一种视频裁剪方法及装置

本申请要求2018年10月08日递交的申请号为201811167800.7、发明名称为“一种视频裁剪方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频处理技术领域，特别涉及一种视频裁剪方法及装置。

背景技术

目前，在移动终端上播放的视频，通常存在横版和竖版两钟版本。由于横版和竖版的分辨率差异较大，同一部视频很难同时满足横版和竖版的播放要求。

当前，为了使得横版视频也能在竖版的场景下具备较好的观赏体验，通常会选择从横版视频中截取一部分画面，从而制作成对应的竖版视频。当前在根据横版视频制作竖版视频时，不可避免地会将横版视频中的部分信息去除。请参阅图1，现有技术中通常是根据竖版视频的画面比例，在横版视频帧的固定位置处(例如屏幕的中心位置)截取出符合竖版画面比例的图像，并将截取得到的图像构成竖版视频。然而，这样的方式可能会导致横版视频中重要的信息丢失，从而使得裁剪后的竖版视频，无法表达横版视频的主要信息。

发明内容

本申请实施方式的目的是提供一种视频裁剪方法及装置，能够使得裁剪后的视频依然能够展示原版视频的主要内容。

为实现上述目的，本申请实施方式提供一种视频裁剪方法，所述方法包括：获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。

为实现上述目的，本申请实施方式还提供一种视频裁剪装置，所述装置包括：位置识别单元，用于获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；运动轨迹确定单元，用于根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；图像裁剪单元，用于基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；裁剪视频制作单元，用于根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。

为实现上述目的，本申请实施方式还提供一种视频裁剪装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的视频裁剪方法。

由上可见，本申请提供的技术方案，可以对目标视频中的目标对象进行识别，从而确定出目标对象在目标视频中所处的位置。该目标对象可以是目标视频主要展示的对象。然后，根据识别出的所述目标对象的位置，可以确定目标对象在目标视频中的运动轨迹。那么在从目标视频中裁剪画面时，可以针对每一个视频帧，从视频帧中裁剪出包含目标对象的区域图像，而不是按照固定的位置进行裁剪。这样，通过跟随目标对象的运动轨迹进行裁剪，从而使得裁剪后的各个视频帧中均可以包括目标对象的内容，而不会丢失目标对象的内容。这样，根据裁剪出的区域图像，从而可以制作出该目标对象的裁剪视频。本申请实施方式提供的技术方案，能够针对视频中的主要对象进行跟踪，并根据跟踪结果动态地进行视频裁剪，从而保证裁剪后的视频中依然能够展示原版视频的主要内容。

附图说明

为了更清楚地说明本申请实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中的视频裁剪示意图；

图2为本申请实施方式中视频裁剪方法的流程示意图；

图3为本申请实施方式中YOLO检测方法的输出示意图；

图4为本申请实施方式中目标对象的运动轨迹构成示意图；

图5为本申请实施方式中区域图像的裁剪示意图；

图6为本申请实施方式中视频裁剪装置的功能模块示意图；

图7为本申请实施方式中视频裁剪装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都应当属于本申请保护的范围。

本申请提供一种视频裁剪方法，所述方法可以应用于具备图像处理功能的电子设备中。请参阅图2，所述方法可以包括以下步骤。

S1：获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置。

在本实施方式中，所述目标视频可以是适配于横版画面尺寸的视频，在该目标视频中，可以具备各式各样的对象。所述各式各样的对象例如可以是人体、房屋、车辆、动物、植物等物体。在实际应用中，可以通过现有的目标检测方法，检测所述目标视频的各个视频帧中包含的对象。具体地，所述目标检测方法例如可以是YOLO(You Only Look Once)检测方法。在YOLO检测网络中，可以包括多个卷积层以及多个全连接层。其中，卷积层用来提取图像特征，全连接层用来预测图像位置和图像所属的类别。通过YOLO检测方法对目标视频进行逐帧检测后，可以识别出每个视频帧中包含的对象。此外，如图3所示，YOLO检测网络输出的结果中，可以通过矩形框来标识出对象的尺寸。这样，检测结果中各个矩形框的尺寸参数，便可以作为识别出的各个对象的尺寸参数。另外，除了通过矩形框标识出对象的尺寸，在检测结果中还可以标注出对象的标识。该对象的标识用于区分对象所属的类型。例如在图3中，“person”可以表示人体，“dog”可以表示狗，“horse”可以表示马。另外，在检测结果中测还可以标识出对象的置信度。该置信度可以表示矩形框中识别出的对象的概率值。例如在图3中，人体的置信度为0.64，狗的置信度为0.3，马的置信度为0.28。

在一个实施方式中，当检测出目标视频的视频帧中包含的对象之后，可以根据目标视频所展示的内容，确定当前画面中的主要对象，并将该主要对象作为后续需要跟踪的目标对象。具体地，首先可以根据对象的类型，从检测出的对象中筛选出指定类型的对象。例如，当前想要对人体进行跟踪，那么该指定类型的对象便可以是人体，对应的对象标识为“person”。那么，可以在识别出的对象中，保留对象标识为“person”的对象，而过滤掉其它的对象。筛选出的指定类型的对象可能具备较多的数量，因此可以从筛选出的指定类型的对象中，确定一个待追踪的目标对象。

在一个实施方式中，可以通过对视频帧所展示的内容进行分析，从而确定出待追踪的目标对象。通常而言，视频帧中聚焦的对象往往是视频帧想要展示的主要对象。因此，可以获取当前视频帧的聚焦参数，该聚焦参数可以是用于限定视频帧中某个区域的参数。例如，该聚焦参数可以描绘一个矩形框，并且该聚焦参数可以是该矩形框的两个对角顶点的坐标值。这样，通过该聚焦参数，可以在当前视频帧中确定出限定的区域，然后，可以将所述聚焦参数指向的对象作为所述目标对象。例如，可以识别出该聚焦参数限定的区域，然后将该区域中的对象作为待追踪的目标对象。

在另一个实施方式中，在识别出视频帧中包含的对象之后，用户可以针对识别结果，主要选择其中的一个对象作为待追踪的目标对象。例如，用户可以在视频帧中点击某个对象，这样，通过接收用户输入的选择指令，从而可以将该选择指令指向的对象作为目标对象。

在另一个实施方式中，还可以对视频帧中筛选出的对象的尺寸进行检测。通常而言，尺寸越大，表示在视频帧中越重要，作为视频帧想要展示的主要对象的可能性越高。因此，可以从当前视频帧的所述指定类型的对象中确定所占面积最大的对象，并将所述所占面积最大的对象作为所述目标对象。

在一个实施方式中，考虑到按照对象类型筛选出的对象的数量可能较多，此时可以将过大或者过小的对象过滤，从而减少后续处理的数据量。具体地，可以具备预设尺寸范围，该预设尺寸范围可以具备上限值和下限值。这样，在从检测出的对象中筛选出指定类型的对象之后，可以将指定类型的对象的尺寸参数与该预设尺寸范围进行对比，并且可以从所述指定类型的对象中过滤掉尺寸参数处于预设尺寸范围之外的对象。这样，最终留下的可以是尺寸参数比较合理的对象。

在本实施方式中，在视频帧中确定了目标对象之后，可以进一步地确定目标对象在视频帧中所处的位置。具体地，目标对象在视频帧中所占的区域可以通过上述实施方式中的矩形框来表示。这样，所述矩形框所覆盖的区域便可以作为所述目标对象在视频帧中所处的位置。此外，为了对数据进行简化，还可以将该矩形框的中心坐标作为所述目标对象在视频帧中所处的位置，该中心坐标例如可以通过对矩形框的四个顶点的坐标求平均值得到。该中心坐标便可以作为目标对象在视频帧中的中心位置。

S3：根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹。

在本实施方式中，在识别出所述目标对象在各个视频帧中所处的位置之后，便可以按照视频帧在目标视频中的排列顺序，依次将识别出的这些位置串联起来，从而得到所述目标对象在目标视频中的运动轨迹。具体地，在实际应用中，为了通过数据来表示所述目标对象的运动轨迹，可以将每个视频帧中所述目标对象的位置利用中心位置来表示。请参阅图4，假设当前有5个视频帧，可以分别确定这5个视频帧中目标对象的中心位置。该中心位置可以通过目标对象的矩形框的中心坐标来表示。例如(A11，A12)可以表示目标对象在第一个视频帧中的中心坐标，(A21，A22)可以表示目标对象在第二个视频帧中的中心坐标，以此类推。通过将这些中心坐标在一个视频帧的区域中进行汇总，便可以得到5个离散的中心坐标。当然，在实际应用中，这些中心坐标可能会出现重复，因此汇总得到的不同的中心坐标的数量可能不一定与视频帧的总数量一致。但需要说明的是，就算两个中心坐标是一致的，由于视频帧的前后顺序不一致，因此重复的中心坐标也应当分别对应两个不同的视频帧。如图4所示，在得到5个离散的中心坐标之后，可以按照各个视频帧在目标视频中的排列顺序，依次将这5个离散的中心坐标串联起来，从而得到目标对象的运动轨迹。

在一个实施方式中，还可以通过特征匹配的方式，在目标视频的各个视频帧中识别出目标对象。具体地，预先可以在目标视频中选择初始视频帧，该初始视频帧例如可以是目标视频的第一个视频帧，或者是包含目标对象的第一个视频帧。通过图像识别的方式，可以从该目标视频中识别出所述目标对象，并可以确定所述目标对象的特征信息。该特征信息可以是基于构成所述目标对象的像素点的像素值得到的。所述目标对象可以通过矩形框覆盖的区域来表示，那么通过识别该矩形框内各个像素点的像素值，并将识别得到的像素值按照像素点的排列顺序进行排列，从而可以构成像素值的向量。该向量便可以作为目标对象的特征信息。后续，可以将位于所述初始视频帧之后的视频帧进行区域划分，并按照相同的方式提取出划分后的区域的像素值向量，然后通过计算提取的像素值向量和上述表征所述目标对象的特征信息的向量之间的相似度，从而可以在后续的视频帧中识别所述特征信息表征的所述目标对象。具体地，当计算的相似度达到指定阈值时，便可以认为当前划分的区域也是包含目标对象的区域，从而从视频帧中识别出目标对象。按照这样的方式，可以在位于所述初始视频帧之后的指定数量的视频帧中，分别识别所述特征信息表征的所述目标对象，然后，可以按照前述实施方式中描述的技术方案，按照在所述初始视频帧和所述指定数量的视频帧中分别识别出的所述目标对象的位置，构建所述目标对象的运动轨迹。具体地，可以在所述初始视频帧和所述指定数量的视频帧中分别确定所述目标对象的中心位置，并将所述中心位置按照视频帧的排列顺序绘制为所述目标对象的运动轨迹。

在另一个实施方式中，还可以先统计出目标对象在目标视频中的运动方向和运动速度，然后根据运动方向和运动速度来预测目标对象的位置。具体地，可以在所述目标视频中确定指定数量的候选视频帧，这些指定数量的候选视频帧例如可以是目标视频中的前10帧视频帧，然后可以按照上述的方式，从各个所述候选视频帧中识别所述目标对象的位置。在识别出这些候选视频帧中目标对象的位置之后，可以根据识别出的所述目标对象的位置，确定所述目标对象的运动方向以及运动速度。具体地，所述运动方向可以通过对识别出的目标对象的位置进行拟合，从而拟合出运动轨迹，该运动轨迹的方向便可以是目标对象的运动方向。此外，通过视频帧之间的时间跨度，以及目标对象在这段时间跨度内在目标视频中行进的距离，可以计算出该目标对象的运动速度。然后，根据所述运动方向和所述运动速度，可以在位于所述候选视频帧之后的目标视频帧中预测所述目标对象出现的位置。具体地，可以根据最后一个候选视频帧与目标视频帧之间的时间跨度，计算出这个时间跨度中目标对象移动的距离。然后，可以沿着上述的运动方向行进计算出的所述距离，从而确定出目标对象在目标视频帧中的预测位置。接着，可以在目标视频帧中，以该预测位置为中心的指定范围内，寻找与该预测位置最接近的对象，并可以将该最接近的对象作为所述目标对象的目标视频帧中的实际位置。这样，通过将在目标视频帧中确定的所述目标对象的实际位置，作为候选视频帧中拟合出的运动轨迹的延续，从而可以继续绘制该目标对象的运动轨迹。也就是说，在确定出目标对象的预测位置之后，可以将所述目标视频帧中位于预测得到的位置的指定范围内，并与预测得到的所述位置距离最近的对象作为所述目标对象，然后，可以根据在所述目标视频帧中确定的所述目标对象的位置，构建所述目标对象的运动轨迹。

在本实施方式中，若在所述目标视频帧中不存在位于预测得到的所述位置的指定范围内的对象，那么表示该目标对象已经不在目标视频帧中展示，该目标对象的运动轨迹已经结束，此时，可以从所述目标视频帧中重新识别新的目标对象，并按照相同的方式确定所述新的目标对象的运动轨迹。

在一个实施方式中，按照上述方式确定出的目标对象的运动轨迹，可能会随着目标对象的移动而出现较大的波动。为了使得运动轨迹尽量平缓，可以对确定出的运动轨迹进行平滑处理。进行平滑处理时，可以将运动轨迹中的当前位置，通过前后的视频帧中目标对象的位置求取平均值来替换。具体地，针对所述运动轨迹中所述目标对象的当前位置，可以获取与所述当前位置相邻的指定数量的视频帧。例如，对于低5帧视频帧的当前位置，可以获取第3帧、第4帧以及第6帧、第7帧这四帧相邻的视频帧。然后可以分别获取所述目标对象在所述指定数量的视频帧中的中心位置，并计算所述中心位置的平均值。在求得该中心位置的平均值之后，可以利用计算得到的所述平均值替换所述目标对象在所述运动轨迹中的当前位置，从而根据相邻视频帧的目标对象的位置，将当前位置进行了平滑处理。按照上述的方式，可以对运动轨迹中的变化起伏较大的位置进行平滑处理，最终可以得到平滑处理后的的运动轨迹。

S5：基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像。

在本实施方式中，构建出的目标对象的运动轨迹，可以是由一个个中心位置构成的中心位置序列。在该中心位置序列中，可以包括每个视频帧中，目标对象的中心坐标。这样，在确定出目标对象的运动轨迹之后，针对所述运动轨迹中所述目标对象的当前位置，可以在该当前位置对应的视频帧中，确定所述当前位置的中心位置，该中心位置例如可以是目标对象的矩形框的中心坐标。然后，在按照预设裁剪尺寸进行裁剪时，可以从所述当前位置对应的视频帧中裁剪包含所述中心位置的区域图像。在实际应用中，为了确保目标对象的展示效果，可以将该中心位置处于裁剪后的区域图像的中心。上述的预设裁剪尺寸可以是竖版视频所要求的尺寸。

这样，如图5所示，在确定出当前视频帧中目标对象的中心坐标(黑色填充的实心圆)后，在裁剪区域图像时，可以将目标对象的中心坐标，作为裁剪后的区域图像的中心坐标，从而保证目标对象能够位于裁剪后的区域图像的中心。

S7：根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。

在本实施方式中，针对每个视频帧做出上述的裁剪动作之后，可以按照所述目标视频中视频帧的排列顺序，依次将裁剪得到的区域图像进行排序，从而得到与目标视频的播放顺序一致的裁剪视频。此外，尽管对目标视频的画面进行了裁剪，但目标视频的音频数据需要完全保留至裁剪视频中，因此可以将排序后的区域图像与所述目标视频的音频数据合成为所述裁剪视频。

请参阅图6，本申请还提供一种视频裁剪装置，所述装置包括：

位置识别单元，用于获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；

运动轨迹确定单元，用于根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；

图像裁剪单元，用于基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；

裁剪视频制作单元，用于根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。

在一个实施方式中，所述运动轨迹确定单元包括：

候选位置识别模块，用于在所述目标视频中确定指定数量的候选视频帧，并从所述候选视频帧中识别所述目标对象的位置；

运动信息确定模块，用于根据识别出的所述目标对象的位置，确定所述目标对象的运动方向以及运动速度；

位置预测模块，用于根据所述运动方向和所述运动速度，在位于所述候选视频帧之后的目标视频帧中预测所述目标对象出现的位置；

目标对象查询模块，用于将所述目标视频帧中位于预测得到的所述位置的指定范围内，并与预测得到的所述位置距离最近的对象作为所述目标对象；

运动轨迹构建模块，用于根据在所述目标视频帧中确定的所述目标对象的位置，构建所述目标对象的运动轨迹。

在一个实施方式中，所述装置还包括：

相邻视频帧获取模块，用于针对所述运动轨迹中所述目标对象的当前位置，获取与所述当前位置相邻的指定数量的视频帧；

平均值计算模块，用于分别获取所述目标对象在所述指定数量的视频帧中的中心位置，并计算所述中心位置的平均值；

平滑处理模块，用于利用计算得到的所述平均值替换所述目标对象在所述运动轨迹中的当前位置，以构成平滑处理后的的运动轨迹。

请参阅图7，本申请还提供一种视频裁剪装置，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的视频裁剪方法。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM、ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器、石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书实施方式提供的装置，其存储器和处理器实现的具体功能，可以与本说明书中的前述实施方式相对照解释，并能够达到前述实施方式的技术效果，这里便不再赘述。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现服务器以外，完全可以通过将方法步骤进行逻辑编程来使得服务器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种服务器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对装置的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施方式描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

一种视频裁剪方法，其特征在于，所述方法包括：

获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；

根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；

基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；

根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。
根据权利要求1所述的方法，其特征在于，所述目标对象按照以下方式确定：

检测所述目标视频的视频帧中包含的对象；

从检测出的对象中筛选出指定类型的对象，并在所述指定类型的对象中确定目标对象。
根据权利要求2所述的方法，其特征在于，从所述目标视频的视频帧中检测出的对象具备尺寸参数；相应地，在从检测出的对象中筛选出指定类型的对象之后，所述方法还包括：

从所述指定类型的对象中过滤掉尺寸参数处于预设尺寸范围之外的对象。
根据权利要求2所述的方法，其特征在于，在所述指定类型的对象中确定目标对象包括：

接收用户输入的选择指令，并将所述选择指令指向的对象作为所述目标对象；

或者

获取当前视频帧的聚焦参数，并将所述聚焦参数指向的对象作为所述目标对象；

或者

从当前视频帧的所述指定类型的对象中确定所占面积最大的对象，并将所述所占面积最大的对象作为所述目标对象。
根据权利要求1所述的方法，其特征在于，确定所述目标对象在所述目标视频中的运动轨迹包括：

在所述目标视频的初始视频帧中提取所述目标对象的特征信息；

在位于所述初始视频帧之后的指定数量的视频帧中，识别所述特征信息表征的所述目标对象；

按照在所述初始视频帧和所述指定数量的视频帧中分别识别出的所述目标对象的位置，构建所述目标对象的运动轨迹。
根据权利要求5所述的方法，其特征在于，构建所述目标对象的运动轨迹包括：

在所述初始视频帧和所述指定数量的视频帧中分别确定所述目标对象的中心位置，并将所述中心位置按照视频帧的排列顺序绘制为所述目标对象的运动轨迹。
根据权利要求1所述的方法，其特征在于，确定所述目标对象在所述目标视频中的运动轨迹包括：

在所述目标视频中确定指定数量的候选视频帧，并从所述候选视频帧中识别所述目标对象的位置；

根据识别出的所述目标对象的位置，确定所述目标对象的运动方向以及运动速度；

根据所述运动方向和所述运动速度，在位于所述候选视频帧之后的目标视频帧中预测所述目标对象出现的位置；

将所述目标视频帧中位于预测得到的所述位置的指定范围内，并与预测得到的所述位置距离最近的对象作为所述目标对象；

根据在所述目标视频帧中确定的所述目标对象的位置，构建所述目标对象的运动轨迹。
根据权利要求7所述的方法，其特征在于，所述方法还包括：

若在所述目标视频帧中不存在位于预测得到的所述位置的指定范围内的对象，从所述目标视频帧中重新识别新的目标对象，并确定所述新的目标对象的运动轨迹。
根据权利要求1所述的方法，其特征在于，在确定所述目标对象在所述目标视频中的运动轨迹后，所述方法还包括：

针对所述运动轨迹中所述目标对象的当前位置，获取与所述当前位置相邻的指定数量的视频帧；

分别获取所述目标对象在所述指定数量的视频帧中的中心位置，并计算所述中心位置的平均值；

利用计算得到的所述平均值替换所述目标对象在所述运动轨迹中的当前位置，以构成平滑处理后的的运动轨迹。
根据权利要求1所述的方法，其特征在于，基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像包括：

针对所述运动轨迹中所述目标对象的当前位置，确定所述当前位置在所述目标视频的视频帧中对应的中心位置；

按照预设裁剪尺寸，从所述当前位置对应的视频帧中裁剪包含所述中心位置的区域图像。
根据权利要求1所述的方法，其特征在于，制作所述目标对象对应的裁剪视频包括：

按照所述目标视频中视频帧的排列顺序，依次将裁剪得到的区域图像进行排序，并将排序后的区域图像与所述目标视频的音频数据合成为所述裁剪视频。
一种视频裁剪装置，其特征在于，所述装置包括：

位置识别单元，用于获取待处理的目标视频，并从所述目标视频的视频帧中识别目标对象的位置；

运动轨迹确定单元，用于根据识别出的所述目标对象的位置，确定所述目标对象在所述目标视频中的运动轨迹；

图像裁剪单元，用于基于确定出的所述运动轨迹，从所述目标视频的视频帧中裁剪出包含所述目标对象的区域图像；

裁剪视频制作单元，用于根据裁剪出的所述区域图像，制作所述目标对象对应的裁剪视频。
根据权利要求12所述的装置，其特征在于，所述运动轨迹确定单元包括：

候选位置识别模块，用于在所述目标视频中确定指定数量的候选视频帧，并从所述候选视频帧中识别所述目标对象的位置；

运动信息确定模块，用于根据识别出的所述目标对象的位置，确定所述目标对象的运动方向以及运动速度；

位置预测模块，用于根据所述运动方向和所述运动速度，在位于所述候选视频帧之后的目标视频帧中预测所述目标对象出现的位置；

目标对象查询模块，用于将所述目标视频帧中位于预测得到的所述位置的指定范围内，并与预测得到的所述位置距离最近的对象作为所述目标对象；

运动轨迹构建模块，用于根据在所述目标视频帧中确定的所述目标对象的位置，构建所述目标对象的运动轨迹。
根据权利要求12所述的装置，其特征在于，所述装置还包括：

相邻视频帧获取模块，用于针对所述运动轨迹中所述目标对象的当前位置，获取与所述当前位置相邻的指定数量的视频帧；

平均值计算模块，用于分别获取所述目标对象在所述指定数量的视频帧中的中心位置，并计算所述中心位置的平均值；

平滑处理模块，用于利用计算得到的所述平均值替换所述目标对象在所述运动轨迹中的当前位置，以构成平滑处理后的的运动轨迹。
一种视频裁剪装置，其特征在于，所述装置包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至11中任一所述的方法。