WO2022068551A1

WO2022068551A1 - 裁剪视频的方法、装置、设备以及存储介质

Info

Publication number: WO2022068551A1
Application number: PCT/CN2021/117458
Authority: WO
Inventors: 吴昊; 马云涛; 王长虎
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2020-09-30
Filing date: 2021-09-09
Publication date: 2022-04-07
Also published as: EP4224869A4; US20230206591A1; CN112188283A; EP4224869A1; US11881007B2; CN112188283B

Abstract

提供了一种裁剪视频的方法、装置、设备以及存储介质。该包括：获取第一图像帧的至少一个检测框；根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价；将所述至少一个检测框中代价最小的第一检测框确定为裁剪框；基于所述裁剪框裁剪所述第一图像帧。基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框，以裁剪所述第一图像帧，能够在保证简化视频裁剪过程的情况下，不仅能够提升裁剪视频的灵活度，还能够提升裁剪效果。

Description

裁剪视频的方法、装置、设备以及存储介质

本申请要求于2020年09月30日提交中国专利局、申请号为202011061772.8、发明名称为“裁剪视频的方法、装置、设备以及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉领域，并且更具体地，涉及裁剪视频的方法、装置、设备以及存储介质。

背景技术

通常情况下，用于投放广告视频的广告位的宽高比是固定的，例如9:16，然而，原始视频的尺寸是多种多样，例如不同的原始视频有不同的宽高比，由此，导致了很多原始视频与广告位所要求的尺寸不一致，使得无法直接在广告位上直接投放其他尺寸的原始视频。基于此，需要对需要原始视频进行裁剪，以符合广告位的尺寸。

截止目前，一般通过居中裁剪的方式裁剪原始视频。

但是，由于原始视频的中重要信息的位置存在随机性，通过居中裁剪的方式裁剪原始视频，有可能会造成视频中的重要信息过低，使得实用性过低且用户体验差。

发明内容

提供了一种裁剪视频的方法、装置、设备以及存储介质，能够在保证简化视频裁剪过程的情况下，提高实用性和用户体验。

第一方面，提供了一种裁剪视频的方法，包括：

获取第一图像帧的至少一个检测框；

根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价；

其中，所述重要性得分用于表征所述检测框在所述第一图像帧中的重要程度，所述覆盖面积用于表征所述检测框和所述第一图像帧中的文本框的重叠面积，所述平滑距离用于表征所述检测框和所述第一图像帧的上一个图像帧的裁剪框之间的距离；

将所述至少一个检测框中代价最小的第一检测框确定为裁剪框；

基于所述裁剪框裁剪所述第一图像帧。

第二方面，提供了一种裁剪视频的装置，包括：

获取单元，用于：

裁剪单元，用于基于所述裁剪框裁剪所述第一图像帧。

第三方面，提供了一种电子设备，包括：

处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面该的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面该的方法。

基于以上方案，通过将所述第一图像帧划分为至少一个检测框，进而基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框；一方面，将所述第一图像帧划分为至少一个检测框，通过在至少一个检测框中确定裁剪框，不仅能够实现视频的裁剪，还能够避免固定裁剪框位置，能够提升裁剪视频的灵活度；另一方面，通过根据检测框的重要性得分确定所述检测框的代价，有利于避免损失或裁剪掉第一图像帧中的重要信息，以提升裁剪效果；通过检测框的覆盖面积确定检测框的代价，能够避免裁剪后的图像中出现部分文字等现象，以提升用户观感，相应的，可提升裁剪效果；通过检测框的平滑距离确定所述检测框的代价，能够降低裁剪后的多张图像帧在视频中的位置移动幅度，以避免镜头发生频繁移动，进而，可提升裁剪效果。相当于，基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框，以裁剪所述第一图像帧，不仅能够提升裁剪视频的灵活度，还能够提升裁剪效果。

此外，直接将检测框确定为裁剪框，还有利于简化视频裁剪过程。

综上，基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框，以裁剪所述第一图像帧，能够在保证简化视频裁剪过程的情况下，不仅能够提升裁剪视频的灵活度，还能够提升裁剪效果。

附图说明

图1是本申请实施例提供的系统框架的示意性框图。

图2是本申请实施例提供的裁剪视频的方法的示意性流程图。

图3是本申请实施例提供的裁剪视频的装置的示意性框图。

图4是本申请实施例提供的电子设备的示意性框图。

具体实施方式

本申请实施例提供的方案主要涉及计算机视觉(Computer Vision，CV)技术领域。

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学，进一步地说，就是指应用摄影机和电脑等计算机设备代替人眼对图像中的目标对象进行识别、跟踪和测量等，还可以对图像做进一步处理，使处理后的图像更适合人眼观察或更便于传送给其他设备进行检测。计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常可以包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还可以包括常见的人脸识别、指纹识别等生物特征识别技术。

图1是本申请实施例提供的系统框架100的示意性框图。

如图1所示，所述系统框架100可包括抽帧单元110、图像理解单元120、路径规划单元130以及后处理单元140。

其中，所述抽帧单元110用于接收待裁剪视频，并基于所述待裁剪视频抽取待处理图像帧。

图像理解单元120接收抽帧单元110发送的待处理图像帧，并对所述待处理图像帧进行处理。

例如，图像理解单元120可通过边框检测对所述待处理图像帧进行处理，以去除所述待处理图像帧的黑边、高斯模糊等无用边框。再如，图像理解单元120可通过显著性检测对所述待处理图像帧进行处理，以检测出所述待处理图像帧的主体成分位置，例如针对所述待处理图像帧中的每个像素点的显著性得分。再如，图像理解单元120可通过人脸检测对所述待处理图像帧进行处理，以检测出人脸所在位置。再如，图像理解单元120可通过文字检测对所述待处理图像帧进行处理，以检测出文字所在位置，以及文字内容。再如，图像理解单元120可通过商标(logo)检测对所述待处理图像帧进行处理，以检测出商标、水印等所在位置。图像理解单元120经过处理后，可向路径规划单元130发送处理后的待规划图像帧和所述待规划图像帧的图像信息。

当然，图像理解单元120也可以具有预处理功能。例如，针对抽帧单元110发送的待处理图像帧进行去边框处理。

路径规划单元130接收到所述图像理解单元120发送的待规划图像帧，并基于所述图像处理单元120检测出的图像信息，确定所述待规划图像帧的规划路径，继而可基于规划路径裁剪所述待规划图像帧，以输出裁剪后的图像帧。

后处理单元140可用于对裁剪后的图像帧进行后处理操作。例如，对插值处理或平滑处理。所述插值处理可以理解为在多个裁剪后的图像帧之间通过插值的方式插入多张图像帧，以生成裁剪后的视频。再如，可以通过平滑处理，以保持裁剪后的多张图像帧在视频中的位置保持不变。

需要说明的是，所述系统框架100可以是终端或服务器。

终端可以是智能手机、平板电脑、便携计算机等设备。终端安装和运行有支持视频裁剪技术的应用程序。该应用程序可以是摄影类应用程序、视频处理类应用程序等。示例性的，终端是用户使用的终端，终端中运行的应用程序内登录有用户账号。

终端可通过无线网络或有线网络与服务器相连。

服务器可以是云计算平台、虚拟化中心等。服务器用于为支持视频裁剪技术的应用程序提供后台服务。例如，服务器承担主要视频裁剪工作，终端承担次要视频裁剪工作；再如，服务器承担次要视频裁剪工作，终端承担主要视频裁剪工作；再如，服务器或终端分别可以单独承担视频裁剪工作。

服务器可包括接入服务器、视频识别服务器和数据库。

图2是本申请实施例提供的一种视频裁剪方法200的流程图。该方法200可以应用于上述终端或者服务器。终端和服务器均可以视为一种计算机设备。例如图1所示的系统框架100。

如图2所示，所述方法200可包括：

S210，获取第一图像帧的至少一个检测框；

S220，根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价；其中，所述重要性得分用于表征所述检测框在所述第一图像帧中的重要程度，所述覆盖面积用于表征所述检测框和所述第一图像帧中的文本框的重叠面积，所述平滑距离用于表征所述检测框和所述第一图像帧的上一个图像帧的裁剪框之间的距离；

S230，将所述至少一个检测框中代价最小的第一检测框确定为裁剪框；

S240，基于所述裁剪框裁剪所述第一图像帧。

例如，可通过对待裁剪的视频进行抽帧处理获取第一图像帧，由此可获取所述第一图像帧的至少一个检测框，以确定所述至少一个检测框中的第一检测框，基于此，根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价，进而将代价最小的第一检测框确定为裁剪框，以基于所述裁剪框裁剪所述第一图像帧。可选的，所述至少一个检测框可以为预设的检测框。当然，也可以通过用户设置所述至少一个检测框，或者可以通过基于对所述第一图像帧的图像理解生成所述至少一个检测框。

通过将所述第一图像帧划分为至少一个检测框，进而基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框；一方面，将所述第一图像帧划分为至少一个检测框，通过在至少一个检测框中确定裁剪框，不仅能够实现视频的裁剪，还能够避免固定裁剪框位置，能够提升裁剪视频的灵活度；另一方面，通过根据检测框的重要性得分确定所述检测框的代价，有利于避免损失或裁剪掉第一图像帧中的重要信息，以提升裁剪效果；通过检测框的覆盖面积确定检测框的代价，能够避免裁剪后的图像中出现部分文字等现象，以提升用户观感，相应的，可提升裁剪效果；通过检测框的平滑距离确定所述检测框的代价，能够降低裁剪后的多张图像帧在视频中的位置移动幅度，以避免镜头发生频繁移动，进而，可提升裁剪效果。相当于，基于每个检测框的代价将该至少一个检测框代价最小的第一检测框确定为裁剪框，裁剪所述第一图像帧，不仅能够提升裁剪视频的灵活度，还能够提升裁剪效果。

需要说明的是，本申请对所述至少一个检测框的具体实现不作限定。

例如，所述至少一个检测框为多个检测框，所述多个检测框中的检测框可以部分重叠。再如，可以以像素为粒度确定所述至少一个检测框的大小。例如，每20个像素点一个检测框。再如，可以基于待裁剪视频的尺寸确定所述至少一个检测框的大小。再如，可以基于裁剪尺寸确定所述至少一个裁剪框的大小。其中，所述裁剪尺寸可以理解为预期的裁剪后的视频的尺寸，也可以理解为预期的裁剪后的视频的长宽比。所述至少一个检测框也可以理解为至少一个状态或至少一个裁剪状态。换言之，可以在至少一个状态中确定一个状态，以基于所述一个状态裁剪所述第一图像帧。

假设待裁剪的视频的尺寸为1280*720，所述裁剪尺寸为1:1，裁剪后的视频的尺寸为720*720。基于此，所述至少一个裁剪框中每一个裁剪框的尺寸可以为720*720。

此外，本申请对所述第一图像帧也不作具体限定。

例如，所述第一图像帧为经过去除边框或经过模糊处理的图像帧。当然，也可以是对原始视频直接进行抽帧处理后获取的图像帧。

在本申请的一些实施例中，所述S220可包括：

基于所述检测框的重要性得分确定所述检测框的重要性代价；

其中，所述检测框的重要性代价随所述检测框的重要性得分的增加而减小；所述检测框的代价包括所述检测框的重要性代价。

简言之，可通过所述检测框的重要性得分确定所述检测框的代价。

通过检测框的重要性得分在所述至少一个检测框中确定所述裁剪框，可以使得所述裁剪框能够使用或保留所述第一图像帧中的重要信息的位置，相应的，可以避免丢失所述第一图像帧中的重要信息，以提升对裁剪后的图像的观感。

换言之，可基于至少一个重要性得分确定所述第一检测框，所述至少一个重要性得分表征所述至少一个检测框分别在所述第一图像帧中的重要程度。

例如，通过显著性检测或人脸检测的方式，获取所述至少一个重要性得分。例如，可将所述至少一个重要性得分中得分最大的重要性得分，以将所述得分最大的重要性得分所对应的检测框，确定所述第一检测框。检测框的重要性得分可以是检测框中所有像素的重要性得分之和。每一个像素的重要性得分可以包括通过显著性检测获取显著性得分以及通过人脸检测获取的人脸得分。

在本申请的一些实施例中，可仅基于第一图像帧确定所述至少一个重要性代价。

例如，确定所述检测框的第一比值，所述第一比值为所述检测框的重要性得分和所述第一图像帧的重要性得分的比值；基于所述检测框的第一比值确定所述检测框的重要性代价，所述检测框的重要性代价随所述检测框的第一比值的增加而减小。

换言之，所述至少一个检测框中的每一个检测框可对应一个第一比值。例如，所述至少一个检测框中的同一检测框的第一比值为所述同一检测框的重要性得分和所述第一图像帧的重要性得分的比值。

再如，可以通过以下公式确定所述同一检测框对应的重要性代价：

S _i1＝1-I(C _i)/I(C)；

其中，S _i1表示所述至少一个检测框中的第i个检测框对应的重要性代价，C _i表示第C个图像帧中的第i个检测框，I(C _i)表示检测框C _i的重要性得分，I(C)表示第C个图像帧的重要性得分。

在本申请的一些实施例中，可以基于第二图像帧确定所述至少一个重要性代价。

例如，确定所述检测框的至少一个比值，所述检测框的至少一个比值包括所述检测框的重要性得分分别相对所述上一个图像帧中的每一个检测框的重要性得分的比值；基于所述检测框的至少一个比值，确定所述检测框的重要性代价，所述检测框的重要性代价随所述至少一个比值中的比值的增加而减小。

换言之，所述至少一个检测框中的每一个检测框可对应至少一个比值。例如，所述至少一个检测框中同一检测框的至少一个比值包括所述同一检测框的重要性得分分别相对第二图像帧中的每一个检测框的重要性得分的比值，所述第二图像帧在时域上位于所述第一图像帧之前。

再如，可以通过以下公式确定每一个检测框的总代价：

其中，S _1i表示所述至少一个检测框中的第i个检测框对应的重要性代价，C _i表示第C个图像帧中的第i个检测框，I(C _i)表示检测框C _i的重要性得分，D _j表示第D个图像帧的第j个检测框，I(D _j)表示检测框D _j的重要性得分，n表示第D个图像帧的检测框的数量。

在本申请的一些实施例中，所述S220可包括：

基于所述检测框和所述文本框的重叠面积，确定所述检测框的覆盖代价；

其中，所述检测框对应的覆盖代价随所述检测框的覆盖面积的增加先减小后增加；所述检测框的代价包括所述检测框的覆盖代价。

简言之，基于所述检测框和所述第一图像帧中的文本框的重叠情况，确定所述检测框的代价。

通过所述检测框和所述文本框的重叠情况，相当于，在考虑所述文本框的基础上确定所述裁剪框，由此可避免裁剪后的视频中出现部分文字等现象，以避免降低用户观感并提升裁剪效果。

换言之，可基于所述至少一个检测框和所述文本框的重叠情况，确定所述至少一个检测框分别对应的至少一个覆盖代价，所述至少一个检测框中的同一检测框对应的覆盖代价随覆盖面积的增加先减小后增加，所述覆盖面积为所述同一检测框和所述文本框的重叠面积；基于至少一个覆盖代价确定所述裁剪框。

再如，可以通过以下公式确定每一个检测框的覆盖代价：

其中，S _2i表示所述至少一个检测框中的第i个检测框的覆盖代价，C _i表示第C个图像帧中的第i个检测框，T _k表示第C个图像帧中的第k个文本框， m表示第C个图像帧中的文本框的数量，B(C _i,T _k)表示检测框C _i和文本框的覆盖代价，λ ₁表示检测框C _i和文本框T _k的覆盖系数。例如，λ ₁大于等于0且小于1。

例如，可以通过以下公式确定所述至少一个覆盖代价：

x(1-x)；

其中，x表示所述同一检测框和所述文本框的重叠面积。

在本申请的一些实施例中，所述文本框中包括所述第一图像中的文字或商标所在的区域。

例如，所述第一图像中的文字可以是第一图像帧的字幕。

在本申请的一些实施例中，所述S220可包括：

基于所述检测框的距离比值确定所述检测框的距离代价；

其中，所述检测框的距离比值为所述检测框的平滑距离与所述第一长度的比值，所述第一长度为所述第一图像帧的与第一连线平行的边长，所述第一连线为所述检测框和所述上一个图像帧的裁剪框形成的连线，所述检测框的距离代价随所述检测框的距离比值的增加而增加；所述检测框的代价包括所述检测框的距离代价。

简言之，可基于所述检测框的平滑距离，确定所述检测框的代价。

通过所述检测框相对第二图像帧的裁剪框的距离，确定所述裁剪框，相当于，在确定所述裁剪框的过程中，能够尽可能的降低裁剪后的多张图像帧在视频中的位置移动幅度，以避免镜头发生频繁移动，进而，可提升裁剪效果。

换言之，可基于至少一个距离比值确定所述至少一个检测框分别对应的至少一个距离代价，所述至少一个距离比值为至少一个平滑距离分别与所述第一图像帧第一边长的长度的比值，所述至少一个平滑距离分别为所述至少一个检测框的平滑距离，所述第一边长平行于所述至少一个检测框的分布方向，所述至少一个检测框中的同一检测框对应的距离代价随所述同一检测框和所述第二裁剪框之间的距离的增加而增加；基于所述至少一个距离代价确定所述裁剪框。

再如，可以通过以下公式确定每一个检测框的距离代价：

S _3i＝λ ₂|(L(C _i)-L(D _t))/A|；

其中，S _3i表示所述至少一个检测框中的第i个检测框的距离代价，C _i表示第C个图像帧中的第i个检测框，λ ₂表示检测框C _i相对检测框D _j的平滑系数，L(C _i)表示检测框C _i的位置，D _t表示第D个图像帧的裁剪框，L(D _t)表示第D个图像帧的裁剪框的位置，A表示所述第一图像帧的第一边长的长度。例如，所述第一边长为所述至少一个检测框的排列方向。

在本申请的一些实施例中，所述方法200还可包括：

平滑或插值处理裁剪后的图像帧。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

例如，可以基于所述至少一个检测框中每一个检测框对应的总代价，确定所述第一检测框。所述总代价可包括以下上文涉及的重要性代价、覆盖代价以及距离代价中的至少一项。

再如，可以通过以下公式确定每一个检测框的总代价：

其中，S _i表示所述至少一个检测框中的第i个检测框的总代价，C _i表示第C个图像帧中的第i个检测框，I(C _i)表示检测框C _i的重要性得分，D _j表示第D个图像帧的第j个检测框，I(D _j)表示检测框D _j的重要性得分，n表示第D个图像帧的检测框的数量，T _k表示第C个图像帧中的第k个文本框，m表示第C个图像帧中的文本框的数量，B(C _i,T _k)表示检测框C _i和文本框T _k的覆盖代价，λ ₁表示检测框C _i和文本框的覆盖系数，λ ₂表示检测框C _i相对检测框D _j的平滑系数，L(C _i)表示检测框C _i的位置，D _t表示第D个图像帧的裁剪框，L(D _t)表示第D个图像帧的裁剪框的位置。

基于此，可以将总代价最小的检测框确定为所述第一检测框。

上文结合图2详细描述了本申请的方法实施例，下文结合图3至图4，详细描述本申请的装置实施例。

图3是本申请实施例提供的裁剪视频的装置300的示意性框图。

获取单元310，用于获取第一图像帧的至少一个检测框；

确定单元320，用于确定所述至少一个检测框中的第一检测框；

裁剪单元330，用于将所述第一检测框作为裁剪框裁剪所述第一图像帧。

其特征在于，所述至少一个检测框为预设的检测框。

在本申请的一些实施例中，所述确定单元320具体用于：

基于至少一个重要性得分确定所述第一检测框，所述至少一个重要性得分表征所述至少一个检测框分别在所述第一图像帧中的重要程度。

在本申请的一些实施例中，所述获取单元310还用于：

通过显著性检测或人脸检测的方式，获取所述至少一个重要性得分。

在本申请的一些实施例中，所述确定单元320具体用于：

基于所述至少一个重要性得分确定所述至少一个检测框分别对应的至少一个重要性代价，所述至少一个检测框中的同一检测框对应的重要性代价随所述同一检测框的重要性得分的增加而减小；

基于所述至少一个重要性代价确定所述第一检测框。

在本申请的一些实施例中，所述确定单元320具体用于：

确定所述至少一个检测框中的每一个检测框的第一比值，所述至少一个检测框中的同一检测框的第一比值为所述同一检测框的重要性得分和所述第一图像帧的重要性得分的比值；

基于所述同一检测框的第一比值所述同一检测框对应的重要性代价，所述同一个检测框的重要性代价随所述同一检测框的第一比值的增加而减小。

在本申请的一些实施例中，所述确定单元320具体用于：

确定所述至少一个检测框中的每一个检测框的至少一个比值，所述至少一个检测框中同一检测框的至少一个比值包括所述同一检测框的重要性得分分别相对第二图像帧中的每一个检测框的重要性得分的比值，所述第二图像帧在时域上位于所述第一图像帧之前；

基于所述同一检测框的至少一个比值确定所述同一检测框对应的重要性代价，所述同一个检测框的重要性代价随所述至少一个比值中的比值的增加而减小。

在本申请的一些实施例中，所述确定单元320具体用于：

基于所述至少一个检测框和所述第一图像帧中的文本框的重叠情况，确定所述第一检测框。

在本申请的一些实施例中，所述确定单元320具体用于：

基于所述至少一个检测框和所述文本框的重叠情况，确定所述至少一个检测框分别对应的至少一个覆盖代价，所述至少一个检测框中的同一检测框对应的覆盖代价随覆盖面积的增加先减小后增加，所述覆盖面积为所述同一检测框和所述文本框的重叠面积；

基于至少一个覆盖代价确定所述第一检测框。

在本申请的一些实施例中，所述确定单元320具体用于：

基于所述至少一个检测框中的每一个检测框相对第二图像帧中的第二裁剪框的距离，确定所述第一检测框，所述第二图像帧在时域上位于所述第一图像帧之前。

在本申请的一些实施例中，所述确定单元320具体用于：

基于至少一个距离比值确定所述至少一个检测框分别对应的至少一个距离代价，所述至少一个距离比值为至少一个距离分别与所述第一图像帧第一边长的长度的比值，所述至少一个距离为所述至少一个裁剪框分别相对所述第二裁剪框的距离，所述第一边长平行于所述至少一个检测框的分布方向，所述至少一个检测框中的同一检测框对应的距离代价随所述同一检测框和所述第二裁剪框之间的距离的增加而增加；

基于所述至少一个距离代价确定所述第一检测框。

在本申请的一些实施例中，所述第一图像帧为经过去除边框或经过模糊处理的图像帧。

在本申请的一些实施例中，所述裁剪单元330还用于：

平滑或插值处理裁剪后的图像帧。

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图3所示的装置300可以对应于执行本申请实施例的方法200中的相应主体，并且装置300中的各个模块的前述和其它操作和/或功能分别为了实现图2中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置和系统。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图4是本申请实施例提供的电子设备400的示意性框图。

如图4所示，该电子设备400可包括：

存储器410和处理器420，该存储器410用于存储计算机程序411，并将该程序代码411传输给该处理器420。换言之，该处理器420可以从存储器410中调用并运行计算机程序411，以实现本申请实施例中的方法。

例如，该处理器420可用于根据该计算机程序411中的指令执行上述方法200中的步骤。

在本申请的一些实施例中，该处理器420可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器410包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序411可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器410中，并由该处理器420执行，以完成本申请提供的录制页面的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序411在该电子设备400中的执行过程。

如图4所示，该电子设备400还可包括：

收发器440，该收发器440可连接至该处理器420或存储器410。

其中，处理器420可以控制该收发器440与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器440可以包括发射机和接收机。收发器440还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备400中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

一种裁剪视频的方法，其特征在于，包括：

获取第一图像帧的至少一个检测框；

根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价；

其中，所述重要性得分用于表征所述检测框在所述第一图像帧中的重要程度，所述覆盖面积用于表征所述检测框和所述第一图像帧中的文本框的重叠面积，所述平滑距离用于表征所述检测框和所述第一图像帧的上一个图像帧的裁剪框之间的距离；

将所述至少一个检测框中代价最小的第一检测框确定为裁剪框；

基于所述裁剪框裁剪所述第一图像帧。
根据权利要求1所述的方法，其特征在于，所述根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价，包括：

基于所述检测框的重要性得分确定所述检测框的重要性代价；

其中，所述检测框的重要性代价随所述检测框的重要性得分的增加而减小；所述检测框的代价包括所述检测框的重要性代价。
根据权利要求2所述的方法，其特征在于，所述基于所述检测框的重要性得分确定所述检测框的重要性代价，包括：

确定所述检测框的第一比值，所述第一比值为所述检测框的重要性得分和所述第一图像帧的重要性得分的比值；

基于所述检测框的第一比值确定所述检测框的重要性代价，所述检测框的重要性代价随所述检测框的第一比值的增加而减小。
根据权利要求2所述的方法，其特征在于，所述基于所述检测框的重要性得分确定所述检测框的重要性代价，包括：

确定所述检测框的至少一个比值，所述检测框的至少一个比值包括所述检测框的重要性得分分别相对所述上一个图像帧中的每一个检测框的重要性得分的比值；

基于所述检测框的至少一个比值，确定所述检测框的重要性代价，所述检测框的重要性代价随所述至少一个比值中的比值的增加而减小。
根据权利要求2所述的方法，其特征在于，所述方法还包括：

通过显著性检测和/或人脸检测的方式，获取所述检测框的重要性得分。
根据权利要求1所述的方法，其特征在于，所述根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价，包括：

基于所述检测框和所述文本框的重叠面积，确定所述检测框的覆盖代价；

其中，所述检测框对应的覆盖代价随所述检测框的覆盖面积的增加先减小后增加；所述检测框的代价包括所述检测框的覆盖代价。
根据权利要求6所述的方法，其特征在于，所述文本框中包括所述第一图像中的文字或商标所在的区域。
根据权利要求1所述的方法，其特征在于，所述根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价，包括：

基于所述检测框的距离比值确定所述检测框的距离代价；

其中，所述检测框的距离比值为所述检测框的平滑距离与所述第一长度的比值，所述第一长度为所述第一图像帧的与第一连线平行的边长，所述第一连线为所述检测框和所述上一个图像帧的裁剪框形成的连线，所述检测框的距离代价随所述检测框的距离比值的增加而增加；所述检测框的代价包括所述检测框的距离代价。
根据权利要求1至8中任一项所述的方法，其特征在于，所述第一图像帧为经过去除边框或经过模糊处理的图像帧。
根据权利要求1至8中任一项所述的方法，其特征在于，所述方法还包括：

平滑或插值处理裁剪后的图像帧。
一种裁剪视频的装置，其特征在于，包括：

获取单元，用于获取第一图像帧的至少一个检测框；

确定单元，用于：

根据所述至少一个检测框中的任意一个检测框的重要性得分、覆盖面积以及平滑距离中的至少一项，确定所述检测框的代价；

其中，所述重要性得分用于表征所述检测框在所述第一图像帧中的重要程度，所述覆盖面积用于表征所述检测框和所述第一图像帧中的文本框的重叠面积，所述平滑距离用于表征所述检测框和所述第一图像帧的上一个图像帧的裁剪框之间的距离；

将所述至少一个检测框中代价最小的第一检测框确定为裁剪框；

裁剪单元，用于基于所述裁剪框裁剪所述第一图像帧。
一种电子设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至10中任一项所述的方法。
一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至10中任一项所述的方法。