WO2018133321A1

WO2018133321A1 - 一种生成镜头信息的方法和装置

Info

Publication number: WO2018133321A1
Application number: PCT/CN2017/089313
Authority: WO
Inventors: 宋磊
Original assignee: 华为技术有限公司
Priority date: 2017-01-20
Filing date: 2017-06-21
Publication date: 2018-07-26
Also published as: CN110169055B; CN110169055A; EP3565243A4; EP3565243A1; US20190364196A1

Abstract

本申请公开了一种生成镜头信息的方法，包括：对目标帧画面进行对象识别；若识别到目标帧画面对应的目标对象，根据目标对象在目标帧画面中占据的尺寸比例，确定目标帧画面对应的目标镜头类别；根据目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；其中，第一镜头片段由包括目标帧画面的第一组帧画面组成，第一组帧画面包括视频源中的多个连续的帧画面，第一组帧画面均对应于目标对象和目标镜头类别；第一镜头片段的镜头信息包括：目标对象的标识，目标镜头类别的标识，第一镜头片段在视频源中的位置标识。此外，本申请还公开了一种生成镜头信息的装置。

Description

一种生成镜头信息的方法和装置

本申请要求于2017年01月20号提交中国专利局、申请号为CN201710052627.5、发明名称为“一种按镜头效果做视频分类的方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据处理技术领域，特别是涉及一种生成镜头信息的方法和装置。

背景技术

随着越来越多地电子设备能够提供视频采集功能，用户能够越来越方便地录制视频。通常，对于原始采集到的视频源，用户还需要对其进行视频剪辑，从而得到符合用户需求的目标视频。在视频剪辑的过程中，从视频源中可以切割出许多镜头片段，这些镜头片段可以在重新组合之后通过二次编码生成目标视频。其中，用户需要花费大量的时间在视频源中寻找合适的镜头片段，因此，视频剪辑工作对于用户来说不够便捷。

发明内容

本申请所要解决的技术问题是，提供一种生成镜头信息的方法和装置，以能够为视频源中的镜头片段提供相关的镜头信息，以便镜头信息能够用于对镜头片段的查找，从而使得用户能够更为便捷地完成视频剪辑工作。

第一方面，提供了一种生成镜头信息的方法，包括：

对目标帧画面进行对象识别；

若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

根据所述目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

其中，所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；

所述第一镜头片段的镜头信息包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。

可选的，

在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。

可选的，还包括：

若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面；

根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

其中，所述第二镜头片段由包括所述目标帧画面在内的第二组帧画面组成，所述第二组帧画面包括所述视频源中的多个连续的帧画面，所述第二组帧画面均为无目标对象的帧画面；

所述第二镜头片段的镜头信息包括：用于表示无目标对象的标识，所述第二镜头片段在所述视频源中的位置标识。

可选的，所述第一镜头片段在所述视频源中的位置标识，包括：所述第一镜头片段的起始帧位置的标识，所述第一镜头片段的结束帧位置的标识。

可选的，

若所述尺寸比例属于第一比例范围，所述目标镜头类别为定场镜头；

若所述尺寸比例属于第二比例范围，所述目标镜头类别为全景镜头；

若所述尺寸比例属于第三比例范围，所述目标镜头类别为中景镜头；

若所述尺寸比例属于第四比例范围，所述目标镜头类别为近景镜头；

若所述尺寸比例属于第五比例范围，所述目标镜头类别为特写镜头；

若所述尺寸比例属于第六比例范围，所述目标镜头类别为大特写镜头；

其中，所述第一比例范围小于所述第二比例范围，所述第二比例范围小于所述第三比例范围，所述第三比例范围小于所述第四比例范围，所述第四比例范围小于所述第五比例范围，所述第五比例范围小于所述第六比例范围。

可选的，还包括：

接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识；

查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息；

按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。

第二方面，提供了一种生成镜头信息的装置，包括：

识别单元，用于对目标帧画面进行对象识别；

确定单元，用于若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

第一生成单元，用于根据所述目标帧画面对应的目标镜头类别和目标对象以及所述目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

其中，所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括所述视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；

可选的，

可选的，还包括：

标记单元，用于若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面；

第二生成单元，用于根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

可选的，

可选的，还包括：

接收单元，用于接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述第一目标镜头类别的标识；

查找单元，用于查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息；

反馈单元，用于按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。

第三方面，提供了一种电子设备，包括处理器以及与所述处理器连接的存储器；

所述存储器，用于存储程序指令和数据；

所述处理器，用于读取存储器中存储的指令和数据，执行以下操作：

对目标帧画面进行对象识别；

可选的，在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。

可选的，所述处理器还用于执行以下操作：

可选的，

可选的，所述电子设备还包括与所述处理器连接的收发器，所述处理器还用于执行以下操作：

触发所述收发器接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识；

在本申请中，通过识别视频源中的帧画面对应的目标对象并按照目标对象在帧画面中占据的尺寸比例识别帧画面对应的目标镜头类别，可以按照目标对象和目标镜头类别从视频源中识别出镜头片段，并为镜头片段生成可用于标记镜头片段对应的目标对象、镜头片段对应的目标镜头类别以及镜头片段在视频源中位置的镜头信息。因此，在视频剪辑工作中，通过镜头信息，用户可以利用目标对象和/或目标镜头类别简单快速地查找到相应的镜头片段，因此，用户花费更少的时间就可以查找到合适的镜头片段，从而能够更便捷地完成视频剪辑工作。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一应用场景所涉及的网络系统框架示意图；

图2为本申请实施例中一种生成镜头信息的方法的流程示意图；

图3为本申请实施例中一种以人物作为对象的不同镜头类别的帧画面示例的示意图；

图4为本申请实施例中一种生成镜头信息的方法的流程示意图；

图5为本申请实施例中一种查询镜头片段的方法的流程示意图；

图6为本申请实施例中一种生成镜头信息的装置的结构示意图；

图7为本申请实施例中一种电子设备的硬件结构示意图。

具体实施方式

发明人经过研究发现，在视频剪辑的过程中，用户需要花费大量的时间在视频源中寻找合适的镜头片段，这导致视频剪辑工作对于用户来说不够便捷。基于此，在本申请实施例中，为了方便用户能够快速到查找合适的镜头片段，可以对视频源进行如下的处理：识别视频源中的帧画面对应的目标对象并按照目标对象在帧画面中占据的尺寸比例识别帧画面对应的目标镜头类别，若在连续的一组帧画面中均能识别到目标对象并且均对应于相同的目标镜头类别，则以这组连续的帧画面作为镜头片段，生成该镜头片段的镜头信息。其中，该镜头信息包括：目标对象标识、目标镜头类别标识及第一镜头片段对应的位置标识。经过以上的处理后，当用户需要使用视频源中的镜头片段时，通过该镜头信息，用户可以利用目标对象和/或目标镜头类别简单快速地查找到相应的镜头片段，因此，用户花费更少的时间就可以查找到合适的镜头片段，从而能够更便捷地完成视频剪辑工作。

举例来说，本申请实施例例如可以应用到如图1所示的场景。在该场景中，用户101可以通过与终端102交互，实现视频的拍摄工作和剪辑工作。具体地，在用户101操作终端102拍摄视频之后，终端102采集到了视频源。以视频源中的各个帧画面依次作为目标帧画面，终端102可以执行以下的操作：对目标帧画面进行对象识别；若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定该目标帧画面对应的目标镜头类别；根据所述目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；其中所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；所述第一镜头片段的镜头信息包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。在视频源中的所有帧画面均处理完之后，视频源中各个镜头片段的镜头信息都保存在终端102中。当用户101需要在终端102中查询镜头片段时，可以在终端102上选择目标对象和/或目标镜头类别，终端102可以根据镜头信息查找到与目标对象和/或目标镜头类别相对应的镜头片段并呈现给用户101。

可以理解的是，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中一种生成镜头信息的方法和装置的具体实现方式。

参考图2，示出了本申请实施例中一种生成镜头信息的方法的流程示意图。可以理解的是，视频剪辑是对视频源中不同的镜头片段进行重新混合，这就需要按照镜头片段对视频源进行切割、合并及二次编码，从而生成具有不同表现力的新视频。其中，对视频源进行切割的前提是要使用户能够在视频源中找到相对应的镜头片段。在本实施例中，为了方便用户查找到所需的镜头片段，在进行剪辑工作之前，可以对视频源中的各个帧画面进行处理以确定各个帧画面所属的镜头片段，从而生成用于查找镜头片段的镜头信息。其中，视频源是由一系列的帧画面组成的，因此，对于视频源中的任意一个帧画面，可以作为目标帧画面执行以下的步骤201～203。

201、对目标帧画面进行对象识别。

本实施例中，从目标帧画面中所要识别出的对象，可以是人物，或者也可以是除人物以外的其他对象，如动物、植物、飞机、汽车、坦克、桌子、椅子等。

其中，若人物作为识别对象，可以通过人脸识别技术对目标帧画面进行人脸识别，从而将识别到的人脸作为识别到的人物对象；若以除人物之外的其它对象作为识别对象，可以依据所需识别的对象的相关特征，采用相应的对象识别技术对目标帧画面中进行对象识别。

本实施例中，目标帧画面的对象识别是用于识别目标帧画面对应的目标对象。其中，目标对象可以理解成目标帧画面所要描述的对象。可以理解的是，目标帧画面对应的目标对象属于目标帧画面中识别出的对象，但目标帧画面中识别出的所有对象并不一定都是目标帧画面对应的目标对象。为了识别目标帧画面对应的目标对象，目标帧画面中的对象识别结果可以包括以下三种情况：

1)目标帧画面中识别不到任何对象，此时目标帧画面中识别不到目标帧画面对应的目标对象；

2)目标帧画面中仅识别出一个对象，该对象即是目标帧画面对应的目标帧对象；

3)目标帧画面中识别出多个对象，此时还可以从多个对象中确定目标帧画面对应的目标对象。

作为一种示例，对于上述情况3)，目标帧画面对应的目标对象可以依据目标帧画面的前一帧画面确定。具体的，在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。

举例说明：当用户在拍摄人物A时，一开始镜头画面中只有人物A，但后来镜头画面中出现了一些路过的路人，但此时镜头画面所要描述的目标对象还是人物A。在这种情况下，在对有些目标帧画面进行对象识别时，在目标帧画面中会识别出多个人物，此时可以参照目标帧画面的前一帧画面对应的目标对象来确定目标帧画面对应的目标对象。由于前一帧画面对应的目标对象为人物A，并且，人物A包含在目标帧画面中识别出的对象中，因此，目标帧画面对应的目标对象可以确定为人物A。

作为另一种示例，对于上述情况3)，目标帧画面对应的目标对象可以依据目标帧画面的后一帧画面确定。具体地，在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的后一帧画面对应的对象，则所述目标对象为所述后一帧画面对应的对象。

举例说明：当用户在拍摄人物A时，一开始镜头画面中就出现了包含人物A在内的多个人物，后来镜头画面中慢慢转移到只拍摄人物A，可见，该镜头画面实际所要描述的对象是人物A。在这种情况下，在对有些目标帧画面进行识别时，在目标帧画面中会识别出多个人物，此时可以参照目标帧画面的后一帧画面对应的目标对象来确定目标帧画面对应的目标对象。由于后一帧画面对应的目标对象为人物A，并且，人物A包含在目标帧画面中识别出的对象中，因此，目标帧画面中对应的目标对象可以确定为人物A。

作为又一种示例，对于上述情况3)，目标帧画面对应的目标对象可以依据目标帧画面的前一帧画面和后一帧画面确定。具体地，在所述目标帧画面中识别出多个对象的情况下，若所述目标帧画面的前一帧画面对应的对象和所述目标帧画面的后一帧画面对应的对象均为对象A且所述多个对象中存在对象A，则所述目标对象为对象A。

此外，对于上述情况3)，虽然目标帧画面中识别到了多个对象，但有可能从所述多个对象中无法确定目标帧画面所要描述的目标对象。因此，在目标帧画面中识别到多个对象的情况下也有可能目标帧画面中识别不到目标对象。

202、若识别到所述目标帧画面对应的目标对象，根据目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别。

本实施例中，镜头指的是影片的一个基本构成单位。镜头类别可以包括：定场镜头、全景镜头、中景镜头、近景镜头、特写镜头、大特写镜头等。其中，目标镜头类别可以是上述提及的任意一种镜头类别。

图3示出了一种以人物作为对象的不同镜头类别的帧画面示例的示意图。定场镜头还可以理解为主镜头，通常是位于影片一开始或一场戏的开头、用于明确交待地点的镜头，例如可以是一种视野宽阔的远景镜头。全景镜头，主要用于表现人物全身，其中，人物在全景镜头中具有较大的活动范围，体型、衣着打扮、身份在全景镜头中能够交代得比较清楚，环境、道具在全景镜头中也能够清楚地展现，通常在拍内景时全景镜头可以作为摄像的总角度的景别。中景镜头相对于全景镜头所能包容的景物范围有所缩小，人物所处于的环境在中景镜头中处于次要地位，中景镜头的重点在于表现人物的上身动作。近景镜头能清楚地展现人物的细微动作并能着重表现人物的面部表情，因此，近景镜头能传达人物的内心世界，是刻画人物性格最有力的镜头。特写镜头用于拍摄人像的面部、人体的某一局部或一件物品的某一细部的镜头。在大特写镜头中拍摄对象的某个细部占满整个画面的镜头。

本实施例中，目标对象在目标帧画面中占据的尺寸比例，可以是目标对象整体的面积与目标帧画面尺寸的比例，或者也可以是目标对象的某个部分的面积与目标帧画面尺寸的比例。

举例说明：假设目标对象为人物A，人物A在目标帧画面中占据的尺寸比例，可以是人物A的人脸面积占目标帧画面的尺寸比例。因此，人物A在目标画面中占据的尺寸比例可以通过以下方式计算：首先分析人物A的人脸轮廓并基于分析出的人脸轮廓确定人物A的人脸面积以及目标帧画面的尺寸，然后，可以以人脸面积除以目标帧画面的尺寸，所得到的比例即为人物A在目标帧画面中占据的尺寸比例。其中，人脸面积例如可以是人脸占据的像素面积，目标帧画面的尺寸例如可以是目标帧画面的像素尺寸。

作为一种示例，可以通过为不同的镜头类别设置相应的尺寸比例范围来确定目标帧画面对应的目标镜头类别。例如，可以为定场镜头设置第一比例范围，则若所述尺寸比例属于第一比例范围，所述目标镜头类别为定场镜头。又如，可以为全景镜头设置第二比例范围，则若所述尺寸比例属于第二比例范围，所述目标镜头类别为全景镜头。再如，可以为中景镜头设置第三比例范围，则若所述尺寸比例属于第三比例范围，所述目标镜头类别为中景镜头。再如，可以为近景镜头设置第四比例范围，则若所述尺寸比例属于第四比例范围，所述目标镜头类别为近景镜头。再如，可以为特写镜头设置第五比例范围，则若所述尺寸比例属于第五比例范围，所述目标镜头类别为特写镜头。再如，可以为大特写镜头设置第六比例范围，则若所述尺寸比例属于第六比例范围，所述目标镜头类别为大特写镜头。其中，所述第一比例范围小于所述第二比例范围，所述第二比例范围小于所述第三比例范围，所述第三比例范围小于所述第四比例范围，所述第四比例范围小于所述第五比例范围，所述第五比例范围小于所述第六比例范围。

举例说明：假设在目标帧画面中识别出的目标对象是人物A，人物A的人脸面积为s，目标帧画面的尺寸为q，则人脸面积占该目标帧画面的尺寸比例为r＝s/q。若r<0.01，目标帧画面对应的目标镜头类别可以为定场镜头；若0.01≤r≤0.02时，目标镜头可以为全景镜头；若0.02≤r≤0.1，目标镜头可以为中景镜头；若0.1≤r≤0.2，则目标镜头为近景镜头；若0.2≤r≤0.33，目标镜头可以为特写镜头；若r≥0.75，该目标镜头可以为大特写镜头。可见，在该示例中，第一比例范围为r<0.01，第二比例范围为0.01≤r≤0.02，第三比例范围为0.02≤r≤0.1，第四比例范围为0.1≤r≤0.2，第五比例范围为0.2≤r≤0.33，第六比例范围为r≥0.75。

203、根据所述目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

可以理解的是，所述第一镜头片段在所述视频源中的位置标识例如可以包括：所述第一镜头片段的起始帧位置的标识，和/或，所述第一镜头片段的结束帧位置的标识。所述目标对象的标识可以用于区分不同的对象，不同的对象可以采用不同的数字、字母或者符号作为标识。所述目标镜头类别的标识可以用于区分不同的镜头类别，不同的镜头类别可以采用不同的数字、字母或者符号表示。

举例说明：假设目标对象为人物，对视频源中每一帧画面执行201～203之后，可以得到视频源中各个镜头片段的镜头信息：

镜头1：人物A,从第n1帧～第n2帧；

镜头2：人物B,从第n3帧～第n4帧；

镜头3：人物C,从第n5帧～第n6帧；

镜头4：人物A,从第n7帧～第n8帧；

…….

其中，镜头1、镜头2、镜头3和镜头4分别表示四个不同的目标镜头类别；人物A、人物B、人物C分别表示三个不同的目标对象；从第n1帧～第n2帧、从第n3帧～第n4帧、从第n5帧～第n6帧、从第n7帧～第n8帧分别表示四个不同的镜头片段在视频源中的位置。

作为一种示例，在对目标帧画面进行识别之后，可以为目标帧画面进行信息标记，在视频源的帧画面都标记之后，再基于各个帧画面的标记信息生成第一镜头片段的镜头信息。

其中，目标帧画面的标记信息可以包括：目标镜头类别的标识、目标对象的标识以及目标帧画面在视频源中的位置。例如：目标帧画面的标记信息可以为{n,a,X}。其中，n表示该目标帧画面的位置，即目标帧画面是视频源中的第n帧画面；a表示识别出来的目标对象，假设识别出的目标对象为人物A则a具体可以为A，假设识别出的目标对象为人物B则a具体可以为B；X表示识别出来的目标镜头类别。

可以理解的是，视频源中的一个镜头片段是由视频源中一组连续的帧画面组成的，这些帧画面以相同的镜头类别描述同一个对象。因此，根据视频源中各个帧画面的标记信息，可将对应于同一目标对象和同一目标镜头类别的一组连续的帧画面组成一个镜头片段，镜头片段在视频源中的位置即可以为这一组连续的帧画面在视频源中占据的位置。

需要说明的是，在实际应用时，在为视频源中每一帧画面都确定了对应的目标对象和目标镜头类别之后才能够确定视频源中所包含的镜头片段，因此可以依次对视频源中的每一帧画面分别执行201～202的步骤，然后基于整个视频源中每一帧画面所在的位置、所对应的目标对象和目标镜头类别，确定视频源中所包含的各个镜头片段，再为各个镜头片段生成镜头信息。

可以理解的是，在目标帧画面进行对象识别时，有可能会存在识别不到目标对象的情况。当目标帧画面识别不到目标对象时，无法根据目标对象将目标帧画面划分到镜头片段中。为了使得识别不到目标对象的目标帧画面能够划分到特定的镜头片段中，以便于用户对这些镜头片段进行查找，在本实施例的一些实施方式中，如图4所示，在201之后，该方法还可以包括：

301、若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面。

302、根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

需要说明的是，对于识别不到目标画面对应的目标对象，可以包括两种情况：一种是目标帧画面中不存在任何对象；另外一种是，目标帧画面中存在多个对象，但是无法从所述多个对象中确定出目标帧画面对应的目标对象。

举例说明：用户在视频录制的过程中，有一段时间没有拍摄人物仅仅拍摄的风景，还有一段时间拍摄了包含多个人的场景但无法从多个人中确定出镜头所要描述的目标人物。可见，在这两段时间下产生的帧画面，无法识别出帧画面对应的目标对象，此时，可以将多个连续的、无法识别到目标对象的帧画面作为第二镜头片段，生成相应的第二镜头片段信息。

本实施例中，为镜头片段生成的镜头信息可以用于用户的视频剪辑工作。在用户的视频剪辑工作中，用户可以通过目标对象和/或目标镜头类别查询到相应的镜头片段，从而大大提高了用户查询镜头片段的效率。具体地，在一些实施方式中，如图5所示，在203之后，该方法还可以包括：

401、接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识。

具体实现时，当用户为了查询镜头片段而输入输入相应的目标对象和/或目标镜头类别时，可以生成具有目标对象的标识和/或第一目标镜头类别的标识的查询指令。其中，所要查询的镜头片段的镜头类别为目标镜头类别，所要查询的镜头片段对应于目标对象。

402、查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息。

由203可知，所述第一镜头片段的镜头信息可以包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。因此，在查找具有所述查询标识的镜头信息时，可以查找到第一镜头片段的镜头信息。

403、按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。

通过目标对象的标识和/或第一目标镜头类别的标识，找到第一镜头片段的镜头信息，进而可以从该镜头信息中获知第一镜头片段的位置信息。

作为一种示例，第一镜头片段的镜头信息可以理解为一种对应关系。在该对应关系中，目标对象的标识、目标镜头类别的标识和第一镜头片段在视频源中的位置标识之间相互对应。因此，根据目标对象的标识和/或目标镜头类别的标识，就可以在该对应关系中查找到第一镜头片段在该视频源中的位置标识，从而将第一镜头片段提供给用户，从而方便了用户在视频源中对镜头片段进行查找。

除此之外，当用户想要查询第二镜头片段时，而第二镜头片段没有对应的目标对象，则可以用户通过无目标对象的标识进行查询，得到第二镜头片段的镜头信息，并按照第二镜头信息中包括的该第二镜头片段在视频源中的位置标识，反馈该第二镜头片段。

本实施例中，通过识别视频源中的帧画面对应的目标对象并按照目标对象在帧画面中占据的尺寸比例确定帧画面对应的目标镜头类别，然后可以按照目标对象和目标镜头类别从视频源中识别出镜头片段，并为镜头片段生成可用于标记镜头片段对应的目标对象、镜头片段对应的目标镜头类别以及镜头片段在视频源中位置的镜头信息。因此，在视频剪辑工作中，通过镜头信息，用户可以利用目标对象和/或目标镜头类别简单快速地查找到相应的镜头片段，因此，用户花费更少的时间就可以查找到合适的镜头片段，从而更便捷的完成视频剪辑工作。

参见图6，示出了本申请实施例中一种生成镜头信息的装置的结构示意图。在本实施例中，所述装置例如可以包括：

识别单元601，用于对目标帧画面进行对象识别；

确定单元602，用于若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

第一生成单元603，用于根据所述目标帧画面对应的目标镜头类别和目标对象以及所述目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

可选的，所述装置还包括：

可选的，

可选的，所述装置还包括：

通过本实施例提供的装置，在视频剪辑工作中，通过所生成的镜头信息，用户可以利用目标对象和/或目标镜头类别简单快速地查找到相应的镜头片段，因此，用户花费更少的时间就可以查找到合适的镜头片段，从而更便捷的完成视频剪辑工作。

参见图7，示出了本申请实施例中一种电子设备的硬件结构示意图。所述电子设备700包括处理器701以及与所述处理器701连接的存储器702。

所述存储器702，用于存储程序指令和数据。

所述处理器701，用于读取存储器702中存储的指令和数据，执行以下操作：

对目标帧画面进行对象识别；

可选的，所述处理器701还用于执行以下操作：

可选的，

可选的，所述电子设备还包括与所述处理器701连接的收发器703，所述处理器701还用于执行以下操作：

触发所述收发器703接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识；

可选的，所述电子设备700具体可以为手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Point of Sales，POS)、车载电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机或大型计算机等。所述处理器701可以为中央处理器(central processing unit，CPU)，网络处理器或其组合。处理器701还可以包括硬件芯片。所述存储器702可以为随机存取存储器(random access memory，RAM)、只读存储器(ROM)、硬盘、固态硬盘、闪存、光盘或其任意组合。所述收发器703可以包括有线物理接口、无线物理接口或其组合。所述有线物理接口可以为电接口、光接口或其组合，例如为以太网接口或异步传输模式(Asynchronous Transfer Mode，ATM)接口。所述无线物理接口可以为无线局域网接口、蜂窝移动网络接口或其组合。所述处理器701、所述存储器702和所述收发器703可以集成在一个或多个独立的电路中。

本申请实施例中提到的“第一镜头片段”、“第一比例范围”、“第一生成单元”等名称中的“第一”只是用来做名字标识，并不代表顺序上的第一。该规则同样适用于“第二”等。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器(英文：read-only memory，ROM)/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

一种生成镜头信息的方法，其特征在于，包括：

对目标帧画面进行对象识别；

若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

根据所述目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

其中，所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；

所述第一镜头片段的镜头信息包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。
根据权利要求1所述的方法，其特征在于，

在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。
根据权利要求1所述的方法，其特征在于，还包括：

若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面；

根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

其中，所述第二镜头片段由包括所述目标帧画面在内的第二组帧画面组成，所述第二组帧画面包括所述视频源中的多个连续的帧画面，所述第二组帧画面均为无目标对象的帧画面；

所述第二镜头片段的镜头信息包括：用于表示无目标对象的标识，所述第二镜头片段在所述视频源中的位置标识。
根据权利要求1所述的方法，其特征在于，所述第一镜头片段在所述视频源中的位置标识，包括：所述第一镜头片段的起始帧位置的标识，所述第一镜头片段的结束帧位置的标识。
根据权利要求1所述的方法，其特征在于，

若所述尺寸比例属于第一比例范围，所述目标镜头类别为定场镜头；

若所述尺寸比例属于第二比例范围，所述目标镜头类别为全景镜头；

若所述尺寸比例属于第三比例范围，所述目标镜头类别为中景镜头；

若所述尺寸比例属于第四比例范围，所述目标镜头类别为近景镜头；

若所述尺寸比例属于第五比例范围，所述目标镜头类别为特写镜头；

若所述尺寸比例属于第六比例范围，所述目标镜头类别为大特写镜头；

其中，所述第一比例范围小于所述第二比例范围，所述第二比例范围小于所述第三比例范围，所述第三比例范围小于所述第四比例范围，所述第四比例范围小于所述第五比例范围，所述第五比例范围小于所述第六比例范围。
根据权利要求1所述的方法，其特征在于，还包括：

接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识；

查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息；

按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。
一种生成镜头信息的装置，其特征在于，包括：

识别单元，用于对目标帧画面进行对象识别；

确定单元，用于若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

第一生成单元，用于根据所述目标帧画面对应的目标镜头类别和目标对象以及所述目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

其中，所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括所述视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；

所述第一镜头片段的镜头信息包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。
根据权利要求7所述的装置，其特征在于，

在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。
根据权利要求7所述的装置，其特征在于，还包括：

标记单元，用于若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面；

第二生成单元，用于根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

其中，所述第二镜头片段由包括所述目标帧画面在内的第二组帧画面组成，所述第二组帧画面包括所述视频源中的多个连续的帧画面，所述第二组帧画面均为无目标对象的帧画面；

所述第二镜头片段的镜头信息包括：用于表示无目标对象的标识，所述第二镜头片段在所述视频源中的位置标识。
根据权利要求7所述的装置，其特征在于，所述第一镜头片段在所述视频源中的位置标识，包括：所述第一镜头片段的起始帧位置的标识，所述第一镜头片段的结束帧位置的标识。
根据权利要求7所述的装置，其特征在于，

若所述尺寸比例属于第一比例范围，所述目标镜头类别为定场镜头；

若所述尺寸比例属于第二比例范围，所述目标镜头类别为全景镜头；

若所述尺寸比例属于第三比例范围，所述目标镜头类别为中景镜头；

若所述尺寸比例属于第四比例范围，所述目标镜头类别为近景镜头；

若所述尺寸比例属于第五比例范围，所述目标镜头类别为特写镜头；

若所述尺寸比例属于第六比例范围，所述目标镜头类别为大特写镜头；

其中，所述第一比例范围小于所述第二比例范围，所述第二比例范围小于所述第三比例范围，所述第三比例范围小于所述第四比例范围，所述第四比例范围小于所述第五比例范围，所述第五比例范围小于所述第六比例范围。
根据权利要求7所述的装置，其特征在于，还包括：

接收单元，用于接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述第一目标镜头类别的标识；

查找单元，用于查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息；

反馈单元，用于按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。
一种电子设备，其特征在于，包括处理器以及与所述处理器连接的存储器；

所述存储器，用于存储程序指令和数据；

所述处理器，用于读取存储器中存储的指令和数据，执行以下操作：

对目标帧画面进行对象识别；

若识别到所述目标帧画面对应的目标对象，根据所述目标对象在所述目标帧画面中占据的尺寸比例，确定所述目标帧画面对应的目标镜头类别；

根据所述目标帧画面对应的目标镜头类别和目标对象以及目标帧画面在视频源中的位置，生成第一镜头片段的镜头信息；

其中，所述第一镜头片段由包括所述目标帧画面的第一组帧画面组成，所述第一组帧画面包括视频源中的多个连续的帧画面，所述第一组帧画面均对应于所述目标对象和所述目标镜头类别；

所述第一镜头片段的镜头信息包括：所述目标对象的标识，所述目标镜头类别的标识，所述第一镜头片段在所述视频源中的位置标识。
根据权利要求13所述的电子设备，其特征在于，

在所述目标帧画面中识别出多个对象的情况下，若所述多个对象中存在所述目标帧画面的前一帧画面对应的对象，则所述目标对象为所述前一帧画面对应的对象。
根据权利要求13所述的电子设备，其特征在于，所述处理器还用于执行以下操作：

若识别不到所述目标帧画面对应的目标对象，将所述目标帧画面标记为无目标对象的帧画面；

根据所述无目标对象的帧画面，生成第二镜头片段的镜头信息；

其中，所述第二镜头片段由包括所述目标帧画面在内的第二组帧画面组成，所述第二组帧画面包括所述视频源中的多个连续的帧画面，所述第二组帧画面均为无目标对象的帧画面；

所述第二镜头片段的镜头信息包括：用于表示无目标对象的标识，所述第二镜头片段在所述视频源中的位置标识。
根据权利要求13所述的电子设备，其特征在于，所述第一镜头片段在所述视频源中的位置标识，包括：所述第一镜头片段的起始帧位置的标识，所述第一镜头片段的结束帧位置的标识。
根据权利要求13所述的电子设备，其特征在于，

若所述尺寸比例属于第一比例范围，所述目标镜头类别为定场镜头；

若所述尺寸比例属于第二比例范围，所述目标镜头类别为全景镜头；

若所述尺寸比例属于第三比例范围，所述目标镜头类别为中景镜头；

若所述尺寸比例属于第四比例范围，所述目标镜头类别为近景镜头；

若所述尺寸比例属于第五比例范围，所述目标镜头类别为特写镜头；

若所述尺寸比例属于第六比例范围，所述目标镜头类别为大特写镜头；

其中，所述第一比例范围小于所述第二比例范围，所述第二比例范围小于所述第三比例范围，所述第三比例范围小于所述第四比例范围，所述第四比例范围小于所述第五比例范围，所述第五比例范围小于所述第六比例范围。
根据权利要求13所述的电子设备，其特征在于，所述电子设备还包括与所述处理器连接的收发器，所述处理器还用于执行以下操作：

触发所述收发器接收镜头片段的查询指令，所述查询指令中携带有查询标识，所述查询标识包括所述目标对象的标识和/或所述目标镜头类别的标识；

查找具有所述查询标识的镜头信息，得到所述第一镜头片段的镜头信息；

按照所述第一镜头片段的镜头信息中所述第一镜头片段在所述视频源中的位置标识，反馈所述第一镜头片段。