WO2022002214A1

WO2022002214A1 - 一种视频剪辑方法、装置、计算机可读存储介质及相机

Info

Publication number: WO2022002214A1
Application number: PCT/CN2021/104072
Authority: WO
Inventors: 符峥; 蔡锦霖; 姜文杰
Original assignee: 影石创新科技股份有限公司
Priority date: 2020-07-02
Filing date: 2021-07-01
Publication date: 2022-01-06
Also published as: CN111918127B; CN111918127A

Abstract

本申请适用于视频处理领域，提供了一种视频剪辑方法、装置、计算机可读存储介质及相机。所述视频剪辑方法包括：获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；根据所述声音数据和所述目标信息确定声源目标；根据所述声源目标生成剪辑的包括所述声源目标的平面视频。本申请实现难度小，在室内等嘈杂环境下，可以降低环境噪声与室内混响对定位的影响，定位精度高，鲁棒性强，且能基于声源目标进行自动剪辑，视频剪辑效果好；此外，通过本申请实施例在进行声源目标定位时，仅需1个麦克风即可进行准确定位，成本较低，大大减少视频剪辑的难度与成本。

Description

一种视频剪辑方法、装置、计算机可读存储介质及相机

技术领域

本申请属于视频处理领域，尤其涉及一种视频剪辑方法、装置、计算机可读存储介质及相机。

背景技术

随着摄像与声音采集硬件设备的不断发展，视频会议系统逐渐成为人们日常生活工作中交流沟通的重要渠道。在视频会议中，通常需要同时获取主讲人的图像与声音，并在播放设备上同时播放并记录到存储设备中，或将声音转换成文字便于整理。由于会议可能存在多个主讲人，因此视频会议系统通常需要具备获得不同角度视频图像和声音的功能。

传统视频会议系统通过设置多个摄像头采集视频图像，同时配备多个麦克风获取声音。在视频会议系统的播放设备中，为了让收看会议视频的与会人员将注意力集中在主讲者上，需要将视频转换成以主讲者为中心视角的平面视频，并记录主讲者的内容；当主讲者由一人转换至另一人时，视频视角也随之切换至新主讲者。这一过程一般通过声源定位实现。

技术问题

现有技术方案通过麦克风阵列采集会议现场的声音并对声源定位，获得声源的位置信息，成本较高，且在室内环境下，受麦克风位置、环境噪声与室内混响等因素的影响，会导致定位误差，影响视频剪辑效果，用户体验不佳。本申请实施例在于提供一种视频剪辑方法、装置、计算机可读存储介质、计算机设备及相机，旨在解决上述技术问题之一。

技术解决方案

本发明所揭示的折叠杆的一个具体方案如下：

第一方面，本申请实施例提供了一种视频剪辑方法，所述方法包括：

获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；

对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；

根据所述声音数据和所述目标信息确定声源目标；

根据所述声源目标生成剪辑的包括所述声源目标的平面视频。

进一步地，所述获取声音数据和与所述声音数据对应的视频数据具体为：

获取声音数据和与所述声音数据对应的平面视频；

或者，获取声音数据和与所述声音数据对应的全景视频；

根据所述全景视频生成与所述声音数据对应的平面视频。

进一步地，所述目标信息包括目标对应的平面视频帧和目标的位置信息；

所述根据所述声音数据和所述目标信息确定声源目标具体为：

根据所述声音数据和所述目标对应的平面视频帧确定声源目标。

进一步地，获取所述目标对应的平面视频帧具体为：

通过目标检测算法获得目标的位置信息，并根据目标的位置信息和预设的图像大小从所述声音数据对应的平面视频帧中截取包括目标的平面视频帧。

进一步地，所述目标的位置信息通过以下方式获取：

采用目标检测算法检测所述平面视频帧的所有目标，并用矩形框来表示每一个目标，通过所述矩形框坐标来确定目标的位置信息。

进一步地，所述根据所述声音数据和所述目标信息确定声源目标具体为：

分别将所述声音数据和一个或多个所述目标对应的平面视频帧输入预先训练完成的机器学习模型，由机器学习模型输出与所述声音数据对应的声源目标。

获取连续的一段声音数据和与所述声音数据对应的视频数据；

所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还包括：

获取当前时刻的平面视频帧；

判断所述当前时刻的平面视频帧是否有对应的声音数据，如果是，则返回所述对所述声音数据对应的平面视频帧进行目标检测的步骤，如果没有，则根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频。

进一步地，所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频或者所述根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频具体为：

根据所述声源目标确定所述声源目标对应的平面视频帧；

将声源目标对应的平面视频帧作为剪辑视频的视频帧进行剪辑，生成剪辑的包括所述声源目标的平面视频；

或者，根据所述声源目标确定所述声源目标的位置信息；

根据所述声源目标的位置信息生成剪辑的包括所述声源目标的平面视频。

进一步地，所述将声源目标对应的平面视频帧作为剪辑视频的视频帧进行剪辑具体为：

将每一时刻的声源目标对应的平面视频帧按顺序拼接，生成剪辑的平面视频。

进一步地，所述将每一时刻的声源目标对应的平面视频帧按顺序拼接，生成剪辑的平面视频具体为：

将每一时刻的声源目标对应的平面视频帧按顺序拼接，剪辑时对声源目标对应的平面视频帧进行缩放以使所述声源目标对应的所有平面视频帧的大小相等，用黑色像素填充声源目标对应的平面视频帧无法覆盖的区域，生成剪辑的平面视频。

进一步地，所述根据所述声源目标的位置信息生成剪辑的包括所述声源目标的平面视频具体为：

根据所述声源目标的位置信息，对平面视频帧进行投影变换与剪辑，使声源目标处于视频画面的中心位置，生成剪辑的平面视频。

进一步地，所述对所述声音数据对应的平面视频帧进行目标检测之后，所述方法还包括：

采用目标跟踪算法为所述目标提供唯一身份标记；

采用目标跟踪算法监测所有目标，并追踪每个目标的位置变化，记录每个目标的唯一身份标记和相应的位置信息；

所述根据所述声源目标确定所述声源目标的位置信息具体为：

根据记录的每个目标的唯一身份标记和相应的位置信息以及所述声源目标对应的唯一身份标记确定所述声源目标的位置信息。

第二方面，本申请实施例提供了一种视频剪辑装置，所述装置包括：

生成模块，用于获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；

目标检测模块，用于对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；

声源目标确定模块，用于根据所述声音数据和所述目标信息确定声源目标；

剪辑模块，用于根据所述声源目标生成剪辑的包括所述声源目标的平面视频。

本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如所述的视频剪辑方法的步骤。

第三方面，本申请实施例提供了一种计算机设备，包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述处理器和所述存储器通过总线连接，其中所述一个或多个计算机程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述处理器执行所述计算机程序时实现如所述的视频剪辑方法的步骤。

第四方面，本申请实施例提供了一种相机，包括：

一个或多个处理器；

存储器；以及

有益效果

在本申请实施例中，由于对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；根据所述声音数据和所述目标信息确定声源目标；根据所述声源目标生成剪辑的包括所述声源目标的平面视频。因此本申请实现难度小，在室内等嘈杂环境下，可以降低环境噪声与室内混响对定位的影响，定位精度高，鲁棒性强，且能基于声源目标进行自动剪辑，视频剪辑效果好；此外，通过本申请实施例在进行声源目标定位时，仅需1个麦克风即可进行准确定位，成本较低，大大减少视频剪辑的难度与成本。

附图说明

图1是本申请一实施例提供的视频剪辑方法的应用场景示意图。

图2是本申请一实施例提供的视频剪辑方法的流程图。

图3是本申请一实施例提供的视频剪辑装置示意图。

图4是本申请一实施例提供的计算机设备的具体结构框图。

图5是本申请一实施例提供的相机的具体结构框图。

本发明的实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

本申请一实施例提供的视频剪辑方法的应用场景可以是计算机设备或相机，计算机设备或相机执行本申请一实施例提供的视频剪辑方法生成剪辑的包括声源目标的平面视频。本申请一实施例提供的视频剪辑方法的应用场景也可以包括相连接的计算机设备100和相机200（如图1所示）。计算机设备100和相机200中可运行至少一个的应用程序。计算机设备100可以是台式计算机、移动终端等，移动终端包括手机、平板电脑、笔记本电脑、个人数字助理等。相机200可以是普通的相机或者全景相机等。普通的相机是指用于拍摄平面图像和平面视频的拍摄装置。计算机设备100或者是相机200执行本申请一实施例提供的视频剪辑方法生成剪辑的包括声源目标的平面视频。

请参阅图2，是本申请一实施例提供的视频剪辑方法的流程图，本实施例主要以该视频剪辑方法应用于计算机设备或相机为例来举例说明，本申请一实施例提供的视频剪辑方法包括以下步骤：

S101、获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧。

在本申请一实施例中，所述获取声音数据和与所述声音数据对应的视频数据具体可以为：

获取声音数据和与所述声音数据对应的平面视频；

或者，获取声音数据和与所述声音数据对应的全景视频；

根据所述全景视频生成与所述声音数据对应的平面视频。

在本申请一实施例中，全景视频为全景相机拍摄的或者是由电脑软件生成的原始球面全景视频。

所述根据所述全景视频生成与所述声音数据对应的平面视频具体可以为：将所述原始球面全景视频转化成与所述声音数据对应的全景平面视频。

所述将所述原始球面全景视频转化成与所述声音数据对应的全景平面视频具体可以为：将原始球面全景视频投影至平面得到与所述声音数据对应的全景平面视频。

全景相机为具有麦克风的全景相机，麦克风的数量可为1个；声音数据为全景相机的麦克风获取的原始声音数据。成本较低，大大减少会议系统配置的难度与成本。

全景相机拍摄全景视频时，拍摄场景可以设置为会议场景，当然也可以为其他任意场景。

S102、对所述声音数据对应的平面视频帧进行目标检测，获取目标信息。

在本申请一实施例中，所述目标是所述全景平面视频帧中的人或物体；所述目标信息包括目标对应的平面视频帧和目标的位置信息。例如在会议场景中，目标对应的平面视频帧是指所有包含人的平面视频帧，目标的位置信息是指所有人的位置信息。

获取所述目标对应的平面视频帧具体可以为：

通过目标检测算法（例如HOG算法（Histogram of Oriented Gridient，方向梯度直方图）或CNN算法（Convolutional Neural Network，卷积神经网络）等）获得目标的位置信息，并根据目标的位置信息和预设的图像大小从所述声音数据对应的平面视频帧中截取包括目标的平面视频帧。预设的图像大小具体可以为常见的图像分辨率，例如640 x 480；1024 x 768；1600 x 1200；2048 x 1536等。HOG算法能够很好地描述局部目标区域的特征，是一种常用的特征提取方法；CNN算法通常包含数据输入层、卷积计算层、ReLU激活层、池化层和全连接层（INPUT-CONV-RELU-POOL-FC），是由卷积运算来代替传统矩阵乘法运算的神经网络。

所述目标的位置信息可以通过以下方式获取：

S103、根据所述声音数据和所述目标信息确定声源目标。

在本申请一实施例中，S103具体可以为：

S103具体也可以为：

分别将所述声音数据和一个或多个所述目标对应的平面视频帧输入预先训练完成的机器学习模型（例如CNN模型），由机器学习模型输出与所述声音数据对应的声源目标。

S104、根据所述声源目标生成剪辑的包括所述声源目标的平面视频。

例如在会议场景中，声源目标为主讲者，根据所述主讲者生成剪辑的包括所述主讲者的平面视频。

对于需保持视频画面延续的应用场景，如会议场景，在会议进行过程中，会场可能有些时间段没有声音，为保持视频画面的延续性，在没有声音时，可以锁定主讲人，即以前一时刻确定的声源目标进行视频剪辑；因此，所述获取声音数据和与所述声音数据对应的视频数据具体为：

获取连续的一段声音数据和与所述声音数据对应的视频数据。

连续的一段声音数据是指麦克风等声音获取设备在连续的时间段内记录的声音数据，如麦克风在12：00至12：30分这一连续时间段内记录的声音数据。

所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还可以包括：

获取当前时刻的平面视频帧；

或者，所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还可以包括：

判断当前时刻是否有声音数据，如果是，则返回所述获取声音数据和与所述声音数据对应的视频数据的步骤，如果没有，则获取当前时刻的平面视频帧；

根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频。

由于在平面视频帧没有对应的声音数据时根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频，因此可以保持视频画面的延续性，锁定主讲人。

当然在具体应用中，在没有声音的时间段，也可以不锁定主讲人，如当视频为全景视频时，可以在没有声音的时间段，将全景视频转化为平面视频，并以预设速率展示会场情况等，用户也可以根据使用需要预先设置特定场景的视频剪辑方案，本申请不做具体限定。

在本申请一实施例中，S104或者所述根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频具体可以为：

根据所述声源目标确定所述声源目标对应的平面视频帧；

或者，根据所述声源目标确定所述声源目标的位置信息；

所述将声源目标对应的平面视频帧作为剪辑视频的视频帧进行剪辑具体可以为：

所述将每一时刻的声源目标对应的平面视频帧按顺序拼接，生成剪辑的平面视频具体可以为：

所述根据所述声源目标的位置信息生成剪辑的包括所述声源目标的平面视频具体可以为：

在本申请一实施例中，对于包含一个或多个目标的视频，为了方便根据声源目标确定声源目标的位置信息。所述对所述声音数据对应的平面视频帧进行目标检测之后，所述方法还可以包括：

采用目标跟踪算法为所述目标提供唯一身份标记；例如采用MOT算法（Multiple Object Tracking，多目标跟踪）等目标跟踪算法为所述目标提供唯一身份标记；所述唯一身份标记可以使用“人物1”，“人物2”等符号表示，也可以使用通过Re-ID算法（Person Re-identification）从人形数据库中获得每个人物的真实姓名，如“张三”，“李四”等；

采用目标跟踪算法监测所有目标，并追踪每个目标的位置变化，记录每个目标的唯一身份标记和相应的位置信息。

所述根据所述声源目标确定所述声源目标的位置信息具体可以为：

在本申请一实施例中，S104之后，所述方法还可以包括以下步骤：

将所述平面视频与对应的声音数据结合。

通过将声音数据与视频数据同步，方便用户再观看视频的时候同步获取到声音。例如，可以按照时间顺序将声音数据与视频数据结合，实现音画同步，本申请不对声音数据与视频数据进行同步的方法进行具体限定。

在本申请中，由于对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；根据所述声音数据和所述目标信息确定声源目标；根据所述声源目标生成剪辑的包括所述声源目标的平面视频。因此本申请实现难度小，在室内等嘈杂环境下，可以降低环境噪声与室内混响对定位的影响，定位精度高，鲁棒性强，且能基于声源目标进行自动剪辑，视频剪辑效果好；此外，通过本申请实施例在进行声源目标定位时，仅需1个麦克风即可进行准确定位，成本较低，大大减少视频剪辑的难度与成本。

实施例二：

请参阅图3，本申请一实施例提供的视频剪辑装置可以是运行于计算机设备或全景相机中的一个计算机程序或一段程序代码，例如该视频剪辑装置为一个应用软件；该视频剪辑装置可以用于执行本申请实施例提供的视频剪辑方法中的相应步骤。本申请一实施例提供的视频剪辑装置包括：

生成模块11，用于获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；

目标检测模块12，用于对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；

声源目标确定模块13，用于根据所述声音数据和所述目标信息确定声源目标；

剪辑模块14，用于根据所述声源目标生成剪辑的包括所述声源目标的平面视频。

本申请一实施例提供的视频剪辑装置与本申请一实施例提供的视频剪辑方法属于同一构思，其具体实现过程详见说明书全文，此处不再赘述。

实施例三：

本申请一实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如本申请一实施例提供的视频剪辑方法的步骤。

实施例四：

图4示出了本申请一实施例提供的计算机设备的具体结构框图，该计算机设备可以是图1中所示的计算机设备，一种计算机设备100包括：一个或多个处理器101、存储器102、以及一个或多个计算机程序，其中所述处理器101和所述存储器102通过总线连接，所述一个或多个计算机程序被存储在所述存储器102中，并且被配置成由所述一个或多个处理器101执行，所述处理器101执行所述计算机程序时实现如本申请一实施例提供的视频剪辑方法的步骤。

计算机设备可以是台式计算机、移动终端等，移动终端包括手机、平板电脑、笔记本电脑、个人数字助理等。

实施例五：

图5示出了本申请一实施例提供的相机的具体结构框图，该相机可以是图1中所示的相机，一种相机200包括：一个或多个处理器201、存储器202、以及一个或多个计算机程序，其中所述处理器201和所述存储器202通过总线连接，所述一个或多个计算机程序被存储在所述存储器202中，并且被配置成由所述一个或多个处理器201执行，所述处理器201执行所述计算机程序时实现如本申请一实施例提供的视频剪辑方法的步骤。

相机200可以是普通的相机或者全景相机等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM (SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频剪辑方法，其特征在于，所述方法包括：

获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；

对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；

根据所述声音数据和所述目标信息确定声源目标；

根据所述声源目标生成剪辑的包括所述声源目标的平面视频。
如权利要求1所述的视频剪辑方法，其特征在于，所述获取声音数据和与所述声音数据对应的视频数据具体为：

获取声音数据和与所述声音数据对应的平面视频；

或者，

获取声音数据和与所述声音数据对应的全景视频；

根据所述全景视频生成与所述声音数据对应的平面视频。
如权利要求1所述的视频剪辑方法，其特征在于，所述目标信息包括目标对应的平面视频帧和目标的位置信息；

所述根据所述声音数据和所述目标信息确定声源目标具体为：

根据所述声音数据和所述目标对应的平面视频帧确定声源目标。
如权利要求3所述的视频剪辑方法，其特征在于，获取所述目标对应的平面视频帧具体为：

通过目标检测算法获得目标的位置信息，并根据目标的位置信息和预设的图像大小从所述声音数据对应的平面视频帧中截取包括目标的平面视频帧。
如权利要求3所述的视频剪辑方法，其特征在于，所述目标的位置信息通过以下方式获取：

采用目标检测算法检测所述平面视频帧的所有目标，并用矩形框来表示每一个目标，通过所述矩形框坐标来确定目标的位置信息。
如权利要求3所述的视频剪辑方法，其特征在于，所述根据所述声音数据和所述目标信息确定声源目标具体为：

将所述声音数据和一个或多个所述目标对应的平面视频帧输入预先训练完成的机器学习模型，由机器学习模型输出与所述声音数据对应的声源目标。
如权利要求1所述的视频剪辑方法，其特征在于，所述获取声音数据和与所述声音数据对应的视频数据具体为：

获取连续的一段声音数据和与所述连续的一段声音数据对应的视频数据；

所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还包括：

获取当前时刻的平面视频帧；

判断所述当前时刻的平面视频帧是否有对应的声音数据，如果是，则返回所述对所述声音数据对应的平面视频帧进行目标检测的步骤，如果没有，则根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频；

或者，

所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还包括：

判断当前时刻是否有声音数据，如果是，则返回所述获取声音数据和与所述声音数据对应的视频数据的步骤，如果没有，则获取当前时刻的平面视频帧；

根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频。
如权利要求7所述的视频剪辑方法，其特征在于，所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频或者所述根据前一时刻确定的声源目标生成剪辑的包括所述声源目标的平面视频具体为：

根据所述声源目标确定所述声源目标对应的平面视频帧；

将声源目标对应的平面视频帧作为剪辑视频的视频帧进行剪辑，生成剪辑的包括所述声源目标的平面视频；

或者，

根据所述声源目标确定所述声源目标的位置信息；

根据所述声源目标的位置信息生成剪辑的包括所述声源目标的平面视频。
如权利要求8所述的视频剪辑方法，其特征在于，所述将声源目标对应的平面视频帧作为剪辑视频的视频帧进行剪辑具体为：

将每一时刻的声源目标对应的平面视频帧按顺序拼接，生成剪辑的平面视频。
如权利要求9所述的视频剪辑方法，其特征在于，所述将每一时刻的声源目标对应的平面视频帧按顺序拼接，生成剪辑的平面视频具体为：

将每一时刻的声源目标对应的平面视频帧按顺序拼接，剪辑时对声源目标对应的平面视频帧进行缩放以使所述声源目标对应的所有平面视频帧的大小相等，用黑色像素填充声源目标对应的平面视频帧无法覆盖的区域，生成剪辑的平面视频。
如权利要求8所述的视频剪辑方法，其特征在于，所述根据所述声源目标的位置信息生成剪辑的包括所述声源目标的平面视频具体为：

根据所述声源目标的位置信息，对平面视频帧进行投影变换与剪辑，使声源目标处于视频画面的中心位置，生成剪辑的平面视频。
如权利要求8所述的视频剪辑方法，其特征在于，所述对所述声音数据对应的平面视频帧进行目标检测之后，所述方法还包括：

采用目标跟踪算法为所述目标提供唯一身份标记；

采用目标跟踪算法监测所有目标，并追踪每个目标的位置变化，记录每个目标的唯一身份标记和相应的位置信息；

所述根据所述声源目标确定所述声源目标的位置信息具体为：

根据记录的每个目标的唯一身份标记和相应的位置信息以及所述声源目标对应的唯一身份标记确定所述声源目标的位置信息。
如权利要求1至12任一项所述的视频剪辑方法，其特征在于，所述根据所述声源目标生成剪辑的包括所述声源目标的平面视频之后，所述方法还包括：

将所述平面视频与对应的声音数据结合。
一种视频剪辑装置，其特征在于，所述装置包括：

生成模块，用于获取声音数据和与所述声音数据对应的视频数据，并生成与所述声音数据对应的平面视频帧；

目标检测模块，用于对所述声音数据对应的平面视频帧进行目标检测，获取目标信息；

声源目标确定模块，用于根据所述声音数据和所述目标信息确定声源目标；

剪辑模块，用于根据所述声源目标生成剪辑的包括所述声源目标的平面视频。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的视频剪辑方法的步骤。
一种计算机设备，包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述处理器和所述存储器通过总线连接，其中所述一个或多个计算机程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至13任一项所述的视频剪辑方法的步骤。
一种相机，包括：

一个或多个处理器；

存储器；以及

一个或多个计算机程序，所述处理器和所述存储器通过总线连接，其中所述一个或多个计算机程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至13任一项所述的视频剪辑方法的步骤。