WO2022179554A1

WO2022179554A1 - 视频拼接方法、装置、计算机设备和存储介质

Info

Publication number: WO2022179554A1
Application number: PCT/CN2022/077635
Authority: WO
Inventors: 谢朝毅
Original assignee: 影石创新科技股份有限公司
Priority date: 2021-02-26
Filing date: 2022-02-24
Publication date: 2022-09-01
Also published as: EP4300982A4; CN114979758B; JP2024506109A; EP4300982A1; CN114979758A

Abstract

本申请涉及一种视频拼接方法、装置、计算机设备和存储介质。所述方法包括：获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；基于所述静止帧序列，得到参考视频帧；基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。采用本方法能够提高视频拼接效果。

Description

视频拼接方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种视频拼接方法、装置、计算机设备和存储介质。

背景技术

随着图像处理技术的发展，出现了视频拼接技术，视频拼接技术可以把不同时间条件下拍摄的视频拼接在一起，构成一段完整的视频。例如，相机拍摄物体穿越障碍物的全景视频。当拍摄到物体穿越障碍物时，物体穿过障碍物一定距离后停止拍摄第一段视频。然后，相机绕过障碍物，从障碍物另一侧拍摄物体穿越障碍物的第二段视频，将第一段视频和第二段视频拼接形成一个物体穿过障碍物的完整全景视频。全景视频因大视角和高分辨率，被广泛应用到各个领域，因此，视频拼接技术也被广泛应用到各个领域。

技术问题

然而，目前的视频拼接方式，存在视频拼接效果差的问题。

技术解决方案

基于此，有必要针对上述技术问题，提供一种能够提高视频拼接效果的视频拼接方法、装置、计算机设备和存储介质。

一种视频拼接方法，所述方法包括：获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；基于所述静止帧序列，得到参考视频帧；基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。

在其中一个实施例中，所述基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频包括：获取拼接视频帧位置，从所述第一重合视频帧区域获取所述拼接视频帧位置对应的第一拼接视频帧，从所述第二重合视频帧区域中获取所述拼接视频帧位置对应的第二拼接视频帧；确定所述第一拼接视频帧与所述第二拼接视频帧之间的空间变换关系，基于所述空间变换关系对所述第一视频以及所述第二视频进行视频帧对齐；基于对齐之后的第一视频帧与所述第二视频帧进行视频帧拼接，得到拼接视频，其中，在拼接时，所述第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧。

在其中一个实施例中，所述空间变换关系包括水平变换值，所述确定所述第一拼接视频帧与所述第二拼接视频帧之间的空间变换关系，基于所述空间变换关系对所述第一视频以及所述第二视频进行视频帧对齐包括：获取所述第一拼接视频帧的第一特征点和所述第二拼接视频帧的第二特征点；确定所述第一特征点与所述第二特征点之间的水平距离；基于所述水平距离确定所述第一拼接视频帧与所述第二拼接视频帧之间的水平变换值。

在其中一个实施例中，所述第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧的步骤包括：从所述第一重合视频帧区域中获取待融合的当前视频帧；获取所述当前视频帧对应的视频帧当前拍摄时间与所述参考视频帧的参考拍摄时间之间的当前时间差异；基于当前时间差异得到当前视频帧对应的当前融合权重，其中，当前时间差异与当前融合权重成正相关关系；基于当前融合权重将当前视频帧与所述第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧。

在其中一个实施例中，所述基于当前时间差异得到当前视频帧对应的当前融合权重包括：获取重合视频帧区域对应的重合区域时间长度；计算所述当前时间差异与所述重合区域时间长度的比值，得到当前融合权重。

在其中一个实施例中，所述基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域包括：将所述参考视频帧分别与所述第一视频中的各个视频帧进行对比，得到第一视频中与所述参考视频帧匹配的匹配视频帧；将所述匹配视频帧对应的尾部视频帧区域，作为所述第一视频对应的第一重合视频帧区域；将所述第二视频帧中所述参考视频帧所在的参考视频帧区域，作为所述第二视频对应的第二重合视频帧区域，所述参考视频帧为所述参考视频帧区域的头部视频帧，所述参考视频帧区域与所述尾部视频帧区域的视频帧数量匹配。

在其中一个实施例中，所述基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域包括：在所述第一视频中获取预设帧数的尾部视频帧序列，作为所述第一视频对应的第一重合视频帧区域；从所述参考视频帧对应的后向视频帧序列中，获取与所述尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为所述第二视频对应的第二重合视频帧区域。

在其中一个实施例中，所述对所述第一视频或第二视频进行静止帧检测，得到静止帧序列包括：将所述第一视频或者第二视频转换为平面视频；对所述平面视频进行静止帧检测，得到所述静止帧序列。

一种视频拼接装置，所述装置包括：第一视频和第二视频获取模块，用于获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；静止帧序列得到模块，用于对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；参考视频帧得到模块，用于基于所述静止帧序列，得到参考视频帧；第一重合视频帧区域以及第二重合视频帧区域得到模块，用于基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；拼接视频得到模块，用于基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。

在其中一个实施例中，拼接视频得到模块用于获取拼接视频帧位置，从所述第一重合视频帧区域获取所述拼接视频帧位置对应的第一拼接视频帧，从所述第二重合视频帧区域中获取所述拼接视频帧位置对应的第二拼接视频帧；确定所述第一拼接视频帧与所述第二拼接视频帧之间的空间变换关系，基于所述空间变换关系对所述第一视频以及所述第二视频进行视频帧对齐；基于对齐之后的第一视频帧与所述第二视频帧进行视频帧拼接，得到拼接视频，其中，在拼接时，所述第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧。

在其中一个实施例中，拼接视频得到模块用于获取所述第一拼接视频帧的第一特征点和所述第二拼接视频帧的第二特征点；确定所述第一特征点与所述第二特征点之间的水平距离；基于所述水平距离确定所述第一拼接视频帧与所述第二拼接视频帧之间的水平变换值。

在其中一个实施例中，拼接视频得到模块用于从所述第一重合视频帧区域中获取待融合的当前视频帧；获取所述当前视频帧对应的视频帧当前拍摄时间与所述参考视频帧的参考拍摄时间之间的当前时间差异；基于当前时间差异得到当前视频帧对应的当前融合权重，其中，当前时间差异与当前融合权重成正相关关系；基于当前融合权重将当前视频帧与所述第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧。

在其中一个实施例中，拼接视频得到模块用于获取重合视频帧区域对应的重合区域时间长度；计算所述当前时间差异与所述重合区域时间长度的比值，得到当前融合权重。

在其中一个实施例中，第一重合视频帧区域以及第二重合视频帧区域得到模块用于将所述参考视频帧分别与所述第一视频中的各个视频帧进行对比，得到第一视频中与所述参考视频帧匹配的匹配视频帧；将所述匹配视频帧对应的尾部视频帧区域，作为所述第一视频对应的第一重合视频帧区域；将所述第二视频帧中所述参考视频帧所在的参考视频帧区域，作为所述第二视频对应的第二重合视频帧区域，所述参考视频帧为所述参考视频帧区域的头部视频帧，所述参考视频帧区域与所述尾部视频帧区域的视频帧数量匹配。

在其中一个实施例中，第一重合视频帧区域以及第二重合视频帧区域得到模块用于在所述第一视频中获取预设帧数的尾部视频帧序列，作为所述第一视频对应的第一重合视频帧区域；从所述参考视频帧对应的后向视频帧序列中，获取与所述尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为所述第二视频对应的第二重合视频帧区域。

在其中一个实施例中，静止帧序列得到模块用于将所述第一视频或者第二视频转换为平面视频；对所述平面视频进行静止帧检测，得到所述静止帧序列。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；基于所述静止帧序列，得到参考视频帧；基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；基于所述静止帧序列，得到参考视频帧；基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。

技术效果

上述视频拼接方法、装置、计算机设备和存储介质，终端获取待拼接的第一视频和第二视频，对第一视频或第二视频进行静止帧检测，得到静止帧序列；基于静止帧序列，得到参考视频帧；其中，第一视频是在第二视频拍摄之前拍摄得到。基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于第一重合视频帧区域以及第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频。通过确定参考视频帧，得到第一重合视频帧区域和第二重合区域，基于上述两个重合视频帧区域对第一视频和第二视频这两段视频进行拼接，使第一视频和第二视频能够实现自然拼接过渡，提高视频拼接效果。

附图说明

图1为一个实施例中视频拼接方法的应用环境图；

图2为一个实施例中视频拼接方法的流程示意图；

图3为另一个实施例中视频拼接方法的流程示意图；

图4为另一个实施例中视频拼接方法的流程示意图；

图5为一个实施例中第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧步骤的流程示意图；

图6为一个实施例中基于当前时间差异得到当前视频帧对应的当前融合权重步骤的流程示意图；

图7为另一个实施例中视频拼接方法的流程示意图；

图8为另一个实施例中视频拼接方法的流程示意图；

图9为一个实施例中确定拼接视频帧位置方法的示意图；

图10为一个实施例中视频拼接装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频拼接方法，可以应用于如图1所示的应用环境中，具体应用到一种视频拼接系统中。该视频拼接系统包括视频采集设备102与终端104，其中，视频采集设备102通过网络与终端104进行通信。终端104执行一种视频拼接方法。具体的，视频采集设备102通过在不同时刻在需要拍摄对象的相同位置拍摄的两段待拼接的视频传输给终端104，终端104相应地获取到待拼接的第一视频和第二视频，第一视频为第二视频的前向视频；终端104在获取到第一视频和第二视频后，对其中的对第一视频或第二视频进行静止帧检测，得到静止帧序列；基于静止帧序列，得到参考视频帧；基于该参考视频帧进行重合区域搜索，分别得到第一视频中的第一重合视频帧区域与第二视频中的第二重合视频帧区域；终端104基于第一重合视频帧区域和第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频。其中，视频采集设备102可以但不限于是各种有视频采集功能的设备，可以分布于终端104的外部，也可以分布于终端104的内部。例如：分布于终端104的外部的各种摄像头、各种相机、视频采集卡等。终端104可以但不限于是各种相机、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

在一个实施例中，如图2所示，提供了一种视频拼接方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤202，获取待拼接的第一视频和第二视频，第一视频在第二视频之前。

其中，前向视频是指在拍摄第二视频之前，与第二视频存在有相同拍摄位置得到的视频。例如，相机拍摄物体穿越障碍物的全景视频。当拍摄到物体穿越障碍物时，物体穿过障碍物一定距离后停止拍摄第一视频。然后，相机绕过障碍物，从障碍物另一侧拍摄物体穿越障碍物的第二视频。将拍摄第一视频的时间看作第一时间，将拍摄第二视频的时间看作第二时间。其中，第一时间在第二时间之前。同时，两段视频存在相同的拍摄位置，即与障碍物有一定距离的位置，则第一视频为第二视频的前向视频。

具体的，当需要将不同时刻拍摄的，存在相同位置的两段视频进行拼接时，需要首先获取到待拼接的第一视频和第二视频。

在一个实施例中，终端可以通过连接的视频采集设备进行视频的采集，采集设备将采集到的视频实时传输给终端；或者采集设备将采集到的视频暂存到采集设备本地，当接收到终端的视频获取指令时，将本地存储的视频传输给终端，相应的，终端能够获取到待拼接的第一视频和第二视频。

在一个实施例中，终端通过内部存在视频采集模块，对第一视频和第二视频进行采集，对采集到的视频存储到终端存储器中，当终端需要对第一视频和第二视频进行拼接时，从存储器中，获取待拼接的第一视频和第二视频。

步骤204，对第一视频或第二视频进行静止帧检测，得到静止帧序列。

其中，静止帧是指第一视频或第二视频中的各个视频帧中，存在使第一视频或第二视频画面静止的视频帧。静止帧序列是指第一视频或第二视频中有先后顺序的静止帧组成的序列。

具体的，静止帧存在于视频中时，会使视频呈现出来卡顿的情况，为了使视频拼接过程中不会受到静止帧的影响，需要对第一视频或第二视频的进行静止帧检测。

在一个实施例中，可以通过第一视频中的最后一个视频帧依次与最后一个视频帧前的连续的多个视频帧进行特征点提取，并进行特征点匹配。当最后一个视频帧前的连续的多个视频帧特征点匹配结果都满足阈值条件时，将该多个视频帧组成的视频帧序列确定为静止帧序列。例如，第一视频中的最后一个视频帧表示为第1帧，与最后一个视频帧前的连续n-2帧进行特征点提取和匹配，当匹配结果都满足阈值条件时，将第一视频中的后n-1帧组成的视频帧序列确定为静止帧序列。

在一个实施例中，可以通过第二视频中的第一个视频帧依次与第一个视频帧后的连续的多个视频帧进行特征点提取，并进行特征点匹配。当第一个视频帧后的连续的多个视频帧特征点匹配结果都满足阈值条件时，将该多个视频帧组成的视频帧序列确定为静止帧序列。例如，第二视频中的第一个视频帧表示为第1帧，与第一个视频帧后的连续n-2帧进行特征点提取和匹配，当匹配结果都满足阈值条件时，将第二视频中的前n-1帧组成的视频帧序列确定为静止帧序列。

在一个实施例中，在进行视频帧的特征点提取和特征点匹配时，先将视频帧对应的图像转换为平面视图图像。其中，平面视图图像可以是指全景图某个方向所看到的视场角为90度的平面图，比如全景图包括上下前后左右六个面，每个平面就是一个平面视图。例如，上视图、下视图、左视图、右视图、仰视图和底视图。进行第一视频中静止帧检测时，当第一视频中最后一个视频帧和该最后一个视频帧前的待确定静止帧的某一视频帧匹配到的特征点的位置处在上述平面视图图像宽度的1/10至1/60之间，且匹配到的特征点的总数处于第一视频中最后一个视频帧和倒数第二个视频帧之间特征点匹配总数的10％以上时，则将该待确定静止帧的某一视频帧确定为静止帧。进行第二视频中静止帧检测时，当第二视频中第一个视频帧和该第一个视频帧后的待确定静止帧的某一视频帧匹配到的特征点的位置处在上述平面视图图像宽度的1/10至1/60之间，且匹配到的特征点的总数处于第二视频中第一个视频帧和第二个视频帧之间特征点匹配总数的10％以上时，则将该待确定静止帧的某一视频帧确定为静止帧。

在一个实施例中，可以采用ORB(Oriented Fast and Rotated Brief)特征点检测的方法，对视频帧中的特征点进行提取和匹配。可以理解的，也可以采用其他的特征点检测方法进行视频帧中的特征点的提取和匹配。例如，SIFT(Scale-invariant feature transform)，SUFT(Speeded Up Robust Features)，LSD(Line Segment Detection)等。

步骤206，基于静止帧序列，得到参考视频帧。

其中，参考视频帧是指可以作为参考的视频帧，利用该视频帧可以得到其他视频帧与该视频帧的匹配结果。

具体的，在得到静止帧序列之后，可以在第一视频中获取该静止帧序列的前向视频帧或者可以在第二视频中获取该静止帧序列的后向视频帧，该前向视频帧或者后向视频帧认为是非静止视频帧，该非静止视频帧可以作为参考视频帧。前向视频帧是指第一视频中，静止帧序列前的第一个视频帧，后向视频帧是指第二视频中，静止帧序列后的第一个视频帧。在一个实施例中，调用终端中OpenCV软件库进行前向视频帧或者后向视频帧的提取。其中的OpenCV是一个基于BSD(original BSD license、FreeBSD license、Original BSD license)发行的跨平台计算机视觉和机器学习软件库，能够实现视频帧的提取。

在一个实施例中，可以通过CRC(Cyclic Redundancy Check)校验方法对第一视频或者第二视频进行静止帧的检测，通过创建多线程对第一视频或者第二视频中的视频帧进行CRC校验，得到每一帧的CRC校验值，通过CRC校验值可以得到第一视频或者第二视频中的静止帧，通过该静止帧得到非静止视频帧，将该非静止视频帧作为参考的视频帧。可以理解的，静止帧的确定也可以采用其他静止帧的检测方法。

步骤208，基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及第二视频对应的第二重合视频帧区域。

其中，重合区域是指两段视频中对相同位置进行拍摄所得到的视频帧区域，例如不同时间拍摄的两段视频，该两段视频存在相同的拍摄位置，该两段视频存在的共有的拍摄位置拍摄得到的视频帧区域为重合区域。

具体的，在获取到参考视频帧之后，可以通过该参考视频帧进行重合区域的确定。

在一个实施例中，可以通过该参考视频帧与第一视频中的所有帧进行匹配，在第一视频中，将匹配概率最高的视频帧作为第一重合视频帧区域的起始帧。相应的，在第二视频中，利用与第一重合视频帧区域中的视频帧有相同位置的视频帧对应的区域，得到第二视频对应的第二重合视频帧区域。例如，该帧表示为P帧，在第一视频中，取P帧之后的全部视频帧对应的视频帧部分作为重合区域。第二视频中，与P帧之后的全部视频帧有相同位置的视频帧区域为C帧到F帧之间的视频帧区域，则将C帧到F帧之间的视频帧区域作为第二重合视频帧区域。

在一个实施例中，可以取参考视频帧后预设帧数的视频帧，进行对应视频帧的匹配。例如，可以取参考视频帧后的m帧，通过对比第一视频中的后m帧，得到特征点匹配数量统计值最大时对应的m帧作为第一重合视频帧区域。当m取不同数值时，得到的特征点匹配数量统计值不同，形成m帧与特征点匹配数量统计值之间的对应表，从该表中查找匹配数量统计值最大值，该统计值最大值对应的m帧为得到的重合区域的视频帧数。相应的，可以得到第二视频对应的第二重合视频帧区域。如下表1中所示，为预设帧数与特征点匹配数量统计值之间的对应关系表。

表1.m值与特征点匹配数量统计值对应关系表

m值(预设帧数)	特征点匹配数量统计值
20	1000
30	1200
35	900
40	1100

由表1中可以查找到，当m取值为30时，对应的特征点匹配数量统计值为最大，则将第一视频中的后30帧作为第一重合视频帧区域。

步骤210，基于第一重合视频帧区域以及第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频。

其中，拼接是指将两段或者多段视频组合成一段完整视频的过程。

具体的，在确定第一重合视频帧区域和第二重合视频帧区域之后，将第一视频与第二视频在第一重合视频帧区域和第二重合视频帧区域对两段视频进行处理，得到拼接视频。

在一个实施例中，在第一重合视频帧区域以及第二重合视频帧区域对第一视频与第二视频对齐后进行图像融合，将第一视频和第二视频进行图像融合后形成一个完整的全景视频。图像融合方法可以采用线性融合、泊松融合、多尺度融合、加权融合或者拉普拉斯金字塔融合等。可以理解的，视频中的每一帧视频可以认为是静止图像，在进行视频融合时，在重合视频帧区域内对对齐的多个视频帧融合可以认为是对多个静态图像的融合。

在一个实施例中，对第一视频与第二视频进行加权融合的方法形成完整的全景视频。

在一个实施例中，对第一视频与第二视频进行加权融合的过程中，权重可以通过重合区域中的当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的当前时间差异来确定。假设Q表示权重，t1表示当前视频帧对应的视频帧当前拍摄时间，t2表示参考视频帧的参考拍摄时间，t表示重合区域中的视频帧对应的总时间，则权重可以通过当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间的差值，以及，重合区域中的视频帧对应的总时间计算得到。权重Q可以表示为公式：Q＝(t1-t2)/t，利用权重和第一视频对应的第一重合视频帧区域中的视频帧与第二视频对应的第二重合视频帧区域中的视频帧进行图像融合，得到融合后的拼接视频。假设，I表示融合后的视频帧，I1表示第一段视频在重合区域中的当前视频帧，I2表示第二段视频的在重合区域中的当前视频帧，则融合后的视频帧I可以表示为公式：I＝I1×Q+I2×(1-Q)。可以理解的，第一重合视频帧区域和第二重合视频帧区域分别是重合视频帧区域存在于第一视频和第二视频中的区域，并且该区域是第一视频和第二视频的重合区域，使用第一重合视频帧区域和第二重合视频帧区域，以便于区分该重合区域出现在第一视频和第二视频中对应的重合视频帧区域。

上述视频拼接方法中，终端获取待拼接的第一视频和第二视频，对第一视频或第二视频进行静止帧检测，得到静止帧序列；基于静止帧序列，得到参考视频帧；其中，第一视频是在第二视频拍摄之前拍摄得到。基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；基于第一重合视频帧区域以及第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频。通过确定参考视频帧，得到第一重合视频帧区域和第二重合区域，基于上述两个重合视频帧区域对第一视频和第二视频这两段视频进行拼接，使第一视频和第二视频能够实现自然拼接过渡，提高视频拼接效果。

在一个实施例中，如图3所示，基于第一重合视频帧区域以及第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频包括：

步骤302，获取拼接视频帧位置，从第一重合视频帧区域获取拼接视频帧位置对应的第一拼接视频帧，从第二重合视频帧区域中获取拼接视频帧位置对应的第二拼接视频帧。

其中，拼接视频帧位置是指能够使第一视频与第二视频进行拼接的视频帧位置。例如，在重合视频帧区域中，不同时刻拍摄的视频，第一段视频中第100帧拍摄的空间位置为S帧，第二段视频中第10帧所拍摄的位置也是S帧，则拼接位置就是S帧；对应的第一段视频中的第100帧图像和第二段视频的第10帧图像处可以认为是拼接视频帧位置。

具体的，在对第一视频与第二视频进行拼接时，可以通过获取到两段视频的拼接视频帧位置来进行拼接。

在一个实施例中，可以选择重合区域的中心视频帧作为拼接视频帧位置，在得到拼接视频帧位置后，可以确定该拼接视频帧位置在第一视频中对应的第一拼接视频帧和该拼接视频帧位置在第二视频中对应的第二拼接视频帧。中心视频帧是位于视频帧序列中间位置的视频帧。例如，视频帧序列排列有5个视频帧，视频帧位置分别为{1，2，3，4，5}，则位于位置3处的视频帧为视频帧序列中间位置的视频帧。

在一个实施例中，可以选择在第一重合视频帧区域和第二重合视频帧区域进行重合区域中的视频帧对齐时，对各个对齐的视频帧计算得到各个对齐的视频帧之间的匹配点数量，将匹配点数量最多的视频帧作为拼接视频帧位置，在得到拼接视频帧位置后，可以确定该拼接视频帧位置在第一视频中对应的第一拼接视频帧和该拼接视频帧位置在第二视频中对应的第二拼接视频帧。

步骤304，确定第一拼接视频帧与第二拼接视频帧之间的空间变换关系，基于空间变换关系对第一视频以及第二视频进行视频帧对齐。

其中，空间变换关系是指第一拼接视频帧与第二拼接视频帧之间进行的旋转、平移或者放大缩小等的变换关系。

具体的，第一拼接视频与第二拼接视频之间由于拍摄角度等原因，可能存在有一定的角度。相应的，第一拼接视频帧与第二拼接视频帧之间也同样会存在一定的角度，要完成第一拼接视频帧与第二拼接视频帧的拼接，需要确定第一拼接视频帧与第二拼接视频帧之间的空间变换关系，基于空间变换关系对第一视频以及第二视频进行视频帧对齐后才能完成第一拼接视频帧与第二拼接视频帧的拼接。

在一个实施例中，通过求出两幅图像之间的单应变换矩阵，将不同角度拍摄的图像都转换到同样的视角下，得到视频帧到视频帧的空间变换关系，基于空间变换关系对第一视频以及第二视频进行视频帧对齐。

步骤306，基于对齐之后的第一视频帧与第二视频帧进行视频帧拼接，得到拼接视频，其中，在拼接时，第一重合视频帧区域与第二重合视频帧区域进行融合得到融合视频帧。

其中，融合视频帧是指提取第一视频帧与第二视频帧对应的能够增强图像质量的信息，综合成的高质量的图像信息对应的视频帧。

本实施例中，通过获取拼接视频帧位置，在该拼接视频帧位置处对对应的第一拼接视频帧与第二拼接视频帧进行空间变换关系确定，使第一视频以及第二视频进行视频帧对齐后进行融合得到融合视频帧，能够实现准确地对第一视频和第二视频进行拼接，使拼接后的第一视频和第二视频实现自然过渡，提高拼接效果。

在一个实施例中，如图4所示，空间变换关系包括水平变换值，确定第一拼接视频帧与第二拼接视频帧之间的空间变换关系，基于空间变换关系对第一视频以及第二视频进行视频帧对齐包括：

步骤402，获取第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点。

其中，特征点是指能够体现每一视频帧图像中的本质特征，通过该本质特征能够识别图像中目标物体的点。可以通过两个视频帧中特征点的距离来进行计算两个视频帧的距离。

具体的，当第一视频和第二视频是防抖全景视频时，第一视频和第二视频之间的空间变换关系只存在水平变换值。其中，防抖全景视频是指全景视频通过惯性传感器和加速度计等记录的视频数据对全景视频进行防抖处理后的视频；防抖视频中的地平线基本保持在全景视频帧水平中线位置，在不同时刻拍摄相同位置的防抖全景视频帧之间俯仰角和滚转角基本为0。可以理解的，防抖全景视频是相同位置不同时刻拍摄的防抖视频图像之间只存在一个航向角，也即只存在水平方向的平移。

在一个实施例中，可以通过ORB特征点检测方法或者SIFT特征点检测方法，直接提取第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点。

在一个实施例中，可以先通过将全景视频对应的全景图转换成平面视图，再利用ORB特征点检测方法提取第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点。其中，平面视图可以是指全景图某个方向所看到的视场角为90度的平面图，比如全景图包括上下前后左右六个面，每个平面就是一个平面视图。例如，上视图、下视图、左视图、右视图、仰视图和底视图。

在一个实施例中，全景视频对应的全景图可以转换成平面视图视频中的底视图之后进行特征点的提取，通过旋转矩阵将全景图进行图像变换，得到全景图像到底视图图像的图像变换。其中，全景图是指图像视角涵盖地平线正负各180度，垂直方向正负各90度的图像；若将全景图看作在立方体的空间状态中的图像，可以认为该图像完全包含上下前后左右六个平面视图。

步骤404，确定第一特征点与第二特征点之间的水平距离。

其中，水平距离是指第一特征点水平方向的坐标与第二特征点水平方向的坐标之间的差值。例如，将第一特征点与第二特征点之间的水平距离表示为△x，第一特征点水平方向的坐标表示为x _p1，第二特征点水平方向的坐标表示为x _p2，则第一特征点与第二特征点之间的水平距离△x可以利用如下公式计算得到：

△x＝x _p1-x _p2

具体的，在得到第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点之后，计算第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点之间的水平距离。

步骤406，基于水平距离确定第一拼接视频帧与第二拼接视频帧之间的水平变换值。

其中，水平变换值是指利用水平距离得到的第一拼接视频帧与第二拼接视频帧之间的水平差异。

具体的，可以根据水平距离的不同取值范围得到不同的水平变换值。

在一个实施例中，根据水平变换值与水平距离之间的正相关关系，利用不同的水平距离得到水平变换值。假设dx表示水平变换值，w表示全景视频帧的宽度，则水平变换值dx可以表示为公式：

在一个实施例中，可以利用水平变换值的统计值得到第一拼接视频帧与第二拼接视频帧之间的水平变换值。例如，可以将水平变换值的平均值作为第一拼接视频帧与第二拼接视频帧之间的水平变换值。

在一个实施例中，水平变换值的统计值是通过将得到的各个水平变换值进行排序之后得到，可以将各个水平变换值从大到小进行排序或者从小到大进行排序，将位于排序中间位置的水平变换值作为水平变换值的统计值。也可以通过其他方法得到水平变换值的统计值。例如，通过计算各个水平变换值的平均值、加权平均值或者众数等得到水平变换值的统计值。

本实施例中，通过第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点的获取，得到第一特征点和第二特征点的水平距离，通过水平距离确定第一拼接视频帧与第二拼接视频帧之间的水平变换值，能够达到准确确定第一拼接视频帧与第二拼接视频帧之间的空间变换关系的目的，根据准确的空间变换关系进而提高视频拼接的效果。

在一个实施例中，如图5所示，第一重合视频帧区域与第二重合视频帧区域进行融合得到融合视频帧的步骤包括：

步骤502，从第一重合视频帧区域中获取待融合的当前视频帧。

具体的，在重合视频帧区域对第一视频和第二视频进行融合之前，需要首先在重合视频帧区域获取待融合的当前视频帧。

在一个实施例中，通过OpenCV软件库读取视频，并且提取视频中的每一帧，可以利用OpenCV软件库中的视频获取结构函数来实现。例如，利用视频获取结构函数VideoCapture和Mat来获取视频，进一步，可以利用上述视频获取结构函数获取到待融合的当前视频帧。例如，filename表示视频文件，frame表示需要获取的某一帧视频帧，利用上述视频获取结构函数从摄像头或者文件中抓取并返回一帧视频帧可以表示为：

VideoCapture cap(“filename”)；

Mat frame；

cap>>frame；

步骤504，获取当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的当前时间差异。

具体的，在第一视频中的第一重合视频帧区域中获取待融合的当前视频帧后，因为拍摄时间的不同，当前视频帧会有相对应的拍摄时间，同样的参考视频帧也会有相应的拍摄时间，通过当前视频帧的拍摄时间和参考视频帧的拍摄时间，可以得到当前时间差异。

在一个实施例中，拍摄时间可以利用时间戳表示，该时间戳可以用帧数来表示，也可以用帧数乘以帧率来表示，两种表示方式都可以唯一确定视频帧对应的拍摄时间。例如，利用帧数来表示时间戳，视频中第100帧图像的时间戳为100；利用帧数乘以帧率来表示时间戳，假设视频帧率为30帧每秒，则时间戳也可以为100/30＝3.33秒。根据当前视频帧的时间戳和参考视频帧的时间戳之间的差异，得到当前时间差异。

在一个实施例中，可以通过当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的差值，得到当前时间差异。假设t1表示当前视频帧对应的视频帧当前拍摄时间，t2表示参考视频帧的参考拍摄时间，△t表示当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的当前时间差异，则当前时间差异△t可以表示为公式：△t＝t1- t2。

步骤506，基于当前时间差异得到当前视频帧对应的当前融合权重，其中，当前时间差异与当前融合权重成正相关关系。

其中，融合权重是指在图像融合过程中当前视频帧所对应的比重。正相关关系是指当前融合权重和当前时间差异的增大或者减少的趋势相同；当前时间差异增大，当前融合权重也随着增大，当前时间差异减小，当前融合权重也随着减小。

具体的，在获取到当前时间差异之后，根据当前时间差异与当前融合权重的正相关关系，可以得到当前融合权重。

在一个实施例中，对第一视频与第二视频进行加权融合的过程中，权重可以通过重合区域中的当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的当前时间差异来确定，假设Q表示权重，t1表示当前视频帧对应的视频帧当前拍摄时间，t2表示参考视频帧的参考拍摄时间，t表示重合区域中的视频帧对应的总时间，则权重可以通过当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间的差值，以及，重合区域中的视频帧对应的总时间计算得到，权重Q可以表示为公式：Q＝(t1-t2)/t，权重Q随着当前时间差异t1-t2的增大而增大；同样的，权重Q随着当前时间差异t1-t2的减小而减小。

步骤508，基于当前融合权重将当前视频帧与第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧。

具体的，在重合区域中得到当前融合权重后，利用当前融合权重将第一视频和第二视频进行融合，得到质量更高的拼接视频。

在一个实施例中，利用当前融合权重、第一视频对应的第一重合视频帧区域中的视频帧和第二视频对应的第二重合视频帧区域中的视频帧进行图像融合，得到融合后的拼接视频，假设，I表示融合后的视频帧，I1表示第一段视频在重合区域中的当前视频帧，I2表示第二段视频的在重合区域中的当前视频帧，则融合后的视频帧I可以表示为公式：I＝I1×Q+I2×(1-Q)。可以理解的，第一重合视频帧区域和第二重合视频帧区域分别是重合视频帧区域存在于第一视频和第二视频中的区域，并且该区域是第一视频和第二视频的重合区域，使用第一重合视频帧区域和第二重合视频帧区域，以便于区分该重合区域出现在第一视频和第二视频中对应的区域。

本实施例中，通过获取到当前时间差异，通过该当前时间差异获取到当前融合权重，基于当前融合权重将当前视频帧与第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧，能够达到得到自然过渡效果的完整视频的目的。

在一个实施例中，如图6所示，基于当前时间差异得到当前视频帧对应的当前融合权重包括：

步骤602，获取重合视频帧区域对应的重合区域时间长度。

其中，重合区域时间长度是指重合区域的视频帧对应的视频时间长度。例如，重合区域的视频长度为600毫秒，则重合区域时间长度为600毫秒。

具体的，当前融合权重计算中的参数之一为重合区域时间长度，通过获取重合区域时间长度可以确定计算当前融合权重的其中一个参数。

在一个实施例中，可以通过重合区域中的帧总数，以及视频帧率，根据帧总数与视频帧率之间的函数关系，获取到重合区域时间长度。例如，b表示在重合区域中的帧总数，v表示帧率，t表示重合区域时间长度，则重合区域时间长度t可以表示为公式：t＝b/v。

步骤604，计算当前时间差异与重合区域时间长度的比值，得到当前融合权重。

具体的，t1-t2表示当前时间差异，t表示重合区域时间长度，Q表示当前融合权重，则当前融合权重Q可以表示为公式：Q＝(t1-t2)/t。

本实施例中，通过当前时间差异与重合区域时间长度的比值，能够达到准确得到当前融合权重的目的，以使第一视频和第二视频通过重合区域进行拼接时，能够利用当前融合权重对重合区域中的视频帧进行融合，提高视频拼接效果。

在一个实施例中，如图7所示，基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及第二视频对应的第二重合视频帧区域包括：

步骤702，将参考视频帧分别与第一视频中的各个视频帧进行对比，得到第一视频中与参考视频帧匹配的匹配视频帧。

其中，匹配视频帧是指第一视频中与参考视频帧能够满足匹配条件的视频帧。例如，可以将第一视频中的各个视频帧中与参考视频帧匹配点数量最多的视频帧作为匹配视频帧。

具体的，参考视频帧是处在第二视频中的，静止帧的后向视频帧，为了避免视频存在卡顿或者静止等视频质量的情况，认为参考频帧为第一个非静止帧，选择参考视频帧作为需要对比的视频帧，得到的匹配视频帧。

在一个实施例中，在第一视频中的各个视频帧中，选择与第二视频中作为参考视频帧的视频帧匹配率最高的视频帧作为匹配视频帧。匹配率可以是特征点匹配数目和特征点总数的比值。例如，参考视频帧与第一视频中的某一视频帧的特征点匹配数目为1000，特征点总数是1500，则匹配率为1000与1500的比值，即为67％。

步骤704，将匹配视频帧对应的尾部视频帧区域，作为第一视频对应的第一重合视频帧区域。

其中，尾部视频帧区域是指从匹配视频帧开始到第一视频结束视频帧之间对应的视频帧区域。例如，匹配视频帧为P，则尾部视频帧区域为第一视频中P帧之后的视频帧。

具体的，在获取到匹配视频帧之后，可以在第一视频中得到匹配视频帧之后的视频帧作为第一视频对应的第一重合视频帧区域。

步骤706，将第二视频帧中参考视频帧所在的参考视频帧区域，作为第二视频对应的第二重合视频帧区域，参考视频帧为参考视频帧区域的头部视频帧，参考视频帧区域与尾部视频帧区域的视频帧数量匹配。

其中，头部视频帧是指在视频帧区域中的第一个视频帧。

具体的，在重合区域中既有第一视频中的视频帧，也有第二视频中的视频帧，要使得在重合区域中完成视频帧的对齐和融合，需要在重合区域中的视频帧数量相同。参考视频帧区域是处在第二视频中的第二重合视频帧区域，尾部视频帧区域是处在第一视频中的第一重合视频帧区域，在两个重合视频帧区域中存在相同数量的视频帧。可以理解的，第一重合视频帧区域和第二重合视频帧区域在实现视频融合后，会形成一个重合视频帧区域，在该重合视频帧区域前的视频帧为第一视频的视频帧，在该重合视频帧区域后的视频帧为第二视频的视频帧。

本实施例中，通过参考视频帧可以得到匹配视频帧，通过匹配视频帧得到第一重合视频帧区域，相应的在第二视频上得到第二重合视频帧区域，能够达到准确确定重合视频帧区域的目的，以使对重合视频帧区域进行视频融合，在重合视频帧区域实现第一视频和第二视频的自然拼接。

在一个实施例中，如图8所示，基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及第二视频对应的第二重合视频帧区域包括：

步骤802，在第一视频中获取预设帧数的尾部视频帧序列，作为第一视频对应的第一重合视频帧区域。

其中，预设帧数是指预先确定的视频帧帧数，通过该视频帧帧数可以确定获取到的尾部视频帧序列中的视频帧帧数。例如，预设帧数为m，则获取到的尾部视频帧序列中包含有m个视频帧。

具体的，在确定第一重合视频帧区域之前，可以通过预判的方式进行不断试验的方式进行预设帧数的确定。

在一个实施例中，可以以视频的总帧数为参考，根据经验值，设置多个预设帧数对应的视频帧区域作为第一视频对应的第一重合视频帧区域。

步骤804，从参考视频帧对应的后向视频帧序列中，获取与尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为第二视频对应的第二重合视频帧区域。

其中，后向视频帧序列是指参考视频帧之后的视频帧组成的序列。该序列可以包含参考视频帧之后的部分视频帧，也可以包括参考视频帧之后的全部视频帧。

具体的，在得到作为第一重合视频帧区域的尾部视频帧序列之后，需要在第二视频中找到对应的，与第一重合视频帧区域视频帧数目相同并且满足一定的匹配条件的视频帧序列，作为第二重合视频帧区域。

在一个实施例中，可以取参考视频帧后预设帧数的视频帧作为匹配视频帧序列。例如，可以取参考视频帧后的m帧，通过对比第一视频中的后m帧，得到特征点匹配数量统计值最大时对应的m帧作为重合区域。当m取不同数值时，得到的特征点匹配数量统计值不同，形成数值m与特征点匹配数量统计值之间的对应关系表，从该表中查找匹配数量统计值最大值，该最大值对应的m为得到的重合区域的视频帧数。

表2.m值与特征点匹配数量统计值对应关系表

由表2中可以查找到，当m取值为30时，对应的特征点匹配数量统计值为最大，则将第一视频中的后30帧作为重合区域。

本实施例中，通过在第一视频中获取预设帧数的尾部视频帧序列得到第一重合视频帧区域，通过得到的第一重合视频帧区域中的视频帧获取与尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为第二视频对应的第二重合视频帧区域，能够达到准确确定重合视频帧区域的目的，以使得在该重合视频帧区域完成第一视频和第二视频的拼接，达到第一视频和第二视频在拼接过程中能够自然过渡，提高视频拼接的效果。

在一个实施例中，对第一视频或第二视频进行静止帧检测，得到静止帧序列包括：

将第一视频或者第二视频转换为平面视频。

其中，平面视频是由各个平面视图图像组成的视频。平面视图图像可以是指全景图某个方向所看到的视场角为90度的平面图，比如全景图包括上下前后左右六个面，每个平面就是一个平面视图。例如，平面视图包括上视图、下视图、左视图、右视图、仰视图和底视图。

在一个实施例中，全景视频对应的全景图可以转换成平面视频对应的平面视图中的底视图之后进行特征点的提取，通过旋转矩阵将全景图进行图像变换，得到全景图像到底视图图像的图像变换。其中，全景图是指图像视角涵盖地平线正负各180度，垂直方向正负各90度的图像；若将全景图看作在立方体的空间状态中的图像，可以认为该图像完全包含上下前后左右六个平面视图。

对平面视频进行静止帧检测，得到静止帧序列。

在一个实施例中，可以分别获取第一平面视频和第二平面视频，通过第一平面视频中的最后一个视频帧依次与最后一个视频帧前的连续的多个视频帧进行特征点提取，并进行特征点匹配。当最后一个视频帧前的连续的多个视频帧特征点匹配结果都满足阈值条件时，将该多个视频帧组成的视频帧序列确定为静止帧序列。例如，第一平面视频中的最后一个平面视频帧表示为第1帧，与最后一个视频帧前的连续n-2帧进行特征点提取和匹配，当匹配结果都满足阈值条件时，将第一视频中的后n-1帧组成的视频帧序列确定为静止帧序列。

在一个实施例中，可以通过第二平面视频中的第一个平面视频帧依次与第一个视频帧后的连续的多个视频帧进行特征点提取，并进行特征点匹配。当第一个视频帧后的连续的多个视频帧特征点匹配结果都满足阈值条件时，将该多个视频帧组成的视频帧序列确定为静止帧序列。例如，第二平面视频中的第一个视频帧表示为第1帧，与第一个视频帧后的连续n-2帧进行特征点提取和匹配，当匹配结果都满足阈值条件时，将第二平面视频中的前n-1帧组成的视频帧序列确定为静止帧序列。

在一个实施例中，如图9所示，在视频获取过程中，先将相机放置在第一视频(前一段视频)中拍摄末尾段视频经过的某个位置，然后将相机静止一段时间后，沿着第一视频拍摄末尾段视频的运动路径移动相机开始拍摄第二视频(第二段视频)。第一视频和第二视频都存在拍摄末尾段视频的重合区域，假设第二视频中开始运动的视频帧为A帧处，重合区域的结束位置为B帧处。该重合区域在第一视频中视频帧的范围也为A帧到B帧之间。可以取A帧到B帧之间中心位置处的视频帧作为拼接视频帧位置，也可以取A帧到B帧之间的其他视频帧作为拼接视频帧位置，利用该拼接视频帧位置完成第一视频和第二视频的拼接。假设拼接视频帧位置表示为C帧，C帧可以取A帧之后的多个视频帧处的视频帧，例如C帧可以取A帧之后的5个视频帧处的视频帧。

在一个实施例中，以防抖相机拍摄物体穿越障碍物的全景视频为例进行阐述。当拍摄到物体穿越障碍物时，物体穿过障碍物一定距离后停止拍摄第一段视频(第一视频)。然后，相机绕过障碍物，从障碍物另一侧拍摄物体穿越障碍物的第二段视频(第二视频)，第二段视频的拍摄是从第一段视频拍摄到的物体穿过障碍物处开始拍摄的，由于拍摄存在一定的时延，所以拍摄的第二段视频在起始时刻看起来静止。然后，第二段视频沿着第一段视频拍摄的穿越障碍物的路线继续拍摄，使得前后两段视频存在相同的拍摄路线即重合路径，该重合路径用于衔接前后两段视频。防抖相机拍摄的全景视频，在拍摄位置大致相等的情况下，前后两段视频之间只是存在一个简单的转化关系，该转换关系为水平平移关系，利用该水平平移关系移动第一段视频或者第二段视频，使第一段视频和第二段视频在重合路径内完成对齐，利用图像融合方法完成视频帧图像的融合，使第一段视频和第二段视频完成自然过渡，从而实现第一段视频和第二段视频的无缝衔接。在一个实施例中，提供了一种服务器，该服务器用于执行上述各方法实施例中的步骤。该服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种视频拼接装置1000，包括：第一视频和第二视频获取模块1002、静止帧序列得到模块1004、参考视频帧得到模块1006、第一重合视频帧区域以及第二重合视频帧区域得到模块1008和拼接视频得到模块1010，其中：第一视频和第二视频获取模块1002，用于获取待拼接的第一视频和第二视频，第一视频在第二视频之前；静止帧序列得到模块1004，用于对对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；参考视频帧得到模块1006，用于基于所述静止帧序列，得到参考视频帧；；第一重合视频帧区域以及第二重合视频帧区域得到模块1008，用于基于参考视频帧进行重合区域搜索，得到第一视频对应的第一重合视频帧区域以及第二视频对应的第二重合视频帧区域；拼接视频得到模块1010，用于基于第一重合视频帧区域以及第二重合视频帧区域将第一视频与第二视频进行拼接，得到拼接视频。

在一个实施例中，拼接视频得到模块1010用于获取拼接视频帧位置，从第一重合视频帧区域获取拼接视频帧位置对应的第一拼接视频帧，从第二重合视频帧区域中获取拼接视频帧位置对应的第二拼接视频帧；确定第一拼接视频帧与第二拼接视频帧之间的空间变换关系，基于空间变换关系对第一视频以及第二视频进行视频帧对齐；基于对齐之后的第一视频帧与第二视频帧进行视频帧拼接，得到拼接视频，其中，在拼接时，第一重合视频帧区域与第二重合视频帧区域进行融合得到融合视频帧。

在一个实施例中，拼接视频得到模块1010用于获取第一拼接视频帧的第一特征点和第二拼接视频帧的第二特征点；确定第一特征点与第二特征点之间的水平距离；基于水平距离确定第一拼接视频帧与第二拼接视频帧之间的水平变换值。

在一个实施例中，拼接视频得到模块1010用于从第一重合视频帧区域中获取待融合的当前视频帧；获取当前视频帧对应的视频帧当前拍摄时间与参考视频帧的参考拍摄时间之间的当前时间差异；基于当前时间差异得到当前视频帧对应的当前融合权重，其中，当前时间差异与当前融合权重成正相关关系；基于当前融合权重将当前视频帧与第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧。

在一个实施例中，拼接视频得到模块1010用于获取重合视频帧区域对应的重合区域时间长度；计算当前时间差异与重合区域时间长度的比值，得到当前融合权重。

在一个实施例中，第一重合视频帧区域以及第二重合视频帧区域得到模块1008用于将参考视频帧分别与第一视频中的各个视频帧进行对比，得到第一视频中与参考视频帧匹配的匹配视频帧；将匹配视频帧对应的尾部视频帧区域，作为第一视频对应的第一重合视频帧区域；将第二视频帧中参考视频帧所在的参考视频帧区域，作为第二视频对应的第二重合视频帧区域，参考视频帧为参考视频帧区域的头部视频帧，参考视频帧区域与尾部视频帧区域的视频帧数量匹配。

在一个实施例中，第一重合视频帧区域以及第二重合视频帧区域得到模块1008用于在第一视频中获取预设帧数的尾部视频帧序列，作为第一视频对应的第一重合视频帧区域；从参考视频帧对应的后向视频帧序列中，获取与尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为第二视频对应的第二重合视频帧区域。

在一个实施例中，静止帧序列得到模块1004用于将第一视频或者第二视频转换为平面视频；对平面视频进行静止帧检测，得到静止帧序列。

关于视频拼接装置的具体限定可以参见上文中对于视频拼接方法的限定，在此不再赘述。上述视频拼接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频拼接方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种视频拼接方法，其特征在于，所述方法包括：

获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；

对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；

基于所述静止帧序列，得到参考视频帧；基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；

基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。
根据权利要求1所述的方法，其特征在于，所述基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频包括：

获取拼接视频帧位置，从所述第一重合视频帧区域获取所述拼接视频帧位置对应的第一拼接视频帧，从所述第二重合视频帧区域中获取所述拼接视频帧位置对应的第二拼接视频帧；

确定所述第一拼接视频帧与所述第二拼接视频帧之间的空间变换关系，基于所述空间变换关系对所述第一视频以及所述第二视频进行视频帧对齐；

基于对齐之后的第一视频帧与所述第二视频帧进行视频帧拼接，得到拼接视频，其中，在拼接时，所述第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧。
根据权利要求2所述的方法，其特征在于，所述空间变换关系包括水平变换值，所述确定所述第一拼接视频帧与所述第二拼接视频帧之间的空间变换关系，基于所述空间变换关系对所述第一视频以及所述第二视频进行视频帧对齐包括：

获取所述第一拼接视频帧的第一特征点和所述第二拼接视频帧的第二特征点；

确定所述第一特征点与所述第二特征点之间的水平距离；

基于所述水平距离确定所述第一拼接视频帧与所述第二拼接视频帧之间的水平变换值。
根据权利要求2所述的方法，其特征在于，所述第一重合视频帧区域与所述第二重合视频帧区域进行融合得到融合视频帧的步骤包括：

从所述第一重合视频帧区域中获取待融合的当前视频帧；

获取所述当前视频帧对应的视频帧当前拍摄时间与所述参考视频帧的参考拍摄时间之间的当前时间差异；

基于所述当前时间差异得到当前视频帧对应的当前融合权重，其中，当前时间差异与当前融合权重成正相关关系；

基于当前融合权重将当前视频帧与所述第二重合视频帧区域对应位置的视频帧进行融合，得到当前融合视频帧。
根据权利要求4所述的方法，其特征在于，所述基于当前时间差异得到当前视频帧对应的当前融合权重包括：

获取重合视频帧区域对应的重合区域时间长度；

计算所述当前时间差异与所述重合区域时间长度的比值，得到当前融合权重。
根据权利要求1所述的方法，其特征在于，所述基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域包括：

将所述参考视频帧分别与所述第一视频中的各个视频帧进行对比，得到第一视频中与所述参考视频帧匹配的匹配视频帧；

将所述匹配视频帧对应的尾部视频帧区域，作为所述第一视频对应的第一重合视频帧区域；

将所述第二视频帧中所述参考视频帧所在的参考视频帧区域，作为所述第二视频对应的第二重合视频帧区域，所述参考视频帧为所述参考视频帧区域的头部视频帧，所述参考视频帧区域与所述尾部视频帧区域的视频帧数量匹配。
根据权利要求1所述的方法，其特征在于，所述基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域包括：

在所述第一视频中获取预设帧数的尾部视频帧序列，作为所述第一视频对应的第一重合视频帧区域；

从所述参考视频帧对应的后向视频帧序列中，获取与所述尾部视频帧序列匹配的匹配视频帧序列，将匹配视频帧序列作为所述第二视频对应的第二重合视频帧区域。
根据权利要求1所述的方法，其特征在于，所述对所述第一视频或第二视频进行静止帧检测，得到静止帧序列包括：

将所述第一视频或者第二视频转换为平面视频；

对所述平面视频进行静止帧检测，得到所述静止帧序列。
一种视频拼接装置，其特征在于，所述装置包括：

第一视频和第二视频获取模块，用于获取待拼接的第一视频和第二视频，所述第一视频在所述第二视频之前；

静止帧序列得到模块，用于对所述第一视频或第二视频进行静止帧检测，得到静止帧序列；

参考视频帧得到模块，用于基于所述静止帧序列，得到参考视频帧；

第一重合视频帧区域以及第二重合视频帧区域得到模块，用于基于所述参考视频帧进行重合区域搜索，得到所述第一视频对应的第一重合视频帧区域以及所述第二视频对应的第二重合视频帧区域；

拼接视频得到模块，用于基于所述第一重合视频帧区域以及第二重合视频帧区域将所述第一视频与所述第二视频进行拼接，得到拼接视频。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。