WO2018107910A1

WO2018107910A1 - 一种全景视频融合方法及装置

Info

Publication number: WO2018107910A1
Application number: PCT/CN2017/107988
Authority: WO
Inventors: 张欣; 林耀冬; 陈杰
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2016-12-16
Filing date: 2017-10-27
Publication date: 2018-06-21
Also published as: CN108205797A; EP3557522A4; US10991072B2; EP3557522A1; US20200090303A1; CN108205797B

Abstract

一种全景视频融合方法及装置，用以解决采用拼接方式形成的全景视频图像中全景视频图像不完整的问题。该方法包括：获取全景视频图像（21）；从至少两个长方体三维图像中提取运动目标（22）；对全景视频图像和运动目标进行图像融合处理，形成融合有运动目标的全景视频图像（23）。该方法避免了采用长方体三维模型生成的全景视频图像中运动目标全部或部分消失以及重叠等问题，保证了全景视频图像的完整性，提升了全景视频图像的品质。

Description

一种全景视频融合方法及装置

本申请要求于2016年12月16日提交中国专利局、申请号为201611176064.2、发明名称为“一种全景视频融合方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及图像处理技术领域，尤其涉及一种全景视频融合方法及装置。

背景技术

随着图像处理技术的快速发展，全景视频越来越多地应用在各个领域。全景视频图像是利用摄像头从不同角度对预设场景进行拍摄，之后将拍摄得到的视频图像进行拼接，形成该预设场景的全景视频图像。全景视频图像可以让观赏者通过一幅视频图像方便地浏览该预设场景的全部角度的场景。

由于将多个视频图像拼接生成全景视频图像，需要利用长方体三维模型先将多个视频图像转化为多个长方体三维图像，在拼接这些长方体三维图像时，相邻长方体三维图像的拼接贴合面会被裁减掉，因此，拼接贴合面上的图像也会被裁减掉。这样，融合后的全景视频图像中，运动目标移动到拼接贴合面时的图像被裁减掉了，进而导致运动目标在经过拼接处时或者到达拼接处附近时消失。

具体地，参照图1所示，为相关技术中运动目标显示异常的简单示意图；该图1中，简单示出具有一定高度的人形作为运动目标，该运动目标由左至右在预设场景(该预设场景包含鱼眼1号和鱼眼2号分别所在的两个局部空间)中行走，当运动目标行走至A点，鱼眼1号和鱼眼2号分别采集相应的视频图像，虚线表示从各自鱼眼摄像头所在位置获取运动目标的采集视线的边界，此时通过进一步分析可知，在鱼眼1号的采集视线中，运动目标的投影均位于地板上，如图中黑色粗线段表示；在鱼眼2号的采集视线中，运动目标的投影均位于拼接墙上，如图中黑色粗线段表示。当运动目标行走至B点时，在鱼眼1号的采集视线中，运动目标的投影部分位于地板上，部分位于拼接处，如图中黑色粗线段表示；在鱼眼2号的采集视线中，运动目标的投影位于拼接处，如图中黑色粗线段表示。由此可知，在将两个局部空间的视频图像进行拼接时，拼接处的视频图像会被剪裁掉，从而导致位于预设拼接区域的运动目标消失，使得生成的全景视频图像不完整。

发明内容

本申请实施例提供一种全景视频融合方法，用以解决采用拼接方式形成的全景视频图像中全景视频图像不完整的问题。

本申请实施例还提供一种全景视频融合装置，用以解决采用拼接方式形成的全景视频图像中全景视频图像不完整的问题。

本申请实施例采用下述技术方案：

一种全景视频融合方法，包括：

获取全景视频图像，其中，所述全景视频图像根据至少两个长方体三维图像拼接形成；

从所述至少两个长方体三维图像中提取运动目标；

对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。

通过上述技术方案，针对采用长方体三维模型生成的全景视频图像，从生成全景视频图像时采用的长方体三维图像中提取运动目标，之后，将该运动目标融合到全景视频图像中，从而，避免了由于采用长方体三维模型生成的全景视频图像而导致运动目标显示异常的问题，保证了全景视频图像的画面完整性。

可选地，从所述至少两个长方体三维图像中提取运动目标，具体包括：

当检测到所述全景视频图像中有运动目标在拼接区域显示异常时，从所述至少两个长方体三维图像中提取所述运动目标。

应用该方案可以针对性地提取存在异常的运动目标，而不对正常显示的运动目标进行额外处理，提升了提取的效率及准确性，且降低了提取的繁琐性。

从拼接区域对应的长方体三维图像中确定对象图像；

确定所述对象图像中运动前景图像对应的像素点；

根据确定的所述像素点识别运动目标的轮廓；

获取所述运动目标的轮廓所对应图像区域的掩码信息；

根据所述掩码信息提取所述运动目标。

应用上述技术方案，可保证提取的运动目标的准确性。

可选地，从拼接区域对应的长方体三维图像中确定对象图像，具体包括：

确定运动目标所在的拼接区域所属的长方体三维图像；

将确定出的所述长方体三维图像的地面图像作为对象图像。

通过上述技术方案，可保证提取的运动目标的完整性。

可选地，确定所述对象图像中运动前景图像对应的像素点，具体包括：

采用高斯背景建模算法对选取的对象图像中的每一像素点进行高斯背景模型检测，确定运动前景图像对应的像素点。

采用高斯背景建模算法，能够实时且稳定地对所选取的对象图像进行检测，提升获取运动目标的准确性。

可选地，对所述全景视频图像和所述运动目标进行图像融合处理，具体包括：

将所述运动目标插入所述全景视频图像的待融合区域；

采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值；

根据所述确定的像素点的颜色值对所述待融合区域进行图像重构。

应用上述技术方案，能够保证运动目标较佳地融合到全景视频图像中。

可选地，采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值，具体包括：

确定所述插入有运动目标的全景视频图像的颜色值的散度；以及，

根据所述全景视频图像的待融合区域的边界约束条件生成稀疏矩阵；

构建以下泊松方程：

Ax＝B (1)

其中，所述A为稀疏矩阵，所述B为插入有运动目标的全景视频图像的颜色值的散度，所述x为待求解的像素点的颜色值；

求解所述泊松方程，确定融合区域中像素点的颜色值。

应用该技术方案，能够确保运动目标融合到全景视频图像之后，融合区域与其他区域实现自然无缝的融合效果。

一种全景视频融合装置，包括：

获取单元，用于获取全景视频图像，其中，所述全景视频图像根据至少两个长方体三维图像拼接形成；

提取单元，用于从所述至少两个长方体三维图像中提取运动目标；

融合单元，用于对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。

可选地，所述提取单元，具体用于：

在检测到所述全景视频图像中有运动目标在拼接区域显示异常时，从所述拼接区域对应的长方体三维图像中提取所述运动目标。

可选地，所述提取单元，具体用于：

从拼接区域对应的长方体三维图像中确定对象图像；

确定所述对象图像中运动前景图像对应的像素点；

根据确定的所述像素点识别运动目标的轮廓；

获取所述运动目标的轮廓所对应图像区域的掩码信息；

根据所述掩码信息提取所述运动目标。

应用上述技术方案，可保证提取的运动目标的准确性。

可选地，所述提取单元在从拼接区域对应的长方体三维图像中确定对象图像时，具体用于：

确定运动目标所在的拼接区域所属的长方体三维图像；

将确定出的所述长方体三维图像的地面图像作为对象图像。

应用上述技术方案，可保证提取的运动目标的完整性。

可选地，所述提取单元在确定所述对象图像中运动前景图像对应的像素点时，具体用于：

可选地，所述融合单元，具体用于：

将所述运动目标插入所述全景视频图像的待融合区域；

可选地，所述融合单元在采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值时，具体用于：

构建以下泊松方程：

Ax＝B (1)

求解所述泊松方程，确定融合区域中像素点的颜色值。

本申请实施例还提供了一种电子设备，适用于全景视频融合，所述电子设备包括：处理器、存储器；所述存储器，用于存储可执行代码；所述处理器，通过读取存储器中存储的可执行代码，以用于执行以下步骤：

从所述至少两个长方体三维图像中提取运动目标；

本申请实施例还提供了一种存储介质，用于存储可执行代码，所述可执行代码在运行时用于执行本申请实施例任一项所述的全景视频融合方法。其中，该全景视频融合方法包括：

从所述至少两个长方体三维图像中提取运动目标；

本申请实施例还提供了一种全景视频融合系统，包括至少两个全景摄像头，以及图像处理器，其中：

所述至少两个全景摄像头，用于分别采集预设场景中各局部空间的二维图像；

所述图像处理器，用于针对每个局部空间，根据该局部空间的二维图像和该局部空间对应的长方体三维模型，确定该局部空间的长方体三维图像；

根据至少两个长方体三维图像拼接形成全景视频图像；

从所述至少两个长方体三维图像中提取运动目标；

应用上述技术方案，针对采用长方体三维模型生成的全景视频图像，从生成全景视频图像时采用的长方体三维图像中提取运动目标，之后，将该运动目标融合到全景视频图像中，从而，避免了由于采用长方体三维模型生成的全景视频图像而导致运动目标显示异常的问题，保证了全景视频图像的画面完整性。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为相关技术中运动目标显示异常的简单示意图；

图2为本申请实施例1提供的一种全景视频融合方法的步骤示意图；

图3为本申请实施例1中所涉及的全景视频图像的生成方法步骤示意图；

图4(a)为本申请实施例1提供的一种空间结构不规则的预设场景的平面俯视图；

图4(b)为本申请实施例1提供的对图4(a)所示的预设场景划分后的平面俯视图；

图4(c)为本申请实施例1提供的图4(b)所示的预设场景中各局部空间对应的长方体三维模型的平面俯视图；

图4(d)为本申请实施例提供的图4(c)所示的三个鱼眼摄像头分别采集的三个局部空间的二维图像；

图4(e)为本申请实施例1提供的一种鱼眼摄像头的投影模型示意图；

图4(f)为本申请实施例1提供的基于图4(d)所示的二维图像分别对应生成的长方体三维图像的效果图；

图4(g)为本申请实施例1提供的将各长方体三维图像直接进行拼接后生成的预设场景的全景视频图像的三维效果图；

图5为本申请实施例1中从长方体三维图像中提取运动目标的方法步骤示意图；

图6为本申请实施例1中根据确定的像素点识别运动目标的轮廓的示意图；

图7为本申请实施例2提供的泊松融合方法的步骤示意图；

图8为本申请实施例3提供的一种全景视频融合装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

实施例1

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。其中，该设备可以为任何具备图像处理功能的设备，如电子计算机、图像处理设备等；也可以是视频监控系统的控制设备。

如图2所示，为本申请实施例1提供的一种全景视频融合方法的步骤示意图，该方法主要包括以下步骤：

步骤21：获取全景视频图像。

其中，该步骤中所涉及的全景视频图像可以根据设置于预设场景不同位置处的至少两个全景摄像头分别对应的长方体三维图像拼接形成。全景摄像头可以是具有超大视场角，能够以大范围无盲角的方式对特定空间进行拍摄的摄像头，例如可以是鱼眼摄像头。为了描述的方便，本申请实施例以鱼眼摄像头为例展开解释，这并不构成对本申请的限制。

具体地，全景视频图像可以通过以下方式生成，参照图3所示的步骤流程图：

步骤31：获取各全景摄像头分别采集的预设场景中各局部空间的二维图像。

在本申请实施例中，预设场景可以是不规则的，例如，预设场景中可以存在较多的墙面以及拐角，致使该预设场景的视野并不开阔，利用多视角拍摄或单个全景摄像头拍摄并不能采集到该预设场景的全景。

参照图4(a)所示，为本申请实施例1提供的一种空间结构不规则的预设场景的平面俯视图。该预设场景的边界不规则，存在较多遮挡视野的墙面以及拐角，该预设场景大致呈“L”形。

在执行步骤31之前，可以由工作人员预先完成一些准备工作，包括对预设场景中尺寸参数的测量，对预设场景中各局部空间的划分，在各局部空间内安装单个鱼眼摄像头，以及建立各局部空间的预设长方体三维模型，或者，上述准备工作也可以基于机器视觉和智能算法依照预先设定的测量规则、划分规则和模型建立规则实现。

以图4(a)所示的预设场景为例，根据预设场景的空间结构，预先将预设场景划分为若干局部空间。其中，划分的标准是，每个局部空间的视野是开阔的且不大于鱼眼摄像头的可视域，以保证安装于该局部空间中的单个鱼眼摄像头的拍摄范围没有死角。基于此标准，划分局部空间的方式可以有多种，本申请对此不作限制。值得强调的是，划分好的各局部空间之间可以有重合的部分，也可以没有重合部分。图4(b)是本申请实施例提供的对图4(a)所示的预设场景划分后的平面俯视图。如图4(b)所示，将预设场景划分为三个局部空间，分别以不同的划分线定义出局部空间一至局部空间三，其中，局部空间一对应短虚线的划分线，局部空间二对应点虚线的划分线，局部空间三对应长虚线的划分线，三个局部空间之间有重合部分。

划分局部空间完毕后，根据各局部空间的结构，分别确定各局部空间对应的预设长方体三维模型。其中，各预设长方体三维模型的上表面的中心位置可以是安装于对应的各局部空间内的鱼眼摄像头的位置，预设长方体三维模型可以是能够完全包裹对应局部空间的长方体，尤其可以是对应局部空间的最小外接长方体。图4(c)是本申请实施例1提供的图4(b)所示的预设场景中各局部空间对应的长方体三维模型的平面俯视图。如图4(c)所示，黑色大圆点代表鱼眼摄像头，三个预设长方体三维模型的边界分别用不同的线条表示，对应关系同图4(b)。

作为另一种实施方式，各预设长方体三维模型在水平方向上的中截面的中心，可以是安装于对应的各局部空间内的鱼眼摄像头的位置，该预设长方体三维模型可以是能够完全包裹对应的局部空间的长方体。该预设长方体三维模型与图4(e)所示投影模型相对应。

在本申请实施例中，各鱼眼摄像头分别采集到的各局部空间的原始二维图像是呈圆形的平面二维图像。图4(d)是本申请实施例提供的图4(c)所示的三个鱼眼摄像头分别采集的三个局部空间的二维图像。

步骤32：针对每个局部空间，根据该局部空间的二维图像和该局部空间对应的长方体三维模型，确定该局部空间的长方体三维图像。

在本申请实施例中，可以根据该局部空间的二维图像上的特定数量的像素点，分别确定特定数量的像素点中的每个像素点在该局部空间对应的长方体三维模型投影得到的各投影像素点；再根据确定出的各投影像素点，确定该局部空间的长方体三维图像。

在本申请实施例中，特定数量可以是二维图像中的所有像素点，也可以是二维图像中的部分像素点。具体地，该局部空间的二维图像上的部分像素点具体可以是：在二维图像的各像素点中，按各像素点的排列顺序以一定间隔抽取的部分像素点。抽取部分像素点的方式可以有多种，只要抽取出的部分像素点组成的低分辨率二维图像能在一定程度上保留二维图像的主要信息即可。

由于鱼眼摄像头的投影原理，可以将鱼眼摄像头的可视域视为一个半球球面，将采集到的二维图像视为该半球球面向自身正下方投影得到的平面图像。图4(e)是本申请实施例提供的一种鱼眼摄像头的投影模型示意图。如图4(e)所示，该局部空间对应的长方体三维模型的外接球面的球心可视为鱼眼摄像头所安装的位置，所述预设长方体三维模型在水平方向上、包含球心的中截面可视为该局部空间的上表面，所述预设长方体三维模型的下半部分可视为该局部空间，所述外接球面的下半球面可视为鱼眼摄像头的可视域，那么，鱼眼摄像头的可视域向自身正下方投影得到的平面图像，就是所述原始二维图像，其中，点1是该局部空间的预设长方体三维模型下表面上的投影像素点，点2是与点1对应的，投影到球面上的球面像素点，点3是点2在垂直方向上投影到平面上的原始像素点。

具体地，本申请实施例提供了一种根据该局部空间的二维图像上的各像素点，分别确定各像素点在该局部空间对应的长方体三维模型上投影得到的各投影像素点的方式，即：确定该局部空间对应的长方体三维模型的外接球面，外接球面的半径不大于全景摄像头的可视距离，该局部空间的二维图像位于该局部空间对应的长方体三维模型的正下方；针对该局部空间的二维图像上的每个像素点，在垂直于二维图像所在平面的方向上，确定该像素点在外接球面上的投影作为球面像素点；确定外接球面的球心与该球面像素点的连线；将该连线与该局部空间对应的长方体三维模型的面的交点作为该像素点在该局部空间对应的长方体三维模型上投影得到的投影像素点；将该像素点的像素值(即颜色值)作为该像素点对应的投影像素点的像素值。

在本申请实施例中，确定出各像素点在该局部空间对应的长方体三维模型上投影得到的各投影像素点后，对该局部空间对应的长方体三维模型进行着色，将着色后的该局部空间的长方体三维模型作为该局部空间的长方体三维图像。图4(f)是本申请实施例提供的基于图4(d)所示的二维图像分别对应生成的长方体三维图像的效果图。

步骤33：根据确定出的各局部空间的长方体三维图像，生成该预设场景的全景视频图像。

在本申请实施例中，可以根据各局部空间分别对应的各预设长方体三维模型的相对位置，放置各长方体三维图像，然后对各长方体三维图像之间的拼接处进行几何调整，直至相邻长方体三维图像之间完全衔接，得到的便是预设场景的全景视频图像，参见图4(g)所示，为本申请实施例提供的将各长方体三维图像直接进行拼接后生成的预设场景的全景视频图像的三维效果图。

其实，在本申请实施例中，针对该步骤21的执行主体而言，其获取全景视频图像的方式可以采用但不限于以下两种：

方式一：接收已经由其他设备按照上述步骤31-步骤33的方式生成的全景视频图像。

方式二：根据上述步骤31-步骤33的方案由自身生成全景视频图像。

然而，无论通过何种方式获取全景视频图像，针对确定出的全景视频图像，由于仅采用长方体三维模型的拼接处理，因此，都会存在相关技术中的全景视频图像不完整的问题。

为了能够解决上述拼接方案所带来的位于拼接区域的运动目标显示异常的问题，可以从所涉及的至少两个长方体三维图像中提取该运动目标，然后，将该运动目标融合到生成的全景视频图像中，以保证全景视频图像的完整性。

其中，该拼接区域可在生成全景视频图像之后进行确定。具体地，该拼接区域的一边界为拼接处，另一边界为预设准线。针对其中的任一长方体三维图像，可在生成全景视频图像之后，确定在长方体三维图像中的拼接处的位置。同时，根据运动目标的高度以及鱼眼摄像头的采集角度确定预设准线的位置。从而，确定该拼接区域。

步骤22：从至少两个长方体三维图像中提取运动目标。

具体地，在本步骤22中，可以从拼接形成全景视频图像的长方体三维图像中提取出所有的运动目标，然后，通过图像融合方法将运动目标进行融合处理。

可选地，为了能够避免对所有运动目标进行提取操作而存在的繁琐性，可以在检测到全景视频图像中有运动目标在拼接区域显示异常时，从至少两个长方体三维图像中提取运动目标。从而，可以针对性地提取存在异常的运动目标，而不对正常显示的运动目标进行额外处理，一方面提升了提取的效率及准确性，另一方面，降低了提取的繁琐性。

其中，运动目标在拼接区域显示异常，可以指运动目标在拼接区域全部或部分消失，或者出现重影显示等非正常显示的状况。

具体地，在本申请中，可以通过图像对比的方式，将确定的全景视频图像与拼接时所使用的所有长方体三维图像进行比对，若两者不匹配，则确定检测到全景视频图像中有运动目标显示异常，进而，可以从相应的长方体三维图像中提取运动目标。

进一步，参照图5所示，从长方体三维图像中提取运动目标可具体采用以下步骤实现：

步骤401：从拼接区域对应的长方体三维图像中确定对象图像。

为了确保提取到的运动目标的完整性，可以事先确定好提取运动目标所使用的对象图像的准确性，即不仅要保证该对象图像中包含有完整运动目标；而且，还要保证提取的运动目标位于拼接区域，避免额外提取已经存在的运动目标。因而，该步骤401可具体采用以下步骤执行：

第一步，确定运动目标所在的拼接区域所属的长方体三维图像。

在本步骤中，为了减少处理复杂度，避免对所有的长方体三维图像进行运动目标的提取，该步骤将处理对象限定为运动目标所在的拼接区域所属的长方体三维图像，从而，保证提取运动目标的准确性。

第二步，将确定出的长方体三维图像的地面图像作为对象图像。

其实，在本申请方案中，考虑到针对的预设场景主要为室内场景。因此，当有运动目标存在时，一般情况下都是以行走在地面上的人或动物作为运动目标。此时，可以长方体三维图像中的地面图像作为对象图像，若除了行走在地面的运动目标以外，还考虑飞行的运动目标，例如在室内场景中飞行的模型飞机等，则可以整个长方体三维图像作为对象图像。

步骤402：确定对象图像中运动前景图像对应的像素点。

在该步骤402中，确定运动前景的方式有多种，可采用帧差、运动竞争、背景减除等方式，以准确识别出运动前景。其中，本申请以高斯背景建模算法进行运动前景的提取。

首先，介绍高斯背景建模算法，该算法主要是根据对当前确定的背景图像(即本申请中对象图像)进行的背景估计，把对背景图像的运动目标检测问题转化为一个二分类问题，将所有属于该背景图像的像素点划分为固定背景和运动前景两类，进而对分类结果进行处理，得到最终检测结果。

下面，详述本申请采用高斯背景建模算法检测出运动前景的方案，步骤402可具体执行为：

在高斯背景模型的建立过程中，将选取的对象图像中的每一个像素点的颜色值作为一个随机函数P，假设该像素点的颜色值出现的概率服从高斯分布，令I(x,y,t)表示像素点(x,y)在t时刻的颜色值，根据高斯背景建模算法可得到针对任一像素点(x,y)的概率密度函数：

其中，u_t和σ_t分别为t时刻该像素点(x,y)的高斯分布的期望值和标准差，P(I)表示该像素点的颜色值。

具体而言，对于t时刻的颜色值I(x,y,t)，可以按照下面的公式(3)来检测运动前景图像和固定背景图像：

其中，当|I(x,y,t)-u_t-1(x,y)|<λ*σ_t-1(x,y)时，颜色值I(x,y,t)取值均为0，表示检测出的像素点均为固定背景图像的像素点；当|I(x,y,t)-u_t-1(x,y)|≥λ*σ_t-1(x,y)时，颜色值I(x,y,t)取值均为1，表示检测出的像素点均为运动前景图像的像素点，u_t-1和σ_t-1分别为t-1时刻该像素点(x,y)的高斯分布的期望值和标准差。

至此，可以通过上述方式确定出所需的运动前景图像对应的像素点。而且，通过高斯背景建模算法对对象图像的运动前景以及固定背景进行检测时，由于其在背景估计过程中与时间有联系，因此，高斯背景建模算法具有较高的实时性以及稳定性，这能够提升检测准确性。

步骤403：根据确定的像素点识别运动目标的轮廓。

其实，在确定处运动前景图像对应的像素点之后，可根据这些像素点从对象图像中识别出运动目标的轮廓。所谓运动目标，在本申请实施例中，实际为在预设场景中移动的物体，包括：行走或跑动的人、动物等，以及移动的椅子、飞机等其他非生物体。参照图6所示，假设对象图像中的运动目标为一行走的人，那么根据上述高斯背景建模算法确定出运动前景的像素点，然后利用这些像素点识别出人的轮廓，以保证后续获取的运动目标的完整性。

步骤404：获取运动目标的轮廓所对应图像区域的掩码信息。

由于高斯背景建模算法只是一种背景估计，根据像素点识别出的包含运动目标的轮廓，并不一定是所需的运动目标本身的轮廓。因此，需要获取确定的运动目标的轮廓所对应图像区域的掩码信息。其中，掩码信息可以是人为设定的二值图像的信息，指图像上的每一个像素存在的两种可能的取值或灰度等级状态，并且人们经常用黑白、B&W、单色图像表示二值图像。本申请中由于使用了高斯背景建模算法，因此，可以基于上述确定的0或1的二分值来表示运动目标的掩码信息。

步骤405：根据掩码信息提取运动目标。

具体地，可以根据运动目标的轮廓所对应图像区域的掩码信息，从中提取所需的运动目标。例如，若运动目标的掩码值为1，则从掩码信息中提取掩码值1所对应的像素点作为运动目标。其实，在具体的提取过程中，也会使用到像素点的位置以及该像素点的颜色值等信息。

步骤23：对全景视频图像和运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。

具体地，将提取出的运动目标融合到全景视频图像的相应位置处，可以完整展现实际的预设场景的情形，避免在拼接处或拼接处附近出现运动目标显示异常的状况，提升全景视频图像的准确性和完整性。

由此，通过本申请技术方案，针对采用长方体三维模型生成的全景视频图像，从生成全景视频图像时采用的长方体三维图像中提取位于拼接区域的运动目标，之后，将该运动目标融合到全景视频图像中，从而，避免了由于采用长方体三维模型生成的全景视频图像而导致运动目标在拼接处或拼接处附近显示异常的问题，保证了全景视频图像的画面完整性。尤其是在本实施例1中，采用了高斯背景建模算法，能够实时且稳定地对所选取的对象图像进行检测，提升获取运动目标的准确性。

实施例2

基于上述实施例1提供的全景视频融合方法，在将提取出的运动目标融合到全景视频图像中时，运动目标与全景视频图像的待融合区域的边界可能出现灰度融合不均匀的情况。为解决此问题，本申请实施例2提供了一种对全景视频图像和运动目标进行图像融合处理的方案，参照图7所示，为本申请实施例2提供的泊松融合方法的步骤示意图，该方法主要包括：

步骤51：将运动目标插入全景视频图像的待融合区域。

具体地，将通过实施例1中的方案提取出的运动目标采用插值算法插入全景视频图像的待融合区域，使得待融合区域呈现运动目标。

步骤52：采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值。

在本步骤52中，确定插入有运动目标的全景视频图像的颜色值的散度；以及，根据全景视频图像的待融合区域的边界约束条件生成稀疏矩阵；需要说明的是，计算散度以及稀疏矩阵可以同时进行，也可以不分先后顺序地依次执行。之后，利用计算得到的散度以及稀疏矩阵构建以下泊松方程：

Ax＝B (1)

求解上述泊松方程，确定融合区域中像素点的颜色值。

其实，在该步骤中所涉及的稀疏矩阵以及插入有运动目标的全景视频图像的颜色值的散度值可以通过以下方式得到：

插入有运动目标的全景视频图像的颜色值的散度的确定：计算运动目标对应的视频图像的梯度场，计算在拼接处有图像显示异常的全景视频图像的梯度场，计算插入有运动目标的全景视频图像的梯度场，然后对插入有运动目标的全景视频图像的梯度求偏导，确定出插入有运动目标的全景视频图像的散度值。

稀疏矩阵的确定：针对融合区域中每个像素点，对每个像素点求散度值，其中，位于边界处的像素点的散度值通过边界约束条件得到，而边界以外的像素点的散度值通过位于其上、下、左、右的四个像素点的颜色值求和，并与四倍的该像素点的颜色值作差得到。

步骤53：根据确定的像素点的颜色值对融合区域进行图像重构。

在确定出融合区域的各个像素点对应的颜色值后，对融合区域的各像素点进行处理，在该融合区域进行图像重构，即根据确定的像素点的颜色值替换融合区域中各像素点的颜色值，实现图像重构。

采用上述融合方案后，全景视频图像中位于拼接区域的运动目标完整，且在融合边界处的像素点的颜色值较为连续，实现了自然无缝的融合，提升了融合效果，保证了全景视频图像的品质。

通过上述技术方案，针对采用长方体三维模型生成的全景视频图像，从长方体三维模型中提取位于拼接区域的运动目标，之后，将该运动目标融合到全景视频图像中，从而，避免了由于采用长方体三维模型生成的全景视频图像而导致运动目标在拼接处或拼接处附近显示异常的问题，尤其是解决了运动目标显示异常问题，保证了全景视频图像的画面完整性。尤其是采用泊松融合算法对运动目标进行融合处理，由于泊松融合算法充分考虑了运动目标所对应的图像区域的颜色散度值，且利用了边界条件作为限定，使得确定出的融合区域中各像素点的颜色值与全景视频图像中融合区域以外的区域能够自然无缝地衔接，从而，保证重构后的融合区域的图像与全景视频区域中融合区域以外的区域之间的边界处像素点的颜色值较为连续，实现了自然无缝的融合，提升了融合效果，保证了全景视频图像的品质。

实施例3

与上述实施例1和实施例2属于同一发明构思，本申请还提供了一种全景视频融合装置。如图8所示，该装置主要包括以下功能单元：

获取单元61，用于获取全景视频图像，其中，全景视频图像根据至少两个长方体三维图像拼接形成；

提取单元62，用于从至少两个长方体三维图像中提取运动目标；

融合单元63，用于对全景视频图像和运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。

一种可选的实施方式中，为了降低提取的运动目标的繁琐性以及提升提取操作的准确性，提取单元具体用于在检测到全景视频图像中有运动目标在拼接区域显示异常时，从拼接区域对应的长方体三维图像中提取运动目标。

一种可选的实施方式中，为了保证提取的运动目标的准确性，提取单元在从至少两个长方体三维图像中提取运动目标时，具体用于从拼接区域对应的长方体三维图像中确定对象图像，确定对象图像中运动前景图像对应的像素点，根据确定的像素点识别运动目标的轮廓，获取运动目标的轮廓所对应图像区域的掩码信息，根据掩码信息提取运动目标。

一种可选的实施方式中，为了保证提取的运动目标的完整性，提取单元在从长方体三维图像中确定对象图像时，具体用于确定运动目标所在的拼接区域所属的长方体三维图像，将确定出的长方体三维图像的地面图像作为对象图像。

一种可选的实施方式中，为了保证确定出的运动前景图像对应的像素点的准确性，提取单元在确定对象图像中运动前景图像对应的像素点时，具体用于采用高斯背景建模算法对选取的对象图像中的每一像素点进行高斯背景模型检测，确定运动前景图像对应的像素点。

一种可选的实施方式中，为了确保运动目标能够较佳地融合到全景视频图像中，融合单元可具体用于将运动目标插入全景视频图像的待融合区域，采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值，根据确定的像素点的颜色值对待融合区域进行图像重构。

一种可选的实施方式中，为了确保运动目标融合到全景视频图像之后，融合区域与其他区域能够实现自然无缝的融合效果，融合单元在采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值时，具体用于：确定插入有运动目标的全景视频图像的颜色值的散度；以及，根据全景视频图像的待融合区域的边界约束条件生成稀疏矩阵；构建以下泊松方程：

Ax＝B (1)

其中，所述A为稀疏矩阵，所述B为插入有运动目标的全景视频图像的颜色值的散度，所述x为待求解的像素点的颜色值；求解所述泊松方程，确定融合区域中像素点的颜色值。

通过上述技术方案，采用全景视频图像融合装置执行上述实施例1或实施例2中的方案，能够有效解决由于采用长方体三维模型生成的全景视频图像中运动目标在拼接处或拼接处附近消失的问题。一方面，采用高斯背景建模算法能够实时且稳定地对所选取的对象图像进行检测，提升获取运动目标的准确性，从而保证全景视频图像的画面完整性。另一方面，采用泊松融合算法对运动目标进行融合处理，使得确定出的融合区域中各像素点的颜色值与全景视频图像中融合区域以外的区域能够自然无缝地衔接，从而，保证重构后的融合区域的图像与全景视频区域中融合区域以外的区域之间的边界处像素点的颜色值较为连续，实现了自然无缝的融合，提升了融合效果，保证全景视频图像的品质。

本申请实施例还提供了一种电子设备，适用于全景视频融合，所述电子设备包括：处理器、存储器；该存储器，用于存储可执行代码；该处理器，通过读取存储器中存储的可执行代码，以用于执行以下步骤：

从所述至少两个长方体三维图像中提取运动目标；

其中，该电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本申请实施例还提供了一种存储介质，用于存储可执行代码，所述可执行代码在运行时用于执行本申请实施例任一项所述的全景视频融合方法。具体的，该全景视频融合方法包括：

从所述至少两个长方体三维图像中提取运动目标；

根据至少两个长方体三维图像拼接形成全景视频图像；

从所述至少两个长方体三维图像中提取运动目标；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解，可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，这些介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种全景视频融合方法，其特征在于，包括：

获取全景视频图像，其中，所述全景视频图像根据至少两个长方体三维图像拼接形成；

从所述至少两个长方体三维图像中提取运动目标；

对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。
如权利要求1所述的方法，其特征在于，从所述至少两个长方体三维图像中提取运动目标，具体包括：

当检测到所述全景视频图像中有运动目标在拼接区域显示异常时，从所述至少两个长方体三维图像中提取所述运动目标。
如权利要求1所述的方法，其特征在于，从所述至少两个长方体三维图像中提取运动目标，具体包括：

从拼接区域对应的长方体三维图像中确定对象图像；

确定所述对象图像中运动前景图像对应的像素点；

根据确定的所述像素点识别运动目标的轮廓；

获取所述运动目标的轮廓所对应图像区域的掩码信息；

根据所述掩码信息提取所述运动目标。
如权利要求3所述的方法，其特征在于，从拼接区域对应的长方体三维图像中确定对象图像，具体包括：

确定运动目标所在的拼接区域所属的长方体三维图像；

将确定出的所述长方体三维图像的地面图像作为对象图像。
如权利要求3所述的方法，其特征在于，确定所述对象图像中运动前景图像对应的像素点，具体包括：

采用高斯背景建模算法对选取的对象图像中的每一像素点进行高斯背景模型检测，确定运动前景图像对应的像素点。
如权利要求1-5任一项所述的方法，其特征在于，对所述全景视频图像和所述运动目标进行图像融合处理，具体包括：

将所述运动目标插入所述全景视频图像的待融合区域；

采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值；

根据所述确定的像素点的颜色值对所述待融合区域进行图像重构。
如权利要求6所述的方法，其特征在于，采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值，具体包括：

确定所述插入有运动目标的全景视频图像的颜色值的散度；以及，

根据所述全景视频图像的待融合区域的边界约束条件生成稀疏矩阵；

构建以下泊松方程：

Ax＝B (1)

其中，所述A为稀疏矩阵，所述B为插入有运动目标的全景视频图像的颜色值的散度，所述x为待求解的像素点的颜色值；

求解所述泊松方程，确定融合区域中像素点的颜色值。
一种全景视频融合装置，其特征在于，包括：

获取单元，用于获取全景视频图像，其中，所述全景视频图像根据至少两个长方体三维图像拼接形成；

提取单元，用于从所述至少两个长方体三维图像中提取运动目标；

融合单元，用于对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。
如权利要求8所述的装置，其特征在于，所述提取单元，具体用于：

在检测到所述全景视频图像中有运动目标在拼接区域显示异常时，从所述拼接区域对应的长方体三维图像中提取所述运动目标。
如权利要求8所述的装置，其特征在于，所述提取单元，具体用于：

从拼接区域对应的长方体三维图像中确定对象图像；

确定所述对象图像中运动前景图像对应的像素点；

根据确定的所述像素点识别运动目标的轮廓；

获取所述运动目标的轮廓所对应图像区域的掩码信息；

根据所述掩码信息提取所述运动目标。
如权利要求10所述的装置，其特征在于，所述提取单元在从拼接区域对应的长方体三维图像中确定对象图像时，具体用于：

确定运动目标所在的拼接区域所属的长方体三维图像；

将确定出的所述长方体三维图像的地面图像作为对象图像。
如权利要求10所述的装置，其特征在于，所述提取单元在确定所述对象图像中运动前景图像对应的像素点时，具体用于：

采用高斯背景建模算法对选取的对象图像中的每一像素点进行高斯背景模型检测，确定运动前景图像对应的像素点。
如权利要求8-12任一项所述的装置，其特征在于，所述融合单元，具体用于：

将所述运动目标插入所述全景视频图像的待融合区域；

采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值；

根据所述确定的像素点的颜色值对所述待融合区域进行图像重构。
如权利要求13所述的装置，其特征在于，所述融合单元在采用泊松融合算法确定插入有运动目标的全景视频图像的融合区域中像素点的颜色值时，具体用于：

确定所述插入有运动目标的全景视频图像的颜色值的散度；以及，

根据所述全景视频图像的待融合区域的边界约束条件生成稀疏矩阵；

构建以下泊松方程：

Ax＝B (1)

其中，所述A为稀疏矩阵，所述B为插入有运动目标的全景视频图像的颜色值的散度，所述x为待求解的像素点的颜色值；

求解所述泊松方程，确定融合区域中像素点的颜色值。
一种电子设备，其特征在于，所述电子设备包括：处理器、存储器；所述存储器，用于存储可执行代码；所述处理器，通过读取存储器中存储的可执行代码，以用于执行以下步骤：

获取全景视频图像，其中，所述全景视频图像根据至少两个长方体三维图像拼接形成；

从所述至少两个长方体三维图像中提取运动目标；

对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。
一种存储介质，其特征在于，用于存储可执行代码，所述可执行代码在运行时用于执行权利要求1-7任一项所述的全景视频融合方法。
一种全景视频融合系统，其特征在于，包括至少两个全景摄像头，以及图像处理器，其中：

所述至少两个全景摄像头，用于分别采集预设场景中各局部空间的二维图像；

所述图像处理器，用于针对每个局部空间，根据该局部空间的二维图像和该局部空间对应的长方体三维模型，确定该局部空间的长方体三维图像；

根据至少两个长方体三维图像拼接形成全景视频图像；

从所述至少两个长方体三维图像中提取运动目标；

对所述全景视频图像和所述运动目标进行图像融合处理，形成融合有运动目标的全景视频图像。