WO2018053952A1

WO2018053952A1 - 一种基于场景样本库的影视图像深度提取方法

Info

Publication number: WO2018053952A1
Application number: PCT/CN2016/109982
Authority: WO
Inventors: 王勋; 杨涛; 王慧燕
Original assignee: 浙江工商大学
Priority date: 2016-09-26
Filing date: 2016-12-14
Publication date: 2018-03-29
Also published as: CN106548494A

Abstract

一种基于场景样本库的影视图像深度提取方法，包括：建立深度场景库、图片特征提取、深度图片融合、前景目标深度估计、深度图整体优化。利用普通RGB图片之间的相似性，将已有的深度图片中的深度值迁移到输入目标图片；在实际影视制作过程中，可以建立多个场景库，利用相似场景中的深度图片，生成输入目标图片的深度图。能够将人工参与的深度调整减少到最低，提高工作效率，具有准确性高，处理时间短的特点。

Description

一种基于场景样本库的影视图像深度提取方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于场景样本库的影视图像深度提取方法。

背景技术

三维视频已经成为不可阻挡的技术热潮，因其带来的视觉冲击力，场景的真实感，受到大量的电影、电视和广告等行业技术人员和销售人员青睐。但目前三维视频内容依旧缺乏，将现有的众多二维视频转换为三维视频受到越来越多的重视。其中最主要的方法是首先计算得到原有二维视频的深度信息，再通过DIBR(Depth Image Based Rendering)技术获得虚拟视点视频图像，合成相应的三维视频。

现有的三维视频的来源主要分为硬件实现和软件实现。硬件方法是直接使用立体相机并在多个角度完成拍摄。软件方法则是通过软件的方法将已有的二维视频转化成三维立体视频，主要有以下两类：

(1)利用视频或图像编辑软件，人工对视频中的每帧图像进行分割，逐一手动确定该帧图像中每个物体的前后关系，赋以相应的深度值。这种方法得到的深度图具有较高的精度，质量较好，但由于需要逐帧进行视频图像分割与深度赋值，需要耗费大量的人工，效率不高。

(2)与全人工赋值相反的二维视频到三维视频的全自动转换技术，对接收到的二维视频信息进行分析并计算出深度图，再采用DIBR的方法合成三维视频。目前很多三维电视都在电视机里都内置了基于这种转换技术的装置，可以方便的将电视中接收到的二维视频信号实时的转换为三维视频信号来观看，但这种实时计算出来的深度图相对于方法(1)中得到的深度图效果较差，有些时候会发生前后景混乱的情况，造成视觉困扰。

目前国内现有的二维转三维视频的技术和方法还处于起步阶段，与国外还存有较大差距，存在自动化程度不高，制作周期长、成本高、效率低等一系列问题。其中估计并恢复二维图像所对应的深度图，成为整个二维视频转三维视频的关键。从普通二维图像中恢复深度信息存在以下的难点：

1.如果不借助其他深度信息，计算机不能从单张图片中估计出图像的深度层次关系。

2.在处理视频时，如何能保证深度图在时间信息上的一致性，如何能在保证帧间图片不发生跳变。

发明内容

基于上述，本发明提供了一种基于场景样本库的影视图像深度提取方法，主要关注用软件的方法从普通的二维图像当中提取出深度图像，在此过程中能够将人工参与的深度调整减少的最低，提高工作效率，具有准确性高，处理时间短等特点。

一种基于场景样本库的影视图像深度提取方法，包括如下步骤：

(1)建立图像库；所述图像库包含有大量RGB图像及其对应的深度图，且这些RGB图像来自于多个场景；

(2)对输入图像以及图像库中的RGB图像进行特征提取，以得到这些图像的GIST特征向量和光流(optical flow)特征向量，进而计算输入图像与图像库中每一RGB图像的相似度值；

(3)从图像库中选取与输入图像相似度值最小的若干张RGB图像作为候选图片，并确保这些候选图片分别来自于各个不同的场景，进而将各候选图片对应的深度图在像素级别融合成一张深度图片U；

(4)在深度图片U中恢复出前景目标，从而得到深度图片D^*；

(5)使深度图片D^*作为初值对以下目标函数进行最小化求解，得到输入图像对应的深度图D；

其中：D_i为深度图D中第i像素的深度值，E_t(D_i)为D_i对应的数据项，E_s(D_i)为D_i对应的空间平滑项，E_p(D_i)为D_i对应的图像库先验深度项，α和β均为预设的常数，i为自然数且1≤i≤N，N为深度图片D的像素总数。

每一场景即对应为一个独立的镜头，同一场景的RGB图像来源于其对应镜头所拍摄。

所述步骤(2)中通过以下算式计算输入图像与图像库中每一RGB图像的相似度值：

similarity＝(1-ω)||G₁-G₂||+ω||F₁-F₂||

其中：similarity为输入图像与RGB图像的相似度值，G₁和F₁分别为输入图像的GIST特征向量和光流特征向量，G₂和F₂分别为RGB图像的GIST特征向量和光流特征向量，ω为预设的权重系数。

优选地，所述步骤(3)在选取候选图片之前，使图像库中相似场景的RGB图像合并组成一个场景库，则选取候选图片时确保任意两张候选图片不会来自于同一个场景库；能够使后续生成的深度图像将更加准确，细节更丰富。

所述步骤(3)中采用SIFT Flow算法将各候选图片对应的深度图在像素级别融合成一张深度图片U。

所述步骤(4)中在深度图片U中恢复出前景目标的具体过程为：首先，通过提取输入图像的前景目标用以对输入图像中的前景和背景进行二值化，得到输入图像的前景模板M；然后，基于前景模板M在深度图片U中刻画出前景目标区域；最后，将深度图片U中前景目标区域所有像素的深度值均修改为前景目标区域最低点的深度值，从而得到深度图片D^*。

所述数据项E_t(D_i)的表达式如下：

其中：C_i ^(j)表示第j张候选图片对应深度图中第i像素的深度值，

和

分别为对应X方向和Y方向上的梯度算子，

为SIFT Flow算法中对应第j张候选图片对应深度图的融合函数，γ为预设的常数，

t为变量，ε＝10^-4，w_i ^(j)为深度值C_i ^(j)所对应的权重，j为自然数且1≤j≤K，K为候选图片的数量。

所述空间平滑项E_s(D_i)的表达式如下：

其中：

t为变量，ε＝10^-4，

和

分别为对应X方向和Y方向上的梯度算子，L_i为输入图像中第i像素的颜色值。

所述图像库先验深度项E_p(D_i)的表达式如下：

E_p(D_i)＝φ(D_i-P_i)

其中：

t为变量，ε＝10^-4，P_i为图像库中所有深度图关于第i像素的平均深度值。

本发明利用普通RGB图片之间的相似性，将已有的深度图片中深度值迁移到输入目标图片；在实际影视制作过程中，可以建立多个场景库利用相似场景中的深度图片，生成输入目标图片的深度图；在此过程中能够将人工参与的深度调整减少的最低，提高工作效率，具有准确性高，处理时间短等特点。

附图说明

图1为本发明方法的步骤流程示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于场景样本库的影视图像深度提取方法主要包括：深度场景库的建立、图片特征提取、深度图片融合、前景目标深度估计、深度图整体优化五部分，如图1所示；其具体过程如下：

1.针对不同场景的建立深度图像库。

在对目标图像进行深度估计之前，需要根据不同场景建立图像库。在影视制作中，我们首先把场景定义为一个独立的镜头。所有的视频将以图像帧的形式存储在数据库中，其中既包括普通二维RGB图像以及每张图像对应的深度图。在之后的处理过程中将通过RGB的特征信息，进行特征提取。一般每一个镜头可以作为一组场景，在后续的处理过程中如果选取与输入图像相似的场景进行训练，能够达到很好的效果。

2.通过特征提取算法计算特征值。

2.1、使用GIST特征与光流特征(optical flow)对图像数据库中每张图片计算出相应的特征值。

2.2、计算出输入目标图片GIST特征与光流特征值。

2.3、使用如下公式计算输入目标图片与图像数据库中相似度值：

similarity score＝(1-ω)||G₁-G₂||+ω||F₁-F₂||

其中：G₁和G₂是两帧图像中的GIST特征向量，F₁和F₂两帧图像中光流的特征向量，ω作为权重可以根据需要适时调整。

3.从已有深度图片中将深度迁移到目标图片中。

3.1、根据步骤2中相似度值similarity score的高低进行排序，并选取最接近的10张普通图片作为候选图片。

3.2、从深度图像库中，选取出候选图片所对应的深度图像C_i(i＝1...k)，确保每一张候选图片都来自不同的场景库。在实际操作过程中，为了达到更好的效果，会选择相似的场景作为场景库。如果每个相似场景都贡献一张候选图片，生成的深度图像将更加准确，细节更丰富。

3.3、使用SIFT Flow的方法将各个候选图片的深度图在像素级别融合成一张图片D。此时生成的图片D只是一个粗略的图，之后的步骤将会进一步优化平滑此图。

4.恢复前景目标的深度。

前景目标是指一张图片当中人们所关心的目标，通常是一些运动的物体。之前的步骤2～3大致确定了背景整体的深度，然而一些前景物体，特别是一些运动物体往往是整个视频中最关键的。

4.1、通过运动物体检测，高斯混合模型等背景差分的方法，在一组连续RGB图像中提取出前景目标，将前景目标图片二值化得到模板，记为M。一些基于动态背景的运动物体检测方法也被应用于此步骤，检测物体准确性和在多帧之间的一致性，将影响到最后深度图的准确性。为了提高准确性，我们适当的引入人工的交互，即为步骤4.2.

4.2、为了保证最后生成深度图的质量，步骤4.1或可通过人工交互的方式代替，由人工手动确定前景目标的边界。即使如此仍然能节省许多的工时，提高劳动效率。

4.3、将步骤4.1～4.2获得的蒙板M，应用于步骤3.3中所生成的图片D中，在D中所有在M中的像素深度，定义为M最低点与地面接触点位置的深度，以此给出整个前景目标的深度。

5.对所得深度图像进行优化。

步骤5中我们使用整组候选图片的深度图

对每张生成的深度图进行优化。

5.1、上述步骤只完成了深度迁移得到了一个大致的深度图，使用如下公式对步骤4中生成的深度图像进一步优化。

其中：L是输入图像，D是目标图像的深度图，所做的优化就是要将-log(P(D|L))减到最小，即将D与其余各张候选图片的差别最小。E_t是数据项，E_s是空间平滑项，E_p是数据库先验的深度项，α，β同时也为常数。作为目标函数经过多次迭代使得所得值尽可能的小。

步骤5.1中的E_t用来衡量目标图片与候选图片之间的差别，可以通过以下公式计算：

其中：K为候选图片的数量，w为每个候选图片的权重值，γ为权重系数常数，函数

为步骤3.3中sift flow的融合函数，即先通过sift flow找到两张图片之间的对应关系，再把候选图片中对应位置的像素搬到目标深度图中，这整个过程它定义为融合函数，每张候选图片对应有一个融合函数。sift flow算法出自文献Ce Liu,Jenny Yuen,Antonio Torralba,et al.SIFT Flow:Dense Correspondence across Different Scenes[M]//Computer Vision–ECCV 2008.Springer Berlin Heidelberg,2008:28-42.

空间平滑项E_s由以下公式计算，由x和y方向上的梯度组成：

上式中

下式为计算数据库先验项，p为所有图片数据库中深度平均值。

E_p(D_i)＝φ(D_i-P_i)

5.2、使步骤4最后得到的深度图像作为初始值，实际操作通过每次迭代过程不断调整各个参数，直到达到迭代次数最大值或E(D)的最小值，并求出此时对应的D值，即为优化后的深度图。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

一种基于场景样本库的影视图像深度提取方法，包括如下步骤：

(1)建立图像库；所述图像库包含有大量RGB图像及其对应的深度图，且这些RGB图像来自于多个场景；

(2)对输入图像以及图像库中的RGB图像进行特征提取，以得到这些图像的GIST特征向量和光流特征向量，进而计算输入图像与图像库中每一RGB图像的相似度值；

(3)从图像库中选取与输入图像相似度值最小的若干张RGB图像作为候选图片，并确保这些候选图片分别来自于各个不同的场景，进而将各候选图片对应的深度图在像素级别融合成一张深度图片U；

(4)在深度图片U中恢复出前景目标，从而得到深度图片D^*；

(5)使深度图片D^*作为初值对以下目标函数进行最小化求解，得到输入图像对应的深度图D；

其中：D_i为深度图D中第i像素的深度值，E_t(D_i)为D_i对应的数据项，E_s(D_i)为D_i对应的空间平滑项，E_p(D_i)为D_i对应的图像库先验深度项，α和β均为预设的常数，i为自然数且1≤i≤N，N为深度图片D的像素总数。
根据权利要求1所述的影视图像深度提取方法，其特征在于：每一场景即对应为一个独立的镜头，同一场景的RGB图像来源于其对应镜头所拍摄。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述步骤(2)中通过以下算式计算输入图像与图像库中每一RGB图像的相似度值：

similarity＝(1-ω)||G₁-G₂||+ω||F₁-F₂||

其中：similarity为输入图像与RGB图像的相似度值，G₁和F₁分别为输入图像的GIST特征向量和光流特征向量，G₂和F₂分别为RGB图像的GIST特征向量和光流特征向量，ω为预设的权重系数。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述步骤(3)在选取候选图片之前，使图像库中相似场景的RGB图像合并组成一个场景库，则选取候选图片时确保任意两张候选图片不会来自于同一个场景库。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述步骤(3)中采用SIFT Flow算法将各候选图片对应的深度图在像素级别融合成一张深度图片U。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述步骤(4)中在深度图片U中恢复出前景目标的具体过程为：首先，通过提取输入图像的前景目标用以对输入图像中的前景和背景进行二值化，得到输入图像的前景模板M；然后，基于前景模板M在深度图片U中刻画出前景目标区域；最后，将深度图片U中前景目标区域所有像素的深度值均修改为前景目标区域最低点的深度值，从而得到深度图片D^*。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述数据项E_t(D_i)的表达式如下：

其中：C_i ^(j)表示第j张候选图片对应深度图中第i像素的深度值，
和
分别为对应X方向和Y方向上的梯度算子，
为SIFT Flow算法中对应第j张候选图片对应深度图的融合函数，γ为预设的常数，
t为变量，ε＝10^-4，
为深度值C_i ^(j)所对应的权重，j为自然数且1≤j≤K，K为候选图片的数量。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述空间平滑项E_s(D_i)的表达式如下：

其中：
t为变量，ε＝10^-4，
和
分别为对应X方向和Y方向上的梯度算子，L_i为输入图像中第i像素的颜色值。
根据权利要求1所述的影视图像深度提取方法，其特征在于：所述图像库先验深度项E_p(D_i)的表达式如下：

E_p(D_i)＝φ(D_i-P_i)

其中：
t为变量，ε＝10^-4，P_i为图像库中所有深度图关于第i像素的平均深度值。