WO2022222091A1

WO2022222091A1 - 一种基于单张照片的人物浅浮雕模型生成方法

Info

Publication number: WO2022222091A1
Application number: PCT/CN2021/088913
Authority: WO
Inventors: 周昆; 陈翔; 杨振杰
Original assignee: 浙江大学; 杭州相芯科技有限公司
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-10-27

Abstract

本发明公开了一种基于单张照片的人物浅浮雕模型生成方法。该方法基于输入照片构建3D人体骨架，并通过3D骨架层来解析复杂的人体自遮挡和相互遮挡关系，构建3D人体引导模型。本发明还提出了一种基于轮廓匹配的形变算法，使得生成的低频基础形状模型与图像空间准确对齐，并在此基础上将低频基础形状模型与图像中的高频细节特征进行融合，从而得到浅浮雕模型。本发明的交互方式简单、直接、高效，可以使普通用户快速地从自己拍摄的照片或网络照片中构建出人体浅浮雕模型。本发明适用于各种不同的单人或多人照片，具有较高普适性和稳定性。理论分析和实验结果表明，本发明生成的浅浮雕模型3D视觉感知逼真，极具实用性和应用前景。

Description

一种基于单张照片的人物浅浮雕模型生成方法

技术领域

本发明涉及计算机图形学的几何建模领域，尤其涉及一种基于单张照片的多人物浅浮雕模型生成方法。

背景技术

浅浮雕是一种历史久远的艺术呈现，其形式生动且内涵深刻。在数字化时代，3D浅浮雕模型的生成配合AR/VR和数字化制造技术，在社交、建筑、艺术创作、数字媒体等领域有独特价值。

目前，浅浮雕模型的自动生成方法都是3D形状出发，通过各类自适应的深度压缩方法将模型高度变浅来达成目的。以照片作为输入的浅浮雕模型生成方法往往针对某类简单物体，或者需要大量的用户交互来完成，耗时耗力。当前方法无法针对单张人物照片来生成高质量的浅浮雕模型，这个问题在家庭照等多人照片中尤其突出。在多人照中，人物之间往往存在复杂且情绪饱满的肢体交互。虽然现有的神经网络类工作可以高效地生成粗略的单人模型，但这类方法无法准确预测多人之间复杂的空间遮挡关系。

发明内容

本发明的目的在于针对现有技术的不足，提供一种针对单张人物照片的浅浮雕模型生成方法，在少量用户交互的基础上即可生成多人浅浮雕模型，并确保空间关系的准确和几何细节特征的高保真度。

本发明的目的是通过以下技术方案来实现的：

一种基于单张照片的人物浅浮雕模型生成方法，包括以下步骤：

步骤一：给定单张包含单人或者多人的照片，生成所有人物的3D骨架并通过用户交互对所有人物3D骨架中骨骼之间的错误遮挡关系进行修正；再利用修正后正确的遮挡关系作为约束，求解正确的3D骨架关节点坐标生成遮挡关系正确的3D骨架；再基于遮挡关系正确的3D骨架分别拟合每个人物的参数化人体模型作为3D人体引导模型；

步骤二：采用非刚性平面形变函数将3D人体引导模型的轮廓与照片中人物的轮廓进行对齐并优化非刚性平面形变函数，再利用优化的非刚性平面形变函数在图像空间对3D人体引导模型的法向图进行扭曲获得扭曲法向图，并基于扭曲法向图求解最小二乘问题获得人体浅浮雕的低频基础模型；其中，所述3D人体引导模型的轮廓为3D人体引导模型中按照法向相对图像视角朝外和朝内的两组三角形面片的共同边界在图像空间中的投影；优化非刚性平面形变函数采用的能量方程为：

其中，Z _rq表示3D人体引导模型的轮廓与照片中人物的轮廓之间的相关性系数，同时要求满足约束Z _rq∈{0,1}，

以及

R _r表示照片中人物轮廓的第r个点坐标，Q _q表示3D人体引导模型轮廓的第q个点坐标，K ₁、K ₂分别为照片中人物轮廓和3D人体引导模型轮廓的点集数目。f为非刚性平面形变函数；λ、ξ为权重，均为实数，||*||为正则化函数，L(f)表示非刚性平面形变函数f平滑性的约束项。

步骤三：从照片中提取高频细节特征并生成细节法向图，细节法向图与步骤二生成的低频基础模型合成获得最终的人体浅浮雕模型；其中，所述高频细节特征为照片的灰度值金字塔每一层的梯度信息，细节法向图为所有层的梯度信息的均值。

进一步地，所述步骤一中，所有人物的3D骨架生成方法为：

使用神经网络从照片中获取每个人物的2D姿态；

使用神经网络从每个人物的2D姿态分别预测3D骨架；

基于所有人物的3D骨架，优化计算所使用照片的相机内外参数，使得3D骨架与照片中2D关节点在图像空间对齐，获得所有人物的3D骨架；

优化能量如下：

优化变量为相机内参数K和外参数即每个人物3D骨架的相似变换矩阵T _i，包括缩放系数、旋转矩阵和平移矩阵

分别表示x,y,z三个方向的平移参量；v为3D骨架的关节点坐标，

为每个人物的3D骨架关节点坐标集合，N为照片中的人物数；p为v对应的在照片中的2D关节点坐标，π _K为基于相机内参数K的投影函数，||*||为正则化函数。

表示给定照片中的N个人物z方向平移参量的均值。

进一步地，所述步骤一中，利用修正后正确的遮挡关系作为约束，求解正确的3D骨架关节点坐标生成遮挡关系正确的3D骨架具体为：

通过优化下述能量来重新计算3D骨架的关节点位，生成遮挡关系正确的3D骨架：

其中，L是图拉普拉斯算子对应的矩阵，z和z ⁽⁰⁾是所有关节点优化前后的z坐标向量，

为第j根骨骼的交点z坐标，α是交点在骨骼两个端点之间的插值参数，下标0,1为骨骼的两个端点坐标索引，Occpairs表示照片中相交的骨骼对，下标f、b分别表示相交的前后两根骨骼，ω表示权重，d _gap表示深度间隙，用于补偿骨骼厚度。

进一步地，所述步骤一中，基于遮挡关系正确的3D骨架分别拟合每个人物的参数化人体模型作为3D人体引导模型，具体为：采用拟合能量优化每个人物的姿态参数θ _i和形状参数β _i如下：

其中，v是

上的关节点，

为遮挡关系正确的每个人物的3D骨架关节点坐标集合，

是v在参数化人体骨架模板中的关节点。

优化计算得到姿态参数

和形状参数

之后，利用参数化模板生成每个人物对应的3D人体模型

作为3D人体引导模型。

进一步地，所述步骤二中，使用神经网络的多尺度边缘检测方法从照片中提取人物的轮廓。

进一步地，所述步骤二中，优化非刚性平面形变函数时还包括：用户指定表示特殊姿态的3D人体引导模型的轮廓和照片中人物的轮廓中正确对应的点作为关键点对，将指定的关键点对之间的相关性系数固定为1作为变量的硬约束形式加入优化条件。

进一步地，所述步骤二中，低频基础模型中人物的头部、毛发、手和脚采用其他方法重建，具体为：

通过从照片中提取面部标志再利用三维面部表情模型生成深度图重建头部的低频基础模型；

通过在照片中绘制毛发、手和脚区域的掩模，再估计掩模的边界梯度信息，并利用边界梯度信息作为边界条件求解拉普拉斯问题，获得的高度场作为毛发、手和脚的低频基础模型并利用泊松编辑与其他基础模型进行融合。

进一步地，所述步骤三中，所述细节法向图与步骤二生成的低频基础模型合成获得最终的人体浅浮雕模型具体为：

其中，

为合成后的浅浮雕模型，

为低频基础模型

中(u,v)像素位的高度，

为合成后的浅浮雕模型

中(u,v)像素位的高度，

为细节法向图

中(u,v)像素位的法向量，T ^U和T ^V为合成后的浅浮雕模型

的U,V两个方向的表面切向量，δ为权重，为实数；优化所得高度场即为最终浅浮雕模型。

本发明的有益效果是：本发明创新地提出了一种针对单张照片的人物浅浮雕模型生成方法，在少量用户交互的基础上即可生成多人浅浮雕模型，并确保人物空间关系的准确性和几何细节特征的高保真度。本发明方法生成的浅浮雕模型3D视觉感知逼真，适用于各类单人或多人照片，具有较高普适性、鲁棒性和实用性。

附图说明

图1是基于单张照片的人物浅浮雕模型生成方法流程图。

图2是图像遮挡关系解析的示意图，其中，a为原始图像遮挡关系，b为错误遮挡关系，c为正确遮挡关系。

图3是骨骼交点解析的示意图，其中，下标i表示骨骼l _i,下标j表示骨骼l _j，a为无交点，b为l _i位于l _j之上，c为l _j位于l _i之上。

图4是(照片)图像空间和3D人体引导模型轮廓提取的示意图，其中，a为基于神经网络的多尺度边缘检测方法获取照片的轮廓概率图，b为从轮廓概率图中采样的点集，c为k-means算法获得轮廓的均匀采样点集，d为从3D人体引导模型中提取的轮廓。

图5是点对齐示意图，其中，a为初始状态，图中，直径小的点表示原始位置(3D引导模型的轮廓点)，直径大的点表示目标位置(2D轮廓点)，二者间的连线表示相关性系数，b为相关性系数矩阵Z，其中，最后一行和最后一列是关键点的额外标记；c为应用优化后的非刚性平面形变函数的对齐结果。

图6是3D人体引导模型的轮廓与照片的2D轮廓在图像空间对齐示意图。a为初始状态，其中，直径小的点表示3D引导模型的轮廓点，直径大的点表示2D轮廓点，b为未使用关键点约束的轮廓对齐结果，c为使用关键点约束的轮廓对齐结果，d为用户在用户交互界面选择关键点的示意图，其中选择肘关节处的轮廓点作为关键点。

图7是浅浮雕基础形状生成的示意图；其中，a为3D人体引导模型，b为从3D人体引导模型渲染的法向图，c为扭曲法向图，d为由扭曲法向图重建的基础模型，e为头部、毛发、手和脚等的生成示意，f为完整的基础模型。

图8是对基础模型和图像细节进行浅浮雕合成的示意图；其中，a为原始单张照片，b为基础模型，c为细节法向图，d为最终的浅浮雕模型。

图9是采用本发明方法与现有方法的10张照片生成的浅浮雕模型对比结果；其中第一行为原始单张照片，b为采用本发明方法生成的浅浮雕模型，c为采用现有方法生成的浅浮雕模型。

具体实施方式

下面根据附图详细说明本发明。

本发明单张照片的人物浅浮雕模型生成方法，其流程如图1所示，具体包括以下步骤：

步骤一：给定单张包含单人或者多人的照片，生成遮挡关系正确的3D骨架和3D人体引导模型。

该步骤是本发明的核心之一，分为以下子步骤。

(1.1)使用神经网络从照片中获取每个人物的2D姿态。本实施例中采用OpenPose进行2D姿态估计；

(1.2)使用神经网络从上一子步骤获得的2D姿态分别预测每个人物的3D骨架，得到关节点坐标集合

对应给定照片中的N个人物。

(1.3)基于所有人物的3D骨架，优化计算所使用照片的相机内外参数，使得3D骨架与照片中2D关节点在图像空间对齐。其中，优化能量如下：

优化变量为针孔相机参数K和外参数即每个人物3D骨架的相似变换矩阵T _i(包括缩放、旋转和平移)，具体表示为T _i＝[s _iR _i|t ⁱ]，R _i为旋转矩阵、

为x,y,z三个方向的平移参量，s _i为缩放标量。p为v对应的在照片中的2D关节点坐标，π _K为基于针孔相机参数K的投影函数，||*||为正则化函数。第一项为重投影误差约束，使得3D骨架的每个关节点v在所求相机投影下与其相应的2D关节点p在图像空间保持一致；第二项是正则项，使得每个3D骨架的空间变换在深度平移上保持一致。

表示给定照片中的N个人物z方向(垂直于图像平面的方向)平移参量的均值。该优化能量为非线性优化过程，本实施例中设定相机参数K中的焦距初始值为500，t＝[0,0,400] ^T，s _i不小于0.3，本实施例中s _i为1。

(1.4)基于3D骨架模型，借助少量用户交互来修正骨骼之间的错误遮挡关系。由于每根骨骼是刚体，图像上相交的两根骨骼之间有明确的前后遮挡关系。当上一子步骤中得到的3D骨架中存在错误的骨骼遮挡关系时，用户可以简单切换两者前后关系，系统则会对这样的骨骼对关系进行记录，如图2所示。

(1.5)基于用户指定的遮挡关系约束，求解正确的3D骨架关节点坐标。此时系统会优化下述能量来重新计算3D骨架的关节点位得到每个人物遮挡关系正确的3D骨架关节点坐标集合

其中，第一项约束3D骨架图结构所对应的拉普拉斯坐标变化，第二项约束图像空间上重叠的骨骼对之间的前后遮挡关系，L是图拉普拉斯算子对应的矩阵，而z和z ⁽⁰⁾是所有关节点优化前后的z坐标向量，

为第j根骨骼的交点z坐标，交点关系示意如图3所示，其中，α是交点在骨骼两个端点之间的插值参数，下标0,1为骨骼的两个端点坐标索引，Occpairs表示照片中相交的骨骼对，下标f、b分别是相交的前后两根骨骼的索引，ω表示权重，本实施例设为0.1。d _gap表示深度间隙，用于补偿骨骼厚度，本实施例设为15。

(1.6)基于遮挡关系正确的3D骨架，分别拟合每个人物的参数化人体模型作为浅浮雕生成算法的3D人体引导模型。拟合能量如下：

其中，v是

上的关节点，

则是v在参数化人体骨架模板中的关节点。优化计算得到姿态参数

和形状参数

之后，利用参数化模板(本实施例中采用SMPL模型)生成每个人物对应的3D人体模型

作为后续步骤的3D人体引导模型。

步骤二：基于非刚性形变将3D人体引导模型与给定照片的轮廓特征进行对齐，生成人体浅浮雕的低频基础模型。

该步骤是本发明的核心之一，分为以下子步骤。

(2.1)基于三角面片的法向从3D人体引导模型中提取轮廓即3D轮廓并使用相机参数将其投影到图像空间，具体为：将3D人体引导模型的所有三角形面片按照法向相对图像视角朝外还是朝内分为两个组，找到两个组的共同边界作为3D轮廓，并将其投影到图像空间。

(2.2)使用神经网络从照片中提取关键的轮廓信息即2D轮廓，具体为：首先基于神经网络的多尺度边缘检测方法获取照片的轮廓概率图，然后使用Fisher-Yates shuffle和k-means算法获得轮廓的均匀采样点集，如图4所示。

(2.3)借助少量用户交互来指定稀疏的表示特殊姿态的在3D轮廓和2D轮廓中正确对应的点作为关键点对，作为后续点匹配算法的约束条件。

(2.4)基于非刚性点集匹配算法将3D人体引导模型的轮廓与照片中人物的2D轮廓在图像空间进行对齐，如图5-6所示。优化时，最小化下述能量：

Z _rq表示3D人体引导模型的轮廓与照片的2D轮廓之间的相关性系数，同时要求满足约束Z _rq∈{0,1}，

以及

Z是Z _rr组成的矩阵，R _r表示照片中人物轮廓的第r个点坐标，Q _q表示3D人体引导模型轮廓的第q个点坐标，K ₁、K ₂分别为照片中人物轮廓和3D人体引导模型轮廓的点集数目，优选地，K ₁＝1.2K ₂。f为非刚性平面形变函数。其中，第一项衡量点集之间的近似保真度，第二项约束非刚性平面形变函数f的平滑性，具体优化时采用薄板样条的公式化形式来求解；第三项惩罚异常值的数目，ξ为权重，本实施例设为0.01。步骤(2.3)中用户指定的关键点对作为变量的硬约束形式加入优化条件，具体为：将指定的关键点对之间的相关性系数固定为1，并将包含关键点对中一点的相关性系数固定为0。即Z矩阵中，关键点对的Z值固定为1，关键点所在的行和列其他的Z值设为0，如图5b所示。

(2.5)基于点匹配计算所得的非刚性平面型变函数f在图像空间对3D人体引导模型的法向图进行扭曲，并基于扭曲法向图求解最小二乘问题来重建人体浅浮雕的基础模型

具体地，如图7所示，先在3D人体引导模型上生成不含头部、毛发、手和脚等的法向图，利用非刚性平面型变函数f在图像空间对3D引导模型的法向图进行扭曲，并基于扭曲法向图求解最小二乘问题并结合生成的头部、毛发、手和脚来重建人体浅浮雕的基础模型

其中头部为通过从照片中提取面部标志再利用三维面部表情模型生成的深度图，并将深度图结合至身体区域的基础模型中；毛发、手和脚通过如下方法生成：在图像中绘制掩模遮住这些区域并平滑边界，再估计掩模的边界梯度信息利用边界梯度信息作为边界条件来求解拉普拉斯问题，得到一个近似的高度场，最后利用泊松编辑(Possion Editing)与其他基础模型进行融合得到最终的基础模型

步骤三：如图8所示，从图像提取高频细节特征，并与步骤二生成的低频基础模型进行合成，获得最终的人体浅浮雕模型。首先将图像转为灰度表示的金字塔，然后提取每一层k的梯度信息作为细节法向

(u,v)为像素，

表示灰度金字塔第k层中(u,v)像素位的梯度信息，normalize为归一化函数。接着合成所有层细节法向获得整体的细节法向图

最后通过求解下述最小二乘问题将步骤二生成的浅浮雕低频基础模型与高频细节法向图进行合成：

其中，

为合成后的浅浮雕模型，

为低频基础模型

中(u,v)像素位的高度，

为合成后的浅浮雕模型

中(u,v)像素位的高度，

为细节法向图

中(u,v)像素位的法向量，T ^U和T ^V为合成后的浅浮雕模型

的U,V两个方向的表面切向量。此优化所得高度场即为最终浅浮雕模型。δ为权重，本实施例中，头部区域设定为0.4，身体区域设定为0.1。

本发明的整个方法中，仅需要在少量用户交互(错误遮挡关系修正、表示特殊姿态的关键点、毛发、手和脚掩盖)的基础上即可生成多人浅浮雕模型，并确保人物空间关系的准确性和几何细节特征的高保真度。

图9是采用本发明方法与现有方法(S.Tang,F.Tan,K.Cheng,Z.Li,S.Zhu,and P.Tan,“A neural network for detailed human depth estimation from a single image,”in Proceedings of the IEEE International Conference on Computer Vision,2019,pp.7750–7759.)的10张照片生成的浅浮雕模型对比结果，从图中可以看出，本发明方法生成的浅浮雕模型3D视觉感知逼真，适用于各类单人或多人照片，具有较高普适性、鲁棒性和实用性。

Claims

一种基于单张照片的人物浅浮雕模型生成方法，其特征在于，包括以下步骤：

步骤一：给定单张包含单人或者多人的照片，生成所有人物的3D骨架并通过用户交互对所有人物3D骨架中骨骼之间的错误遮挡关系进行修正；再利用修正后正确的遮挡关系作为约束，求解正确的3D骨架关节点坐标生成遮挡关系正确的3D骨架；再基于遮挡关系正确的3D骨架分别拟合每个人物的参数化人体模型作为3D人体引导模型；

步骤二：采用非刚性平面形变函数将3D人体引导模型的轮廓与照片中人物的轮廓进行对齐并优化非刚性平面形变函数，再利用优化的非刚性平面形变函数在图像空间对3D人体引导模型的法向图进行扭曲获得扭曲法向图，并基于扭曲法向图求解最小二乘问题获得人体浅浮雕的低频基础模型；其中，所述3D人体引导模型的轮廓为3D人体引导模型中按照法向相对图像视角朝外和朝内的两组三角形面片的共同边界在图像空间中的投影；优化非刚性平面形变函数采用的能量方程为：

其中，Z _rq表示3D人体引导模型的轮廓与照片中人物的轮廓之间的相关性系数，同时要求满足约束Z _rq∈{0,1}，
以及
R _r表示照片中人物轮廓的第r个点坐标，Q _q表示3D人体引导模型轮廓的第q个点坐标，K ₁、K ₂分别为照片中人物轮廓和3D人体引导模型轮廓的点集数目。f为非刚性平面形变函数；λ、ξ为权重，均为实数，||*||为正则化函数，L(f)表示非刚性平面形变函数f平滑性的约束项。

步骤三：从照片中提取高频细节特征并生成细节法向图，细节法向图与步骤二生成的低频基础模型合成获得最终的人体浅浮雕模型；其中，所述高频细节特征为照片的灰度值金字塔每一层的梯度信息，细节法向图为所有层的梯度信息的均值。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤一中，所有人物的3D骨架生成方法为：

使用神经网络从照片中获取每个人物的2D姿态；

使用神经网络从每个人物的2D姿态分别预测3D骨架；

基于所有人物的3D骨架，优化计算所使用照片的相机内外参数，使得3D骨架与照片中2D关节点在图像空间对齐，获得所有人物的3D骨架；

优化能量如下：

优化变量为相机内参数K和外参数即每个人物3D骨架的相似变换矩阵T _i，包括缩放系数、旋转矩阵和平移矩阵
分别表示x,y,z三个方向的平移参量；v为3D骨架的关节点坐标，
为每个人物的3D骨架关节点坐标集合，N为照片中的人物数；p为v对应的在照片中的2D关节点坐标，π _K为基于相机内参数K的投影函数，||*||为正则化函数。
表示给定照片中的N个人物z方向平移参量的均值。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤一中，利用修正后正确的遮挡关系作为约束，求解正确的3D骨架关节点坐标生成遮挡关系正确的3D骨架具体为：

通过优化下述能量来重新计算3D骨架的关节点位，生成遮挡关系正确的3D骨架：

其中，L是图拉普拉斯算子对应的矩阵，z和z ⁽⁰⁾是所有关节点优化前后的z坐标向量，
为第j根骨骼的交点z坐标，α是交点在骨骼两个端点之间的插值参数，下标0,1为骨骼的两个端点坐标索引，Occpairs表示照片中相交的骨骼对，下标f、b分别表示相交的前后两根骨骼，ω表示权重，d _gap表示深度间隙，用于补偿骨骼厚度。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤一中，基于遮挡关系正确的3D骨架分别拟合每个人物的参数化人体模型作为3D人体引导模型，具体为：采用拟合能量优化每个人物的姿态参数θ _i和形状参数β _i如下：

其中，v是
上的关节点，
为遮挡关系正确的每个人物的3D骨架关节点坐标集合，
是v在参数化人体骨架模板中的关节点。

优化计算得到姿态参数
和形状参数
之后，利用参数化模板生成每个人物对应的3D人体模型
作为3D人体引导模型。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤二中，使用神经网络的多尺度边缘检测方法从照片中提取人物的轮廓。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤二中，优化非刚性平面形变函数时还包括：用户指定表示特殊姿态的3D人体引导模型的轮廓和照片中人物的轮廓中正确对应的点作为关键点对，将指定的关键点对之间的相关性系数固定为1作为变量的硬约束形式加入优化条件。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤二中，低频基础模型中人物的头部、毛发、手和脚采用其他方法重建，具体为：

通过从照片中提取面部标志再利用三维面部表情模型生成深度图重建头部的低频基础模型；

通过在照片中绘制毛发、手和脚区域的掩模，再估计掩模的边界梯度信息，并利用边界梯度信息作为边界条件求解拉普拉斯问题，获得的高度场作为毛发、手和脚的低频基础模型并利用泊松编辑与其他基础模型进行融合。
根据权利要求1所述的人物浅浮雕模型生成方法，其特征在于，所述步骤三中，所述细节法向图与步骤二生成的低频基础模型合成获得最终的人体浅浮雕模型具体为：

其中，
为合成后的浅浮雕模型，
为低频基础模型
中(u,v)像素位的高度，
为合成后的浅浮雕模型
中(u,v)像素位的高度，
为细节法向图
中(u,v)像素位的法向量，T ^U和T ^V为合成后的浅浮雕模型
的U,V两个方向的表面切向量，δ为权重，为实数；优化所得高度场即为最终浅浮雕模型。