WO2022241583A1

WO2022241583A1 - 一种基于多目视频的家庭场景动作捕捉方法

Info

Publication number: WO2022241583A1
Application number: PCT/CN2021/093969
Authority: WO
Inventors: 蔡洪斌; 卢光辉; 李一帆; 王涵; 卢平悦; 黄娅婷; 范云翼; 王博洋
Original assignee: 电子科技大学
Priority date: 2021-05-15
Filing date: 2021-05-15
Publication date: 2022-11-24

Abstract

本发明提供了一种基于多目视频的家庭场景动作捕捉方法，可在家庭场景下进行多人动作捕捉，帮助使用者通过电子设备与远程家庭进行交互。该方法包括相机放置、家庭场景模型构建及标注、人体2D关键点检测、人体骨架组装、动作数据库中已有动作重建、实时动作重建、对遮挡情况的判断与处理。放置相机是获取家庭中多角度视频的准备工作。家庭场景模型构建及标注为后续动作重建提供了动作约束条件和先验信息。在实际动作重建时，本方法利用人体2D关键点检测确定多人场景中所有人体关键点的二维坐标。随后，人体骨架组装是为了在多人场景中将正确的2D关键点连接，形成单人2D骨架，并建立多视角2D骨骼点以及前一帧3D骨骼点之间的联系，为人体3D关键点预测提供时间和空间维度的信息。动作数据库中已有动作重建是利用家庭场景人物行动较为单一的特性，通过预先定义的人物动作动画减少实时动作重建次数的手段。实时动作重建针对动作数据库中没有的动作，用3D模型拟合2D关键点，最终以3D模型呈现出当前人物三维姿势。最后，本方法还对遮挡情况进行了判断和纠正，从而减少人体关键点被遮挡时出现的动作重建错误，使本方法在家庭场景中拥有更强的鲁棒性。本发明可以有效地适应家庭场景的多人动作捕捉，在保证家庭隐私的情况下，为用户提供了远程家庭场景本地呈现的技术手段。

Description

一种基于多目视频的家庭场景动作捕捉方法

技术领域

本发明属于动作捕捉的技术领域，尤其涉及一种基于多目视频的家庭场景动作捕捉方法。

背景技术

随着我国老龄化日渐严重，空巢老人越来越多。通过技术手段，将远程子女的家庭情景呈现在本地，可缓解独居老人内心的孤独感。然而，以家庭视频监控为代表的相关技术虽然实施简单，却有容易泄露家庭隐私、视角单一、缺乏沉浸感的缺点。本发明涉及的基于多目视频的家庭场景动作捕捉技术可实时捕获家庭成员动作信息，生成三维虚拟人物动画，从而保护使用者隐私，并为观看者提供多种观看视角，增强浸入感。

人体动作捕捉技术被广泛应用于影视、游戏、动画等领域。该技术通过捕捉真实人体的动作特征，驱动虚拟人物模型，产生三维动画。光学式人体动作捕捉技术可被分为基于标记点的人体动作捕捉技术和基于视频的人体动作捕捉技术。基于标记点的人体捕捉技术需要人体佩戴特定的传感器或可反射红外激光的光标，以采集人体关键点信息。但此类方法设备造价昂贵，且不适合日常生活中的动作捕捉。基于视频的人体动作捕捉技术无需佩戴设备，可根据多个标定相机拍摄的图像序列计算出人体关键点的空间位置，恢复出人体姿态。相比于基于单目视频的动作捕捉，基于多目视频的动作捕捉对深度歧义和遮挡问题有更好的鲁棒性，更符合本专利的技术需求。

SMPL模型(Skinned Multi-Person Linear model)是包含大量人体先验的人体参数化模型。SMPL模型通过10个形状参数和72个姿势参数对人体体态和姿势进行定义。利用SMPL模型，可以建立从视频提取的姿态特征和人体参数模型特征之间距离的目标函数，将动作捕捉问题转化为目标函数最小化问题。

发明内容

本发明提供了一种基于多目视频的家庭场景动作捕捉方法，旨在利用动作捕捉技术，生成家庭场景的实时动画，并在遮挡情景下具有鲁棒性。本发明包括以下主要步骤：

步骤1，相机放置，在待检测家庭中放置多个标定相机，实时获取家庭的多角度视频。

步骤2，家庭场景模型构建及标注，根据真实家庭场景创建三维虚拟场景模型，对三维虚拟场景进行必要标注。

本步骤包括：

步骤2.1，对待检测家庭场景进行三维建模。

步骤2.2，在三维场景中标注常用行走通道、可坐区域等功能区。并在沙发、桌椅等固定的功能区中，对人物进行常规动作时的面部朝向进行定义，用来辅助人物常见行为动画的生成。

步骤2.3，建立家庭成员动作数据库，基于参数化人体模型SMPL预先创建各家庭成员模型、客人标准样貌模型，以及常见动作动画，如行走、站立、静坐等。

步骤3，人体2D关键点检测，检测多目视频中的人体2D关键点坐标和PAF(PartAffinityField)。

本步骤包括：

步骤3.1，将各角度视频的当前帧输入OpenPose卷积神经网络，得到置信度图集合S＝(S ₁,S ₂,...,S _J)和PAF集合L＝(L ₁,L ₂,...,L _C)。

其中J表示单个人体骨架中关键点个数，

表示第j类关键点的置信度图，其中j∈{1,...,J}。C表示单个人体骨架中骨骼的个数，

表示第c类骨骼的PAF，其中c∈{1,...,C}。

步骤3.2，利用非极大值抑制算法，找出S _j中所有第j类关键点的热图集合

其中，

表示场景中第m个人的第j类关键点的热图，M为场景中人物个数，m∈{1,...,M}。

步骤3.3，计算

中最大值点的坐标

即为场景中第m个人的第j类关键点2D坐标。

步骤4，人体骨架组装，对检测到的多人2D关键点进行组装，形成多组人体2D骨架，并建立不同视角中关键点之间的联系，以及当前帧与前一帧关键点之间的联系。

本步骤包括：

步骤4.1，构建初始关键点关联图G：

G＝(V,E),V＝D _j(c)∪D ^t-1,E＝E _P∪E _V∪E _T (1)

其中，V为图G的点集，E为图G的边集。

表示在当前帧t中，视角c里第j类关键点中的第m个候选点，j∈{1,2,...,J}，c∈{1,2,...,N}，N为相机个数。D ^t-1表示t-1帧求出的骨骼3D关键点，若不存在t-1帧，则忽略这一项。在图G中，同一视角里，人体骨架中不同类的关键点两两之间有边相连，用E _P表示。不同视角中，人体骨架相同类的关键点两两之间有边相连，用E _V表示。每个视角中，每个关键点与D ^t-1中所有相同类的关键点相连，用E _T表示，若不存在t-1帧，则忽略这一项。。

步骤4.2，目标是对初始关键点关联图G求解，得到能够正确表示关键点联系的真实关键点关联图G’：

G’＝(V,E’)，V＝D _j(c)∪D ^t-1，E’＝E’ _p∪E’ _v∪E’ _T (2)

其中，在G’中，同一视角中的关键点以真实人体骨架对应的边相连，用E’ _p表示；不同视角中，同一人物的同类关键点以边相连，用E’ _v表示；每个视角中，每个关键点与D ^t-1中同一人物的同类关键点相连，用E’ _T表示。步骤4.1-4.10即对G’求解过程。

步骤4.3，对图G的边

进行权重赋值：

其中，

表示以

和

为顶点的边。

表示

在G’中保留，

表示

在G’中不保留。L _c(x)表示点x处的PAF值。x(u)表示在关键点

和

连线上的插值点。

步骤4.4，对图G的边

进行权重赋值：

其中，

K _c表示相机c的内参矩阵，

表示关键点在相机坐标系的坐标，

表示相机c ₁光心和

所在的直线与相机c ₂光心和

所在的直线之间的直线距离。Z为归一化系数，将

归一化到[0,1]。

步骤4.5，对图G的边

进行权重赋值：

其中，

表示t-1帧第i类关键点的第k个候选点，

为相机光心和

两点所在直线与

之间的距离，T为归一化系数，将

归一化到[0,1]。

步骤4.6，计算人体骨骼束，人体骨骼束

表示在真实关键点关联图G’中由第m个人的第i类和第m个人的第j类关键点组成的子图。

本步骤包括：

步骤4.6.1，将初始关键点关联图G中，所有第i类关键点和所有第j类关键点组成的子图记为

在多人场景下，

中包含多个人体骨骼束。从

生成的所有候选骨骼束中计算出可令目标方程(10)最大的骨骼束g _c，作为真实的骨骼束。

其中，q(z)＝p(z)·z，|V _c|表示g _c中点的个数，w _p，w _m，w _t，w _v为权重系数。

步骤4.6.2，令

重复步骤4.6.1，直到

为空。

步骤4.7，根据步骤4.6，遍历人体所有骨骼，求出人体骨骼束集合B。

步骤4.8，将人体骨骼束B按照公式(10)的得分，由大到小排列，构成队列Q。

步骤4.9，初始时，真实关键点关联图

步骤4.10，从队列Q中，取出队首骨骼束

在加入G’时，包含的所有关键点d应被赋予同一个人的标签。若

且d _i，d _j在G’中已被赋予不同的人物标签，则

与G’存在冲突。

判断

与G’是否有冲突。

a.若有冲突，则将

按照G’中的人物标签拆分成不同人物的骨骼束，根据公式(10)计算出新的骨骼束得分，将其重新加入队列Q。

b.若没有冲突，则

并为

赋予相应的人物标签。

步骤5，动作数据库中已有动作重建，对于可识别的常见动作，直接调用动作数据库中预置动作动画，节约运算开销。

本步骤包括：

步骤5.1，利用采集的图像序列和2D骨骼信息，识别当前人物身份与动作。

步骤5.2，判断当前人物动作是否已存储于动作数据库中。若已存储，则利用步骤5.3，5.4生成人物动画。若未存储，则进入步骤6。

步骤5.3，基于三角测量法，利用双目标定相机获取的人体根关键点图像坐标计算出根关键点的三维坐标。

步骤5.4，将动作数据库中动画初始帧的人物模型根结点对齐步骤5.3中计算出的三维坐标，并借助步骤2.2的面部方向标注确定根结点旋转方向。随后，播放动作数据库中的动画。在处理行走类动作时，可利用本步骤方法计算出动作结束时根结点的位置，并利用步骤2.2中对行走通道的标记确定运动过程路径。

步骤5.5，若检测到人物动作发生切换，则返回步骤5.2。

步骤6，实时动作重建，若当前动作未存储在动作数据库中，则利用三维模型拟合2D人体骨架，实时重建出人物三维动作。

本步骤包括，

步骤6.1，根据步骤5.1中人物身份识别结果，从数据库中调出相应家庭成员的参数化人体模型。通过最小化目标函数(11)，令参数化人体模型与步骤3中组装的2D人体骨架动作拟合。若当前人物身份是家庭成员，则保持模型初始形状参数β，只对姿势参数θ进行优化。若当前人物身份是客人，则在第一帧同时优化人体模型的形状参数β与姿势参数θ，后续帧只对姿势参数θ进行优化。

E(β,θ)＝λ _JE _J+λ _shapeE _shape+λ _tempE _temp+λ _θE _θ (11)

其中，λ _J，λ _shape，λ _temp，λ _θ为权重参数。

a.E _J为关节距离惩罚项:

其中，对于单个人物，η _i,c表示第c个视角中此人的第i类关键点的置信分数，R _θ(J(β) _i)表示SMPL模型中第i类关键点的3D坐标，

表示第i类关键点向第c个相机的图像平面投影的2D坐标，J _i,c表示第c个视角中第i类关键点的2D坐标，ρ(·)为Geman-McClure惩罚函数。

b.E _shape为形状惩罚项：

其中，对于单个人物，l _i,t表示当前帧t的第i类骨骼的长度，

为利用当前人物初始五帧图像计算出的第i类骨骼的平均长度先验，C表示人体骨骼集合。

c.E _temp为时间平滑项：

其中，α为权重参数，Δv _j,t表示表示第t帧关节点j向前运动的趋势，Δv _j,t＝R _θ(J(β) _j,t-1-R _θ(J(β) _j,t-2，θ _i,t表示第t帧第i类骨骼的姿势参数。

d.E _θ为动作惩罚项：

其中，∑ _j(g _jN(θ；μ _θ,j,Σ _θ,j)为利用CMUMoCaP数据集建立的关于姿势参数θ 的先验高斯混合模型。

步骤7，判断并处理实时动作重建时的遮挡情况，判断并处理实时动作重建时人体关键点被遮挡，导致2D关键点无法识别或识别错误的问题。

本步骤包括：

步骤7.1，若步骤4组成的2D人体骨架在所有视角中都不完整，或者检测出的部分关键点在所有视角的置信度都低于预设阈值T，则认为该人体有部分关键点被遮挡，处于视角盲区。

步骤7.2，对于较短连续帧的遮挡，在步骤6进行实时重建时，增大式(11)中被遮挡关键点的权重系数λ _temp，加强当前人体3D关键点估算对前一帧关键点的依赖。

步骤7.3，对于较长连续帧的遮挡，特别是特定关键点的长时间遮挡，步骤7.2的处理容易产生累积误差。此种情况下，人物一般处于较为静止的状态，例如，坐于桌前时下半身的关键点被遮挡。此时，根据图片识别结果，从动作数据库中调出最接近当前姿态的标准姿态模型，如标准坐姿、标准站姿、标准卧姿等，及其姿势参数θ。

其中，ω _j表示骨骼关节链中关键点j相对于父关键点的轴角旋转。

根据式(11)，以标准姿态模型的参数θ为初始值进行动作回归，进行回归时只对置信度高的关键点的参数ω进行优化，被遮挡关键点保持原本的参数ω。

附图说明

图1示出了本发明一种基于多目视频的家庭场景动作捕捉方法；

图2示出了本发明实例的初始关键点关联图G示例；

图3示出了本发明实例的真实关键点关联图G'示例；

图4示出了本发明实例的骨骼束定义示例；

具体实施方式

下面结合附图和实施例对本发明优先实施方式进一步说明。

图1所示的流程图给出了本发明整个实施的具体过程：

本步骤包括：

步骤2.1，对待检测家庭场景进行三维建模。

本步骤包括：

其中J表示单个人体骨架中关键点个数，

表示第c类骨骼的PAF，其中c∈{1,...,C}。

其中，

步骤3.3，计算

中最大值点的坐标

即为场景中第m个人的第j类关键点2D坐标。

本步骤包括：

步骤4.1，构建初始关键点关联图G：

G＝(V,E),V＝D _j(c)∪D ^t-1,E＝E _P∪E _V∪E _T (1)

其中，V为图G的点集，E为图G的边集。

表示在当前帧t中，视角c里第j类关键点中的第m个候选点，j∈{1,2,...,J}，c∈{1,2,...,N}，N为相机个数。D ^t-1表示t-1帧求出的骨骼3D关键点，若不存在t-1帧，则忽略这一项。在图G中，同一视角里，人体骨架中不同类的关键点两两之间有边相连，用E _P表示。不同视角中，人体骨架相同类的关键点两两之间有边相连，用E _V表示。每个视角中，每个关键点与D ^t-1中所有相同类的关键点相连，用E _T表示，若不存在t-1帧，则忽略这一项。初始关键点关联图G如图2所示，为了表述清晰，图2中只画出了两个视角、两类关键点的示意图。

G’＝(V,E’)，V＝D _j(c)∪D ^t-1，E’＝E’ _p∪E’ _v∪E’ _T (2)

真实关键点关联图G’如图3所示，为了表述清晰，图3中只画出了两个视角、两类关键点的示意图。

步骤4.3，对图G的边

进行权重赋值：

其中，

表示以

和

为顶点的边。

表示

在G’中保留，

表示

在G’中不保留。L _c(x)表示点x处的PAF值。x(u)表示在关键点

和

连线上的插值点。

步骤4.4，对图G的边

进行权重赋值：

其中，

K _c表示相机c的内参矩阵，

表示关键点在相机坐标系的坐标，

表示相机c ₁光心和

所在的直线与相机c ₂光心和

所在的直线之间的直线距离。Z为归一化系数，将

归一化到[0,1]。

步骤4.5，对图G的边

进行权重赋值：

其中，

表示t-1帧第i类关键点的第k个候选点，

为相机光心和

两点所在直线与

之间的距离，T为归一化系数，将

归一化到[0,1]。

步骤4.6，计算人体骨骼束，人体骨骼束

表示在真实关键点关联图G’中由第m个人的第i类和第m个人的第j类关键点组成的子图。一个骨骼束如图4所示。

本步骤包括：

在多人场景下，

中包含多个人体骨骼束。从

步骤4.6.2，令

重复步骤4.6.1，直到

为空。

步骤4.9，初始时，真实关键点关联图

步骤4.10，从队列Q中，取出队首骨骼束

且d _i，d _j在G’中已被赋予不同的人物标签，则

与G’存在冲突。

判断

与G’是否有冲突。

a.若有冲突，则将

b.若没有冲突，则

并为

赋予相应的人物标签。

本步骤包括：

步骤5.5，若检测到人物动作发生切换，则返回步骤5.2。

本步骤包括，

E(β,θ)＝λ _JE _J+λ _shapeE _shape+λ _tempE _temp+λ _θE _θ (11)

其中，λ _J，λ _shape，λ _temp，λ _θ为权重参数。

a.E _J为关节距离惩罚项:

b.E _shape为形状惩罚项：

c.E _temp为时间平滑项：

d.E _θ为动作惩罚项：

其中，∑ _j(g _jN(θ；μ _θ,j,Σ _θ,j)为利用CMUMoCaP数据集建立的关于姿势参数θ的先验高斯混合模型。

本步骤包括：

Claims

一种基于多目视频的家庭场景动作捕捉方法，其特征在于，包括以下步骤：

步骤1，相机放置，在待检测家庭中放置多个标定相机，实时获取家庭的多角度视频。

步骤2，家庭场景模型构建及标注，根据真实家庭场景创建三维虚拟场景模型，对三维虚拟场景进行必要标注。

步骤3，人体2D关键点检测，检测多目视频中的人体2D关键点坐标和PAF(Part Affinity Field)。

步骤4，人体骨架组装，对检测到的多人2D关键点进行组装，形成多组人体2D骨架，并建立不同视角中关键点之间的联系，以及当前帧与前一帧关键点之间的联系。

步骤5，动作数据库中已有动作重建，对于可识别的常见动作，直接调用动作数据库中预置动作动画，节约运算开销。

步骤6，实时动作重建，若当前动作未存储在动作数据库中，则利用三维模型拟合2D人体骨架，实时重建出人物三维动作。

步骤7，判断并处理实时动作重建时的遮挡情况，判断并处理实时动作重建时人体关键点被遮挡，导致2D关键点无法识别或识别错误的问题。
根据权利要求1所述的一种基于多目视频的家庭场景动作捕捉方法，其特征在于，所述的步骤2中家庭场景模型构建及标注，构建与真实家庭场景对应的三维场景模型，对三维场景进行必要标注。所述的步骤2进一步包括：

步骤2.1，对待检测家庭场景进行三维建模。

步骤2.2，在三维场景中标注常用行走通道、可坐区域等功能区。并在沙发、桌椅等固定的功能区中，对人物进行常规动作时的面部朝向进行定义，用来辅助人物常见行为动画的生成。

步骤2.3，建立家庭成员动作数据库，基于参数化人体模型SMPL预先创建各家庭成员模型、客人标准样貌模型，以及常见动作动画，如行走、站立、静坐等。
根据权利要求1所述的一种基于多目视频的家庭场景动作捕捉方法，其特征在于，所述的步骤4中人体骨架组装，对检测到的多人2D关键点进行组装，形成多组人体骨架。所述的步骤4进一步包括：

步骤4.1，构建初始关键点关联图G：

G＝(V,E),V＝D _j(c)∪D ^t-1,E＝E _P∪E _V∪E _T (1)

其中，V为图G的点集，E为图G的边集。
表示在当前帧t中，视角c里第j类关键点中的第m个候选点，j∈{1,2,...,J}，c∈{1,2,...,N}，N为相机个数。D ^t-1表示t-1帧求出的骨骼3D关键点，若不存在t-1帧，则忽略这一项。在图G中，同一视角里，人体骨架中不同类的关键点两两之间有边相连，用E _P表示。不同视角中，人体骨架相同类的关键点两两之间有边相连，用E _V表示。每个视角中，每个关键点与D ^t-1中所有相同类的关键点相连，用E _T表示，若不存在t-1帧，则忽略这一项。初始关键点关联图G如图2所示，为了表述清晰，图2中只画出了两个视角、两类关键点的示意图。

步骤4.2，目标是对初始关键点关联图G求解，得到能够正确表示关键点联系的真实关键点关联图G’：

G’＝(V,E’)，V＝D _j(c)∪D ^t-1，E’＝E’ _p∪E’ _v∪E’ _T (2)

其中，在G’中，同一视角中的关键点以真实人体骨架对应的边相连，用E’ _p表示；不同视角中，同一人物的同类关键点以边相连，用E’ _v表示；每个视角中，每个关键点与D ^t-1中同一人物的同类关键点相连，用E’ _T表示。步骤4.1-4.10即对G’求解过程。

真实关键点关联图G’如图3所示，为了表述清晰，图3中只画出了两个视角、两类关键点的示意图。

步骤4.3，对图G的边
进行权重赋值：

其中，
表示以
和
为顶点的边。
表示
在G’中保留，
表示
在G’中不保留。L _c(x)表示点x处的PAF值。x(u)表示在关键点
和
连线上的插值点。

步骤4.4，对图G的边
进行权重赋值：

其中，
K _c表示相机c的内参矩阵，
表示关键点在相机坐标系的坐标，
表示相机c ₁光心和
所在的直线与相机c ₂光心和
所在的直线之间的直线距离。Z为归一化系数，将
归一化到[0,1]。

步骤4.5，对图G的边
进行权重赋值：

其中，
表示t-1帧第i类关键点的第k个候选点，
为相机光心和
两点所在直线与
之间的距离，T为归一化系数，将
归一化到[0,1]。

步骤4.6，计算人体骨骼束，人体骨骼束
表示在真实关键点关联图G’中由第m个人的第i类和第m个人的第j类关键点组成的子图。一个骨骼束如图4所示。

本步骤包括：

步骤4.6.1，将初始关键点关联图G中，所有第i类关键点和所有第j类关键点组成的子图记为
在多人场景下，
中包含多个人体骨骼束。从
生成的所有候选骨骼束中计算出可令目标方程(10)最大的骨骼束g _c，作为真实的骨骼束。

其中，q(z)＝p(z)·z，|V _c|表示g _c中点的个数，w _p，w _m，w _t，w _v为权重系数。

步骤4.6.2，令
重复步骤4.6.1，直到
为空。

步骤4.7，根据步骤4.6，遍历人体所有骨骼，求出人体骨骼束集合B。

步骤4.8，将人体骨骼束B按照公式(10)的得分，由大到小排列，构成队列Q。

步骤4.9，初始时，真实关键点关联图

步骤4.10，从队列Q中，取出队首骨骼束
在加入G’时，包含的所有关键点d应被赋予同一个人的标签。若
且d _i，d _j在G’中已被赋予不同的人物标签，则
与G’存在冲突。

判断
与G’是否有冲突。

a.若有冲突，则将
按照G’中的人物标签拆分成不同人物的骨骼束，根据公式(10)计算出新的骨骼束得分，将其重新加入队列Q。

b.若没有冲突，则
并为
赋予相应的人物标签。
根据权利要求1所述的一种基于多目视频的家庭场景动作捕捉方法，其特征在于，所述的步骤5中动作数据库中已有动作重建，对于可识别的常见动作，直接调用动作数据库中预置动作动画，节约运算开销。所述的步骤5进一步包括：

步骤5.1，利用采集的图像序列和2D骨骼信息，识别当前人物身份与动作。

步骤5.2，判断当前人物动作是否已存储于动作数据库中。若已存储，则利用步骤5.3，5.4生成人物动画。若未存储，则进入步骤6。

步骤5.3，基于三角测量法，利用双目标定相机获取的人体根关键点图像坐标计算出根关键点的三维坐标。

步骤5.4，将动作数据库中动画初始帧的人物模型根结点对齐步骤5.3中计算出的三维坐标，并借助步骤2.2的面部方向标注确定根结点旋转方向。随后，播放动作数据库中的动画。在处理行走类动作时，可利用本步骤方法计算出动作结束时根结点的位置，并利用步骤2.2中对行走通道的标记确定运动过程路径。

步骤5.5，若检测到人物动作发生切换，则返回步骤5.2。
根据权利要求1所述的一种基于多目视频的家庭场景动作捕捉方法，其特征在于，所述的步骤6中实时动作重建，若当前动作未存储在动作数据库中，则利用三维模型拟合2D人体骨架，实时重建出人物三维动作。所述的步骤6中，令参数化模型拟合2D人体骨架的目标方程的定义为：

E(β,θ)＝λ _JE _J+λ _shapeE _shape+λ _tempE _temp+λ _θE _θ (11)

其中，λ _J，λ _shape，λ _temp，λ _θ为权重参数。

a.E _J为关节距离惩罚项:

其中，对于单个人物，η _i,c表示第c个视角中此人的第i类关键点的置信分数，R _θ(J(β) _i)表示SMPL模型中第i类关键点的3D坐标，
表示第i类关键点向第c个相机的图像平面投影的2D坐标，J _i,c表示第c个视角中第i类关键点的2D坐标，ρ(·)为Geman-McClure惩罚函数。

b.E _shape为形状惩罚项：

其中，对于单个人物，l _i,t表示当前帧t的第i类骨骼的长度，
为利用当前人物初始五帧图像计算出的第i类骨骼的平均长度先验，C表示人体骨骼集合。

c.E _temp为时间平滑项：

其中，α为权重参数，Δv _j,t表示表示第t帧关节点j向前运动的趋势，Δv _j,t＝R _θ(J(β) _j,t-1-R _θ(J(β) _j,t-2，θ _i,t表示第t帧第i类骨骼的姿势参数。

d.E _θ为动作惩罚项：

其中，Σ _j(g _jN(θ；μ _θ,j,Σ _θ,j)为利用CMUMoCaP数据集建立的关于姿势参数θ的先验高斯混合模型。
根据权利要求1所述的一种基于多目视频的家庭场景动作捕捉方法，其特征在于，所述的步骤7中判断并处理实时动作重建时的遮挡情况，判断并处理实时动作重建时人体关键点被遮挡，导致2D关键点无法识别或识别错误的问题。所述的步骤7进一步包括：

步骤7.1，若步骤4组成的2D人体骨架在所有视角中都不完整，或者检测出的部分关键点在所有视角的置信度都低于预设阈值T，则认为该人体有部分关键点被遮挡，处于视角盲区。

步骤7.2，对于较短连续帧的遮挡，在步骤6进行实时重建时，增大式(11)中被遮挡关键点的权重系数λ _temp，加强当前人体3D关键点估算对前一帧关键点的依赖。

步骤7.3，对于较长连续帧的遮挡，特别是特定关键点的长时间遮挡，步骤7.2的处理容易产生累积误差。此种情况下，人物一般处于较为静止的状态，例如，坐于桌前时下半身的关键点被遮挡。此时，根据图片识别结果，从动作数据库中调出最接近当前姿态的标准姿态模型，如标准坐姿、标准站姿、标准卧姿等，及其姿势参数θ。

其中，ω _j表示骨骼关节链中关键点j相对于父关键点的轴角旋转。

根据式(11)，以标准姿态模型的参数θ为初始值进行动作回归，进行回归时只对置信度高的关键点的参数ω进行优化，被遮挡关键点保持原本的参数ω。