WO2022226747A1

WO2022226747A1 - 眼球追踪方法、装置及存储介质

Info

Publication number: WO2022226747A1
Application number: PCT/CN2021/090064
Authority: WO
Inventors: 袁麓; 张国华; 张代齐; 郑爽
Original assignee: 华为技术有限公司
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-11-03
Also published as: CN113366491A; CN113366491B

Abstract

本申请实施例提供一种眼球追踪方法、装置及存储介质，包括：将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像；对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；根据所述人脸信息得到所述目标的瞳孔位置。本方案基于目标的灰度图像和深度图像得到目标的点云，通过进行人头检测进而得到目标的头部的点云，根据目标的头部的点云进行人脸重建处理，进而得到目标的瞳孔位置。采用该手段，基于灰度图像和深度图像两个维度的信息对目标的人脸进行重建，能够实时获取精准的视线起始点。

Description

眼球追踪方法、装置及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种眼球追踪方法、装置及存储介质。

背景技术

视线估计技术是人机交互中一种理解人类意图的重要技术，可以应用于游戏交互、医疗诊断(心理类疾病)、座舱内驾驶员意图分析等场景。视线起始点(即眼球位置)、视线方向是组成视线估计的两个重要模块，这两个模块结合场景环境的三维建模，可以获得用户视线的关注点(Point of Regard，PoR)，从而更为精准地了解用户的意图，完成交互。

目前在确定眼球位置时使用单目摄像头来估计视线起始点在三维空间中的位置，其使用先验和相机成像模型估算人眼与摄像头距离。采用该技术，一般在正常驾驶距离情况下，深度误差在2-3厘米(cm)，其无法满足更高精度要求的场景，例如车载场景中点亮中控屏。且起始点2-3cm的误差，会在相应的方向上造成预测到的PoR有较大误差，尤其是随着注视物体距离离用户越远，视线方向与物体交点与真实值差距会越来越大，这就无法满足视线与车外物体交互的需求。

目前还有采用深度传感器的方法来确定眼球位置，其先利用深度数据离线做基于优化的人脸重建，在部署时，利用该重建的人脸模型与实时获取的点云数据进行迭代最近点算法处理，获取当前的人脸6个自由度的姿态，从而获取到眼球的三维位置。采用该技术，需要离线注册以获取用户的人脸网格信息，同时当人脸表情变化幅度较大时迭代最近点算法配准误差较大。因此，现有技术无法应对开放的环境和实际的车载场景。

发明内容

本申请实施例提供一种眼球追踪方法、装置及存储介质，以提高眼球追踪的精度。

第一方面，本申请实施例提供一种眼球追踪方法，包括：将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；根据所述人脸信息得到所述目标的瞳孔位置。

通过本申请实施例，基于目标的灰度图像和深度图像得到目标的灰度-深度图像，通过进行人头检测进而得到目标的头部的灰度-深度图像，根据目标的头部的灰度-深度图像进行人脸重建处理，进而得到目标的瞳孔位置。采用该手段，基于灰度图像和深度图像两个维度的信息对目标的人脸进行重建，能够实时获取精准的视线起始点。

作为一种可选的实现方式，所述对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息，包括：对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；根据所述目标的人脸模型参数得到所述目标的人脸信息。

通过融合目标的灰度特征和深度特征，得到所述目标的人脸模型参数，进而得到所述目标的人脸信息。该目标的人脸模型参数融合了灰度特征和深度特征，和现有技术中仅包含灰度特征相比，本方案包含的特征更加全面，可有效提高眼球追踪的精度。

作为一种可选的实现方式，所述对所述目标的头部的灰度-深度图像进行人脸重建处理是通过人脸重建网络模型处理的。

作为一种可选的实现方式，所述人脸重建网络模型通过如下训练得到：分别对输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本进行特征提取，得到所述用户的灰度特征和深度特征；将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数和位移参数；根据所述用户的人脸模型参数得到人脸信息；根据所述人脸信息获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。该停止条件可以是损失值不大于预设值。

作为另一种可选的实现方式，所述方法还包括：获取所述用户的第一点云样本以及遮挡物的点云样本、纹理样本；在所述用户的第一点云样本上叠加所述遮挡物的点云样本，得到所述用户的第二点云样本；对所述用户的第二点云样本进行消隐处理，得到所述用户的第三点云样本；对所述第三点云样本和所述遮挡物的纹理样本进行渲染处理，得到所述用户的二维图像样本；对所述用户的二维图像样本和所述第三点云样本分别进行添加噪声的增强处理，得到所述用户的增强后的二维图像样本和增强后的深度图像样本，其中所述用户的增强后的二维图像样本和增强后的深度图像样本分别为所述输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本。

通过本申请实施例，通过获取用户的点云样本以及遮挡物的点云样本、纹理样本，且通过对存在遮挡物的情况进行模拟，训练得到可以适应遮挡物的人脸重建网络模型。采用该方案，可以实现对眼部遮挡物有较强的鲁棒性；且针对眼部区域的数据增强，使得眼部区域重建精度更高。采用该手段，可以模拟出各种真实场景中会出现的情况，获取到对应的增强后的二维图像、三维图像，从而提升算法的鲁棒性。

第二方面，本申请实施例提供一种眼球追踪装置，包括：预处理模块，用于将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；检测模块，用于对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；重建处理模块，用于对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；获取模块，用于根据所述人脸信息得到所述目标的瞳孔位置。

作为一种可选的实现方式，所述重建处理模块，用于：对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；根据所述目标的人脸模型参数得到所述目标的人脸信息。

作为一种可选的实现方式，所述人脸重建网络模型通过如下训练得到：分别对输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本进行特征提取，得到所述用户的灰度特征和深度特征；将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数和位移参数；根据所述用户的人脸模型参数得到人脸信息；根据所述人脸信息获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。

作为另一种可选的实现方式，所述装置还用于：获取所述用户的第一点云样本以及遮挡物的点云样本、纹理样本；在所述用户的第一点云样本上叠加所述遮挡物的点云样本，得到所述用户的第二点云样本；对所述用户的第二点云样本进行消隐处理，得到所述用户的第三点云样本；对所述第三点云样本和所述遮挡物的纹理样本进行渲染处理，得到所述用户的二维图像样本；对所述用户的二维图像样本和所述第三点云样本分别进行添加噪声的增强处理，得到所述用户的增强后的二维图像样本和增强后的深度图像样本，其中所述用户的增强后的二维图像样本和增强后的深度图像样本分别为所述输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本。

第三方面，本申请提供了一种计算机存储介质，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如第一方面任一种可能的实施方式提供的方法。

第四方面，本申请实施例提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面任一种可能的实施方式提供的方法。

第五方面，本申请实施例提供一种眼球追踪装置，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如第一方面任一种可能的实施方式提供的方法。

第六方面，本申请实施例提供一种服务器，所述服务器包括处理器、存储器和总线，其中：所述处理器和所述存储器通过所述总线连接；所述存储器，用于存放计算机程序；所述处理器，用于控制所述存储器，执行所述存储器上所存放的程序，以实现如第一方面任一种可能的实施方式提供的方法。

可以理解地，上述提供的第二方面所述的装置、第三方面所述的计算机存储介质、第四方面所述的计算机程序产品、第五方面所述的装置、第六方面所述的服务器均用于执行第一方面中任一所提供的方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种眼球追踪方法的流程示意图；

图2为本申请实施例提供的一种图像预处理方法的示意图；

图3为本申请实施例提供的一种人脸模型重建方法的示意图；

图4为本申请实施例提供的一种人脸模型重建的训练方法的示意图；

图5为本申请实施例提供的另一种眼球追踪方法的流程示意图；

图6a为本申请实施例提供的一种图像处理前的示意图；

图6b为本申请实施例提供的一种图像处理后的示意图；

图7为本申请实施例提供的一种眼球追踪装置的结构示意图；

图8为本申请实施例提供的另一种眼球追踪装置的结构示意图。

具体实施方式

需要说明的是，本申请实施例可适用于车载场景、游戏交互等视线估计、视线追踪等技术或场景中。

参照图1所示，为本申请实施例提供的一种眼球追踪方法的流程示意图。本申请实施例中提供的一种眼球追踪方法，可以由车载装置(如车机)来执行，其还可以由手机、电脑等终端设备来执行。本方案对此不做具体限定。如图1所示，该方法可包括步骤101-104，具体如下：

101、将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；

上述目标可以是用户、或者机器人等，本申请实施例对此不做具体限定。

上述将灰度图像和深度图像进行预处理，作为一种可选的实现方式，如图2所示，通过红外传感器(Infra-red Sensor，IR)获取目标的高分辨率的灰度图像，通过深度摄像头获取该目标的低分辨率的深度图像；进而将低分辨率的深度图像与高分辨率的灰度图像进行对齐、插值、融合等处理，得到在红外传感器坐标下高分辨率的点云。

具体地，将红外传感器和深度传感器进行标定，以获得坐标系转换关系，然后将深度传感器的深度转换到红外传感器坐标系下，最终输出一个对齐过的红外-深度IR-Depth数据，也即上述目标的灰度-深度图像。

102、对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；

作为一种可选的实现方式，利用检测算法对上述目标的灰度-深度图像进行人头检测，该检测算法例如可以是常见的基于深度学习的人头检测算法。

103、对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；

作为一种可选的实现方式，如图3所示，为本申请实施例提供的一种人脸模型重建方法的示意图。其中，通过对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数。

可选的，上述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数、位移参数和球谐参数。其中，身份参数是指该用户的身份信息；表情参数是指该用户的表情信息；纹理参数是指示该用户的反照率主成分系数；旋转参数是指该用户的人头从世界坐标系转换到相机坐标系下的旋转向量；位移参数是指该用户的人头从世界坐标系转换到相机坐标系下的平移向量；球谐参数是指光照模型的参数，用于光照模型建模使用。

基于上述目标的人脸模型参数，进而可得到所述目标的人脸信息。

作为另一种可选的实现方式，通过将所述目标的头部的灰度-深度图像输入至人脸重建网络模型进行处理进而得到所述目标的人脸信息。其中，上述人脸重建网络模型通过对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；通过将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；进而根据所述目标的人脸模型参数得到所述目标的人脸信息。也就是说，通过人脸重建网络模型回归出人脸模型参数，进而获取到预设坐标系下的人脸网格信息，即人脸信息。

具体地，通过将目标的头部的灰度-深度图像输入至人脸重建网络模型的第一特征提取层进行灰度特征提取，将目标的头部的灰度-深度图像输入至第二特征提取层进行深度特征提取，然后将第一特征提取层和第二特征提取层提取到的特征均输入至特征融合层进行融合处理，最后输出人脸重建网络模型回归得到的人脸模型参数。

上述人脸重建网络模型可以采用卷积神经网络训练得到。具体地，如图4所示，对输入人脸重建网络模型的用户的灰度图像样本和该用户的深度图像样本分别进行特征提取，得到所述用户的灰度特征和深度特征；然后，将用户的灰度特征和深度特征进行融合处理，得到该用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数、位移参数和球谐参数；根据所述用户的人脸模型参数得到人脸信息；根据所述人脸信息、所述用户灰度图像样本和用户深度图像样本获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。该第一损失函数可以是几何损失函数。

作为一种可选的实现方式，上述卷积神经网络采用自监督的方式进行训练。其包括如下三种损失函数：

1)几何损失E _gro(X)，用于计算人脸顶点与深度图像点云之间的误差：

E _gro(X)＝w _ppE _pp(X)+w _psE _ps(X)；

其中，E _pp(X)为点到点的损失；E _ps(X)为点到人脸模型的表面的损失；w _pp为点到点的权重；w _ps为点到面的权重。

2)人脸关键点损失E _lan(X)，用于计算人脸模型三维关键点投影误差；

其中，L为可见的人脸关键点；LP为可见的眼睛关键点；q _i为人脸第i个关键点；p _i为人脸模型上第i个三维(3 dimension，3D)关键点；R为旋转矩阵；t为位移向量；||(q _i-q _j)-(∏(Rp _i+t)-∏(Rp _j+t))|| ₂表示对(q _i-q _j)-(∏(Rp _i+t)-∏(Rp _j+t))求平方和再开方；∑ _i∈L||q _i-∏(Rp _i+t)|| ²表示对||q _i-∏(Rp _i+t)|| ²求和，其中，||q _i- ∏(Rp _i+t)|| ²表示对q _i-∏(Rp _i+t)先求绝对值，再求平方和；i、j均为正整数。

3)像素损失E _col(X)，用于计算人脸模型渲染灰度与IR灰度图像的灰度差；

其中，F为人脸模型可见的像素点；I _syn为合成渲染的像素值；I _real为实际图像中的像素值。

上述卷积神经网络采用如下人脸模型正则损失E _reg(X)对人脸进行约束：

其中，α _id为人脸身份系数；α _alb为人脸反照率系数；α _exp为人脸表情系数；σ _id为身份系数权重；σ _alb为反照率系数；σ _exp为表情系数权重。

由于人眼是眼球追踪过程中的关键位置，因此，本方案可以适当增大人眼在几何损失E _gro(X)中的权重，用于计算人脸顶点与深度图像点云之间的误差：

E _gro(X)＝w ₁E _eve(X)+w ₂E _nose(X)+w ₃E _mouth(X)+w ₄E _other(X)；

其中，E _eve(X)为人脸模型中眼睛区域顶点损失；E _nose(X)为人脸模型中鼻子区域顶点损失；E _mouth(X)为人脸模型中嘴部区域顶点损失；E _other(X)为人脸模型中其他区域顶点损失；w ₁为人脸模型中眼睛区域的系数；w ₂为人脸模型中鼻子区域的系数；w ₃为人脸模型中嘴部区域的系数；w ₄为人脸模型中其他区域的系数。

其中，人脸模型中眼睛区域的系数w ₁满足不小于预设阈值。该预设阈值可以是任意值。例如，w ₁满足：w ₁不小于w ₂、w ₁不小于w ₃且w ₁不小于w ₄。

该实施例针对眼部区域的损失权重增强，使得眼部区域重建精度更高。

基于上述三种损失函数可计算得到几何损失值、人脸关键点损失值和像素损失值。若上述几何损失值不大于预设的几何损失阈值、人脸关键点损失值不大于预设的关键点损失阈值、像素损失值不大于预设的像素损失阈值，则停止训练，得到训练完成的人脸重建网络模型。若上述各损失值不满足上述条件，则调整网络参数，并重复执行上述训练过程，直到达到停止条件。

上述实施例中停止条件以损失值不大于预设的损失阈值为例进行说明。其中，停止条件还可以是迭代次数达到预设次数等，本方案对此不做具体限定。

上述以三种损失函数为例进行说明。其中，还可以是其他损失函数，本方案对此不做具体限定。

104、根据所述人脸信息得到所述目标的瞳孔位置。

作为一种可选的实现方式，根据三维人脸的眼部区域关键点进而可以得到眼睛瞳孔的坐标。具体地，根据人脸上的眼皮、眼角等预设关键点的位置信息进行求解得到目标的瞳孔位置。该瞳孔位置即为视线的起始点。

其中，本申请实施例仅以眼球追踪为例进行说明。采用上述方法，还可以得到目标的嘴巴的位置、鼻子的位置、耳朵的位置等，本方案对此不做具体限定。

其中，视线起始点的关注重点在于眼部区域的准确性，目前当目标的眼睛被手、眼镜、帽子等遮挡，或者光线变化造成的图像变化、深度图像的深度误差等，均会影响眼球追踪的结果。为了可以模拟出各种真实场景中会出现的情况，使得上述人脸重建网络模型能够应对各种不同的复杂场景，本方案还提供一种眼球追踪方法，基于获取到目标对应的关键区域的增强后的二维图像、三维点云图，进而进行眼球追踪，从而提升算法的鲁棒性。

参照图5所示，为本申请实施例提供的另一种眼球追踪方法的流程示意图。本申请实施例中提供的一种眼球追踪方法，可以由车载装置(如车机)来执行，其还可以由手机、电脑等终端设备来执行。本方案对此不做具体限定。如图5所述，该方法可包括步骤501-504，具体如下：

501、将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；

具体地，将红外传感器和深度传感器进行标定，以获得坐标系转换关系，然后将深度传感器的深度转换到红外传感器坐标系下，最终输出一个对齐过的IR-Depth数据，即上述目标的灰度-深度图像。

502、对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；

503、对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；

其中，所述人脸重建网络模型可以基于步骤5031-5039训练得到的，具体如下：

5031、获取用户的第一点云样本以及遮挡物的点云样本、纹理样本；

该第一点云样本可以是用户的原始点云样本，即没有遮挡物时的用户的点云样本。

上述遮挡物是眼睛部位的遮挡物，如可以是手、眼镜、帽子等，或者其他光线变化等影响。

5032、在所述用户的第一点云样本上叠加所述遮挡物的点云样本，得到所述用户的第二点云样本；

在所述用户的第一点云样本摄像头视角前(即相机坐标系上)叠加所述遮挡物的点云样本，得到所述用户的第二点云样本。

5033、对所述用户的第二点云样本进行消隐处理，得到所述用户的第三点云样本；

其中，在真实感图形绘制过程中，由于投影变换失去了深度信息，往往导致图形的二义性。要消除这类二义性，就必须在绘制时消除被遮挡的不可见的线或面，习惯上称之为消除隐藏线和隐藏面，或简称为消隐。

通过将遮挡物后面的不可见点进行消隐处理，如采用消隐算法(例如Z缓冲区z-buffer算法)去除遮挡物后的点云，得到消隐后的用户的第三点云样本。

5034、对所述用户的第三点云样本和所述遮挡物的纹理样本进行渲染处理，得到所述用户的二维图像样本；

其中，通过将位于用户之前的遮挡物的纹理样本通过渲染覆盖后面的用户的纹理，可得到上述用户的二维图像样本。

5035、对所述用户的二维图像样本和所述第三点云样本分别进行添加噪声的增强处理，得到所述用户的增强后的二维图像样本和增强后的深度图像样本，其中所述用户的增强后的二维图像样本和增强后的深度图像样本分别为所述输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本；

其中，在做了遮挡增强后得到二维图像和三维点云，进而可以叠加各种形状的区块作为噪声。这种区块内部的像素值或者点云坐标值可以符合预设的分布(例如像素值分布满足均值为10，标准差为0.1的高斯分布，点云坐标赋值为零)。为了更加接近真实，还可以模拟光照噪声、飞行时间(Time ofFlight，TOF)传感器噪声数据。例如，在IR图像、TOF点云上输入随机生成25x25像素大小、50x50像素大小、100x100像素大小的区块，其中二维图像中的灰度区块的灰度值满足高斯分布，分布的均值为原图中对应区块的像素均值，标准差为0.01。点云图中区块可以模拟空洞等噪声，此时设置深度为零。效果如图6b所示，其中，图6a为未叠加噪声的效果图。

作为一种可选的实现方式，采集座舱内原始的用户二维图像和三维点云。使用扫描仪获取到遮挡物的三维扫描点云和纹理信息。在用户三维点云信息上叠加遮挡物的点云信息，并通过z-buffer算法去除遮挡物后的点云，得到处理后的用户的点云。在处理后的用户的点云上通过扫描遮挡物纹理，进行渲染以生成处理后的用户的二维图像。

以手遮挡为例，为了获取到各种不同位置的手遮挡的数据，可以先使用扫描仪对手进行扫描，获取手的三维点云和纹理信息。在原图中，利用人脸关键点算法获得人脸关键点在二维图像中的位置，通过这个图像中的位置可以在深度图像或三维点云图中找到这个关键点在相机坐标系下的位置。然后可以通过人脸上这个关键点的坐标信息，把之前扫描得到的手三维模型放到对应位置。此时遮挡物在前，从传感器视角来看，原先未被遮挡的一些脸部区域此时被手遮挡住，可以使用消隐算法(例如z-buffer算法)把手后面的人脸点云消除。这样就可以得到一个完整的合成点云数据。

获取到点云数据后，即可根据点云数据获取纹理信息，就可以渲染出相机视角下的二维图像，这样就获取到增强后的二维图像和三维的深度图像。

上述仅以手为例进行说明，还可以合成反光的眼镜、不透光墨镜以及其他可能造成遮挡的配饰数据。通过扫描仪获取3d物体的重建数据，通过算法粗估出人眼相对相机的旋转矩阵R、位移向量T，利用这个R、T将3d物体移动到对应的位置，利用消隐算法叠加到飞行时间TOF点云数据上，通过透视投影将网格灰度信息叠加到IR图像上，进而完成数据合成。

5036、将所述用户灰度图像样本和用户深度图像样本输入至人脸重建网络模型，得到所述用户的灰度特征和深度特征；

此处的用户灰度图像样本即为上述用户的增强后的二维图像样本，此处的用户深度图像样本即为上述增强后的深度图像样本。

5037、将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数；

5038、根据所述用户的人脸模型参数得到人脸信息；

5039、根据所述人脸信息、所述用户的第一灰度图像样本和第一深度图像样本获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值；

其中，上述用户的第一灰度图像样本为用户的原始灰度图像样本，即没有遮挡物时的用户的灰度图像样本。上述用户的第一深度图像样本为用户的原始深度图像样本，即没有遮挡物时的用户的深度图像样本。

上述步骤5036-5039的相关介绍，可参阅前述实施例，在此不再赘述。

504、根据所述人脸信息得到所述目标的瞳孔位置。

通过本申请实施例，通过获取用户的点云样本以及遮挡物的点云样本、纹理样本，且通过对存在遮挡物的情况进行模拟，训练得到可以适应遮挡物的人脸重建网络模型。采用该方案，针对眼部区域的数据增强，使得眼部区域重建精度更高；且可以模拟出各种真实场景中会出现的情况，获取到对应的增强后的二维图像、三维图像，从而提升算法的鲁棒性。

需要说明的是，本申请提供的眼球追踪方法，可以在本地执行，也可以通过将目标的灰度图像和深度图像上传到云端，由云端执行。其中，云端可以由服务器来实现，该服务器可以是虚拟服务器、实体服务器等，其还可以是其他装置，本方案对此不做具体限定。

参照图7所示，为本申请实施例提供一种眼球追踪装置，该装置可以是车载装置(如车机)，其还可以是手机、电脑等终端设备。该装置包括预处理模块701、检测模块702、重建处理模块703和获取模块704，具体如下：

预处理模块701，用于将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；

检测模块702，用于对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；

重建处理模块703，用于对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；

获取模块704，用于根据所述人脸信息得到所述目标的瞳孔位置。

作为一种可选的实现方式，所述重建处理模块703，用于：

对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；

将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；

根据所述目标的人脸模型参数得到所述目标的人脸信息。

作为一种可选的实现方式，所述人脸重建网络模型通过如下训练得到：

分别对输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本进行特征提取，得到所述用户的灰度特征和深度特征；

将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数和位移参数；

根据所述用户的人脸模型参数得到人脸信息；

根据所述人脸信息获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。

需要说明的是，上述预处理模块701、检测模块702、重建处理模块703和获取模块704用于执行上述方法的相关步骤。比如预处理模块701用于执行步骤101和/或步骤501的相关内容，检测模块702用于执行步骤102和/或步骤502的相关内容，重建处理模块703用于执行步骤103和/或步骤503的相关内容，获取模块704用于执行步骤104和/或步骤504的相关内容。

通过本申请实施例，通过获取用户的点云样本以及遮挡物的点云样本、纹理样本，且通过对存在遮挡物的情况进行模拟，训练得到可以适应遮挡物的人脸重建网络模型。采用该方案，针对眼部区域的数据增强，使得眼部区域重建精度更高；且可以模拟出各种真实场景中会出现的情况，获取到对应的增强后的二维图像、三维点云图，从而提升算法的鲁棒性。

在本实施例中，该眼球追踪装置是以模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以上预处理模块701、检测模块702、重建处理模块703和获取模块704可通过图8所示的眼球追踪装置的处理器801来实现。

参照图8所示，为本申请实施例提供的又一种眼球追踪装置的结构示意图。如图8所示，该眼球追踪装置800包括至少一个处理器801，至少一个存储器802以及至少一个通信接口803。所述处理器801、所述存储器802和所述通信接口803通过所述通信总线连接并完成相互间的通信。

处理器801可以是通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制以上方案程序执行的集成电路。

通信接口803，用于与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(Wireless Local Area Networks，WLAN)等。

存储器802可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，所述存储器802用于存储执行以上方案的应用程序代码，并由处理器801来控制执行。所述处理器801用于执行所述存储器802中存储的应用程序代码。

存储器802存储的代码可执行以上提供的一种眼球追踪方法。

应注意，尽管图8所示的眼球追踪装置800仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，眼球追踪装置800还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，眼球追踪装置800还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，眼球追踪装置800也可仅仅包括实现本申请实施例所必须的器件，而不必包括图8中所示的全部器件。

本申请实施例还提供一种芯片系统，所述芯片系统应用于电子设备；所述芯片系统包括一个或多个接口电路，以及一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行所述方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机或处理器上运行时，使得计算机或处理器执行上述任一个方法中的一个或多个步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

应理解，在本申请的描述中，除非另有说明，“/”表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；其中A，B可以是单数或者复数。并且，在本申请的描述中，除非另有说明，“多个”是指两个或多于两个。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中a，b，c可以是单个，也可以是多个。另外，为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。同时，在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-only memory，ROM)，或随机存取存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

一种眼球追踪方法，其特征在于，包括：

将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；

对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；

对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；

根据所述人脸信息得到所述目标的瞳孔位置。
根据权利要求1所述的方法，其特征在于，所述对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息，包括：

对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；

将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；

根据所述目标的人脸模型参数得到所述目标的人脸信息。
根据权利要求2所述的方法，其特征在于，所述对所述目标的头部的灰度-深度图像进行人脸重建处理是通过人脸重建网络模型处理的。
根据权利要求3所述的方法，其特征在于，所述人脸重建网络模型通过如下训练得到：

分别对输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本进行特征提取，得到所述用户的灰度特征和深度特征；

将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数和位移参数；

根据所述用户的人脸模型参数得到人脸信息；

根据所述人脸信息获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取所述用户的第一点云样本以及遮挡物的点云样本、纹理样本；

在所述用户的第一点云样本上叠加所述遮挡物的点云样本，得到所述用户的第二点云样本；

对所述用户的第二点云样本进行消隐处理，得到所述用户的第三点云样本；

对所述第三点云样本和所述遮挡物的纹理样本进行渲染处理，得到所述用户的二维图像样本；

对所述用户的二维图像样本和所述第三点云样本分别进行添加噪声的增强处理，得到所述用户的增强后的二维图像样本和增强后的深度图像样本，其中所述用户的增强后的二维图像样本和增强后的深度图像样本分别为所述输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本。
一种眼球追踪装置，其特征在于，包括：

预处理模块，用于将灰度图像和深度图像进行预处理，得到预设坐标系下的目标的灰度-深度图像，其中，所述灰度图像和所述深度图像中均包含所述目标的头部信息；

检测模块，用于对所述目标的灰度-深度图像进行人头检测，以得到所述目标的头部的灰度-深度图像；

重建处理模块，用于对所述目标的头部的灰度-深度图像进行人脸重建处理，以得到所述目标的人脸信息；

获取模块，用于根据所述人脸信息得到所述目标的瞳孔位置。
根据权利要求6所述的装置，其特征在于，所述重建处理模块，用于：

对所述目标的头部的灰度-深度图像进行特征提取，得到所述目标的灰度特征和深度特征；

将所述目标的灰度特征和深度特征进行融合处理，得到所述目标的人脸模型参数；

根据所述目标的人脸模型参数得到所述目标的人脸信息。
根据权利要求7所述的装置，其特征在于，所述对所述目标的头部的灰度-深度图像进行人脸重建处理是通过人脸重建网络模型处理的。
根据权利要求8所述的装置，其特征在于，所述人脸重建网络模型通过如下训练得到：

分别对输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本进行特征提取，得到所述用户的灰度特征和深度特征；

将所述用户的灰度特征和深度特征进行融合处理，得到所述用户的人脸模型参数，所述人脸模型参数包括身份参数、表情参数、纹理参数、旋转参数和位移参数；

根据所述用户的人脸模型参数得到人脸信息；

根据所述人脸信息获取损失值，若未达到停止条件，则调整所述人脸重建网络模型的参数，并重复执行上述步骤，直到达到停止条件，得到训练后的所述人脸重建网络模型，其中，所述损失值对应的第一损失函数中用户眼睛的权重不小于预设阈值。
根据权利要求9所述的装置，其特征在于，所述装置还用于：

获取所述用户的第一点云样本以及遮挡物的点云样本、纹理样本；

在所述用户的第一点云样本上叠加所述遮挡物的点云样本，得到所述用户的第二点云样本；

对所述用户的第二点云样本进行消隐处理，得到所述用户的第三点云样本；

对所述第三点云样本和所述遮挡物的纹理样本进行渲染处理，得到所述用户的二维图像样本；

对所述用户的二维图像样本和所述第三点云样本分别进行添加噪声的增强处理，得到所述用户的增强后的二维图像样本和增强后的深度图像样本，其中所述用户的增强后的二维图像样本和增强后的深度图像样本分别为所述输入人脸重建网络模型的用户灰度图像样本和用户深度图像样本。
一种眼球追踪装置，其特征在于，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至5任意一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至5任意一项所述的方法。
一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至5任意一项所述的方法。
一种服务器，其特征在于，所述服务器包括处理器、存储器和总线，其中：

所述处理器和所述存储器通过所述总线连接；

所述存储器，用于存放计算机程序；

所述处理器，用于控制所述存储器，执行所述存储器上所存放的程序，以实现权利要求1至5任意一项所述的方法。