WO2022193809A1

WO2022193809A1 - 眼神捕捉方法及装置、存储介质、终端

Info

Publication number: WO2022193809A1
Application number: PCT/CN2022/071905
Authority: WO
Inventors: 王志勇; 王从艺; 柴金祥; 张建杰; 金师豪
Original assignee: 魔珐(上海)信息科技有限公司; 上海墨舞科技有限公司
Priority date: 2021-03-18
Filing date: 2022-01-14
Publication date: 2022-09-22
Also published as: CN113192132A; CN113192132B

Abstract

一种眼神捕捉方法及装置、存储介质、终端，所述眼神捕捉方法，包括：获取演员的眼部图像；获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。上述方案能够降低眼神捕捉的成本以及提高用户体验。

Description

眼神捕捉方法及装置、存储介质、终端

本申请要求2021年3月18日提交中国专利局、申请号为202110290851.4、发明名称为“眼神捕捉方法及装置、存储介质、终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明实施例涉及眼神捕捉领域，尤其涉及一种眼神捕捉方法及装置、存储介质、终端。

背景技术

人脸动画是当前很多热门应用的重要组成部分，比如电影、游戏、虚拟现实等。目前通常直接捕捉真实演员的面部并生成虚拟的三维人脸模型。眼睛作为人脸中最能传达情感信息的器官，在人脸捕捉技术中发挥着至关重要的作用。能否捕捉到精细的眼球运动(即眼神)，是能否准确传达演员的意图和感受的关键。除此之外，眼神捕捉在智能交互中也发挥着极其重要的作用，通过眼神捕捉，可以准确的捕捉到用户紧盯的方向，并捕捉到用户所感兴趣的事物。

当前的眼神捕捉技术通常是基于红外设备的，用户需要佩戴特制的眼镜或者布置特定的红外设备。然而，这种眼神捕捉方式给用户带来了极大的不舒适感并且成本很高，且通常要到指定的工作室进行采集。基于红外设备的技术，极大的阻碍了眼神捕捉技术的发展和推广。

发明内容

本发明实施例解决的技术问题是眼神捕捉的成本较高以及用户体验差。

为解决上述技术问题，本发明实施例提供一种眼神捕捉方法，包括：获取演员的眼部图像；获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。

可选的，所述根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，包括：根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息，所述眼部二维信息至少包括：虹膜掩膜、二维瞳孔中心位置及睁闭眼状态；根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置。

可选的，所述根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息，包括：获取所述眼部图像对应的多个二维眼皮特征点；计算将所述多个二维眼皮特征点与多个预设二维眼皮特征点对齐时的相似变换矩阵；采用所述相似变换矩阵对所述眼部图像进行相似变换，得到变换后的图像；将所述变换后的图像输入至所述眼睛网络模型，预测变换后的图像对应的眼部二维信息；采用所述相似变换矩阵的逆矩阵，对所述变换后的图像对应的眼部二维信息进行变换，得到所述眼部图像对应的眼部二维信息。

可选的，所述根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置，包括：根据所述三维眼球和预估三维瞳孔中心位置，得到所述三维眼球的预估虹膜；将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估虹膜掩膜；计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异；根据所述第一差异计算得到总差异；若所述总差异不大于预设第一阈值，则将所述预估三维瞳孔中心位置作为所述三维瞳孔中心位置。

可选的，所述眼神捕捉方法，还包括：若所述总差异大于预设第一阈值，根据所述总差异对所述预估三维瞳孔中心位置进行调整并迭代优化，直至所述总差异不大于预设第一阈值或者迭代次数达到设定次数，将所述总差异不大于预设第一阈值或者迭代次数达到设定次数时的预估三维瞳孔中心位置作为所述三维瞳孔中心位置。

可选的，所述根据所述第一差异计算得到总差异，包括：将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估二维瞳孔中心位置；计算所述预估二维瞳孔中心位置与所述眼睛网络模型预测的二维瞳孔中心位置之间的第二差异；根据所述第一差异及所述第二差异计算得到所述总差异。

可选的，所述根据所述第一差异和第二差异计算得到总差异，包括：计算当前迭代优化的三维瞳孔中心位置与优化初始时的三维瞳孔中心位置之间的第三差异；根据所述第一差异、所述第二差异及所述第三差异，计算得到所述总差异。

可选的，所述计算预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异，包括：计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的交集部分，以及所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的并集部分，将所述交集部分与所述并集部分的比值与理想比值的差异作为所述第一差异；或者，根据所述眼睛网络模型预测的虹膜掩膜的生成距离变换图，计算所述预估虹膜掩膜的边缘像素在所述距离变换图中的值，根据计算得到的值得到所述第一差异。

可选的，所述获取所述演员的眼部三维信息，包括：通过眼球校准获得所述眼球中心位置、眼球半径及虹膜尺寸。

可选的，所述通过眼球校准获得所述眼球中心位置，包括：获取所述演员在中性表情下的三维人脸，从所述中性表情下的三维人脸中获取多个三维眼皮特征点；计算每只眼睛的所述多个三维眼皮特征点的三维位置的平均值，在所述三维位置的平均值的基础上加上预设的三维偏移量得到每只眼睛的眼球中心位置，所述三维偏移量的偏移方向朝向眼睛内部。

可选的，所述获取所述演员的眼部三维信息，包括：获取与所述演员的眼部图像对应的面部图像；根据所述面部图像，获得所述演员的面部姿态的变换矩阵，所述面部姿态为所述演员面部相对于相机的姿态；根据所述面部姿态的变换矩阵对所述眼球中心位置进行变换，得到相对于相机的眼球中心位置。

可选的，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：所述演员的头部佩戴面部表情捕捉头盔，所述头盔与所述演员的头部相对静止；所述头盔上安装有面部表情捕捉相机，所述相机捕捉演员面部表情。

可选的，对于任一帧的面部图像所述面部姿态的变换矩阵是固定值。

可选的，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：利用摄像机拍摄所述演员的面部表情；所述摄像机与所述演员的头部是分离的。

可选的，对于任一帧的面部图像所述面部姿态的变换矩阵是变化的。

可选的，所述通过眼球校准获得所述虹膜尺寸，包括：获取预设数量且满足校准要求的校准图像；将各校准图像输入至所述眼睛网络模型，预测得到多个虹膜掩膜；对所述多个虹膜掩膜分别进行圆拟合，得到圆拟合后的多个圆形；将所述多个圆形分别投影至所述演员在中性表情下的三维人脸，根据投影结果计算多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸；根据多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸。

可选的，所述根据多个虹膜掩膜在三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸，包括：将多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸的平均值作为所述虹膜尺寸。

可选的，所述眼睛网络模型针对一双眼睛中的其中一只眼睛，当输入至所述眼睛网络模型的眼部图像为一双眼睛中的另一只眼睛时，对输入的眼部图像进行对称翻转，并将对称翻转后的眼部图像作为所述眼睛网络模型的输入。

可选的，所述眼神捕捉方法，还包括：在根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置之前，根据所述睁闭眼状态判断所述演员是否闭眼；当所述睁闭眼状态指示闭眼时，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。

可选的，所述眼神捕捉方法，还包括：在捕捉得到一双眼睛中的每只眼睛分别对应的三维瞳孔中心位置之后，计算一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

的联合先验分布，所述三维瞳孔中心位置包括：眼球半径、天顶角θ和方位角

当联合先验分布结果指示的概率值低于设定概率阈值时，判定捕捉错误，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。

可选的，所述根据所述三维瞳孔中心位置捕捉所述演员的眼神方向，包括：确定所述眼球中心位置指向所述三维瞳孔中心位置的方向，将该方向作为所述演员的眼神方向。

本发明实施例还提供一种眼神捕捉装置，包括：获取单元，用于获取演员的眼部图像；三维眼球确定单元，用于获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；眼神捕捉单元，用于根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。

本发明实施例还提供一种存储介质，所述存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述任一种眼神捕捉方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述任一种眼神捕捉方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

根据演员的眼部三维信息确定演员的三维眼球。根据获取的演员的眼部图像，采用眼睛网络模型和三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉演员的眼神方向。相比需要佩戴特制的眼镜或者布置特定的红外设备进行眼神捕捉而言，本发明实施例通过采用演员的眼部图像，根据演员的眼部三维信息以及眼睛网络模型来捕捉演员的眼神方向，旨在提出一种用户友好的廉价解决方案，无需用户佩戴昂贵的设备，基于单个相机的捕捉技术，不仅可以提高用户使用设备时候的舒适感，而且造价便宜且不需要在特定的工作室进行，可以有效地降低眼神捕捉的成本。

附图说明

图1是本发明实施例中的一种眼神捕捉方法的流程图；

图2是图1中步骤S11的一种具体实施方式的流程图；

图3是图1中步骤S11的另一种具体实施方式的流程图；

图4是图1中步骤S13的一种具体实施方式的流程图；

图5是图4中步骤S131的一种具体实施方式的流程图；

图6是图4中步骤S132的一种具体实施方式的流程图；

图7是本发明实施例中的一种眼球校准中的眼球中心位置的校准流程图；

图8是本发明实施例中的一种演员的眼部三维信息的获取流程图；

图9是本发明实施例中的一种眼球校准中的虹膜尺寸的校准流程图；

图10是本发明实施例中的一种应用场景示意图；

图11是本发明实施例中的又一种眼神捕捉方法的流程图；

图12是本发明实施例中的另一种应用场景示意图；

图13是本发明实施例中的另一种应用场景示意图；

图14是本发明实施例中的再一种眼神捕捉方法的流程图；

图15是本发明实施例中的又一种应用场景示意图；

图16是本发明实施例中的又一种应用场景示意图；

图17是本发明实施例中的又一种应用场景示意图；

图18是本发明实施例中的一种眼神捕捉装置的结构示意图。

具体实施方式

如背景技术所言，现有的眼神捕捉技术通常是基于红外设备的，用户需要佩戴特制的眼镜或者布置特定的红外设备。此种眼神捕捉方式给用户带来了极大的不舒适感并且成本很高。

为解决上述问题，在本发明实施例中，根据演员的眼部三维信息确定演员的三维眼球。根据获取的演员的眼部图像，采用眼睛网络模型和三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉演员的眼神方向。相比需要佩戴特制的眼镜或者布置特定的红外设备进行眼神捕捉而言，本发明实施例通过采用演员的眼部图像、演员的眼部三维信息以及眼睛网络模型来捕捉演员的眼神方向，无需用户佩戴昂贵的设备，基于单个相机的捕捉技术，不仅可以提高用户使用设备时候的舒适感，而且造价便宜且不需要在特定的工作室进行，可以有效地降低眼神捕捉的成本。

为使本发明实施例的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例提供一种眼神捕捉方法，参照图1，给出了本发明实施例中的一种眼神捕捉方法的流程图，具体可以包括如下步骤：

步骤S11，获取演员的眼部图像。

步骤S12，获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球。

在具体实施中，所述眼部三维信息可以至少包括：眼球中心位置、眼球半径及虹膜尺寸。

步骤S13，根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。

在具体实施中，可以确定所述眼球中心位置指向所述三维瞳孔中心位置的方向，将该方向作为演员的眼神方向。

经研究发现，虹膜的中心位置与三维瞳孔中心位置重合，虹膜在眼球上的具体位置根据三维瞳孔中心位置来确定，因此虹膜的位置会跟着三维瞳孔中心位置的变化而移动，最终呈现出来的眼神方向变化是虹膜在眼球上的位置变化。确定所述眼球中心位置指向所述三维瞳孔中心位置的方向，即为计算眼球中心与三维瞳孔中心所连接产生的射线方向。

在一些实施例中，三维瞳孔中心位置可以采用球坐标

的方式进行表示，其中，r为三维眼球的半径，θ为天顶角，

为方位角。此时，在实际捕捉眼神方向时，三维瞳孔中心位置球坐标中的天顶角θ和方位角

来可以表征眼球中心位置与三维瞳孔中心位置所连接产生的射线方向，故可以采用三维瞳孔中心位置球坐标中的天顶角θ和方位角

来表示眼神方向。

在具体实施中，由于每个人的眼球均不相同，眼部三维信息可以作为用于描述每个人的眼球的个性化数据，眼部三维信息至少可以包括：眼球中心位置、眼球半径及虹膜尺寸。每个演员的眼部三维信息中的眼球中心位置、眼球半径及虹膜尺寸等的具体取值分别与该演员相对应，不同演员对应的具体取值不同。从而可以实现根据每个演员的眼部三维信息确定该演员对应的三维眼球。相应地，三维瞳孔中心位置为演员的眼神方向相关，即使同一个演员，不同眼神方向对应的三维瞳孔中心位置不同。

在具体实施中，虹膜尺寸用于表征虹膜的大小。

在具体实施中，步骤S11可以通过多种方式实现，也即可以通过多种方式获取演员的眼部图像。例如，仅拍摄演员的眼部，以得到演员的眼部图像。又如，拍摄演员的面部图像，从面部图像中截取出眼部图像。用于采集眼部图像的图像采集装置可以采用单相机，也可以采用具有图像采集功能的电脑，手机、头盔或者其他终端，此处不做限定。

当从演员的面部图像中截取出眼部图像时，也可以通过多种方式实现，包括并不限于以下几种：

在本发明一实施例中，参照图2，给出了步骤S11的一种具体实施方式的流程图，步骤S11具体可以包括如下步骤S111至步骤S114，通过步骤S111至步骤S114可以从演员的面部图像中截取出眼部图像。

步骤S111，获取所述演员的面部图像。

步骤S112，从所述面部图像中检测得到多个二维眼皮特征点。

在具体实施例中，可以采用深度学习方法(例如CNN网络)对演员的面部图像进行检测，获得二维脸部特征点。其中，二维脸部特征点包括二维眼皮特征点。每只眼睛的二维眼皮特征点可以为6个，也可以为8个，还可以为其他更多数目，具体数目可以根据需求进行配置，只需满足通过设置的多个二维眼皮特征点限定出眼睛的轮廓即可。

步骤S113，根据所述多个二维眼皮特征点在所述面部图像上的位置，确定眼睛在所述面部图像上的位置。

步骤S114，根据所述眼睛在所述面部图像上的位置，从所述面部图像中截取出所述眼部图像。

具体地，例如，获取的为一双眼睛的若干个二维眼皮特征点，若干个二维眼皮特征点包括左眼的二维眼皮特征点以及右眼的二维眼皮特征点。根据一双眼睛的若干个二维眼皮特征点在面部图像上的位置，可以分别截取出左眼的眼部图像以及右眼的眼部图像。具体而言，根据左眼的二维眼皮特征点在面部图像上的位置，从面部图像中截取左眼的眼部图像；根据右眼的二维眼皮特征点在面部图像上的位置，从面部图像中截取右眼的眼部图像。

在本发明另一实施例中，参照图3给出的步骤S11中的另一种具体实施方式的流程图，步骤S11具体可以包括如下步骤S101至步骤S105，可按照以下步骤S101至步骤S105从演员的面部图像中截取出眼部图像。

步骤S101，获取所述演员的面部图像。

步骤S102，获取与所述面部图像对应的三维人脸，从所述三维人脸中提取多个三维眼皮特征点。

在具体实施中，用于重建三维人脸所采用的图像和用于眼神捕捉所采用的图像可用相同的图像采集设备采集得到；用于重建三维人脸所采用的图像和用于眼神捕捉所采用的图像也可用不同的图像采集设备采集得到。

其中，当采用不同的图像采集设备时，可通过图像的采集时间将不同图像采集设备采集的数据做近似匹配。近似匹配指用于重建三维人脸的图像的采集时间与用于眼神捕捉的图像的采集时间之间的间隔时长满足设定时长，以确保用于重建三维人脸的图像中的演员的表情与用于眼神捕捉的图像中的演员的表情之间的表情变化不大，保证眼神捕捉得到的眼神方向的准确度。可根据实际需求配置设定时长的具体取值，对眼神捕捉得到的眼神方向的准确度要求越高，设定时长越小。

进一步，重建三维人脸不局限于用图像进行重建，还可利用其它方式，例如在演员的脸部贴标记点，通过动捕系统采集演员脸部标记点的位置，重建演员的三维人脸，此时可以将脸部标记点和眼神捕捉所采用的图像根据各自的采集时间做近似匹配。

步骤S103，将所述多个三维眼皮特征点投影至所述面部图像对应的二维平面，得到多个二维投影点。

步骤S104，根据所述多个二维投影点在所述面部图像上的位置，确定眼睛在所述面部图像上的位置。

步骤S105，根据所述眼睛在所述面部图像上的位置，从所述面部图像中截取出所述眼部图像。

在具体实施中，截取的眼部图像的尺寸可以根据需求进行设置，此处不做限定。

进一步，当眼部图像中为单眼对应的图像时，可以从三维人脸中提取左眼的三维眼皮特征点，将左眼的三维眼皮特征点投影在面部图像上得到左眼对应的二维投影点，根据左眼对应的二维投影点在面部图像上的位置，从面部图像中截取左眼的眼部图像；关于右眼的眼部图像的截取过程与左眼类型，可以参照左眼的眼部图像的截取中的描述，此处不再赘述。

可以理解的是，当眼部图像为一双眼睛对应的图像时，可以从三维人脸中提取一双眼睛对应的三维眼皮特征点，将一双眼睛对应的三维眼皮特征点投影至面部图像上得到一双眼睛对应的二维投影点，根据一双眼睛对应的二维投影点在面部图像上的位置，从面部图像中截取一双眼睛的眼部图像。

可以理解的是，还可以采用其他方式获取演员的眼部图像，此处不再一一举例。

进一步地，参照图4，给出了步骤S13的一个具体实施方式的流程图，步骤S13可以包括如下步骤S131至步骤S132。

步骤S131，根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息。

在具体实施中，所述眼部二维信息可以至少包括：虹膜掩膜、二维瞳孔中心位置及睁闭眼状态。

其中，虹膜掩膜用于表征二维瞳孔的信息。

睁闭眼状态用于指示眼睛的睁眼或者闭眼的状态。通过睁闭眼状态，可以有效准确地检测到闭眼，有助于判断当前网络预测的眼部二维信息是否可以用于捕捉眼神方向，如果为闭眼，那么不需要进行眼神捕捉，可以将前一帧的眼部图像对应的眼神方向作为当前的眼部图像对应的眼神方向。

在一些实施例中，睁闭眼状态可以采用采用二进制的0及1进行标识。例如，采用0标识闭眼状态，采用1标识睁眼状态。可以理解的是，也可以采用其他标识来标识睁闭眼状态，此处不再一一举例。

在一些实施例中，眼部二维信息还可以包括二维眼皮特征点。由于眼部图像的分辨率高，采用眼睛网络模型预测的二维眼皮特征点的准确度会比较高，后续基于预测的二维眼皮特征点修正重建的三维人脸中眼睛的形状时，有利于提高修正结果的准确度。

步骤S132，根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置。

进一步地，参照图5，给出步骤S131的一个具体实施方式的流程图，步骤S131可以包括如下步骤S11311至步骤S11315。

步骤S1311，获取所述眼部图像对应的多个二维眼皮特征点。

在本发明一实施例中，可以获得演员的面部图像，检测所述面部图像中的二维面部特征点，其中二维面部特征点包括多个二维眼皮特征点。

在本发明另一实施例中，获取与所述面部图像对应的三维人脸，从所述三维人脸中提取多个三维眼皮特征点，将所述多个三维眼皮特征点投影至所述面部图像对应的二维平面，得到多个二维投影点。所得到的多个二维投影年即为眼部图像对应的多个二维眼皮特征点。

步骤S1312，计算将所述多个二维眼皮特征点与多个预设二维眼皮特征点对齐时的相似变换矩阵。

在一个具体实施例中，可以根据多个二维眼皮特征点在面部图像的位置将眼部图像截取出来，将眼部图像中的多个二维眼皮特征点与多个预设二维眼皮特征点对齐时的相似变换矩阵。

在具体实施中，多个预设的二维眼皮特征点可以为默认表情下对应的眼皮特征点。其中，默认表情也可以称为中性表情，指无表情的自然状态。其中预设二维眼皮特征点定义在预设眼部图像上。

步骤S1313，采用所述相似变换矩阵对所述眼部图像进行相似变换，得到变换后的图像。

采用所述相似变换矩阵对所述眼部图像进行相似变换，得到变换后的图像。通过变换可以对眼部图像进行旋转、缩放以及位置等的调整，使得变换后的图像的尺寸、位置等满足设定要求，使得变换后的图像对应的二维眼皮特征点与预设眼部图像对应的二维眼皮特征点具有相似的位置、旋转和尺寸等。

步骤S1314，将所述变换后的图像输入至所述眼睛网络模型，预测变换后的图像对应的眼部二维信息。

步骤S1315，采用所述相似变换矩阵的逆矩阵，对所述变换后的图像对应的眼部二维信息进行变换，得到所述眼部图像对应的眼部二维信息。

在具体实施中，眼睛网络模型可以基于深度学习算法训练得到，以眼部图像为输入，以眼部二维信息为输出。

可以基于卷积神经网络(Convolutional Neural Networks，CNN)训练眼睛网络模型，也可以采用其他类型的深度神经学习算法训练得到。

在具体实施中，考虑到左眼和右眼基本对称，在训练眼睛网络模型时，可以针对单只眼睛(左眼或右眼)为基础进行训练，并得到单只眼睛对应的眼睛网络模型。以单只眼睛为基础训练网络网络模型可以使得眼睛网络模型轻量化，并降低眼睛网络模型的大小，提高眼睛网络模型的运行速度，降低眼睛网络模型的运行时间。以降低对原有系统的帧率的影响。此外，还可以降低运行的成本。

需要说明的是，在眼睛网络模型训练的时候，假定以左(或者右)眼作为基准，可以将作为训练样本的右(或者左)眼的样本图像进行左右对称翻转，进而转换为左(或者右)眼的样本图像，因此只需要训练一个模型即可。例如，以左眼为基础进行训练眼睛网络模型，会把右眼的对应的眼部图像进行左右对称翻转，将左右对称翻转后的右眼眼部图像与左眼对应的眼部图像组成训练数据，对眼睛网络模型进行训练。

进一步，若所述眼睛网络模型根据一双眼睛中的其中一只眼睛的眼部图像训练得到，当输入至所述眼睛网络模型的眼部图像为一双眼睛中的另一只眼睛时，对输入的眼部图像进行对称翻转(如左右对称翻转)，并将对称翻转后的眼部图像作为所述眼睛网络模型的输入。只需对眼睛网络模型输出的眼部二维信息再次进行对称变换，即可得到对称翻转前的另一只眼睛的眼部图像的眼部二维信息。

例如，若是基于左眼的眼部图像训练得到眼睛网络模型，针对左眼的眼部图像可以直接输入至眼睛网络模型，输出左眼的眼部二维信息。针对右眼的眼部图像，则需要对右眼的眼部图像进行左右对称翻转，转换成左眼的眼部图像，得到左眼对应的眼部二维信息之后，则采用相似变换矩阵的逆矩阵对左眼对应的眼部二维信息进行转换，得到右眼对应的眼部二维信息。

进一步地，参照图6，给出步骤S132的一种具体实施方式的流程图，步骤S132可以包括如下步骤S1321至步骤S1327。

步骤S1321，根据所述三维眼球和预估三维瞳孔中心位置得到所述三维眼球的预估虹膜。

其中，可以将前一次迭代得到的三维瞳孔中心位置作为预估的三维瞳孔中心位置。如果当前是第一次迭代，则可以将前一帧图像确定的三维瞳孔中心位置作为预估的三维瞳孔中心位置，也可以将根据默认(向前看)的眼神方向状态的图像确定的三维瞳孔中心位置作为预估三维瞳孔中心位置。

步骤S1322，将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估虹膜掩膜。

步骤S1323，计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异。

其中，计算第一差异的计算方式可以有多种。

例如，计算预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的交集除以并集(Intersection over Union，IOU)，根据IOU计算结果得到第一差异。也即计算预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的重叠度，根据重叠度得到第一差异。进一步，可以根据重叠度与理想重叠度的差异得到第一差异，当理想重叠度取完全重叠时，IOU为1。具体而言，计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的交集部分，以及所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的并集部分，将所述交集部分与所述并集部分的比值与理想比值的差异作为所述第一差异。其中，理想比值即为理想重叠度下的比值，当理想重叠度取完全重叠时，理想比值取1。

又如，根据所述眼睛网络模型预测的虹膜掩膜的生成距离变换图，计算所述预估虹膜掩膜的边缘像素在所述距离变换图中的值，根据计算得到的预估虹膜掩膜的边缘像素在所述距离变换图中的值得到所述第一差异。例如，将预估虹膜掩膜的所有边缘像素在所述距离变换图中的值之和，作为第一差异。

具体地，在距离变换图中，每个像素的值表示该像素与最近的前景像素的距离。本实施例中，前景即为眼睛网络模型预测的虹膜掩膜。当预估虹膜掩膜的边缘像素落入眼睛网络模型预测的虹膜掩膜中时，那么该边缘像素在距离变换图中的取值即为0；当预估虹膜掩膜的边缘像素不在眼睛网络模型预测的虹膜掩膜中时，那么该边缘像素在距离变换图中的取值则大于0。

步骤S1324，根据第一差异计算总差异。

为提高三维瞳孔中心位置的确定的准确度，在本发明一些实施例中，将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估二维瞳孔中心位置；计算所述预估二维瞳孔中心位置与所述眼睛网络模型预测的二维瞳孔中心位置之间的第二差异；根据所述第一差异及所述第二差异计算得到所述总差异。

例如，计算第一差异与第二差异的和，将第一差异与第二差异之和作为总差异。

在具体实施例中，为第一差异及第二差异分别配置对应的权重，根据第一差异对应的权重及第二差异对应的权重对第一差异及第二差异进行加权，并根据加权结果得到总差异。具体而言，将第一差异对应的权重与第一差异做乘法运算，得到第一运算结果，将第二差异对应的权重与第二权重做乘法运算，得到第二运算结果，将第一运算结果与第二运算结果之和作为总差异。

在本发明又一些实施例中，计算当前迭代优化的三维瞳孔中心位置与优化初始时的三维瞳孔中心位置之间的第三差异，根据所述第一差异、所述第二差异及所述第三差异，计算得到所述总差异。

其中，可以将所述第一差异、所述第二差异及所述第三差异之和作为所述总差异。也可以为第一差异、第二差异及第三差异分别配置对应的权重，根据第一差异对应的权重、第二差异对应的权重及第三差异对应的权重，分别对第一差异、第二差异及第三差异进行加权，并根据加权结果得到总差异。具体而言，将第一差异对应的权重与第一差异做乘法运算，得到第四运算结果，将第二差异对应的权重与第二差异做乘法运算得到第五运算结果，将第三差异对应的权重与第三权重做乘法运算，得到第六运算结果，将第四运算结果、第五运算结果与第六运算结果之和作为总差异。

第三差异可以用于表征瞳孔的移动情况，由于两帧图像的采集时间的间隔时长较短，在该间隔时长内，通常演员的瞳孔的移动幅度较小，反应至相邻帧中的眼部图像，相邻帧之间的瞳孔的位置变化幅度较小。若第三差异较大，则表征瞳孔移动过快。当总差异大于预设第一阈值时，对三维瞳孔中心位置进行迭代优化时，第三差异可以约束用于迭代优化的优化函数在寻找解(三维瞳孔中心位置中的θ及

)的时候，在初始值的邻域内搜索。若所寻找的解(三维瞳孔中心位置中的θ及

)不在邻域内，则第三差异较大，可以促使优化函数回到初始值的邻域，提高眼神捕捉效率。其中初始值来自于根据前一帧眼部图像捕捉的眼神方向或者根据眼睛默认向前看的眼部图像所捕捉的眼神方向。

步骤S1325，判断总差异是否大于预设第一阈值。

当判断结果为否时，执行步骤S1326。

步骤S1326，将所述预估三维瞳孔中心位置作为所述三维瞳孔中心位置。

进一步地，在一些实施例中，若步骤S1325的判断结果为是时，执行步骤S1327。

步骤S1327，根据所述总差异对所述三维瞳孔中心位置进行调整。

关于三维瞳孔中心位置，可用球坐标的方式

进行表示，其中，r为眼球半径、θ为天顶角，

为方位角。可以采用合成-分析的方式对每只眼睛的三维瞳孔中心位置进行优化，也即步骤S1321至步骤S1327对应的方式。

具体地，眼球半径r可以为预设值。因此，在采用合成-分析的方式对三维瞳孔中心位置进行优化时，可以仅对θ，

进行优化。

在具体实施中，根据所述总差异对所述预估三维瞳孔中心位置进行调整之后，根据调整后的三维瞳孔中心位置继续执行步骤S1321，也即对三维瞳孔中心位置进行迭代优化，直至所述总差异不大于预设第一阈值或者迭代次数达到设定次数，将所述总差异不大于预设第一阈值或者迭代次数达到设定次数时的预估三维瞳孔中心位置作为所述三维瞳孔中心位置。对于每一帧图像都执行上述步骤S1321-S1327。

在具体实施中，步骤S13捕捉得到所述演员的眼神方向的过程中，可能出现眼神捕捉结果错误的情况，一旦眼神捕捉结果出现错误，影响用户体验。为解决上述问题，在本发明一些非限制性实施例中，可以根据两只眼睛的互动关系，判断是否出现捕捉错误。若根据两只眼睛的互动关系判定出现捕捉错误时，则将根据前一帧眼部图像捕捉的眼神方向作为本次的眼部图像对应的眼神方向。互动关系一般是指是指左眼的眼神方向和右眼的眼神方向是否能够被同一个人同时做出来。例如，捕捉出来的双眼眼神方向为左眼向上看，右眼向下看，但是此种情况对于一般普通人来说是不容易做到的，因此可以判定捕捉错误。

在具体实施中，在捕捉得到一双眼睛中的每只眼睛分别对应的三维瞳孔中心位置之后，可以根据优化后的每只眼睛的三维瞳孔中心位置的天顶角θ，方位角

确定两只眼睛的互动关系。具体而言，计算一双眼睛中的两只眼睛的三维瞳孔中心位置中的θ，

的联合先验分布。当联合先验分布结果指示的概率值低于设定概率阈值时，判定捕捉错误，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。当联合先验分布结果指示的概率值不低于设定概率阈值时，则采用根据所述眼部图像捕捉的眼神方向。其中，概率值用于表示两只眼睛的三维瞳孔中心位置中的θ，

联合出现的概率。其中，两只眼睛的三维瞳孔中心位置中的θ，

的联合先验分布包括左眼的θ、左眼的

右眼的θ和右眼的

这4个变量的联合先验分布。此时，左眼的θ、左眼的

右眼的θ和右眼的

这4个变量为迭代优化完成后所得到的，通过联合先验分布限定捕捉眼神方向的范围，保证捕捉出来的眼神方向状符合一般普通人能够做出来的表情状态以得到符合常规人群能够做出的眼神方向，避免捕捉出异常眼神方向，例如左眼的眼神方向向上，右眼的眼神方向向下等。

为了提高用户体验，在本发明一些非限制性实施例中，在步骤S132执行之前，根据步骤S131输出的睁闭眼状态判断所述演员是否闭眼。当睁闭眼状态指示闭眼时，将前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。也即不再基于本帧眼部图像捕捉眼神方向，而是采用前一帧眼部图像对应的眼神方向，以提高眼神捕捉过程中的稳定性，以及确保眼神捕捉过程中所得到眼神方向状态的一致性和连贯性。当基于多帧眼部图像连续捕捉演员的眼神方向时，使得所得到的捕捉得到的眼神变化与演员的实际眼神变化更加吻合。

在具体实施中，眼部三维信息为演员的个性化数据，为了提高生成的三维眼球的效果，在步骤S12执行之前，判断是否已经进行眼球校准；若未进行眼球校准，则进行眼球校准。

通过眼球校准可以使得眼部三维信息与演员的真实情况更加贴近。在本发明实施例中，眼部三维信息中的眼球中心位置、眼球半径以及虹膜尺寸可以通过眼球校准得到。三维瞳孔中心位置表达了瞳孔中心的运动状态，可通过步骤S1321及步骤S1327进行优化得到，此处不再赘述。

考虑到实际中，眼球的大部分被眼睑覆盖。当闭眼时，眼球基本完全被眼睑所覆盖。当睁眼时，可以在眼睑间的裂缝(睑裂)暴露出部分眼球。从而获取到的眼部图像中，眼球的绝大部分是不可见的，如果同时校准眼部三维信息中的眼球中心位置、眼球半径以及虹膜尺寸，所得到的眼部三维信息的准确度以及稳定性不太好。

为了提高眼部三维信息的校准结果的稳定性，可以通过如下方式进行眼球校准。

关于眼球半径的校准，经研究发现，通常各成年人的眼球的大小之间的差异较小。故在本发明实施例中，眼球半径可以取成年人的平均眼球半径。在一些实施例中，眼球半径可以取12.5mm。可以理解的是，根据实际应用场景的需求，眼球半径的取值也可以做适应性的调整。例如，对于演员为儿童时，眼球半径可以稍微调小些，以尽量与儿童的眼球实际大小相贴合。再如，不同人种的演员的眼球大小不同，也可以根据演员的具体人种配置眼球半径，其中，人种可以为黄色人种、白色人种、黑色人种等，人种分类可以有多种不同的分类方式，具体根据需求进行选择，并配置对应的眼球半径即可，此处不做限定。

关于眼球中心位置的校准，参照图7，给出了本发明实施例中的一种眼球校准中的眼球中心位置的校准流程图，具体可以包括如下步骤：

步骤S71，获取所述演员在中性表情下的三维人脸，从所述中性表情下的三维人脸中获取多个三维眼皮特征点。

步骤S72，计算每只眼睛的所述多个三维眼皮特征点的三维位置的平均值，在所述三维位置的平均值的基础上加上预设的三维偏移量得到每只眼睛的眼球中心位置，所述三维偏移量的偏移方向朝向眼睛内部。

在具体实施中，每只眼睛的三维眼皮特征点的数目可以为6个，也可以为8个，或者可以为其他更多数目，三维眼皮特征点的具体数目可以根据实际需求进行设定。计算所选取的每只眼球的三维眼皮特征点的三维位置的平均值。考虑到三维眼球嵌入在眼睑内，在三维眼皮特征点的三维位置的平均值的基础上加上预设的三维偏移量，其中三维偏移量的偏移方向朝向眼睛内部，用来模拟真实眼皮与眼球中心的偏移，从而采用三维偏移量可以对平均值进行朝向眼睛内部的三维偏移，将偏移后的三维位置作为每只眼睛的眼球中心位置。此时获得的是相对于三维人脸的眼球中心位置。

在一些实施例中，参照图8，给出了本发明实施例中的一种演员的眼部三维信息的获取流程图，所述获取所述演员的眼部三维信息具体可以包括：

步骤S81，获取与所述演员的眼部图像对应的面部图像。

步骤S82，根据所述面部图像，获得所述演员的面部姿态的变换矩阵，所述面部姿态为所述演员面部相对于相机的姿态。

在一些实施例中，面部姿态可以通过三维人脸重建获得，通常情况下三维人脸模型由面部姿态和表情参数来联合确定，其中表情参数定义了在人脸坐标系下的三维人脸模型，面部姿态将人脸坐标系下的三维人脸模型转换到相机坐标系或者其他指定的坐标系下，所以通过重建面部图片中人脸的三维模型，可以计算出其面部姿态。

在另一些实施例中，面部姿态也可以通过深度学习算法预测得到，即将面部图像输入到深度学习网络中，预测得到面部姿态。所述面部姿态为所述演员面部相对于相机的姿态即为演员面部相对于相机的位置和朝向。

在一实施例中，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：所述演员的头部佩戴面部表情捕捉头盔，所述头盔与所述演员的头部相对静止；所述头盔上安装有面部表情捕捉相机，所述相机捕捉演员面部表情。此时，对于任一帧的面部图像所述姿态变换矩阵是固定值。所述头盔与所述演员的头部在每次采集中相对静止，即相对位置和相对朝向固定，一次采集定义为从所述演员佩戴头盔之后到取下头盔之前的采集。对于每次采集中任何一帧的面部图像所述面部姿态的变换矩阵是固定值，即在获得姿态变换矩阵之后，可在后续图片中沿用这个面部姿态的变换矩阵，而无需再进行计算。

在另一实施例中，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：利用摄像机拍摄演员的面部表情；所述摄像机与演员的头部是分离的。

进一步，对于任一帧的面部图像所述面部姿态的变换矩阵是变化的，每一帧图片均需重新计算姿态变换矩阵。

步骤S83，根据所述对所述眼球中心位置进行变换，得到相对于相机的眼球中心位置。

具体地，采用面部姿态的变换矩阵对眼球中心位置进行变换获得的是相对于相机所在坐标系的眼球中心位置。

在一些非限制性实施例中，眼球中心位置可以为相对于三维人脸的位置。需要说明的是，所选择参考坐标系不同时，眼球中心位置的具体取值不同，具体可以根据需求选择的参考坐标系，并在需要时进行转换即可。

关于虹膜尺寸的校准，参照图9，给出了本发明实施例中的一种眼球校准中的虹膜尺寸的校准流程图，具体可以包括如下步骤：

步骤S91，获取预设数量且满足校准要求的校准图像。

演员保持眼睛睁开，达到设定预设时长之后(如1秒至2秒)，之后演员开始做表情。眼睛睁开是为了后续校准提供所需的校准图像。例如对于单相机输入的每张图像，可以判断眼球是否已经校准，当完成眼球校准，则输出校准状态信息，校准状态信息用于指示已经完成眼球校准。如果没有完成眼球校准，则判断采集的图像是否符合校准要求(如眼睛正常睁开且目视前方)，若满足校准要求则存贮该图像，继续获取图像直到获得校准图像达到设定数量后开始进行眼球校准。其中校准图像的设定数量可以预先根据需求进行配置。

步骤S92，将各校准图像输入至所述眼睛网络模型，预测得到多个虹膜掩膜。

步骤S93，对所述多个虹膜掩膜分别进行圆拟合，得到圆拟合后的多个圆形。

具体而言，对虹膜掩膜分别进行圆拟合，即虹膜掩膜所在的边缘像素点拟合成一个圆形。

步骤S94，将所述多个圆形分别投影至所述演员在中性表情下的三维人脸，根据投影结果计算多个虹膜掩膜在三维人脸中对应的虹膜尺寸。

反投影为相机投影的反过程，即连接相机和图片中一个像素产生一条射线，计算该射线与眼球的交点作为该图片像素的反投影点。如果有2个交点，则取距离相机较近的那个交点；如果没有交点，则该像素没有反投影点。通常，以相机为参考坐标系，相机位置在坐标原点(0，0，0)，而图片像素的坐标可以用(x，y，f)表示，其中(x，y)为该像素的在图片中的二维坐标，f是相机的焦距，单位：像素。

步骤S95，根据多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸。

在一些实施例中，可以将多个虹膜掩膜在三维人脸中对应的虹膜尺寸的平均值，作为校准后的虹膜尺寸。

在另一些实施例中，可以根据多个虹膜掩膜在三维人脸中对应的虹膜尺寸的取值，分别为各虹膜尺寸配置对应的权重，将各虹膜尺寸与对应的权重进行加权，将加权结果作为校准后的虹膜尺寸。

在又一些实施例中，还可以根据多个虹膜掩膜在三维人脸中对应的虹膜尺寸，去除最大值及最小值，然后将余下的虹膜尺寸进行平均，将计算得到的平均值作为校准后的虹膜尺寸。

在本发明实施例中，虹膜可以近似为眼球上的一个弧面，虹膜尺寸可以用该弧面的底面半径来表示，或者采用底面半径与眼球半径的夹角表示。

需要说明的是，上述眼球中心位置的校准和虹膜尺寸的校准可以同步执行，也可以异步执行，此处不做限定。

本发明实施例中，可以分别对两只眼睛的三维瞳孔中心的位置进行优化。三维瞳孔中心位置的优化过程可以参见上述实施例中的步骤S1321至步骤S1327中的描述，此处不再赘述。

由上可知，根据演员的眼部三维信息确定演员的三维眼球。根据获取的演员的眼部图像，采用眼睛网络模型和三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉演员的眼神方向。相比需要佩戴特制的眼镜或者布置特定的红外设备进行眼神捕捉而言，本发明实施例通过采用演员的眼部图像、演员的眼部三维信息以及眼睛网络模型来捕捉演员的眼神方向，无须用户佩戴额外的设备，基于单个相机的捕捉技术，不仅可以提高用户使用设备时候的舒适感，而且造价便宜且不需要在特定的工作室进行，可以有效地降低眼神捕捉的成本。

进一步地，在步骤S11中，确定三维眼球所采用的眼部三维信息可以为经过眼球校准后的眼球中心位置、眼球半径和虹膜尺寸。此外，经过眼球校准后的眼球中心位置还可以根据面部姿态的变换矩阵进行变换。

下面对眼睛网络模型的训练过程进行说明。

在具体实施中，考虑到人的左右眼是相互对称的，在训练眼睛网络模型时，可以针对单只眼睛(左眼或右眼)进行训练，得到单只眼睛对应的眼睛网络模型。在训练眼睛网络模型时，假定以左(或者右)眼作为基准，可以将作为训练样本的右(或者左)眼的样本图像进行对左右称翻转，进而转换为左(或者右)眼的样本图像，因此只需要训练一个模型即可。例如，以左眼为基础进行训练眼睛网络模型，会把右眼的对应的眼部图像进行左右对称翻转，将左右对称翻转后的右眼眼部图像与左眼对应的眼部图像组成训练数据，对眼睛网络模型进行训练。

根据每张样本图像中人工标注的眼皮特征点的位置与预设眼皮特征点的位置进行对齐，获得对齐所需的相似变换矩阵，其中，预设眼皮特征点指默认表情下(也可称为中性表情)的特征点。根据该相似变换矩阵对样本图像进行对应的变换，完成相似变换后的图像与所述预设眼部图像具有极度相似的属性和特点，即通过对齐使得所有的样本图像具有相似的旋转、尺度和位置，所有的样本图像都是以预设眼皮特征点为基础进行调整，以预设眼皮特征点为基准，对样本图像中人工标注的眼皮特征点进行相似变换，使得样本图像中人工标注的眼皮特征点尽可能的与每个对应的预设眼皮特征点的位置一致。计算每个人工标注的眼皮特征点与对应的预设眼皮特征点的差异，使得差异最小。

将相似变换后的样本图像输入至深度学习网络中，进行眼睛网络模型训练，可以使得网络收敛速度快以及所需网络小，降低眼睛网络模型的训练的难度，提高眼睛网络模型的训练效率。同时因为难度降低，可以使用更小的深度学习网络，从而降低了整个算法的运行时间。目的是使得眼睛网络模型的网络简洁，训练的时候眼睛网络模型容易收敛，预测时间短，成本较低。

为便于本领域技术人员更好的理解和实现本发明实施例中，下面结合具体场景对本发明实施例提供的眼神捕捉方法进行说明：

参照图10，给出了本发明实施例中的一种应用场景示意图。在该场景A中，眼神捕捉方法用于动作和表情捕捉系统，演员头戴面部表情捕捉头盔30，头盔30与演员头部相对固定，头盔30上设置有相机40。结合图11给出的发明实施例中的又一种眼神捕捉方法的流程图，具体流程如下：

a1：面部捕捉系统的头盔拍摄演员的面部图像；

a2：根据面部图像和相机的位置计算第一帧图像的面部姿态(headpose)变换矩阵。

在本实施例中，面部姿态的变换矩阵是固定值，后续帧沿用第一帧图像对应的面部姿态(headpose)变换矩阵；

a3：根据演员的面部图像截取眼部图像。

a3的具体实现方法可参见步骤S111-S114或者S101-S105中的描述，此处不做赘述。

a4：将眼部图像输入至眼睛网络模型中，得到虹膜掩膜、二维瞳孔中心位置及睁闭眼状态。

a4的具体方法可参见步骤S1311-S1315中的描述，此处不做赘述。

a5：判断演员是否闭眼。

如判断结果为是，执行a6，沿用上一帧图像对应的眼神方向；若判断结果为否，执行步骤a7。

a7：判断眼球是否已进行校准。

如判断结果为是，则进行步骤a9；若判断结果为否，则进行步骤a8。

a8：通过眼球校准获得眼球半径、虹膜尺寸以及相对于人脸坐标的眼球中心位置，并通过面部姿态的变换矩阵转换成相对于相机的眼球中心位置。

a8的具体实现方法参照步骤S71-S72、S91-S95及S81-S83中的描述，此处不做赘述。

a9：根据预测得到的虹膜掩膜、二维瞳孔中心位置，眼球半径、虹膜大小和相对于相机坐标的眼球中心位置，以及预估三维瞳孔中心位置采用合成-分析的方法捕捉得到所述演员的眼神方向，即得到三维瞳孔中心位置球坐标的天顶角θ和方位角

a9的具体实现方法参照步骤S1321-S1327中的描述，此处不做赘述。

a10：计算一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

的联合先验分布。

a11：判断一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

的联合先验分布是否符合设定概率阈值要求。

若判断结果为否，不符合设定概率阈值要求，则采用前一帧的眼神方向的捕捉结果，也即执行a13。若判断结果为是，执行步骤a12。

a12：根据三维瞳孔中心位置中的天顶角θ和方位角

将虹膜在眼球的位置呈现出来。

例如，图10中显示终端的显示界面上呈现的即为重建的三维人脸和眼神。图10中示意的呈现效果即为示意性说明，还可以存在其他变形方式。

参照图12及图13，给出了本发明实施例中的另一种应用场景示意图。在该场景B中，眼神捕捉方法基于单相机系统，单相机可以为PC端60的相机70，如图12所示。或者单相机是移动终端50(如手机)的相机。单相机与演员的位置不固定。结合图14给出了发明实施例中的又一种眼神捕捉方法的流程图，具体流程如下：

b1：面部捕捉系统的头盔拍摄演员的面部图像；

b2：根据面部图像和相机的位置计算每一帧图像的面部姿态(headpose)变换矩阵。

其中，面部姿态的变换矩阵是变化的，可以不是固定值，每一帧图像均需重新计算面部姿态(headpose)变换矩阵；

b3：根据演员的面部图像截取眼部图像。

b3的具体实现方法可参见步骤S111-S114或者S101-S105中的描述，此处不做赘述。

b4：将眼部图像放到眼睛网络模型中，得到虹膜掩膜、二维瞳孔中心位置及睁闭眼状态。

步骤b4的具体实现方法可参见步骤S1311-S1315中的描述，此处不做赘述。

b5：判断演员是否闭眼。

若判断结果为是，执行b6，即沿用上一帧图像对应的眼神方向；若判断结果为否，执行步骤b7。

b7：判断眼球是否已进行校准。

若判断结果为是，则进行步骤b9；若判断结果为否，则进行步骤b8。

b8：通过眼球校准获得眼球半径、虹膜尺寸以及相对于人脸坐标的眼球中心位置，并通过面部姿态的变换矩阵转换成相对于相机的眼球中心位置。

b8的具体实现方法参照步骤S71-S72、S91-S95或者S81-S83中的描述，此处不做赘述。

b9：根据预测得到的虹膜掩膜、二维瞳孔中心位置，眼球半径、虹膜大小和相对于相机坐标的眼球中心位置，以及预估三维瞳孔中心位置采用合成-分析的方法捕捉得到所述演员的眼神方向，即得到三维瞳孔中心位置球坐标的天顶角θ和方位角

b9的具体实现方法参照步骤S1321-S1327中的描述，此处不做赘述。

b10：计算一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

的联合先验分布。

b11，判断一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

的联合先验分布是否符合设定概率阈值要求。

若判断结果为否，不符合设定概率阈值要求，则采用前一帧的眼神方向的捕捉结果，也即执行步骤b13。若判断结果为是，执行b12。

b12：根据三维瞳孔中心位置中的天顶角θ和方位角

将虹膜在眼球的位置呈现出来。

例如，图12中PC端60的显示界面上呈现的即为重建的三维人脸和眼神。如图13的移动终端50的显示界面上呈现的即为重建的三维人脸和眼神。可以理解的是，图12及13中示意的呈现效果即为示意性说明，还可以存在其他变形方式。

上述两种应用场景均可用于虚拟角色表演动画的生成和虚拟角色的直播。根据眼神方向的捕捉结果，可以将眼球和虹膜添加到虚拟角色的脸上，使得虚拟角色具备和所述演员相似的眼神方向，进而能够更加准确的传达所述演员的表情和意图。

除此之外，眼神捕捉在智能交互中也发挥着极其重要的作用，本发明实施例提供的眼神捕捉方法还可用于智能交互，如图15至图17所示的本发明实施例中的不同的应用场景示意图。图15示意的场景为采用移动终端50(如手机)采集用户的眼部图像，进而根据确定的眼神方向确定眼神关注区域。图16示意的场景为PC端60的相机70采集用户的眼部图像，进而根据确定的眼神方向确定眼神关注区域。图17示意的场景为用户佩戴头盔，头盔30，头盔30与用户头部相对固定，头盔上设置有相机40，通过相机40采集用户的眼部图像，进而根据确定的眼神方向确定眼神关注区域。通常眼睛紧盯的方向，常常是最感兴趣的物体所在的方向。通过眼神捕捉，可以准确的捕捉到用户紧盯的方向，并捕捉到用户所感兴趣的事物，从而获知用户的喜好、兴趣和意图，以有针对性的投放用户个性化的产品。

例如，用户在盯着屏幕中的广告时，通过检测到用户目光的方向，从而发现用户对体育运动非常感兴趣，完善了该用户的人物设定，即用户是个体育迷，进行在以后的交互中提供该用户感兴趣的体育比赛、体育产品等等。

需要说明的是，以上应用场景仅为示意性说明，还可以存在其他的应用场景，上述举例的应用场景并不限制本发明实施例提供的眼神捕捉方法的应用场景。

本发明实施例提供的眼神捕捉装置可以对离线的视频或者图像进行眼神捕捉，也可以实时在线对演员进行眼神捕捉。

此外，采用本发明实施例提供的眼神捕捉方法，极大的提高基于单相机人脸表情捕捉的准确性，能够生动有效的传达人脸的真实情感和意图。同时为单相机在线虚拟直播技术、单相机智能交互技术、人脸识别技术等核心AI技术提供了算法基础，可以用于电影、游戏、刑侦，监控等领域。

本发明实施例还提供一种眼神捕捉装置，参照图18，给出本发明实施例中的一种眼神捕捉装置140，具体可以包括：

获取单元141，用于获取演员的眼部图像；

三维眼球确定单元142，用于获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；

眼神捕捉单元143，用于根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。

在具体实施中，所述眼神捕捉单元143，用于根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息，所述眼部二维信息至少包括：虹膜掩膜、二维瞳孔中心位置及睁闭眼状态；根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置。

在具体实施中，所述眼神捕捉单元143，用于获取所述眼部图像对应的多个二维眼皮特征点；计算将所述多个二维眼皮特征点与多个预设二维眼皮特征点对齐时的相似变换矩阵；采用所述相似变换矩阵对所述眼部图像进行相似变换，得到变换后的图像；将所述变换后的图像输入至所述眼睛网络模型，预测变换后的图像对应的眼部二维信息；采用所述相似变换矩阵的逆矩阵，对所述变换后的图像对应的眼部二维信息进行变换，得到所述眼部图像对应的眼部二维信息。

在具体实施中，所述眼神捕捉单元143，用于根据所述三维眼球和预估三维瞳孔中心位置，得到所述三维眼球的预估虹膜；将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估虹膜掩膜；计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异；根据所述第一差异计算得到总差异；若所述总差异不大于预设第一阈值，则将所述预估三维瞳孔中心位置作为所述三维瞳孔中心位置。

在具体实施中，所述眼神捕捉装置140还包括：优化单元，用于若所述总差异大于预设第一阈值，根据所述总差异对所述预估三维瞳孔中心位置进行调整并迭代优化，直至所述总差异不大于预设第一阈值或者迭代次数达到设定次数，将所述总差异不大于预设第一阈值或者迭代次数达到设定次数时的预估三维瞳孔中心位置作为所述三维瞳孔中心位置。

在具体实施中，优化单元，用于将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估二维瞳孔中心位置；计算所述预估二维瞳孔中心位置与所述眼睛网络模型预测的二维瞳孔中心位置之间的第二差异；根据所述第一差异及所述第二差异计算得到所述总差异。

在具体实施中，优化单元，用于计算当前迭代优化的三维瞳孔中心位置与优化初始时的三维瞳孔中心位置之间的第三差异；根据所述第一差异、所述第二差异及所述第三差异，计算得到所述总差异。

在具体实施中，优化单元，用于计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的交集部分，以及所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的并集部分，将所述交集部分与所述并集部分的比值与理想比值的差异作为所述第一差异；或者，根据所述眼睛网络模型预测的虹膜掩膜的生成距离变换图，计算所述预估虹膜掩膜的边缘像素在所述距离变换图中的值，根据计算得到的值得到所述第一差异。

在具体实施中，所述眼神捕捉装置140还可以包括眼球校准单元，所述演员的眼部三维信息包括：通过所述眼球校准单元进行眼球校准获得所述眼球中心位置、眼球半径及虹膜尺寸。

在具体实施中，所述眼球校准单元，用于获取所述演员在中性表情下的三维人脸，从所述中性表情下的三维人脸中获取多个三维眼皮特征点；计算每只眼睛的所述多个三维眼皮特征点的三维位置的平均值，在所述三维位置的平均值的基础上加上预设的三维偏移量得到每只眼睛的眼球中心位置，所述三维偏移量的偏移方向朝向眼睛内部。

在具体实施中，所述获取单元141用于获取与所述演员的眼部图像对应的面部图像；根据所述面部图像，获得所述演员的面部姿态的变换矩阵，所述面部姿态为所述演员面部相对于相机的姿态；根据所述面部姿态的变换矩阵对所述眼球中心位置进行变换，得到相对于相机的眼球中心位置。

在具体实施中，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：所述演员的头部佩戴面部表情捕捉头盔，所述头盔与所述演员的头部相对静止；所述头盔上安装有面部表情捕捉相机，所述相机捕捉演员面部表情。

在具体实施中，对于任一帧的面部图像所述面部姿态的变换矩阵是固定值。

在具体实施中，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：利用摄像机拍摄所述演员的面部表情；所述摄像机与所述演员的头部是分离的。

在具体实施中，对于任一帧的面部图像所述面部姿态的变换矩阵是变化的。

在具体实施中，所述眼球校准单元，用于获取预设数量且满足校准要求的校准图像；将各校准图像输入至所述眼睛网络模型，预测得到多个虹膜掩膜；对所述多个虹膜掩膜分别进行圆拟合，得到圆拟合后的多个圆形；将所述多个圆形分别投影至所述演员在中性表情下的三维人脸，根据投影结果计算多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸；根据多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸。

在具体实施中，所述眼球校准单元，用于将多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸的平均值作为所述虹膜尺寸。

在具体实施中，所述眼睛网络模型针对一双眼睛中的其中一只眼睛，当输入至所述眼睛网络模型的眼部图像为一双眼睛中的另一只眼睛时，对输入的眼部图像进行对称翻转，并将对称翻转后的眼部图像作为所述眼睛网络模型的输入。

在具体实施中，所述眼神捕捉装置140还可以包括第一判断单元，第一判断单元用于在根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置之前，根据所述睁闭眼状态判断所述演员是否闭眼；当所述睁闭眼状态指示闭眼时，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。

在具体实施中，所述眼神捕捉装置140还可以包括计算单元及第二判断单元，所述计算单元用于在捕捉得到一双眼睛中的每只眼睛分别对应的三维瞳孔中心位置之后，计算一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角

第二判断单元用于判断联合先验分布分布结果是否低于设定概率阈值，当联合先验分布结果指示的概率值低于设定概率阈值时，判定捕捉错误，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。

在具体实施中，所述眼神捕捉单元143，用于确定所述眼球中心位置指向所述三维瞳孔中心位置的方向，将该方向作为所述演员的眼神方向。

在具体实施中，眼神捕捉装置140的具体工作原理及工作流程可以参见本发明上述任一实施例中的描述，此处不再赘述。

进一步，所述眼神捕捉装置140可以集成于终端、服务器等计算设备。例如，眼神捕捉装置140可以集中地集成于同一服务器内。或者，眼神捕捉装置140可以分散的集成于多个终端或服务器内并相互耦接。例如，所述三维眼神模型可以单独设置于终端或服务器上，以确保较优的数据处理速度。

基于本实施例眼神捕捉装置140及对应的眼神捕捉方法，用户在获取单元141一侧获取待处理的眼部图像，即可在眼神捕捉单元143的输出端捕捉得到所述演员的眼神方向，从而实现演员的眼神捕捉。

本发明实施例还提供一种存储介质，所述存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述任一实施例提供的眼神捕捉方法的步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于任一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

一种眼神捕捉方法，其特征在于，包括：

获取演员的眼部图像；

获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；

根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。
如权利要求1所述的眼神捕捉方法，其特征在于，所述根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，包括：

根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息，所述眼部二维信息至少包括：虹膜掩膜、二维瞳孔中心位置及睁闭眼状态；

根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置。
如权利要求2所述的眼神捕捉方法，其特征在于，所述根据所述眼部图像，采用所述眼睛网络模型得到眼部二维信息，包括：

获取所述眼部图像对应的多个二维眼皮特征点；

计算将所述多个二维眼皮特征点与多个预设二维眼皮特征点对齐时的相似变换矩阵；

采用所述相似变换矩阵对所述眼部图像进行相似变换，得到变换后的图像；

将所述变换后的图像输入至所述眼睛网络模型，预测变换后的图像对应的眼部二维信息；

采用所述相似变换矩阵的逆矩阵，对所述变换后的图像对应的眼部二维信息进行变换，得到所述眼部图像对应的眼部二维信息。
如权利要求2所述的眼神捕捉方法，其特征在于，所述根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置，包括：

根据所述三维眼球和预估三维瞳孔中心位置，得到所述三维眼球的预估虹膜；

将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估虹膜掩膜；

计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异；

根据所述第一差异计算得到总差异；

若所述总差异不大于预设第一阈值，则将所述预估三维瞳孔中心位置作为所述三维瞳孔中心位置。
如权利要求4所述的眼神捕捉方法，其特征在于，还包括：

若所述总差异大于预设第一阈值，根据所述总差异对所述预估三维瞳孔中心位置进行调整并迭代优化，直至所述总差异不大于预设第一阈值或者迭代次数达到设定次数，将所述总差异不大于预设第一阈值或者迭代次数达到设定次数时的预估三维瞳孔中心位置作为所述三维瞳孔中心位置。
如权利要求4或5所述的眼神捕捉方法，其特征在于，所述根据所述第一差异计算得到总差异，包括：

将所述预估虹膜投影至所述眼部图像对应的二维平面，得到预估二维瞳孔中心位置；

计算所述预估二维瞳孔中心位置与所述眼睛网络模型预测的二维瞳孔中心位置之间的第二差异；

根据所述第一差异及所述第二差异计算得到所述总差异。
如权利要求6所述的眼神捕捉方法，其特征在于，所述根据所述第一差异和第二差异计算得到总差异，包括：

计算当前迭代优化的三维瞳孔中心位置与优化初始时的三维瞳孔中心位置之间的第三差异；

根据所述第一差异、所述第二差异及所述第三差异，计算得到所述总差异。
如权利要求4所述的眼神捕捉方法，其特征在于，所述计算预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜之间的第一差异，包括：

计算所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的交集部分，以及所述预估虹膜掩膜与所述眼睛网络模型预测的虹膜掩膜的并集部分，将所述交集部分与所述并集部分的比值与理想比值的差异作为所述第一差异；

或者，根据所述眼睛网络模型预测的虹膜掩膜的生成距离变换图，计算所述预估虹膜掩膜的边缘像素在所述距离变换图中的值，根据计算得到的值得到所述第一差异。
如权利要求1所述的眼神捕捉方法，其特征在于，所述获取所述演员的眼部三维信息，包括：通过眼球校准获得所述眼球中心位置、眼球半径及虹膜尺寸。
如权利要求9所述的眼神捕捉方法，其特征在于，所述通过眼球校准获得所述眼球中心位置，包括：

获取所述演员在中性表情下的三维人脸，从所述中性表情下的三维人脸中获取多个三维眼皮特征点；

计算每只眼睛的所述多个三维眼皮特征点的三维位置的平均值，在所述三维位置的平均值的基础上加上预设的三维偏移量得到每只眼睛的眼球中心位置，所述三维偏移量的偏移方向朝向眼睛内部。
如权利要求9所述的眼神捕捉方法，其特征在于，所述获取所述演员的眼部三维信息，包括：

获取与所述演员的眼部图像对应的面部图像；

根据所述面部图像，获得所述演员的面部姿态的变换矩阵，所述面部姿态为所述演员面部相对于相机的姿态；

根据所述面部姿态的变换矩阵对所述眼球中心位置进行变换，得到相对于相机的眼球中心位置。
如权利要求11所述的眼神捕捉方法，其特征在于，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：

所述演员的头部佩戴面部表情捕捉头盔，所述头盔与所述演员的头部相对静止；

所述头盔上安装有面部表情捕捉相机，所述相机捕捉演员面部表情。
如权利要求12所述的眼神捕捉方法，其特征在于，对于任一帧的面部图像所述面部姿态的变换矩阵是固定值。
如权利要求11所述的眼神捕捉方法，其特征在于，所述与所述演员的眼部图像对应的面部图像根据以下方法获取：

利用摄像机拍摄所述演员的面部表情；

所述摄像机与所述演员的头部是分离的。
如权利要求14所述的眼神捕捉方法，其特征在于，对于任一帧的面部图像所述面部姿态的变换矩阵是变化的。
如权利要求9所述的眼神捕捉方法，其特征在于，所述通过眼球校准获得所述虹膜尺寸，包括：

获取预设数量且满足校准要求的校准图像；

将各校准图像输入至所述眼睛网络模型，预测得到多个虹膜掩膜；

对所述多个虹膜掩膜分别进行圆拟合，得到圆拟合后的多个圆形；

将所述多个圆形分别投影至所述演员在中性表情下的三维人脸，根据投影结果计算多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸；

根据多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸。
如权利要求16所述的眼神捕捉方法，其特征在于，所述根据多个虹膜掩膜在三维人脸中对应的虹膜尺寸，得到所述虹膜尺寸，包括：

将多个虹膜掩膜在所述三维人脸中对应的虹膜尺寸的平均值作为所述虹膜尺寸。
如权利要求2所述的眼神捕捉方法，其特征在于，所述眼睛网络模型针对一双眼睛中的其中一只眼睛，当输入至所述眼睛网络模型的眼部图像为一双眼睛中的另一只眼睛时，对输入的眼部图像进行对称翻转，并将对称翻转后的眼部图像作为所述眼睛网络模型的输入。
如权利要求2所述的眼神捕捉方法，其特征在于，还包括：

在根据所述眼部二维信息和所述三维眼球，确定所述三维瞳孔中心位置之前，根据所述睁闭眼状态判断所述演员是否闭眼；

当所述睁闭眼状态指示闭眼时，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。
如权利要求1所述的眼神捕捉方法，其特征在于，还包括：

在捕捉得到一双眼睛中的每只眼睛分别对应的三维瞳孔中心位置之后，计算一双眼睛的三维瞳孔中心位置中的天顶角θ和方位角
的联合先验分布，所述三维瞳孔中心位置包括：眼球半径、天顶角θ和方位角

当联合先验分布结果指示的概率值低于设定概率阈值时，判定捕捉错误，将根据前一帧眼部图像捕捉的眼神方向作为所述眼部图像对应的眼神方向。
如权利要求1所述的眼神捕捉方法，其特征在于，所述根据所述三维瞳孔中心位置捕捉所述演员的眼神方向，包括：

确定所述眼球中心位置指向所述三维瞳孔中心位置的方向，将该方向作为所述演员的眼神方向。
一种眼神捕捉装置，其特征在于，包括：

获取单元，用于获取演员的眼部图像；

三维眼球确定单元，用于获取所述演员的眼部三维信息，根据所述眼部三维信息确定所述演员的三维眼球，所述眼部三维信息至少包括：眼球中心位置、眼球半径及虹膜尺寸；

眼神捕捉单元，用于根据所述眼部图像，采用眼睛网络模型和所述三维眼球，确定三维瞳孔中心位置，并根据所述三维瞳孔中心位置捕捉所述演员的眼神方向。
一种存储介质，所述存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至21任一项所述的眼神捕捉方法的步骤。
一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至21任一项所述的眼神捕捉方法的步骤。