WO2020216054A1

WO2020216054A1 - 视线追踪模型训练的方法、视线追踪的方法及装置

Info

Publication number: WO2020216054A1
Application number: PCT/CN2020/083486
Authority: WO
Inventors: 周正; 季兴; 王一同; 朱晓龙; 罗敏
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-24
Filing date: 2020-04-07
Publication date: 2020-10-29
Also published as: US11797084B2; CN110058694B; CN110058694A; US20210271321A1

Abstract

本申请公开了一种视线追踪模型训练的方法，包括：获取训练样本集合，通过初始视线追踪模型对眼部样本图像进行处理，以得到眼部样本图像的预测视线向量，根据预测视线向量和标注视线向量的余弦距离确定模型损失，对初始视线追踪模型的参考参数进行迭代调整直到模型损失满足收敛条件，以得到目标视线追踪模型。采用本申请提供的方案，进行视线追踪时，无需借助外设，只需要将采集到的眼部图像输入目标视线追踪能够即可，简化了视线追踪的流程，并且以余弦距离作为模型损失训练模型，能够更好的表现预测值与标注值之间的差异性，进而提高了训练得到的视线追踪模型的预测准确度。

Description

视线追踪模型训练的方法、视线追踪的方法及装置

本申请实施例要求于2019年04月24日提交，申请号为201910338224.6、发明名称为“视线追踪模型训练的方法、视线追踪的方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请实施例中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种视线追踪模型训练的方法、视线追踪的方法、装置、设备及存储介质。

背景技术

视觉追踪技术也称为眼动追踪技术，是利用软件算法、机械、电子、光学等各种检测手段获取受试者当前视觉注意方向的技术，它广泛应用于人机交互、辅助驾驶、心理研究、虚拟现实和军事等多个领域。

相关技术中，通常采用几何方法实现视线估计。几何方法往往需要借助外设，基于摄像机或眼动仪，通过双光源来对视线做三维估计。

相关技术中，采用几何方法实现视线估计时需要借助额外的设备，实现过程复杂且成本较高，进而导致视线估计的应用场景受限。

发明内容

本申请实施例提供一种视线追踪模型训练的方法，在不借助外设的情况下，采用预测值和标注值之间的余弦距离作为模型损失训练视线追踪模型，以便后续利用视线追踪模型进行视线追踪。本申请实施例还提供了相应的装置、设备及存储介质。

本申请第一方面提供一种视线追踪模型训练的方法，包括：

获取训练样本集合，所述训练样本集合包括训练样本对，其中，所述训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量；

通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量；

根据所述预测视线向量和所述标注视线向量的余弦距离确定模型损失；

对所述初始视线追踪模型的参考参数进行迭代调整直到所述模型损失满足收敛条件，以得到目标视线追踪模型。

本申请第二方面提供一种视线追踪的方法，包括：

获取目标眼部图像；

采用目标视线追踪模型对所述目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量，所述目标视线追踪模型为采用上述第一方面所述的方法训练得到的视线追踪模型；

根据所述预测视线向量进行视线追踪。

本申请第三方面提供一种视线追踪模型训练的装置，包括：

获取模块，用于获取训练样本集合，所述训练样本集合包括训练样本对，其中，训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量；

训练模块，用于通过初始视线追踪模型对所述获取模块获取的所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量；

第一处理模块，用于根据所述训练模块得到的预测视线向量和所述标注视线向量的余弦距离确定模型损失；

第二处理模块，用于对所述初始视线追踪模型的参考参数进行迭代调整直到所述第一处理模块处理得到的所述模型损失满足收敛条件，以得到目标视线追踪模型。

本申请第四方面提供一种视线追踪的装置，包括：

获取模块，用于获取目标眼部图像；

处理模块，用于采用目标视线追踪模型对所述获取模块获取的目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量，所述目标视线追踪模型为采用上述第一方面所述的方法训练得到的视线追踪模型；

视线追踪模块，用于根据所述处理模块得到的预测视线向量进行视线追踪。

本申请第五方面提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行上述第一方面所述的视线追踪模型训练的方法。

本申请第六方面提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储目标视线追踪模型，所述目标视线追踪模型是根据上述第一方面所述的视线追踪模型训练的方法训练得到的视线追踪模型；所述处理器用于运行所述目标视线追踪模型，以进行视线追踪。

本申请第七方面提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第一方面所述的视线追踪模型训练的方法，

本申请第八方面提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述第二方面所述的视线追踪的方法。

从以上技术方案可以看出，本申请实施例至少具有以下优点：

本申请实施例中，通过获取包含眼部样本图像和对应标注视线向量的训练样本对，并利用初始视线追踪模型对眼部样本图像进行处理，得到预测视线向量，进而以预测视线向量与标注视线向量之间的余弦距离为模型损失进行模型训练，得到目标视线追踪模型；后续进行视线追踪时，无需借助外设，只需要将采集到的眼部图像输入目标视线追踪能够即可，简化了视线追踪的流程，并且以余弦距离作为模型损失训练模型，能够更好的表现预测值与标注值之间的差异性，进而提高了训练得到的视线追踪模型的预测准确度。

附图说明

图1是本申请实施例中视线追踪的一应用场景的一示例示意图；

图2是本申请实施例中视线追踪模型训练的一场景示意图；

图3是本申请实施例中视线追踪模型训练的方法一实施例示意图；

图4是本申请实施例中视线追踪模型训练的方法另一实施例示意图；

图5是本申请实施例中反残差区块的特征处理过程的一实施例示意图；

图6是本申请实施例提供的视线追踪的方法的一实施例示意图；

图7是本申请实施例中三阶Bezier曲线的一处理结果示意图；

图8是本申请实施例中视线追踪模型训练的装置的一实施例示意图；

图9是本申请实施例中视线追踪模型训练的装置的另一实施例示意图；

图10是本申请实施例中视线追踪的装置的一实施例示意图；

图11是本申请实施例提供的服务器的一实施例示意图；

图12是本申请实施例提供的终端设备的一实施例示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。本领域普通技术人员可知，随着技术的发展和新场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种视线追踪模型训练的方法，采用对预测值和标注值之间的损失函数取余弦的方案，可以更好的表示预测值与标注值之间的差异性，可以确保得到的视线追踪模型的预测准确度更高。本申请实施例还提供了相应的装置、设备及存储介质。以下分别进行详细说明。

视觉追踪技术属于机器视觉的一种技术，它是通过图像传感器捕捉到眼球的图像，根据对图像的处理来识别眼球的特征，通过这些特征实时地反算出用户的注视点。

在实际应用中，若可以获知用户的注视点，则可以确定用户对该注视点的内容感兴趣，则可以将注视点处的信息放大，如：注视点处是一个小图片，则可以将该小图片放大为大图片。以图1为例，简单介绍通过眼球进行控制的过程。

如图1所示，用户的视线注视在手机的某个点上超过预设时间，手机的图像获取装置获取到这段时间内的眼部图像后，可以通过对眼部图像的分析确定用户所注视的内容，如：用户一直在盯着手机上的一个小图片看，且注视时长达到时长阈值，手机可以放大该图片在屏幕上的显示尺寸，从而更有利于用户读取所关注的信息。

在另一种应用场景中，将视觉追踪技术应用于辅助驾驶系统后，辅助驾驶系统可以实时采集驾驶者的眼部图像，并对眼部图像进行分析，确定驾驶者眼球的注视点。若注视点偏离道路，辅助驾驶系统则可以进行提醒(比如发出声音警报)，提高驾驶过程中的安全性。

视觉追踪技术改变了人到计算机设备的之间的交互路径，不再必须通过手动操作才能与计算机设备进行交互，也可以通过眼球运动来控制计算机设备。

在实际操作过程中，眼球与鼠标的点击选择操作很相似，眼球可以实现观看选择，进而激活按钮、图标、链接或文本等控件。眼球对选择的控制可以是注视一个点超过一定时间，如在一段预定的时间内悬停在一个可选择的目标上，例如静止800毫秒，则可以实现对该可选择的目标的控制。

通过眼球控制的示例可以有很多，本申请实施例中不做一一列举。

在本申请实施例中，无论是图1中的手机、还是其他终端，能分析出用户的注视点都是基于目标视线追踪模型实现的，该目标视线追踪模型可以是具有卷积神经网络的深度学习模型。该目标视线追踪模型是通过大量的样本数据训练得到的，为了准确的确定用户的注视点，本申请实施例提供了一种视线追踪模型训练的方法，可以训练得到预测准确度更高的目标视线追踪模型。

下面结合图2，介绍本申请实施例中的视线追踪模型的训练过程。

参见图2，图2为本申请实施例提供的视线追踪模型训练的一应用场景示意图。

该场景中包括数据库101和用于训练视线追踪模型的服务器102，数据库101和服务器102通过网络连接。当然，该数据库101也可以集成在服务器102上，该场景中以数据库位于独立的设备上为例进行说明，数据库101上的训练样本集合中包括多个训练样本对，其中每个训练样本对包括眼部样本图像和眼部样本图像对应的标注视线向量；这些训练样本对可以是开发人员专门制作的，也可以是通过有奖参与的方式由用户参与上报的，当然，还可以通过其他方式获得本申请的训练样本对，本申请中对训练样本对的获取方式不做具体限定。

其中，数据库101能够为服务器提供训练样本集合。

服务器102通过网络从数据库101处获取到训练样本集合后，将眼部样本图像输入到初始视线追踪模型。

服务器102通过初始视线追踪模型对所述眼部样本图像进行处理，以得到所述眼部样本图像的预测视线向量；

服务器102对所述预测视线向量和所述标注视线向量的损失函数取余弦，以确定所述预测视线向量和所述标注视线向量的相似度；

服务器102对所述初始视线追踪模型的参考参数进行迭代调整直到所述相似度满足收敛条件，以得到目标视线追踪模型。

服务器102生成目标视线追踪模型后，可以进一步将该目标视线追踪模型发送至终端设备，以在终端设备上运行该目标视线追踪模型，利用这些目标视线追踪模型实现相应的功能。

需要说明的是，服务器102在训练视线追踪模型的过程中，采用预测视线向量和标注视线向量的余弦距离作为模型损失，可以更好的表现预测值与标注值之间的差异性，可以确保得到的视线追踪模型的预测准确度更高。

需要说明的是，上述图2所示的应用场景仅为一种示例，在实际应用中，本申请实施例提供的视线追踪模型训练的过程还可以应用于其他应用场景，在此不对该视线追踪模型训练的过程的应用场景做任何限定。

应理解，本申请实施例提供的视线追踪模型训练的过程可以应用于具备模型训练功能的设备，如终端设备、服务器等。其中，终端设备具体可以为智能手机、计算机、个人数字助理(Personal Digital Assitant，PDA)、平板电脑等；服务器具体可以为应用服务器，也可以为Web服务器，在实际应用部署时，该服务器可以为独立服务器，也可以为集群服务器。

在实际应用中，终端设备和服务器可以单独训练视线追踪模型，也可以彼此交互训练视线追踪模型，二者交互训练视线追踪模型时，终端设备可以从服务器处获取训练样本集，进而利用该训练样本集对视线追踪模型进行训练，或者，服务器可以从终端处获取训练样本集，利用该训练样本集对视线追踪模型进行训练。

应理解，终端设备或服务器执行本申请实施例提供的视线追踪模型训练的过程，训练得到目标视线追踪模型后，可以将该目标视线追踪模型发送至其他终端设备，以在这些终端设备上运行上述目标视线追踪模型，实现相应的功能；也可以将该目标视线追踪模型发送至其他服务器，以在其他服务器上运行上述目标视线追踪模型，通过这些服务器实现相应的功能。

下面通过实施例对本申请提供的神经网络模型训练方法进行介绍。

参见图3，图3为本申请实施例提供的一种视线追踪模型训练的方法的一实施例示意图。为了便于描述，下述实施例以服务器作为执行主体进行描述，应理解，该视线追踪模型训练的方法的执行主体并不仅限于服务器，还可以应用于终端设备等具备模型训练功能的设备。如图3所示，该视线追踪模型训练的方法包括以下步骤：

201、获取训练样本集合，所述训练样本集合包括训练样本对，其中，训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量。

其中，标注视线向量是眼部样本图像中眼球注视方向的真实数据标注，用于在训练过程中对训练结果进行监督，也可以被称为真值(Ground-truth)。本申请实施例中，标注视线向量为三维空间向量，包含xyz三个维度。

本申请实施例中的训练样本集合可以包括真实眼部图像和该图像对应的标注视线向量，还可以包括合成眼部图像以及该合成眼部图像对应的标注视线向量，其中，真实眼部图像指的是通过摄像机等设备直接拍摄获取的眼部图像，合成眼部图像指的是通过软件工具合成的眼部图像。本申请实施例中的训练样本集合包括真实眼部图像和合成眼部图像，可以提高视线追踪模型的鲁棒性。

202、通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量。

本申请实施例中，服务器采用深度学习方法构建初始视线追踪模型，利用该模型对眼部样本图像对应的视线向量进行预测，得到预测视线向量。其中，预测视线向量同样为三维空间向量。

可选的，该初始视线追踪模型包括特征提取网络(用于对眼部样本图像进行图像特征提取)以及回归网络(用于对提取到的图像特征进行回归，得到视线向量)。

203、根据所述预测视线向量和所述标注视线向量的余弦距离确定模型损失。

由于标注视线向量和预测视线向量均为三维空间向量，为了更加直观体现出预测值与标注值之间的差异性，本申请实施例中，服务器根据标注视线向量和预测视线向量的余弦距离确定模型损失，并进行模型训练。其中余弦距离用于表征空间向量之间所成的夹角，空间向量夹角越小(即余弦距离越大)，表明空间向量相似度越高，相反的，空间向量夹角越大(即余弦距离越小)，表明空间向量相似度越低。

可选的，预测视线向量和标注视线向量的余弦距离为cos(θ)，模型损失为 1-cos(θ)。

204、对所述初始视线追踪模型的参考参数进行迭代调整直到所述模型损失满足收敛条件，得到目标视线追踪模型。

在一种可能的实施方式中，当模型损失不满足收敛条件时，服务器采用随机梯度下降算法(SDG，Stochastic Gradient Descent)调整初始视线追踪模型的参考参数(或称为模型参数或网络权重)，并利用参数调整后的模型进行重新预测，直至模型损失满足收敛条件。其中，调整模型参数使其模型损失满足收敛条件的过程，即使预测视线向量趋向于标注视线向量的过程。

综上所述，本申请实施例中，通过获取包含眼部样本图像和对应标注视线向量的训练样本对，并利用初始视线追踪模型对眼部样本图像进行处理，得到预测视线向量，进而以预测视线向量与标注视线向量之间的余弦距离为模型损失进行模型训练，得到目标视线追踪模型；后续进行视线追踪时，无需借助外设，只需要将采集到的眼部图像输入目标视线追踪能够即可，简化了视线追踪的流程，并且以余弦距离作为模型损失训练模型，能够更好的表现预测值与标注值之间的差异性，进而提高了训练得到的视线追踪模型的预测准确度。

可选地，所述训练样本对还包括眼部样本图像中眼球的标注坐标；所述通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量，可以包括：

通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量和眼球的预测坐标；

所述方法还可以包括：

根据所述眼球的预测坐标和所述眼球的标注坐标之间的欧式距离确定所述模型损失

在一种可能的实施方式中，训练初始视线追踪模型过程中，除了训练预测视线向量的分支外，同时训练预测眼球坐标的分支，从而实现多任务学习(Multi-Task Learning,MTL)。因此，训练样本对中还包含眼部样本图像中眼球的标注坐标，相应的，初始视线追踪模型对眼部样本图像进行处理后，还输出眼球的预测坐标。

可选的，眼球的预测坐标或者标注坐标指的是眼球瞳孔中心点的位置坐标；并且，预测坐标和标注坐标为二维空间坐标，包括xy两个维度。

不同于采用余弦距离表征视线向量预测值与标注值之间的差异性，服务器采用欧式距离表征位置坐标预测值与标注值之间的差异性，并将欧式距离为模型损失的一部分，对模型进行训练，即视线追踪模型的模型损失由余弦距离和欧式距离构成。

本申请实施例中，在训练视线追踪模型时，不光考虑了预测视线向量时，还考虑了眼球的预测坐标，不仅可以进一步提高视线追踪模型的鲁棒性，而且还可以实现多任务学习。

可选地，所述标注视线向量为基于单位圆的方向向量(即单位向量)，本申请实施例提供的视线追踪模型训练的方法的另一实施例中，还可以包括：

对所述预测视线向量进行归一化处理，以得到归一化视线向量；

所述根据所述预测视线向量和所述标注视线向量的余弦距离确定模型损失，可以包括：

根据所述归一化视线向量和所述标注视线向量的余弦距离确定所述模型损失。

本申请实施例中，在对所述预测视线向量和所述标注视线向量的损失函数取余弦之前，先对预测视线向量进行归一化处理，以得到归一化视线向量，然后再对所述归一化视线向量和所述标注视线向量进行余弦距离计算，可以将特征值归一化，使其计算损失是处于单位圆之内，最后让预测的结果更加鲁棒。

可选地，所述通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量，可以包括：

对所述眼部样本图像进行如下至少一项的处理，所述至少一项包括仿射变换、白平衡、自动对比度或高斯模糊；

将所述训练样本集合中的第一眼部样本图像翻转为第二眼部样本图像，并将所述第一眼部样本图像对应的标注视线向量进行对应翻转，所述第二眼部样本图像为目标方位眼部的图像，所述初始视线追踪模型用于对所述目标方位眼部的图像进行处理；所述第一眼部样本图像为右眼样本图像时，所述第二眼部样本图像为左眼样本图像，所述第一眼部样本图像为左眼样本图像时，所述第二眼部样本图像为右眼样本图像；

对每个眼部样本图像做裁剪处理，得到标准图像；

采用所述初始视线追踪模型中的反残差区块对所述标准图像进行映射处理，以得到所述标准图像的预测视线向量。

本申请实施例中，先对眼部样本图像做仿射变换、白平衡、自动对比度或高斯模糊等的处理，可以提高视线追踪模型的泛化性。

其中，高斯模糊(Gaussian Blur)可以根据高斯曲线调节像素色值，可以有选择地模糊图像。换句话说，就是高斯模糊能够把某一点周围的像素色值按高斯曲线统计起来，采用数学上加权平均的计算方法得到这条曲线的色值。

自动对比度指的是一幅图像中明暗区域最亮的白和最暗的黑之间不同亮度层级的测量，差异范围越大代表对比越大，差异范围越小代表对比越小。

仿射变换是在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射，由一个非奇异的线性变换接上一个平移变换组成。在有限维的情况，每个仿射变换可以由一个矩阵A和一个向量b给出，它可以写作A和一个附加的列b。

当然，除了上述图像预处理方式外，服务器还可以采用其他方式对图像进行预处理，以提高训练得到的视线追踪模型的泛化性，本实施例对此并不构成限定。

在一种可能的实现方式中，视线追踪模型仅对目标方位眼部的图像进行处理，并得到预测视线方向，其中，该目标方位眼部可以为左眼或右眼。

相应的，本申请实施例中的视线追踪模型可以只对左眼进行训练，或者只对右眼进行训练，例如：只针对左眼进行训练，那么针对右眼的图像就可以通过翻转成为左眼的图像用于模型训练，当右眼图像翻转为左眼图像后，相应的标注视线向量也要对应的翻转成左眼图像的标注视线向量。

在预测时，服务器首先根据左右眼角关键点，从包含人脸的图片中剪裁(wrap)出模型需要大小的眼睛图片，而右眼图片会翻转成左眼图片输入模型进行预测。

需要说明的是，当视线追踪模型可以对左右眼图像进行视线方向预测时，在训练过程能够可以省略翻转图像以及标注视线向量的过程，本实施例在此不再赘述。

可选地，所述方法还可以包括：

当所述标准图像是通过第一眼部样本图像得到时，将所述标准图像的预测视线向量翻转回所述第一眼部样本图像对应的空间。

本申请实施例中，当模型是需要输入左眼图像的模型时，而右眼会翻转成左眼图片输入模型进行预测，得到的预测结果需要同时翻转回右眼的空间。

可选地，所述目标方位眼部为左眼，所述方法还包括：

获取左眼的预测视线向量中的第一横坐标值，以及右眼的预测视线向量中的第二横坐标值，所述左眼和所述右眼属于同一用户对象；

当所述第一横坐标值表征所述左眼向左看，所述第二横坐标值表征右眼向右看时，对所述第一横坐标值和所述第二横坐标值进行矫正。

其中，所述对所述第一横坐标值和所述第二横坐标值进行矫正，可以包括：

根据所述第一横坐标值和所述第二横坐标值，确定所述左眼和所述右眼的横坐标的平均值；

调整所述右眼的预测视线向量与所述左眼的预测视线向量相互平行，其中，平行处理后，所述右眼的横坐标为第三横坐标值；

根据所述平均值和所述第三横坐标值确定所述右眼的横坐标的第四横坐标值。

在一种可能的场景下，当同一对象左眼和右眼图像对应的预测视线向量中x值的符号相反时，存在如下两种情况：左右眼分别朝两侧看和左右眼向中间看。显然，前者并不符合人眼的正常观看习惯，需要对视线向量进行矫正。

可选的，当目标方位眼部为左眼时，若左眼对应的预测视线方向表征左眼朝左看，而右眼对应的预测视线方向表征右眼朝右看时，服务器则对(右眼的)视线向量进行矫正。

在矫正过程中，服务器首先根据第一横坐标值和第二横坐标值，确定左眼和右眼的横坐标的平均值，并调整右眼的预测视线向量与左眼的预测视线向量平行，从而利用平均值对平行处理后右眼的预测视线向量的横坐标进行修正，使得修正后右眼的预测视线向量与左眼的预测视线向量在x轴方向一致。

需要说明的是，当目标方位眼部为右眼时，若右眼对应的预测视线方向表征右眼朝右看，而左眼对应的预测视线方向表征左眼朝左看时，服务器则对(左眼的)视线向量进行矫正。本实施例对矫正过程不再赘述。

本申请实施例中，预测得到的左右眼视线向量会进行合理性矫正得到最终结果。

可选地，所述反残差区块的数量小于19。

本申请实施例中，为了使训练得到的目标视线追踪模型能够应用于移动端，将视线追踪模型做了剪裁，可以将反残差区块的数量剪裁到只有5个，从而缩小目标视线追踪模型的模型尺寸，方便部署在移动端。当然，这里5个只是举例，也可以有6个或4个，或者其他数值。

为了进一步理解本申请实施例所提供的方案，参阅图4，对本申请实施例提供的另一视线追踪模型训练的方法进行介绍：

如图4所示，本申请实施例使用了MobileNet V2作为视线追踪模型的脊柱(backbone)。MobileNet V2包含一系列的反残差区块(invertedresidualblock)来提升模型的性能，增强模型特征的表现力，并且减少了计算量。

反残差区块的结构图如图5所示，从图5中可以看出，反残差区块先用1x1的卷积51将输入的特征(feature map)维度放大，然后使用3x3深度卷积52(depthwise convolution)计算得到更有表达力的特征，最后用1x1的卷积53将通道(channel)维度缩小，最终将初始输入的特征与输出的特征进行特征拼接。通过1x1的卷积将深度卷积的输入维度增加，能有效缓解特征退化的情况。

本申请实施例提供的MobileNet v2的结构是经过裁剪的MobileNet V2，将反残差区块减少至5个，并且对应减少了每一层输出的channel数，以便将模型部署在移动端。

经过剪裁的MobileNet v2的结构图可以参阅可以参阅表1进行理解。

表1：剪裁后的MobileNet v2的结构

其中t代表了膨胀因素，c是当前序列的输出通道的维度，n为本层重复的次数，s为步长(stride)。

需要说明的是，本申请实施例中的初始视线追踪模型不限于上述所提供的MobileNet v2的模型，还可以是其他结构或者其他类型的模型。

MobileNet v2模型会先对输入的眼部样本图像进行处理，例如：通过仿射变换，白平衡，自动对比度，高斯模糊等对图像进行处理来进行数据增强，提高模型的泛化能力。

经过MobileNet v2模型会对眼部样本图像多层次映射的特征表示，用于建预测视线向量和眼球坐标的回归器。

其中，该眼部样本图像的标注视线向量在空间的三个方向上可以表示为(x1，y1，z1)，该眼部样本图像的预测视线向量，也就是全连接层的输出为(x2，y2，z2)三个值，而眼球坐标的输出为(x’，y’)两个值。预测视线向量的z2值主要是为了做向量的归一化。

本申请实施例中的视线回归器使用了对所述预测视线向量和所述标注视线向量的损失函数取余弦(cosinedistanceloss)，是因为考虑到标注视线向量是基于单位圆的一个方向向量，取余弦可以很好地表示学习出来的预测视线向量与标注视线向量之间角度的差异性，从而使预测结果更加接近真实值。

由于眼球的坐标与角度并无直接联系，并且是2D的坐标，所以采用欧式距离(L2distanceloss)作为损失函数。在Cosinedistanceloss之前，本申请增加了归一化层(Normalization Layer)，将特征值归一化，使其计算损失是处于单位圆之内，最后让预测的结果更加鲁棒。

本申请实施例提供的归一化的方法可以参与如下公式进行理解：

x2’＝(x2-μ)/σ，y2’＝(y2-μ)/σ，z2’＝(z2-μ)/σ；其中，μ为(x2，y2，z2)三个值的平均值，σ为(x2，y2，z2)三个值的方差。

在归一化后，确定预测视线向量与标注视线向量的余弦距离，用公式可以表示为：

其中a为标注视线向量，b为预测视线向量。该公式计算两个向量之间的相似度，所以值越大，表示两个向量越接近。网络实际上使用的是1-cos(θ)来计算两个向量之间的损失，值越小越接近。

本申请实施例输入的可以为112px×112px的左眼图片，在训练时，所有的右眼图片会翻转为左眼，并将标注视线向量做同样的翻转操作。若还有眼球的标注坐标，也需要做翻转操作。

在预测时，有人脸的图片会首先将左眼、右眼根据左右眼角关键点剪裁为模型输入大小的眼睛图片，而右眼会翻转成左眼图片输入到模型中进行预测。得到的预测结果需要同时翻转回右眼的空间，网络预测得到的左眼和右眼视线向量会进行合理性矫正得到最终结果。

以上多个实施例描述了视线追踪模型训练的方法，训练好目标视线追踪模型后，便可以将该目标视线追踪模型应用到实际的不同场景中。无论是应用到哪种场景中，都需要得到预测视线向量，从而才能实现相应的视线追踪过程。

如图6所示，本申请实施例提供的视线追踪的方法的一实施例可以包括：

301、获取目标眼部图像。

302、采用目标视线追踪模型对所述目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量。

所述目标视线追踪模型为按照前述所描述的视线追踪模型训练的方法所得到的视线追踪模型。

303、根据所述预测视线向量进行视线追踪。

可选地，所述采用目标视线追踪模型对所述眼部图像进行处理，确定所述眼部图像的预测视线方向向量时，还可以包括：

确定所述目标眼部图像中眼球的坐标；

所述根据所述预测视线方向向量进行视线追踪，可以包括：

将所述眼球的坐标作为视线的起点，按照所述预测视线向量所指示的方向进行视线追踪。

本申请实施例中，在确定所述目标眼部图像的预测视线向量的过程可以参阅前面确定眼部样本图像的预测视线向量的过程进行理解，本处不再重复赘述。

在一种可能的应用场景下，当使用目标视线追踪模型对视频流中人眼的视线进行追踪时，由于从视频帧中裁剪出的眼部区域的位置会发生抖动，而目标视线追踪模型是对每帧视频帧中的眼部图像进行单独处理，并没有上下文感知能力(即处理结果并不受之前视频帧对应处理结果的影响)，因此后续预测到的视线方向也会发生抖动。

在不复杂化模型的前提下，为了缓解视线方向抖动问题，可以利用当前目标眼部图像之间视频帧中眼部图像对应的视线向量预测结果，通过平滑处理算法对当前目标眼部图像对应的预测视线向量进行平滑处理。

在一种可能的实施方式中，确定目标眼部图像的预测视线向量之后，当目标眼部图像属于视频流中的视频帧时，确定目标眼部图像对应的参考眼部图像，参考眼部图像和目标眼部图像是视频流中连续视频帧中的图像；根据参考眼部图像对应的预测视线向量，对目标眼部图像对应的预测视线向量进行平滑处理。

在一个示例性的例子中，当目标眼部图像为第i帧视频帧时，终端将第i帧视频帧之前至少一帧视频帧(比如第i-1帧视频帧、第i-2帧视频帧和第i-3帧视频帧)确定为参考视频帧，并根据该参考视频帧中眼部图像对应的预测视线向量，对第i帧视频帧的预测视线向量进行平滑处理。

其中，进行平滑处理时可以采用的贝塞尔(Bezier)曲线，且Bezier曲线可以为一阶、二阶、三阶Bezier曲线等等，本实施例对此不作限定。

以三阶Bezier曲线为例，三阶Bezier曲线平滑公式如下：

B(t)＝P ₀(1-t) ³+3P ₁t(1-t) ²+3P ₂t ²(1-t)+P ₃t ³

其中，B(t)为平滑处理后当前目标眼部图像对应的预测视线向量，Pi为参考眼部图像对应的预测视线向量，t为引入的参数，范围在0到1之间。

从图7可以看出，经过Bezier曲线平滑后，预测视线向量中x，y值的抖动越来越小，视线方向向量更加稳定。

当然，除了使用Bezier曲线进行平滑处理外，还可以采用加权移动平均和指数平滑算法进行平滑处理，本实施例对此不作限定。

针对上文描述的神经网络模型训练方法，本申请还提供了对应的视线追踪模型训练的装置，以使上述视线追踪模型训练的方法在实际中得以应用和实现。

参见图8，图8是本申请实施例提供的视线追踪模型训练的装置40的一实施例示意图。

获取模块401，用于获取训练样本集合，所述训练样本集合包括训练样本对，其中，训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量；

训练模块402，用于通过初始视线追踪模型对所述获取模块401获取的所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量；

第一处理模块403，用于根据所述训练模块402得到的预测视线向量和所述标注视线向量余弦距离确定模型损失；

第二处理模块404，用于对所述初始视线追踪模型的参考参数进行迭代调整直到所述第一处理模块403处理得到的所述模型损失满足收敛条件，以得到目标视线追踪模型。

可选地，训练模块402，用于在所述训练样本对还包括眼部样本图像中眼球的标注坐标时，通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量和眼球的预测坐标；

所述第一处理模块403，还用于根据所述眼球的预测坐标和所述眼球的标注坐标之间的欧式距离确定所述模型损失。

可选地，参阅图9，该装置40还包括：

第三处理模块405：用于对所述预测视线向量进行归一化处理，以得到归一化视线向量；

所述第一处理模块403，用于根据所述归一化视线向量和所述标注视线向量的余弦距离确定所述模型损失损。

可选地，所述训练模块402用于：

对每个眼部样本图像做裁剪处理，得到标准图像；

可选地，所述训练模块402，还用于当所述标准图像是通过第一眼部样本图像得到时，将所述标准图像的预测视线向量翻转回所述第一眼部样本图像对应的空间。

可选地，所述目标方位眼部为左眼，所述训练模块402还用于：

可选地，所述训练模块402用于：

根据所述第一横坐标值和所述第二横坐标值确定所述左眼和所述右眼的横坐标的平均值；

调整所述右眼的预测视线向量与所述左眼的预测视线向量相互平行，其中，平行处理后，所述右眼的横坐标为第三横坐标值；；

可选地，所述反残差区块的数量小于19。

针对上文描述的视线追踪的方法，本申请还提供了对应的视线追踪的装置，以使上述视线追踪的方法在实际中得以应用和实现。

图10为本申请实施例提供的视线追踪的装置50的一实施例示意图。

获取模块501，用于获取目标眼部图像；

处理模块502，用于采用目标视线追踪模型对所述获取模块501获取的目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量；

视线追踪模块503，用于根据所述处理模块502得到的预测视线向量进行视线追踪。

可选地，所述处理模块502，还用于确定所述目标眼部图像中眼球的坐标；

视线追踪模块503，用于将所述眼球的坐标作为视线的起点，按照所述预测视线向量所指示的方向进行视线追踪。

可选的，该视线追踪的装置50还可以包括平滑处理模块，平滑处理模块用于：

当所述目标眼部图像属于视频流中的视频帧时，确定所述目标眼部图像对应的参考眼部图像，所述参考眼部图像和所述目标眼部图像是所述视频流中连续视频帧中的图像；

根据所述参考眼部图像对应的预测视线向量，对所述目标眼部图像对应的预测视线向量进行平滑处理。

本申请还提供了一种用于视线追踪模型训练的设备，该设备具体可以为服务器，参见图11，图11是本申请实施例提供的一种用于视线追踪模型训练的服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 722用于执行上述图1至图6部分所描述的神经网络模型训练的过程。

此外，本申请还提供了一种服务器，该服务器与上述图11所示的服务器的结构相类似，其存储器用于存储目标视线追踪模型，该目标视线追踪模型是根据本申请实施例提供的视线追踪模型训练的方法训练得到的；其处理器用于运行该目标视线追踪模型，以进行视线追踪。

本申请实施例还提供了另一种用于视线追踪的设备，该设备可以为终端设备，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、销售终端(英文全称：Point of Sales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图12示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图12，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路810、存储器820、输入单元830、显示单元840、传感器850、音频电路860、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块870、处理器880、以及电源890等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路810可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器880处理；另外，将设计上行的数据发送给基站。通常，RF电路810包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：Low Noise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：Code Division Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long Term Evolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器820可用于存储软件程序以及模块，处理器880通过运行存储在存储器820的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器820可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元830可用于控制指令，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元830可包括触控面板831以及其他输入设备832。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上或在触控面板831附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器880，并能接收处理器880发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832。具体地，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元840可用于视线追踪的结果。显示单元840可包括显示面板841，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板841。进一步的，触控面板831可覆盖显示面板841，当触控面板831检测到在其上或附近的触摸操作后，传送给处理器880以确定触摸事件的类型，随后处理器880根据触摸事件的类型在显示面板841上提供相应的视觉输出。虽然在图12中，触控面板831与显示面板841是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板831与显示面板841集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器850，可以通过传感器850采集目标眼部图像，当然也可以通过摄像头采集目标眼部图像，或者通过眼动仪采集目标眼部图像。传感器850比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板841的亮度，接近传感器可在手机移动到耳边时，关闭显示面板841和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路860、扬声器861，传声器862可提供用户与手机之间的音频接口。音频电路860可将接收到的音频数据转换后的电信号，传输到扬声器861，由扬声器861转换为声音信号输出；另一方面，传声器862将收集的声音信号转换为电信号，由音频电路860接收后转换为音频数据，再将音频数据输出处理器880处理后，经RF电路810以发送给比如另一手机，或者将音频数据输出至存储器820以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块870可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块870，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器880是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器820内的软件程序和/或模块，以及调用存储在存储器820内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器880可包括一个或多个处理单元；优选的，处理器880可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器880中。

手机还包括给各个部件供电的电源890(比如电池)，优选的，电源可以通过电源管理系统与处理器880逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器880具有上述所描述的基于目标视线追踪模型进行相应的视线追踪的功能。

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例所述的一种视线追踪模型训练方法中的任意一种实施方式，或者执行前述实施例所述的一种视线追踪的方法。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种视线追踪模型训练的方法中的任意一种实施方式，或者执行前述实施例所述的一种视线追踪方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-Only Memory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种视线追踪模型训练的方法，其特征在于，包括：

获取训练样本集合，所述训练样本集合包括训练样本对，其中，所述训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量；

通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量；

根据所述预测视线向量和所述标注视线向量的余弦距离确定模型损失；

对所述初始视线追踪模型的参考参数进行迭代调整直到所述模型损失满足收敛条件，得到目标视线追踪模型。
根据权利要求1所述的方法，其特征在于，所述训练样本对还包括所述眼部样本图像中眼球的标注坐标；所述通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量，包括：

通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量和眼球的预测坐标；

所述方法还包括：

根据所述眼球的预测坐标和所述眼球的标注坐标之间的欧式距离确定所述模型损失。
根据权利要求1所述的方法，其特征在于，所述标注视线向量为基于单位圆的方向向量，所述方法还包括：

对所述预测视线向量进行归一化处理，以得到归一化视线向量；

所述根据所述预测视线向量和所述标注视线向量的余弦距离确定模型损失，包括：

根据所述归一化视线向量和所述标注视线向量的余弦距离确定所述模型损失。
根据权利要求1-3任一所述的方法，其特征在于，所述通过初始视线追踪模型对所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量，包括：

对所述眼部样本图像进行如下至少一项的处理，所述至少一项包括仿射变换、白平衡、自动对比度或高斯模糊；

将所述训练样本集合中的第一眼部样本图像翻转为第二眼部样本图像，并将所述第一眼部样本图像对应的标注视线向量进行对应翻转，所述第二眼部样本图像为目标方位眼部的图像，所述初始视线追踪模型用于对所述目标方位眼部的图像进行处理；所述第一眼部样本图像为右眼样本图像时，所述第二眼部样本图像为左眼样本图像，所述第一眼部样本图像为左眼样本图像时，所述第二眼部样本图像为右眼样本图像；

对每个眼部样本图像做裁剪处理，得到标准图像；

采用所述初始视线追踪模型中的反残差区块对所述标准图像进行映射处理，得到所述标准图像的预测视线向量。
根据权利要求4所述的方法，其特征在于，所述方法还包括：

当所述标准图像是通过第一眼部样本图像得到时，将所述标准图像的预测视线向量翻转回所述第一眼部样本图像对应的空间。
根据权利要求4所述的方法，其特征在于，所述目标方位眼部为左眼，所述方法还包括：

获取左眼的预测视线向量中的第一横坐标值，以及右眼的预测视线向量中的第二横坐标值，所述左眼和所述右眼属于同一用户对象；

当所述第一横坐标值表征所述左眼向左看，所述第二横坐标值表征右眼向右看时，对所述第一横坐标值和所述第二横坐标值进行矫正。
根据权利要求6所述的方法，其特征在于，所述对所述第一横坐标值和所述第二横坐标值进行矫正，包括：

根据所述第一横坐标值和所述第二横坐标值，确定所述左眼和所述右眼的横坐标的平均值；

调整所述右眼的预测视线向量与所述左眼的预测视线向量相互平行，其中，平行处理后，所述右眼的横坐标为第三横坐标值；

根据所述平均值和所述第三横坐标值，确定所述右眼的横坐标的第四横坐标值。
根据权利要求4所述的方法，其特征在于，所述反残差区块的数量小于19。
一种视线追踪的方法，其特征在于，包括：

获取目标眼部图像；

采用目标视线追踪模型对所述目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量，所述目标视线追踪模型为采用权利要求1-8任一所述的方法训练得到的视线追踪模型；

根据所述预测视线向量进行视线追踪。
根据权利要求9所述的方法，其特征在于，所述采用目标视线追踪模型对所述眼部图像进行处理，确定所述眼部图像的预测视线方向向量时，还包括：

确定所述目标眼部图像中眼球的坐标；

所述根据所述预测视线方向向量进行视线追踪，包括：

将所述眼球的坐标作为视线的起点，按照所述预测视线向量所指示的方向进行视线追踪。
根据权利要求9或10所述的方法，其特征在于，所述采用目标视线追踪模型对所述目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量之后，所述方法还包括：

当所述目标眼部图像属于视频流中的视频帧时，确定所述目标眼部图像对应的参考眼部图像，所述参考眼部图像和所述目标眼部图像是所述视频流中连续视频帧中的图像；

根据所述参考眼部图像对应的预测视线向量，对所述目标眼部图像对应的预测视线向量进行平滑处理。
一种视线追踪模型训练的装置，其特征在于，包括：

获取模块，用于获取训练样本集合，所述训练样本集合包括训练样本对，其中，所述训练样本对包括眼部样本图像和所述眼部样本图像对应的标注视线向量；

训练模块，用于通过初始视线追踪模型对所述获取模块获取的所述眼部样本图像进行处理，得到所述眼部样本图像的预测视线向量；

第一处理模块，用于根据所述训练模块得到的预测视线向量和所述标注视线向量的余弦距离确定模型损失；

第二处理模块，用于对所述初始视线追踪模型的参考参数进行迭代调整直到所述第一处理模块处理得到的所述模型损失满足收敛条件，得到目标视线追踪模型。
一种视线追踪的装置，其特征在于，包括：

获取模块，用于获取目标眼部图像；

处理模块，用于采用目标视线追踪模型对所述获取模块获取的目标眼部图像进行处理，确定所述目标眼部图像的预测视线向量，所述目标视线追踪模型为采用权利要求1-8任一所述的方法训练得到的视线追踪模型；

视线追踪模块，用于根据所述处理模块得到的预测视线向量进行视线追踪。
一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述存储器用于存储程序代码；所述处理器用于根据所述程序代码中的指令执行权利要求1至8任一项所述的视线追踪模型训练的方法，或者，

所述存储器用于存储目标视线追踪模型，所述目标视线追踪模型是根据上述权利要求1至8任一项所述的视线追踪模型训练的方法训练得到的视线追踪模型；所述处理器用于运行所述目标视线追踪模型，以进行视线追踪。
一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如上述权利要求1至8任一项所述的视线追踪模型训练的方法，或者执行如上述权利要求9至11任一所述的视线追踪的方法。