WO2021135827A1

WO2021135827A1 - 视线方向确定方法、装置、电子设备及存储介质

Info

Publication number: WO2021135827A1
Application number: PCT/CN2020/134049
Authority: WO
Inventors: 王飞; 钱晨
Original assignee: 上海商汤临港智能科技有限公司
Priority date: 2019-12-30
Filing date: 2020-12-04
Publication date: 2021-07-08
Also published as: CN111178278B; JP7309116B2; CN111178278A; KR20210140763A; JP2022553776A

Abstract

一种视线方向确定方法、装置、电子设备及存储介质，其中，该视线方向确定方法包括：获取目标对象的面部图像和眼部图像（S101）；在面部图像中提取目标对象的面部特征（S102）；根据目标对象的面部特征和眼部图像确定目标对象的眼部特征（S103）；基于面部特征预测目标对象的初始视线方向，以及，基于由面部特征和眼部特征融合后的融合特征，预测得到视线残差信息（S104）；基于视线残差信息对初始视线方向进行修正，得到目标对象的视线方向（S105）。

Description

视线方向确定方法、装置、电子设备及存储介质

相关申请的交叉引用

本公开要求于2019年12月30日提交的、申请号为201911403648.2的中国专利申请的优先权，该申请的全文以引用的方式并入本文中。

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种视线方向确定方法、装置、电子设备及存储介质。

背景技术

目前，视线追踪是计算机视觉中的一个重要领域，视线追踪的主要目的在于预测用户的视线方向，由于用户的视线方向往往和用户的个人意图相关，这使得视线追踪技术在用户的意图理解中有着重要的作用，因此如何准确地确定用户的视线方向就变得尤为重要。

发明内容

本公开实施例至少提供一种视线方向确定方案。

第一方面，本公开实施例提供了一种视线方向确定方法，包括：获取目标对象的面部图像和眼部图像；在所述面部图像中提取所述目标对象的面部特征；根据所述目标对象的面部特征和所述眼部图像确定所述目标对象的眼部特征；基于所述面部特征预测所述目标对象的初始视线方向，以及，基于由所述面部特征和所述眼部特征融合后的融合特征，预测得到视线残差信息；基于所述视线残差信息对所述初始视线方向进行修正，得到所述目标对象的视线方向。

本公开实施例提供的视线方向确定方法，可以基于面部图像提取到目标对象的面部特征，该面部特征能够预测目标对象的初始视线方向，以及基于面部特征和眼部图像确定目标对象的眼部特征。然后，可以通过由面部特征和眼部特征融合后的融合特征来预测表征目标对象的实际视线方向与初始视线方向之间的差异的信息，即视线残差信息。然后再通过表征该差异的信息调整仅仅根据面部特征预测的初始视线方向，即能够得到更接近实际视线方向的视线方向。可见本公开实施例提出的视线确定方法能够预测得到更加准确的视线方向。

在一种可能的实施方式中，所述眼部图像包括左眼图像和右眼图像，所述根据所述目标对象的面部特征和所述眼部图像确定所述目标对象的眼部特征，包括：在所述左眼图像中提取左眼特征；在所述右眼图像中提取右眼特征；根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重；基于所述第一权重以及所述第二权重，对所述左眼特征和所述右眼特征进行加权求和，得到所述眼部特征。

本公开实施例通过将面部特征与左眼特征进行结合，以及将面部特征与右眼图像进行结合，分别确定出左眼图像和右眼图像在确定视线方向时的不同贡献，从而确定出准确度较高的眼部特征，进而便于提高预测视线残差信息的准确度。

在一种可能的实施方式中，所述根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重，包括：根据所述面部特征和所述左眼特征确定所述左眼特征的第一分值，以及，根据所述面部特征和所述右眼特征确定所述右眼特征的第二分值；基于所述第一分值和第二分值，确定所述第一权重和第二权重。

在一种可能的实施方式中，所述基于所述面部特征预测所述目标对象的初始视线方向，包括：确定所述面部特征中各个特征点的权重，并基于所述面部特征中各个特征点的权重，对所述面部特征进行调整；根据调整后的面部特征确定所述目标对象的初始视线方向。

这里提出对面部特征中各个特征点的权重进行调整，可以使得对初始视线方向影响较大的特征点的权重大于对初始视线方向影响较小的特征点的权重，这样就可以基于调整后的面部特征得到较为准确的初始视线方向。

在一种可能的实施方式中，按照以下方式基于所述面部特征和所述眼部特征，确定所述融合特征，包括：根据所述调整后的面部特征、所述眼部特征、以及调整后的面部特征中各个特征点的权重确定中间特征；基于所述中间特征、所述调整后的面部特征，以及所述中间特征和所述调整后的面部特征分别对应的权重，对所述中间特征和所述调整后的面部特征进行加权求和，得到所述融合特征。

在一种可能的实施方式中，按照以下方式确定调整后的面部特征中各个特征点的权重：根据所述眼部特征和所述调整后的面部特征确定调整后的面部特征中各个特征点的权重。

在一种可能的实施方式中，按照以下方式确定所述中间特征和所述调整后的面部特征分别对应的权重：根据所述眼部特征和所述调整后的面部特征确定所述中间特征和所述调整后的面部特征分别对应的权重。

以上通过基于眼部特征和调整后的面部特征，确定由面部特征和眼部特征融合后的融合特征，该融合特征综合考虑了面部图像和眼部图像，从而便于通过该融合特征确定目标对象的实际视线方向与初始视线方向之间的差异，进而可以根据该差异对初始视线方向进行修正，得到较为准确的视线方向。

在一种可能的实施方式中，所述视线方向确定方法由神经网络实现，所述神经网络利用包含了目标样本对象的标注视线方向的样本图像训练得到。

在一种可能的实施方式中，所述神经网络采用以下方式训练得到：获取样本图像中的目标样本对象的面部样本图像和眼部样本图像；在所述面部样本图像中提取所述目标样本对象的面部特征；根据所述目标样本对象的面部特征和所述眼部样本图像确定所述目标样本对象的眼部特征；基于所述目标样本对象的面部特征预测所述目标样本对象的初始视线方向，以及，基于由所述目标样本对象的面部特征和所述目标样本对象的眼部特征融合后的融合特征，预测得到所述目标样本对象的视线残差信息；基于所述目标样本对象的视线残差信息对所述目标样本对象的初始视线方向进行修正，得到所述目标样本对象的视线方向；基于得到的所述目标样本对象的视线方向和所述目标样本对象的标注视线方向，对所述神经网络的网络参数值进行调整。

根据本公开实施例提供的神经网络的训练方法，可以获取样本图像中的目标样本对象的面部样本图像和眼部样本图像。然后，基于面部样本图像提取到目标样本对象的面部特征，该目标样本对象的面部特征能够预测目标样本对象的初始视线方向。基于目标样本对象的面部特征和眼部图像确定目标样本对象的眼部特征。可以通过由目标样本对象的面部特征和眼部特征融合后的融合特征来预测表征目标样本对象的实际视线方向与初始视线方向之间的差异的信息，即视线残差信息。然后，再通过表征该差异的信息调整仅仅根据目标样本对象的面部特征预测的初始视线方向，即能够得到更接近目标样本对象的标注视线方向的视线方向。基于得到的目标样本对象的视线方向以及标注视线方向对神经网络的网络参数值进行调整，即可以得到准确度较高的神经网络。基于该准确度较高的神经网络即可以对目标对象的视线方向进行准确预测。

第二方面，本公开实施例提供了一种视线方向确定装置，包括：图像获取模块，用于获取目标对象的面部图像和眼部图像；特征提取模块，用于在所述面部图像中提取所述目标对象的面部特征；以及用于根据所述目标对象的面部特征和所述眼部特征确定所述目标对象的眼部特征；视线预测模块，用于基于所述面部特征预测所述目标对象的初始视线方向，以及，基于由所述面部特征和所述眼部特征融合后的融合特征，预测得到视线残差信息；视线修正模块，用于基于所述视线残差信息对所述初始视线方向进行修正，得到所述目标对象的视线方向。

第三方面，本公开实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，所述处理器与所述存储介质之间通过总线通信，所述机器可读指令促使所述处理器执行如第一方面所述的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序促使处理器执行如第一方面所述的方法。

为使本公开的上述目的、特征和优点能更明显易懂，根据下文实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种视线方向确定方法的流程图。

图2示出了本公开实施例所提供的一种视线方向确定原理示意图。

图3示出了本公开实施例所提供的一种眼部特征的确定方法流程图。

图4示出了本公开实施例所提供的一种左眼特征以及右眼特征各自对应的权重的确定过程示意图。

图5示出了本公开实施例所提供的一种初始视线方向的确定方法流程图。

图6示出了本公开实施例所提供的一种融合特征的确定方法流程图。

图7示出了本公开实施例所提供的一种确定初始视线方向以及确定视线残差信息的过程示意图。

图8示出了本公开实施例所提供的一种确定视线方向的过程示意图。

图9示出了本公开实施例所提供的一种神经网络训练方法的流程图。

图10示出了本公开实施例所提供的一种视线方向确定装置的结构示意图。

图11示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

视线追踪是计算机视觉中的一个重要领域，视线追踪的主要目的在于预测用户的视线方向，经研究发现，基于外观的视线预测模型往往使用深度学习模型实现，比如可以基于面部图像中的脸部特征或者眼部图像中的眼部特征来预测视线方向。

相关技术中，只是将面部图像和眼部图像当作不同的独立特征源，并未实质考虑面部图像和眼部图像之间的内在关系。实际上，眼部图像提供了专注于凝视的细粒度特征，而面部图像则提供了具有更广泛信息的粗粒度特征，二者的结合，能够更加准确地预测视线方向。

基于上述研究，本公开提供了一种视线方向确定方法。可以基于面部图像提取到目标对象的面部特征，该面部特征能够用于预测目标对象的初始视线方向。在基于面部特征和眼部图像确定目标对象的眼部特征后，可以通过由面部特征和眼部特征融合后的特征(也称为“融合特征”)来预测表征目标对象的实际视线方向与初始视线方向之间的差异的信息，即视线残差信息。然后再通过表征该差异的信息调整仅仅根据面部特征预测的初始视线方向，即能够得到更接近实际视线方向的视线方向。可见本公开实施例提出的视线确定方法能够预测得到更加准确的视线方向。

下面将结合本公开中附图，对本公开中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种视线方向确定方法进行详细介绍。本公开实施例所提供的视线方向确定方法的执行主体一般为具有一定计算能力的计算机设备。该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端等。在一些可能的实现方式中，该视线方向确定方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为终端设备为例对本公开实施例提供的视线方向确定方法加以说明。

参见图1所示，为本公开实施例提供的视线方向确定方法的流程图，方法包括步骤S101～S103。

S101，获取目标对象的面部图像和眼部图像。

这里目标对象可以为待预测视线方向的用户，可以通过摄像机或者照相机等能够采集图像的设备对目标对象的脸部进行拍照，得到目标对象的面部图像，然后在该面部图像中截取目标对象的眼部图像。

S102，在面部图像中提取目标对象的面部特征。

S103，根据目标对象的面部特征和眼部图像确定目标对象的眼部特征。

这里，目标对象的面部特征，是指具有更广泛信息的粗粒度特征，通过这些面部特征，能够预测目标对象的初始视线方向；目标对象的眼部特征，是指能够表征专注于凝视的细粒度特征。眼部特征和面部特征的结合，能够较为准确地预测视线方向。

具体地，这里面部特征和眼部特征可以通过预先训练的进行视线方向预测的神经网络中用于进行特征提取的子神经网络来进行提取，将在后文实施例中进行详细介绍，在此不进行赘述。

S104，基于面部特征预测目标对象的初始视线方向，以及，基于由面部特征和眼部特征融合后的融合特征，预测得到视线残差信息。

其中，视线残差信息用于表征目标对象的实际视线方向与初始视线方向之间的差异。

这里的初始视线方向即可以基于面部特征来确定，具体地，可以基于预先训练的进行视线方向预测的神经网络中用于确定初始视线方向的子神经网络进行预测，具体预测方式将在后文结合实施例进行详细阐述。

这里的视线残差信息可以通过预先训练的进行视线方向预测的神经网络中用于确定视线残差信息的子神经网络进行预测，具体预测方式将在后文进行详细阐述。

这里通过由面部特征和眼部特征融合后的特征来预测表征目标对象的实际视线方向与初始视线方向之间的差异的信息，然后再通过该表征差异的信息调整仅仅根据面部特征预测的初始视线方向，即能够得到更接近实际视线方向的视线方向。即本公开提出将目标对象的面部图像和眼部图像进行结合，通过将眼部图像提供的专注于凝视的细粒度特征，以及面部图像提供的对应更广泛信息的粗粒度特征进行结合，来预测得到表征目标对象的实际视线方向与初始视线方向之间的差异的视线残差信息，从而利用该视线残差信息调整基于面部特征预测的目标对象的初始视线方向，进而得到更加准确的目标对象的视线方向。

具体可以将面部特征和眼部特征输入预先训练的进行视线方向预测的神经网络中用于确定视线残差信息的子神经网络中，得到由面部特征和眼部特征融合后的特征，该方式将在后文结合具体实施例进行阐述。

S105，基于视线残差信息对初始视线方向进行修正，得到目标对象的视线方向。

具体地，这里的视线残差信息可以包括基于由面部特征和眼部特征融合后的特征确定的表征实际视线方向与初始视线方向之间的差异的信息，然后即可以基于该视线残差信息对初始视线方向进行调整，比如可以将该视线残差信息与基于面部特征预测的初始视线方向求和，得到更接近目标对象的实际视线方向的视线方向。

比如，如图2所示，表示一种用于确定视线方向的原理示意图，其中g ^b表示基于面部特征预测的目标对象的初始视线方向，g _r表示视线残差信息，则最终得到的目标对象的视线方向g通过以下公式(1)表示：

g＝g _b+g _r (1)；

视线残差信息在表示实际视线方向与初始视线方向的差异时，可以通过矢量进行表示。这里可以引入世界坐标系来表示初始视线方向和视线残差信息。在将视线残差信息和初始视线方向进行求和时，可以将初始视线方向和视线残差信息在世界坐标系中相同方向轴中的值对应相加，即得到目标对象的视线方向。

比如，若目标对象的实际视线方向为东偏南30度，而经过目标对象的面部特征预测得到的目标对象的初始视线方向为东偏南25度，经过由面部特征和眼部特征融合后的特征预测得到的视线残差信息为偏差4度，则通过视线残差信息对初始视线方向进行修正，则可以得到预测的目标对象的视线方向为东偏南29度，东偏南29度相比东偏南25度显然更接近目标对象的实际视线方向。

以上步骤S101～S105提出的视线方向确定方法，可以基于面部图像中提取到目标对象的面部特征，该面部特征能够预测目标对象的初始视线方向；在基于面部特征和眼部图像确定目标对象的眼部特征后，可以通过由面部特征和眼部特征融合后的特征来预测表征目标对象的实际视线方向与初始视线方向之间的差异的信息，即视线残差信息；然后再通过表征该差异的信息调整仅仅根据面部特征预测的初始视线方向，即能够得到更接近实际视线方向的视线方向。可见本公开实施例提出的视线确定方法能够预测得到更加准确的视线方向。

下面将结合具体的实施例来对上述S101～S105的过程进行分析。

针对上述在面部图像中提取目标对象的面部特征的步骤(S102)，可以通过对面部图像进行图像分析，在面部图像中提取能够表征面部特征的位置点坐标，作为目标对象的面部特征。比如提取面颊、眼角等位置点坐标。或者，可以基于神经网络来提取目标对象的面部特征。

比如，目标对象的面部特征可以基于预先训练的进行视线方向预测的神经网络中进行特征提取的子神经网络来进行提取，具体包括：

将面部图像输入第一特征提取网络，经第一特征提取网络处理得到面部特征，第一特征提取网络为预先训练的进行视线方向预测的神经网络中，用于进行面部特征提取的子神经网络。

这里的第一特征提取网络在预先训练的进行视线方向预测的神经网络中用于提取面部图像中的面部特征，即将面部图像输入该第一特征提取网络后，即可以提取到用于预测初始视线方向的面部特征。

这里通过预先训练的进行视线方向预测的神经网络中的第一特征提取网络来提取面部图像中的面部特征。由于在进行视线方向预测的神经网络中，该第一特征提取网络专用于提取面部图像的面部特征，从而能够提取更加准确的面部特征，进而便于提高初始视线方向的准确度。

上述眼部图像包括左眼图像和右眼图像。通常，左眼图像示出的左眼的外观和右眼图像示出的右眼的外观，会随着环境的变化或者头部姿态的变化发生变化。这样，基于左眼图像提取的左眼特征和基于右眼图像提取的右眼特征在确定视线方向时，可能会存在不同的贡献。考虑到此，根据目标对象的面部特征和眼部图像确定目标对象的眼部特征，如图3所示，可以包括以下步骤S301～S304。

S301，在左眼图像中提取左眼特征。

这里在左眼图像中提取左眼特征，可以是在左眼图像中提取能够表征眼部特征的位置点坐标，作为目标对象的左眼特征，比如瞳孔、眼角等位置点坐标，或者，可以基于预先训练的神经网络来提取左眼特征。

S302，在右眼图像中提取右眼特征。

同样，这里在右眼图像中提取右眼特征，可以是在右眼图像中提取能够表征眼部特征的位置点坐标，作为目标对象的右眼特征，比如瞳孔、眼角等位置点坐标，或者，可以基于预先训练的神经网络来提取右眼特征。

本公开以通过预先训练的神经网络来提取左眼特征和右眼特征为例进行说明：

将左眼图像输入第二特征提取网络，经第二特征提取网络处理得到左眼特征，以及将右眼图像输入第三特征提取网络，经第三特征提取网络处理得到右眼特征。

其中，第二特征提取网络为预先训练的进行视线方向预测的神经网络中，用于进行左眼特征提取的子神经网络。第三特征提取网络为预先训练的进行视线方向预测的神经网络中，用于进行右眼特征提取的子神经网络。

S303，根据面部特征、左眼特征和右眼特征，确定左眼特征对应的第一权重和右眼特征对应的第二权重。

这里左眼特征对应的第一权重表示左眼图像在确定视线方向时的贡献，右眼特征对应的第二权重表示右眼图像在确定视线方向时的贡献。在确定该第一权重和第二权重时，可以通过预先训练的神经网络来确定。比如可以将面部特征、左眼特征和右眼特征输入注意力网络，经注意力网络处理得到左眼特征对应的第一权重和右眼特征对应的第二权重。

其中，注意力网络为预先训练的进行视线方向预测的神经网络中，用于确定左眼特征和右眼特征各自的评价值的子神经网络。该评价值表征了左眼特征/右眼特征在眼部特征中的重要度。

将面部特征、左眼特征和右眼特征输入该注意力网络后，能够得到左眼特征和右眼特征各自的评价值。

具体地，在将面部特征、左眼特征和右眼特征输入注意力网络，经注意力网络处理得到第一权重和第二权重时，包括：

(1)根据面部特征和左眼特征确定左眼特征的第一分值，以及，根据面部特征和右眼特征确定右眼特征的第二分值；

(2)基于第一分值和第二分值，确定第一权重和第二权重。

同样，这里根据面部特征和左眼特征确定左眼特征的第一分值以及根据面部特征和右眼特征确定右眼特征的第二分值时，可以通过预先训练的神经网络来确定，比如通过注意力网络来确定，即：

将面部特征和左眼特征输入注意力网络，经注意力网络处理得到左眼特征的第一分值，以及，将面部特征和右眼特征输入注意力网络，经注意力网络处理得到右眼特征的第二分值。

这里基于第一分值和第二分值确定第一权重和第二权重也可以是通过注意力网络处理得到的。第一分值能够表示左眼图像在确定视线方向时的贡献，经过提前测试得知，该第一分值与脸部特征和左眼特征均相关。第一分值与面部特征相关，是指预测初始视线方向的面部特征能够影响左眼特征的分值。另外第一分值与左眼特征相关，即左眼形状、外观等也会影响左眼特征的分值。具体地，注意力网络在接收到面部特征和左眼特征后，能够按照以下公式(2)确定第一分值：

m _l＝W ₁ ^Ttanh(W ₂ ^Tf _f+W ₃ ^Tf _l) (2)；

这里的m _l即表示左眼特征对应的第一分值；W ₁、W ₂和W ₃为注意力网络中网络参数，即注意力网络在训练完毕后得到的网络参数；f _f表示面部特征；f _l表示左眼特征。

对应地，第二分值能够表示右眼图像在确定视线方向时的贡献，经过提前测试得知，该第二分值与脸部特征和右眼特征均相关。第二分值与面部特征相关，是指预测初始视线方向的面部特征能够影响右眼特征的分值。另外第二分值与右眼特征相关，即右眼形状、外观等也会影响右眼特征的分值。具体地，注意力网络在接收到面部特征和右眼特征后，能够按照以下公式(3)确定第二分值：

m _r＝W ₁ ^Ttanh(W ₂ ^Tf _f+W ₃ ^Tf _r) (3)；

这里的m _r即表示右眼特征对应的第二分值；W ₁、W ₂和W ₃为注意力网络中网络参数，即注意力网络在训练完毕后得到的网络参数；f _f表示面部特征；f _r表示右眼特征。

在得到左眼特征对应的第一分值，以及右眼特征对应的第二分值后，即可以进一步根据该第一分值和第二分值确定出左眼特征对应的第一权重和右眼特征对应的第二权重，具体可以根据以下公式(4)确定出第一权重和第二权重：

[w _l,w _r]＝softmax([m _l,m _r]) (4)；

其中，这里通过引入归一化指数函数softmax函数即可以得到表示左眼特征对应的第一权重w _l；以及表示右眼特征对应的第二权重w _r。

以上确定左眼特征以及右眼特征各自对应的权重的过程示意图可以如图4所示，图4中可以分别通过深度神经网络CNN得到左眼特征f _l和右眼特征f _r，然后进一步将脸部特征f _f、左眼特征f _l和右眼特征f _r输入注意力网络，得到左眼特征对应的第一权重w _l，以及右眼特征对应的第二权重w _r。

S304，基于第一权重以及第二权重，对左眼特征和右眼特征进行加权求和，得到眼部特征。

这里可以是通过注意力网络执行基于第一权重和第二权重，对左眼特征和右眼特征进行加权求和，得到眼部特征的步骤。在得到左眼特征对应的第一权重以及右眼特征对应的第二权重后，即可以对左眼特征和右眼特征进行加权求和，具体可以根据以下公式(5)得到眼部特征f _e：

f _e＝w _l*f _l+w _r*f _r (6)；

本公开实施例通过将面部特征与左眼特征进行结合，以及将面部特征与右眼图像进行结合，分别确定出左眼图像和右眼图像在确定视线方向时的不同贡献，从而确定出准确度较高的眼部特征，进而便于提高视线残差信息的准确度。

在按照上述方式得到面部特征和眼部特征后，即可以进一步基于面部特征和眼部特征来确定目标对象的视线方向。确定目标对象的视线方向可以包括两个部分，第一部分是基于面部特征预测目标对象的初始视线方向的过程，第二部分是基于由面部特征和眼部特征融合后的特征预测目标对象的视线残差信息的过程。

其中，在基于面部特征预测目标对象的初始视线方向时，如图5所示，可以包括以下步骤S501～S502：

S501，确定面部特征中各个特征点的权重，并基于面部特征中各个特征点的权重，对面部特征进行调整；

S502，根据调整后的面部特征确定目标对象的初始视线方向。

面部特征可以包括多个特征点，特征点可以理解为由面部图像提取的不同的粗粒度特征，这些粗粒度特征可以包括例如面部图像中的区域特征、位置点特征等。面部特征中的每个特征点在预测初始视线方向时，所起的重要程度不同。这里可以先基于各个特征点的权重对面部特征进行调整，然后再基于调整后的面部特征确定目标对象的初始视线方向。

这里在对面部特征进行调整时，可以通过预先训练的神经网络进行调整，将在后文进行详细介绍。

在得到调整后的面部特征后，可以如图6所示的方式基于面部特征和眼部特征，确定融合后的特征，具体包括以下步骤S601～S602。

S601，根据调整后的面部特征、眼部特征、以及调整后的面部特征中各个特征点的权重确定中间特征。

S602，基于中间特征、调整后的面部特征，以及中间特征和调整后的面部特征分别对应的权重，对中间特征和调整后的面部特征进行加权求和，得到融合后的特征。

这里的中间特征可以通过预先训练的神经网络进行确定，通过该中间特征和调整后的面部特征，即可以确定由面部特征和眼部特征融合后的特征。

以上对面部特征进行调整，得到调整后的面部特征的过程，以及得到由面部特征和眼部特征融合后的特征的过程，均可以通过预先训练的神经网络进行处理，比如通过门网络进行处理。而根据调整后的面部特征确定目标对象的初始视线方向同样也可以基于预先训练的神经网络来确定，将在后文进行详细介绍。

本公开实施例中，可以根据以下步骤确定调整后的面部特征中各个特征点的权重：

根据眼部特征和调整后的面部特征确定调整后的面部特征中各个特征点的权重。

这里确定权重的方式，可以是按照预先设置好的权重分配方式进行确定，也可以通过预先训练的神经网络进行确定，将在后文进行详细介绍。

本公开实施例中，根据以下步骤确定中间特征和调整后的面部特征分别对应的权重：

根据眼部特征和调整后的面部特征确定中间特征和调整后的面部特征分别对应的权重。

同样，这里确定权重的方式，可以是按照预先设置好的权重分配方式进行确定，也可以通过预先训练的神经网络进行确定，将在后文进行详细介绍。

在介绍初始视线方向的确定过程，以及由面部特征和眼部特征融合后的特征的确定过程之前，先介绍门网络。首先，这里先引入门网络的概念。门网络在本公开实施例提出的预先训练的进行视线方向预测的神经网络中，起到对接收的特征进行过滤筛选的作用，即将重要特征的权重调大，将非重要特征的权重调小，具体将在下文结合实施例进行具体阐释，这里先结合公式(7)～公式(10)介绍门网络的特征变化方式：

z _t＝σ(W _z·[h _t-1,f]) (7)；

r _t＝σ(W _r·[h _t-1,f]) (8)；

其中，W _z、W _r、W _h为门网络中的网络参数；σ表示sigmoid运算；ReLU表示激活函数；f表示接收的相应特征(在对面部特征进行处理时，这里的f即表示面部特征，在对眼部特征进行处理时，这里的f即表示眼部特征)；z _t表示经过sigmoid运算后得到的权重；r _t表示经过sigmoid运算后得到的权重；

表示输入门网络中的特征进行融合后得到的中间特征；h _t表示中间特征与相邻门网络输出的特征的加权和，设置h ₀等于 0。

本公开实施例需要确定基于面部特征预测目标对象的初始视线方向，以及基于由面部特征和眼部特征融合后的特征预测目标对象的视线残差信息。本公开实施例可以引入两个门网络来分别完成特征的过滤筛选，分别可以记为第一门网络和第二门网络，第一门网络输出的特征即可以记为h ₁，第二门网络输出的特征即可以记为h ₂，下面将结合具体实施例进行阐述。

首先介绍基于面部特征预测目标对象的初始视线方向的过程，这里可以先通过第一门网络对面部特征进行权重调整，得到调整后的面部特征h ₁，然后再基于调整后的面部特征h ₁预测初始视线方向，具体包括以下步骤。

(1)将面部特征输入第一门网络，经第一门网络进行处理得到面部特征中各个特征点的权重。

这里的面部特征可以包括多个特征点。这里的特征点可以理解为面部图像中不同的粗粒度特征，这些粗粒度特征可以包括面部图像中的区域特征、位置点特征等。面部特征中的每个特征点在预测初始视线方向时，所起的重要程度不同。这里通过第一门网络来确定面部特征中各个特征点的权重。这里的第一门网络为预先训练的进行视线方向预测的神经网络中用于调整面部特征的子神经网络。

这里第一门网络得到面部特征中各个特征点的权重可以通过上述公式(7)和公式(8)得到。因为第一门网络最终输出的为h ₁，则在引用公式(7)和公式(8)时，令t＝1，f＝f _f，此时得到z ₁＝σ(W _z·[h ₀,f _f])，以及r ₁＝σ(W _r·[h ₀,f _f])，然后可以基于得到的z ₁和r ₁来进一步对面部特征进行调整，这里的h ₀等于0。

(2)基于面部特征中各个特征点的权重，对面部特征进行调整。

这里也可以是通过第一门网络基于面部特征中各个特征点的权重，对面部特征进行调整的。将上述得到面部特征中各个特征点的权重r ₁代入上述公式(9)，并令t＝1，f＝f _f，则得到面部特征的中间特征

以及将上述得到的面部特征的中间特征的权重z ₁，以及相邻门网络输出的特征h ₀对应的权重1-z ₁代入上述公式(10)，并令t＝1，f＝f _f得到调整后的面部特征

这里h ₀等于0。

(3)将调整后的面部特征输入第一多层感知机(multilayer perception,MLP)，经第一多层感知机进行处理得到目标对象的初始视线方向。

这里第一多层感知机为预先训练的进行视线方向预测的神经网络中，用于预测初始视线方向的子神经网络。

调整后的面部特征即记为h ₁，然后将调整后的面部特征输入第一多层感知机MLP，即可以得到目标对象的初始视线方向。

这里提出第一门网络对面部特征中各个特征点的权重进行调整，使得对初始视线方向影响较大的特征点的权重大于对初始视线方向影响较小的特征点的权重，这样再将调整后的面部特征输入预测初始视线方向的第一多层感知机，得到较为准确的初始视线方向。

下面，再介绍基于面部特征和眼部特征，确定融合后的特征的过程，具体包括：

将眼部特征和调整后的面部特征输入第二门网络，经第二门网络进行处理得到融合后的特征；第二门网络为预先训练的进行视线方向预测的神经网络中，用于预测融合后的特征的子神经网络。

这里调整后的面部特征即为上述第一门网络输出的h ₁，然后再将该h ₁和眼部特征f _e输入第二门网络，即可以得到第二门网络输出的融合后的特征h ₂。

具体地，在将眼部特征和调整后的面部特征输入第二门网络，经第二门网络进行处理得到融合后的特征时，包括以下两个步骤：

(1)通过第二门网络，对调整后的面部特征、眼部特征、以及调整后的面部特征中各个特征点的权重进行处理，得到中间特征；

(2)基于中间特征、调整后的面部特征，以及中间特征和调整后的面部特征分别对应的权重，通过第二门网络对中间特征和调整后的面部特征进行加权求和，得到融合后的特征。

针对上述第(1)步，这里调整后的面部特征中各个特征点的权重可以根据以下方式确定：

通过第二门网络对眼部特征和调整后的面部特征进行第一处理得到调整后的面部特征中各个特征点的权重，这里第二门网络进行第一处理时使用训练好的权重分配函数中的第一网络参数信息。

这里通过第二门网络对调整后的面部特征h ₁和眼部特征f _e进行第一处理得到调整后的面部特征中各个特征点的权重时，可以引用上述公式(8)，这里令t＝2，f＝f _e，即可以得到面部特征中各个特征点的权重r ₂＝σ(W _r·[h ₁,f _e])，该公式即对应上述提到的第二门网络对眼部特征和调整后的面部特征进行的第一处理，其中权重分配函数为σ表示的sigmoid运算；第一网络参数信息即为W _r。

在得到面部特征中各个特征点的权重后，即可以引入公式(9)对调整后的面部特征、眼部特征、以及调整后的面部特征中各个特征点的权重进行处理，得到中间特征，即得到中间特征为

针对上述第(2)步，中间特征和调整后的面部特征分别对应的权重可以根据以下方式确定：

对眼部特征和调整后的面部特征进行第二处理得到中间特征和调整后的面部特征分别对应的权重，这里第二门网络进行第二处理时使用训练好的权重分配函数中的第二网络参数信息。

对调整后的面部特征h ₁和眼部特征f _e进行第二处理得到中间特征和调整后的面部特征h ₁分别对应的权重，可以引用上述公式(7)，且令t＝2，f＝f _e时，即可以得到中间特征对应的权重z ₂＝σ(W _z·[h ₁,f _e])，该公式即对应上述提到的第二门网络对眼部特征和调整后的面部特征进行的第二处理，其中权重分配函数为σ表示的sigmoid运算；第二网络参数信息即为W _z，这样得到中间特征对应的权重为z ₂，调整后的面部特征h ₁对应的权重为1-z ₂。

然后在得到中间特征和调整后的面部特征分别对应的权重后，进一步地，通过引入上述公式(10)，同样令t＝2，f＝f _e，则基于中间特征、调整后的面部特征，以及中间特征和调整后的面部特征分别对应的权重，通过第二门网络对中间特征和调整后的面部特征进行加权求和，得到由面部特征和眼部特征融合后的特征：

在得到由面部特征和眼部特征融合后的特征后，可以按照以下方式基于由面部特征和眼部特征融合后的特征，预测得到视线残差信息：

将融合后的特征输入第二多层感知机MLP，经第二多层感知机进行处理得到视线残差信息。其中，第二多层感知机为预先训练的进行视线方向预测的神经网络中，用于预测视线残差信息的子神经网络。

这里融合后的特征即记为h ₂，然后将融合后的特征输入第二多层感知机MLP，即可以得到目标对象的视线残差信息。

以上确定初始视线方向以及确定视线残差信息的过程示意图可以通过图7所示的两个子神经网络确定。其中，第一子神经网络包括第一门网络(Gate function)和第一多层感知机MLP，第二子神经网络包括第二门网络(Gate function)和第二多层感知机MLP。面部特征(Face feature)输入第一门网络后，可以经过第一门网络调整，得到调整后的面部特征h ₁。该调整后的面部特征h ₁可以一方面输入第一多层感知机得到初始视线方向g _b，另一方面与眼部特征(Eye feature)一起输入第二门网络后，经过第二门网络处理，得到由面部特征和眼部特征融合后的特征h ₂。然后将融合后的特征h ₂输入第二多层感知机得到视线残差信息g _r。

以上通过将眼部特征和经第一门网络调整后的面部特征输入第二门网络进行处理，确定由面部特征和眼部特征融合后的特征。该融合后的特征是综合考虑了面部图像和眼部图像后得到的特征，从而便于通过该融合后的特征确定目标对象的实际视线方向与初始视线方向之间的差异。在根据该差异对初始视线方向进行修正后，即可以得到较为准确的视线方向。

综上所有实施例，可以结合如图8所示的示意图对本公开实施例提供的视线方向确定方法进行说明。

在得到面部图像后，在该面部图像中截取眼部图像，该眼部图像包括左眼图像和右眼图像。将面部图像输入第一特征提取网络(CNN)，得到面部特征f _f。然后，将该面部特征输入上述提到的第一子神经网络(第一子神经网络包括第一门网络和第一多层感知机)进行处理，即可以得到初始视线方向g _b。另外，将截取的眼部图像中的左眼图像输入第二特征提取网络得到左眼特征f _l，将右眼图像输入第三特征提取网络得到右眼特征f _r。然后，将左眼特征、右眼特征和面部特征输入注意力网络，即可以得到眼部特征f _e。然后，将眼部特征和经过预测初始视线方向的子神经网络得到的调整后的面部特征h ₁输入第二子神经网络(第二子神经网络包括第二门网络和第二多层感知机)进行处理，即可以得到视线残差信息g _r。

进一步地，在得到初始视线方向g _b和视线残差信息g _r，即可以基于视线残差信息g _r对初始视线方向进行修正，得到目标对象的视线方向。

综上，本申请实施例提出的视线方向确定方法可以由神经网络实现，神经网络利用包含了目标样本对象的标注视线方向的样本图像训练得到。该标注视线方向即为目标样本对象的实际视线方向。

具体地，如图9所示，本申请实施例提出的用于确定视线方向的神经网络可以采用以下步骤训练得到，包括步骤S901～S906。

S901，获取样本图像中的目标样本对象的面部样本图像和眼部样本图像。

这里目标样本对象可以包括分别位于不同空间位置点的多个目标对象。使得这多个目标对象均看向同一观测方向，并获取这些目标样本对象的面部图像作为面部样本图像。然后在面部样本图像中截取眼部样本图像。或者，这里的目标样本对象可以包括一个目标对象。使得该目标样本图像分别看向不同观测方向，并获取该目标样本对象对应各观测方向的面部图像作为面部样本图像，然后在面部样本图像中截取眼部样本图像。

S902，在面部样本图像中提取目标样本对象的面部特征。

这里在面部样本图像提取目标样本对象的面部特征，与上文介绍的提取目标对象的面部特征的方式相似，在此不再赘述。

S903，根据目标样本对象的面部特征和眼部样本图像确定目标样本对象的眼部特征。

这里确定目标样本对象的眼部特征，与上文介绍的确定目标对象的眼部特征的方式相似，在此不再赘述。

S904，基于目标样本对象的面部特征预测目标样本对象的初始视线方向，以及，基于由目标样本对象的面部特征和目标样本对象的眼部特征融合后的特征，预测得到目标样本对象的视线残差信息。

同样，这里确定目标样本对象的初始视线方向以及视线残差信息与上文确定目标对象的初始视线方向以及视线残差信息的方式相似，在此不再赘述。

S905，基于目标样本对象的视线残差信息对目标样本对象的初始视线方向进行修正，得到目标样本对象的视线方向。

这里对目标样本对象的初始视线方向进行修正的方式与上文介绍的基于目标对象的视线残差信息对目标对象的初始视线方向进行修正的方式相似，在此不再赘述。

S906，基于得到的目标样本对象的视线方向和目标样本对象的标注视线方向，对神经网络的网络参数值进行调整。

这里可以引入损失函数确定预测视线方向对应的损失值。经过多次训练后，通过损失值来对神经网络的网络参数值进行调整。比如使得损失值小于设定阈值时，即可以停止训练，从而得到神经网络的网络参数值。

另外，针对如何基于面部特征、左眼特征、右眼特征和注意力网络得到眼部特征，与上文介绍的视线方向确定方法中确定眼部特征的详细过程相似，在此不再赘述；针对如何基于面部特征预测目标样本对象的初始视线方向，以及如何基于面部特征和眼部特征确定融合后的特征，以及如何基于融合后的特征确定目标样本对象的视线残差信息同样与上文介绍的视线方向确定方法中确定融合后的特征和确定视线残差信息的过程相似，在此不再赘述。

根据本公开实施例提供的神经网络的训练方法，可以获取样本图像中的目标样本对象的面部样本图像和眼部样本图像。然后，基于面部样本图像提取到目标样本对象的面部特征，该目标样本对象的面部特征能够预测目标样本对象的初始视线方向。在基于目标样本对象的面部特征和眼部样本图像确定目标样本对象的眼部特征后，可以通过由目标样本对象的面部特征和眼部特征融合后的特征来预测表征目标样本对象的实际视线方向与初始视线方向之间的差异的信息，即视线残差信息。然后，再通过该表征差异的信息调整仅仅根据目标样本对象的面部特征预测的初始视线方向，即能够得到更接近目标样本对象的标注视线方向的视线方向。基于得到的视线方向和标注视线方向对神经网络的网络参数值进行调整，即可以得到准确度较高神经网络。基于该准确度较高的神经网络即可以对目标对象的视线方向进行准确预测。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一技术构思，本公开实施例中还提供了与上述视线方向确定方法对应的视线方向确定装置，由于本公开实施例中的视线方向确定装置解决问题的原理与本公开实施例上述视线方向确定方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图10所示，为本公开实施例提供的一种视线方向确定装置1000的示意图，该视线方向确定装置1000包括：图像获取模块1001、特征提取模块1002、视线预测模块1003、视线修正模块1004。

其中，图像获取模块1001，用于获取目标对象的面部图像和眼部图像。

特征提取模块1002，用于在面部图像中提取目标对象的面部特征，以及用于根据目标对象的面部特征和眼部特征确定目标对象的眼部特征。

视线预测模块1003，用于基于面部特征预测目标对象的初始视线方向，以及，基于由面部特征和眼部特征融合后的融合特征，预测得到视线残差信息。

视线修正模块1004，用于基于视线残差信息对初始视线方向进行修正，得到目标对象的视线方向。

在一种可能的实施方式中，眼部图像包括左眼图像和右眼图像，特征提取模块1002在用于根据目标对象的面部特征和眼部特征确定目标对象的眼部特征时，执行以下操作：在左眼图像中提取左眼特征；在右眼图像中提取右眼特征；根据面部特征、左眼特征和右眼特征，确定左眼特征对应的第一权重和右眼特征对应的第二权重；基于第一权重以及第二权重，对左眼特征和右眼特征进行加权求和，得到眼部特征。

在一种可能的实施方式中，特征提取模块1002在用于根据面部特征、左眼特征和右眼特征，确定左眼特征对应的第一权重和右眼特征对应的第二权重时，执行以下操作：根据面部特征和左眼特征确定左眼特征的第一分值，以及，根据面部特征和右眼特征确定右眼特征的第二分值；基于第一分值和第二分值，确定第一权重和第二权重。

在一种可能的实施方式中，视线预测模块1003在用于基于面部特征预测目标对象的初始视线方向时，执行以下操作：确定面部特征中各个特征点的权重，并基于面部特征中各个特征点的权重，对面部特征进行调整；根据调整后的面部特征确定目标对象的初始视线方向。

在一种可能的实施方式中，视线预测模块1003用于按照以下方式，基于面部特征和眼部特征，确定融合后的特征：根据调整后的面部特征、眼部特征、以及调整后的面部特征中各个特征点的权重确定中间特征；基于中间特征、调整后的面部特征，以及中间特征和调整后的面部特征分别对应的权重，对中间特征和调整后的面部特征进行加权求和，得到融合特征。

在一种可能的实施方式中，视线预测模块1003根据以下方式确定调整后的面部特征中各个特征点的权重：根据眼部特征和调整后的面部特征确定调整后的面部特征中各个特征点的权重。

在一种可能的实施方式中，视线预测模块1003按照以下方式确定中间特征和调整后的面部特征分别对应的权重：根据眼部特征和调整后的面部特征确定中间特征和调整后的面部特征分别对应的权重。

在一种可能的实施方式中，视线方向确定装置1000还包括神经网络训练模块1005，神经网络训练模块1005用于：训练用于确定目标对象的视线方向的神经网络，神经网络利用了包含目标样本对象的标注视线方向的样本图像训练得到。

在一种可能的实施方式中，神经网络训练模块1005按照以下方式训练神经网络：获取样本图像中的目标样本对象的面部样本图像和眼部样本图像；在面部样本图像中提取目标样本对象的面部特征；根据目标样本对象的面部特征和眼部样本图像确定目标样本对象的眼部特征；基于目标样本对象的面部特征预测目标样本对象的初始视线方向，以及，基于由目标样本对象的面部特征和目标样本对象的眼部特征融合后的融合特征，预测得到目标样本对象的视线残差信息；基于目标样本对象的视线残差信息对目标样本对象的初始视线方向进行修正，得到目标样本对象的视线方向；基于得到的目标样本对象的视线方向和目标样本对象的标注视线方向，对神经网络的网络参数值进行调整。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于图1中的视线方向确定方法，本公开实施例还提供了一种电子设备，如图11所示，为本公开实施例提供的电子设备1100的结构示意图，包括：处理器1101、存储介质1102和总线1103；存储介质1102用于存储执行指令，包括内存11021和外部存储器11022；这里的内存11021也称内存储器，用于暂时存放处理器1101的运算数据，以及与硬盘等外部存储器11022交换的数据，处理器1101通过内存11021与外部存储器11022进行数据交换，当电子设备1100运行时，处理器1101与存储器1102之间通过总线1103通信，机器可读指令被处理器1101执行时执行如下处理：

获取目标对象的面部图像和眼部图像；在面部图像中提取目标对象的面部特征；根据目标对象的面部特征和眼部图像确定目标对象的眼部特征；基于面部特征预测目标对象的初始视线方向，以及，基于由面部特征和眼部特征融合后的融合特征，预测得到视线残差信息；基于视线残差信息对初始视线方向进行修正，得到目标对象的视线方向。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述视线方向确定方法实施例中所述的视线方向确定方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的视线方向确定方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的视线方向确定方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

一种视线方向确定方法，其特征在于，包括：

获取目标对象的面部图像和眼部图像；

在所述面部图像中提取所述目标对象的面部特征；

根据所述目标对象的面部特征和所述眼部图像确定所述目标对象的眼部特征；

基于所述面部特征预测所述目标对象的初始视线方向，以及，基于由所述面部特征和所述眼部特征融合后的融合特征，预测得到视线残差信息；

基于所述视线残差信息对所述初始视线方向进行修正，得到所述目标对象的视线方向。
根据权利要求1所述的视线方向确定方法，其特征在于，所述眼部图像包括左眼图像和右眼图像，所述根据所述目标对象的面部特征和所述眼部图像确定所述目标对象的眼部特征，包括：

在所述左眼图像中提取左眼特征；

在所述右眼图像中提取右眼特征；

根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重；

基于所述第一权重以及所述第二权重，对所述左眼特征和所述右眼特征进行加权求和，得到所述眼部特征。
根据权利要求2所述的视线方向确定方法，其特征在于，所述根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重，包括：

根据所述面部特征和所述左眼特征确定所述左眼特征的第一分值，以及，根据所述面部特征和所述右眼特征确定所述右眼特征的第二分值；

基于所述第一分值和第二分值，确定所述第一权重和第二权重。
根据权利要求1至3任一所述的视线方向确定方法，其特征在于，所述基于所述面部特征预测所述目标对象的初始视线方向，包括：

确定所述面部特征中各个特征点的权重，并基于所述面部特征中各个特征点的权重，对所述面部特征进行调整；

根据调整后的面部特征确定所述目标对象的初始视线方向。
根据权利要求4所述的视线方向确定方法，其特征在于，按照以下方式基于所述面部特征和所述眼部特征，确定所述融合特征：

根据所述调整后的面部特征、所述眼部特征、以及所述调整后的面部特征中各个特征点的权重确定中间特征；

基于所述中间特征、所述调整后的面部特征，以及所述中间特征和所述调整后的面部特征分别对应的权重，对所述中间特征和所述调整后的面部特征进行加权求和，得到所述融合特征。
根据权利要求5所述的视线方向确定方法，其特征在于，按照以下方式确定所述调整后的面部特征中各个特征点的权重：

根据所述眼部特征和所述调整后的面部特征确定所述调整后的面部特征中各个特征点的权重。
根据权利要求5所述的视线方向确定方法，其特征在于，按照以下方式确定所述中间特征和所述调整后的面部特征分别对应的权重：

根据所述眼部特征和所述调整后的面部特征确定所述中间特征和所述调整后的面部特征分别对应的权重。
根据权利要求1至7任一所述的视线方向确定方法，其特征在于，

所述视线方向确定方法由神经网络实现，所述神经网络利用包含了目标样本对象的标注视线方向的样本图像训练得到。
根据权利要求8所述的方法，其特征在于，所述神经网络采用以下方式训练得到：

获取样本图像中的目标样本对象的面部样本图像和眼部样本图像；

在所述面部样本图像中提取所述目标样本对象的面部特征；

根据所述目标样本对象的面部特征和所述眼部样本图像确定所述目标样本对象的眼部特征；

基于所述目标样本对象的面部特征预测所述目标样本对象的初始视线方向，以及，基于由所述目标样本对象的面部特征和所述目标样本对象的眼部特征融合后的融合特征，预测得到所述目标样本对象的视线残差信息；

基于所述目标样本对象的视线残差信息对所述目标样本对象的初始视线方向进行修正，得到所述目标样本对象的视线方向；

基于得到的所述目标样本对象的视线方向和所述目标样本对象的标注视线方向，对所述神经网络的网络参数值进行调整。
一种视线方向确定装置，其特征在于，包括：

图像获取模块，用于获取目标对象的面部图像和眼部图像；

特征提取模块，用于在所述面部图像中提取所述目标对象的面部特征；以及用于根据所述目标对象的面部特征和所述眼部特征确定所述目标对象的眼部特征；

视线预测模块，用于基于所述面部特征预测所述目标对象的初始视线方向，以及，基于由所述面部特征和所述眼部特征融合后的融合特征，预测得到视线残差信息；

视线修正模块，用于基于所述视线残差信息对所述初始视线方向进行修正，得到所述目标对象的视线方向。
根据权利要求10所述的视线方向确定装置，其特征在于，所述眼部图像包括左眼图像和右眼图像，所述特征提取模块在用于根据所述目标对象的面部特征和所述眼部特征确定所述目标对象的眼部特征时，执行以下操作：

在所述左眼图像中提取左眼特征；

在所述右眼图像中提取右眼特征；

根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重；

基于所述第一权重以及所述第二权重，对所述左眼特征和所述右眼特征进行加权求和，得到所述眼部特征。
根据权利要求11所述的视线方向确定装置，其特征在于，所述特征提取模块在用于根据所述面部特征、所述左眼特征和所述右眼特征，确定所述左眼特征对应的第一权重和所述右眼特征对应的第二权重时，执行以下操作：

根据所述面部特征和所述左眼特征确定所述左眼特征的第一分值，以及，根据所述面部特征和所述右眼特征确定所述右眼特征的第二分值；

基于所述第一分值和第二分值，确定所述第一权重和第二权重。
根据权利要求10至12任一所述的视线方向确定装置，其特征在于，所述视线预测模块在用于基于所述面部特征预测所述目标对象的初始视线方向时，执行以下操作：

确定所述面部特征中各个特征点的权重，并基于所述面部特征中各个特征点的权重，对所述面部特征进行调整；

根据调整后的面部特征确定所述目标对象的初始视线方向。
根据权利要求13所述的视线方向确定装置，其特征在于，所述视线预测模块按照以下方式基于所述面部特征和所述眼部特征，确定所述融合特征：

根据所述调整后的面部特征、所述眼部特征、以及所述调整后的面部特征中各个特征点的权重确定中间特征；

基于所述中间特征、所述调整后的面部特征，以及所述中间特征和所述调整后的面部特征分别对应的权重，对所述中间特征和所述调整后的面部特征进行加权求和，得到所述融合特征。
根据权利要求14所述的视线方向确定装置，其特征在于，所述视线预测模块根据以下方式确定所述调整后的面部特征中各个特征点的权重：

根据所述眼部特征和所述调整后的面部特征确定所述调整后的面部特征中各个特征点的权重。
根据权利要求14所述的视线方向确定装置，其特征在于，所述视线预测模块按照以下方式确定所述中间特征和所述调整后的面部特征分别对应的权重：

根据所述眼部特征和所述调整后的面部特征确定所述中间特征和所述调整后的面部特征分别对应的权重。
根据权利要求10至16任一所述的视线方向确定装置，其特征在于，所述视线方向确定装置还包括神经网络训练模块，所述神经网络训练模块用于：

训练用于确定所述目标对象的视线方向的神经网络，所述神经网络利用了包含目标样本对象的标注视线方向的样本图像训练得到。
根据权利要求17所述的视线方向确定装置，其特征在于，所述神经网络训练模块按照以下方式训练所述神经网络：

获取样本图像中的目标样本对象的面部样本图像和眼部样本图像；

在所述面部样本图像中提取所述目标样本对象的面部特征；

根据所述目标样本对象的面部特征和所述眼部样本图像确定所述目标样本对象的眼部特征；

基于所述目标样本对象的面部特征预测所述目标样本对象的初始视线方向，以及，基于由所述目标样本对象的面部特征和所述目标样本对象的眼部特征融合后的融合特征，预测得到所述目标样本对象的视线残差信息；

基于所述目标样本对象的视线残差信息对所述目标样本对象的初始视线方向进行修正，得到所述目标样本对象的视线方向；

基于得到的所述目标样本对象的视线方向和所述目标样本对象的标注视线方向，对所述神经网络的网络参数值进行调整。
一种电子设备，其特征在于，包括：处理器、非暂时性存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，所述处理器与所述存储介质之间通过总线通信，所述机器可读指令促使所述处理器执行如权利要求1至9任一所述的视线方向确定方法。
一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序促使处理器执行如权利要求1至9任一所述的视线方向确定方法。