WO2021169637A1

WO2021169637A1 - 图像识别方法、装置、计算机设备及存储介质

Info

Publication number: WO2021169637A1
Application number: PCT/CN2021/071172
Authority: WO
Inventors: 胡艺飞; 徐国强
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-02-28
Filing date: 2021-01-12
Publication date: 2021-09-02
Also published as: CN111310705A

Abstract

一种图像识别方法、装置、计算机设备及存储介质，属于人脸识别领域。通过对获取的待检测图像进行人脸检测，得到人脸图像及人脸图像的定位数据（S2），根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像（S3），减低了计算量，采用人眼视线预测神经网络模型对待预测图像进行识别，从而确定人眼视线方向（S4），识别速度快，耗时短，采用的人眼视线预测神经网络模型占用内存空间低，运算速度快。

Description

图像识别方法、装置、计算机设备及存储介质

本申请要求于2020年2月28日提交中国专利局、申请号为202010127177.3，发明名称为“图像识别方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人脸识别领域，尤其涉及一种图像识别方法、装置、计算机设备及存储介质。

背景技术

情感分析伴随着网络社会媒体(如评论、论坛、博客和微博)的兴起而快速发展，通过对人的情感分析可以分析出其表达的观点、情感、评价、态度、情绪及倾向等。由于人在发生心理变化时，会引起一些生理参数(如：皮肤电、心跳、血压、呼吸脑电波、声音及视线等)的变化，因此，可通过检测这些变化来评估被分析者的情感变化。考虑到情感分析通常在非接触、便于采集及处理的场景下进行，因此随着人脸识别技术的不断发展采用图像识别技术对被评估者的情绪变化进行分析的技术越来越被大众所青睐。

发明人发现，现有的图像识别系统主要分为两类，一类是利用红外摄像头采集图像进行图像识别，例如：外星人电脑(alienware)的眼动追踪系统(Tobi Eye Tracking)；另一类是利用单目摄像头采集图像进行图像识别。关于采用红外摄像头采集图像进行图像识别的类技术其存在的缺陷主要有：设备配备成本昂贵，同时需要对每个使用人进行事先定标，这样没法用在银行网点等对非特定用户进行眼神分析的场景。对于利用单目摄像头采集图像进行图像识别方法为：检测人脸，估计人体头部转动角度，对人脸进行68个关键点识别从而得到眼睛部位图片，进行眼神方向识别。但是，发明人意识到，上述方法存在的缺陷是：图像识别模型构建过程复杂，在使用模型时，计算资源及耗时过高。对一张图片的眼神识别需要利用4个模型，模型所占存储空间大，手机端部署难度大；采用人脸关键点识别模型进行的很多计算都是与眼神判断无关的，且现有的方法计算过程耗时长，无法做到实时分析。

综上所述，现有的图像识别方法成本高、效率低、占用存储空间大，应用场景受限。

发明内容

针对现有图像识别方法效率低、占用存储空间大的问题，现提供一种旨在可提高识别效率，占用存储空间小的图像识别方法、装置、计算机设备及存储介质。

本申请提供了一种图像识别方法，包括：

获取待检测图像；

对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。

本申请还提供了一种图像识别装置，包括：

接收单元，用于获取待检测图像；

检测单元，用于对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

校正单元，用于基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

识别单元，用于采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。

本申请还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述图像识别方法，该图像识别方法包括以下步骤：

获取待检测图像；

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像识别方法，该图像识别方法包括以下步骤：

获取待检测图像；

本申请根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像，减低了计算量，采用人眼视线预测神经网络模型对待预测图像进行识别，从而确定人眼视线方向，识别速度快，耗时短，采用的人眼视线预测神经网络模型占用内存空间低，运算速度快。

附图说明

图1为本申请所述的图像识别方法的一种是实施例的流程图；

图2为本申请采用人眼视线预测神经网络模型对所述待预测图像进行识别的一种是实施例的流程图；

图3为本申请所述的图像识别装置的一种实施例的模块图；

图4为本申请计算机设备的一个实施例的硬件架构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请的技术方案可应用于人工智能、智慧城市、区块链和/或大数据技术领域，以实现智能化图像识别。可选的，本申请涉及的数据如待检测图像、定位数据和/或待预测图像等可存储于数据库中，或者可以存储于区块链中，比如通过区块链分布式存储，本申请不做限定。

本申请提供的图像识别方法、装置、计算机设备及存储介质可应用于银行、保险等业务领域。本申请通过对获取的待检测图像进行人脸检测，得到人脸图像及人脸图像的定位数据，根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像，减低了计算量，采用人眼视线预测神经网络模型对待预测图像进行识别，从而确定人眼视线方向，识别速度快，耗时短，采用的人眼视线预测神经网络模型占用内存空间低，运算速度快。

实施例一

请参阅图1，本实施例的一种图像识别方法，包括下述步骤：

S1.获取待检测图像；

在本实施例中，多于采集图像的设备没有严格的要求，可采用单目摄像头采集待检测图像，对采集设备的要求低，可有效的降低设备成本。

S2.对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

其中，所述定位数据可包括：两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。

在本实施例中的定位数据包括5个关键点坐标，分别为两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标，相比于现有技术需通过获取68个关键点进行视线预测而言，大大降低了计算量，提高了计算处理速度。图像识别方法可广泛应用于多种应用场景中，例如：银行网点、移动终端(如：手机端)、广告牌等场景中。需要说明的是，本实施例的人脸检测网络可一次检测多张人脸，并同时得到每一个人脸图像及相应的定位数据。

进一步地，步骤S2对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据包括：

采用多任务卷积神经网络(Multi-task Cascaded Convolutional Networks，简称MTCNN)对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据。

多任务卷积神经网络是利用三层级联架构结合卷积神经网络算法对人脸进行检测和关键点(两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标)的定位。多任务卷积神经网络包括三个部分：神经网络P-Net(Proposal Network)、R-Net(Refine Network)和O-Net(Output Network)，采用全卷积神经网络P-Net对待检测图像进行识别获得第一候选窗体(在待检测图像中标识人脸位置的窗体)和边界回归向量，依据边界回归向量计算每一个第一候选窗体的偏移量，从而确定边界窗口，依据边界窗口对第一候选窗体进行校准，利用非极大值抑制(Non-Maximum Suppression，简称NMS)去除重叠窗体，获取第二候选窗体；由于神经网络P-Net的检测比较粗略，因此采用神经网络R-Net对获取第二候选窗体进一步优化，神经网络R-Net和神经网络P-Net类似，将第二候选窗体输入神经网络R-Net进行识别，过滤虚假窗体以实现对人脸区域的进一步定位，生成第三候选窗体；采用比R-Net多一层卷积的神经网络O-Net对第三候选窗体进行监督，去除重叠窗口，从而确认脸部区域，同时可基于确认的脸部区域定位五个面部关键点的位置坐标。

S3.基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

在本实施例中，为了方便后续(步骤S4)对待预测图像进行视线识别，因此需要将人脸图像转换为便于识别的头部摆正(如：眼睛正视前方)的待预测图像，以提高视线识别的准确度。

进一步地，步骤S3基于所述定位数据对所述人脸图像进行校正，获取待预测图像包括：

将所述定位数据与所述标准坐标数据进行比对，根据比对结果对所述人脸图像进行相似变换，生成待预测图像。

需要说明的是，标准坐标数据为预先存储的5个关键点标准坐标。5个关键点标准坐标包括：两个眼部椭圆形中心点标注坐标、鼻头标注坐标和嘴角两端的标注坐标。

在实施例中，将定位数据与标准坐标数据进行比对获取关系变化量，基于关系变化量对人脸图像进行旋转、平移、缩放等相似变换，将人脸图像转换为待预测图像，以使待预测图像达到视线识别的要求。相比现有的校正方法需要采用深度神经网络模型计算头部转动角度，在本实施例中采用的校正方法有效的减少了计算量，而且无需用训练头部转动角度估计的模型，大大的降低了计算成本。

S4.采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。

需要说明的是，所述人眼视线预测神经网络模型包括：可分离卷积模块、注意力机制模块和分类模块；

如图2所示，进一步地，步骤S4所述采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向可包括：

S41.通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取；

在本步骤中，采用可分离卷积和代替标准卷积神经网络的卷积核大大减小了计算量，降低计算的复杂度。以输入的待预测图像为d×c×m，输出的第一面部特征是d×c×n，卷积层为k×k为例：

标准的卷积核计算量为d×d×m×n×k×k；

可分离卷积核的计算量为d×d×m×(n+k×k)；

其中，d表示待预测图像的宽，c表示待预测图像的高，m和n均为通道数，k表示卷积层的尺寸；

由此可见，可分离卷积减少模型的参数量和卷积过程的计算量。

在步骤S41中，可将可分离卷积模块与正向残差模块结合对待预测图像进行第一面部特征提取。

利用正向残差模块将可分离卷积模块获得的特征和初始特征在相同位置进行相加。使网络学习到高阶特征的同时，不会遗忘有用的低阶特征。

在步骤S41中，可将可分离卷积模块与反向残差模块结合对待预测图像进行第一面部特征提取。

通过可分离卷积模块的深度卷积(depthwise convolution)对待预测图像的每个输入通道利用单个卷积核进行卷积获取第一特征图；再采用逐点卷积(pointwise convolution)通过1×1卷积将上一步的第一特征图在深度方向进行加权组合，获得更多特征。将反向残差模块与可分离卷积模块结合，在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合，以保证提取更有效的第二特征图，将所有的第二特征图进行拼接获取第一面部特征。在本实施例中通过反残差模块在使神经网络学习到高阶特征的同时，不会遗忘有用的低阶特征，同时相比正向的残差模块参数量更少、计算速度更快，极大的减少内存占用空间。

S42.通过所述注意力机制模块对所述第一面部特征的权重进行调整，获取增强眼部特征权重的特征权重；

在本步骤中，注意力机制模块采用自注意力机制。其中，自注意力机制是一种在计算同一序列表示时，权重和序列的位置相关机制，被证明在机器阅读理解，抽象概要和图片描述生成中非常有效。

在本实施例中，可包括多个注意力机制模块，注意力机制模块与可分离卷积模块的卷积层对应，注意力机制模块位于相应的卷积层后面，通过注意力机制模块提取眼部周围的卷积特征，每一注意力机制模块的输出作为下一个注意力机制模块的输入，最后一个注意力机制模块提纯后的卷积特征作为特征权重(即：增强眼部特征权重的特征权重)。通过注意力机制调节权重的方式在第一面部特征的基础上增强对眼部周围特征的提取，进而根据眼球特征及眼部肌肉的特征生成眼部特征，获取可增强眼部特征的特征权重。

S43.将所述第一面部特征和所述特征权重结合生成第二面部特征，通过所述分类模块对所述第二面部特征进行处理，获取人眼视线方向。

在本步骤中，分类模块采用全连接层。将第一面部特征和特征权重相乘生成第二面部特征，将第二面部特征输入全连接层，全连接层通过权值矩阵将第二面部特征进行整合，基于整合后的神经元计算偏移概率信息,每一偏移概率信息对应的视线上下偏移量和左右的偏移量，根据上下偏移量和左右的偏移量获取人眼视线方向。

在步骤S4中，人眼视线预测神经网络模型的输入待预测图像是整张人脸，相对于现有技术主要有两个优势：一是对于预测的准确性上，人眼周围的肌肉变化能辅助进行眼神方向判断，而现有方法只是输入眼睛图片，无法利用周围的信息；二是现有方法为了得到眼睛图片，需要构建68个人脸关键点的检测模型，得到眼框的坐标，计算量大，且成本高，采用本技术方案计算量小，占用的存储空间低且成本低。

在本实施例中，图像识别方法通过对获取的待检测图像进行人脸检测，得到人脸图像及人脸图像的定位数据，根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像，减低了计算量，采用人眼视线预测神经网络模型对待预测图像进行识别，从而确定人眼视线方向，识别速度快，耗时短，采用的人眼视线预测神经网络模型占用内存空间低，运算速度快。

在实际应用中，图像识别方法相较于采用红外摄像头的人眼识别系统，只需要一个单目摄像头即可完成图像采集，减低了设备成本；同时，不需要对人为参与进行定标，可以广泛的利用在各种场景，如银行网点，个人手机等。图像识别方法相较于其他使用单目摄像头的人眼识别系统而言，只需要两个模型，而且人眼视线预测神经网络模型比现有的人眼识别模型参数量更少，极大加快了一次眼神识别的计算，在英伟达1080型号GPU上能做到实时分析；眼神预测神经网络模型的模型占用内存空间在8MB以内，而现有的人眼识别模型的空间内存通常在100MB以上。

本实施例中的图像识别方法可应用于情绪分析，如：紧张或撒谎时眼神飘忽，可用于反欺诈判断的一个特征；还可用于对广告牌等客户感兴趣区域分析；还可应用在小游戏中，进行人眼识别或游戏互动等。

实施例二

如图3所示，本申请还提供了一种图像识别装置1，包括：接收单元11、检测单元12、校正单元13和识别单元14，其中：

接收单元11，用于获取待检测图像；

检测单元12，用于对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

具体地，检测单元12可采用多任务卷积神经网络(Multi-task Cascaded Convolutional Networks，简称MTCNN)对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据。

校正单元13，用于基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

在本实施例中，为了方便后续对待预测图像进行视线识别，因此需要将人脸图像转换为便于识别的头部摆正(如：眼睛正视前方)的待预测图像，以提高视线识别的准确度。

校正单元13将所述定位数据与所述标准坐标数据进行比对，根据比对结果对所述人脸图像进行相似变换，生成待预测图像。

识别单元14，用于采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。

识别单元14通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取；可将可分离卷积模块与正向残差模块结合对待预测图像进行第一面部特征提取。利用正向残差模块将可分离卷积模块获得的特征和初始特征在相同位置进行相加。使网络学习到高阶特征的同时，不会遗忘有用的低阶特征。

可将可分离卷积模块与反向残差模块结合对待预测图像进行第一面部特征提取。通过可分离卷积模块的深度卷积(depthwise convolution)对待预测图像的每个输入通道利用单个卷积核进行卷积获取第一特征图；再采用逐点卷积(pointwise convolution)通过1×1卷积将上一步的第一特征图在深度方向进行加权组合，获得更多特征。将反向残差模块与可分离卷积模块结合，在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合，以保证提取更有效的第二特征图，将所有的第二特征图进行拼接获取第一面部特征。在本实施例中通过反残差模块在使神经网络学习到高阶特征的同时，不会遗忘有用的低阶特征，同时相比正向的残差模块参数量更少、计算速度更快，极大的减少内存占用空间。

识别单元14通过所述注意力机制模块对所述第一面部特征的权重进行调整，获取增强眼部特征权重的特征权重；注意力机制模块采用自注意力机制。其中，自注意力机制是一种在计算同一序列表示时，权重和序列的位置相关机制，被证明在机器阅读理解，抽象概要和图片描述生成中非常有效。

识别单元14将所述第一面部特征和所述特征权重结合生成第二面部特征，通过所述分类模块对所述第二面部特征进行处理，获取人眼视线方向。

分类模块采用全连接层。将第一面部特征和特征权重相乘生成第二面部特征，将第二面部特征输入全连接层，全连接层通过权值矩阵将第二面部特征进行整合，基于整合后的神经元计算偏移概率信息,每一偏移概率信息对应的视线上下偏移量和左右的偏移量，根据上下偏移量和左右的偏移量获取人眼视线方向。

人眼视线预测神经网络模型的输入待预测图像是整张人脸，相对于现有技术主要有两个优势：一是对于预测的准确性上，人眼周围的肌肉变化能辅助进行眼神方向判断，而现有方法只是输入眼睛图片，无法利用周围的信息；二是现有方法为了得到眼睛图片，需要构建68个人脸关键点的检测模型，得到眼框的坐标，计算量大，且成本高，采用本技术方案计算量小，占用的存储空间低且成本低。

在本实施例中，图像识别装置1通过对获取的待检测图像进行人脸检测，得到人脸图像及人脸图像的定位数据，根据定位数据对人脸图像进行校正以获取用于图像识别的待预测图像，减低了计算量，采用人眼视线预测神经网络模型对待预测图像进行识别，从而确定人眼视线方向，识别速度快，耗时短，采用的人眼视线预测神经网络模型占用内存空间低，运算速度快。

本实施例中的图像识别装置1可应用于情绪分析，如：紧张或撒谎时眼神飘忽，可用于反欺诈判断的一个特征；还可用于对广告牌等客户感兴趣区域分析；还可应用在小游戏中，进行人眼识别或游戏互动等。

实施例三

为实现上述目的，本申请还提供一种计算机设备2，该计算机设备2包括多个计算机设备2，实施例二的图像识别装置1的组成部分可分散于不同的计算机设备2中，计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于：存储器和处理器。可选的，该计算机设备2还可包括网络接口和/或图像识别装置。例如，该计算机设备2可包括存储器21、处理器23、网络接口22以及图像识别装置1，如可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及图像识别装置1(参考图4)。需要指出的是，图4仅示出了具有组件-的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例一的图像识别方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的图像识别装置1等。

所述网络接口22可包括无线网络接口或有线网络接口，该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如，所述网络接口22用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图4仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述图像识别装置1还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器23)所执行，以完成本申请。

实施例四

为实现上述目的，本申请还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储图像识别装置1，被处理器23执行时实现实施例一的图像识别方法。

可选的，本申请涉及的存储介质如计算机可读存储介质可以是非易失性的，也可以是易失性的。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种图像识别方法，其中，包括：

获取待检测图像；

对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。
根据权利要求1所述的图像识别方法，其中，所述对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据包括：

采用多任务卷积神经网络对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据。
根据权利要求1或2所述的图像识别方法，其中，所述定位数据包括：两个眼部椭圆形中心点坐标、鼻头坐标和嘴角两端的坐标。
根据权利要求1所述的图像识别方法，其中，所述基于所述定位数据对所述人脸图像进行校正，获取待预测图像包括：

将所述定位数据与标准坐标数据进行比对，根据比对结果对所述人脸图像进行相似变换，生成待预测图像。
根据权利要求1所述的图像识别方法，其中，所述人眼视线预测神经网络模型包括：可分离卷积模块、注意力机制模块和分类模块；

所述采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向包括：

通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取；

通过所述注意力机制模块对所述第一面部特征的权重进行调整，获取增强眼部特征权重的特征权重；

将所述第一面部特征和所述特征权重结合生成第二面部特征，通过所述分类模块对所述第二面部特征进行处理，获取人眼视线方向。
根据权利要求5所述的图像识别方法，其中，所述可分离卷积模块与正向残差模块结合对待预测图像进行所述第一面部特征提取；采用所述正向残差模块将所述可分离卷积模块获得的特征和初始特征在相同位置进行相加，以获取所述第一面部特征提取。
根据权利要求5所述的图像识别方法，其中，所述可分离卷积模块与反向残差模块结合对待预测图像进行所述第一面部特征提取；将所述反向残差模块与所述可分离卷积模块结合，在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合，以获取第一面部特征提取。
一种图像识别装置，其中，包括：

接收单元，用于获取待检测图像；

检测单元，用于对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

校正单元，用于基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

识别单元，用于采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。
一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中：所述处理器执行所述计算机程序时实现图像识别方法，所述图像识别方法包括以下步骤：

获取待检测图像；

对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。
根据权利要求9所述的计算机设备，其中，执行所述对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据，包括：

采用多任务卷积神经网络对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据。
根据权利要求9所述的计算机设备，其中，执行所述基于所述定位数据对所述人脸图像进行校正，获取待预测图像，包括：

将所述定位数据与标准坐标数据进行比对，根据比对结果对所述人脸图像进行相似变换，生成待预测图像。
根据权利要求9所述的计算机设备，其中，所述人眼视线预测神经网络模型包括：可分离卷积模块、注意力机制模块和分类模块；

执行所述采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向，包括：

通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取；

通过所述注意力机制模块对所述第一面部特征的权重进行调整，获取增强眼部特征权重的特征权重；

将所述第一面部特征和所述特征权重结合生成第二面部特征，通过所述分类模块对所述第二面部特征进行处理，获取人眼视线方向。
根据权利要求12所述的计算机设备，其中，执行所述通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取，包括：

通过所述可分离卷积模块与正向残差模块结合对待预测图像进行所述第一面部特征提取；包括采用所述正向残差模块将所述可分离卷积模块获得的特征和初始特征在相同位置进行相加，以获取所述第一面部特征。
根据权利要求12所述的计算机设备，其中，执行所述通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取，包括：

通过所述可分离卷积模块与反向残差模块结合对待预测图像进行所述第一面部特征提取；包括将所述反向残差模块与所述可分离卷积模块结合，在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合，以获取第一面部特征。
一种计算机可读存储介质，其上存储有计算机程序，其中：所述计算机程序被处理器执行时实现图像识别方法，所述图像识别方法包括以下步骤：

获取待检测图像；

对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据；

基于所述定位数据对所述人脸图像进行校正，获取待预测图像；

采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向。
根据权利要求15所述的计算机可读存储介质，其中，执行所述对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据，包括：

采用多任务卷积神经网络对所述待检测图像进行人脸检测，获取人脸图像及所述人脸图像的定位数据。
根据权利要求15所述的计算机可读存储介质，其中，执行所述基于所述定位数据对所述人脸图像进行校正，获取待预测图像，包括：

将所述定位数据与标准坐标数据进行比对，根据比对结果对所述人脸图像进行相似变换，生成待预测图像。
根据权利要求15所述的计算机可读存储介质，其中，所述人眼视线预测神经网络模型包括：可分离卷积模块、注意力机制模块和分类模块；

执行所述采用人眼视线预测神经网络模型对所述待预测图像进行识别，确定人眼视线方向，包括：

通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取；

通过所述注意力机制模块对所述第一面部特征的权重进行调整，获取增强眼部特征权重的特征权重；

将所述第一面部特征和所述特征权重结合生成第二面部特征，通过所述分类模块对所述第二面部特征进行处理，获取人眼视线方向。
根据权利要求18所述的计算机可读存储介质，其中，执行所述通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取，包括：

通过所述可分离卷积模块与正向残差模块结合对待预测图像进行所述第一面部特征提取；包括采用所述正向残差模块将所述可分离卷积模块获得的特征和初始特征在相同位置进行相加，以获取所述第一面部特征。
根据权利要求18所述的计算机可读存储介质，其中，执行所述通过所述可分离卷积模块对所述待预测图像进行第一面部特征提取，包括：

通过所述可分离卷积模块与反向残差模块结合对待预测图像进行所述第一面部特征提取；包括将所述反向残差模块与所述可分离卷积模块结合，在每两个逐点卷积通道之间加入1×1的跨通道卷积进行通道间信息融合，以获取第一面部特征。