WO2021249187A1

WO2021249187A1 - 视线追踪方法、视线追踪装置、计算设备和介质

Info

Publication number: WO2021249187A1
Application number: PCT/CN2021/096007
Authority: WO
Inventors: 薛亚冲; 张�浩; 陈丽莉; 孙建康; 李纲; 吕耀宇
Original assignee: 京东方科技集团股份有限公司; 北京京东方光电科技有限公司
Priority date: 2020-06-09
Filing date: 2021-05-26
Publication date: 2021-12-16
Also published as: CN111638799B; CN111638799A

Abstract

本申请描述了一种视线追踪方法、视线追踪装置、计算设备和介质，所述视线追踪方法包括：获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像；根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

Description

视线追踪方法、视线追踪装置、计算设备和介质

相关申请的交叉引用

本申请要求2020年6月9日提交的中国专利申请No.202010517378.4的权益，其全部公开内容通过引用合并于此。

技术领域

本公开涉及视线追踪技术领域，特别是涉及一种视线追踪方法、视线追踪装置、计算设备和介质。

背景技术

随着虚拟现实(Virtual Reality，VR)等人工智能技术的迅速发展，用户迫切需要一种方便、准确、鲁棒性好的交互系统，因此，非侵入式视线追踪技术成为了这一领域的研究热点。

目前，相关技术中，在视线追踪系统中普遍采用的是多项式映射模型，该模型主要采用高阶多项式表示瞳孔到屏幕注视点的映射关系。一般使用9个标定点进行标定，从而得出瞳孔到屏幕的映射关系，但是这种视线追踪方法存在较大的缺陷：第一，标定过程较为繁琐，每次使用前都需要用户进行标定，标定过程中需要用户依次注视屏幕上出现的标定点，每次需要注视1-2s并且标定时间较长，一般为15-25s；第二，标定过程容易出错，用户在标定过程中要求准确注视标定点，若有一个标定点出现错误注视，例如人眼没有很好的注视标定点中心，就会导致映射模型出错，从而导致注视点计算出现较大误差，需要进行重新标定。

发明内容

为了解决上述问题至少之一，本公开提供了一种视线追踪方法、视线追踪装置、计算设备和计算机可读存储介质。

根据本公开的第一方面，提供了一种视线追踪方法，包括：

获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像；

根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；

根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

可选地，所述获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标进一步包括：

控制图像采集器在光源提供的光下采集多张人眼图像；

分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标；

根据所述图像采集器预标定的内参矩阵和外参矩阵将所述各人眼图像中图像坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。

可选地，所述分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标，包括：

分别对所述多张人眼图像进行预处理；

分别对预处理后的多张人眼图像进行二值化处理；

针对二值化处理后得到的每个二值化图像，分别计算所述二值化图像的瞳孔区域的轮廓，以及根据轮廓的大小和形状剔除其中的非瞳孔轮廓，并基于剔除非瞳孔轮廓后的所述二值化图像确定二值化图像对应的人眼图像的图像坐标系下的瞳孔坐标，其中，所述图像坐标系的原点位于屏幕左上角。

可选地，所述分别对所述多张人眼图像进行预处理，包括：

将所述多张人眼图像转化为多张灰度图像；

对所述多张灰度图像进行滤波，以滤除所述灰度图像中的噪声。

可选地，所述分别对预处理后的多张人眼图像进行二值化处理，包括：

对所述预处理后的图像中的各像素进行二值化处理，以获得二值化图像；

将获得的二值化图像中瞳孔部分灰度值设置为零，并对二值化图像采取开运算以去除瞳孔中的白色空洞。

可选地，在获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标之前，所述视线追踪方法还包括：

分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。

可选地，所述分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵进一步包括：

根据外参标定板上设置的标定点的数量，将外参标定板相对于屏幕分别设置在位置数量的不同位置上，并获取各位置对应的位置图像，其中所述位置数量与所述标定点的数量相对应；

根据所述屏幕上世界坐标系下的标定点的坐标、以及对应的各所述位置图像中图像坐标系下的标定点的坐标获取所述图像采集器的外参矩阵。

可选地，所述根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标进一步包括：

根据所述世界坐标系下的多个瞳孔坐标和所述球心坐标获取视线方程，并根据所述视线方程获取用户的注视点在世界坐标系下的坐标；

将所述用户的注视点在世界坐标系下的坐标转换为屏幕上用户的注视点在图像坐标系下的坐标。

可选地，所述轨迹图像包括：

所述用户的眼睛按照所述屏幕的对角线进行扫视时获取的轨迹图像；

或者

所述用户的眼睛分别按照所述屏幕的第一方向和第二方向进行扫视时获取的轨迹图像，其中第一方向和第二方向垂直；

或者

所述用户的眼睛环绕所述屏幕进行扫视时获取的轨迹图像。

根据本公开的第二方面，提供了一种视线追踪装置，包括

瞳孔定位电路，被配置成获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像；

球心定位电路，被配置成根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；

注视点定位电路，被配置成根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

可选地，所述瞳孔定位电路包括图像采集器和光源，并且所述瞳孔定位电路被配置成：

控制图像采集器在光源提供的光下采集多张人眼图像；

可选地，瞳孔定位电路还包括标定电路，用于分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中，所述计算机可执行指令被处理器执行时执行如上所述的任一视线追踪方法。

根据本公开的第四方面，提供了一种计算设备，包括处理器和其存储有计算机可执行指令的存储器，其中，所述处理器执行所述计算机可执行指令时执行如上所述的任一视线追踪方法。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出根据本公开的一个实施例所述的视线追踪方法的流程图；

图2示出根据本公开的一个实施例所述的虚拟现实设备的结构示意图；

图3示出根据本公开的一个实施例所述的内参标定板的示意图；

图4示出根据本公开的一个实施例所述的外参标定板的示意图；

图5示出根据本公开的一个实施例所述的图像采集器的外参矩阵的标定示意图；

图6示出根据本公开的一个实施例所述的视线追踪的示意图；

图7示出根据本公开的一个实施例所述的坐标系转换的示意图；

图8示出根据本公开的一个实施例所述的视线追踪装置的结构示意图；

图9示出根据本公开的一个实施例所述的一种计算设备的结构示意图。

具体实施方式

为了更清楚地说明本公开，下面结合实施例和附图对本公开做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本公开的保护范围。

图1示出本公开的一个实施例所述的视线追踪方法的流程图。如图1所示，所述视线追踪方法包括：S10，获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定扫视轨迹扫视屏幕时获取的轨迹图像；S12，根据所述世界坐标系下的多个瞳孔坐标，判断是否能够确定球心坐标，若无法确定所述球心坐标则重新获取多张人眼图像，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；S14，根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

在本实施例中，通过使用在人眼扫视屏幕时获取的具有扫视轨迹的多张人眼图像确定各人眼图像的世界坐标系下的瞳孔坐标，然后根据所述瞳孔在眼球球面上运动的特点，通过所述世界坐标系下的多个瞳孔坐标确定其运动轨迹所在的球面的球心坐标，再根据所述世界坐标系下的多个瞳孔坐标和球心坐标确定出所述用户在所述屏幕上的注视点的图像坐标系下的坐标，从而实现对人眼的视线追踪。这里所述的瞳孔坐标也即是瞳孔的坐标。

在本实施例的视线追踪过程中，利用人眼扫视屏幕获取具有扫视轨迹的多个瞳孔坐标，进而简化了相关技术中使用多个(通常为9个)固定的标定点依次标定的步骤，有效避免采用多项式映射方法进行标定的繁琐流程，加快对用户的视线追踪，提高视线追踪的稳定性和计算精度，能够有效提升用户的使用体验，具有广泛的应用前景。

在一个具体的实施例中，如图2所示，虚拟现实设备100包括第一镜头11和第二镜头12。考虑到两眼视线一致，本实施例采用单目视线追踪进行说明，所述虚拟现实设备还包括设置在第一镜头11正下方的图像采集器13(例如，相机)和设置在第一镜头11周围的光源14。在这种情况下，视线追踪步骤如下所述。

在S10：获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像。作为示例，所述步骤S10可以具体包括如下步骤S100-S104。

S100：控制图像采集器在所述光源提供的光下采集多张人眼图像。

在本实施例中，所述图像采集器为相机，所述相机的中心轴线指向人眼区域的中心位置，使得所述相机在光源提供光的环境下采集人眼图像。考虑到在夜晚或黑暗环境中采集人眼图像的场景，所述光源可以为红外光源，所述相机可以为红外相机。为快速准确采集人眼图像，所述相机可以为高速红外相机，同时考虑到光源的功率和均匀补光的问题可以使用多个红外光源。具体的，本实施例使用的高速红外相机的分辨率为640*480，帧速为100fps，视场角(FOV)为60°，并且在所述第一镜头11的周围按照正六边形的顶点位置设置六个红外光源，各红外光源的波长为850nm。所述六个红外光源能够提供均匀的环境光以便于高速红外相机采集人眼图像，并且有利于将瞳孔从虹膜区域分割以获取清晰的瞳孔图像。

在一个可选的实施例中，所述轨迹图像为：用户的眼睛分别按照所述屏幕的第一方向和第二方向进行扫视时获取的轨迹图像，其中第一方向和第二方向垂直。具体的，例如可以提示用户在水平方向从左到右扫视屏幕，然后提示用户在竖直方向从上到下扫视屏幕以完成扫视屏幕的过程。即在该过程中，用户的眼睛的瞳孔从屏幕左端移动到右端，再从屏幕的上端移动到下端，高速红外相机在红外光源提供的红外光下采集N帧具有瞳孔运动轨迹的人眼图像以用于视线追踪。本实施例中用户扫视屏幕预计耗时2s，相比于相关技术中通过9个标定点进行标定所需的15-25s的时间，大幅降低了标定时间，有效提高视线追踪的和标定的效率，提升了用户体验。

在一个可选的实施例中，所述轨迹图像为用户的眼睛按照所述屏幕的对角线进行扫视时获取的轨迹图像。例如可以提示用户从屏幕的一角开始扫视至相对于屏幕中心的另一角以完成扫视屏幕的过程，例如从屏幕的左上角开始扫视至屏幕的右下角(对角)。即，通过用户的眼睛扫视屏幕的对角线获取具有扫视轨迹的多张人眼图像。图像采集器可以用户的眼睛扫视屏幕的过程中采集多张人眼图像用于视线追踪。

在一个可选的实施例中，所述轨迹图像为用户的眼睛环绕所述屏幕进行扫视时获取的轨迹图像。例如，可以提示用户从屏幕周边的一点开始，环绕屏幕扫视一周以完成扫视屏幕的过程。图像采集器在用户的眼睛扫视屏幕的过程中采集多张人眼图像用于视线追踪。

综上，本实施例中，可以在用户的眼睛的扫视过程中采集多张人眼图像，从而有效简化相关技术中依次使用9个标定点的标定步骤。

S102：分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标。

在本实施例中，通过多张人眼图像获取图像坐标系下的瞳孔坐标，具体可以包括：

首先，分别对所述多张人眼图像进行预处理。具体的，对所述多张人眼图像进行预处理可以包括：将人眼图像转化为灰度图像，然后对所述灰度图像进行滤波(例如，高斯滤波)，以滤除灰度图像中的噪声。

其次，分别对预处理后的多张人眼图像进行二值化处理。具体的，对滤波后的图像中的各像素进行二值化处理，以得到二值化图像；将获得的二值化图像中瞳孔部分灰度值设置为0，并对二值化图像采取开运算以去除瞳孔中的白色空洞。

最后，针对二值化处理后得到的每个二值化图像，分别计算所述二值化图像的瞳孔区域的轮廓，然后根据轮廓的大小和形状剔除其中的非瞳孔轮廓，并基于剔除非瞳孔轮廓后的所述二值化图像(例如，使用质心法)确定二值化图像对应的人眼图像的图像坐标系下的瞳孔坐标，其中，所述图像坐标系的原点位于屏幕左上角。

S104：根据所述图像采集器预标定的内参矩阵和外参矩阵将所述各人眼图像的图像坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。

在本实施例中，根据各图像中图像坐标系下的瞳孔坐标，利用高速红外相机预先标定的内参矩阵将图像坐标系下的瞳孔坐标转换为相机坐标系下的瞳孔坐标，然后再利用高速红外相机预先标定的外参矩阵将相机坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。

在本实施例中，所述图像采集器预标定的内参矩阵和外参矩阵可以是高速红外相机出厂前标定的，也可以在使用前进行标定，本申请对此不做限定。

考虑到高速红外相机未在出厂前标定或者没有该高速红外相机的内参矩阵和外参矩阵数据，在一个可选的实施例中，在所述S 10之前，所述视线追踪方法还可以包括：步骤S01：分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。

首先，获取图像采集器的内参矩阵。

作为示例，具体地，图像坐标系和相机坐标系的转换关系为：

其中，(u，v)为图像坐标系下的坐标，M为相机内参矩阵，

为相机坐标系下的坐标。

图3示出根据本公开的一个实施例所述的内参标定板的示意图。在本实施例中，使用内参标定板和OpenCV开源的相机标定程序获取图像采集器的内参矩阵，通过该内参矩阵能够实现在图像坐标系和相机坐标系之间进行转换。OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列C函数和少量C++类构成，同时提供了Python、Ruby、MATLAB等语言的接口，实现了图像处理和计算机视觉方面的很多通用算法。

其次，获取图像采集器的外参矩阵。

在一个可选的实施例中，获取图像采集器的外参矩阵包括如下所述的第一步和第二步。

第一步，根据外参标定板上设置的标定点的数量，分别将外参标定板相对于屏幕设置在位置数量的不同位置上，并获取各位置对应的位置图像，其中所述位置数量例如可以与所述标定点的数量相对应。

在本实施例中，如图2所示，设定VR设备的右屏幕中心为世界坐标系原点Ow，相机镜头30的中心为相机坐标系原点Oc，两坐标系的建立都符合右手定则。如图4所示为外参标定板20上设置有5个标定点21。图5示出了利用外参标定板获取高速红外相机的外参矩阵的示意图。具体的，世界坐标系原点以Ow表示，三个轴分别为Xw、Yw、Zw，相机坐标系原点以Oc表示，三个轴分别为Xc、Yc、Zc；高速红外相机的镜头设置在距离屏幕为d的位置。

首先，如图5所示，将外参标定板平行于屏幕设置在距屏幕d+d1处，所述外参标定板的中心在世界坐标系的Zw轴上，然后使用高速红外相机拍照并获取标定点W1-W5的在相机坐标系下的5个点坐标。

其次，如图5所示，将外参标定板平行于屏幕设置在距屏幕d+d1+d2处，所述外参标定板的中心在世界坐标系的Zw轴上，然后使用高速红外相机拍照并获取标定点W6-W10的在相机坐标系下的5个点坐标。所述W1-W5与所述W6-W10是相对应的，是外参标定板上的相同点在不同位置处的表示。

在上述过程中，根据设置有5个标定点(W1-W5，W6-W10)的外参标定板，以及分别将外参标定板设置在不同的两个位置上采集位置图像，一共获得图像坐标系下的10个点坐标。同时，根据原点位于屏幕中心的世界坐标系，从屏幕上能够确定W1-W10在世界坐标系下的对应的点W1’-W10’的坐标，分别为：W1’(s，s，d+d1)，W2’(-s，s，d+d1)，W3’(0，0，d+d1)，W4’(s，-s，d+d1)，W5’(-s，-s，d+d1)，W6’(s，s，d+d1+d2)，W7’(-s，s，d+d1+d2)，W8’(0，0，d+d1+d2)，W9’(s，-s，d+d1+d2)和W10’(-s，-s，d+d1+d2)。

第二步，根据所述屏幕上世界坐标系下的标定点的坐标、以及对应的各所述位置图像中图像坐标系下的标定点的坐标获取所述图像采集器的外参矩阵。

作为示例，具体地，世界坐标系和相机坐标系的转换关系为：

其中，

为世界坐标系下的坐标，包括旋转矩阵Rc和平移矩阵Pc，其中，Rc为3*3的旋转矩阵，平移矩阵Pc为两坐标系原点的差值；

为相机坐标系下的坐标。

在本实施例中，将获取的图像坐标系下的10个点的坐标带入上述转换关系式(2)求解旋转矩阵Rc矩阵中的9个未知参数，从而获取用于转换相机坐标系和世界坐标系的外参矩阵。

值得说明的是，本申请对外参标定板上标定点的数量、以及将外参标定板设置在不同位置的位置数量不作限定，根据外参标定板上标定点的数量确定位置数量，在此不再赘述。

在本实施例中，通过预先对图像采集器进行一次标定获取内参矩阵和外参矩阵，以便于在视线追踪过程中通过所述内参矩阵和外参矩阵实现不同坐标系之间的转换，相比于相关技术中通过多项式映射方式标定容易出错的问题，有效提高了视线追踪的稳定性和计算精度，并且提升了用户的使用体验。

S12：根据所述世界坐标系下的多个瞳孔坐标，判断是否能够确定球心坐标，若能够确定所述球心坐标则跳转至S 14，否则跳转至S 10，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标

在本实施例中，用户的眼睛在扫视屏幕时，瞳孔围绕眼球中心在眼球球面上进行转动，即瞳孔的运动轨迹位于球面上，则根据世界坐标系下的瞳孔坐标(x，y，z)，可以确定以下方程：

(x-x ₀) ²+(y-y ₀) ²+(z-z ₀) ²＝R ² (3)

其中，(x ₀，y ₀，z ₀)为世界坐标系下的球心坐标，R为眼球半径。

具体的，对于球心坐标，拟合后的估计值与实际值的误差平方和为：

其中，E(x ₀，y ₀，z ₀，R)是x ₀，y ₀，z ₀，R的函数，因此，E(x ₀，y ₀，z ₀，R)关于x ₀，y ₀，z ₀，R的偏导数为0，即：

根据方程8可得：

因此

三个方程可以简化为：

令：

并带入化简后的

方程中，可得：

在方程(13)、(14)和(15)中减去方程(16)并化简成矩阵形式，可得：

对方程(17)进行求解，若所述用户的眼睛扫视获得的世界坐标系下的多个瞳孔坐标能够解出矩阵方程(17)，则获得世界坐标系下的球心坐标(x ₀，y ₀，z ₀)，否则跳转至S10重新采集用户的眼睛扫视屏幕的人眼图像。

S14：根据所述球心坐标和所述瞳孔坐标确定用户在屏幕上的注视点的坐标。根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

图6示出根据本公开的一个实施例所述的视线追踪的示意图。在本实施例中，如图6所示，根据世界坐标系下的球心坐标和多个瞳孔坐标继续计算以确定图像坐标系下的注视点的坐标，即瞳孔52以球心51为中心在眼球50上运动，注视点41为视线经过球心51和瞳孔52相交于屏幕40上的点，具体包括S140和S142。

S140：根据所述世界坐标系下的多个瞳孔坐标和所述球心坐标获取视线方程，并根据所述视线方程获取用户的注视点在世界坐标系下的坐标。

在本实施例中，根据世界坐标系下的球心坐标和瞳孔坐标确定以下视线方程：

转化为一般方程为：

在本实施例中，设定所述屏幕所在平面方程为：z＝0；将其代入模块方程(19)，能够确定世界坐标系下的注视点的坐标K(x _k，y _k，z _k)：

S142：将所述用户的注视点在世界坐标系下的坐标转换为屏幕上用户的注视点在图像坐标系下的坐标。

在本实施例中，上述计算得到的注视点的坐标为世界坐标系下的坐标，为了便于计算屏幕上的注视点的位置，需要将该注视点的坐标转换为图像坐标系下坐标。

作为示例，具体地，如图7所示，以屏幕为参照物，世界坐标系原点位于屏幕中心，图像坐标系原点位于屏幕左上角，并且两坐标系的X轴和Y轴相互平行，转换关系如下：

第一，注视点在屏幕上的世界坐标系的坐标为(x _k，y _k)。

第二，考虑到用户的单眼的横向视场角和纵向视场角大致相同，因此虚拟现实设备中的单个屏幕形状一般为正方形，即横向分辨率和纵向分辨率相等，因此设定屏幕的物理尺寸为n*n，分辨率为m*m，则屏幕的像素间距为：n/m。

则转换后的图像坐标为：

则(x _t，y _t)即为图像坐标系下的注视点的坐标。

至此，利用在用户的眼睛扫视屏幕时而采集的多张人眼图像确定各人眼图像中的瞳孔坐标，再利用多个瞳孔坐标获取眼球中心的球心坐标，再根据所述多个瞳孔坐标和球心坐标确定用户在屏幕上的标注视点的坐标，从而实现对用户的视线的追踪。相比于相关技术中通过9个标定点采用多项式映射模型实现视线追踪，有效简化视线追踪流程、提高视线追踪的稳定性和计算精度，增强用户体验，具有广泛的应用前景。

值得说明的是，本申请对采用单目视线追踪和双目视线追踪不作具体限定，采用双目视线追踪能够进一步提高视线追踪的准确度。本领域技术人员应当根据实际应用需求选择适当的方式进行视线追踪，以能够获取瞳孔坐标、确定球心坐标、进而确定注视点的坐标为设计准则，在此不再赘述。

与上述实施例提供的视线追踪方法相对应，本申请的一个实施例还提供一种视线追踪装置。由于本申请实施例提供的视线追踪装置与上述几种实施例提供的视线追踪方法相对应，因此在前实施方式也适用于本实施例提供的视线追踪装置，在本实施例中不再详细描述。

如图8所示，本申请的一个实施例还提供一种视线追踪装置800，包括瞳孔定位电路801、球心定位电路802以及注视点定位电路803。

瞳孔定位电路801被配置成获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像。球心定位电路802被配置成根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标。注视点定位电路803被配置成根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

所述述瞳孔定位电路801可以包括图像采集器和光源，并且所述瞳孔定位电路被配置成：控制图像采集器在光源提供的光下采集多张人眼图像；分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标；根据所述图像采集器预标定的内参矩阵和外参矩阵将所述各人眼图像中图像坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。

在本实施例中，通过使用在人眼扫视屏幕时获取的具有扫视轨迹的多张人眼图像确定各人眼图像的世界坐标系下的瞳孔坐标，然后根据所述瞳孔在眼球球面上运动的特点，通过所述世界坐标系下的多个瞳孔坐标确定其运动轨迹所在的球面的球心坐标，再根据所述世界坐标系下的多个瞳孔坐标和球心坐标确定出所述用户在所述屏幕上的注视点的图像坐标系下的坐标，从而实现对人眼的视线追踪。本实施例的具体实施方式同前述实施例，在此不再赘述。

瞳孔定位单元801还可以包括标定电路8011，用于分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。

在本实施例中，通过预先对图像采集器进行标定以获取内参矩阵和外参矩阵，以便于在视线追踪过程中通过所述内参矩阵和外参矩阵实现不同坐标系之间的转换，相比于相关技术中通过多项式映射方式标定容易出错的问题，有效提高了视线追踪的稳定性和计算精度，并且提升了用户的使用体验。本实施例的具体实施方式同前述实施例，在此不再赘述。

应当指出，上述所述的瞳孔定位电路、标定电路、球心定位电路、注视点定位电路等可以被实施为程序模块，或者实施为具有数据处理能力的各种的集成电路，例如处理器、微处理器、可编程逻辑器件等等。

本公开的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现：S10，获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定扫视轨迹扫视屏幕时获取的轨迹图像；S12，根据所述世界坐标系下的多个瞳孔坐标，判断是否能够确定球心坐标，若无法确定所述球心坐标则重新获取多张人眼图像，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；S14，根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。在本实施例中，计算机可读存储介质可以是任何包含或存储可执行指令的有形介质，该可执行指令可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码(例如，计算机可执行的指令)。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的指令可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的计算机可执行指令，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。可执行指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

如图9所示，本公开的另一个实施例提供的一种计算设备的结构示意图。图9显示的计算设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，计算设备900以通用计算设备的形式表现。计算设备900的组件可以包括但不限于：一个或者多个处理器或者处理单元916，系统存储器928，连接不同系统组件(包括系统存储器928和处理单元916)的总线918。

总线918表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

系统存储器928可以包括易失性存储器形式的计算机可读介质，例如随机存取存储器(RAM)930和/或高速缓存存储器932。计算设备900可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机存储介质。仅作为举例，存储系统934可以表示不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线918相连。系统存储器928可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块942的程序/实用工具940，可以存储在例如系统存储器928中，这样的程序模块942包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块942通常执行本公开所描述的实施例中的功能和/或方法。如上面所述的视线追踪装置包括的各种电路可以被实施为程序模块。

计算设备900也可以与一个或多个外部设备914(例如键盘、指向设备、显示器924等)通信，还可与一个或者多个使得用户能与该计算设备900交互的设备通信，和/或与使得该计算设备900能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口922进行。并且，计算设备900还可以通过网络适配器920与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器920通过总线918与计算设备900的其它模块通信。应当明白，尽管图9中未示出，可以结合计算设备900一起使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元916通过运行存储在系统存储器928中的程序，从而执行各种功能应用以及数据处理，例如实现本公开实施例所提供的一种视线追踪方法。处理器单元例如可以是中央处理单元、微处理器、或者其一个或多个核心等等。

显然，本公开的上述实施例仅仅是为清楚地说明本公开所作的举例，而并非是对本公开的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本公开的技术方案所引伸出的显而易见的变化或变动仍处于本公开的保护范围之列。

Claims

一种视线追踪方法，包括：

获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像；

根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；

根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。
根据权利要求1所述的视线追踪方法，其中，所述获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标进一步包括：

控制图像采集器在光源提供的光下采集多张人眼图像；

分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标；

根据所述图像采集器预标定的内参矩阵和外参矩阵将所述各人眼图像中图像坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。
根据权利要求2所述的视线追踪方法，其中，所述分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标，包括：

分别对所述多张人眼图像进行预处理；

分别对预处理后的多张人眼图像进行二值化处理；

针对二值化处理后得到的每个二值化图像，分别计算所述二值化图像的瞳孔区域的轮廓，以及根据轮廓的大小和形状剔除其中的非瞳孔轮廓，并基于剔除非瞳孔轮廓后的所述二值化图像确定二值化图像对应的人眼图像的图像坐标系下的瞳孔坐标，其中，所述图像坐标系的原点位于屏幕左上角。
根据权利要求3所述视线追踪方法，其中，分别对所述多张人眼图像进行预处理，包括：

将所述多张人眼图像转化为多张灰度图像；

对所述多张灰度图像进行滤波，以滤除所述灰度图像中的噪声。
根据权利要求3所述视线追踪方法，其中，分别对预处理后的多张人眼图像进行二值化处理，包括：

对所述预处理后的图像中的各像素进行二值化处理，以获得二值化图像；

将获得的二值化图像中瞳孔部分灰度值设置为零，并对二值化图像采取开运算以去除瞳孔中的白色空洞。
根据权利要求2所述的视线追踪方法，其中，在获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标之前，所述视线追踪方法还包括：

分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。
根据权利要求6所述的视线追踪方法，其中，所述分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵进一步包括：

根据外参标定板上设置的标定点的数量，将外参标定板相对于屏幕分别设置在位置数量的不同位置上，并获取各位置对应的位置图像，其中所述位置数量与所述标定点的数量相对应；

根据所述屏幕上世界坐标系下的标定点的坐标、以及对应的各所述位置图像中图像坐标系下的标定点的坐标获取所述图像采集器的外参矩阵。
根据权利要求1所述的视线追踪方法，其中，所述根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标进一步包括：

根据所述世界坐标系下的多个瞳孔坐标和所述球心坐标获取视线方程，并根据所述视线方程获取用户的注视点在世界坐标系下的坐标；

将所述用户的注视点在世界坐标系下的坐标转换为屏幕上用户的注视点在图像坐标系下的坐标。
根据权利要求1-8中任一项所述的视线追踪方法，其中，所述轨迹图像包括：

所述用户的眼睛按照所述屏幕的对角线进行扫视时获取的轨迹图像；

或者

所述用户的眼睛分别按照所述屏幕的第一方向和第二方向进行扫视时获取的轨迹图像，其中第一方向和第二方向垂直；

或者

所述用户的眼睛环绕所述屏幕进行扫视时获取的轨迹图像。
一种视线追踪装置，其中，包括

瞳孔定位电路，被配置成获取多张人眼图像并分别确定所述多张人眼图像中的世界坐标系下的多个瞳孔坐标，所述多张人眼图像为用户的眼睛沿预定轨迹扫视屏幕时获取的轨迹图像；

球心定位电路，被配置成根据所述世界坐标系下的多个瞳孔坐标，确定球心坐标，所述球心坐标为所述世界坐标系下的多个瞳孔坐标所在球面的球心的坐标；

注视点定位电路，被配置成根据所述球心坐标和所述世界坐标系下的多个瞳孔坐标确定屏幕上用户的注视点在图像坐标系下的坐标。
根据权利要求10所述的视线追踪装置，其中，所述瞳孔定位电路包括图像采集器和光源，并且所述瞳孔定位电路被配置成：

控制图像采集器在光源提供的光下采集多张人眼图像；

分别对所述多张人眼图像进行图像处理，确定各人眼图像中图像坐标系下的瞳孔坐标；

根据所述图像采集器预标定的内参矩阵和外参矩阵将所述各人眼图像中图像坐标系下的瞳孔坐标转换为世界坐标系下的瞳孔坐标。
根据权利要求11所述的视线追踪装置，其中，瞳孔定位电路还包括标定电路，用于分别使用内参标定板和外参标定板标定所述图像采集器的内参矩阵和外参矩阵。
一种计算机可读存储介质，其上存储有计算机可执行指令，其中，所述计算机可执行指令被处理器执行时执行如权利要求1-9中任一项所述的视线追踪方法。
一种计算设备，包括处理器和其存储有计算机可执行指令的存储器，其中，所述处理器执行所述计算机可执行指令时执行如权利要求1-9中任一项所述的视线追踪方法。