WO2020087919A1

WO2020087919A1 - 基于视线追踪的增强现实人机交互设备及控制方法

Info

Publication number: WO2020087919A1
Application number: PCT/CN2019/088729
Authority: WO
Inventors: 崔笑宇; 纪欣伯; 陈卫兴
Original assignee: 东北大学
Priority date: 2018-10-30
Filing date: 2019-05-28
Publication date: 2020-05-07
Also published as: CN109240510B; CN109240510A

Abstract

本发明具体涉及一种基于视线追踪的增强现实人机交互设备及控制方法，属于视线追踪和嵌入式领域。所述设备包括：镜架、左交互系统和右交互系统；每个系统包括微型眼追踪相机、光波导AR镜片、嵌入式处理器、驱动控制板和集线槽；所述方法包括：1）建立眼动交互系统；2）训练卷积神经网络；3）对采集图像进行数据处理；4）识别眼部动作。本发明一方面改善了人们获取有效信息的途径及其效率，另一方面通过视线进行交互，弥补了语音和手势的操作，当这两种方法来源被占用时仍能进行交互。

Description

基于视线追踪的增强现实人机交互设备及控制方法技术领域

[0001] 本发明属于视线追踪和嵌入式领域，具体涉及一种基于视线追踪的增强现实人机交互设备及控制方法。

背景技术

[0002] 作为一项将虚拟与现实结合起来的技术，增强现实将广泛应用于医疗、工业设计、军事、娱乐等行业，有望成为未来的通用计算平台，并将改变人们的工作生活方式。机器智能的发展使得计算机对人类的自然意识的理解越来越可靠，从而使智能交互有了从实验室走向实用的契机。 GPU和其他硬件的发展极大地提高了计算能力，不仅使深度学习和人工智能有了更广泛的应用，还促进了增强现实的发展。

[0003] 随着交互式设备的出现，人们与计算机交互的方式越来越多。如何高效快速便捷的与计算平台通信已经成为科学家研究的热门话题。就现有的 HoloLens、 Mag ic leap而言，其人机交互停留在语音和手势，尚未出现一种成形的使用视线的交互操作，这在一定程度上限降低了增强现实的优势。对于 tobli与 SMI等公司开发出的视线追踪眼镜，仅仅作为单纯的注视分析，并未上升到交互和控制层面。对照 AR和眼动的技术环境，视线作为一种交互方式，与增强现实眼镜有着极大的契合度，为改善人们获取有效信息的方式提供新的契机。

[0004] 深度学习 (deep learning) 是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。典型的 DL 架构可包括许多层的神经元和数百万个参数。在现有的 DL框架中，卷积神经网络 (CNN) 是最流行的架构之一，它的人工神经元可以响应一部分覆盖范围内的周围单元，相比较其他深度、前馈神经网络，对于图像处理表现出更好的结果，使之成为一种颇具吸引力的深度学习结构。

发明概述

技术问题问题的解决方案

技术解决方案

[0005] 针对上述存在的技术问题，本发明提供一种基于视线追踪的增强现实人机交互设备，其特征在于，包括：镜架、左交互系统和右交互系统；

[0006] 所述左交互系统与右交互系统的结构相同并对称，每个系统包括微型眼追踪相机、光波导 AR镜片、嵌入式处理器、驱动控制板和集线槽；

[0007] 所述集线槽设置在镜架上；

[0008] 所述驱动控制板安装在镜架上，与光波导 AR镜片相连，连接线收纳于集线槽中；

[0009] 所述嵌入式处理器安装在驱动控制板上；

[0010] 所述光波导 AR镜片用于显示驱动控制板的输出信息；

[0011] 所述光波导 AR镜片和微型眼追踪相机安装在镜架上，位于人体视觉范围内。

[0012] 所述嵌入式处理器具有 Pascal的 GPU架构，同时具有独立的操作系统。

[0013] 所述微型眼追踪相机采用可以记录原始红绿蓝三通道图像的相机。

[0014] 一种基于视线追踪的增强现实人机交互设备的控制方法，采用上述的基于视线追踪的增强现实人机交互设备，包括以下步骤：

[0015] 步骤 1，在所述交互设备内建立眼动交互系统；所述眼动交互系统采用基于 CN N架构的卷积神经网络；

[0016] 步骤 2, 训练所述卷积神经网络：

[0017] 所述卷积神经网络的模型采用的训练集图像包括以不同肤色，人种，虹膜颜色，眼球大小等眼部三维模型在不同角度，不同模拟光照，不同视线中截取到的眼部模拟图像；

[0018] 对所述训练集图像进行锐化处理，强调边缘以便于学习，并调节图像尺寸为 25 6 x 256像素；

[0019] 所述模型是根据 ResNet网络构建，其训练过程为：

[0020] 输入图像依次经过一层 BatchNorm （BN）层，一层 7 x 7卷积核的卷积（CONV ）层，一层修正线形单元（relu）层，进入卷积网络；

[0021] 所述卷积网络包括第一模块、第二模块、第三模块和第四模块，输入图像顺序经过卷积网络的 4个模块；

[0022] 任意一个模块皆由若干个网络组成，同一个模块中各个网络是相同的；

[0023] 所述模块中的各个网络由一层 BN层，一层 3 x 3 CONV层与一层 relu层依次连接而成；

[0024] 第一模块的第一网络以接收的输入图像作为输入量；第一模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

[0025] 其他模块的第一网络的输入量为上一个模块的最后一个网络的输出量与输入量的和；其他模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

[0026] 第四模块的输出量，一方面经过降维并通过全连接 (FC) 层得出 32个虹膜特征点；另一方面依次通过一层 BN层，一层 3 x 3 C0NV层与一层 relu层，再降维经过 FC层，得出 33个其他特征点；

[0027] 根据所述 32个虹膜特征点得出瞳孔中心；根据所述 33个其他特征点识别眼部动作；以全部的 55个特征点作为输入，经过 3个 FC层得出 2个视线向量；以两视线向量交点确定为空间上人眼的视线焦点的位置；

[0028] 将得到的瞳孔中心、视线向量和视线焦点作为训练结果，使眼动交互系统达到使用要求；

[0029] 步骤 3 , 所述眼动交互系统通过 2个微型眼追踪相机分别采集的左右眼部的原始红绿蓝三通道图像，依次进行以下操作：

[0030] (1) 对图像中的红色通道进行直方图均衡化，增强大多数场景下的图像细节

[0031] (2) 提高对比度，突出皮肤与眼球以及眼白与虹膜的色彩差别；

[0032] (3) 经过锐化处理，突出边缘特征；

[0033] (4) 把图像的尺寸调节为 256 x 256像素；

[0034] 步骤 4, 通过所述眼动交互系统对经过步骤 3处理后的图像进行视线移动轨迹识另 IJ，进而识别视线移动轨迹所画出的各种图案来进行相应的交互动作；同时进行眼部动作的识别。

发明的有益效果

有益效果 [0035] 本发明的有益效果：

[0036] 本发明提出一种基于视线追踪的增强现实人机交互设备及控制方法，一方面改善了人们获取有效信息的途径及其效率，另一方面通过视线进行交互，弥补了语音和手势的操作，当这两种方法来源被占用时仍能进行交互。

[0037] 本发明采用基于 CNN架构的卷积神经网络的眼动交互系统，使逊于红外相机的普通相机得以应用，提升了视线追踪的精确性并节约了成本。

[0038] 本发明设计合理，易于实现，具有很好的实用价值。

对附图的简要说明

附图说明

[0039] 图 1为本发明具体实施方式中所述基于视线追踪的增强现实人机交互设备的结构示意图。

[0040] 图中： 1、微型眼追踪相机； 2、光波导 AR镜片； 3、驱动控制板； 4、镜架； 5 、集线槽。

发明实施例

本发明的实施方式

[0041] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施实例，对本发明做出进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

[0042] 本发明提出一种基于视线追踪的增强现实人机交互设备，如图 1所示，包括：镜架 4、左交互系统和右交互系统；

[0043] 所述左交互系统和右交互系统分别安装在镜架 4的左半部和右半部；

[0044] 所述左交互系统与右交互系统的结构相同并对称，每个系统包括微型眼追踪相机 1、光波导 AR镜片 2、嵌入式处理器、驱动控制板 3和集线槽 5 ;

[0045] 所述集线槽 5设置在镜架 4上；

[0046] 所述驱动控制板 3安装在镜架 4上，与光波导 AR镜片 2相连，连接线收纳于集线槽 5中；

[0047] 所述嵌入式处理器安装在驱动控制板 3上；

[0048] 所述嵌入式处理器是设备的控制中心和图像处理中心、以及对微型眼追踪相机 1回传的信号进行处理后发送到光波导镜片进行显示的处理中心，具有 Pascal的 G PU架构，从而具有强大的图像处理能力，同时还具有独立的操作系统；

[0049] 所述微型眼追踪相机 1用于记录眼部的原始红绿蓝三通道图像，通过双眼追踪实现人机交互；

[0050] 所述光波导 AR镜片 2用于显示驱动控制板 3的输出信息；

[0051] 所述光波导 AR镜片 2和微型眼追踪相机 1安装在镜架 4上，位于人体视觉范围内

[0052] 本发明提出一种基于视线追踪的增强现实人机交互设备的控制方法，采用上述的基于视线追踪的增强现实人机交互设备，包括以下步骤：

[0053] 步骤 1，在所述交互设备内建立眼动交互系统；所述眼动交互系统采用基于 CN N架构的卷积神经网络；

[0054] 步骤 2, 训练所述卷积神经网络：

[0055] 所述卷积神经网络的模型采用的训练集图像包括以不同肤色，人种，虹膜颜色，眼球大小等眼部三维模型在不同角度，不同模拟光照，不同视线中截取到的眼部模拟图像；

[0056] 对所述训练集图像进行锐化处理，强调边缘以便于学习，并调节图像尺寸为 25 6 x 256像素；

[0057] 所述模型是根据 ResNet网络构建，其训练过程为：

[0058] 输入图像依次经过一层 BatchNorm （BN）层，一层 7 x 7卷积核的卷积（CONV ）层，一层修正线形单元（relu）层，进入卷积网络；

[0059] 所述卷积网络包括第一模块、第二模块、第三模块和第四模块，输入图像顺序经过卷积网络的 4个模块；

[0060] 任意一个模块皆由若干个网络组成，同一个模块中各个网络是相同的；

[0061] 所述模块中的各个网络由一层 BN层，一层 3 x 3 CONV层与一层 relu层依次连接而成；

[0062] 第一模块的第一网络以接收的输入图像作为输入量；第一模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

[0063] 其他模块的第一网络的输入量为上一个模块的最后一个网络的输出量与输入量的和；其他模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

[0064] 第四模块的输出量，一方面经过降维并通过全连接 (FC) 层得出 32个虹膜特征点；另一方面依次通过一层 BN层，一层 3 x 3 CONV层与一层 relu层，再降维经过 FC层，得出 33个其他特征点；

[0065] 根据所述 32个虹膜特征点得出瞳孔中心；根据所述 33个其他特征点识别眼部动作；以全部的 55个特征点作为输入，经过 3个 FC层得出 2个视线向量；以两视线向量交点确定为空间上人眼的视线焦点的位置；

[0066] 将得到的瞳孔中心、视线向量和视线焦点作为训练结果，使眼动交互系统达到使用要求；

[0067] 步骤 3 , 所述眼动交互系统通过 2个微型眼追踪相机 1分别采集的左右眼部的原始红绿蓝三通道图像，依次进行以下操作：

[0068] (1) 对图像中的红色通道进行直方图均衡化，增强大多数场景下的图像细节

[0069] (2) 提高对比度，突出皮肤与眼球以及眼白与虹膜的色彩差别；

[0070] (3) 经过锐化处理，突出边缘特征；

[0071] (4) 把图像的尺寸调节为 256 x 256像素；

[0072] 步骤 4, 通过所述眼动交互系统对经过步骤 3处理后的图像进行视线移动轨迹识另 IJ，进而识别视线移动轨迹所画出的各种图案来进行相应的交互动作；同时进行眼部动作的识别；

[0073] 其中，以眼部动作中的眨眼动作作为眼动交互系统的交互动作的开关。

Claims

权利要求书

[权利要求 1] 一种基于视线追踪的增强现实人机交互设备，其特征在于，包括：镜架、左交互系统和右交互系统；

所述左交互系统与右交互系统的结构相同并对称，每个系统包括微型眼追踪相机、光波导 AR镜片、嵌入式处理器、驱动控制板和集线槽所述集线槽设置在镜架上；

所述驱动控制板安装在镜架上，与光波导 AR镜片相连，连接线收纳于集线槽中；

所述嵌入式处理器安装在驱动控制板上；

所述光波导 AR镜片和微型眼追踪相机安装在镜架上，位于人体视觉范围内。

[权利要求 2] 根据权利要求 1所述的基于视线追踪的增强现实人机交互设备，其特征在于，所述嵌入式处理器具有 Pascal的 GPU架构，同时具有独立的操作系统。

[权利要求 3] 根据权利要求 1所述的基于视线追踪的增强现实人机交互设备，其特征在于，所述微型眼追踪相机采用可以记录原始红绿蓝三通道图像的相机。

[权利要求 4] 一种基于视线追踪的增强现实人机交互设备的控制方法，其特征在于，采用权利要求 3所述的基于视线追踪的增强现实人机交互设备，包括以下步骤：

步骤 1，在所述交互设备内建立眼动交互系统；所述眼动交互系统采用基于 CNN架构的卷积神经网络；

步骤 2, 训练所述卷积神经网络：

所述卷积神经网络的模型采用的训练集图像包括以不同肤色，人种，虹膜颜色，眼球大小等眼部三维模型在不同角度，不同模拟光照，不同视线中截取到的眼部模拟图像；

对所述训练集图像进行锐化处理，强调边缘以便于学习，并调节图像尺寸为 256 x 256像素；

所述模型是根据 ResNet网络构建，其训练过程为：

输入图像依次经过一层 BatchNorm (BN) 层，一层 7 x 7卷积核的卷积 (C0NV) 层，一层修正线形单元 (relu) 层，进入卷积网络；所述卷积网络包括第一模块、第二模块、第三模块和第四模块，输入图像顺序经过卷积网络的 4个模块；

任意一个模块皆由若干个网络组成，同一个模块中各个网络是相同的

所述模块中的各个网络由一层 BN层，一层 3 x 3 C0NV层与一层 relu层依次连接而成；

第一模块的第一网络以接收的输入图像作为输入量；第一模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

其他模块的第一网络的输入量为上一个模块的最后一个网络的输出量与输入量的和；其他模块的其他网络的输入量皆为上个网络的输出量与输入量的和；

第四模块的输出量，一方面经过降维并通过全连接 (FC) 层得出 32 个虹膜特征点；另一方面依次通过一层 BN层，一层 3 x 3 CONV层与一层 relu层，再降维经过 FC层，得出 33个其他特征点；

根据所述 32个虹膜特征点得出瞳孔中心；根据所述 33个其他特征点识别眼部动作；以全部的 55个特征点作为输入，经过 3个 FC层得出 2个视线向量；以两视线向量交点确定为空间上人眼的视线焦点的位置；将得到的瞳孔中心、视线向量和视线焦点作为训练结果，使眼动交互系统达到使用要求；

步骤 3 , 所述眼动交互系统通过 2个微型眼追踪相机分别采集的左右眼部的原始红绿蓝三通道图像，依次进行以下操作：

( 1) 对图像中的红色通道进行直方图均衡化，增强大多数场景下的图像细节；

(2) 提高对比度，突出皮肤与眼球以及眼白与虹膜的色彩差别； (3) 经过锐化处理，突出边缘特征；

(4) 把图像的尺寸调节为 256 x 256像素；

步骤 4, 通过所述眼动交互系统对经过步骤 3处理后的图像进行视线移动轨迹识别，进而识别视线移动轨迹所画出的各种图案来进行相应的交互动作；同时进行眼部动作的识别。