WO2021147905A1 - 三维空间内注视行为的识别方法、装置及存储介质 - Google Patents
三维空间内注视行为的识别方法、装置及存储介质 Download PDFInfo
- Publication number
- WO2021147905A1 WO2021147905A1 PCT/CN2021/072883 CN2021072883W WO2021147905A1 WO 2021147905 A1 WO2021147905 A1 WO 2021147905A1 CN 2021072883 W CN2021072883 W CN 2021072883W WO 2021147905 A1 WO2021147905 A1 WO 2021147905A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- gaze
- eye movement
- eye
- point
- movement data
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004424 eye movement Effects 0.000 claims abstract description 159
- 210000001508 eye Anatomy 0.000 claims abstract description 152
- 238000005070 sampling Methods 0.000 claims abstract description 83
- 230000000007 visual effect Effects 0.000 claims abstract description 41
- 230000006399 behavior Effects 0.000 claims description 64
- 238000004590 computer program Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 19
- 241000282414 Homo sapiens Species 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000004418 eye rotation Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/193—Preprocessing; Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
Definitions
- the line of sight angle between the adjacent gaze points is less than 0.5 deg; the calculation formula of the set distance is: Among them, L represents the set distance, ⁇ is the magnification factor, and the value of ⁇ is 1.0 to 1.3. D 1 and D 2 respectively represent the distance from the eyes to two time-adjacent gaze points, and ⁇ represents the line of sight between adjacent gaze points. Angle.
- the present invention also provides a computer-readable storage medium on which a computer program is stored, and when the computer program is executed, the steps of the aforementioned method are realized.
- FIG. 1 is a schematic flowchart of an identification method according to an embodiment of the present invention
- FIG. 2 is a schematic diagram of a flow of collecting eye movement data of a user's eyes in an identification method according to an embodiment of the present invention
- Figure 1 shows a method for recognizing gaze behavior in a three-dimensional space in an embodiment of the present invention. The method includes the following steps:
- the left-eye 3D coordinates and/or the right-eye 3D coordinates and the visual direction of the left eye can be obtained by defining the three-dimensional space coordinate system, and detecting and converting by the eye tracker.
- Visual direction Make an extension line along the visual direction of the left eye and the visual direction of the right eye.
- the extension line and the focal point of the object in the real three-dimensional space are used as the eye movement point of the left eye or the eye movement point of the right eye.
- the eye movement angular velocity threshold is 10°/s to 30°/s.
- the eye movement angular velocity threshold can be set to 20°/s.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种三维空间内注视行为的识别方法、装置及存储介质,通过采集用户两眼的眼动数据;从采集的眼动数据中选定用于注视行为识别的眼动数据;计算选定的眼动数据中多个采样时间点处的眼动角速度,并基于计算的眼动角速度和注视行为对应的眼动角速度阈值确定注视行为对应的注视点数据;将注视点数据中同时满足时间临近条件和空间临近条件的注视点数据合并,得到注视时长和注视点的3D坐标;基于合并后的注视点数据确定注视时长大于第二设定时长的注视点,从而识别出注视行为。本发明通过获取三维空间内注视点坐标信息,并设立时间临近和空间临近的标准,能够有效结合视觉深度差异对注视行为进行判断,准确识别三维空间的注视行为。
Description
本发明属于注视方向识别技术领域,尤其涉及一种三维空间内注视行为的识别方法、装置及存储介质。
注视是人类视觉的主要行为之一,也是最重要的行为。人类通过注视获取所关注事物的属性、运动等信息。
随着VR(Virtual Reality,虚拟现实)技术和AR(Augmented Reality,增强现实)技术的发展,无论对虚拟三维空间还是真实三维空间内的注视行为识别的需求日益增长,急需解决。现有技术中通常使用眼动仪来记录人类的眼动行为,并根据所采集到的眼动数据进行注视行为的识别。注视行为识别过程中,以人眼为起始点沿视觉方向延伸看到的点为眼动点,受限于目前眼动仪的工作原理,眼动仪所采集的眼动数据仅能表达视觉方向,而无法表达三维空间下的视觉深度的注视行为信息。
发明内容
本发明的目的是针对现有技术的不足,提供一种三维空间内注视行为的识别方法、装置及存储介质,克服现有技术无法判断视觉深度的缺陷,用于完成对三维空间内注视行为的识别。
本发明解决技术问题的方案是:
一方面,本发明提供一种三维空间内注视行为的识别方法,包括:
采集用户两眼的眼动数据,该眼动数据包括:采样时间点、三维空间坐标系内采样时间点处两眼位置的3D坐标以及两眼眼动点位置的3D坐标;
从采集的眼动数据中选定用于注视行为识别的眼动数据;
计算选定的眼动数据中多个采样时间点处的眼动角速度,并基于计算的眼动角速度和注视行为对应的眼动角速度阈值确定注视行为对应的注视点数据;
将注视点数据中同时满足时间临近条件和空间临近条件的注视点数据合并,得到注视时长和注视点的3D坐标,其中,时间临近条件为采样时间点间隔小于第一设定时长,空间临近条件为相邻注视点之间视线夹角小于设定角度以及相邻注视点之间距离小于设定距离;
基于合并后的注视点数据确定注视时长大于第二设定时长的注视点,从而识别出注视行为。
在一些实施例中,所述采集用户两眼的眼动数据的步骤包括:
建立三维空间坐标系;
采用眼动仪在指定的采样时间点检测并得到三维空间坐标系内的左眼3D坐标、右眼3D坐标、左眼视觉方向信息和右眼视觉方向信息;
以左眼3D坐标为起始点,沿左眼视觉方向与三维空间内事物的第一个交点的坐标为左眼眼动点的3D坐标;
以右眼3D坐标为起始点,沿右眼视觉方向与三维空间内事物的第一个交点的坐标为右眼眼动点的3D坐标。
在一些实施例中,从采集的眼动数据中选定用于注视行为识别的眼动数据的步骤包括:
主视眼已知时,将主视眼对应的眼动数据作为用于注视行为识别的眼动数据;
主视眼未知时,将左眼的眼动数据以及右眼的眼动数据的均值作为用于注视行为识别的眼动数据。
在一些实施例中,采集用户两眼的眼动数据之后,还包括:预处理采集的眼动数据,使单位时间内所包含的眼动数据的数量相同并消除采样噪声和异常点。
在一些实施例中,计算选定的眼动数据中多个采样时间点处眼动角速度的步骤包括:
当采样窗口样本数n为偶数时,分别将采样时间点前以及采样时间点后第n/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度;
当采样窗口样本数n为奇数时,分别将采样时间点前以及采样时间点后第(n-1)/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度。
在一些实施例中,所述眼动角速度的计算公式为:
在一些实施例中,所述相邻注视点之间的视线夹角小于0.5deg;所述设定距离的计算公式为:
其中,L表示设定距离,λ为放大系数,λ取值为1.0~1.3,D
1、D
2分别表示眼睛到两个时间临近注视点的距离,θ表示相邻的注视点之间的视线夹角。
在一些实施例中,所述眼动角速度阈值为10°/s~30°/s;所述第一设定时长为75ms以下;所述第二设定时长为100ms。
另一方面,本发明还提供一种三维空间内注视行为的识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行 所述计算机程序时实现如前所述方法的步骤。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该所述计算机程序被执行时实现如前所述方法的步骤。
本发明三维空间内注视行为的识别方法、装置及存储介质,利用眼动仪结合三维空间坐标系数据,准确得到了主视眼三维空间内的眼动数据,并获取视觉深度信息。通过设定采样时间点间隔小于第一设定时长、注视点之间视线夹角小于设定角度以及注视点之间距离小于设定距离三个标准,针对时间临近和空间临近两方面对三维空间内结合视觉深度差异对注视行为进行判断,准确识别三维空间的注视行为。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明一实施例所述识别方法的流程示意图;
图2为本发明一实施例所述识别方法中采集用户两眼的眼动数据的流程示意图;
图3为本发一实施例明所述识别方法中判断空间临近条件的示意图。
下为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
现有技术中,注视行为的识别被应用在很多领域,特别在人机交互时,在 实现对用户的使用状态进行捕捉和判断的过程中,注视行为作为主要行为能用来表征用户一系列动作的指向性,从而引导设备的准确反馈,提升用户使用的体验效果,或者实现一些复杂的操作过程。
近几年VR(Virtual Reality,虚拟现实)和AR(Augmented Reality,增强现实)火热,其中VR技术是一种能够创建和体验虚拟世界的计算机仿真技术,它利用计算机生成一种交互式的三维动态视景,其实体行为的仿真系统能够使用户沉浸到该环境中;AR技术是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术,是一种将真实世界信息和虚拟世界信息“无缝”集成的新技术,这种技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。
VR技术中所产生的是虚拟三维空间,在越来越多的应用过程中,通过研究、开发和实用,申请人以及相关技术人员逐渐发现在VR技术中,人眼注视行为的识别需求度很高,不仅在于设备的操作需要,更表现为提升设备对用户的反馈效果的要求。而AR技术更是需要实时对人眼的注视行为进行识别,需求度相比VR技术更高。
然而,现有技术中对于人眼注视行为的识别,大多是通过眼动仪监测人眼活动,并得到人眼的视线方向,再进一步判断视线停留的时间判断是否发生有效的注视行为。这种识别方式,受限于目前应用于虚拟现实环境中的眼动仪的工作原理,眼动仪所采集的眼动数据仅能表达视觉方向,而无法表达三维空间下的视觉深度的注视行为信息。
随着VR技术的发展,如何利用眼动仪获取虚拟三维空间内的深度眼动数据成为一个有待解决的问题。本发明通过提供一种三维空间内注视行为的识别方法,来实现针对三维空间内进行注视行为的识别,尤其实现VR场景下三维空间内的注视行为识别。
如图1所示为本发明一实施例中三维空间内注视行为的识别方法,该方法包括如下步骤:
步骤S101:采集用户两眼的眼动数据。
该眼动数据可包括:采样时间点、三维空间坐标系内采样时间点处两眼位置的3D坐标以及两眼眼动点位置的3D坐标。
针对三维空间内的注视行为识别,三维空间可以分为两类,一种是通过设备生成的虚拟三维空间,例如VR技术中产生的三维立体空间,针对这种虚拟三维空间,可以直接采用生成虚拟三维空间时所用的坐标系作为本申请中用于眼动数据采集的三维空间坐标系,也可以以主视眼或用于检测的眼动仪设备为中心建立三维空间坐标系。另一种三维空间是现实三维空间,例如AR技术中作为基础的三维空间,针对这种现实三维空间,可以以主视眼或用于检测的眼动仪设备为中心建立三维空间坐标系,在一些特定的情况下,也可以以现实三维空间中设置的用于标注的点为中心建立三维空间坐标系。具体的,对于现实三维空间,可以结合专用的测距仪器或者测距软件进行相应的坐标采集。
在一些实施例中,如图2所示,以VR应用环境为例,采集用户两眼的眼动数据的步骤可包括:
步骤S111:建立三维空间坐标系。该三维空间坐标系与VR场景中虚拟现实空间数据相关联。
步骤S112:采用眼动仪在指定的采样时间点检测并得到三维空间坐标系内的左眼3D坐标、右眼3D坐标、左眼视觉方向(如视角)信息和右眼视觉方向(如视角)信息。
针对VR技术生成的虚拟三维空间中,由于建有三维空间内物体完整的坐标数据,能够直接通过眼动仪检测并转换得到的左眼3D坐标和/或右眼3D坐标以 及左眼的视觉方向,右眼的视觉方向。
进一步地可以直接沿视觉方向做延长线的方式得到与物体相交的点的坐标,即左眼眼动点的3D坐标和/或右眼眼动点的3D坐标。
步骤S113:以左眼3D坐标为起始点,沿左眼视觉方向做延长线,延长线与VR场景中虚拟三维空间内事物的第一个交点的坐标为左眼眼动点的3D坐标。
步骤S114:以右眼3D坐标为起始点,沿右眼视觉方向做延长线,延长线与VR场景中虚拟三维空间内事物的第一个交点的坐标为右眼眼动点的3D坐标。
此外,在针对AR技术生成的虚拟三维空间中,通过定义三维空间坐标系,并通过眼动仪检测并转换可得到左眼3D坐标和/或右眼3D坐标以及左眼的视觉方向,右眼的视觉方向。沿左眼的视觉方向,右眼的视觉方向做延长线,延长线与现实三维空间中物体的焦点作为左眼眼动点或者右眼眼动点。进一步地,通过使用测距仪器或距离测量软件能够得到左眼眼动点距离左眼的距离和/或右眼眼动点距离右眼的距离,结合左眼的视觉方向向量和右眼的视觉方向向量,能够计算得到左眼眼动点的3D坐标和/或右眼眼动点的3D坐标。
此外,在现实三维空间中,通过建立三维空间坐标系并结合测距仪器或者距离测量软件,可以获得环境中实物在三维空间坐标系中的坐标,然后基于眼动仪获得的三维空间坐标系内采样时间点处两眼位置的3D坐标和视觉方向信息可获得两眼眼动点的3D坐标。
步骤S102:从采集的眼动数据中选定用于注视行为识别的眼动数据,该步骤可包括:
主视眼已知时,可将主视眼对应的眼动数据作为用于注视行为识别的眼动数据;
主视眼未知时,可将左眼的眼动数据以及右眼的眼动数据的均值作为用于 注视行为识别的眼动数据。
在本实施例中,主视眼也称作注视眼、优势眼。生理角度上,主视眼所看到的东西会被大脑优先接受,可能是左眼,也可能是右眼。由于大脑习惯性利用主视眼的成像来分析和定位物体,因此采用主视眼的眼动数据作为用于识别注视点的主要数据能更准确地反映实际,提升识别效果和准确度。
主视眼已知时,将主视眼对应的左眼或右眼的眼动数据作为用于注视行为识别的眼动数据。主视眼未知时,可将左眼的眼动数据以及右眼的眼动数据的均值作为用于注视行为识别的眼动数据,其中,用于注视行为识别的眼动数据中,人眼的3D坐标为左眼3D坐标和右眼3D坐标的均值,识别数据中人眼的眼动点的3D坐标为左眼眼动点的3D坐标以及右眼眼动点的3D坐标的均值。
在本实施例中,为了能够准确反映实际视觉中产生的注视点,在已知主视眼的情况下优先采用主视眼的眼动数据进行识别,当主视眼未知时,通过求均值的方式,能够减少非主视眼的眼动数据所产生的偏差。
示例性的,检测到t
1采样时间点时,左眼3D坐标为(0,0,1),左眼眼动点的3D坐标为(20,30,26),右眼3D坐标为(0,6,1),右眼眼动点的3D坐标为(18,32,27);当已知左眼或者右眼为主视眼时,直接采用对应眼的数据作为主视眼的眼动数据;当主视眼未知时,将左眼3D坐标和右眼3D坐标的平均值(0,3,1)作为识别数据中人眼的3D坐标,将左眼眼动点的3D坐标与右眼眼动点的3D坐标的平均值(19,31,26.5)作为用于注视行为识别的眼动数据的眼动点的3D坐标,同时记录在采样时间点t
1下。
在一些实施例中,采集左眼和右眼的眼动数据之后,还包括:对左眼和右眼的眼动数据进行预处理,使单位时间内所包含的眼动数据的数量相同并消除采样噪声和异常点。
在本实施例中,可采用插值、平滑操作和/或频率校正的方式对左眼和右眼的眼动数据进行预处理。由于这些处理手段为现有的数据处理手段,在此不再赘述。
步骤S103:计算选定的眼动数据中多个采样时间点处的眼动角速度,并基于计算的眼动角速度和注视行为对应的眼动角速度阈值确定注视行为对应的注视点数据。
具体的,当眼动角速度小于眼动角速度阈值时,可将对应的眼动数据作为注视点数据。根据眼动角速度的定义,对于采样时间点处的眼动角速度的测量需要检测单位时间内人眼转动的角度。示例性的,可以通过测量指定采样时间点前后一定时间范围内眼球转动的距离并处以间隔时间,得到一段窗口时间内的眼动角速度的均值,并将该均值定义为指定采样时间点处的眼动角速度。在另一些实施例中,也可以进一步采用一段窗口时间内各采样时间点处眼动角速度的最大值、最小值或中位数等作为指定采样时间点处的眼动角速度。
为了进一步提升准确度,需要根据采样时间点的间隔时间合理选择采样窗口的样本数;控制采样窗口的范围不能过小,要保证采样窗口内的样本数量或范围足够反应出指定采样时间点处眼动角速度的特征;控制采样窗口的范围不能过大,要使采样窗口内的数量或范围控制在一定范围内以保证具有代表性。
进一步地,当指定采样时间点处对应的眼动角速度小于眼动角速度阈值时,则将指定采样时间点对应的主视眼眼动点作为注视点保存。优选的,在一些实施例中,眼动角速度阈值为10°/s~30°/s,例如针对一些应用场景,可以将眼动角速度阈值设置为20°/s,当指定采样时间点处对应的眼动角速度小于20°/s时,则将该指定采样时间点下的眼动点归类为注视点,同时将该指定采样时间点下的眼动点对应的眼动点的3D坐标归类为注视点3D坐标,并记录对应的主视眼 3D坐标以及采样时间点。
在一些实施例中,计算选定的眼动数据中多个采样时间点处眼动角速度的步骤包括:
当采样窗口样本数n为偶数时,分别将采样时间点前以及采样时间点后第n/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度;
当采样窗口样本数n为奇数时,分别将采样时间点前以及采样时间点后第(n-1)/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度。
示例性的,当采样时间点之间间隔时间为20ms时,选择采样窗口的样本数为10,则分别选取指定采样时间点之前和之后第5个采样时间点对应的注视点之间的视线夹角为4°除以间隔时间200ms,则得到指定采样时间点处的眼动角速度为20°/s。
具体的,在一些实施例中,眼动角速度的计算公式为:
步骤S104:将注视点数据中同时满足时间临近条件和空间临近条件的注视点数据合并,得到注视时长和注视点的3D坐标,其中,时间临近条件为采样时间点间隔小于第一设定时长,空间临近条件为相邻注视点之间视线夹角小于设定角度以及相邻注视点之间距离小于设定距离。
具体地,将同时满足时间临近和空间临近的注视点数据的间隔时间累加得到注视时长;可以将同时满足时间临近和空间临近的注视点数据中,各眼动点 的3D坐标的平均值或者中位数值作为注视点的3D坐标,在一些实施例中,也可以将采样时间点居中的眼动点的3D坐标作为注视点的3D坐标。
注视行为的发生即是指注视点在一定范围内停留达到一定时间,则能够表示人眼的发生了注视。现有技术针对二维空间中,注视行为的检测仅仅以人眼视觉方向在一定范围内停留达到设定的时间为标准,其仅能以视觉方向作为标准,不能满足三维空间内的注视行为识别时所需的视觉深度的衡量要求,同时也不能进一步获得注视点在三维空间内的具体位置信息。本申请发明人在基于AR技术和VR技术的基础上,针对三维空间内的视觉识别做了进一步改进,目的在于获取三维空间内的有效注视时间和位置信息。
在本实施例中,由于是针对三维空间内的注释行为的识别,为了获得有效的注视点和注视时间信息,就要对各采样时间点下的可关联的注视点信息进行合并。针对三维空间内的注视点,可以设置时间临近条件和空间临近条件两个标准,具体如下:
对时间临近条件的判断可以包括:采样时间点间隔小于第一设定时长。
对空间临近条件的判断可以包括:
1)相邻注视点之间视线夹角小于设定角度;
2)相邻注视点之间距离小于设定距离。
为了保证所得到的注视点在时间上和三维空间位置上都是连续的,需要对三维空间中产生的各注视点同时判断是否符合时间临近和空间临近的标准。
本实施例中,在时间临近条件方面,将采样时间点的间隔小于第一设定时长的注视点进行合并,优选地,第一设定时长为75ms以下,例如,当采样时间点的间隔小于75ms的注视点可以用于合并,在另一些实施例中,也可以将第一设定时长设置为小于75ms的其他时间,例如60ms、50ms等;
在空间临近条件方面,本实施例限定了两个判断参数,一个是相邻注视点之间的视线夹角,另一个是相邻注视点之间的距离;由于在三维空间中,空间临近条件不仅表现在具有较小的视线夹角,同时要求在视觉深度上保持近距离。
本实施例中,在空间临近条件上,设定相邻注视点之间视线夹角小于设定角度,同时注视点之间距离小于设定距离,优选地,设定角度例如为0.5deg,设定距离为L。
具体的,设定距离L的计算公式为:
在本发明虚拟现实应用环境中,物体的距离与观察者眼睛的距离能计算。眼动仪所测得的数据为具有方向的数据,也就是说,能指示观察者的注视方向,从而能确定观察者在虚拟现实场景中沿此注视方向所看到虚拟现实场景中的物体,进而能够确定观察者眼睛与虚拟现实中物体的距离,即D1、D2。
示例性的,如图4所示,在三维空间内,主视眼在临近的两个采样时间点所对应的注视点A点和B点,视线夹角为θ
1,注视点A、B距离主视眼的距离分别为D1和D2(D1<D2),A、B之间的距离为D3,则设定距离
如果L小于或等于D3,且θ
1小于0.5°,即满足空间临近条件并且满足时间临近条件的情况下可将注视点进行合并。
在本发明一实施例中,将注视点进行合并可以包括将满足时间临近条件和空间临近条件的注视点中的部分注视点删除,或者取这些注视点的均值而获得新的注视点,但本发明并不限于此。
步骤S105:基于合并后的注视点数据确定注视时长大于第二设定时长的注 视点,从而识别出注视行为。
在本实施例中,为了进一步输出实际应用过程中的注视信息,需要对步骤S104中合并后的注视点的时长进行指标限定;本实施例中将注视时长达到第二设定时长的注视点判定为注视行为发生,优选地,第二设定时长为100ms,在另一些实施例中,也可以根据特定的应用场景设定第二设定时长为其他更大或更小的值。
也即,在本步骤中,检查合并处理之后的注视点的持续时间是否大于等于100ms。如果是,该注视点保留,作为有效注视点;否则,该注视点不满足时间持续条件,应予以删除。
基于如上步骤可知,本发明的方法利用眼动仪结合三维空间坐标系数据,准确得到了主视眼三维空间内的眼动数据,并获取视觉深度信息。通过设定采样时间点间隔小于第一设定时长、相邻注视点之间视线夹角小于设定角度以及相邻注视点之间距离小于设定距离这三个标准,针对时间临近和空间临近两方面对三维空间内结合视觉深度差异对注视行为进行判断,可准确识别三维空间的注视行为。
换言之,本发明的技术方案,能解决目前应用于虚拟现实环境中的眼动仪所采集的眼动数据仅能表达视觉方向,而无法表达三维空间下的视觉深度的注视行为信息的问题,使得视觉深度能够得到确定,从而能够准确计算出具有在虚拟现实场景中的具有视觉深度的注视行为的注视点。
相应地,本发明还提供一种三维空间内注视行为的识别装置,该装置可包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时可实现上述方法的步骤。
此外,本发明还提供一种计算机可读存储介质,其上存储有计算机程序, 该程序被处理器执行时实现上述方法的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的 指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
- 一种三维空间内注视行为的识别方法,其特征在于,包括:采集用户两眼的眼动数据,该眼动数据包括:采样时间点、三维空间坐标系内采样时间点处两眼位置的3D坐标以及两眼眼动点位置的3D坐标;从采集的眼动数据中选定用于注视行为识别的眼动数据,并计算选定的眼动数据中多个采样时间点处的眼动角速度;基于计算的眼动角速度和注视行为对应的眼动角速度阈值确定注视行为对应的注视点数据;将注视点数据中同时满足时间临近条件和空间临近条件的注视点数据合并,得到注视时长和注视点的3D坐标,其中,时间临近条件为采样时间点间隔小于第一设定时长,空间临近条件为相邻注视点之间视线夹角小于设定角度以及相邻注视点之间距离小于设定距离;基于合并后的注视点数据确定注视时长大于第二设定时长的注视点,从而识别出注视行为。
- 根据权利要求1所述的识别方法,其特征在于,所述采集用户两眼的眼动数据的步骤包括:建立三维空间坐标系;采用眼动仪在指定的采样时间点检测并得到三维空间坐标系内的左眼3D坐标、右眼3D坐标、左眼视觉方向信息和右眼视觉方向信息;以左眼3D坐标为起始点,沿左眼视觉方向与三维空间内事物的第一个交点的坐标为左眼眼动点的3D坐标;以右眼3D坐标为起始点,沿右眼视觉方向与三维空间内事物的第一个交点的坐标为右眼眼动点的3D坐标。
- 根据权利要求1所述的识别方法,其特征在于,从采集的眼动数据中选定用于注视行为识别的眼动数据的步骤包括:主视眼已知时,将主视眼对应的眼动数据作为用于注视行为识别的眼动数据;主视眼未知时,将左眼的眼动数据以及右眼的眼动数据的均值作为用于注视行为识别的眼动数据。
- 根据权利要求1所述的识别方法,其特征在于,采集用户两眼的眼动数据之后,还包括:预处理采集的眼动数据,使单位时间内所包含的眼动数据的数量相同并消除采样噪声和异常点。
- 根据权利要求1所述的识别方法,其特征在于,计算选定的眼动数据中多个采样时间点处眼动角速度的步骤包括:当采样窗口样本数n为偶数时,分别将采样时间点前以及采样时间点后第n/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度;当采样窗口样本数n为奇数时,分别将采样时间点前以及采样时间点后第(n-1)/2组眼动数据中的两个眼动点之间的视线夹角和采样间隔时间作商得到眼动角速度。
- 根据权利要求1所述的识别方法,其特征在于,所述眼动角速度阈值为10°/s~30°/s;所述第一设定时长为75ms以下;所述第二设定时长为100ms。
- 一种三维空间内注视行为的识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行所述计算机程序时实现权利要求1至8任一项方法的步骤。
- 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被执行时实现权利要求1至8任一项方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP21745193.9A EP4016255A4 (en) | 2020-01-20 | 2021-01-20 | METHOD AND DEVICE FOR DETECTING GAZE BEHAVIOR IN A THREE-DIMENSIONAL SPACE AND STORAGE MEDIUM |
US17/699,656 US20220206575A1 (en) | 2020-01-20 | 2022-03-21 | Method and apparatus for identifying gaze behavior in three-dimensional space, and storage medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010065990.2A CN111309144B (zh) | 2020-01-20 | 2020-01-20 | 三维空间内注视行为的识别方法、装置及存储介质 |
CN202010065990.2 | 2020-01-20 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
US17/699,656 Continuation US20220206575A1 (en) | 2020-01-20 | 2022-03-21 | Method and apparatus for identifying gaze behavior in three-dimensional space, and storage medium |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021147905A1 true WO2021147905A1 (zh) | 2021-07-29 |
Family
ID=71158401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2021/072883 WO2021147905A1 (zh) | 2020-01-20 | 2021-01-20 | 三维空间内注视行为的识别方法、装置及存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220206575A1 (zh) |
EP (1) | EP4016255A4 (zh) |
CN (1) | CN111309144B (zh) |
WO (1) | WO2021147905A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022642A (zh) * | 2021-10-08 | 2022-02-08 | 北京津发科技股份有限公司 | 时空行为轨迹采集、生成方法、装置、设备、系统及存储介质 |
CN114578975A (zh) * | 2022-05-09 | 2022-06-03 | 南昌虚拟现实研究院股份有限公司 | 眼动追踪设备的注视点质量评测方法及系统 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309144B (zh) * | 2020-01-20 | 2022-02-01 | 北京津发科技股份有限公司 | 三维空间内注视行为的识别方法、装置及存储介质 |
CN112546613B (zh) * | 2020-12-22 | 2023-03-24 | 中国第一汽车股份有限公司 | 一种设备控制方法、装置、设备及存储介质 |
CN113011394B (zh) * | 2021-04-26 | 2021-11-30 | 吉林大学 | 一种眼动数据预处理方法及系统 |
CN113776172B (zh) * | 2021-08-12 | 2023-04-14 | 启北公司 | 场景温度规划方法和装置、计算机设备以及介质 |
US20230256973A1 (en) * | 2022-02-11 | 2023-08-17 | Honda Motor Co., Ltd. | System and method for predicting driver situational awareness |
CN116246332B (zh) * | 2023-05-11 | 2023-07-28 | 广东工业大学 | 一种基于眼球追踪的数据标注质量检测方法、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656613A (zh) * | 2017-09-08 | 2018-02-02 | 国网山东省电力公司电力科学研究院 | 一种基于眼动追踪的人机交互系统及其工作方法 |
CN109887000A (zh) * | 2019-01-30 | 2019-06-14 | 北京津发科技股份有限公司 | 注意追踪策略的识别方法、训练方法及其装置 |
US20190251701A1 (en) * | 2018-02-15 | 2019-08-15 | DMAI, Inc. | System and method for identifying a point of interest based on intersecting visual trajectories |
CN110286754A (zh) * | 2019-06-11 | 2019-09-27 | Oppo广东移动通信有限公司 | 基于眼球追踪的投射方法及相关设备 |
CN111309144A (zh) * | 2020-01-20 | 2020-06-19 | 北京津发科技股份有限公司 | 三维空间内注视行为的识别方法、装置及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4976756B2 (ja) * | 2006-06-23 | 2012-07-18 | キヤノン株式会社 | 情報処理方法および装置 |
EP2486450B1 (en) * | 2008-11-02 | 2021-05-19 | David Chaum | Near to eye display system and appliance |
CN102096757A (zh) * | 2010-09-08 | 2011-06-15 | 浙江大学 | 一个基于时域约束的注视点聚类数据处理方法 |
US10558272B2 (en) * | 2013-06-20 | 2020-02-11 | Uday Parshionikar | Gesture control via eye tracking, head tracking, facial expressions and other user actions |
US9936195B2 (en) * | 2014-11-06 | 2018-04-03 | Intel Corporation | Calibration for eye tracking systems |
WO2017053966A1 (en) * | 2015-09-24 | 2017-03-30 | Tobii Ab | Eye-tracking enabled wearable devices |
CN106127149B (zh) * | 2016-06-22 | 2019-07-05 | 南京大学 | 一种基于眼动数据的流程图笔划成组的方法和装置 |
WO2018023012A1 (en) * | 2016-07-29 | 2018-02-01 | Worcester Polytechnic Institute | Fixation identification using density optimization |
WO2018175625A1 (en) * | 2017-03-22 | 2018-09-27 | Magic Leap, Inc. | Depth based foveated rendering for display systems |
CN108592865A (zh) * | 2018-04-28 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的几何量测量方法及其装置、ar设备 |
CN109271030B (zh) * | 2018-09-25 | 2020-12-22 | 华南理工大学 | 一种三维空间下注视点轨迹多维度比较方法 |
CN109255342B (zh) * | 2018-11-20 | 2020-07-10 | 武汉大学 | 一种基于眼动轨迹数据两步聚类的图像感兴趣区域提取方法和系统 |
EP3912013A1 (en) * | 2019-01-16 | 2021-11-24 | Pupil Labs GmbH | Methods for generating calibration data for head-wearable devices and eye tracking system |
CN113614783A (zh) * | 2019-01-25 | 2021-11-05 | 奇跃公司 | 使用具有不同曝光时间的图像的眼睛跟踪 |
US11857378B1 (en) * | 2019-02-14 | 2024-01-02 | Onpoint Medical, Inc. | Systems for adjusting and tracking head mounted displays during surgery including with surgical helmets |
US11391945B2 (en) * | 2020-08-31 | 2022-07-19 | Sony Interactive Entertainment LLC | Automatic positioning of head-up display based on gaze tracking |
-
2020
- 2020-01-20 CN CN202010065990.2A patent/CN111309144B/zh active Active
-
2021
- 2021-01-20 EP EP21745193.9A patent/EP4016255A4/en active Pending
- 2021-01-20 WO PCT/CN2021/072883 patent/WO2021147905A1/zh unknown
-
2022
- 2022-03-21 US US17/699,656 patent/US20220206575A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656613A (zh) * | 2017-09-08 | 2018-02-02 | 国网山东省电力公司电力科学研究院 | 一种基于眼动追踪的人机交互系统及其工作方法 |
US20190251701A1 (en) * | 2018-02-15 | 2019-08-15 | DMAI, Inc. | System and method for identifying a point of interest based on intersecting visual trajectories |
CN109887000A (zh) * | 2019-01-30 | 2019-06-14 | 北京津发科技股份有限公司 | 注意追踪策略的识别方法、训练方法及其装置 |
CN110286754A (zh) * | 2019-06-11 | 2019-09-27 | Oppo广东移动通信有限公司 | 基于眼球追踪的投射方法及相关设备 |
CN111309144A (zh) * | 2020-01-20 | 2020-06-19 | 北京津发科技股份有限公司 | 三维空间内注视行为的识别方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
See also references of EP4016255A4 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114022642A (zh) * | 2021-10-08 | 2022-02-08 | 北京津发科技股份有限公司 | 时空行为轨迹采集、生成方法、装置、设备、系统及存储介质 |
CN114022642B (zh) * | 2021-10-08 | 2022-07-19 | 北京津发科技股份有限公司 | 时空行为轨迹采集、生成方法、装置、设备、系统及存储介质 |
CN114578975A (zh) * | 2022-05-09 | 2022-06-03 | 南昌虚拟现实研究院股份有限公司 | 眼动追踪设备的注视点质量评测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP4016255A4 (en) | 2022-12-07 |
CN111309144B (zh) | 2022-02-01 |
EP4016255A1 (en) | 2022-06-22 |
CN111309144A (zh) | 2020-06-19 |
US20220206575A1 (en) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021147905A1 (zh) | 三维空间内注视行为的识别方法、装置及存储介质 | |
US10489651B2 (en) | Identifying a position of a marker in an environment | |
WO2017186016A1 (zh) | 图像形变处理的方法和装置、计算机存储介质 | |
WO2018205803A1 (zh) | 位姿估计方法和装置 | |
CN104317391A (zh) | 一种基于立体视觉的三维手掌姿态识别交互方法和系统 | |
CN112070782B (zh) | 识别场景轮廓的方法、装置、计算机可读介质及电子设备 | |
CN111047634B (zh) | 场景深度的确定方法、装置、设备及存储介质 | |
CN111596767B (zh) | 一种基于虚拟现实的姿态捕获方法和装置 | |
CN111709973A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
JP7379065B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN102713975B (zh) | 图像整理系统、图像整理方法和计算机程序 | |
CN107504917A (zh) | 一种三维尺寸测量方法及装置 | |
US10600202B2 (en) | Information processing device and method, and program | |
Shmuel et al. | Active vision: 3d from an image sequence | |
Li et al. | A flexible technique to select objects via convolutional neural network in VR space | |
WO2019148311A1 (zh) | 信息处理方法和系统、云处理设备及计算机程序产品 | |
KR20150069739A (ko) | 스테레오비전 기반의 어류 개체수 측정방법과 이를 적용한 패턴인식 시스템 | |
CN107563333A (zh) | 一种基于测距辅助的双目视觉手势识别方法和装置 | |
Lin et al. | DPL-SLAM: Enhancing Dynamic Point-Line SLAM through Dense Semantic Methods | |
JP2015058246A (ja) | 視線分析システム | |
CN110706202B (zh) | 一种非典型目标探测方法、装置和计算机可读存储介质 | |
Khan et al. | Skeleton based human action recognition using a structured-tree neural network | |
KR20130081126A (ko) | 손 제스처 인식 방법 및 그 장치 | |
Paletta et al. | A computer vision system for attention mapping in SLAM based 3D models | |
TWI460683B (zh) | The way to track the immediate movement of the head |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21745193 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2021745193 Country of ref document: EP Effective date: 20220317 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |