WO2013175701A1 - 映像解析装置、映像解析方法、および注視点表示システム - Google Patents

映像解析装置、映像解析方法、および注視点表示システム Download PDF

Info

Publication number
WO2013175701A1
WO2013175701A1 PCT/JP2013/002483 JP2013002483W WO2013175701A1 WO 2013175701 A1 WO2013175701 A1 WO 2013175701A1 JP 2013002483 W JP2013002483 W JP 2013002483W WO 2013175701 A1 WO2013175701 A1 WO 2013175701A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
light source
movement
head
image
Prior art date
Application number
PCT/JP2013/002483
Other languages
English (en)
French (fr)
Inventor
善数 大貫
Original Assignee
株式会社ソニー・コンピュータエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・コンピュータエンタテインメント filed Critical 株式会社ソニー・コンピュータエンタテインメント
Priority to CN201380025947.1A priority Critical patent/CN104302226B/zh
Priority to US14/400,979 priority patent/US9727130B2/en
Publication of WO2013175701A1 publication Critical patent/WO2013175701A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3209Monitoring remote activity, e.g. over telephone lines or network connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1087Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals comprising photodetecting means, e.g. a camera
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6045Methods for processing data by generating or executing the game program for mapping control signals received from the input arrangement into game commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Definitions

  • the present invention relates to a video analysis device, a video analysis method, and a gaze point display system.
  • Point-of-gage (POG) estimation technology has long been studied, and many fields related to computer interaction, such as information input to a computer and observation of human attention on a web browser Applied to In order to achieve highly accurate gaze point estimation, it may be performed to accurately measure the curvature center of the cornea and the pupil center in consideration of light refraction.
  • the gaze point estimation technique when applied to an application such as a game, for example, it is required that the gaze point control can be easily performed with a comfortable operation, rather than always estimating the gaze point accurately. In other words, there is a need for a technique that can accurately align the cursor with the target while placing a line of sight on the target.
  • the present invention has been made in view of these problems, and an object thereof is to provide a technology that makes it possible to control a fixation point without increasing the computational cost.
  • one mode of the present invention is a picture analysis device.
  • This device uses two light sources, a first light source that moves in conjunction with the movement of the head of the user, and a second light source whose relative position is invariant with respect to the image presentation unit that the user views
  • An image acquisition unit for acquiring an image captured by an imaging element that moves an area including the respective reflected light of light emitted to any one eyeball in conjunction with the movement of the head of the user;
  • a head movement estimation unit for estimating the movement of the head of the user based on the relative position of the reflected light of the second light source to the reflected light of the first light source in the image acquired by the acquiring unit.
  • Another aspect of the present invention is a video analysis method.
  • This method uses two light sources, a first light source that moves in conjunction with the movement of the head of the user, and a second light source whose relative position is invariant with respect to the image presentation unit that the user views
  • An image captured by an imaging element moving in conjunction with the movement of the head of the user acquires an image captured by an area including the respective reflected light of light emitted to any one eyeball, and two images in the image are obtained.
  • the processor is caused to estimate the motion of the user's head based on the relative position of the reflected light.
  • Yet another aspect of the present invention is a gaze point display system.
  • This system is an imaging device for imaging one of the eyeballs of the user, and the head mounted imaging device that moves in conjunction with the movement of the head of the user and the eyeball imaged by the imaging device
  • a user's head based on a relative position of a second light source attached to the image presentation unit and reflected light of the second light source with respect to reflected light of the first light source in an image captured by the imaging device
  • Head movement estimating unit for estimating the movement of the eyeball, and an eyeball movement estimating unit for estimating the movement of the eyeball imaged by the imaging device, the absolute position of the reflected light of the first light source in the image imaged by the imaging device
  • Motion of the head of the estimated user A curs
  • Yet another aspect of the present invention is a program that causes a computer to realize the steps of the above method.
  • This program may be provided as part of firmware incorporated into a device to perform basic control of hardware resources such as video and audio decoders.
  • This firmware is stored, for example, in a semiconductor memory such as a ROM (Read Only Memory) or a flash memory in the device.
  • a computer readable recording medium recording the program may be provided, and the program may be transmitted via a communication line.
  • FIG. 17 is a diagram showing coordinates of P cor corresponding to each P gaze on the screen in the methods A-1 and A-2 according to the embodiment.
  • Method C a diagram showing the coordinates of the relative positions of P Cor_scr and P cor_hm. It is a figure which shows the experimental system for comparing the performance of each method which concerns on embodiment. It is a figure which shows the calibration process of each phase which concerns on embodiment, and a calibration result. It is a figure which shows the presumed gaze point in case a test subject tracks nine markers on a screen.
  • 13A to 13D illustrate the positional relationship between the position P cor — hm of the reflected light of the first light source 220 and the position P cor — scr of the reflected light of the second light source 400. It is a flow chart which shows a flow of processing in a gaze point display system concerning an embodiment.
  • the gaze point estimation technology has been studied for a long time, and has been applied to many fields related to computer interaction, such as information input to a computer and observation of a person's attention on a web browser. In almost all situations, one of the most important concerns is high accuracy gaze estimation. In order to achieve this purpose, it may be performed to accurately measure the curvature center of the cornea and the pupil center in consideration of light refraction. Although this method is very accurate, it requires relatively high computational power and causes delays. In a game, such complicated image processing should be avoided as much as possible, since minimizing input data delay is one of the most important requirements.
  • FIG. 1 is a system diagram of a gaze tracking system using corneal reflection.
  • two infrared light sources are shown, one on the screen and the other on the head.
  • any one of these is used for gaze point estimation.
  • the light power of the light sources on the screen is relatively strong (a configuration in which the three light sources are arranged in two rows), and a very low light source is placed close to the nose tip. ing.
  • the reason for the former choice is to effectively distinguish the reflection of the two light sources, and the reason for the latter choice is to consider the adverse effect on the eye.
  • the camera is mounted on the head in order to obtain eye images with higher resolution. It is configured to be able to detect infrared reflection efficiently by removing the infrared blocking sheet using a standard USB 2.0 camera.
  • M is a mapping transformation matrix.
  • M is calculated in the calibration process. In this process, the subject gazes at a certain number of fixed points (usually four corners and the center) on the screen, and the coordinates of the corneal reflection points are measured respectively. Based on this relationship expressed in equation (1), the effect of head movement in gaze estimation is simulated using two simple gaze estimation techniques as shown below. In this simulation, as shown in FIG. 1, the subject gazes at nine markers arranged in a grid shape, spreading over the entire screen, and the subject rotates his head by 10 degrees in the horizontal and vertical directions. The parameters used in this simulation are shown in Table 1.
  • a simple mapping method to estimate the gaze point using corneal reflection of a single light source (Method A)
  • One of the simplest methods of gaze estimation is to map P cor to P gaze , it is well known that head movements are sensitive to mapping.
  • FIG. 2 shows coordinates of P cor corresponding to each P gaze on the screen in the methods A-1 and A-2.
  • the method A-1 is a case using P cor of a light source installed on the screen, and is represented by P cor — scr .
  • the mapping transformation can be expressed by the following equation (2).
  • P gaze M scr ⁇ P cor_scr (2)
  • M scr represents a calibrated mapping transformation matrix
  • P gaze represents an estimated gaze point.
  • Method A-2 is a case using P cor of a light source mounted on the head, and is represented by P cor — h m .
  • M hm represents a calibrated mapping transformation matrix
  • Method A-2 is less affected by head movement than Method A-1, but the distortion of the point sequence becomes severer, particularly when the subject moves his head to the right. This is due to the relationship between the position of the camera and the position of the head mounted light source, and although the position adjustment improves the situation, the trend does not change much.
  • FIG. 2 shows coordinates of relative positions of P cor and pupil center corresponding to each P gaze on the screen in the methods B-1 and B-2.
  • method B-1 shows a case using P cor of the light source on the screen.
  • the mapping transformation can be expressed by the following equation (4).
  • P gaze M scr_pup (P cor_scr- C pup ) (4)
  • M scr_pup represents a calibrated mapping transformation matrix
  • C pup represents coordinates of the pupil center.
  • Method B-2 shows a case using P cor of a head mounted light source.
  • the mapping conversion can be expressed by the following equation (5).
  • P gaze M hm_pup (P cor_hm -C pup ) (5)
  • M hm — pup is a calibrated mapping transformation matrix.
  • the proposed technology takes advantage of the property that the relative position between P cor — scr and P cor — hm reflects head movement. Furthermore, in combination with method A, a new gaze estimation technique in a head-moving situation is presented. The important point is that all procedures do not require pupil center detection, which allows the computational power required to be relatively low.
  • FIG. 3 shows the coordinates of the relative position of P cor — scr and P cor — hm in the method C.
  • the mapping transformation can be expressed by the following equation (6).
  • P gaze M scr_hm ( Pcor_scr- Pcor_hm ) (6)
  • Mscr_hm represents a calibrated mapping transformation matrix.
  • Method A is the simplest technique for estimating the fixation point, but the influence of head movement is extremely large.
  • method C reflects head movement purely, and the influence of eye movement is almost eliminated.
  • the proposed technology is based on the idea that using the method C eliminates the influence of the head movement in the method A.
  • method D is represented by the following equation (7).
  • P gaze M hm ⁇ P cor_hm + M scr_hm ⁇ (P cor_scr- P cor_hm ) (7)
  • the method D of FIG. 3 can be obtained by simulating P cor — h m + M h m ⁇ 1 ⁇ M scr — h m (P cor — scr ⁇ P cor — h m ), provided that the mapping conversion is a simple linear conversion. That is, by using the result of method C, the influence of head movement in method A-2 can be eliminated, and P gaze can be accurately estimated.
  • FIG. 4 shows an experimental system for comparing the performance of each of the above-described techniques. Since the example shown in FIG. 4 is an early prototype, the appearance is handmade but works well. In the example shown in FIG. 4, two cameras are placed in front of each of the left and right eyes, but only one of them is used in the evaluation. The size of the image taken by the camera is VGA (Video Graphics Array), and the shooting speed is about 10 fps.
  • VGA Video Graphics Array
  • FIG. 5 shows the calibration process of each phase and the calibration result.
  • the subject gazes at nine markers in succession. In this procedure, it is important that the subject move only his eyes without moving his head.
  • An example of the measured P cor — hm results is shown in “Result of method A-2” in FIG.
  • the unit of each axis is the pixel of the camera under the condition that the captured full-size camera image is 640 ⁇ 480 pixels.
  • the motions of the markers are the same as in the previous order, and further, the central marker and the estimated gaze point of method A-2 are indicated throughout the procedure.
  • the subject looks at the nine markers one by one and moves the head so that the markers of the estimated fixation point overlap the center markers.
  • An example of the measured results of P cor — scr ⁇ P cor — hm is shown in “Result of method C” in FIG. This result shows that the head movement can be measured relatively accurately.
  • method D can be achieved by a linear combination of the methods A-2 and Method C .
  • FIG. 6 shows an estimated gazing point when the subject tracks nine markers on the screen. In this experiment, subjects are not restricted from moving their head, so the effects of head movement are observed directly.
  • the unit of each axis is a pixel of the camera under the condition that the original size of the panel is 1920 ⁇ 1080 and the window size of the experimental application is 1300 ⁇ 940 (corresponding to the size of 20 cm wide and 14 cm high).
  • FIG. 7 shows a locus when the subject superimposes the cursor one by one on ten fixed markers.
  • method A-2 first, the cursor moves quickly, and then the procedure of placing the cursor by the head movement is seen. Although the marker may be passed, the cursor surely reaches the marker.
  • the stress on the subject is not large because the influence of the head movement is clear.
  • method B-2 the cursor moves very quickly, and in most cases does not require a cursor positioning step. However, if the cursor deviates from the marker, the subject feels stress that the cursor can not be moved toward the marker at all.
  • Method A-2 involves fixing the head and moving only the eyes. Furthermore, in the method A, the subject moves the head to the left in order to move the cursor to the right because the cursor moves in the direction opposite to the head movement. If the cursor goes off the marker, the subject will move his head in the opposite direction to the marker, but when tracking the moving marker, the subject tends to be confused.
  • Method B-2 can estimate the gaze accurately and can cope with head movements.
  • method B-2 has a negative characteristic that it is relatively difficult to correct an error using head movement once the cursor is out of the marker. This is the reason why sometimes the score is particularly bad in method B-2.
  • method B-2 also has the characteristic that the cursor moves in the direction opposite to the head movement.
  • the effect was quite small, some subjects could not clearly feel the effect and could not bring the cursor closer. Under such circumstances, some subjects try to avoid by slightly moving their eyes from the marker.
  • Method C As the method C is not affected by the movement of the eyes, the subject has to control the cursor only by the movement of the head. Since the cursor can not be moved quickly due to the intermittent eye movement, Method C has a disadvantage that it takes time to bring the cursor close to the marker. However, all subjects were able to reach the marker reliably with clear head movements. As a result, although it took time to get close to the cursor, a stable score was obtained.
  • Method D has both characteristics of the effect of head movement in Method C and the effect of eye movement in Method A-2.
  • the subject gazes at a fixed point and moves his head the cursor moves slowly in the same direction as the movement of the head.
  • the level of gaze estimation is slightly lower than that of method B-2, but even if the cursor deviates from the marker, the subject can easily correct it with intuitive head movement. This is the reason why no particularly bad score was found in method D.
  • method D can be said to be well balanced between intermittent eye movement and intuitive operation by head movement.
  • FIG. 11 is a diagram schematically showing an entire configuration of a gaze point display system 100 according to the embodiment.
  • the gaze point display system 100 according to the embodiment includes a headset 200, a video analysis device 300, a video presentation unit 500, and a second light source 400 attached to the video presentation unit 500.
  • the headset 200 is configured to be worn on the head of the user and used, and the imaging device 210 for capturing an image including an eyeball of either the right eye or the left eye of the user and the imaging device 210 capture images And a first light source 220 for emitting infrared light to one eyeball.
  • the first light source 220 corresponds to the infrared light source mounted on the head of the above-described base technology [II], and the imaging device 210 corresponds to a standard USB 2.0 camera from which the infrared blocking sheet is removed. Since the headset 200 is mounted on the head of the user, both the imaging device 210 and the first light source 220 move in conjunction with the movement of the head of the user.
  • Infrared light is also emitted from the second light source 400 whose relative position is unchanged with respect to the image presentation unit 500 to which the user is to observe, in the eyes of the first light source 220 emitting infrared light.
  • the image presentation unit 500 corresponds to the screen in the above-described base technology [II], and is realized by, for example, a liquid crystal monitor or the like.
  • the second light source 400 corresponds to the light source on the screen described above, and is configured to arrange three light sources in two rows to emit relatively strong light.
  • the imaging element 210 follows the area including the reflected light of each of the first light source 220 and the second light source 400 reflected on the eye of the user. An example of an image captured by the imaging element 210 is shown in FIG.
  • the video analysis device 300 includes a video acquisition unit 310, a head movement estimation unit 320, an eye movement estimation unit 330, a gaze position acquisition unit 340, and a cursor generation unit 350.
  • the image acquisition unit 310 acquires an image of an area including the reflected light of each of the first light source 220 and the second light source 400 reflected on the eye of the user, which is imaged by the imaging element 210.
  • the head movement estimation unit 320 estimates the movement of the head of the user based on the relative position of the reflected light of the second light source 400 with respect to the reflected light of the first light source 220 in the image acquired by the image acquisition unit 310. .
  • the position of the reflected light of the first light source 220 reflected on the eye of the user is P cor — hm in the above-mentioned base technology
  • the position of the reflected light of the second light source 400 reflected on the eye of the user is P described above It is cor_scr .
  • the position P cor — hm of the reflected light of the first light source 220 in the image can be represented by position coordinates in the image captured by the imaging element 210.
  • the image captured by the imaging element 210 is VGA size and has a resolution of 640 pixels ⁇ 480 pixels.
  • the head movement estimation unit 320 estimates the movement of the user's head from the direction and magnitude of the position vector starting from the position coordinates of the reflected light of the first light source 220 and ending at the reflected light of the second light source 400. Determine the quantity.
  • the eye movement estimation unit 330 estimates the movement of the eye captured by the imaging device 210 based on the absolute position P cor — hm of the reflected light of the first light source 220 in the image captured by the imaging device 210.
  • the gaze position acquisition unit 340 uses the movement of the head of the user estimated by the head movement estimation unit 320 and the movement of the eyeball estimated by the eye movement estimation unit 330 in the display area of the video presentation unit 500. An estimated value of the gaze position P gaze of the
  • FIG. 12 is a diagram schematically showing an internal configuration of the head movement estimation unit 320 and the eyeball movement estimation unit 330 according to the embodiment.
  • the eye movement estimation unit 330 includes a first position coordinate acquisition unit 332 and a first conversion unit 334.
  • the head movement estimation unit 320 further includes a second position coordinate acquisition unit 322, a position vector acquisition unit 324, and a second conversion unit 326.
  • the first position coordinate acquisition unit 332 in the eye movement estimation unit 330 acquires the position coordinate P cor — hm of the reflected light of the first light source 220 in the image captured by the imaging element 210.
  • the first conversion unit 334 integrates the first conversion matrix M hm with the position coordinates P cor — hm of the reflected light of the first light source 220 acquired by the first position coordinate acquisition unit 332, and the image presentation unit that the user makes an observation target Convert to position coordinates in 500 display areas. This is based on equation (3) above.
  • the second position coordinate acquisition unit 322 in the head movement estimation unit 320 acquires the position coordinate P cor — scr of the reflected light of the second light source 400 in the image captured by the imaging device 210.
  • the second conversion unit 326 converts the position vector V hm scr acquired by the position vector acquisition unit 324 into position coordinates in the display area of the image presentation unit 500 to be observed by the user, using the second transformation matrix M scr_hm. . This is based on equation (6) above.
  • Figure 13 is a diagram illustrating the positional relationship between the position coordinate P Cor_scr of the reflected light coordinates P Cor_hm a second light source 400 of the reflected light of the first light source 220.
  • reference numeral 602 denotes the position P cor — hm of the reflected light of the first light source 220
  • reference numeral 604 denotes the position P cor — scr of the reflected light of the second light source 400.
  • Reference numeral 606 indicates a position C pup of the pupil center.
  • FIG. 13A is a view schematically showing an example of an image captured by the imaging element 210 when the head of the user faces the front and the eyeball of the user is present near the center of the eye.
  • FIG. 13B schematically shows an example of an image captured by the imaging element 210 when the user moves the head of the user while keeping the eyeball positioned near the center of the eye.
  • both the imaging device 210 and the first light source 220 are provided in the headset 200, and these move in conjunction with the movement of the head of the user. Therefore, when the user moves the head without changing the position of the eyeball, the relative positional relationship between the imaging device 210, the first light source 220, and the eyeball of the user does not change. Therefore, as shown in FIGS. 13A and 13B, if the user moves the head but does not change the position of the eyeball, the reflection of the first light source 220 in the image captured by the imaging element 210 Position coordinates of the light position P cor — hm hardly change. In other words, the position coordinates of the position P cor — hm of the reflected light of the first light source 220 in the image captured by the imaging element 210 are determined by the position of the eyeball, not by the movement of the head of the user.
  • the second light source 400 is not connected to the user's head. Therefore, when the user moves the head, even if the user does not change the position of the eye, the positional relationship between the second light source 400 and the eye of the user changes. Therefore, as shown in FIGS. 13A and 13B, the second light source in the image captured by the imaging element 210 can be obtained by moving the head even when the user does not change the position of the eyeball.
  • the position coordinates of the position P cor — scr of the reflected light of 400 change.
  • FIG. 13C is a view schematically showing an example of an image captured by the image sensor 210 when the eyeball is moved from near the center to the end of the eye while the head of the user faces the front. .
  • the imaging element 210 and the first light source 220 move in conjunction with the movement of the head of the user but do not move in synchronization with the movement of the eye of the user. Therefore, as shown in FIGS. 13A and 13C, even when the user does not move the head, the first light source 220 in the image captured by the imaging element 210 by moving the eyeball. position coordinates of the position P Cor_scr of reflected light position P Cor_hm and the second light source 400 of the reflected light changes.
  • the relative positional relationship between the position P cor_hm of the reflected light of the first light source 220 and the position P cor_scr of the reflected light of the second light source 400 almost changes because the human eyeball is substantially spherical or the like. do not do.
  • the relative positional relationship between the position P cor — hm of the reflected light of the first light source 220 and the position P cor — scr of the reflected light of the second light source 400 is determined by the position of the head regardless of the movement of the user's eye.
  • the embodiment of the present invention is a first fact that the position coordinates of the position P cor — hm of the reflected light of the first light source 220 in the image captured by the imaging element 210 is determined by the position of the eye regardless of the movement of the head by the user.
  • the second fact that the relative positional relationship between the position P cor_hm of the reflected light of the first light source 220 and the position P cor_scr of the reflected light of the second light source 400 is determined by the position of the head regardless of the movement of the user's eye And to estimate the gaze point P gaze of the user.
  • the method A-2 in the above-mentioned prior art is a method using the first fact
  • the method C is a method using the second fact.
  • FIG. 13D shows an image captured by the image sensor 210 when the user moves the head to the position shown in FIG. 13B and the eyeball to the position shown in FIG.
  • FIG. 6 schematically shows an example of FIG.
  • the first fact and the second fact described above are independent events. Therefore, as shown in FIG. 13 (d), the position of the position P cor_hm of the reflected light of the first light source 220 is substantially the same as the position shown in FIG. 13 (b), and the position P of the reflected light of the first light source 220 The relative positional relationship between cor_hm and the position P cor scr of the reflected light of the second light source 400 is substantially the same as the position shown in FIG.
  • the eye movement estimation unit 330 estimates the movement of the user's eye from the position coordinates of the position P cor_hm of the reflected light of the first light source 220, and the head movement estimation unit 320 calculates the position P of the reflected light of the first light source 220 Estimating the motion of the user's head and the motion of the eye independently by estimating the motion of the user's head from the relative positional relationship of the position P cor_scr of the reflected light of the second light source 400 with the cor_hm Is possible.
  • the gaze direction of the user can also be estimated by combining the movement of the head of the user and the movement of the eyeball.
  • the first conversion matrix M hmm used by the first conversion unit 334 moves the gaze position P gaze in the display area of the image presentation unit 500 by the user fixing the movement of the head and moving the eye It is a matrix of the size of 2 rows 2 columns calculated beforehand based on position P cor_hm of the catoptric light of the 1st light source 220 of the time, and the absolute position coordinate in the display field of the gaze position P gaze .
  • position coordinates in the image captured by the imaging element 210 at the position P cor_hm of the reflected light of the first light source 220 are (x 1 , y 1 ), and display of the image presentation unit 500 of the gaze position P gaze at that time Position coordinates in the region are (X 1 , Y 1 ).
  • the matrix M hm is a matrix that maps position coordinates in the image captured by the imaging element 210 to position coordinates in the display area of the image presentation unit 500.
  • M hm can be determined by the calibration process of the technique A-2 of the above-mentioned prior art.
  • the symbol "T" represents transposition of a vector.
  • the specific calculation means of the second transformation matrix M scr_hm is the same as the calculation means of the first transformation matrix M hm . That is, the position coordinates of the position P cor_hm of the reflected light of the first light source 220 in the image captured by the imaging element 210 are (x 1 , y 1 ), and the position coordinates of the position coordinate P cor_scr of the reflected light of the second light source 400 Position coordinates in the display area of the image presentation unit 500 of x 2 and y 2 ) and the gaze position P gaze at that time are set to (X 2 , Y 2 ).
  • the matrix M scr_hm is also a matrix that maps the position coordinates in the image captured by the imaging element 210 to the position coordinates in the display area of the image presentation unit 500.
  • the matrix Mscr_hm can be obtained by the calibration process of the technique C of the above-mentioned prior art.
  • the gaze position acquisition unit 340 in the video analysis device 300 converts the position coordinates (X 1 , Y 1 ) acquired by conversion by the first conversion unit 334 and the second conversion unit.
  • the position coordinates of the gaze position P gaze of the user in the display area of the image presentation unit 500 are determined by adding the acquired position coordinates (X 2 , Y 2 ).
  • the gaze position acquiring unit 340 M hm ⁇ P cor_hm + M scr_hm ⁇ a (P cor_scr -P cor_hm) was calculated based on Equation (7) described above, to obtain the position coordinates of the gaze position P gaze.
  • the cursor generation unit 350 controls the position of the cursor displayed on the image presentation unit 500 based on the gaze position P gaze of the user in the display area acquired by the gaze position acquisition unit 340.
  • FIG. 14 is a flowchart showing a flow of fixation point display processing in the fixation point display system 100 according to the embodiment.
  • the processing in this flowchart starts, for example, when the power of the video analysis device 300 is turned on.
  • the imaging element 210 provided in the headset 200 captures an eye of a user wearing the headset 200, including the reflected light of the first light source 220 and the second light source 400 (S2).
  • the first position coordinate acquisition unit 332 acquires the position coordinate P cor — h m of the reflected light of the first light source 220 (S4).
  • the first conversion unit 334 acquires position coordinates in the display area caused by the position coordinate P cor_hm of the reflected light of the first light source 220 acquired by the first position coordinate acquisition unit 332 using the first transformation matrix M hm (S6).
  • the second position coordinate acquisition unit 322 acquires the position coordinate P cor — scr of the reflected light of the second light source 400 (S8).
  • the position vector acquisition unit 324 uses the position coordinates P cor_hm of the reflected light of the first light source 220 acquired by the first position coordinate acquisition unit 332 as a start point, and the reflected light of the second light source 400 acquired by the second position coordinate acquisition unit 322 A position vector V hm_scr having an end point at the position coordinate P cor — scr of S is acquired (S10).
  • the second transformation unit 326 acquires position coordinates resulting from head movement of the user by using the second transformation matrix M scr — hm as the position vector V hm — scr acquired by the position vector acquisition unit 324 (S12).
  • the gaze position acquisition unit 340 adds the position coordinates acquired by the first conversion unit 334 and the position coordinates acquired by the second conversion unit 326, and the position of the user's gaze point P gaze in the display area of the video presentation unit 500. Is calculated (S14).
  • the cursor generation unit 350 moves the position of the cursor displayed on the image presentation unit 500 based on the gaze position P gaze of the user in the display area acquired by the gaze position acquisition unit 340 (S16). When the cursor generation unit 350 moves the position of the cursor to be displayed on the image presentation unit 500, the processing in this flowchart ends.
  • the usage scene of the gaze point display system 100 having the above configuration is as follows.
  • the user wears the headset 200 according to the embodiment and looks at the display area of the video presentation unit 500.
  • the imaging element 210 provided in the headset 200 captures an area including the eyeball of the user.
  • the image analysis apparatus 300 is configured to transmit infrared light emitted from the first light source 220 moving in conjunction with the movement of the head of the user and infrared light emitted from the second light source 400 attached to the image presentation unit 500.
  • the position of the user's gaze point in the display area of the image presentation unit 500 is estimated from the positional relationship between the two reflected lights and the light, and the cursor is moved to that position.
  • the point-of-gaze display system 100 it is possible to provide a technique that enables control of the point-of-gaze without increasing the calculation cost.
  • the gaze point display system 100 since the position of the pupil center of the user is not used to estimate the gaze point of the user, the calculation for obtaining the pupil center position can be omitted. Moreover, since the motion of the head of the user and the motion of the eyeball can be estimated separately, such information can be used independently. As a result, for example, it is possible to realize an operation of moving the cursor by the movement of the line of sight while panning the background image in conjunction with the movement of the head. In addition, when the movement or position of the head and the movement or position of the eyeball have a specific relationship, specific processing can also be realized. More specifically, for example, when the head and the eye move in the same direction, processing such as scrolling the screen in that direction can be realized.
  • the second light source 400 has been described above on the premise that it is attached to the image presentation unit 500, the second light source 400 does not have to be installed near the image presentation unit 500.
  • the second light source 400 may be installed at a position where it can emit infrared light to the eyeball of the user independently of the movement of the head of the user.
  • the video presentation unit 500 is an observation target of the user. Therefore, the distance between the second light source 400 and the image presentation unit 500 is preferably as short as possible because the irradiation light of the second light source 400 can be easily irradiated to the eyes of the user.
  • the gaze point P gaze may be estimated by combining the method B-2 and the method C in the above-described base technology.
  • the mapping transformation can be expressed by the following equation (9).
  • P gaze M 1 ⁇ P cor_hm + M 2 ⁇ P cor_scr + M 3 ⁇ C pup (9)
  • M 1 , M 2 and M 3 are generalized transformation matrices. One or two of M 1 , M 2 and M 3 may be zero matrices.
  • a C pup when the computational resources can afford to use the gazing point estimation, when you want to lower the computational cost to achieve a flexible gazing point estimation such estimates the gaze point without using the C pup be able to.
  • 100 fixation point display system 200 headset, 210 image pickup device, 220 first light source, 300 image analysis device, 310 image acquisition unit, 320 head movement estimation unit, 322 second position coordinate acquisition unit, 324 position vector acquisition unit, 326 second conversion unit, 330 eye movement estimation unit, 332 first position coordinate acquisition unit, 334 first conversion unit, 340 gaze position acquisition unit, 350 cursor generation unit, 400 second light source, 500 video presentation unit.
  • the present invention is applicable to a video analysis device, a video analysis method, and a gaze point display system.

Abstract

 映像取得部310は、ユーザの頭部の動きと連動して移動する第1光源220と、ユーザが観察対象とする映像提示部500に対して相対位置が不変な第2光源400とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子210が撮像した映像を取得する。頭部移動推定部320は、映像取得部310が取得した映像中における第1光源220の反射光に対する第2光源400の反射光の相対位置をもとに、ユーザの頭部の動きを推定する。

Description

映像解析装置、映像解析方法、および注視点表示システム
 本発明は、映像解析装置、映像解析方法、および注視点表示システムに関する。
 注視点(Point-Of-Gage;POG)の推定技術は長く研究されており、コンピュータへの情報入力や、ウェブブラウザ上での人の注目対象の観察など、コンピュータとの対話に関わる多くの分野に応用されている。高精度な注視点推定を達成するため、角膜の湾曲中心と瞳孔中心とを光屈折を考慮して正確に計測することが行わることもある。
 一方で、注視点の推定技術を例えばゲームのようなアプリケーションに適用する場合、注視点を常に正確に推定することよりも、快適な操作で簡単に注視点制御ができることが求められる。言い換えると、ターゲットに視線を置きつつカーソルをターゲットに正確に合わせられる技術が望まれている。
 上述した角膜の湾曲中心と瞳孔中心とを光屈折を考慮した注視点の推定技術は精度は高いが、比較的高い計算能力を必要とするため遅延が生じうる。
 本発明はこうした課題に鑑みてなされたものであり、その目的は、計算コストをかけずに注視点を制御することを可能とする技術を提供することにある。
 上記課題を解決するために、本発明のある態様は映像解析装置である。この装置は、ユーザの頭部の動きと連動して移動する第1光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第2光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する映像取得部と、前記映像取得部が取得した映像中における前記第1光源の反射光に対する前記第2光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部とを含む。
 本発明の別の態様は、映像解析方法である。この方法は、ユーザの頭部の動きと連動して移動する第1光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第2光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得し、当該映像中におけるふたつの反射光の相対位置をもとにユーザの頭部の動きを推定することをプロセッサに実行させる。
 本発明のさらに別の態様は、注視点表示システムである。このシステムは、ユーザのいずれか一方の眼球を撮像する撮像素子であって、ユーザの頭部の動きと連動して移動する頭部装着型撮像素子と、前記撮像素子が撮像する眼球に光を照射する光源であって、前記撮像素子の動きと連動して移動する第1光源と、ユーザが観察対象とする映像提示部と、前記撮像素子が撮像する眼球に光を照射する光源であって、前記映像提示部に取り付けられた第2光源と、前記撮像素子が撮像する映像中における前記第1光源の反射光に対する前記第2光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部と、前記撮像素子が撮像する映像中における前記第1光源の反射光の絶対位置を、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部と、前記注視位置取得部が取得した注視位置と対応する前記映像提示部の表示領域における位置に表示させるカーソル画像を生成するカーソル生成部とを含む。
 本発明のさらに別の態様は、上記の方法の各ステップをコンピュータに実現させるプログラムである。
 このプログラムは、ビデオやオーディオのデコーダ等のハードウェア資源の基本的な制御を行なうために機器に組み込まれるファームウェアの一部として提供されてもよい。このファームウェアは、たとえば、機器内のROM(Read Only Memory)やフラッシュメモリなどの半導体メモリに格納される。このファームウェアを提供するため、あるいはファームウェアの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。
 なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
 本発明によれば、計算コストをかけずに注視点を制御することを可能とする技術を提供することができる。
実施の形態に係る角膜反射を用いた視線追跡システムの系統図である。 実施の形態に係る手法A-1およびA-2における、画面上の各Pgazeに対応するPcorの座標を示す図である。 実施の形態に係る手法Cにおける、Pcor_scrとPcor_hmの相対位置の座標を示す図である。 実施の形態に係る各手法の性能を比較するための実験システムを示す図である。 実施の形態に係る各フェーズのキャリブレーションプロセスとキャリブレーション結果を示す図である。 被験者が画面上の9つのマーカを追跡する場合の推定注視点を示す図である。 被験者が10個の固定されたマーカにカーソルを1つずつ重ねる場合の軌跡を示す図である。 実施の形態に係る各手法のゲームの使用事例における性能を評価するためのアプリケーションを示す図である。 実施の形態に係る各手法のゲームの使用事例における性能を評価した結果を示す図である。 実施の形態に係る各手法のゲームの使用事例における性能を評価した結果を示す別の図である。 実施の形態に係る注視点表示システムの構成を模式的に示す図である。 実施の形態に係る頭部移動推定部および眼球移動推定部の内部構成を模式的に示す図である。 図13(a)-(d)は、第1光源220の反射光の位置Pcor_hmと第2光源400の反射光の位置Pcor_scrとの位置関係を例示する図である。 実施の形態に係る注視点表示システムにおける処理の流れを示すフローチャートである。
 以下本発明を好適な実施の形態をもとに説明する。まず、実施の形態の基礎となる理論を前提技術として述べ、その後、具体的な実施の形態を説明する。
 (前提技術)
 I.はじめに
 注視点の推定技術は長く研究されており、コンピュータへの情報入力や、ウェブブラウザ上での人の注目対象の観察など、コンピュータとの対話に関わる多くの分野に応用されている。ほとんどすべての状況において、最も重大な関心事の1つが高精度な注視点推定である。この目的を達成するため、角膜の湾曲中心と瞳孔中心とを光屈折を考慮して正確に計測することが行わることもある。この方法は非常に精度が高いが、比較的高い計算能力を必要とするため遅延が生じる。ゲームにおいては、入力データの遅延を最小限にすることが最も重要な要件の1つとなるため、このような複雑な画像処理は可能な限り避けるべきである。
 一方で、ゲームにおける視線推定の効果的な利用を考えた場合に、まず思いつくのがファーストパーソン・シューティングゲーム(First Person Shooter;FPS)への応用である。完全に正確な視線推定が実現できればすぐに適用可能であるが、現実には多くの要因によって、実際の注視点から簡単にずれがちである。このような状況で、ターゲットに照準を合わせる際に重要なのは、常に正確に注視点を推定することよりも、快適な操作で簡単に注視点制御ができることである。言い換えると、ターゲットに視線を置きつつカーソルをターゲットに正確に合わせられる能力が非常に重要である。ちなみに、ゲーム制作の観点からみると、頭の動きと視線の動きとを別々に表現できると、臨場感をうまく表現できる場合がある。頭の動きと連動して背景画像をパンし、視線の動きでカーソルを移動させるケースがその代表例である。
 II.関連手法
 注視点の推定においては、角膜表面の光源反射を利用するのが一般的である。図1は、角膜反射を用いた視線追跡システムの系統図である。この図では、2つの赤外線光源が示されており、1つは画面上にあり、もう1つは頭部に搭載されている。多くの研究では、これらのいずれか1つが注視点推定に使用される。図1の画像に見られるように、画面上の光源の光力が比較的強く(3つの光源が2列に並んだ構成)、非常に出力の低い光源が鼻の先端のすぐ近くに置かれている。前者の選択の理由は、2種類の光源の反射を効果的に区別するためで、後者の選択の理由は目への悪影響を考慮しているからである。さらに、より高い解像度で目の画像を得るために、カメラを頭部に搭載している。標準的なUSB2.0カメラを用い、赤外線遮断シートを取り除くことで、効率的に赤外線反射を検出できるように構成されている。
 このシステムを使用することで、角膜反射点Pcorの座標から注視点Pgazeへのマッピング変換は以下の式(1)で表せる。
  Pgaze=M・Pcor  (1)
 式(1)において、Mはマッピング変換行列である。標準的なケースでは、Mはキャリブレーションプロセスで計算される。このプロセスでは、被験者が画面上の特定のいくつかの固定点(通常は4隅と中心)を注視し、それに伴う角膜反射点の座標がそれぞれ計測される。式(1)で表されたこの関係に基づいて、視線推定における頭の動きの影響が、以下に示す2つのシンプルな視線推定技術を用いてシミュレーションされる。このシミュレーションでは、図1のように画面全体に広がって格子状に並べられた9つのマーカを被験者が注視し、さらに被験者は左右上下に10度ずつ頭を回転させる。このシミュレーションで用いられるパラメータを表1に示す。
Figure JPOXMLDOC01-appb-T000001
 A.単一光源の角膜反射を用いて注視点を推定するシンプルなマッピング手法(手法A)
 視線推定で最もシンプルな手法の1つはPcorをPgazeにマッピングすることであるが、これは頭の動きがマッピングに敏感に影響することがよく知られている。
 図2には、手法A-1およびA-2における、画面上の各Pgazeに対応するPcorの座標を示している。ここで、手法A-1は画面の上に設置された光源のPcorを用いたケースで、Pcor_scrで表している。ここで、マッピング変換は以下の式(2)で表すことがでる。
  Pgaze=Mscr・Pcor_scr  (2)
 式(2)において、Mscrはキャリブレーション済みのマッピング変換行列を表し、Pgazeは推定注視点を表す。手法A-2は、頭部に搭載した光源のPcorを用いたケースで、Pcor_hmで表している。ここで、マッピング変換は以下の式(3)で表すことがでる。
  Pgaze=Mhm・Pcor_hm  (3)
 式(3)において、Mhmはキャリブレーション済みのマッピング変換行列を表す。
 これらの結果が示すのは、注視点は頭の動きに応じて大きく変化するため、正確に注視点を推定するには被験者が頭をしっかりと固定し、目だけを動かすようにしなければならないということである。さらに、手法A-2は手法A-1よりも頭の動きの影響は小さくなるが、特に被験者が頭を右に動かした場合に、点の並びのゆがみがひどくなる。これは、カメラの位置と頭部搭載光源の位置との関係に起因しており、位置調整によって状況は改善されるが、傾向は大きくは変わらない。
 B.角膜反射と瞳孔中心の相対位置を用いて注視点を推定するマッピング手法(手法B)
 Pcorと瞳孔中心の相対位置の検出とPgazeへのマッピングは、頭の動きに比較的左右されにくいことが知られている。図2には、手法B-1およびB-2における、画面上の各Pgazeに対応するPcorと瞳孔中心の相対位置の座標を示す。ここで、手法B-1は画面上の光源のPcorを用いたケースを示している。ここで、マッピング変換は以下の式(4)で表すことがでる。
  Pgaze=Mscr_pup・(Pcor_scr-Cpup)  (4)
 式(4)において、Mscr_pupはキャリブレーション済みのマッピング変換行列を表し、Cpupは瞳孔中心の座標を表す。手法B-2は、頭部搭載の光源のPcorを用いたケースを示す。ここで、マッピング変換は以下の式(5)で表すことがでる。
  Pgaze=Mhm_pup・(Pcor_hm-Cpup)  (5)
 式(5)において、Mhm_pupはキャリブレーション済みのマッピング変換行列である。これらの結果が示すのは、頭の動きの影響が手法A-1およびA-2に比べて小さいため、被験者が頭を動かした場合でも推定注視点は大きく変化しないということである。さらに、検出されるPcor_hm-Cpupのダイナミックレンジは手法A-1およびA-2よりも大きくなる。つまり、手法B-1およびB-2を用いることで、より高い解像度のPgazeを得ることができる。一方で、これらの結果から直接観察はできないが、Cpupを検出するための計算がより複雑になり、特に目の中心で瞳孔が定まらない場合には、信頼度の低い瞳孔認識と光の屈折の影響のために精度があまり保証されない。さらに、カメラが被験者から遠い位置にあると、頭の動きの影響があまり改善されないことが知られている。本明細書には記載しないが、別のシミュレーションによれば、カメラが画面上部に置かれていると、頭の動きの影響は無視できるほど小さくなる。しかし、今回の分析では、このような性能の高さよりも高解像度のカメラ画像が優先される。これは、遠距離カメラを使用すると高度な検出や認識の技術が必要となり、推定性能が低下してしまう恐れがあるからである。
 III.提案技術
 提案技術は、Pcor_scrとPcor_hmとの間の相対位置が頭の動きを反映するという特性を利用する。さらに、手法Aと組み合わせることで、頭が動く状況での新たな視線推定技術を提示する。重要なポイントは、すべての手順で瞳孔中心の検出が不要だということであり、これにより、必要となる計算能力を比較的低く抑えることができる。
 A.2つの光源の角膜反射の位置関係を用いて頭の動きを推定するマッピング手法(手法C)
 図3は、手法Cにおける、Pcor_scrとPcor_hmの相対位置の座標を示している。ここで、マッピング変換は以下の式(6)で表すことがでる。
  Pgaze=Mscr_hm・(Pcor_scr-Pcor_hm)  (6)
 式(6)において、Mscr_hmはキャリブレーション済みのマッピング変換行列を表す。これらの結果が示すのは、Pcor_scr-Pcor_hmは純粋に頭の動きを反映し、視線の動きの影響はほぼ排除されるということである。シミュレーションおよび実験結果によると、頭部搭載カメラ位置と頭部搭載光源位置の関係が若干結果に影響するため、それらの配置に多少の調整を要する。
 B.2つの光源の角膜反射の位置関係を用いて注視点を推定するマッピング手法(手法D)
 手法Aは、注視点を推定する最もシンプルな技術であるが、頭の動きの影響は著しく大きくなる。一方で、手法Cは純粋に頭の動きを反映し、視線の動きの影響はほぼ排除される。提案技術は、手法Cを用いることで手法Aにおける頭の動きの影響を排除するという考えに基づく。手法A-2を用いると、手法Dは以下の式(7)で表される。
  Pgaze=Mhm・Pcor_hm+Mscr_hm・(Pcor_scr-Pcor_hm)  (7)
 Mhm・Pcor_hm=0の場合、式(7)は式(6)と等しくなる。つまり、Mscr_hmをキャリブレーションする際に、Mhm・Pcor_hm=0であれば式(6)が成り立つ。実際、以下の1から4のプロセスにしたがってキャリブレーションを実行すれば、実現は難しくない。
 1.Pcor_hmを測定して、Pcor_hmからPgazeへの変換行列を計算することでMhmを推定する。このとき、被験者は頭をしっかりと固定して「キャリブレーション用マーカ」を追跡する。
 2.この最初のキャリブレーション結果を用いて、画面上にPgaze(=Mhm・Pcor_hm)を表す「マーカ1」を表示する。
 3.画面の中心(=0)に「マーカ2」を表示する。
 4.Pcor_scr-Pcor_hmを測定して、Pcor_scr-Pcor_hmからPgazeへの変換行列を計算することで、Mscr_hmを推定する。被験者は「キャリブレーション用マーカ」の追跡において、「マーカ1」が「マーカ2」に重なるよう注視する。
 あるいは、画面の中心を注視して頭を動かす際に、Pcor_hmとPcor_scrとを測定する方法もある。これら2つの要素の関係を計算することによって、Mhm -1・Mscr_hmを求めることができる。実際、図3の手法Dは、マッピング変換がシンプルな線形変換であることを条件として、Pcor_hm+Mhm -1・Mscr_hm・(Pcor_scr-Pcor_hm)をシミュレーションすることで求められる。つまり、手法Cの結果を用いることで手法A-2における頭の動きの影響を排除することができ、Pgazeを正確に推定できる。
 IV.実験
 A.実験システム
 図4は、上述した各手法の性能を比較するための実験システムを示す。図4に示す例は初期の試作型であるため、外見は手作りであるが、十分に動作する。図4に示す例では、2台のカメラが左右それぞれの目の前に置かれるが、そのうちの1台だけを評価で使用する。カメラで撮影した画像のサイズはVGA(Video Graphics Array)で、撮影速度はおよそ10fpsである。
 B.キャリブレーション
 キャリブレーションプロセスは2つのフェーズで構成される。1つ目は手法A-2向けであり、2つ目が手法C向けのものである。図5は、各フェーズのキャリブレーションプロセスとキャリブレーション結果を示す。手法A-2のキャリブレーションプロセスでは、図5の「手法A-2向けプロセス」に示すように、被験者は9つのマーカを連続して注視する。この手順では、被験者は頭を動かさずに視線だけを動かすことが重要なポイントである。測定されたPcor_hmの結果の例を、図5の「手法A-2の結果」に示す。この図において、撮影される原寸カメラ画像が640×480ピクセルという条件で、各軸の単位がカメラのピクセルになる。このステップの後、手法C向けのキャリブレーションプロセスを開始する。マーカの動きは前回の順序と同様であり、さらに中心マーカと手法A-2の推定注視点が手順全体を通じて示される。被験者は、9つのマーカを1つずつ注視し、推定注視点のマーカが中心マーカにそれぞれ重なるよう頭を動かす。測定されたPcor_scr-Pcor_hmの結果の例を、図5の「手法Cの結果」に示す。この結果は、頭の動きが比較的正確に測定できることを示している。さらに、手法Cのキャリブレーションプロセス全体を通じてMhm・Pcor_hm=0が維持されるため、式(7)で表されるように、手法A-2と手法Cの線形結合によって手法Dが実現できる。
 C.注視点推定の比較
 ここで提示している評価は、注視点推定の正確性に焦点を当てるのではなく、ターゲットに容易に到達できることを重視しているため、本実施の形態に係るアルゴリズムは正確な視線推定法を実行するよう調整されてはいない。マッピングアルゴリズムはシンプルな線形変換で、最初のプロセスにおけるガウスフィルタ以外に高度なフィルタは使用しない。このような状況において、図6は被験者が画面上の9つのマーカを追跡する場合の推定注視点を示している。この実験では、被験者は頭を動かすことを制限されていないため、頭の動きの影響が直接観察される。この図において、パネルの原寸が1920×1080で、実験アプリケーションのウィンドウサイズが1300×940(幅20cm高さ14cmのサイズに相当)という条件で、各軸の単位がカメラのピクセルとなる。結果、手法B-2および手法Dでは、頭が動いた場合でも推定注視点は9つのマーカの点の周りに集まっている。
 D.カーソル移動手段としての比較
 注視点推定が正確にできるとカーソル移動が素早く行えるようになるが、ターゲットに到達する能力も重要である。図7は、被験者が10個の固定されたマーカにカーソルを1つずつ重ねる場合の軌跡を示している。手法A-2のケースでは、まずカーソルが素早く動き、その後、頭の動きによってカーソルを置く手順が見られる。マーカを通り過ぎてしまうこともあるが、カーソルは確実にマーカに到達する。実際、手法A-2では頭の動きの影響が明確であるため、被験者にかかるストレスは大きくない。手法B-2のケースでは、カーソルが非常に迅速に動き、ほとんどの場合でカーソルを置く手順を必要としない。しかし、カーソルがマーカを外れた場合、被験者はカーソルをマーカに向けて少しも動かすことができないストレスを感じることになる。手法Cのケースでは、状況はかなり異なる。カーソルは頭の動きによってのみ制御されるため、カーソルは比較的ゆっくり近づく。しかし、確実にマーカに到達する。手法Dのケースでは、カーソルが完璧に動き、マーカに重ねられる。実際、手法Dでは頭の動きの影響が明確で直感的であるため、被験者は操作しやすい。
 E.ゲーム利用での性能比較
 各手法の、ゲームの使用事例における性能を評価するため、図8に示すゲームのようなアプリケーションを用いる。アプリケーションAでは、10個のマーカが連続的に表示され、これらは動かない。被験者は推定注視点を表すカーソルを制御して、マーカに重ねる。重なるまでの時間がカウントされ、2秒が経過するとマーカは消え、別のマーカが現れる。同時に複数のマーカを表示することはしないため、被験者は1つのマーカに集中し、これを逐次処理する。マーカは、半径40ピクセル(6mm)の円で示され、推定注視点を表すカーソルは半径20ピクセル(3mm)の円で示される。それぞれの円の端が接触する、つまりこれらの中心間の距離が60ピクセル(9mm)未満になると、重なったと認識する。アプリケーションBでは、マーカの外見条件はアプリケーションAと同様であるが、さらにマーカは秒速約200ピクセル(30mm/秒)で動く。マーカの位置と方向はランダムに決められ、図8はその一例を示す。10個すべてのマーカが消えるまでにかかった時間を測定、評価する。
 24歳女性、35歳男性、43歳女性、45歳男性の4人の被験者が実験に参加した。43歳女性および45歳男性はこのシステムに精通しており、残り2人の被験者は初めてこのシステムを使用した。全員の被験者が、短時間自由に試した後に各アプリケーションを5回実行した。その結果を図9と図10に示す。記載のように、マーカが消えるまで少なくとも2秒かかっているため、1回の試行につき少なくとも20秒かかることになる。
 アプリケーションAの結果から、すべての手法の結果が100秒未満であり、特に悪い記録ではないことがわかる。平均スコアが良いのは手法B-2および手法Dであり、スコアが最高であったのは手法B-2であった。スコアのばらつきが最も小さいのは手法Cだが、手法B-2および手法Dもそれほど悪くはなかった。最も悪いスコアは手法A-2であった。一方、アプリケーションBの結果では、手法A-2および手法B-2でとりわけ悪いスコアが見られた。平均スコアが最も良いのは手法Dで、わずかな差で手法B-2が続いた。スコアのばらつきが最も小さいのは手法Cで、最も大きいのは手法A-2であった。
 E.考察
 手法A-2では、被験者は頭を固定して目だけを動かすようにする。さらに、手法Aではカーソルが頭の動きと反対の方向に移動するという特性があるため、カーソルを右に動かすには、被験者は頭を左に動かす。カーソルがマーカから外れると、被験者はマーカと反対の方向に頭を動かすことになるが、動くマーカを追跡する際に被験者は混乱しがちである。
 手法B-2では正確に視線推定ができ、頭の動きにも対応できる。その一方で、手法B-2では、いったんカーソルがマーカから外れると、頭の動きを使って誤りを修正するのは比較的困難になるという負の特性がある。これが、手法B-2においてときおり特にスコアが悪くなる理由である。これは手法A-2ほど著しいわけではないが、手法B-2も頭の動きと反対の方向にカーソルが動くという特性がある。しかし、その影響はかなり小さいため、一部の被験者はその影響を明確に感じることができず、カーソルを近づけることができなかった。そのような状況で、視線を少しマーカから離すことで回避しようとする被験者もいた。
 手法Cは視線の動きに影響されないため、被験者は頭の動きによってのみカーソルを制御しなければならない。断続的眼球運動によって素早くカーソルを移動させることができないため、手法Cはカーソルをマーカに近づけるのに時間がかかるという弱点がある。しかしながら、全員の被験者が、明確な頭の動きによって確実にマーカに到達できた。結果、カーソルへ近づくのに時間はかかるが、安定したスコアが得られた。
 手法Dは、手法Cにおける頭の動きの影響と手法A-2における視線の動きの影響という両方の特性がある。被験者が固定点を注視して頭を動かすと、カーソルは頭の動きと同じ方向にゆっくりと動く。視線推定のレベルは手法B-2よりも若干低下するが、カーソルがマーカから外れた場合であっても、被験者は直感的な頭の動きで容易に修正することができる。これが、手法Dで特に悪いスコアが見られなかった理由である。結論として、手法Dは、断続的眼球運動と頭の動きによる直感的な操作のバランスがうまく保たれているといえる。
 V.結論
 以上、視線推定のゲームへの応用について考察し、ゲームのようなアプリケーションを用いることで2つの従来手法と2つの提案手法の性能比較を記載した。そして、カーソルを確実にターゲットに移動させることに焦点を当て、注視点制御の性能を提示した。この結果、提案手法は、瞳孔中心を計算することなく従来手法と同様の性能を実現でき、計算コストをかけず、ストレスのない直感的操作で注視点制御が得られた。
 (具体例)
 実施の形態
 図11は、実施の形態に係る注視点表示システム100の全体構成を模式的に示す図である。実施の形態に係る注視点表示システム100は、ヘッドセット200、映像解析装置300、映像提示部500、および映像提示部500に取り付けられた第2光源400を含む。
 ヘッドセット200は、ユーザの頭部に装着して使用できるように構成されており、ユーザの右目あるいは左目のいずれか一方の眼球を含む映像を撮像する撮像素子210と、撮像素子210が撮像する方の眼球に赤外光を照射する第1光源220とを備える。第1光源220は、上述した前提技術[II]の頭部に搭載された赤外光源に対応し、撮像素子210は赤外線遮断シートを取り除いた標準的なUSB2.0カメラに対応する。ヘッドセット200はユーザの頭部に装着されているため、撮像素子210と第1光源220とはともに、ユーザの頭部の動きと連動して移動する。
 第1光源220が赤外光を照射する方の目には、ユーザが観察対象とする映像提示部500に対して相対位置が不変な第2光源400からも赤外光が照射される。映像提示部500は、上述した前提技術[II]における画面に対応し、例えば液晶モニタ等で実現される。第2光源400は上述の画面上の光源に対応し、3つの光源を2列に並べて比較的強い光を照射するように構成されている。撮像素子210は、ユーザの眼球上で反射する第1光源220および第2光源400それぞれの反射光を含む領域を流し撮りする。撮像素子210が撮像する映像の一例は、図1に示されている。
 映像解析装置300は、映像取得部310、頭部移動推定部320、眼球移動推定部330、注視位置取得部340、およびカーソル生成部350を含む。
 映像取得部310は、撮像素子210が撮像する、ユーザの眼球上で反射する第1光源220および第2光源400それぞれの反射光を含む領域の映像を取得する。頭部移動推定部320は、映像取得部310が取得した映像中における第1光源220の反射光に対する第2光源400の反射光の相対位置をもとに、ユーザの頭部の動きを推定する。
 ここで、ユーザの眼球上で反射する第1光源220の反射光の位置は上述の前提技術におけるPcor_hmであり、ユーザの眼球上で反射する第2光源400の反射光の位置は上述のPcor_scrである。映像中における第1光源220の反射光の位置Pcor_hmは、撮像素子210が撮像する映像における位置座標で表すことができる。前提技術[IV]で説明したように、撮像素子210が撮像する映像はVGAサイズであり、640ピクセル×480ピクセルの解像度である。そのため、例えば第1光源220の反射光が映像の中央に存在する場合、その位置座標は(320,240)となる。頭部移動推定部320は、第1光源220の反射光の位置座標を始点とし、第2光源400の反射光を終点とする位置ベクトルの向きおよび大きさから、ユーザの頭部の動きの推定量を求める。
 眼球移動推定部330は、撮像素子210が撮像する映像中における第1光源220の反射光の絶対位置Pcor_hmをもとに、撮像素子210が撮像する眼球の動きを推定する。注視位置取得部340は、頭部移動推定部320が推定したユーザの頭部の動きと、眼球移動推定部330が推定した眼球の動きとをもとに、映像提示部500の表示領域におけるユーザの注視位置Pgazeの推定値を取得する。
 図12は、実施の形態に係る頭部移動推定部320および眼球移動推定部330の内部構成を模式的に示す図である。眼球移動推定部330は、第1位置座標取得部332と第1変換部334とを含む。また頭部移動推定部320は、第2位置座標取得部322、位置ベクトル取得部324、および第2変換部326を含む。
 眼球移動推定部330中の第1位置座標取得部332は、撮像素子210が撮像する映像中における第1光源220の反射光の位置座標Pcor_hmを取得する。第1変換部334は、第1位置座標取得部332が取得した第1光源220の反射光の位置座標Pcor_hmに第1変換行列Mhmを積算して、ユーザが観察対象とする映像提示部500の表示領域における位置座標に変換する。これは上述の式(3)に基づく。
 頭部移動推定部320中の第2位置座標取得部322は、撮像素子210が撮像する映像中における第2光源400の反射光の位置座標Pcor_scrを取得する。位置ベクトル取得部324は、第1位置座標取得部332が取得した第1光源220の反射光の位置座標Pcor_hmを始点とし、第2位置座標取得部322が取得した第2光源400の反射光の位置座標Pcor_scrを終点とする位置ベクトルVhm_scr(=Pcor_scr-Pcor_hm)を取得する。第2変換部326は、第2変換行列Mscr_hmを用いて、位置ベクトル取得部324が取得した位置ベクトルVhm_scrを、ユーザが観察対象とする映像提示部500の表示領域における位置座標に変換する。これは上述の式(6)に基づく。
 以下、眼球移動推定部330によるユーザの眼球の動きの推定と、頭部移動推定部320によるユーザの頭部の動きの推定との原理について、図13を参照して具体的に説明する。
 図13は、第1光源220の反射光の位置座標Pcor_hmと第2光源400の反射光の位置座標Pcor_scrとの位置関係を例示する図である。図13(a)-(d)において、符号602は第1光源220の反射光の位置Pcor_hmを示し、符号604は、第2光源400の反射光の位置Pcor_scrを示す。また符号606は、瞳孔中心の位置Cpupを示す。
 図13(a)は、ユーザの頭部は正面を向いており、かつユーザの眼球が目の中央付近に存在する場合における、撮像素子210が撮像する映像の一例を模式的に示す図である。一方、図13(b)は、ユーザが眼球が目の中央付近に位置するように保ったまま、ユーザの頭部を動かした場合における、撮像素子210が撮像する映像の一例を模式的に示す図である。
 上述したように、撮像素子210と第1光源220とはともにヘッドセット200に備えられており、これらはユーザの頭部の動きと連動して移動する。このため、ユーザが眼球の位置を変えずに頭部を動かした場合、撮像素子210、第1光源220、およびユーザの眼球の相対的な位置関係は変化しない。したがって、図13(a)および図13(b)に示すように、ユーザが頭部を動かしたとしても眼球の位置を変えなければ、撮像素子210が撮像する映像中における第1光源220の反射光の位置Pcor_hmの位置座標はほとんど変化しない。言い換えると、撮像素子210が撮像する映像中における第1光源220の反射光の位置Pcor_hmの位置座標は、ユーザが頭部の動きによらず眼球の位置によって定まる。
 これに対し、第2光源400はユーザの頭部に接続していない。したがって、ユーザが頭部を動かすと、ユーザが眼球の位置を変えない場合であっても、第2光源400とユーザの眼球との位置関係が変化する。したがって、図13(a)および図13(b)に示すように、ユーザが眼球の位置を変えない場合であっても頭部を動かすことにより、撮像素子210が撮像する映像中における第2光源400の反射光の位置Pcor_scrの位置座標が変化する。
 図13(c)は、ユーザの頭部は正面を向けたまま、眼球を目の中央付近から端に移動させた場合における、撮像素子210が撮像する映像の一例を模式的に示す図である。撮像素子210および第1光源220は、ユーザの頭部の動きとは連動して移動するものの、ユーザの眼球の動きには連動しない。したがって、図13(a)および図13(c)に示すように、ユーザが頭部を動かさない場合であっても、眼球を動かすことにより、撮像素子210が撮像する映像中における第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの位置座標が変化する。一方で、人間の眼球がほぼ球形状であること等の理由により、第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの相対的な位置関係はほとんど変化しない。言い換えると、第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの相対的な位置関係は、ユーザの眼球の動きによらず頭部の位置によって定まる。
 本発明の実施の形態は、撮像素子210が撮像する映像中における第1光源220の反射光の位置Pcor_hmの位置座標がユーザが頭部の動きによらず眼球の位置によって定まる第1の事実と、第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの相対的な位置関係がユーザの眼球の動きによらず頭部の位置によって定まる第2の事実とを利用して、ユーザの注視点Pgazeを推定する。上述した前提技術における手法A-2は第1の事実を利用する手法であり、手法Cは第2の事実を利用する手法である。
 図13(d)は、ユーザが図13(b)に示した位置にまで頭部を動かし、かつ図13(c)に示した位置まで眼球を動かした場合における、撮像素子210が撮像する映像の一例を模式的に示す図である。上述した第1の事実と第2の事実とは互いに独立な事象である。したがって、図13(d)に示すように、第1光源220の反射光の位置Pcor_hmの位置は図13(b)に示す位置とほぼ同じであり、第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの相対的な位置関係は図13(c)に示す位置とほぼ同じである。
 以上より、眼球移動推定部330が第1光源220の反射光の位置Pcor_hmの位置座標からユーザの眼球の動きを推定し、頭部移動推定部320が第1光源220の反射光の位置Pcor_hmおよび第2光源400の反射光の位置Pcor_scrの相対的な位置関係からユーザの頭部の動きを推定することにより、ユーザの頭部の動きと眼球の動きとを独立して推定することが可能となる。また、ユーザの頭部の動きと眼球の動きとを合成することにより、ユーザの視線方向を推定することもできる。
 ここで、第1変換部334が用いる第1変換行列Mhmは、ユーザが頭部の動きを固定して眼球を動かすことによって映像提示部500の表示領域中の注視位置Pgazeを移動させたときの、第1光源220の反射光の位置Pcor_hmとその注視位置Pgazeの表示領域における絶対位置座標とをもとに予め算出された2行2列の大きさの行列である。
 具体的に、第1光源220の反射光の位置Pcor_hmの撮像素子210が撮像する映像における位置座標を(x,y)とし、そのときの注視位置Pgazeの映像提示部500の表示領域における位置座標を(X,Y)とする。ユーザが頭部の動きを固定する場合、注視位置Pgazeの表示領域における位置座標(X,Y)は、第1光源220の反射光の位置Pcor_hmに応じて定まるから、(X,Y=Mhm・(x,yとなるMhmを定めればよい。すなわち、行列Mhmは撮像素子210が撮像する映像における位置座標を映像提示部500の表示領域における位置座標に写像する行列である。Mhmは上述した前提技術の手法A-2のキャリブレーションプロセスによって求めることができる。なお記号「T」はベクトルの転置を表す。
 第2変換部326が用いる第2変換行列Mscr_hmは、ユーザが眼球の動きを固定して頭部を動かすことによって映像提示部500の表示領域中の注視位置Pgazeを移動させたときの、位置ベクトル取得部324が取得した位置ベクトルVhm_scr(=Pcor_scr-Pcor_hm)と、表示領域における注視位置Pgazeの絶対位置座標とをもとに予め算出された行列である。
 第2変換行列Mscr_hmの具体的な算出手段は、第1変換行列Mhmの算出手段と同様である。すなわち、撮像素子210が撮像する映像における第1光源220の反射光の位置Pcor_hmの位置座標を(x,y)、第2光源400の反射光の位置座標Pcor_scrの位置座標を(x,y)、そのときの注視位置Pgazeの映像提示部500の表示領域における位置座標を(X,Y)とする。ユーザが眼球の動きを固定する場合、注視位置Pgazeの表示領域における位置座標(X,Y)は、第1光源220の反射光の位置Pcor_hmに対する第2光源400の反射光の位置Pcor_scrの相対的な位置関係に応じて定まるから、(X,Y=Mscr_hm・(x-x,y-yとなるMscr_hmを定めればよい。すなわち、行列Mscr_hmも撮像素子210が撮像する映像における位置座標を映像提示部500の表示領域における位置座標に写像する行列である。行列Mscr_hmは上述した前提技術の手法Cのキャリブレーションプロセスによって求めることができる。
 図11の説明に戻り、映像解析装置300中の注視位置取得部340は、第1変換部334が変換して取得した位置座標(X,Y)と、第2変換部が変換して取得した位置座標(X,Y)とを加算して、映像提示部500の表示領域におけるユーザの注視位置Pgazeの位置座標を確定する。具体的には、注視位置取得部340は上述した式(7)に基づいてMhm・Pcor_hm+Mscr_hm・(Pcor_scr-Pcor_hm)を計算し、注視位置Pgazeの位置座標を取得する。カーソル生成部350は、注視位置取得部340が取得した表示領域におけるユーザの注視位置Pgazeに基づいて、映像提示部500に表示させるカーソルの位置を制御する。
 図14は、実施の形態に係る注視点表示システム100における注視点表示処理の流れを示すフローチャートである。本フローチャートにおける処理は、例えば映像解析装置300の電源が投入されたときに開始する。
 ヘッドセット200に備えられた撮像素子210は、第1光源220および第2光源400の反射光を含む、ヘッドセット200を装着したユーザの目を撮像する(S2)。第1位置座標取得部332は、第1光源220の反射光の位置座標Pcor_hmを取得する(S4)。第1変換部334は、第1変換行列Mhmを用いて、第1位置座標取得部332が取得した第1光源220の反射光の位置座標Pcor_hmに起因する表示領域における位置座標を取得する(S6)。
 第2位置座標取得部322は、第2光源400の反射光の位置座標Pcor_scrを取得する(S8)。位置ベクトル取得部324は、第1位置座標取得部332が取得した第1光源220の反射光の位置座標Pcor_hmを始点とし、第2位置座標取得部322が取得した第2光源400の反射光の位置座標Pcor_scrを終点とする位置ベクトルVhm_scrを取得する(S10)。
 第2変換部326は、第2変換行列Mscr_hmを用いて、位置ベクトル取得部324が取得した位置ベクトルVhm_scrをユーザの頭部移動に起因する位置座標を取得する(S12)。注視位置取得部340は、第1変換部334が取得した位置座標と第2変換部326が取得した位置座標とを加算して、映像提示部500の表示領域におけるユーザの注視点Pgazeの位置を算出する(S14)。カーソル生成部350は、注視位置取得部340が取得した表示領域におけるユーザの注視位置Pgazeに基づいて、映像提示部500に表示させるカーソルの位置を移動する(S16)。カーソル生成部350が映像提示部500に表示させるカーソルの位置を移動すると、本フローチャートにおける処理は終了する。
 以上の構成による注視点表示システム100の利用シーンは以下のとおりである。ユーザは、実施の形態に係るヘッドセット200を装着して映像提示部500の表示領域を眺める。ヘッドセット200に備えられた撮像素子210は、ユーザの眼球を含む領域を撮像する。映像解析装置300は、ユーザの頭部の動きに連動して移動する第1光源220とから照射された赤外光と、映像提示部500に取り付けられた第2光源400から照射された赤外光とのふたつの反射光の位置関係から、映像提示部500の表示領域におけるユーザの注視点の位置を推定し、その位置にカーソルを移動する。
 以上述べたように、実施の形態に係る注視点表示システム100によれば、計算コストをかけずに注視点を制御することを可能とする技術を提供することができる。
 特に、本発明の実施の形態に係る注視点表示システム100によれば、ユーザの注視点の推定にユーザの瞳孔中心の位置を利用しないため、瞳孔中心位置を求める演算を省略することができる。また、ユーザの頭部の動きと眼球の動きとを分離して推定することができるため、それらの情報を独立して利用することができる。これにより、例えば頭の動きと連動して背景画像をパンしつつ、視線の動きでカーソルを移動させるといった操作を実現することができる。また、頭部の動きや位置と、眼球の動きや位置とが特定の関係となったときに、特定の処理を実現することもできる。より具体的には、例えば頭部と眼球とが同じ方向に動くときは、その方向に画面をスクロールするといった処理を実現できる。
 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
(第1の変形例)
 上記では、第2光源400は映像提示部500に取り付けられていることを前提に説明したが、第2光源400は必ずしも映像提示部500の近くに設置する必要はない。第2光源400はユーザの頭部の動きとは独立して、ユーザの眼球に赤外光線を照射可能な位置に設置されていればよい。一方で、映像提示部500はユーザの観察対象である。したがって第2光源400の照射光をユーザの目に照射しやすくなるために、第2光源400と映像提示部500との距離は近いほど好ましい。
(第2の変形例)
 瞳孔中心Cpupを求めるための計算コストを許容する場合、上述の前提技術における手法B-2と手法Cとを組み合わせて注視点Pgazeを推定してもよい。この場合、マッピング変換は以下の式(8)で表すことがでる。
  Pgaze=Mhm_pup・(Pcor_hm-Cpup)+Mscr_mh・(Pcor_scr-Pcor_hm)  (8)
 これにより、手法B-2の特徴と手法Cの特徴とのふたつの特徴を合わせ持つ注視点制御が実現できる。
(第3の変形例)
 上述した手法をさらに一般化して、第1光源220の反射光の位置Pcor_hmと、第2光源400の反射光の位置Pcor_scrと、瞳孔中心Cpupとの3点から注視点Pgazeを推定する問題に帰着することもできる。この場合、マッピング変換は以下の式(9)で表すことがでる。
  Pgaze=M・Pcor_hm+M・Pcor_scr+M・Cpup  (9)
 ここでM,M,Mは、それぞれ一般化された変換行列である。M,M,Mのうちいずれか1つあるいは2つがゼロ行列となる場合もある。
 これにより、例えば計算リソースに余裕があるときはCpupを注視点推定に利用し、計算コストを下げたいときはCpupを利用せずに注視点を推定するといった柔軟な注視点推定を実現することができる。
 100 注視点表示システム、 200 ヘッドセット、 210 撮像素子、 220 第1光源、 300 映像解析装置、 310 映像取得部、 320 頭部移動推定部、 322 第2位置座標取得部、 324 位置ベクトル取得部、 326 第2変換部、 330 眼球移動推定部、 332 第1位置座標取得部、 334 第1変換部、 340 注視位置取得部、 350 カーソル生成部、 400 第2光源、 500 映像提示部。
 本発明は、映像解析装置、映像解析方法、および注視点表示システムに利用可能である。

Claims (9)

  1.  ユーザの頭部の動きと連動して移動する第1光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第2光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する映像取得部と、
     前記映像取得部が取得した映像中における前記第1光源の反射光に対する前記第2光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部とを含むことを特徴とする映像解析装置。
  2.  前記撮像素子が撮像する映像中における前記第1光源の反射光の絶対位置をもとに、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、
     推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部とをさらに含むことを特徴とする請求項1に記載の映像解析装置。
  3.  前記眼球移動推定部は、
     前記撮像素子が撮像する映像中における前記第1光源の反射光の位置座標を取得する第1位置座標取得部と、
     前記第1位置座標取得部が取得した位置座標に所定の第1変換行列を積算してユーザが観察対象とする映像提示部の表示領域における位置座標に変換する第1変換部とを含み、
     前記第1変換部が用いる第1変換行列は、ユーザが頭部の動きを固定して眼球を動かすことによって映像提示部の表示領域中の注視位置を移動させたときの、前記第1光源の反射光の位置座標と当該注視位置の表示領域における絶対位置座標とをもとに予め算出された行列であることを特徴とする請求項2に記載の映像解析装置。
  4.  前記頭部移動推定部は、
     前記撮像素子が撮像する映像中における前記第2光源の反射光の位置座標を取得する第2位置座標取得部と、
     前記第1位置座標取得部が取得した位置座標を始点とし、前記第2位置座標取得部が取得した位置座標を終点とする位置ベクトルを取得する位置ベクトル取得部と、
     前記位置ベクトル取得部が取得した位置ベクトルを、ユーザが観察対象とする映像提示部の表示領域における位置座標に変換する第2変換部とを含み、
     前記第2変換部は、ユーザが眼球の動きを固定して頭部を動かすことによって映像提示部の表示領域中の注視位置を移動させたときの前記位置ベクトル取得部が取得した位置ベクトルと、当該注視位置の表示領域における絶対位置座標とをもとに予め算出された第2変換行列を用いて前記位置ベクトルを映像提示部の表示領域における位置座標に変換することを特徴とする請求項3に記載の映像解析装置。
  5.  前記注視位置取得部は、前記第1変換部が変換した位置座標と前記第2変換部が変換した位置座標とを加算して、ユーザの注視位置を取得することを特徴とする請求項4に記載の映像解析装置。
  6.  前記第2光源は、ユーザが観察対象とする映像提示部に取り付けられていることを特徴とする請求項1から5のいずれかに記載の映像解析装置。
  7.  ユーザの頭部の動きと連動して移動する第1光源と、ユーザが観察対象とする映像提示部に対して相対位置が不変な第2光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得し、当該映像中におけるふたつの反射光の相対位置をもとにユーザの頭部の動きを推定することをプロセッサに実行させることを特徴とする映像解析方法。
  8.  ユーザの頭部の動きと連動して移動する第1光源とユーザが観察対象とする映像提示部に対して相対位置が不変な第2光源とのふたつの光源から、ユーザのいずれか一方の眼球に対して照射された光のそれぞれの反射光を含む領域を、ユーザの頭部の動きと連動して移動する撮像素子が撮像した映像を取得する機能と、
     取得した映像中におけるふたつの反射光の相対位置を、ユーザの頭部の動きベクトルの推定値に変換する機能とをコンピュータに実現させることを特徴とするプログラム。
  9.  ユーザのいずれか一方の眼球を撮像する撮像素子であって、ユーザの頭部の動きと連動して移動する頭部装着型撮像素子と、
     前記撮像素子が撮像する眼球に光を照射する光源であって、前記撮像素子の動きと連動して移動する第1光源と、
     ユーザが観察対象とする映像提示部と、
     前記撮像素子が撮像する眼球に光を照射する光源であって、前記映像提示部に取り付けられた第2光源と、
     前記撮像素子が撮像する映像中における前記第1光源の反射光に対する前記第2光源の反射光の相対位置をもとに、ユーザの頭部の動きを推定する頭部移動推定部と、
     前記撮像素子が撮像する映像中における前記第1光源の反射光の絶対位置を、前記撮像素子が撮像する眼球の動きを推定する眼球移動推定部と、
     推定したユーザの頭部の動きと眼球の動きとをもとに、ユーザの注視位置を取得する注視位置取得部と、
     前記注視位置取得部が取得した注視位置と対応する前記映像提示部の表示領域における位置に表示させるカーソル画像を生成するカーソル生成部とを含むことを特徴とする注視点表示システム。
PCT/JP2013/002483 2012-05-25 2013-04-11 映像解析装置、映像解析方法、および注視点表示システム WO2013175701A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201380025947.1A CN104302226B (zh) 2012-05-25 2013-04-11 视频分析设备、视频分析方法和注视点显示系统
US14/400,979 US9727130B2 (en) 2012-05-25 2013-04-11 Video analysis device, video analysis method, and point-of-gaze display system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012120124A JP5689850B2 (ja) 2012-05-25 2012-05-25 映像解析装置、映像解析方法、および注視点表示システム
JP2012-120124 2012-05-25

Publications (1)

Publication Number Publication Date
WO2013175701A1 true WO2013175701A1 (ja) 2013-11-28

Family

ID=49623416

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/002483 WO2013175701A1 (ja) 2012-05-25 2013-04-11 映像解析装置、映像解析方法、および注視点表示システム

Country Status (4)

Country Link
US (1) US9727130B2 (ja)
JP (1) JP5689850B2 (ja)
CN (1) CN104302226B (ja)
WO (1) WO2013175701A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203815A1 (ja) * 2016-05-27 2017-11-30 ソニー株式会社 情報処理装置、情報処理方法および記録媒体
JP2019083033A (ja) * 2014-12-18 2019-05-30 フェイスブック,インク. 仮想現実環境においてナビゲートする方法、システム、および装置
EP3553634A1 (de) * 2014-03-27 2019-10-16 Apple Inc. Verfahren und system zum betreiben einer anzeigevorrichtung

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354136B2 (en) 2015-03-03 2019-07-16 Apple Inc. Head mounted eye tracking device and method for providing drift free eye tracking through a lens system
US10565446B2 (en) 2015-09-24 2020-02-18 Tobii Ab Eye-tracking enabled wearable devices
KR20180057693A (ko) 2015-09-24 2018-05-30 토비 에이비 눈 추적 가능한 웨어러블 디바이스들
US10956544B1 (en) 2016-04-01 2021-03-23 Massachusetts Mutual Life Insurance Company Access control through head imaging and biometric authentication
US10733275B1 (en) * 2016-04-01 2020-08-04 Massachusetts Mutual Life Insurance Company Access control through head imaging and biometric authentication
CN107357429B (zh) * 2017-07-10 2020-04-07 京东方科技集团股份有限公司 用于确定视线的方法、设备和计算机可读存储介质
TWI704501B (zh) * 2018-08-09 2020-09-11 宏碁股份有限公司 可由頭部操控的電子裝置與其操作方法
US11353952B2 (en) 2018-11-26 2022-06-07 Tobii Ab Controlling illuminators for optimal glints
CN110051319A (zh) * 2019-04-23 2019-07-26 七鑫易维(深圳)科技有限公司 眼球追踪传感器的调节方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04288122A (ja) * 1991-03-18 1992-10-13 A T R Shichiyoukaku Kiko Kenkyusho:Kk 視線表示装置
JPH09179062A (ja) * 1995-12-25 1997-07-11 Canon Inc コンピュータシステム
US20060110008A1 (en) * 2003-11-14 2006-05-25 Roel Vertegaal Method and apparatus for calibration-free eye tracking

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1540992A (en) * 1975-04-22 1979-02-21 Smiths Industries Ltd Display or other systems and equipment for use in such systems
US5016282A (en) * 1988-07-14 1991-05-14 Atr Communication Systems Research Laboratories Eye tracking image pickup apparatus for separating noise from feature portions
US4852988A (en) * 1988-09-12 1989-08-01 Applied Science Laboratories Visor and camera providing a parallax-free field-of-view image for a head-mounted eye movement measurement system
JP2988178B2 (ja) * 1993-03-11 1999-12-06 日産自動車株式会社 視線方向計測装置
JP3185522B2 (ja) * 1994-02-15 2001-07-11 日産自動車株式会社 車両用視線方向計測装置
FR2731896B1 (fr) * 1995-03-24 1997-08-29 Commissariat Energie Atomique Dispositif de mesure de la position du point de fixation d'un oeil sur une cible, procede d'eclairage de l'oeil et application a l'affichage d'images dont les images changent en fonction des mouvements de l'oeil
JP2000316811A (ja) * 1999-05-14 2000-11-21 Sumitomo Osaka Cement Co Ltd 眼球運動測定装置
DE19953835C1 (de) * 1999-10-30 2001-05-23 Hertz Inst Heinrich Rechnerunterstütztes Verfahren zur berührungslosen, videobasierten Blickrichtungsbestimmung eines Anwenderauges für die augengeführte Mensch-Computer-Interaktion und Vorrichtung zur Durchführung des Verfahrens
JP2002143094A (ja) * 2000-11-07 2002-05-21 Nac Image Technology Inc 視線検出装置
US8077914B1 (en) * 2006-08-07 2011-12-13 Arkady Kaplan Optical tracking apparatus using six degrees of freedom
US9398848B2 (en) * 2008-07-08 2016-07-26 It-University Of Copenhagen Eye gaze tracking
CN101872237B (zh) 2009-04-23 2012-04-18 由田新技股份有限公司 瞳孔追踪方法与系统及用于瞳孔追踪的校正方法与模组
EP2309307B1 (en) * 2009-10-08 2020-12-09 Tobii Technology AB Eye tracking using a GPU
CN101901485B (zh) 2010-08-11 2014-12-03 华中科技大学 3d自由头动式视线跟踪系统
FR2970576B1 (fr) * 2011-01-19 2013-02-08 Matchic Labs Procede de determination de la direction du regard et dispositif pour sa mise en oeuvre
US8929589B2 (en) * 2011-11-07 2015-01-06 Eyefluence, Inc. Systems and methods for high-resolution gaze tracking
US8913789B1 (en) * 2012-01-06 2014-12-16 Google Inc. Input methods and systems for eye positioning using plural glints

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04288122A (ja) * 1991-03-18 1992-10-13 A T R Shichiyoukaku Kiko Kenkyusho:Kk 視線表示装置
JPH09179062A (ja) * 1995-12-25 1997-07-11 Canon Inc コンピュータシステム
US20060110008A1 (en) * 2003-11-14 2006-05-25 Roel Vertegaal Method and apparatus for calibration-free eye tracking

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ONUKI ET AL.: "Analysis of Aiming Performance for Games Using Mapping Method of Corneal Reflections Based on Two Different Light Sources", WORLD ACADEMY OF SCIENCE, ENGINEERING AND TECHNOLOGY, ISSUE 0065 MAY, 2012, pages 1100 - 1106 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3553634A1 (de) * 2014-03-27 2019-10-16 Apple Inc. Verfahren und system zum betreiben einer anzeigevorrichtung
JP2019083033A (ja) * 2014-12-18 2019-05-30 フェイスブック,インク. 仮想現実環境においてナビゲートする方法、システム、および装置
WO2017203815A1 (ja) * 2016-05-27 2017-11-30 ソニー株式会社 情報処理装置、情報処理方法および記録媒体
US10893802B2 (en) 2016-05-27 2021-01-19 Sony Corporation Information processing apparatus, information processing method, and recording medium

Also Published As

Publication number Publication date
CN104302226A (zh) 2015-01-21
US20150130714A1 (en) 2015-05-14
CN104302226B (zh) 2016-07-06
US9727130B2 (en) 2017-08-08
JP5689850B2 (ja) 2015-03-25
JP2013244212A (ja) 2013-12-09

Similar Documents

Publication Publication Date Title
WO2013175701A1 (ja) 映像解析装置、映像解析方法、および注視点表示システム
JP6902075B2 (ja) 構造化光を用いた視線追跡
US10257507B1 (en) Time-of-flight depth sensing for eye tracking
US11016301B1 (en) Accommodation based optical correction
US11861062B2 (en) Blink-based calibration of an optical see-through head-mounted display
US20180342066A1 (en) Apparatus and method for hybrid eye tracking
Shih et al. A novel approach to 3-D gaze tracking using stereo cameras
US9398848B2 (en) Eye gaze tracking
US6659611B2 (en) System and method for eye gaze tracking using corneal image mapping
Coutinho et al. Improving head movement tolerance of cross-ratio based eye trackers
WO2017053972A1 (en) Eye-tracking enabled wearable devices
WO2005063114A1 (ja) 視線検出方法および装置ならびに三次元視点計測装置
CN108369744A (zh) 通过双目单应性映射的3d注视点检测
JP2019097675A (ja) 視線検出校正方法、システム、及びコンピュータプログラム
JP6324119B2 (ja) 回転角度算出方法、注視点検出方法、情報入力方法、回転角度算出装置、注視点検出装置、情報入力装置、回転角度算出プログラム、注視点検出プログラム及び情報入力プログラム
Kowalik Do-it-yourself eye tracker: impact of the viewing angle on the eye tracking accuracy
US20240094808A1 (en) Eye-gaze tracking apparatus and a method of eye-gaze tracking
Herholz et al. Libgaze: Real-time gaze-tracking of freely moving observers for wall-sized displays
Ibrahim et al. A Study towards Improving Eye Tracking Calibration Technique Using Support Vector Regression
JPH1014882A (ja) 非接触視線測定装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13794527

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14400979

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13794527

Country of ref document: EP

Kind code of ref document: A1