WO2017213070A1 - 情報処理装置および方法、並びに記録媒体 - Google Patents

情報処理装置および方法、並びに記録媒体 Download PDF

Info

Publication number
WO2017213070A1
WO2017213070A1 PCT/JP2017/020760 JP2017020760W WO2017213070A1 WO 2017213070 A1 WO2017213070 A1 WO 2017213070A1 JP 2017020760 W JP2017020760 W JP 2017020760W WO 2017213070 A1 WO2017213070 A1 WO 2017213070A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
user
sight
line
information processing
Prior art date
Application number
PCT/JP2017/020760
Other languages
English (en)
French (fr)
Inventor
真一郎 阿部
俊一 本間
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018522469A priority Critical patent/JPWO2017213070A1/ja
Priority to US16/305,192 priority patent/US20200322595A1/en
Publication of WO2017213070A1 publication Critical patent/WO2017213070A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/0304Detection arrangements using opto-electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/254Image signal generators using stereoscopic image cameras in combination with electromagnetic radiation sources for illuminating objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/02Viewing or reading apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Definitions

  • the present disclosure relates to an information processing apparatus and method, and a recording medium, and in particular, achieves improvements regarding the localization of the line of sight in pointing and object operations using the line of sight, thereby enabling, for example, a hands-free and comfortable operation.
  • the present invention relates to an information processing apparatus and method, and a recording medium.
  • the present disclosure has been made in view of such a situation, and can improve the line-of-sight localization.
  • An information processing apparatus or a recording medium includes a display control unit that controls a display device to display a stereoscopic object that is disposed in a user's visual field along a predetermined direction and indicates a distance related to the predetermined direction.
  • An information processing method is an information processing method including controlling a display device to display a stereoscopic object that is arranged along a predetermined direction in a user's visual field and that indicates a distance related to the predetermined direction. .
  • a stereoscopic object that is arranged along a predetermined direction in the visual field of the user and indicates a distance related to the predetermined direction is displayed on the display device.
  • the displayed stereoscopic object assists the localization of the user's visual field in the three-dimensional space. As a result, it is possible to operate comfortably, for example, hands-free.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of the first embodiment.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of the first embodiment.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 2.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 2.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 2.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 3.
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 3. It is a figure which shows the structural example of the external appearance of the display apparatus for mounting to which this technique is applied. It is a block diagram which shows the structural example of the display apparatus for mounting
  • FIG. 10 is a diagram illustrating an example of object fine adjustment in the case of Example 3. It is a figure which shows the structural example of the external appearance of the display apparatus for mounting to which this technique is applied. It is a block diagram which shows the structural example of the
  • FIG. 20 is a block diagram illustrating a configuration example of the mounting display device of FIG. 19. It is a flowchart explaining a real object operation process. It is a flowchart explaining the gaze estimation process of step S112 of FIG. It is a flowchart explaining the drone control process of step S114 of FIG. It is a figure which shows the structural example of the external appearance of the display apparatus for mounting to which this technique is applied. It is a block diagram which shows the structural example of the display apparatus for mounting
  • empty-field-myopia the line of sight cannot be localized due to the mechanism of human visual adjustment, and pointing and object manipulation by line of sight were difficult.
  • the user 1 can focus when there is an object A that can be visually recognized.
  • the user 1 wants to focus on the position of the object A, but it is difficult to focus when there is no object as indicated by the dotted star.
  • the virtual measure 4 is displayed on the mounting display device 3 to assist the user 1 in focusing. That is, in the present technology, as shown in FIG. 1B, the display control for displaying the virtual measure 4 which is a virtual object for assisting the localization of the line of sight on the display device 3 (display device) for mounting. This assists the user 1 in focusing.
  • the virtual major 4 is one of stereoscopic objects that are stereoscopically viewed (stereoscopically visible) virtual objects.
  • the depth direction extending toward the front of the user 1 in the field of view of the user 1 is arranged along a predetermined direction such as a horizontal direction, an oblique direction, or a curved direction, and indicates a distance related to the predetermined direction.
  • a virtual measure 4 assists the localization of the line of sight in the hollow, and improves the ease of localization of the line of sight to the hollow.
  • the display device 3 for mounting is comprised by a see-through display, a head mounted display, etc., for example.
  • FIG. 2 is a diagram illustrating an example of virtual furniture arrangement simulation as a virtual object operation.
  • the user 1 is wearing the wearing display device 3 and is in the real world three-dimensional space (or virtual three-dimensional space) 11.
  • a table 13 is arranged as one piece of furniture.
  • the mounting display device 3 is provided with an environment recognition camera 12 that captures an image in the real world three-dimensional space 11 and a display 20. 2, an image captured by the environment recognition camera 12 in the real world three-dimensional space 11 (an image in the real world three-dimensional space 11) is displayed on the display 20.
  • the user 1 tries to place a virtual object in an empty-field 14 on the table 13 in the real world three-dimensional space 11, that is, in a hollow state. Due to the mechanism of visual adjustment, it is not possible to focus on the empty-field 14 on the table 13 in the real world three-dimensional space 11.
  • the mounting display device 3 displays the virtual ruler 21 having a scale for enabling gaze on the display 20 on which the inside of the real world three-dimensional space 11 is displayed, as indicated by the arrow P1.
  • the user 1 can focus on a desired position 22 on the virtual ruler 21 with the virtual ruler 21 as a clue.
  • the desired position 22 is displayed on the virtual ruler 21 when the user 1 focuses on the position.
  • the mounting display device 3 displays the virtual ruler 21 that is one of the virtual majors 4 on the display 20 on which the real world three-dimensional space 11 is displayed.
  • the virtual ruler 21 is a flat-plate-like stereoscopic object that imitates a ruler, and has a substantially equal scale as information indicating a distance.
  • the virtual ruler 21 is, for example, in the field of view of the user 1 slightly obliquely in the real space in a state where the longitudinal direction (the scaled direction) is along the depth direction and the short side (transverse) direction is vertical. Are arranged in a region (space) including a hollow where no stereoscopically visible object exists.
  • positions the virtual ruler 21 is not limited to a depth direction.
  • the arrangement timing of the virtual measure 21 may be determined based on the stay of the line of sight, and is determined based on an operation by the user 1 of a GUI (Graphical User Interface) such as an installation button 51 shown in FIG. Also good.
  • GUI Graphic User Interface
  • the mounting display device 3 determines whether or not the staying degree of the 3D attention point is within a threshold value. Measure.
  • the circle surrounding the desired position 22 indicates a staying degree threshold value range 25 in which the staying degree of the 3D attention point is within the threshold value.
  • the display device 3 for wearing places the desired position 22 indicating the place and the desired position 22 at a place where the retention degree of the 3D attention point of the display 20 is within the threshold value.
  • a progress mark 23 indicating that the same position is being viewed is displayed in the vicinity, and then a virtual object 24 can be installed in the empty-field 14 as indicated by an arrow P12.
  • the display device 3 for mounting determines the gaze of the user 1 based on the intersection of the user's line of sight and the virtual ruler 21. That is, in the display device 3 for mounting, the intersection of the user's 1 line of sight and the virtual ruler 21 is detected. This intersection is a point that the user 1 is focusing (pointing at the line of sight) and is trying to pay attention (a point in the real-world or virtual three-dimensional space where the user 1 is pointing at the line of sight). Also called 3D attention point. As shown in FIG. 2B, the mounting display device 3 determines whether or not the staying degree corresponding to the size of the staying range in which the 3D attention point stays is within a threshold over a predetermined period. (Determination of threshold value for staying degree).
  • the mounting display device 3 determines that the user 1 is watching the position 22 within the staying range of the 3D attention point. Therefore, when the user 1 continues to focus on the position 22 (when the user keeps his line of sight), it is determined that the user 1 is gazing. While the threshold value determination of the staying degree is being performed, the mounting display device 3 moves to the position 22 within the staying range where the staying degree of the 3D attention point of the display 20 is within the threshold value as indicated by the arrow P11. A point representing an object 22 and a progress mark 23 indicating the progress in a state where the same position 22 is viewed are displayed in the vicinity of the position 22.
  • the progress mark 23 represents the time during which the staying degree is within the threshold value (elapsed time). After it is determined that the user 1 is gazing at the position 22, for example, the position 22 is a 3D gazing point at which the user 1 is gazing. A virtual object 24 is installed at the position 22.
  • the display device for wearing is installed. 3
  • the virtual object 24 is displayed on the display 20 according to the pose of the user 1 by SLAM (Simultaneous Localization and Mapping) described later with reference to FIG. 6 as indicated by an arrow P21. Therefore, the user can confirm the virtual object 24 according to the pose of the user 1.
  • SLAM Simultaneous Localization and Mapping
  • FIG. 3 is a diagram illustrating an example of a drone operation as a real object operation in the real world.
  • the user 1 is wearing the wearing display device 3 and is in the real world three-dimensional space 32.
  • a drone 31 is arranged in the real world three-dimensional space 32.
  • the wearing display device 3 is provided with an environment recognition camera 12 and a display 20.
  • An image (an image of the sky with clouds) is displayed on the display 20.
  • the mounting display device 3 displays on the display 20 a virtual ruler 21 for enabling gaze as indicated by an arrow P31.
  • the user 1 can focus on the desired position 22 in the empty-field 14 using the virtual ruler 21 as a clue.
  • the mounting display device 3 determines whether or not the staying degree of the 3D attention point is within a threshold value. Measure. Then, as shown by an arrow P41, the display device 3 for wearing places the desired position 22 indicating the place and the desired position 22 at a place where the retention degree of the 3D attention point of the display 20 is within the threshold value. A progress mark 23 indicating that the same position is seen is displayed in the vicinity, and then the drone 31 can be moved to the empty-field 14 (desired position 22) as indicated by an arrow P42. In practice, the mounting display device 3 moves the drone 31 by transmitting position information to the drone 31.
  • the user 1 can confirm the drone 31 that has moved to the desired position 22 in the real world three-dimensional space 32, for example.
  • FIG. 4 is a diagram for explaining an example of the viewpoint warp as the virtual camera viewpoint movement in the virtual world.
  • the user 1 is wearing the wearing display device 3 and is in the virtual three-dimensional space 35.
  • the wearing display device 3 is provided with an environment recognition camera 12 and a display 20.
  • an image captured by the environment recognition camera 12 in the virtual three-dimensional space 35. is displayed on the display 20.
  • the user 1 who is playing from the subjective viewpoint tries to look at the empty empty-field 14 that is the position of the viewpoint switching destination in the virtual three-dimensional space 35 in order to switch to the overhead viewpoint.
  • the empty-field 14 on the virtual three-dimensional space 35 is focused on the human visual adjustment mechanism. I can not match.
  • the display device 3 for mounting displays the virtual ruler 21 for enabling gaze on the display 20 on which a hollow (an image of a sky with clouds) is displayed.
  • a virtual ruler 21 superimposed on an image of the empty-field 14 that is, the sky
  • the user 1 can focus on the desired position 22 of the viewpoint switching destination (empty-field 14) using the virtual ruler 21 as a clue.
  • the mounting display device 3 determines whether or not the staying degree of the 3D attention point is within the threshold. measure. Then, as shown by an arrow P61, the display device 3 for wearing places the desired position 22 indicating the place and the desired position 22 at the place where the retention degree of the 3D attention point of the display 20 is within the threshold value. A progress mark 23 indicating that the same position is viewed is displayed in the vicinity, and then the camera start point can be switched to the desired position 22 of the empty-field 14 as indicated by an arrow P62. As a result, an image (overhead image) of the house viewed from above (desired position 22) is displayed on the display 20.
  • the object representing the position 22 and the progress mark 23 are displayed as in FIG. 4 B arrow P61). Thereafter, when it is determined that the user 1 is gazing, the camera viewpoint (the viewpoint of viewing the image displayed on the display 20) is switched to the position 22 where the user 1 is gazing, as indicated by an arrow P62. . As a result, an image (overhead image) of the house viewed from above (desired position 22) is displayed on the display 20.
  • the user 1 can look down at the desired position 22 as a camera viewpoint in the virtual three-dimensional space 35, for example.
  • FIG. 5 is a diagram illustrating another example of the virtual measure.
  • a sphere 41 as a plurality of virtual objects is displayed on the display 20 as a virtual measure at substantially equal intervals instead of the virtual ruler 21. That is, in FIG. 5, the virtual measure includes a sphere 41 as a plurality of virtual objects, and the plurality of spheres 41 are arranged at substantially equal intervals along the depth direction and the horizontal direction as predetermined directions. It is a thing.
  • the plurality of spheres 41 are arranged at substantially equal intervals along the depth direction and the horizontal direction, so that the plurality of spheres 41 indicate distances (intervals) in the depth direction and the horizontal direction.
  • the 2D viewpoint pointer 42 of the user 1 is at a position different from the plurality of spheres 41, as shown by an arrow P71, it is possible to gaze immediately.
  • the 2D viewpoint pointer 42 represents the position where the user 1 is looking (focusing).
  • the user 1 can be quickly fed back. That is, for the plurality of spheres 41 as virtual measures, the display of at least one of the plurality of spheres 41 is changed according to the line of sight of the user 1, specifically, for example, the line of sight of the user 1 is directed.
  • the color, brightness, shape, size, etc. of the sphere 41 can be changed.
  • the 2D viewpoint pointer 42 of “altitude 15m, distance 25m” is only placed on the sphere 41 on which the 2D viewpoint pointer 42 is arranged (that is, the line of sight of the user 1 is directed). It is necessary to add supplementary information indicating the position and display it so that it is easy to see and does not disturb the user's 1 field of view as much as possible. That is, for a plurality of spheres 41 as virtual measures, at least one supplementary information of the plurality of spheres 41 is displayed in accordance with the line of sight of the user 1, specifically, for example, the line of sight of the user 1 is Information indicating the position of the directed sphere 41 can be displayed.
  • a plurality of spheres are used.
  • other spheres may be used as long as they are auxiliary. That is, in the example of FIG. 5, the virtual measure is a plurality of spheres, but the shape may be a virtual object other than the sphere as long as it assists the user 1 in focusing.
  • SLAM position and orientation estimation
  • the mounting display device 3 includes an environment recognition camera 12 and a line-of-sight recognition camera 50.
  • the gaze estimation is a process of estimating the gaze of the user 1
  • the gaze determination is a process of determining whether the user 1 is gaze using the gaze of the user 1.
  • FIG. 6 only “line-of-sight estimation” of “line-of-sight estimation” and “gaze determination” is shown, and description of “gaze determination” is omitted.
  • the display 20-1 represents the display 20 after the first gaze estimation
  • the display 20-2 represents the display 20 after the gaze estimation by the second gaze estimation. That is, the display 20-1 represents the display 20 after the first gaze estimation and gaze determination
  • the display 20-2 represents the display 20 after the second gaze estimation and gaze determination.
  • the displays 20-1 and 20-2 display an installation button 51, a temporary installation button 52, and a cancel button 53, all of which can be selected by gazing. As indicated by hatching, the temporary installation button 52 is selected on the display 20-1, and the installation button 51 is selected on the display 20-2.
  • the first 3D gaze point 61 is calculated by the first gaze estimation and gaze determination, and is temporarily installed as indicated by the hatching of the temporary installation button 52.
  • an object 55 temporarily installed by gazing at the first gaze estimation is displayed on the table 13. For example, since it is temporary installation, it is displayed with a dotted line.
  • the user 1 is trying to place an object in the middle of the table 13, but actually, the first 3D gaze point 61 calculated by the first gaze estimation and gaze determination and the second gaze estimation and gaze judgment are calculated.
  • the position of the second 3D gazing point 62 calculated by the above there may be no position in the depth direction even though the position in the left-right direction is correct.
  • the SLAM technology in the display device 3 for wearing as a result of the position and orientation estimation by SLAM, from the second viewpoint different from the first viewpoint, The position can be confirmed with the object 55 of the display 20-2. Further, the first 3D gazing point 61 is adjusted again from the second viewpoint and confirmed as the object 56 of the display 20-2. It can be installed as shown by 51 hatching. On the display 20-2, the object 56 is displayed so as to be clearer than the object 55.
  • FIG. 7A and FIG. 8A represent, for example, the field of view of the user viewed through the see-through display 20.
  • B of FIG. 7 and B of FIG. 8 are overhead views in world coordinates showing the cases of A in FIG. 7 and A in FIG. 8, respectively.
  • a table 13 is arranged as one piece of furniture in the real world three-dimensional space 11 that can be seen through the display 20, and the display 20 has a scale for enabling gaze. Is displayed on the display device 3 for wearing.
  • the virtual ruler 21 is displayed at a certain angle with respect to the user 1 facing direction. That is, the virtual ruler 21 is arranged along the (almost) depth direction in the user's visual field.
  • the virtual ruler 21 has a scale indicating the distance in the depth direction, and is arranged (displayed) so that the scale indicates the distance in the depth direction.
  • the step size and the display direction of the scale of the virtual ruler 21 are not limited to the example of A in FIG. 7 (that is, the user 1 can set it). After the step size and the display direction are determined, the virtual ruler 21 moves in conjunction with the movement of the head of the user 1. As shown in FIG. 7A and FIG. 7B, the 3D gazing point 61 is obtained on the table 13 at the intersection of the user's line of sight indicated by the dotted arrow and the virtual ruler 21.
  • the SLAM technique allows the user 1 to move from the position B in FIG. 7 to the position shown in FIG.
  • the result 55 based on the gaze point 61 before the movement and the result 56 based on the current gaze point 62 are superimposed on the display 20. That is, the object 55 arranged at the 3D gazing point 61 before the movement and the object 56 arranged at the current 3D gazing point 62 are displayed on the display 20. Then, since the virtual ruler 21 before the movement is still displayed, the virtual ruler 21 is arranged in the horizontal direction (almost) as viewed from the user after the user 1 moves, The scale of the ruler 21 indicates a distance in the horizontal direction.
  • User 1 can update the installation location, which is the result 56 based on the current 3D gaze point 62, and perform fine adjustment any number of times from an arbitrary position.
  • FIG. 9A and FIG. 10A show the user's field of view as seen through the display 20.
  • FIG. 9B and FIG. 10B are overhead views in world coordinates showing the cases of FIG. 9A and FIG. 10A, respectively.
  • the real world three-dimensional space 32 that can be seen through the display 20 includes a sky in which clouds float, and the display 20 has a virtual ruler 21 having a scale for enabling gaze. Is displayed by the display device 3 for wearing.
  • the virtual ruler 21 is displayed at a fixed angle with respect to the user 1 facing direction.
  • the step size and display direction of the scale of the virtual ruler 21 are not limited to the example of A in FIG. 9 (that is, the user 1 can set it).
  • the virtual ruler 21 moves in conjunction with the movement of the head of the user 1.
  • the 3D gazing point 61 is obtained at the intersection of the user's line of sight indicated by the dotted arrow and the virtual ruler 21.
  • the user 1 moves from the position shown in B of FIG. 9 to the position shown in B of FIG. 10 using the SLAM technology, and the virtual ruler 21 before the movement remains displayed.
  • the drone 65 drawn at the position of the result based on the 3D gazing point 61 before the movement and the movement position 66 of the result based on the current 3D gazing point 62 are superimposed on the display 20.
  • User 1 can update the current movement position 66 based on the current 3D gazing point 62 and perform fine adjustment any number of times from an arbitrary position.
  • FIG. 11A and FIG. 12A represent the user's field of view as seen through the display 20.
  • B of FIG. 11 and B of FIG. 12 are overhead views in world coordinates showing the cases of A in FIG. 11 and A in FIG.
  • the virtual three-dimensional space 35 that can be seen through the display 20 includes a sky in which clouds float, and the display 20 has a virtual ruler 21 having a scale for enabling gaze. Are displayed by the mounting display device 3.
  • the virtual ruler 21 is displayed at a certain angle with respect to the user 1 facing direction.
  • the step size and display direction of the scale of the virtual ruler 21 are not limited to the example of A in FIG. 11 (that is, the user 1 can set it).
  • the virtual ruler 21 moves in conjunction with the movement of the head of the user 1.
  • the 3D gazing point 61 is obtained at the intersection of the user's line of sight indicated by the dotted arrow and the virtual ruler 21.
  • the user 1 moves from the position shown in B of FIG. 11 to the position shown in B of FIG.
  • the display unit 67 superimposes itself 67 drawn at the position of the result based on the 3D gazing point 61 before the movement and the movement position 68 of the result based on the current 3D gazing point 62.
  • User 1 can update the current moving position 68 based on the current 3D gazing point 62 and perform fine adjustment any number of times from an arbitrary position.
  • object fine adjustment from a plurality of viewpoints can be performed by using SLAM (not limited to position estimation technology such as SLAM).
  • the virtual object (virtual object, virtual measure, progress mark, sphere, etc.) displayed on the display 20 described above is a stereoscopic image that can be stereoscopically viewed (stereoscopically viewed), and has binocular parallax and a convergence angle. It consists of an image for the right eye and an image for the left eye. That is, these virtual objects have virtual image positions in the depth direction (displayed so as to appear to exist at predetermined positions in the depth direction). In other words, for example, by setting a binocular parallax or a convergence angle, a desired virtual image position is given to these virtual objects (the virtual object is displayed so as to be visible to the user as if it exists at a desired position in the depth direction). )be able to.
  • FIG. 13 is a diagram illustrating a configuration example of an appearance of a mounting display device as an image processing device that is one of information processing devices to which the present technology is applied.
  • the mounting display device shown in FIG. 13 performs the virtual object operation described above with reference to FIG.
  • the display device 3 for wearing is configured as a glasses type and is worn on the face of the user 1.
  • the housing of the mounting display device 3 is provided with a display 20 (display unit) including a display unit 20A for the right eye and a display unit 20B for the left eye, an environment recognition camera 12, a line-of-sight recognition camera 50, an LED 71, and the like. ing.
  • the lens portion of the mounting display device 3 is, for example, a see-through display 20, and an environment recognition camera 12 is provided on the outside of the display 20 and above the eyes. It is sufficient that at least one environment recognition camera 12 is provided. It may be an RGB camera, but is not limited.
  • the LEDs 71 are provided on the upper and lower sides and the right and left sides of the display 20 in the direction of the face (face) with the eyes at the center.
  • the LEDs 71 are used for line-of-sight recognition, and it is even better if at least two LEDs 71 are provided for one eye. That is, it is sufficient that at least two LEDs 71 are provided for one eye.
  • a line-of-sight recognition camera 50 is provided inward of the display 20 and below the eyes. Note that it is sufficient that at least one line-of-sight recognition camera 50 is provided for one eye. In the case of recognizing the eyes of both eyes, it consists of at least two infrared cameras. In the line-of-sight recognition by the corneal reflection method, at least two LEDs 71 are provided for one eye, and in the case of line-of-sight recognition of both eyes, at least four LEDs 71 are provided.
  • the part corresponding to the lens of the glasses is the display 20 (the display unit 20A for the right eye and the display unit 20B for the left eye).
  • the right-eye display unit 20A is positioned in the vicinity of the front of the right eye of the user 1
  • the left-eye display unit 20B is positioned in the vicinity of the front of the left eye of the user.
  • the display 20 is a transmissive display that transmits light. Therefore, the right eye of the user 1 is viewed from the back side of the right eye display unit 20A, that is, in front of the right eye display unit 20A (in front of the user 1 (forward direction)). (Transparent video) can be seen. Similarly, the left eye of the user 1 can see a real-world scene (transparent image) in front of the left eye display unit 20B via the left eye display unit 20B. Therefore, the user 1 can see the image displayed on the display 20 in a state of being superimposed on the front side of the real world scene in front of the display 20.
  • the right eye display unit 20A displays an image (right eye image) to be shown to the right eye of the user 1
  • the left eye display unit 20B is an image (left eye to be shown to the left eye of the user 1).
  • Image the display 20 displays a stereoscopic image (stereoscopic object) by displaying an image with parallax on each of the right-eye display unit 20A and the left-eye display unit 20B.
  • a stereoscopic image is composed of a right-eye image and a left-eye image with parallax.
  • the parallax or convergence angle
  • the stereoscopic image is an image that can control the depth position (not the actual display position of the image, but the position that appears to the user 1 as if it exists (virtual image position)).
  • FIG. 14 is a block diagram showing a configuration example of the mounting display device of FIG.
  • the mounting display device 3 includes an environment recognition camera 12, a display 20, a line-of-sight recognition camera 50, and an image processing unit 80.
  • the image processing unit 80 includes a gaze estimation unit 81, a 2D gaze operation reception unit 82, a 2D gaze information DB 83, a coordinate system conversion unit 84, a 3D attention point calculation unit 85, a gaze determination unit 86, a coordinate system conversion unit 87, and a gaze point DB 88.
  • the drawing control unit 93 may be regarded as an example of a display control unit and / or an object control unit in the present disclosure.
  • the gaze estimation unit 81 sequentially estimates the gaze of the user 1 from the image input from the gaze recognition camera 50.
  • the estimated line-of-sight includes, for example, a “pupil position” and a “line-of-sight vector” of the line-of-sight recognition camera coordinate system with the line-of-sight recognition camera 50 as the origin.
  • the coordinate system conversion unit 84 For example, the pupil corneal reflection method is used for the gaze recognition, but other gaze recognition methods such as the scleral reflection method, the Double-Purkinje method, the image processing method, the search coil method, and the EOG (Electro-Oculography) method. Also good.
  • the line of sight of the user 1 may be estimated, for example, as the direction of the environment recognition camera 12 (the optical axis of the environment recognition camera 12). Specifically, the direction of the camera estimated using the image captured by the camera 12 may be estimated as the user's line of sight. That is, it should be noted that the use of the line-of-sight recognition method for imaging the eyeball of the user 1 is not essential for the estimation of the line of sight of the user 1.
  • the 2D line-of-sight operation reception unit 82 uses the line-of-sight from the line-of-sight estimation unit 81 and the camera / display relative position / posture data from the camera / display relative position / posture DB 89 to generate 2D line-of-sight coordinates ( 2D gazing point coordinates) are obtained, a menu operation is accepted, and a virtual measure is selected and set.
  • the 2D line-of-sight coordinates (2D gazing point coordinates) on the display 20 is two-dimensional coordinate information indicating where the user's line of sight is on the display 20.
  • the 2D line-of-sight information DB 83 records the menu operation and virtual measure information (such as the desired position 22 in FIG. 2) received by the 2D line-of-sight operation receiving unit 82 as a state.
  • the type of virtual measure by the 2D line-of-sight and the position and orientation of the virtual measure in the viewpoint coordinate system are recorded.
  • the coordinate system conversion unit 84 uses the camera / display relative position / orientation data from the camera / display relative position / orientation DB 89 to convert the line of sight recognition camera coordinate system from the line of sight estimation unit 81 to the viewpoint of the display 20. Convert to the line of sight of the coordinate system.
  • the 3D attention point calculation unit 85 calculates the 3D attention point coordinates by obtaining the intersection point between the virtual measure recorded in the 2D line-of-sight information DB 83 and the viewpoint of the viewpoint coordinate system converted by the coordinate system conversion unit 84.
  • the calculated 3D attention point coordinates are accumulated in the time series DB 94 of the 3D attention point.
  • the 3D attention point calculation unit 85 calculates a 3D attention point that is an intersection of the virtual measure recorded in the 2D line-of-sight information DB 83 and the line of sight of the viewpoint coordinate system converted by the coordinate system conversion unit 84.
  • the gaze determination unit 86 determines whether or not the user is gazing using the time series data of the 3D attention point from the time series DB 94 of the 3D attention point. As the final 3D gazing point coordinates, an average value, mode value, or median (intermediate value) of time-series data is adopted.
  • the gaze determination unit 86 compares the coordinate change speed of the 3D attention point time-series data in a certain section with a threshold value, and determines that it is gaze if the speed is equal to or lower than the threshold value.
  • the gaze determination unit 86 compares the coordinate change variance of the 3D attention point time-series data in a certain section with a threshold value, and determines that the gaze is in a case where the variance is equal to or less than the threshold value. Coordinate changes, speed, and dispersion correspond to the above-mentioned staying degree. Both speed-based and dispersion-based methods can be determined from the line of sight of one eye, but the line of sight of both eyes can also be used. In that case, the midpoint of each 3D attention point is treated as a 3D attention point by both eyes.
  • the coordinate system conversion unit 87 gazes the camera / display relative position / orientation data from the camera / display relative position / orientation DB 89, the environment camera position / orientation of the latest world coordinate system as the world reference from the environment camera position / orientation DB 92, and Using the 3D gazing point in the viewpoint coordinate system from the determination unit 86, the 3D gazing point in the viewpoint coordinate system is converted into a 3D gazing point in the world coordinate system and recorded in the gazing point DB 88.
  • the coordinate system conversion unit 87 uses the latest world coordinate system environment camera position and orientation (user position and orientation) from the environment camera position and orientation DB 92, and the viewpoint coordinate system 3D note from the gaze determination unit 86. Based on the viewpoint (a point obtained from the 3D attention point that is the intersection of the line of sight and the virtual measure), it can function as a gazing point calculation unit that calculates a 3D gazing point in the world coordinate system.
  • gazing point DB 88 3D gazing points of the world coordinate system converted by the coordinate system conversion unit 87 are accumulated.
  • the coordinate system conversion unit 90 includes the camera / display relative position / orientation data from the camera / display relative position / orientation DB 89, the latest world coordinate system environment camera position / orientation from the environment camera position / orientation DB 92, and the world from the gazing point DB 88. Using the coordinates of the 3D gazing point in the coordinate system, the 3D gazing point in the world coordinate system is converted into the 3D gazing point in the current viewpoint coordinate system.
  • the environment camera position and orientation estimation unit 91 sequentially estimates the position and orientation of the environment recognition camera 12 (the user 1 wearing the environment recognition camera 12) from the image of the environment recognition camera 12.
  • the environment recognition camera 12 and the above-described SLAM technique are used.
  • Other self-position estimation techniques include GPS, WIFI, IMU (3-axis acceleration sensor + 3-axis gyro sensor), RFID, visible light communication positioning, object recognition (image authentication), and the like.
  • the above techniques can be used in place of SLAM, although there are problems in terms of processing speed and accuracy. Even when the environment recognition camera 12 and SLAM are used, any of the above techniques can be used to determine (initialize) the world coordinate system.
  • the environmental camera position / orientation estimation unit 91 can be regarded as a position / orientation estimation unit that estimates the position / orientation of the user wearing the display device 3 for wearing in the real world or the virtual three-dimensional space, for example.
  • the environmental camera position and orientation DB 92 records the latest position and orientation from the environmental camera position and orientation estimation unit 91 at that time.
  • the drawing control unit 93 draws a 2D line of sight on the display 20 based on information in the 2D line of sight information DB 83, draws a virtual measure, and based on the 3D gazing point of the viewpoint coordinate system converted by the coordinate system conversion unit 90. Controls the rendering of a virtual object placed at a 3D gazing point. That is, the drawing control unit 93 displays a 3D gaze point based on the display of the points and virtual measures on the display 20 that the user is viewing, or the 3D gaze point of the viewpoint coordinate system converted by the coordinate system conversion unit 90. It can function as a display control unit or an object control unit that performs display of the displayed virtual object and other objects.
  • the 3D attention point time series DB 94 records time series data of the calculated 3D attention point coordinates calculated by the 3D attention point calculation unit 85.
  • the drawing control unit 93 performs a process of generating a stereoscopic object (stereoscopic image) including a left-eye image and a right-eye image that is displayed on the display 20 as a drawing. Then, the drawing control unit 93 causes the display 20 to display the generated stereoscopic object.
  • a stereoscopic object stereoscopic image
  • the drawing control unit 93 causes the display 20 to display the generated stereoscopic object.
  • the drawing control unit 93 sets the virtual image position of each stereoscopic object. Then, the drawing control unit 93 controls the display 20 to display the stereoscopic object so that it is stereoscopically viewed as if it exists at the virtual image position set for the stereoscopic object.
  • the drawing control unit 93 sets the parallax or the convergence angle for the stereoscopic object. Then, a left-eye image and a right-eye image as a stereoscopic object in which such parallax or convergence angle occurs are generated.
  • a method for generating a stereoscopic image is arbitrary.
  • Japanese Patent Application Laid-Open No. 08-322004 discloses a stereoscopic display device including means for electrically shifting an image to be displayed on a display surface in a horizontal direction so that a convergence angle with respect to a diopter substantially matches in real time. It is disclosed.
  • Japanese Patent Application Laid-Open No. 08-213332 obtains a stereoscopic image using binocular parallax, and a convergence angle selection means for setting a convergence angle when viewing a reproduced image is selected.
  • a stereoscopic video reproduction apparatus including control means for controlling the relative reproduction positions of the left and right images based on information on the convergence angle.
  • the drawing control unit 93 can generate a stereoscopic object using the methods described above.
  • the image from the environment recognition camera 12 is input to the environment camera position / orientation estimation unit 91.
  • the environment camera position / orientation estimation unit 91 performs environment recognition processing. The details of this environment recognition processing will be described later with reference to FIG. 16, but by this processing, the position and orientation of the environment recognition camera 12 estimated from the image from the environment recognition camera 12 are recorded in the environment camera position and orientation DB 92. .
  • the image input from the line-of-sight recognition camera 50 is input to the line-of-sight estimation unit 81.
  • the line-of-sight estimation unit 81, the 2D line-of-sight operation reception unit 82, the coordinate system conversion unit 84, the 3D attention point calculation unit 85, and the gaze determination unit 86 perform line-of-sight estimation processing in step S12.
  • the details of this line-of-sight estimation process will be described later with reference to FIG. 17. With this process, a 2D gazing point is obtained, a 3D gazing point is obtained from the 2D gazing point, and the 3D gazing point is the latest viewpoint coordinate. It is converted to a 3D gazing point of the system.
  • step S ⁇ b> 13 the drawing control unit 93 performs a drawing process using the information in the 2D line-of-sight information DB 83 and the 3D gazing point of the viewpoint coordinate system converted by the coordinate system conversion unit 90.
  • This drawing process will be described later with reference to FIG. 18.
  • 2D line-of-sight drawing on the display 20 drawing 2D line-of-sight coordinates on the display 20
  • virtual measure drawing drawing 2D line-of-sight coordinates on the display 20
  • 3D gazing point The drawn virtual object is controlled to be drawn on the display 20. That is, on the display 20, a virtual measure, a virtual object arranged at a 3D gaze point, and the like are displayed.
  • step S14 the 2D line-of-sight operation reception unit 82 determines whether or not to end the virtual object operation process. If it is determined in step S14 that the virtual object operation process is to be terminated, the virtual object process in FIG. 15 is terminated. On the other hand, when it is determined in step S14 that the virtual object process is not yet finished, the process returns to step S11, and the subsequent processes are repeated.
  • step S11 in FIG. 15 will be described with reference to the flowchart in FIG.
  • step S31 the environment camera position / orientation estimation unit 91 estimates the position / orientation of the environment recognition camera 12 from the image of the environment recognition camera 12.
  • step S32 the environmental camera position / posture DB 92 records the latest position / posture (position / posture of the environment recognition camera 12) at that time.
  • the latest position and orientation recorded here is used in steps S54 and S55 of FIG.
  • the image input from the line-of-sight recognition camera 50 is input to the line-of-sight estimation unit 81.
  • the gaze estimation unit 81 and the 2D gaze operation reception unit 82 perform 2D gaze point calculation.
  • the gaze estimation unit 81 sequentially estimates the gaze from the image input from the gaze recognition camera 50.
  • the estimated line-of-sight consists of “pupil position” and “line-of-sight vector” in the line-of-sight camera coordinate system, and the information is supplied to the 2D line-of-sight operation reception unit 82, the 2D line-of-sight information DB 83, and the coordinate system conversion unit 84. .
  • the 2D line-of-sight operation reception unit 82 uses the line of sight from the line-of-sight estimation unit 81 and the camera / display relative position / posture data from the camera / display relative position / posture DB 89 to generate 2D line-of-sight coordinates (2D (Gazing point coordinates) is obtained, menu operation is accepted, and virtual measure is selected and set.
  • the 2D line-of-sight information DB 83 records the menu operation and virtual measure information received by the 2D line-of-sight operation receiving unit 82 in addition to the 2D line-of-sight coordinates on the display 20 as states. These pieces of information are used in step S71 in FIG. For example, the drawing control unit 93 displays a virtual measure on the display 20 using information in the 2D line-of-sight information DB 83.
  • step S52 the coordinate system conversion unit 84 and the 3D attention point calculation unit 85 calculate the 3D attention point coordinates. That is, the coordinate system conversion unit 84 converts the line of sight recognition camera coordinate system to the line of sight of the viewpoint coordinate system using the camera / display relative position / orientation data from the camera / display relative position / attitude DB 89. .
  • the 3D attention point calculation unit 85 calculates the 3D attention point coordinates by obtaining an intersection between the virtual measure recorded in the 2D line-of-sight information DB 83 and the viewpoint coordinate system line of sight converted by the coordinate system conversion unit 84. The calculated 3D attention point coordinates are accumulated in the time series DB 94 of the 3D attention point.
  • step S53 the gaze determination unit 86 determines whether or not the user is gazing using the time series data of the 3D attention point from the time series DB 94 of the 3D attention point. If it is determined in step S53 that the user is not gazing, the process returns to step S51, and the subsequent processes are repeated. On the other hand, when it is determined in step S53 that the user is gazing, the gazing determination unit 86 uses the time-series data of the 3D attention point, and the 3D gazing point that the user is gazing in the viewpoint coordinate system. The process proceeds to step S54.
  • the average value, mode value, or median (intermediate value) of time series data is adopted as the final 3D gazing point coordinates.
  • step S54 the coordinate system conversion unit 87 performs camera / display relative position / posture data from the camera / display relative position / posture DB 89, the latest environmental camera position / posture of the world coordinate system from the environmental camera position / posture DB 92, and gaze determination.
  • the 3D gazing point in the viewpoint coordinate system is converted into a 3D gazing point in the world coordinate system and recorded in the gazing point DB 88.
  • step S55 the coordinate system conversion unit 90 obtains the camera / display relative position / posture data from the camera / display relative position / posture DB 89, the latest world coordinate system environmental camera position / posture from the environment camera position / posture DB 92, and the gaze point. Using the coordinates of the 3D gazing point in the world coordinate system from the DB 88, the 3D gazing point in the world coordinate system is converted into the 3D gazing point in the current viewpoint coordinate system. This information is used in step S71 in FIG.
  • step S13 in FIG. 15 will be described with reference to the flowchart in FIG.
  • step S 71 the drawing control unit 93 draws the 2D line of sight on the display 20 based on the information in the 2D line of sight information DB 83, draws the virtual measure, and 3D of the viewpoint coordinate system converted by the coordinate system conversion unit 90. Controls the rendering of a virtual object placed at a 3D gazing point based on the gazing point.
  • step S72 the display 20 performs drawing under the control of the drawing control unit 93. Thereby, for example, a virtual measure, a virtual object placed at a 3D gaze point, or the like is displayed on the display 20.
  • the 3D gaze point can be obtained from the gaze recognition and the environment recognition, the gaze state can be detected and the pointing interaction can be performed even when the user moves.
  • FIG. 19 is a diagram illustrating an external configuration example of a mounting display device as an image processing device that is one of information processing devices to which the present technology is applied. Note that the mounting display device of FIG. 19 performs the real object operation described above with reference to FIG.
  • the display device 3 for wearing is configured as a glasses, and is worn on the face of the user 1.
  • the target object to be operated has changed from a virtual object displayed on the display 20 to a real-world drone 31 that is operated via the wireless communication 100. Since this point is the same as the configuration example of the appearance of FIG. 13, the description thereof is omitted.
  • FIG. 20 is a block diagram showing a configuration example of the mounting display device and the drone of FIG.
  • 20 includes an environment recognition camera 12, a display 20, a line-of-sight recognition camera 50, and an image processing unit 80.
  • 20 includes a gaze estimation unit 81, a 2D gaze operation reception unit 82, a 2D gaze information DB 83, a coordinate system conversion unit 84, a 3D attention point calculation unit 85, a gaze determination unit 86, a coordinate system conversion unit 87,
  • the camera / display relative position / posture DB 89, the position / posture estimation unit 91, the environmental camera position / posture DB 92, the drawing control unit 93, and the 3D attention point time series DB 94 are common to the image processing unit 80 of FIG. Yes.
  • command transmission unit 101 may be regarded as an example of an object control unit in the present disclosure.
  • the command transmission unit 101 transmits the 3D gazing point of the world coordinate system converted by the coordinate system conversion unit 87 to the drone 31 via the wireless communication 100, for example.
  • the command transmission unit 101 can also be regarded as a position information transmission unit that transmits position information for moving the drone 31 as a moving object to the 3D gazing point to the drone 31.
  • the drone 31 includes an instruction receiving unit 111 and a route control unit 112, and performs route control to the coordinates of the 3D gazing point received from the mounting display device 3 via the wireless communication 100. And follow the route.
  • the command receiving unit 111 receives the coordinates of the 3D gazing point in the world coordinate system from the mounting display device 3 and supplies the coordinates to the route control unit 112.
  • the route control unit 112 sequentially generates an appropriate route using image sensing or ultrasonic sensing by a camera (not shown) based on the received coordinates of the 3D gazing point, and calculates a route to the target value. Note that the posture after reaching the destination is the same as the posture before departure, or the user 1 can control with the controller.
  • the drone 31 is not limited to a drone but may be a flying robot or a moving body, or may be a robot or moving body that cannot fly.
  • the image from the environment recognition camera 12 is input to the environment camera position / orientation estimation unit 91.
  • the environment camera position / orientation estimation unit 91 performs environment recognition processing. Since this environment recognition process is the same as the process described above with reference to FIG. 16, its description is omitted. With this processing, the position and orientation of the environment recognition camera 12 estimated from the image from the environment recognition camera 12 are recorded in the environment camera position and orientation DB 92.
  • the image input from the line-of-sight recognition camera 50 is input to the line-of-sight estimation unit 81.
  • the line-of-sight estimation unit 81, the 2D line-of-sight operation reception unit 82, the coordinate system conversion unit 84, the 3D attention point calculation unit 85, and the gaze determination unit 86 perform line-of-sight estimation processing in step S112.
  • the details of this line-of-sight estimation process are the same as those described above with reference to FIG. With this process, a 2D gazing point is obtained, a 3D gazing point is obtained from the 2D gazing point, and the 3D gazing point is converted into a 3D gazing point in the latest world coordinate system.
  • the converted coordinates of the latest 3D gaze point in the world coordinate system are supplied to the command transmission unit 101.
  • step S113 the drawing control unit 93 performs a drawing process using information in the 2D line-of-sight information DB 83. Details of this drawing process will be described later with reference to FIG. By this processing, the drawing of the 2D line of sight on the display 20 and the drawing of the virtual measure are controlled, and the drawing is performed on the display 20.
  • step S114 the command transmission unit 101 performs drone control processing. Details of the drone control process will be described later with reference to FIG.
  • the coordinates of the latest 3D gazing point (destination) of the world coordinate system supplied in the process of step S112 are received as a command by the drone 3, and the route is controlled based on the coordinates, and the drone 3 arrives at the destination.
  • the real object operation process in FIG. 21 is completed.
  • steps S131 to S133 in FIG. 22 perform the same processes as steps S51 to S53 in FIG.
  • step S134 the coordinate system conversion unit 87 performs camera / display relative position / posture data from the camera / display relative position / posture DB 89, the latest environmental camera position / posture of the world coordinate system from the environmental camera position / posture DB 92, and gaze determination.
  • the 3D gazing point in the viewpoint coordinate system is converted into the 3D gazing point in the world coordinate system, and the converted 3D gazing point in the world coordinate system is transmitted as a command. Supplied to the unit 101.
  • the coordinates of the 3D gazing point in the world coordinate system are transmitted via the command transmission unit 101 in step S134.
  • the command receiving unit 111 receives a command (the coordinates of the 3D gazing point in the world coordinate system).
  • the route control unit 112 controls the route of the drone 3 based on the received command.
  • the drone 3 arrives at the destination (3D gazing point in the world coordinate system).
  • the 3D gaze point can be obtained from the gaze recognition and the environment recognition, the gaze state can be detected and the pointing interaction can be performed even when the user moves.
  • FIG. 24 is a diagram illustrating a configuration example of the appearance of a mounting display device as an image processing device that is one of information processing devices to which the present technology is applied. 24 performs the virtual camera viewpoint movement described above with reference to FIG.
  • the display device 3 for wearing is configured as a glasses type and is worn on the face of the user 1.
  • the environment recognition camera 12 is not shown, and is actually provided.
  • FIG. 14 the example in which the environment recognition camera 12 and the above-described SLAM technology are used as the self-position estimation has been described.
  • Axis gyro sensor RFID, visible light communication positioning, object recognition (image authentication), etc.
  • FIG. 25 is a block diagram showing a configuration example of the mounting display device of FIG.
  • 25 is composed of an environment recognition camera 12, a display 20, a line-of-sight recognition camera 50, and an image processing unit 80.
  • 25 includes a gaze estimation unit 81, a 2D gaze operation reception unit 82, a 2D gaze information DB 83, a coordinate system conversion unit 84, a 3D attention point calculation unit 85, a gaze determination unit 86, a camera / display relative position and orientation.
  • the point provided with DB89, position and orientation estimation part 91, environmental camera position and orientation DB92, drawing control part 93, and time series DB94 of 3D attention point is common to the image processing part 80 of FIG.
  • the coordinate system conversion unit 151 includes the camera / display relative position / orientation data from the camera / display relative position / orientation DB 89 and the environment camera position / orientation of the latest world coordinate system serving as the world reference from the environment camera position / orientation DB 92.
  • the 3D gazing point in the viewpoint coordinate system is converted into the 3D gazing point in the world coordinate system, and the converted 3D gazing point and the environment camera position are converted. Is recorded in the coordinate offset DB 152 as a coordinate offset.
  • the environment camera position is the position of the environment recognition camera 12.
  • a difference between the 3D gazing point converted by the coordinate system conversion unit 151 and the environment camera position is recorded as a coordinate offset.
  • the viewpoint position setting unit 153 determines the position of the latest world coordinate system viewpoint as the sum of the latest world coordinate system environment camera position from the environment camera position and orientation DB 92 and the coordinate offset obtained by the coordinate system conversion unit 151. Set as. Note that the attitude of the environment camera of the latest world coordinate system from the environment camera position / orientation DB 92 is used as the viewpoint attitude.
  • the viewpoint position setting unit 153 supplies the set position and orientation of the viewpoint to the drawing control unit 93.
  • the latest world coordinate system viewpoint is the viewpoint (the viewpoint of the camera that captures the image displayed on the display 20) of viewing the image displayed on the display 20 (the subject shown in the display) in the world coordinate system.
  • the drawing control unit 93 draws a 2D line of sight on the display 20 based on information in the 2D line of sight information DB 83, draws a virtual measure, and is based on the position and orientation of the viewpoint obtained by the viewpoint position setting unit 153. Controls the drawing of virtual objects.
  • the virtual object operation processing of the mounting display device 3 in FIG. 25 is basically the same processing except for the details of the virtual object operation processing in FIG. 15 and the gaze estimation processing in step S12. Therefore, as the operation of the mounting display device 3 in FIG. 25, only the details of the line-of-sight estimation process in step S12 in FIG. 15 which is different will be described.
  • step S 184 the coordinate system conversion unit 151 determines the environment camera position of the latest world coordinate system that is the reference of the world from the camera / display relative position and orientation data from the camera / display relative position and orientation DB 89 and the environment camera position and orientation DB 92.
  • the 3D gazing point of the viewpoint coordinate system is converted into the 3D gazing point of the world coordinate system, and the converted 3D gazing point and environment are converted.
  • the camera position difference is recorded in the coordinate offset DB 152 as a coordinate offset.
  • step S185 the viewpoint position setting unit 153 obtains the position of the latest world coordinate system viewpoint from the environment camera position / posture DB 92 of the latest world coordinate system and the coordinate system conversion unit 151. Set as the sum of coordinate offsets. Thereafter, the line-of-sight estimation process ends, and the virtual object operation process returns to step S12 in FIG. 15 and proceeds to step S13.
  • the same effect as in the case of moving a virtual object or a real object can be obtained when the viewpoint is switched in the virtual world.
  • the 3D gaze point can be obtained from the gaze recognition and the environment recognition, the gaze state can be detected and the pointing interaction can be performed even when the user moves.
  • an environment recognition camera coordinate system 201 a viewpoint coordinate system 202, a line-of-sight recognition camera coordinate system 203, and a world coordinate system 204 are shown.
  • the line-of-sight recognition camera coordinate system 203 an example in which the technique of the pupil corneal reflection method is used is shown.
  • the line-of-sight recognition camera coordinate system 203 includes an LED 71 that is infrared light, a bright spot (Purkinje image) 222 that is a reflection when the pupil is irradiated with the LED 71, a pupil coordinate 221, and a bright spot 222 and a pupil. Observed, a line-of-sight vector 223 obtained from these positional relationships is shown.
  • the relationship among the environment recognition camera coordinate system 201, the viewpoint coordinate system 202, and the line-of-sight recognition camera coordinate system 203 is assumed to be known by performing calibration in advance.
  • the world coordinate system 204 and the environment recognition camera coordinate system 201 are obtained in real time by a self-position estimation technique such as SLAM.
  • the intersection of the object 301 and the line-of-sight vector 223 in the virtual space is a 3D attention point 212. Therefore, the 3D attention point 212 can be obtained as long as there is at least one line-of-sight vector 223 of the user 1 wearing the wearing display device 3.
  • the virtual ruler 21, which is one of the virtual measures, is provided to connect the object 301 and the user 1 in the virtual (real world) space, and the virtual ruler 21 and the line-of-sight vector.
  • the intersection with 223 is the 3D attention point 212. Therefore, the 3D attention point 212 can be obtained as long as there is at least one line-of-sight vector 223 of the user 1 wearing the wearing display device 3.
  • the 3D attention point 212 that is the intersection of the virtual ruler 21 and the line-of-sight vector 223 constitutes the Empty Field, and the line of sight can be directed to the Empty Field by using the virtual ruler 21.
  • FIG. 30 is a block diagram illustrating a configuration example of an image processing system to which the present technology is applied.
  • the image processing system 401 uses the information acquired in the mounting display device 411 as the image processing by the server 412 as environment recognition processing, line-of-sight estimation processing, and drawing processing (drawing data creation processing).
  • the created drawing data is transmitted to the mounting display device 411 via the network 413 and displayed on the display 20 of the mounting display device 411.
  • the mounting display device 411 includes the line-of-sight recognition camera 50, the display 20, and the environment recognition camera 12.
  • the mounting display device 411 shown in FIG. 30 has the point that the image processing unit 80 is removed and the point that the image information transmission unit 431, the drawing data reception unit 432, and the image information transmission unit 433 are added. Different from the display device 3.
  • 30 includes an image information receiving unit 451, a drawing data transmitting unit 452, an image information receiving unit 453, and an image processing unit 80.
  • the image processing unit 80 of the mounting display device 3 of FIG. 14 is provided in the server 412 instead of the mounting display device 411 in the image processing system 401 of FIG.
  • the image information transmission unit 431 transmits the image information input from the line-of-sight recognition camera 50 to the image information reception unit 451 of the server 412 via the network 413.
  • the drawing data reception unit 432 receives the drawing data transmitted from the drawing data transmission unit 452 of the server 412 via the network 413 and displays the drawing (image) corresponding to the received drawing data on the display 20.
  • the image information transmission unit 433 transmits the image information input from the environment recognition camera 12 to the image information reception unit 453 of the server 412 via the network 413.
  • the image information receiving unit 451 receives the image information input from the line-of-sight recognition camera 50 and supplies it to the image processing unit 80.
  • the drawing data transmission unit 452 transmits the drawing data drawn by the image processing unit 80 to the mounting display device 3 via the network 413.
  • the image information receiving unit 453 receives the image information input from the environment recognition camera 12 and supplies it to the image processing unit 80.
  • the image processing unit 80 includes a gaze estimation unit 81, a 2D gaze operation reception unit 82, a 2D gaze information DB 83, a coordinate system conversion unit 84, a 3D attention point calculation unit 85, a gaze determination unit 86, a coordinate system conversion unit 87, and a gaze point DB 88. 14, the camera / display relative position / orientation DB 89, the coordinate system conversion unit 90, the position / orientation estimation unit 91, the environmental camera position / orientation DB 92, and the drawing control unit 93. Since basically the same processing is performed, the description thereof is omitted.
  • the image processing unit 80 can be configured not only as a display device for installation 411 but also as a server. At that time, input / output is provided in the mounting display device 411, and only the image processing portion is performed by the server 412, and the created drawing data is transmitted to the mounting display device 411 and displayed on the display 20.
  • the 3D gaze point can be obtained from the gaze recognition and the environment recognition, the gaze state can be detected and the pointing interaction can be performed even when the user moves.
  • ⁇ Personal computer> The series of processes described above can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes a computer incorporated in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • FIG. 31 is a block diagram showing a hardware configuration example of a personal computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a storage unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the storage unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads, for example, a program stored in the storage unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program. Thereby, the series of processes described above are performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded on the removable medium 511.
  • the removable medium 511 is a package made of, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact Disc-Read Disc Only), DVD (Digital Versatile Disc), etc.), a magneto-optical disc, or a semiconductor memory.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the storage unit 508 via the input / output interface 505 by attaching the removable medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the storage unit 508. In addition, the program can be installed in the ROM 502 or the storage unit 508 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in a necessary stage such as in parallel or when a call is made. It may be a program for processing.
  • the step of describing the program recorded on the recording medium is not limited to the processing performed in chronological order according to the described order, but may be performed in parallel or It also includes processes that are executed individually.
  • system represents the entire apparatus composed of a plurality of devices (apparatuses).
  • the present disclosure can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in a necessary stage such as in parallel or when a call is made. It may be a program for processing.
  • the step of describing the program recorded on the recording medium is not limited to the processing performed in chronological order according to the described order, but may be performed in parallel or It also includes processes that are executed individually.
  • system represents the entire apparatus composed of a plurality of devices (apparatuses).
  • the present disclosure can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be combined into a single device (or processing unit).
  • a configuration other than that described above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of a certain device (or processing unit) may be included in the configuration of another device (or other processing unit). . That is, the present technology is not limited to the above-described embodiment, and various modifications can be made without departing from the gist of the present technology.
  • this technology can also take the following structures.
  • An information processing apparatus comprising: a display control unit that controls a display device to display a stereoscopic object that is arranged along a predetermined direction in a user's visual field and that indicates a distance related to the predetermined direction.
  • A2 The information processing apparatus according to (A1), wherein the display control unit controls the display device to display the stereoscopic object in a hollow where there is no stereoscopically visible object in real space.
  • A3 The information processing apparatus according to (A2), wherein the display control unit controls the display device to display the stereoscopic object based on the stay of the user's line of sight in the hollow area.
  • the information processing apparatus according to any one of (A1) to (A3), further including: a gaze determination unit that determines gaze of the user based on an intersection of the user's line of sight and the stereoscopic object.
  • a gaze determination unit that determines gaze of the user based on an intersection of the user's line of sight and the stereoscopic object.
  • the information processing apparatus according to (A4) further comprising: an object control unit configured to control a predetermined object according to the intersection based on the user's gaze.
  • the object control unit controls the display device to display a predetermined virtual object at the intersection.
  • A7 The information processing apparatus according to (A5), wherein the object control unit controls movement of the moving body according to the intersection.
  • the information processing apparatus controls the display device to switch a viewpoint of viewing a displayed image to a viewpoint corresponding to the intersection based on the user's gaze.
  • the gaze estimation unit estimates the gaze of the user using a corneal reflection method.
  • A12 The information processing apparatus according to any one of (A1) to (A11), wherein the stereoscopic object has a scale having substantially equal intervals.
  • the information processing apparatus includes a plurality of virtual objects arranged at substantially equal intervals.
  • the display control unit controls the display device to change at least one display of the plurality of virtual objects according to the line of sight of the user, or to display at least one supplementary information of the plurality of virtual objects.
  • the information processing apparatus according to (A13).
  • A15 The information processing apparatus according to any one of (A1) to (A14), wherein the information processing apparatus is a head mounted display further including the display device.
  • A16 The information processing apparatus according to (A15), wherein the display device is a see-through display.
  • A17 The information processing apparatus according to any one of (A1) to (A16), wherein the predetermined direction includes a depth direction extending toward the front of the user.
  • A18 The information processing apparatus according to any one of (A1) to (A17), wherein the predetermined direction includes a horizontal direction.
  • An information processing method comprising: controlling a display device to display a stereoscopic object that is arranged in a user's visual field along a predetermined direction and indicates a distance related to the predetermined direction.
  • a recording in which a program that causes a computer to function as a display control unit that controls a display device to display a stereoscopic object that is arranged in a user's field of view along a predetermined direction and indicates a distance in the predetermined direction is recorded Medium.
  • (B1) a position and orientation estimation unit that estimates the position and orientation of the user in the real world or virtual three-dimensional space; A line-of-sight estimation unit that estimates the line of sight of the user; A display controller that controls the display of virtual measures;
  • An image processing apparatus comprising: a gaze determination unit that determines gaze of a user using an attention point in the real world or virtual three-dimensional space that is an intersection of the user's line of sight and the virtual measure.
  • (B2) Based on the intersection of the position / orientation estimated by the position / orientation estimation unit, the user's gaze vector estimated by the gaze estimation unit, and the virtual measure or the virtual three-dimensional space, The image processing apparatus according to (B1), further including a gazing point calculation unit that calculates a gazing point in the dimensional space.
  • (B3) The image processing device according to (B1) or (B2), wherein the virtual measure is represented by a ruler having a scale.
  • (B4) The image processing apparatus according to (B3), wherein the display control unit displays the position so that the position on the virtual measure to which the user's line of sight is directed is known.
  • (B5) The image processing device according to (B1) or (B2), wherein the virtual measure is represented by a plurality of spheres arranged at equal intervals.
  • (B6) The image processing device according to (B5), wherein the display control unit displays the sphere to which the user's line of sight is directed by changing the color.
  • (B7) The image processing apparatus according to (B5) or (B6), wherein the display control unit controls display of supplementary information only to the sphere to which the user's line of sight is directed.
  • (B8) The image processing device according to any one of (B1) to (B7), wherein the display control unit controls display of a virtual object at a position where the gaze determination unit determines the gaze of the user.
  • (B9) The (B1) to (B8) further including a position information transmission unit that transmits position information for moving the moving body to the position where the gaze determination unit determines the gaze of the user.
  • An image processing apparatus according to any one of the above.
  • (B10) The image processing apparatus according to (B9), wherein the moving body is a flying movable body.
  • (B11) The image processing device according to any one of (B1) to (B10), wherein the display control unit controls display so as to switch a viewpoint to a position where the gaze determination unit determines the gaze of the user. .
  • (B12) The image processing apparatus according to any one of (B1) to (B11), wherein the position / orientation estimation unit estimates a user's position / orientation using SLAM (Simultaneous Localization and Mapping).
  • (B13) The image processing device according to any one of (B1) to (B12), wherein the line-of-sight estimation unit estimates the line of sight of the user using a cornea reflection method.
  • (B14) The image processing device according to any one of (B1) to (B12), which has a glasses shape.
  • the image processing device according to any one of (B1) to (B13), further including a display unit.
  • the image processing apparatus according to (B15), wherein the display unit is a see-through display.
  • the image processing device according to any one of (B1) to (B16), further including a line-of-sight recognition camera for recognizing the line of sight of the user.
  • the image processing device according to any one of (B1) to (B17), further including an environment recognition camera for recognizing an environment in the real world or the virtual three-dimensional space.
  • the image processing apparatus Estimate the user's position and orientation in the real world or virtual 3D space, Estimating the user's line of sight, Control the display of virtual measures, An image processing method for determining a user's gaze using an attention point in the real world or a virtual three-dimensional space that is an intersection of the user's line of sight and the virtual measure.
  • (B20) a position and orientation estimation unit that estimates the position and orientation of the user in the real world or virtual three-dimensional space; A line-of-sight estimation unit that estimates the line of sight of the user; A display controller that controls the display of virtual measures; A program that causes a computer to function as a gaze determination unit that determines gaze of a user using a point of interest in the real world or a virtual three-dimensional space that is an intersection of the user's line of sight and the virtual measure is recorded. Recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Electromagnetism (AREA)
  • Surgery (AREA)
  • Ophthalmology & Optometry (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)
  • Image Analysis (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

本開示は、例えば、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を実現することができるようにする情報処理装置および方法、並びに記録媒体に関する。 ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置が制御される。本開示は、例えば、ヘッドマウントディスプレイなどの装着用ディスプレイ装置に適用することができる。

Description

情報処理装置および方法、並びに記録媒体
 本開示は、情報処理装置および方法、並びに記録媒体に関し、特に、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を実現し、これにより、例えば、ハンズフリーで快適に操作することができるようにした情報処理装置および方法、並びに記録媒体に関する。
 実世界3次元空間内で物体を操作するためのデバイスや手法は、3D(dimension)マウスなどの専用デバイスや指先によるジェスチャなど多数提案されていた(特許文献1参照)。
特許第5807686号公報
 しかしながら、3Dマウスなどの専用デバイスの場合、その専用デバイスを手で操作する必要があった。指先によるジェスチャの場合、ポインティングのレイテンシが大きかった。
 また、人間の視覚調整の仕組み上、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善が望まれていた。
 本開示は、このような状況に鑑みてなされたものであり、視線の定位に関する改善を実現することができるものである。
 本開示の情報処理装置又は記録媒体は、ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する表示制御部を備える情報処理装置、又は、そのような情報処理装置としてコンピュータを機能させるプログラムが記録された記録媒体である。
 本開示の情報処理方法は、ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御することを含む情報処理方法である。
 本開示においては、ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトが表示装置に表示される。
 本開示(本技術)によれば、表示された立体視オブジェクトによって、三次元空間におけるユーザの視野の定位が補助される。その結果、例えば、ハンズフリーで快適に操作することができる。
  なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。
本技術の概要について説明する図である。 仮想オブジェクト操作(実施例1)について説明する図である。 実世界での実オブジェクト操作(実施例2)について説明する図である。 仮想世界での仮想カメラ視点移動(実施例3)について説明する図である。 仮想メジャーの他の例を示す図である。 オブジェクト微調整の例を説明する図である。 実施例1の場合のオブジェクト微調整の例を説明する図である。 実施例1の場合のオブジェクト微調整の例を説明する図である。 実施例2の場合のオブジェクト微調整の例を説明する図である。 実施例2の場合のオブジェクト微調整の例を説明する図である。 実施例3の場合のオブジェクト微調整の例を説明する図である。 実施例3の場合のオブジェクト微調整の例を説明する図である。 本技術を適用した装着用ディスプレイ装置の外観の構成例を示す図である。 図13の装着用ディスプレイ装置の構成例を示すブロック図である。 仮想オブジェクト操作処理について説明するフローチャートである。 図15のステップS11の環境認識処理について説明するフローチャートである。 図15のステップS12の視線推定処理について説明するフローチャートである。 図15のステップS13の描画処理について説明するフローチャートである。 本技術を適用した装着用ディスプレイ装置の外観の構成例を示す図である。 図19の装着用ディスプレイ装置の構成例を示すブロック図である。 実オブジェクト操作処理について説明するフローチャートである。 図21のステップS112の視線推定処理について説明するフローチャートである。 図21のステップS114のドローン制御処理について説明するフローチャートである。 本技術を適用した装着用ディスプレイ装置の外観の構成例を示す図である。 図24の装着用ディスプレイ装置の構成例を示すブロック図である。 図15のステップS12の視線推定処理について説明するフローチャートである。 本技術における座標系の関係を示す図である。 本技術における仮想空間との3D注視点の求め方について説明する図である。 本技術における仮想空間との3D注視点の求め方について説明する図である。 本技術を適用した画像処理システムの構成例を示すブロック図である。 パーソナルコンピュータのハードウエアの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(概要)
2.第2の実施の形態(仮想オブジェクト操作)
3.第3の実施の形態(実オブジェクト操作)
4.第4の実施の形態(仮想カメラ視点移動)
5.補足説明
6.第5の実施の形態(画像処理システム)
<1.第1の実施の形態>
 <概要>
 まず、図1を参照して、本技術の概要について説明する。
 実世界3次元空間内で物体を操作するためのデバイスや手法は、3Dマウスなどの専用デバイスや指先によるジェスチャなど多数提案されていた。しかしながら、3Dマウスなどの専用デバイスの場合、その専用デバイスを手で操作する必要があった。指先によるジェスチャの場合、ポインティングのレイテンシが大きかった。
 また、中空(empty-field)に関しては、人間の視覚調整の仕組み上、視線を定位させることができず(empty-field-myopiaと呼ばれる)、視線によるポインティングやオブジェクト操作が困難であった。
 すなわち、図1のAに示されるように、ユーザ1は、視覚に認識できる物体Aがあると焦点を合わせることができる。これに対して、ユーザ1は、物体Aの位置に焦点を合わせて注視したいが、点線の星に示されるように、物体がないと焦点を合わせることが難しかった。
 そこで、本技術においては、実物体がなくても、装着用ディスプレイ装置3に仮想メジャー4を表示し、ユーザ1の焦点合わせを補助する。すなわち、本技術においては、図1のBに示されるように、装着用ディスプレイ装置3(表示装置)に、中空に視線を定位させることを補助する仮想オブジェクトである仮想メジャー4を表示させる表示制御が行われ、これにより、ユーザ1の焦点合わせが補助される。仮想メジャー4は、立体視される(立体視できる)仮想オブジェクトである立体視オブジェクトの1つであり、例えば、ユーザ1の視野内に、ユーザ1の前方に向かって延在する奥行方向や、水平方向、斜め方向、その他、湾曲した方向等の所定の方向に沿って配置され、その所定の方向に関する距離を示す。かかる仮想メジャー4は、中空に視線を定位させることを補助し、中空への視線の定位のしやすさを改善する。なお、装着用ディスプレイ装置3は、例えば、シースルーディスプレイやヘッドマウントディスプレイなどで構成される。
 これにより、視線と仮想メジャーで中空空間を含めた3次元ポインティングを実現することができる。
 <実施例1:仮想オブジェクト操作の例>
 図2は、仮想オブジェクト操作として、仮想(バーチャル)家具の配置シミュレーションの例を説明する図である。図2の例においては、ユーザ1は、装着用ディスプレイ装置3を装着して、実世界3次元空間(または仮想3次元空間)11にいる。実世界3次元空間11には、家具の1つとしてテーブル13が配置されている。装着用ディスプレイ装置3には、環境を認識するために、実世界3次元空間11内の画像を撮像する環境認識カメラ12とディスプレイ20が設けられている。そして、図2の右側には、実世界3次元空間11において環境認識カメラ12で撮像した画像(実世界3次元空間11内の画像)が、ディスプレイ20に表示されている。
 図2のAに示されるように、ユーザ1は、仮想物を、実世界3次元空間11のテーブル13上のempty-field14、すなわち、中空に配置しようとするが、上述したように、人間の視覚調整の仕組み上、実世界3次元空間11のテーブル13上のempty-field14へは、焦点を合わせることができない。
 そこで、装着用ディスプレイ装置3は、矢印P1に示されるように、注視を可能とするための目盛りを有する仮想定規21を、実世界3次元空間11内が表示されるディスプレイ20に表示させる。これにより、矢印P2に示されるように、ユーザ1は、この仮想定規21を手がかりに、仮想定規21上の所望の位置22に焦点を合わせることができる。なお、所望の位置22は、ユーザ1が、その位置に焦点を合わせることで、仮想定規21上に表示される。
 すなわち、装着用ディスプレイ装置3は、仮想メジャー4の1つである仮想定規21を、実世界3次元空間11内が表示されるディスプレイ20に表示させる。仮想定規21は、定規を模した平板形状の立体視オブジェクトであり、距離を示す情報としての略等間隔の目盛りを有する。仮想定規21は、例えば、ユーザ1の視野内に、長手方向(目盛りがつけられた方向)が奥行方向に沿い、短手(横手)方向が垂直方向を向く状態で、やや斜めに、実空間における立体視可能なオブジェクトが存在しない中空を含む領域(空間)に配置される。なお、仮想定規21(の長手方向)を配置する配置方向は、奥行方向に限定されるものではない。また、仮想メジャー21の配置タイミングは、視線の滞留に基づいて判定されてもよく、後述する図6に示す設置ボタン51等のGUI(Graphical User Interface)のユーザ1による操作に基づいて判定されてもよい。
 ユーザ1が、仮想物を配置したい所望の位置22を継続して注視すると、図2のBに示されるように、装着用ディスプレイ装置3は、3D注目点の滞留度が閾値以内であるかどうかを計測する。ここで、所望の位置22を囲む円は、3D注目点の滞留度が閾値以内である滞留度閾値内範囲25を示している。そして、装着用ディスプレイ装置3は、矢印P11に示されるように、ディスプレイ20の3D注目点の滞留度が閾値以内である場所に、その場所を示す所望の位置22と、その所望の位置22の近傍に、同じ位置を見ていることを示す進捗マーク23とを表示し、その後、矢印P12に示されるように、empty-field14に仮想物24を設置することができる。
 すなわち、装着用ディスプレイ装置3は、ユーザ1の視線と、仮想定規21との交点に基づいて、ユーザ1の注視を判定する。すなわち、装着用ディスプレイ装置3では、ユーザ1の視線と、仮想定規21との交点が検出される。この交点は、ユーザ1が焦点合わせを行って(視線を向けて)注目しようとしている点(ユーザ1が視線を向けている実世界3次元空間または仮想3次元空間の点)であり、以下、3D注目点ともいう。図2のBに示されるように、装着用ディスプレイ装置3は、3D注目点が滞留している滞留範囲の大きさに対応する滞留度が所定の期間に亘って閾値以内であるかどうかを判定する(滞留度の閾値判定)。例えば、滞留度が所定の期間に亘って閾値以内である場合、装着用ディスプレイ装置3は、3D注目点の滞留範囲内の位置22をユーザ1が注視していると判定する。したがって、ユーザ1が位置22に継続して焦点合わせを行っていると(視線を向け続けていると)、ユーザ1が注視していると判定される。滞留度の閾値判定が行われている間、装着用ディスプレイ装置3は、矢印P11に示されるように、ディスプレイ20の3D注目点の滞留度が閾値以内の滞留範囲内の位置22に、その位置22を表すオブジェクトとしての点と、位置22の近傍に、同じ位置22を見ている状態の進捗を示す進捗マーク23とを表示する。進捗マーク23は、滞留度が閾値以内になっている時間(の経過)を表す。位置22をユーザ1が注視していると判定された後、例えば、位置22が、ユーザ1が注視している3D注視点とされ、矢印P12に示されるように、装着用ディスプレイ装置3は、位置22に仮想物24を設置する。
 そして、仮想物24の設置後は、図2のCに示されるように、ユーザ1は、実世界3次元空間11において、例えば、テーブル13に近づくなど任意のポーズを行うと、装着用ディスプレイ装置3は、矢印P21に示されるように、図6を参照して後述するSLAM(Simultaneous Localization and Mapping)により、ユーザ1のポーズに応じて、ディスプレイ20に仮想物24を表示する。したがって、ユーザは、ユーザ1のポーズに応じて、仮想物24を確認することができる。
 <実施例2:実オブジェクト操作の例>
 図3は、実世界での実オブジェクト操作として、ドローン操作の例を説明する図である。図3の例においては、ユーザ1は、装着用ディスプレイ装置3を装着して、実世界3次元空間32にいる。実世界3次元空間32には、ドローン31が配置されている。装着用ディスプレイ装置3には、図2の例と同様に、環境認識カメラ12とディスプレイ20が設けられており、図3の右側には、実世界3次元空間32において環境認識カメラ12で撮像した画像(雲が浮かぶ空の画像)が、ディスプレイ20に表示されている。
 図3のAに示されるように、ユーザ1は、ドローン31を、実世界3次元空間32の中空のempty-field14に移動しようとしても、上述したように、人間の視覚調整の仕組み上、実世界3次元空間32上のempty-field14へは、焦点を合わせることができない。
 そこで、装着用ディスプレイ装置3は、矢印P31に示されるように、注視を可能とするための仮想定規21をディスプレイ20に表示させる。これにより、矢印P32に示されるように、ユーザ1は、この仮想定規21を手がかりに、empty-field14内の所望の位置22に焦点を合わせることができる。
 ユーザ1が、ドローン31を移動したい所望の位置22を継続して注視すると、図3のBに示されるように、装着用ディスプレイ装置3は、3D注目点の滞留度が閾値以内であるかどうかを計測する。そして、装着用ディスプレイ装置3は、矢印P41に示されるように、ディスプレイ20の3D注目点の滞留度が閾値以内である場所に、その場所を示す所望の位置22と、その所望の位置22の近傍に、同じ位置を見ていることを示す進捗マーク23とを表示し、その後、矢印P42に示されるように、empty-field14(の所望の位置22)にドローン31を移動させることができる。なお、実際には、装着用ディスプレイ装置3は、ドローン31に対して位置情報を送信することにより、ドローン31を移動させる。
 すなわち、ユーザ1が、ドローン31を移動したい位置22に継続して視線を向けていると、図2の場合と同様に、位置22を表すオブジェクトと、進捗マーク23とが表示される(図3のBの矢印P41)。その後、ユーザ1が注視していると判定されると、矢印P42に示されるように、ユーザ1が注視している位置22にドローン31が移動される。
 そして、ドローン31の移動後は、図3のCに示されるように、ユーザ1は、実世界3次元空間32において、例えば、所望の位置22に移動したドローン31を確認することができる。
 <実施例3:仮想カメラ視点移動の例>
 図4は、仮想世界での仮想カメラ視点移動として、視点ワープの例を説明する図である。図4の例においては、ユーザ1は、装着用ディスプレイ装置3を装着して、仮想3次元空間35にいる。装着用ディスプレイ装置3には、図2の例と同様に、環境認識カメラ12とディスプレイ20が設けられており、図4の右側には、仮想3次元空間35において環境認識カメラ12で撮像した画像(家を斜め前から見た画像)が、ディスプレイ20に表示されている。
 図4のAに示されるように、主観視点でプレイ中のユーザ1は、俯瞰視点に切り替えるために、仮想3次元空間35における視点切り替え先の位置である中空のempty-field14に見ようとする。しかしながら、ユーザ1が中空のempty-field14を見ようとしても、上述したように人間の視覚調整の仕組み上、矢印P51に示されるように、仮想3次元空間35上のempty-field14へは、焦点を合わせることができない。
 そこで、装着用ディスプレイ装置3は、矢印P52に示されるように、注視を可能とするための仮想定規21を、中空(雲が浮かぶ空の画像)が表示されるディスプレイ20に表示させる。ディスプレイ20には、empty-field14(すなわち、空)の画像に重畳された仮想定規21が表示されている。これにより、矢印P52に示されるように、ユーザ1は、この仮想定規21を手がかりに、視点切り替え先(empty-field14)の所望の位置22に焦点を合わせることができる。
 ユーザ1が、視点切り替え先の所望の位置22を継続して注視すると、図4のBに示されるように、装着用ディスプレイ装置3は、3D注目点の滞留度が閾値以内であるかどうかを計測する。そして、装着用ディスプレイ装置3は、矢印P61に示されるように、ディスプレイ20の3D注目点の滞留度が閾値以内である場所に、その場所を示す所望の位置22と、その所望の位置22の近傍に、同じ位置を見ていることを示す進捗マーク23とを表示し、その後、矢印P62に示されるように、empty-field14の所望の位置22にカメラ始点を切り替えることができる。その結果、ディスプレイ20には、家を上(所望の位置22)から見た画像(俯瞰画像)が表示される。
 すなわち、ユーザ1が、視点切り替え先の所望の位置22に継続して視線を向けていると、図2の場合と同様に、位置22を表すオブジェクトと、進捗マーク23とが表示される(図4のBの矢印P61)。その後、ユーザ1が注視していると判定されると、矢印P62に示されるように、ユーザ1が注視している位置22にカメラ視点(ディスプレイ20に表示される画像を見る視点)が切り替えられる。その結果、ディスプレイ20には、家を上(所望の位置22)から見た画像(俯瞰画像)が表示される。
 そして、例えば、図4のCに示されるように、ユーザ1は、仮想3次元空間35において、例えば、所望の位置22をカメラ視点として俯瞰することができる。
 <変形例1:仮想メジャー例>
 図5は、仮想メジャーの他の例を示す図である。図5の例においては、ディスプレイ20には、仮想メジャーとして、仮想定規21の代わりに、複数の仮想オブジェクトとしての球体41が略等間隔に配置されて表示されている。すなわち、図5では、仮想メジャーは、複数の仮想オブジェクトとしての球体41を含み、その複数の球体41が、所定の方向としての奥行方向および水平方向のそれぞれに沿って略等間隔に配置されたものになっている。複数の球体41が、奥行方向および水平方向のそれぞれに沿って略等間隔に配置されることにより、その複数の球体41は、奥行方向および水平方向それぞれの距離(間隔)を示す。ユーザ1の2D視点ポインタ42は、複数の球体41とは別の位置にあるが、矢印P71に示されるように、すぐに注視が可能である。2D視点ポインタ42は、ユーザ1が見ている(焦点合わせを行っている)位置を表す。
 例えば、ユーザ1の2D視点ポインタ42が配置されている(すなわち、ユーザ1の視線が向けられている)球体41の色を変えるなどすることにより、ユーザ1に素早くフィードバックを行うことができる。すなわち、仮想メジャーとしての複数の球体41については、ユーザ1の視線に応じて、複数の球体41のうちの少なくとも1つの表示を変化させること、具体的には、例えば、ユーザ1の視線が向けられている球体41の色や、輝度、形状、大きさ等を変化させることができる。
 さらに、矢印P72に示されるように、2D視点ポインタ42が配置されている(すなわち、ユーザ1の視線が向けられている)球体41のみに、「高度15m,距離25m」の2D視点ポインタ42の位置を示す補足情報などを加えて表示して、見やすく、かつ、ユーザ1の視界をできるだけ邪魔しないようにする必要がある。すなわち、仮想メジャーとしての複数の球体41については、ユーザ1の視線に応じて、複数の球体41のうちの少なくとも1つの補足情報を表示すること、具体的には、例えば、ユーザ1の視線が向けられている球体41の位置を示す情報等を表示することができる。
 なお、図5の例においては、複数の球体としたが、補助になるようなものであれば、他のものでもよい。すなわち、図5の例においては、仮想メジャーを、複数の球体としたが、ユーザ1の焦点合わせの補助になるようなものであれば、形状は球以外の他の仮想オブジェクトでもよい。
 <変形例2:オブジェクト微調整例>
 次に、図6を参照して、SLAMを使用した複数視点からのオブジェクト微調整について説明する。なお、SLAM(位置姿勢推定)は、カメラの画像を使って、画像の変化情報から地図と位置を推定し、カメラ自身の位置と姿勢をリアルタイムで求める技術である。
 図6の例において、ユーザ1は、装着用ディスプレイ装置3を装着して、オブジェクトをテーブル13の上に設置しようとしている。装着用ディスプレイ装置3には、環境認識カメラ12および視線認識カメラ50が備えられている。そこで、装着用ディスプレイ装置3が、1回目の視線推定および注視判定、並びに2回目の視線推定および注視判定を行う場合を考える。視線推定は、ユーザ1の視線を推定する処理であり、注視判定は、ユーザ1の視線を用いて、ユーザ1が注視しているかどかを判定する処理である。なお、図6では、「視線推定」および「注視判定」のうちの、「視線推定」のみを記載し、「注視判定」の記載を省略してある。
 図6の例において、ディスプレイ20-1は、1回目の注視推定後のディスプレイ20を表しており、ディスプレイ20-2は、2回目の注視により注視推定後のディスプレイ20を表している。すなわち、ディスプレイ20-1は、1回目の視線推定および注視判定後のディスプレイ20を表しており、ディスプレイ20-2は、2回目の視線推定および注視判定後のディスプレイ20を表している。ディスプレイ20-1および20-2には、設置ボタン51、仮設置ボタン52、キャンセルボタン53が表示されており、いずれも、注視することにより選択することができる。なお、ハッチングに示されるように、ディスプレイ20-1においては、仮設置ボタン52が選択されており、ディスプレイ20-2においては、設置ボタン51が選択されている。
 すなわち、1回目の視線推定および注視判定により1回目の3D注視点61が算出され、仮設置ボタン52のハッチングに示されるように、仮設置される。その際、ディスプレイ20-1において、テーブル13の上には、1回目の視線推定により注視して仮設置したオブジェクト55が表示される。例えば、仮設置なので、点線で表示されている。
 ユーザ1は、テーブル13の真ん中にオブジェクトをおこうとしているが、実際には、1回目の視線推定および注視判定により算出された1回目の3D注視点61と、2回目の視線推定および注視判定により算出された2回目の3D注視点62との位置からわかるように、左右方向の位置は合っていても、奥行き方向の位置などがあっていないことがある。
 このとき、装着用ディスプレイ装置3において、SLAMの技術を用いることにより、SLAMによる位置姿勢推定の結果、1回目の視点とは異なる2回目の視点から、仮設置した1回目の3D注視点61の位置をディスプレイ20-2のオブジェクト55で確認することができ、さらに、1回目の3D注視点61を、2回目の視点から再度調整し、ディスプレイ20-2のオブジェクト56として確認しながら、設置ボタン51のハッチングに示されるように、設置することができる。なお、ディスプレイ20-2においては、オブジェクト56は、オブジェクト55より明確になるように表示されている。
 なお、図6のオブジェクトの微調整の具体例として、以下、実施例1乃至実施例3についてそれぞれ説明する。
 <実施例1の場合のオブジェクトの微調整>
 次に、図7および図8を参照して、図2で上述した仮想オブジェクト操作でのオブジェクトの微調整について説明する。
 図7のAおよび図8のAは、例えば、シースルーのディスプレイ20を介して見えるユーザの視野を表している。図7のBおよび図8のBは、図7のAおよび図8のAの場合をそれぞれ示す世界座標での俯瞰図である。
 図7のAの例においては、ディスプレイ20を介して見える実世界3次元空間11には、家具の1つとしてテーブル13が配置されており、ディスプレイ20には、注視を可能とするための目盛りを有する仮想定規21が、装着用ディスプレイ装置3により表示されている。
 図7のBにおいて、仮想定規21は、ユーザ1の正対方向に対して、一定の角度で表示されている。すなわち、仮想定規21は、ユーザの視野内に奥行方向に(ほぼ)沿って配置されている。また、仮想定規21は、奥行方向に関する距離を示す目盛りを有し、その目盛りが奥行方向に関する距離を示すように配置(表示)されている。ただし、仮想定規21の目盛りの刻み幅や表示方向は、図7のAの例に限定されない(すなわち、ユーザ1が設定可能である)。刻み幅や表示方向が決まった後は、ユーザ1の頭部の動きに対して連動して、仮想定規21が動く。図7のAおよび図7のBに示されるように、3D注視点61は、テーブル13上において、点線矢印に示されるユーザの視線と仮想定規21との交点で求められる。
 図8のAの例においては、SLAMの技術により、ユーザ1が、図7のBの位置から、図8のBに示される位置に移動後、移動前の仮想定規21は表示させたままで、移動前の注視点61ベースの結果55と、現在の注視点62ベースの結果56とがディスプレイ20に重畳されている。すなわち、移動前の3D注視点61に配置されたオブジェクト55と、現在の3D注視点62に配置されたオブジェクト56とがディスプレイ20に表示されている。そして、移動前の仮想定規21が表示されたままになっているため、ユーザ1の移動後、仮想定規21は、ユーザから見て水平方向に(ほぼ)沿って配置された状態になり、仮想定規21が有する目盛りは、水平方向に関する距離を示すものになっている。
 ユーザ1は、任意の位置から何度でも、現在の3D注視点62ベースの結果56である設置場所を更新し、微調整を行うことができる。
 <実施例2の場合のオブジェクトの微調整>
 次に、図9および図10を参照して、図3で上述した実オブジェクト操作でのオブジェクトの微調整について説明する。
 図9のAおよび図10のAは、ディスプレイ20を介して見えるユーザの視野を表している。図9のBおよび図10のBは、図9のAおよび図10のAの場合をそれぞれ示す世界座標での俯瞰図である。
 図9のAの例においては、ディスプレイ20を介して見える実世界3次元空間32には、雲が浮かぶ空が存在し、ディスプレイ20には、注視を可能とするための目盛りを有する仮想定規21が、装着用ディスプレイ装置3により表示されている。
 図9のBにおいて、仮想定規21は、ユーザ1の正対方向に対して、一定の角度で表示されている。ただし、仮想定規21の目盛りの刻み幅や表示方向は、図9のAの例に限定されない(すなわち、ユーザ1が設定可能である)。刻み幅や表示方向が決まった後は、ユーザ1の頭部の動きに対して連動して、仮想定規21が動く。図9のAおよび図9のBに示されるように、3D注視点61は、点線矢印に示されるユーザの視線と仮想定規21との交点で求められる。
 図10のAの例においては、SLAMの技術により、ユーザ1が、図9のBに示される位置から図10のBに示される位置に移動後、移動前の仮想定規21は表示させたままで、移動前の3D注視点61ベースの結果の位置に描画されるドローン65と、現在の3D注視点62ベースの結果の移動位置66とがディスプレイ20に重畳されている。
 ユーザ1は、任意の位置から何度でも、現在の3D注視点62ベースの結果の移動位置66を更新し、微調整を行うことができる。
 <実施例3の場合のオブジェクトの微調整>
 次に、図11および図12を参照して、図4で上述した仮想カメラ視点移動でのオブジェクトの微調整について説明する。
 図11のAおよび図12のAは、ディスプレイ20を介して見えるユーザの視野を表している。図11のBおよび図12のBは、図11のAおよび図12のAの場合をそれぞれ示す世界座標での俯瞰図である。
 図11のAの例においては、ディスプレイ20を介して見える仮想3次元空間35には、雲が浮かぶ空が存在し、ディスプレイ20には、注視を可能とするための目盛りを有する仮想定規21が、装着用ディスプレイ装置3により表示されている。
 図11のBにおいて、仮想定規21は、ユーザ1の正対方向に対して、一定の角度で表示されている。ただし、仮想定規21の目盛りの刻み幅や表示方向は、図11のAの例に限定されない(すなわち、ユーザ1が設定可能である)。刻み幅や表示方向が決まった後は、ユーザ1の頭部の動きに対して連動して、仮想定規21が動く。図11のAおよび図11のBに示されるように、3D注視点61は、点線矢印に示されるユーザの視線と仮想定規21との交点で求められる。
 図12のAの例においては、SLAMの技術により、ユーザ1が、図11のBに示される位置から図12のBに示される位置に移動後、移動前の仮想定規21は表示させたままで、移動前の3D注視点61ベースの結果の位置に描画される自身67と、現在の3D注視点62ベースの結果の移動位置68とがディスプレイ20に重畳されている。
 ユーザ1は、任意の位置から何度でも、現在の3D注視点62ベースの結果の移動位置68を更新し、微調整を行うことができる。
 以上のように、本技術においては、SLAM(に限らず、SLAMなどの位置推定技術)を使用することによって、複数視点からのオブジェクト微調整を行うことができる。
 なお、上述したディスプレイ20に表示される仮想オブジェクト(仮想物、仮想メジャー、進捗マーク、球体など)は、立体視される(立体視できる)立体視画像であり、両眼視差や輻輳角を有する右眼用画像と左眼用画像からなる。つまり、これらの仮想オブジェクトは、奥行方向の虚像位置を有する(奥行方向の所定の位置に存在しているように見えるように表示される)。換言するに、例えば両眼視差や輻輳角の設定によって、これらの仮想オブジェクトに所望の虚像位置を与える(仮想オブジェクトを奥行方向の所望の位置に存在しているようにユーザに見えるように表示させる)ことができる。
<2.第2の実施の形態>
 <装着用ディスプレイ装置の外観>
 図13は、本技術を適用した情報処理装置の1つである画像処理装置としての装着用ディスプレイ装置の外観の構成例を示す図である。なお、図13の装着用ディスプレイ装置は、図2を参照して上述した仮想オブジェクト操作を行うものである。
 図13の例において、装着用ディスプレイ装置3は、眼鏡型で構成されており、ユーザ1の顔に装着されている。装着用ディスプレイ装置3の筐体には、右眼用表示部20Aと左眼用表示部20Bとからなるディスプレイ20(表示部)、環境認識カメラ12、視線認識カメラ50、およびLED71などが設けられている。
 装着用ディスプレイ装置3のレンズ部分は、例えば、シースルーのディスプレイ20となっており、ディスプレイ20の外側、両目の上部には、環境認識カメラ12が設けられている。環境認識カメラ12は、少なくとも1つ備えられていればよい。RGBカメラであってもよいが、限定されない。
 ディスプレイ20の内(顔)向きに、両目を中心として、それぞれ上下左右にLED71が備えられている。なお、LED71は、視線認識用に用いられるものであり、一方の目に対して少なくとも2つ備えられていれば、なおよい。すなわち、LED71は、一方の目に対して少なくとも2つ備えられていればよい。
 さらに、ディスプレイ20の内向きに、両目の下部には、視線認識カメラ50が設けられている。なお、視線認識カメラ50は、少なくとも片目用に1つ備えられていればよい。両目の視線認識の場合は、少なくとも2つの赤外カメラからなる。また、角膜反射法による視線認識では、片目用に最低2つのLED71、両目の視線認識の場合は、少なくとも4つのLED71を備えているものとする。
 装着用ディスプレイ装置3では、眼鏡のレンズに相当する部分がディスプレイ20(右眼用表示部20Aと左眼用表示部20B)となっている。ユーザ1が装着用ディスプレイ装置3を装着すると、右眼用表示部20Aがユーザ1の右眼前方の近傍に位置し、左眼用表示部20Bがユーザの左眼前方の近傍に位置する。
 ディスプレイ20は、光を透過する透過型ディスプレイである。したがって、ユーザ1の右眼は、右眼用表示部20Aを介して、その背面側、すなわち、右眼用表示部20Aより前方(ユーザ1から見て前方(奥行方向))の実世界の景色(透過映像)を見ることができる。同様に、ユーザ1の左眼は、左眼用表示部20Bを介して、その背面側、すなわち、左眼用表示部20Bより前方の実世界の景色(透過映像)を見ることができる。したがって、ユーザ1には、ディスプレイ20に表示される画像が、このディスプレイ20より前方の実世界の景色の手前側に重畳された状態で見える。
 右眼用表示部20Aは、ユーザ1の右眼に見せるための画像(右眼用画像)を表示し、左眼用表示部20Bは、ユーザ1の左眼に見せるための画像(左眼用画像)を表示する。つまり、ディスプレイ20は、右眼用表示部20Aおよび左眼用表示部20Bのそれぞれに、視差がある画像を表示させることで、立体視される立体視画像(立体視オブジェクト)を表示する。
 立体視画像は、視差がある右眼用画像と左眼用画像からなり、その視差(または輻輳角)を制御することにより、すなわち、例えば、右眼用画像および左眼用画像のうちの一方の画像に映る被写体の位置に対する、他方の画像に映る同一被写体の位置の水平方向のずれ量を制御することにより、被写体が、ユーザ1から遠くに位置するように見えるようにしたり、近くに位置するように見えるようにしたりすることができる画像である。つまり、立体視画像は、奥行位置(画像の実際の表示位置ではなく、ユーザ1にとってあたかもそこに存在するように見える位置(虚像位置))を制御することができる画像である。
 図14は、図13の装着用ディスプレイ装置の構成例を示すブロック図である。
 図14の例において、装着用ディスプレイ装置3は、環境認識カメラ12、ディスプレイ20、視線認識カメラ50、および画像処理部80から構成されている。画像処理部80は、視線推定部81、2D視線操作受付部82、2D視線情報DB83、座標系変換部84、3D注目点算出部85、注視判定部86、座標系変換部87、注視点DB88、カメラ・ディスプレイ相対位置姿勢DB89、座標系変換部90、位置姿勢推定部91、環境カメラ位置姿勢DB92、描画制御部93、および3D注目点の時系列DB94を含むように構成されている。なお、描画制御部93が、本開示における表示制御部および/またはオブジェクト制御部の一例として見做されてよい。
 視線推定部81は、視線認識カメラ50から入力された画像から、ユーザ1の視線を逐次推定する。推定された視線とは、例えば、視線認識カメラ50を原点とした視線認識カメラ座標系の「瞳孔位置」と「視線ベクトル」からなり、その情報は、2D視線操作受付部82、2D視線情報DB83、および座標系変換部84に供給される。視線認識には、例えば、瞳孔角膜反射法が用いられるが、強膜反射法、Double Purkinje法、画像処理法、サーチコイル法、EOG(Electro-Oculography)法など、他の視線認識方法であってもよい。なお、ユーザ1の視線は、例えば環境認識カメラ12の向き(環境認識カメラ12の光軸)として推定されても良い。具体的には、カメラ12により撮影される画像を用いて推定されるカメラの向きが、ユーザの視線として推定されてもよい。すなわち、ユーザ1の眼球を撮像する視線認識方法の採用が、ユーザ1の視線の推定に必須では無い点に留意されたい。
 2D視線操作受付部82は、視線推定部81からの視線、および、カメラ・ディスプレイ相対位置姿勢DB89からの、カメラ・ディスプレイ相対位置姿勢関係のデータを用いて、ディスプレイ20上の2Dの視線座標(2D注視点座標)を求め、メニュー操作を受け付け、仮想メジャーの選択および設置を行う。ディスプレイ20上の2Dの視線座標(2D注視点座標)とは、ユーザの視線が、ディスプレイ20上のどこにあるのかという2次元の座標情報のことである。
 2D視線情報DB83は、2D視線操作受付部82により受け付けられたメニュー操作や仮想メジャーの情報(図2の所望の位置22など)をステートとして記録する。2D視線情報DB83には、2Dの視線による仮想メジャーの種類やビューポイント座標系の仮想メジャーの位置姿勢が記録されている。
 座標系変換部84は、カメラ・ディスプレイ相対位置姿勢DB89からの、カメラ・ディスプレイ相対位置姿勢関係のデータを用いて、視線推定部81からの視線認識カメラ座標系の視線を、ディスプレイ20のビューポイント座標系の視線に変換する。
 3D注目点算出部85は、2D視線情報DB83に記録された仮想メジャーと、座標系変換部84により変換されたビューポイント座標系の視線との交点を求めて、3D注目点座標を算出する。算出された3D注目点座標は、3D注目点の時系列DB94に蓄積される。
 すなわち、3D注目点算出部85は、2D視線情報DB83に記録された仮想メジャーと、座標系変換部84により変換されたビューポイント座標系の視線との交点である3D注目点を算出する。
 注視判定部86は、3D注目点の時系列DB94からの3D注目点の時系列データを用いて、ユーザが注視しているか否かを判定する。最終的な3D注視点座標は、時系列データの平均値や最頻値もしくはメジアン(中間値)を採用する。
 速度ベースの場合、注視判定部86は、ある区間の3D注目点時系列データの座標変化の速度としきい値を比較し、しきい値以下の速度であれば、注視と判定する。分散ベースの場合、注視判定部86は、ある区間の3D注目点時系列データの座標変化の分散としきい値を比較し、しきい値以下の分散であれば、注視と判定する。座標変化や速度や分散が、上述の滞留度に対応する。なお、速度ベース、分散ベースどちらの手法も片目の視線から判定できるが、両目の視線を使うこともできる。その場合、各3D注目点の中点が両目による3D注目点として扱われる。
 座標系変換部87は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの世界の基準となる最新の世界座標系の環境カメラ位置姿勢と、注視判定部86からのビューポイント座標系の3D注視点を用いて、ビューポイント座標系の3D注視点を、世界座標系の3D注視点に変換し、注視点DB88に記録する。座標系変換部87は、環境カメラ位置姿勢DB92からの世界の基準となる最新の世界座標系の環境カメラ位置姿勢(ユーザの位置姿勢)と、注視判定部86からのビューポイント座標系の3D注視点(視線と仮想メジャーとの交点である3D注目点から求められた点)とに基づいて、世界座標系の3D注視点を算出する注視点算出部として機能することができる。
 注視点DB88には、座標系変換部87により変換された世界座標系の3D注視点が蓄積されている。
 カメラ・ディスプレイ相対位置姿勢DB89は、視線認識カメラ50、環境認識カメラ12、ディスプレイ20の位置姿勢関係のデータが記録されている。これらの位置姿勢関係は、工場キャリブレーションで事前に計算されたものとする。
 座標系変換部90は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラ位置姿勢と、注視点DB88からの世界座標系の3D注視点の座標を用いて、世界座標系の3D注視点を、その時点のビューポイント座標系の3D注視点に変換する。
 環境カメラ位置姿勢推定部91は、環境認識カメラ12の画像から、環境認識カメラ12(を装着したユーザ1)の位置姿勢を逐次推定する。自己位置推定には、環境認識カメラ12と、上述したSLAMの技術が用いられる。その他の自己位置推定技術としては、GPS,WIFI,IMU(3軸加速度センサ+3軸ジャイロセンサ)、RFID、可視光通信測位、物体認識(画像認証)などがある。以上の技術は、処理速度、精度の観点で、課題はあるものの、SLAMの代わりに利用できる。環境認識カメラ12とSLAMを利用する場合であっても、世界座標系の基準決め(初期化)には上記のうちいずれかの技術が利用可能である。環境カメラ位置姿勢推定部91は、例えば、実世界または仮想3次元空間内の、装着用ディスプレイ装置3を装着したユーザの位置姿勢を推定する位置姿勢推定部とみなすことができる。
 環境カメラ位置姿勢DB92は、環境カメラ位置姿勢推定部91からのその時点の最新の位置姿勢を記録する。
 描画制御部93は、2D視線情報DB83の情報に基づく、2D視線のディスプレイ20上での描画、仮想メジャーの描画と、座標系変換部90により変換されたビューポイント座標系の3D注視点に基づく、3D注視点におかれた仮想オブジェクトの描画とを制御する。すなわち、描画制御部93は、ユーザが見ているディスプレイ20上の点および仮想メジャーの表示や、座標系変換部90により変換されたビューポイント座標系の3D注視点に基づく、3D注視点におかれた仮想オブジェクトの表示その他のオブジェクトの制御を行う表示制御部又はオブジェクト制御部として機能することができる。3D注目点の時系列DB94は、3D注目点算出部85により算出された算出された3D注目点座標の時系列データを記録している。
 なお、描画制御部93は、描画としてディスプレイ20に表示させる、左眼用画像と右眼用画像とからなる立体視オブジェクト(立体視画像)を生成する処理を行う。そして、描画制御部93は、生成された立体視オブジェクトを、ディスプレイ20に表示させる。
 例えば、描画制御部93は、各立体視オブジェクトの虚像位置を設定する。そして、描画制御部93は、ディスプレイ20を制御し、立体視オブジェクトを、その立体視オブジェクトに設定された虚像位置に存在するかのように立体視されるように表示させる。
 立体視オブジェクトを、その立体視オブジェクトに設定された虚像位置に存在するかのように立体視されるように表示するために、描画制御部93は、立体視オブジェクトについて、視差または輻輳角を設定し、そのような視差または輻輳角が生じる立体視オブジェクトとしての左眼用画像と右眼用画像とを生成する。立体視画像の生成方法は任意である。例えば特開平08-322004号公報には、視度に対する輻輳角が実時間で略一致するように、電気的に表示面上に表示する画像を水平方向にシフトする手段を備える立体視ディスプレイ装置が開示されている。また、特開平08-211332号公報には、両眼視差を利用して立体視画像を得るものであり、再生画像を見るときの輻輳角を設定するために輻輳角選択手段と、選択された輻輳角に関する情報に基づいて左右の画像の相対的再生位置を制御する制御手段とを具備する立体映像再生装置が開示されている。例えば、描画制御部93が、これらに記載の方法を利用して立体視オブジェクトを生成することができる。
 <装着用ディスプレイ装置の動作>
 次に、図15のフローチャートを参照して、仮想オブジェクト操作処理について説明する。なお、図15の各ステップは、並列で行われている。すなわち、図15のフローチャートでは、便宜上、各ステップを順番付けてあるが、各ステップは、適宜、並列して行われる。他のフローチャートでも同様である。
 環境認識カメラ12からの画像は、環境カメラ位置姿勢推定部91に入力される。環境カメラ位置姿勢推定部91は、ステップS11において、環境認識処理を行う。この環境認識処理の詳細は、図16を参照して後述するが、この処理により、環境認識カメラ12からの画像から推定された環境認識カメラ12の位置姿勢が環境カメラ位置姿勢DB92に記録される。
 また、視線認識カメラ50から入力された画像は、視線推定部81に入力される。視線推定部81、2D視線操作受付部82、座標系変換部84、3D注目点算出部85、および注視判定部86は、ステップS12において、視線推定処理を行う。この視線推定処理の詳細は、図17を参照して後述するが、この処理により、2D注視点が求められ、2D注視点から3D注視点が求められて、3D注視点が、最新ビューポイント座標系の3D注視点に変換される。
 描画制御部93は、ステップS13において、2D視線情報DB83の情報と、座標系変換部90により変換されたビューポイント座標系の3D注視点とを用いて、描画処理を行う。この描画処理は、図18を参照して後述するが、この処理により、2D視線のディスプレイ20上での描画(ディスプレイ20上の2Dの視線座標の描画)、仮想メジャーの描画、3D注視点におかれた仮想オブジェクトの描画とが制御されて、ディスプレイ20に描画される。すなわち、ディスプレイ20において、仮想メジャーや3D注視点に配置された仮想オブジェクト等が表示される。
 2D視線操作受付部82は、ステップS14において、仮想オブジェクト操作処理を終了するか否かを判定する。ステップS14において、仮想オブジェクト操作処理を終了すると判定された場合、図15の仮想オブジェクト処理は終了される。一方、ステップS14において、仮想オブジェクト処理をまだ終了しないと判定された場合、処理は、ステップS11に戻り、それ以降の処理が繰り返される。
 次に、図16のフローチャートを参照して、図15のステップS11の環境認識処理について説明する。
 ステップS31において、環境カメラ位置姿勢推定部91は、環境認識カメラ12の画像から、環境認識カメラ12の位置姿勢を推定する。
 ステップS32において、環境カメラ位置姿勢DB92は、その時点の最新の位置姿勢(環境認識カメラ12の位置姿勢)を記録する。ここで記録された最新の位置姿勢は、後述する図17のステップS54およびS55において使用される。
 次に、図17のフローチャートを参照して、図15のステップS12の視線推定処理について説明する。
 視線認識カメラ50から入力された画像は、視線推定部81に入力される。ステップS51において、視線推定部81、および2D視線操作受付部82は、2D注視点算出を行う。
 すなわち、視線推定部81は、視線認識カメラ50から入力された画像から、視線を逐次推定する。推定された視線とは、視線カメラ座標系の「瞳孔位置」と「視線ベクトル」からなり、その情報は、2D視線操作受付部82、2D視線情報DB83、および座標系変換部84に供給される。2D視線操作受付部82は、視線推定部81からの視線や、カメラ・ディスプレイ相対位置姿勢DB89からの、カメラ・ディスプレイ相対位置姿勢関係のデータを用いて、ディスプレイ20上の2Dの視線座標(2D注視点座標)を求め、メニュー操作を受け付け、仮想メジャーの選択および設置を行う。
 なお、2D視線情報DB83は、ディスプレイ20上の2Dの視線座標のほかに、2D視線操作受付部82により受け付けられたメニュー操作や仮想メジャーの情報をステートとして記録する。これらの情報は、図18のステップS71で用いられる。例えば、描画制御部93は、2D視線情報DB83の情報を用いて、仮想メジャーをディスプレイ20に表示させる。
 ステップS52において、座標系変換部84および3D注目点算出部85は、3D注目点座標を算出する。すなわち、座標系変換部84は、カメラ・ディスプレイ相対位置姿勢DB89からの、カメラ・ディスプレイ相対位置姿勢関係のデータを用いて、視線認識カメラ座標系の視線を、ビューポイント座標系の視線に変換する。3D注目点算出部85は、2D視線情報DB83に記録された仮想メジャーと、座標系変換部84により変換されたビューポイント座標系の視線との交点を求めて、3D注目点座標を算出する。算出された3D注目点座標は、3D注目点の時系列DB94に蓄積される。
 ステップS53において、注視判定部86は、3D注目点の時系列DB94からの3D注目点の時系列データを用いて、ユーザが注視しているか否かを判定する。ステップS53において、ユーザが注視していないと判定された場合、処理は、ステップS51に戻り、それ以降の処理が繰り返される。一方、ステップS53において、ユーザが注視していると判定された場合、注視判定部86は、3D注目点の時系列データを用いて、ビューポイント座標系の、ユーザが注視している3D注視点を求め、処理は、ステップS54に進む。
 なお、最終的な3D注視点座標は、時系列データの平均値や最頻値もしくはメジアン(中間値)が採用される。
 ステップS54において、座標系変換部87は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラ位置姿勢と、注視判定部86からのビューポイント座標系の3D注視点を用いて、ビューポイント座標系の3D注視点を、世界座標系の3D注視点に変換し、注視点DB88に記録する。
 ステップS55において、座標系変換部90は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラ位置姿勢と、注視点DB88からの世界座標系の3D注視点の座標を用いて、世界座標系の3D注視点を、その時点のビューポイント座標系の3D注視点に変換する。なお、この情報は、図18のステップS71で用いられる。
 最後に、図18のフローチャートを参照して、図15のステップS13の描画処理について説明する。
 描画制御部93は、ステップS71において、2D視線情報DB83の情報に基づく、2D視線のディスプレイ20上での描画、仮想メジャーの描画と、座標系変換部90により変換されたビューポイント座標系の3D注視点に基づく、3D注視点におかれた仮想オブジェクトの描画とを制御する。
 ステップS72において、ディスプレイ20は、描画制御部93による制御のもと、描画を行う。これにより、ディスプレイ20には、例えば、仮想メジャーや、3D注視点におかれた仮想オブジェクト等が表示される。
 以上のように、本技術においては、仮想メジャーが描画されるので、以前は困難であった中空に対しても3D注視点を定位させることができるため、すなわち、視線を定位させることができるため、視線を用いた操作が可能となる。すなわち、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を図ることができる。これにより、ハンズフリーにより仮想オブジェクト操作を行うことができる。また、視線による操作のため、ポインティングのレイテンシが少ない。
 さらに、視線認識と環境認識から3D注視点を求めることができるので、ユーザが動きながらでも注視状態を検出し、ポインティングインタラクションを行うことができる。
<3.第3の実施の形態>
 <装着用ディスプレイ装置の外観>
 図19は、本技術を適用した情報処理装置の1つである画像処理装置としての装着用ディスプレイ装置の外観の構成例を示す図である。なお、図19の装着用ディスプレイ装置は、図3を参照して上述した実オブジェクト操作を行うものである。
 図19の例においても、図13の例の場合と同様であり、装着用ディスプレイ装置3は、眼鏡型で構成されており、ユーザ1の顔に装着されている。
 図19の例において、操作される対象のオブジェクトが、ディスプレイ20に表示される仮想オブジェクトから、無線通信100を介して操作される、実世界のドローン31になったことが異なるだけであり、その他の点は、図13の外観の構成例と同様であるので、その説明は省略する。
 図20は、図19の装着用ディスプレイ装置とドローンの構成例を示すブロック図である。
 図20の装着用ディスプレイ装置3は、環境認識カメラ12、ディスプレイ20、視線認識カメラ50、および画像処理部80で構成されている。図20の画像処理部80は、視線推定部81、2D視線操作受付部82、2D視線情報DB83、座標系変換部84、3D注目点算出部85、注視判定部86、座標系変換部87、カメラ・ディスプレイ相対位置姿勢DB89、位置姿勢推定部91、環境カメラ位置姿勢DB92、および描画制御部93、および3D注目点の時系列DB94を備える点が、図14の画像処理部80と共通している。
 図20の画像処理部80は、注視点DB88と座標系変換部90が除かれた点と、命令送信部101が追加された点が、図14の画像処理部80と異なっている。なお、命令送信部101が、本開示におけるオブジェクト制御部の一例として見做されてよい。
 すなわち、命令送信部101は、座標系変換部87により変換された世界座標系の3D注視点を、例えば、無線通信100を介して、ドローン31に送信する。命令送信部101は、3D注視点に移動体としてのドローン31を移動させるための位置情報を、ドローン31に送信する位置情報送信部ともみなすことができる。
 図20の例において、ドローン31は、命令受信部111および経路制御部112により構成されており、装着用ディスプレイ装置3から、無線通信100を介して受け取った3D注視点の座標への経路制御を行い、経路に従って飛行する。
 命令受信部111は、装着用ディスプレイ装置3からの世界座標系の3D注視点の座標を受け取り、経路制御部112に供給する。
 経路制御部112は、受け取った3D注視点の座標に基づき、図示せぬカメラによる画像センシングや超音波センシングを用いて、逐次適切な経路を生成し、目標値への経路を計算する。なお、目的地到達後の姿勢は、出発前の姿勢と同様の姿勢、もしくはユーザ1がコントローラで制御できるものとする。
 なお、ドローン31は、ドローンに限らず、飛行可能なロボットや移動体であってもよいし、飛行できないロボットや移動体であればよい。
 次に、図21のフローチャートを参照して、実オブジェクト操作処理について説明する。
 環境認識カメラ12からの画像は、環境カメラ位置姿勢推定部91に入力される。環境カメラ位置姿勢推定部91は、ステップS111において、環境認識処理を行う。この環境認識処理は、図16を参照して上述した処理と同様であるのでその説明は省略される。この処理により、環境認識カメラ12からの画像から推定された環境認識カメラ12の位置姿勢が環境カメラ位置姿勢DB92に記録される。
 また、視線認識カメラ50から入力された画像は、視線推定部81に入力される。視線推定部81、2D視線操作受付部82、座標系変換部84、3D注目点算出部85、および注視判定部86は、ステップS112において、視線推定処理を行う。この視線推定処理の詳細は、図17を参照して上述した処理と同様であるのでその説明は省略される。この処理により、2D注視点が求められ、2D注視点から3D注視点が求められて、3D注視点が、最新の世界座標系の3D注視点に変換される。変換された最新の世界座標系の3D注視点の座標は、命令送信部101に供給される。
 描画制御部93は、ステップS113において、2D視線情報DB83の情報を用いて、描画処理を行う。この描画処理の詳細は、図22を参照して後述される。この処理により、2D視線のディスプレイ20上での描画、仮想メジャーの描画が制御されて、ディスプレイ20に描画される。
 ステップS114において、命令送信部101は、ドローン制御処理を行う。このドローン制御処理の詳細は、図23を参照して後述される。この処理により、ステップS112の処理で供給された最新の世界座標系の3D注視点(目的地)の座標が、命令として、ドローン3に受信され、その座標に基づいて経路が制御されて、ドローン3が目的地に到着する。以上により、図21の実オブジェクト操作処理は終了される。
 次に、図22のフローチャートを参照して、図21のステップS112の視線推定処理について説明する。なお、図22のステップS131乃至S133は、図17のステップS51乃至S53と同様の処理を行うため、その説明は省略される。
 ステップS134において、座標系変換部87は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラ位置姿勢と、注視判定部86からのビューポイント座標系の3D注視点を用いて、ビューポイント座標系の3D注視点を、世界座標系の3D注視点に変換し、変換した世界座標系の3D注視点を、命令送信部101に供給する。
 次に、図23のフローチャートを参照して、図21のステップS114のドローン制御処理について説明する。
 図22のステップS134により、世界座標系の3D注視点の座標が、命令送信部101を介して送信されてくる。ステップS151において、命令受信部111は、命令(世界座標系の3D注視点の座標)を受信する。ステップS152において、経路制御部112は、受信された命令に基づいて、ドローン3の経路を制御する。ステップS153において、ドローン3は、目的地(世界座標系の3D注視点)に到着する。
 以上のように、本技術においては、実オブジェクトであっても、仮想オブジェクトの場合と同様の効果がある。
 すなわち、仮想メジャーが描画されるので、以前は困難であった中空に対しても3D注視点を定位させることができるため、すなわち、視線を定位させることができるため、視線を用いた操作が可能となる。すなわち、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を図ることができる。これにより、ハンズフリーにより仮想オブジェクト操作を行うことができる。また、視線による操作のため、ポインティングのレイテンシが少ない。
 さらに、視線認識と環境認識から3D注視点を求めることができるので、ユーザが動きながらでも注視状態を検出し、ポインティングインタラクションを行うことができる。
<4.第4の実施の形態>
 <装着用ディスプレイ装置の外観>
 図24は、本技術を適用した情報処理装置の1つである画像処理装置としての装着用ディスプレイ装置の外観の構成例を示す図である。なお、図24の装着用ディスプレイ装置は、図4を参照して上述した仮想カメラ視点移動を行うものである。
 図24の例においても、図13の例の場合と同様であり、装着用ディスプレイ装置3は、眼鏡型で構成されており、ユーザ1の顔に装着されている。なお、図24の例においては、環境認識カメラ12は図示されていないだけであり、実際には、備えられている。図14の例において、自己位置推定として、環境認識カメラ12と上述したSLAMの技術が用いられる例を説明したが、その他の自己位置推定技術としては、GPS,WIFI,IMU(3軸加速度センサ+3軸ジャイロセンサ)、RFID、可視光通信測位、物体認識(画像認証)などがある。
 図25は、図24の装着用ディスプレイ装置の構成例を示すブロック図である。
 図25の装着用ディスプレイ装置3は、環境認識カメラ12、ディスプレイ20、視線認識カメラ50、画像処理部80から構成されている。図25の画像処理部80は、視線推定部81、2D視線操作受付部82、2D視線情報DB83、座標系変換部84、3D注目点算出部85、注視判定部86、カメラ・ディスプレイ相対位置姿勢DB89、位置姿勢推定部91、環境カメラ位置姿勢DB92、描画制御部93、および3D注目点の時系列DB94を備える点が、図14の画像処理部80と共通している。
 図25の画像処理部80は、座標系変換部87、注視点DB88、座標系変換部90が除かれた点と、座標系変換部151、座標オフセットDB152、ビューポイント位置設定部153が追加された点が、図14の画像処理部80と異なっている。
 すなわち、座標系変換部151は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの世界の基準となる最新の世界座標系の環境カメラ位置姿勢と、注視判定部86からのビューポイント座標系の3D注視点を用いて、ビューポイント座標系の3D注視点を、世界座標系の3D注視点に変換し、変換された3D注視点と環境カメラ位置の差分を座標オフセットとして、座標オフセットDB152に記録する。環境カメラ位置は、環境認識カメラ12の位置である。
 座標オフセットDB152には、座標系変換部151により変換された3D注視点と環境カメラ位置の差分が座標オフセットとして記録されている。
 ビューポイント位置設定部153は、最新世界座標系ビューポイントの位置を、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラの位置と、座標系変換部151により求められた座標オフセットの和として設定する。なお、ビューポイントの姿勢は、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラの姿勢がそのまま用いられる。ビューポイント位置設定部153は、設定したビューポイントの位置と姿勢を描画制御部93に供給する。最新世界座標系ビューポイントは、世界座標系における、ディスプレイ20に表示される画像(に映る被写体)を見る視点(ディスプレイ20に表示される画像を撮影するカメラの視点)である。
 描画制御部93は、2D視線情報DB83の情報に基づく、2D視線のディスプレイ20上での描画、仮想メジャーの描画と、ビューポイント位置設定部153により求められたビューポイントの位置と姿勢に基づく、仮想オブジェクトの描画とを制御する。
 なお、図25の装着用ディスプレイ装置3の仮想オブジェクト操作処理は、図15の仮想オブジェクト操作処理と、ステップS12の視線推定処理の詳細以外は、基本的に同様の処理を行う。したがって、図25の装着用ディスプレイ装置3の動作としては、異なっている図15のステップS12の視線推定処理の詳細のみを説明する。
 <装着用ディスプレイ装置の動作>
 図26のフローチャートを参照して、図15のステップS12の視線推定処理について説明する。なお、図26のステップS181乃至S183は、図17のステップS51乃至S53と同様の処理を行うので、繰り返しになるため、その説明は省略する。
 ステップS184において、座標系変換部151は、カメラ・ディスプレイ相対位置姿勢DB89からのカメラ・ディスプレイ相対位置姿勢データと、環境カメラ位置姿勢DB92からの世界の基準となる最新の世界座標系の環境カメラ位置姿勢と、注視判定部86からのビューポイント座標系の3D注視点を用いて、ビューポイント座標系の3D注視点を、世界座標系の3D注視点に変換し、変換された3D注視点と環境カメラ位置の差分を座標オフセットとして、座標オフセットDB152に記録する。
 ステップS185において、ビューポイント位置設定部153は、最新世界座標系ビューポイントの位置を、環境カメラ位置姿勢DB92からの最新の世界座標系の環境カメラの位置と、座標系変換部151により求められた座標オフセットの和として設定する。その後、視線推定処理は終了し、仮想オブジェクト操作処理は、図15のステップS12に戻り、ステップS13に進む。
 以上のように、本技術においては、仮想世界で視点を切り替える場合にも、仮想オブジェクトや実オブジェクトの移動の場合と同様の効果がある。
 すなわち、仮想メジャーが描画されるので、以前は困難であった中空に対しても3D注視点を定位させることができるため、すなわち、視線を定位させることができるため、視線を用いた操作が可能となる。すなわち、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を図ることができる。これにより、ハンズフリーにより仮想オブジェクト操作を行うことができる。また、視線による操作のため、ポインティングのレイテンシが少ない。
 さらに、視線認識と環境認識から3D注視点を求めることができるので、ユーザが動きながらでも注視状態を検出し、ポインティングインタラクションを行うことができる。
<5.補足説明>
 <座標系の関係>
 次に、本技術における座標系の関係について、図27を参照して説明する。
 図27の例においては、環境認識カメラ座標系201、ビューポイント座標系202、視線認識カメラ座標系203、世界座標系204が示されている。なお、視線認識カメラ座標系203においては、瞳孔角膜反射法の技術が用いられている例が示されている。
 ビューポイント座標系202には、ディスプレイ20、仮想定規21、ディスプレイ20上の2D注視点211、仮想定規21上の3D注目点212が示されている。視線認識カメラ座標系203には、赤外光であるLED71と、瞳孔にLED71を照射した際の反射である輝点(プルキニエ像)222、瞳孔座標221、および、輝点222と瞳孔をカメラで観察して、これらの位置関係から求められる視線ベクトル223が示されている。
 なお、本技術においては、環境認識カメラ座標系201、ビューポイント座標系202、視線認識カメラ座標系203の関係は、予めキャリブレーションを行い、既知であるものとする。
 また、世界座標系204と環境認識カメラ座標系201は、SLAMなどの自己位置推定技術によってリアルタイムに求められる。
 <3D注目点の求め方>
 次に、図28および図29を参照して、本技術の仮想空間との3D注目点の求め方について説明する。
 図28に示されるように、仮想空間におけるオブジェクト301と視線ベクトル223との交点が、3D注目点212である。したがって、3D注目点212は、装着用ディスプレイ装置3を装着したユーザ1の視線ベクトル223が少なくとも1つあれば求めることができる。
 一方、図29に示されるように、仮想メジャーの1つである、仮想定規21は、仮想(実世界)空間におけるオブジェクト301とユーザ1自身とを繋ぐように設けられ、仮想定規21と視線ベクトル223との交点が、3D注目点212である。したがって、3D注目点212は、装着用ディスプレイ装置3を装着したユーザ1の視線ベクトル223が少なくとも1つあれば求めることができる。
 この仮想定規21と視線ベクトル223との交点である3D注目点212はEmpty Fieldを構成するものであり、仮想定規21を用いることで、Empty Fieldに視線を向けることができる。
<6.第5の実施の形態>
 <画像処理システムの構成例>
 図30は、本技術を適用した画像処理システムの構成例を示すブロック図である。
 図30の例においては、画像処理システム401は、装着用ディスプレイ装置411において取得された情報を用いて、サーバ412により画像処理として、環境認識処理、視線推定処理、および描画処理(描画データ作成処理)が行われ、作成された描画データがネットワーク413を介して装着用ディスプレイ装置411に送信されて、装着用ディスプレイ装置411のディスプレイ20に表示されるシステムである。
 図30の装着用ディスプレイ装置411は、視線認識カメラ50、ディスプレイ20、および環境認識カメラ12を備える点は、図14の装着用ディスプレイ装置3と共通している。
 図30の装着用ディスプレイ装置411は、画像処理部80が除かれた点と、画像情報送信部431、描画データ受信部432、画像情報送信部433が追加された点が、図14の装着用ディスプレイ装置3と異なっている。
 また、図30のサーバ412は、画像情報受信部451、描画データ送信部452、画像情報受信部453、および画像処理部80で構成されている。
 すなわち、図14の装着用ディスプレイ装置3の画像処理部80が、図30の画像処理システム401においては、装着用ディスプレイ装置411ではなく、サーバ412に備えられている。
 装着用ディスプレイ装置411において、画像情報送信部431は、視線認識カメラ50から入力された画像情報を、ネットワーク413を介して、サーバ412の画像情報受信部451に送信する。描画データ受信部432は、サーバ412の描画データ送信部452から送信されてくる描画データを、ネットワーク413を介して受信し、受信した描画データに対応する描画(画像)を、ディスプレイ20に表示する。画像情報送信部433は、環境認識カメラ12から入力された画像情報を、ネットワーク413を介して、サーバ412の画像情報受信部453に送信する。
 サーバ412において、画像情報受信部451は、視線認識カメラ50から入力された画像情報を受信し、画像処理部80に供給する。描画データ送信部452は、画像処理部80で描画された描画データを、ネットワーク413を介して、装着用ディスプレイ装置3に送信する。画像情報受信部453は、環境認識カメラ12から入力された画像情報を受信し、画像処理部80に供給する。
 画像処理部80は、視線推定部81、2D視線操作受付部82、2D視線情報DB83、座標系変換部84、3D注目点算出部85、注視判定部86、座標系変換部87、注視点DB88、カメラ・ディスプレイ相対位置姿勢DB89、座標系変換部90、位置姿勢推定部91、環境カメラ位置姿勢DB92、および描画制御部93を含むように、図14の画像処理部80と同様に構成されており、基本的に同様な処理を行うので、その説明は省略する。
 以上のように、画像処理部80は、装着用ディスプレイ装置411だけでなく、サーバに構成することもできる。その際、入出力は、装着用ディスプレイ装置411に備え、画像処理の部分だけサーバ412で行い、作成された描画データが、装着用ディスプレイ装置411に送信されて、ディスプレイ20に表示される。
 以上のように、本技術によれば、仮想メジャーが描画されることにより、以前は困難であった中空に対しても3D注視点を定位させることができ、すなわち、視線を定位させることができ、視線を用いた操作が可能となる。すなわち、視線によるポインティングやオブジェクト操作において、視線の定位に関する改善を図ることができる。これにより、ハンズフリーにより仮想オブジェクト操作を行うことができる。また、視線による操作のため、ポインティングのレイテンシが少ない。
 さらに、視線認識と環境認識から3D注視点を求めることができるので、ユーザが動きながらでも注視状態を検出し、ポインティングインタラクションを行うことができる。
 <パーソナルコンピュータ>
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。
 図31は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータのハードウエアの構成例を示すブロック図である。
 パーソナルコンピュータ500において、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
 以上のように構成されるパーソナルコンピュータ500では、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行する。これにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、リムーバブルメディア511に記録して提供することができる。リムーバブルメディア511は、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディア等である。また、あるいは、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータにおいて、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。
 また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムとは、複数のデバイス(装置)により構成される装置全体を表すものである。
 例えば、本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要な段階で処理が行われるプログラムであっても良い。
 また、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムとは、複数のデバイス(装置)により構成される装置全体を表すものである。
 例えば、本開示は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、本技術は以下のような構成も取ることができる。
 (A1)
 ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する表示制御部を
 備える情報処理装置。
 (A2)
 前記表示制御部は、実空間における立体視可能なオブジェクトが存在しない中空に、前記立体視オブジェクトを表示させるよう前記表示装置を制御する
 (A1)に記載の情報処理装置。
 (A3)
 前記表示制御部は、前記中空の領域における前記ユーザの視線の滞留に基づいて、前記立体視オブジェクトを表示するよう前記表示装置を制御する
 (A2)に記載の情報処理装置。
 (A4)
 前記ユーザの視線と前記立体視オブジェクトとの交点に基づいて、前記ユーザの注視を判定する注視判定部
 をさらに備える(A1)ないし(A3)のいずれかに記載の情報処理装置。
 (A5)
 前記ユーザの注視に基づいて、前記交点に応じて所定のオブジェクトの制御を行うオブジェクト制御部
 をさらに備える(A4)に記載の情報処理装置。
 (A6)
 前記オブジェクト制御部は、前記交点に所定の仮想オブジェクトを表示するよう前記表示装置を制御する
 (A5)に記載の情報処理装置。
 (A7)
 前記オブジェクト制御部は、前記交点に応じて移動体の移動を制御する
 (A5)に記載の情報処理装置。
 (A8)
 前記移動体は、ドローンである
 (A7)に記載の情報処理装置。
 (A9)
 前記表示制御部は、前記ユーザの注視に基づいて、表示される画像を見る視点を、前記交点に対応する視点に切り替えるよう前記表示装置を制御する
 (A4)に記載の情報処理装置。
 (A10)
 前記ユーザを撮影するカメラと、
 前記カメラにより撮影される画像を用いて、前記ユーザの視線を推定する視線推定部と
 をさらに備える(A4)ないし(A9)のいずれかに記載の情報処理装置。
 (A11)
 前記視線推定部は、角膜反射法を利用して前記ユーザの視線を推定する
 (A10)に記載の情報処理装置。
 (A12)
 前記立体視オブジェクトは、略等間隔の目盛りを有する
 (A1)ないし(A11)のいずれかに記載の情報処理装置。
 (A13)
 前記立体視オブジェクトは、略等間隔に配置された複数の仮想オブジェクトを含む
 (A1)ないし(A11)のいずれかに記載の情報処理装置。
 (A14)
 前記表示制御部は、前記ユーザの視線に応じて前記複数の仮想オブジェクトのうち少なくとも1つの表示を変化させる、または前記複数の仮想オブジェクトのうち少なくとも1つの補足情報を表示するよう前記表示装置を制御する
 (A13)に記載の情報処理装置。
 (A15)
 前記情報処理装置は、前記表示装置をさらに備えるヘッドマウントディスプレイである
 (A1)ないし(A14)のいずれかに記載の情報処理装置。
 (A16)
 前記表示装置は、シースルーディスプレイである
 (A15)に記載の情報処理装置。
 (A17)
 前記所定の方向は、前記ユーザの前方に向かって延在する奥行方向を含む
 (A1)ないし(A16)のいずれかに記載の情報処理装置。
 (A18)
 前記所定の方向は、水平方向を含む
 (A1)ないし(A17)のいずれかに記載の情報処理装置。
 (A19)
 ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する
 ことを含む情報処理方法。
 (A20)
 ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する表示制御部
 として、コンピュータを機能させるプログラムが記録されている記録媒体。
(B1) 実世界または仮想3次元空間内のユーザの位置姿勢を推定する位置姿勢推定部と、
 前記ユーザの視線を推定する視線推定部と、
 仮想メジャーの表示を制御する表示制御部と、
 前記ユーザの視線と前記仮想メジャーとの交点である前記実世界または仮想3次元空間内の注目点を用いて、ユーザの注視を判定する注視判定部と
 を備える画像処理装置。
 (B2) 前記位置姿勢推定部により推定された位置姿勢と、前記視線推定部により推定された前記ユーザの視線のベクトルと、前記仮想メジャーまたは前記仮想3次元空間との交点に基づいて、前記3次元空間の注視点を算出する注視点算出部を
 さらに備える前記(B1)に記載の画像処理装置。
 (B3) 前記仮想メジャーは、目盛りを有する定規で表される
 前記(B1)または(B2)に記載の画像処理装置。
 (B4) 前記表示制御部は、前記ユーザの視線が向けられている前記仮想メジャー上の位置がわかるように、前記位置を表示させる
 前記(B3)に記載の画像処理装置。
 (B5) 前記仮想メジャーは、等間隔に配置された複数の球体で表される
 前記(B1)または(B2)に記載の画像処理装置。
 (B6) 前記表示制御部は、前記ユーザの視線が向けられている前記球体の色を変化させて表示させる
 前記(B5)に記載の画像処理装置。
 (B7) 前記表示制御部は、前記ユーザの視線が向けられている前記球体のみに補足情報の表示を制御する
 前記(B5)または(B6)に記載の画像処理装置。
 (B8) 前記表示制御部は、前記注視判定部により前記ユーザの注視が判定された位置に仮想物の表示を制御する
 前記(B1)乃至(B7)のいずれかに記載の画像処理装置。
 (B9) 前記注視判定部により前記ユーザの注視が判定された位置に移動体を移動させるための位置情報を、前記移動体に送信する位置情報送信部
 をさらに備える前記(B1)乃至(B8)のいずれかに記載の画像処理装置。
 (B10) 前記移動体は、飛行可能な移動体である
 前記(B9)に記載の画像処理装置。
 (B11) 前記表示制御部は、前記注視判定部により前記ユーザの注視が判定された位置に視点を切り替えるように表示を制御する
 前記(B1)乃至(B10)のいずれかに記載の画像処理装置。
 (B12) 前記位置姿勢推定部は、SLAM(Simultaneous Localization and Mapping)を利用して、ユーザの位置姿勢を推定する
 前記(B1)乃至(B11)のいずれかに記載の画像処理装置。
 (B13) 前記視線推定部は、角膜反射法を利用して前記ユーザの視線を推定する
 前記(B1)乃至(B12)のいずれかに記載の画像処理装置。
 (B14) 眼鏡形状である
 前記(B1)乃至(B12)のいずれかに記載の画像処理装置。
 (B15) 表示部
 をさらに備える前記(B1)乃至(B13)のいずれかに記載の画像処理装置。
 (B16) 前記表示部は、シースルーディスプレイである
 前記(B15)に記載の画像処理装置。
 (B17) 前記ユーザの視線を認識するための視線認識カメラを
 さらに備える前記(B1)乃至(B16)のいずれかに記載の画像処理装置。
 (B18) 前記実世界または仮想3次元空間内の環境を認識するための環境認識カメラを
 さらに備える前記(B1)乃至(B17)のいずれかに記載の画像処理装置。
 (B19) 画像処理装置が、
 実世界または仮想3次元空間内のユーザの位置姿勢を推定し、
 前記ユーザの視線を推定し、
 仮想メジャーの表示を制御し、
 前記ユーザの視線と前記仮想メジャーとの交点である前記実世界または仮想3次元空間内の注目点を用いて、ユーザの注視を判定する
 画像処理方法。
 (B20) 実世界または仮想3次元空間内のユーザの位置姿勢を推定する位置姿勢推定部と、
 前記ユーザの視線を推定する視線推定部と、
 仮想メジャーの表示を制御する表示制御部と、
 前記ユーザの視線と前記仮想メジャーとの交点である前記実世界または仮想3次元空間内の注目点を用いて、ユーザの注視を判定する注視判定部と
 して、コンピュータを機能させるプログラムが記録されている記録媒体。
 1 ユーザ, 3 装着用ディスプレイ装置, 4 仮想メジャー, 11 実世界3次元空間(または仮想3次元空間), 12 環境認識カメラ, 13 テーブル, 14 empty-field, 20,20-1,20-2 ディスプレイ, 20A 右目用表示部, 20B 左目用表示部, 21 仮想定規, 22 所望の位置, 23 進捗マーク, 24 仮想物, 25 滞留度閾値内範囲, 31 ドローン, 32 実世界3次元空間, 35 仮想3次元空間, 41 球体, 42 2D視点ポインタ, 51 設置ボタン, 52 仮設置ボタン, 53 キャンセルボタン, 55 オブジェクト, 56 オブジェクト, 61 3D注視点, 70 視線認識カメラ, 71 LED,  80 画像処理部, 81 視線推定部, 82 2D視線操作受付部, 83 2D視線情報DB、84 座標系変換部, 85 3D注目点算出部, 86 注視判定部, 87 座標系変換部, 88 注視点DB, 89 カメラ・ディスプレイ相対位置姿勢DB, 90 座標系変換部, 91 位置姿勢推定部, 92 カメラ位置姿勢DB, 93 描画制御部, 101 命令送信部, 111 命令受信部, 112 経路制御部, 151 座標変換部, 152 座標オフセットDB, 153 ビューポイント位置設定部, 201 環境認識カメラ座標系, 202 ビューポイント座標系, 203 視線認識カメラ座標系, 203 世界座標系, 211 2D注視点, 212 3D注視点, 221 瞳孔座標, 222 輝点, 223 視線ベクトル, 301 オブジェクト, 401 画像処理システム, 411 装着用ディスプレイ装置, 412 サーバ, 413 ネットワーク, 431 画像情報送信部, 432 描画データ受信部, 433 画像情報送信部, 451 画像情報受信部, 452 描画データ送信部, 453 画像情報受信部

Claims (20)

  1.  ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する表示制御部を
     備える情報処理装置。
  2.  前記表示制御部は、実空間における立体視可能なオブジェクトが存在しない中空に、前記立体視オブジェクトを表示させるよう前記表示装置を制御する
     請求項1に記載の情報処理装置。
  3.  前記表示制御部は、前記中空の領域における前記ユーザの視線の滞留に基づいて、前記立体視オブジェクトを表示するよう前記表示装置を制御する
     請求項2に記載の情報処理装置。
  4.  前記ユーザの視線と前記立体視オブジェクトとの交点に基づいて、前記ユーザの注視を判定する注視判定部
     をさらに備える請求項1に記載の情報処理装置。
  5.  前記ユーザの注視に基づいて、前記交点に応じて所定のオブジェクトの制御を行うオブジェクト制御部
     をさらに備える請求項4に記載の情報処理装置。
  6.  前記オブジェクト制御部は、前記交点に所定の仮想オブジェクトを表示するよう前記表示装置を制御する
     請求項5に記載の情報処理装置。
  7.  前記オブジェクト制御部は、前記交点に応じて移動体の移動を制御する
     請求項5に記載の情報処理装置。
  8.  前記移動体は、ドローンである
     請求項7に記載の情報処理装置。
  9.  前記表示制御部は、前記ユーザの注視に基づいて、表示される画像を見る視点を、前記交点に対応する視点に切り替えるよう前記表示装置を制御する
     請求項4に記載の情報処理装置。
  10.  前記ユーザを撮影するカメラと、
     前記カメラにより撮影される画像を用いて、前記ユーザの視線を推定する視線推定部と
     をさらに備える請求項4に記載の情報処理装置。
  11.  前記視線推定部は、角膜反射法を利用して前記ユーザの視線を推定する
     請求項10に記載の情報処理装置。
  12.  前記立体視オブジェクトは、略等間隔の目盛りを有する
     請求項1に記載の情報処理装置。
  13.  前記立体視オブジェクトは、略等間隔に配置された複数の仮想オブジェクトを含む
     請求項1に記載の情報処理装置。
  14.  前記表示制御部は、前記ユーザの視線に応じて前記複数の仮想オブジェクトのうち少なくとも1つの表示を変化させる、または前記複数の仮想オブジェクトのうち少なくとも1つの補足情報を表示するよう前記表示装置を制御する
     請求項13に記載の情報処理装置。
  15.  前記情報処理装置は、前記表示装置をさらに備えるヘッドマウントディスプレイである
     請求項1に記載の情報処理装置。
  16.  前記表示装置は、シースルーディスプレイである
     請求項15に記載の情報処理装置。
  17.  前記所定の方向は、前記ユーザの前方に向かって延在する奥行方向を含む
     請求項1に記載の情報処理装置。
  18.  前記所定の方向は、水平方向を含む
     請求項1に記載の情報処理装置。
  19.  ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する
     ことを含む情報処理方法。
  20.  ユーザの視野内に所定の方向に沿って配置され、前記所定の方向に関する距離を示す立体視オブジェクトを表示するよう表示装置を制御する表示制御部
     として、コンピュータを機能させるプログラムが記録されている記録媒体。
PCT/JP2017/020760 2016-06-07 2017-06-05 情報処理装置および方法、並びに記録媒体 WO2017213070A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018522469A JPWO2017213070A1 (ja) 2016-06-07 2017-06-05 情報処理装置および方法、並びに記録媒体
US16/305,192 US20200322595A1 (en) 2016-06-07 2017-06-05 Information processing device and information processing method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016113241 2016-06-07
JP2016-113241 2016-06-07

Publications (1)

Publication Number Publication Date
WO2017213070A1 true WO2017213070A1 (ja) 2017-12-14

Family

ID=60578745

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/020760 WO2017213070A1 (ja) 2016-06-07 2017-06-05 情報処理装置および方法、並びに記録媒体

Country Status (3)

Country Link
US (1) US20200322595A1 (ja)
JP (1) JPWO2017213070A1 (ja)
WO (1) WO2017213070A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020054625A1 (ja) * 2018-09-14 2020-03-19 パナソニック株式会社 歩行者装置、車載装置、移動体誘導システムおよび移動体誘導方法
WO2020195292A1 (ja) * 2019-03-26 2020-10-01 ソニー株式会社 感覚器オブジェクトを表示する情報処理装置
JP2021528781A (ja) * 2018-06-26 2021-10-21 株式会社ソニー・インタラクティブエンタテインメント 多点slamキャプチャ
EP3922166A4 (en) * 2019-03-08 2022-03-30 JVCKenwood Corporation DISPLAY DEVICE, DISPLAY METHOD AND DISPLAY PROGRAM
DE112020002991T5 (de) 2019-06-19 2022-04-07 Sony Group Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
WO2023112649A1 (ja) * 2021-12-16 2023-06-22 アールシーソリューション株式会社 時系列情報表示装置および時系列情報表示方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102149732B1 (ko) * 2019-04-17 2020-08-31 라쿠텐 인코포레이티드 표시 제어 장치, 표시 제어 방법, 프로그램, 및 비일시적인 컴퓨터 판독 가능한 정보 기록 매체
US20210362839A1 (en) * 2019-11-05 2021-11-25 Rakuten Group, Inc. Control device and control method for controlling flight of aerial vehicle
US11789530B2 (en) * 2021-11-17 2023-10-17 Meta Platforms Technologies, Llc Gaze-based user interface with assistant features for smart glasses in immersive reality applications

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274144A (ja) * 1996-04-02 1997-10-21 Canon Inc 画像表示装置
JP2000250699A (ja) * 1999-03-04 2000-09-14 Shimadzu Corp 視線入力装置
JP2006085375A (ja) * 2004-09-15 2006-03-30 Canon Inc 画像処理方法、画像処理装置
JP2014505897A (ja) * 2010-11-18 2014-03-06 マイクロソフト コーポレーション 拡張現実表示のための自動合焦の改良
JP2015521298A (ja) * 2012-04-25 2015-07-27 マイクロソフト コーポレーション ヘッドマウントディスプレイに用いるための可動式ledアレイ及びマイクロレンズアレイに基づくライトフィールドプロジェクタ

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274144A (ja) * 1996-04-02 1997-10-21 Canon Inc 画像表示装置
JP2000250699A (ja) * 1999-03-04 2000-09-14 Shimadzu Corp 視線入力装置
JP2006085375A (ja) * 2004-09-15 2006-03-30 Canon Inc 画像処理方法、画像処理装置
JP2014505897A (ja) * 2010-11-18 2014-03-06 マイクロソフト コーポレーション 拡張現実表示のための自動合焦の改良
JP2015521298A (ja) * 2012-04-25 2015-07-27 マイクロソフト コーポレーション ヘッドマウントディスプレイに用いるための可動式ledアレイ及びマイクロレンズアレイに基づくライトフィールドプロジェクタ

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021528781A (ja) * 2018-06-26 2021-10-21 株式会社ソニー・インタラクティブエンタテインメント 多点slamキャプチャ
JP7126008B2 (ja) 2018-06-26 2022-08-25 株式会社ソニー・インタラクティブエンタテインメント 多点slamキャプチャ
WO2020054625A1 (ja) * 2018-09-14 2020-03-19 パナソニック株式会社 歩行者装置、車載装置、移動体誘導システムおよび移動体誘導方法
JP2020046742A (ja) * 2018-09-14 2020-03-26 パナソニック株式会社 歩行者装置、車載装置、移動体誘導システムおよび移動体誘導方法
JP7216507B2 (ja) 2018-09-14 2023-02-01 パナソニックホールディングス株式会社 歩行者装置、移動体誘導システムおよび移動体誘導方法
US11790783B2 (en) 2018-09-14 2023-10-17 Panasonic Holdings Corporation Pedestrian device, vehicle-mounted device, mobile body guidance system, and mobile body guidance method
EP3922166A4 (en) * 2019-03-08 2022-03-30 JVCKenwood Corporation DISPLAY DEVICE, DISPLAY METHOD AND DISPLAY PROGRAM
WO2020195292A1 (ja) * 2019-03-26 2020-10-01 ソニー株式会社 感覚器オブジェクトを表示する情報処理装置
DE112020002991T5 (de) 2019-06-19 2022-04-07 Sony Group Corporation Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
WO2023112649A1 (ja) * 2021-12-16 2023-06-22 アールシーソリューション株式会社 時系列情報表示装置および時系列情報表示方法
JP7300692B1 (ja) * 2021-12-16 2023-06-30 アールシーソリューション株式会社 時系列情報表示装置および時系列情報表示方法

Also Published As

Publication number Publication date
US20200322595A1 (en) 2020-10-08
JPWO2017213070A1 (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
WO2017213070A1 (ja) 情報処理装置および方法、並びに記録媒体
JP7283506B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN113168007B (zh) 用于增强现实的系统和方法
US9842433B2 (en) Method, apparatus, and smart wearable device for fusing augmented reality and virtual reality
JP2022009208A (ja) ウェアラブルデバイスによる顔モデル捕捉
US10401953B2 (en) Systems and methods for eye vergence control in real and augmented reality environments
JP2021530817A (ja) 画像ディスプレイデバイスの位置特定マップを決定および/または評価するための方法および装置
CN114766038A (zh) 共享空间中的个体视图
KR20220120649A (ko) 인공 현실 콘텐츠의 가변 초점 디스플레이를 갖는 인공 현실 시스템
KR101892735B1 (ko) 직관적인 상호작용 장치 및 방법
KR20160094190A (ko) 시선 추적 장치 및 방법
JP2018526716A (ja) 媒介現実
WO2019142560A1 (ja) 視線を誘導する情報処理装置
WO2019155840A1 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019044084A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220291744A1 (en) Display processing device, display processing method, and recording medium
JP6687751B2 (ja) 画像表示システム、画像表示装置、その制御方法、及びプログラム
US20240036327A1 (en) Head-mounted display and image displaying method
JP6223614B1 (ja) 情報処理方法、情報処理プログラム、情報処理システム及び情報処理装置
JP2018195172A (ja) 情報処理方法、情報処理プログラム及び情報処理装置
WO2022149497A1 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
WO2022149496A1 (ja) エンタテインメントシステムおよびロボット
US20240078767A1 (en) Information processing apparatus and information processing method
WO2021153413A1 (ja) 情報処理装置、情報処理システム及び情報処理方法
GB2614330A (en) Peripheral tracking system and method

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018522469

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17810247

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17810247

Country of ref document: EP

Kind code of ref document: A1