WO2020071144A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム

Info

Publication number
WO2020071144A1
WO2020071144A1 PCT/JP2019/036891 JP2019036891W WO2020071144A1 WO 2020071144 A1 WO2020071144 A1 WO 2020071144A1 JP 2019036891 W JP2019036891 W JP 2019036891W WO 2020071144 A1 WO2020071144 A1 WO 2020071144A1
Authority
WO
WIPO (PCT)
Prior art keywords
angle
captured image
information processing
view
user
Prior art date
Application number
PCT/JP2019/036891
Other languages
English (en)
French (fr)
Inventor
浩丈 市川
敦 石原
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Publication of WO2020071144A1 publication Critical patent/WO2020071144A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory

Definitions

  • the present technology relates to an information processing apparatus, an information processing method, and a program applicable to display of a virtual object such as an AR (Augmented Reality).
  • a virtual object such as an AR (Augmented Reality).
  • an object of the present technology is to provide an information processing apparatus, an information processing method, and a program capable of realizing a high-quality virtual expression while suppressing a processing load for displaying a virtual object. It is in.
  • an information processing device includes an image acquisition unit and an object recognition unit.
  • the image acquisition unit is provided on the user terminal, the first captured image being acquired by a first imaging device having a first angle of view provided on a user terminal that is portable or wearable by a user.
  • a second captured image acquired by a second imaging device having a second angle of view wider than the first angle of view and including at least a part of the first angle of view is acquired.
  • the object recognition unit recognizes the real object based on the first captured image when the whole of the real object in the real space is substantially included in the first angle of view. Is not substantially included in the first angle of view, the real object is recognized based on the second captured image.
  • the first captured image is used as an image used for recognition of the real object based on whether or not the entire real object is substantially included in the first angle of view of the first imaging apparatus. And the second captured image are appropriately selected. This makes it possible to realize a high-quality virtual expression while suppressing the processing load.
  • the real object may be an operation tool movable by the user.
  • the information processing apparatus may further include a display control unit that controls a display device capable of displaying a virtual object superimposed on the real space.
  • the object recognition unit recognizes the operating tool based on the first captured image, and May not be substantially included in the first angle of view, the operating tool may be recognized based on the second captured image.
  • the display control unit may control the display device to block at least a part of the virtual object based on a positional relationship between the virtual object and the operating tool.
  • the display control unit may execute an operation process corresponding to the virtual object based on a positional relationship between the virtual object and the operating tool.
  • the entire first angle of view may be included in the display area of the display device.
  • the entire display area of the display device may be included in the second angle of view.
  • the object recognition unit determines that the entire operation body is substantially included within the first angle of view, the object recognition unit converts the image used for recognition of the operation body from the second captured image to the first image. If it is determined that the entire operation body is not substantially included in the first angle of view, the image used for recognition of the operation body is changed from the first captured image to the second captured image. You may switch to a captured image.
  • the information processing device may be an information processing device further including the display device, the first imaging device, and the second imaging device.
  • the object recognition unit switches an image used for recognition of the operating tool between the first captured image and the second captured image based on a change in a distance between the operating tool and the user terminal. Is also good.
  • the object recognition unit may switch an image used for recognition of the operating tool from the first captured image to the second captured image when the operating tool and the user terminal approach each other.
  • the operation tool may be a hand of the user.
  • the information processing apparatus may further include a position determination unit that determines a position of the user terminal in the real space based on at least one of the first captured image or the second captured image.
  • the position determination unit may preferentially use the second captured image over the first captured image in determining the position of the user terminal.
  • the object recognition unit may preferentially use the first captured image over the second captured image for recognition of the real object.
  • the resolution per unit area of the first captured image may be higher than the resolution per unit area of the second captured image.
  • the user terminal may be a head mounted display.
  • the user terminal may be a smartphone or a tablet terminal.
  • At least one of the first imaging device and the second imaging device may be a stereo camera.
  • An information processing method is an information processing method executed by a computer system, and includes a first imaging having a first angle of view provided in a user terminal that is portable or wearable by a user.
  • a program causes a computer system to execute the following steps.
  • a first captured image obtained by a first imaging device having a first angle of view provided on a user terminal that is portable or wearable by a user, and the first angle of view provided on the user terminal Acquiring a second captured image acquired by a second imaging device having a second angle of view wider than and including at least a part of the first angle of view.
  • the real object is recognized based on the first captured image, and the whole of the real object is the first object. Recognizing the real object based on the second captured image when the real object is not substantially included in the angle of view.
  • FIG. 2 is a block diagram illustrating a functional configuration example of an HMD.
  • FIG. 3 is a block diagram illustrating a functional configuration example of a controller. It is a flowchart which shows an example of AR display control.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • FIG. 7 is a schematic diagram for explaining processing illustrated in FIG. 6.
  • It is a mimetic diagram showing HMD concerning other embodiments.
  • FIG. 1 is a perspective view illustrating an example of the appearance of an HMD according to an embodiment of the present technology.
  • the HMD 10 is a glasses-type device having a transmissive display, and is also called an AR glass.
  • the HMD 10 functions as a user 20 terminal that can be carried or worn by the user 20.
  • the “user terminal that can be carried or worn by the user” includes any mobile terminal such as a mobile phone, a smartphone (registered trademark), a tablet terminal, a game device, and a PDA (Personal Digital Assistant).
  • a mobile terminal such as a mobile phone, a smartphone (registered trademark), a tablet terminal, a game device, and a PDA (Personal Digital Assistant).
  • an arbitrary HMD such as a transmission type HMD such as an optical see-through or a video see-through and a non-transmission type (immersion type) HMD is included.
  • any wearable device such as a watch type, a wristband type, a neckband type, etc. is included.
  • a “user terminal that can be carried or worn by a user” can also be defined as a “mobile terminal” that can be moved by a user.
  • the HMD 10 includes a frame 11, a left eye lens 12a and a right eye lens 12b, a left eye display 13a and a right eye display 13b, a left eye camera 14a and a right eye camera 14b, It has a corner camera 15 and a wide-angle camera 16 (16a, 16b).
  • the frame 11 is shaped like glasses and has a rim portion 17 and a temple portion 18.
  • the rim portion 17 is a portion disposed in front of the left and right eyes of the user 20, and supports the left-eye lens 12a and the right-eye lens 12b, respectively.
  • the temple portion 18 extends rearward from both ends of the rim portion 17 toward both ears of the user 20, and the tips are attached to both ears.
  • the rim portion 17 and the temple portion 18 are formed of, for example, a material such as a synthetic resin or a metal.
  • the left-eye lens 12a and the right-eye lens 12b are respectively disposed in front of the left and right eyes of the user so as to cover at least a part of the field of view of the user 2.
  • each lens is designed to correct the user's vision.
  • the present invention is not limited to this, and a so-called no-power lens may be used.
  • the left-eye display 13a and the right-eye display 13b are transmissive displays, and are disposed so as to cover a part of the left-eye lens 12a and the right-eye lens 12b. That is, the left-eye lens 12a and the right-eye lens 12b are respectively arranged in front of the left and right eyes of the user.
  • the left-eye display 13a and the right-eye display 13b display images for the left eye and the right eye, respectively.
  • the user 20 wearing the HMD 10 can visually recognize an image displayed on each of the displays 13a and 13b at the same time as viewing the actual scenery. Thereby, the user can experience augmented reality (AR) and the like.
  • AR augmented reality
  • a virtual display object (virtual object) is displayed.
  • CG Computer @ Graphics
  • a character such as a character, a photograph, a character, or the like can be displayed as a virtual object.
  • the present invention is not limited to this, and any virtual object may be displayed.
  • the left-eye display 13a and the right-eye display 13b for example, a transmissive organic EL display, an LCD (Liquid Crystal Display) display, or the like is used.
  • the specific configurations of the left-eye display 13a and the right-eye display 13b are not limited. For example, a method of projecting and displaying an image on a transparent screen, a method of displaying an image using a prism or the like, and the like. Any type of transmission type display may be used as appropriate.
  • the left-eye camera 14a and the right-eye camera 14b are appropriately installed on the frame 11 so that the left and right eyes of the user can be imaged. For example, it is possible to detect line-of-sight information and the like regarding the user's line of sight based on the left-eye and right-eye images captured by the left-eye camera 14a and the right-eye camera 14b.
  • a digital camera having an image sensor such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor or a CCD (Charge Coupled Device) sensor is used.
  • an infrared camera equipped with infrared illumination such as an infrared LED may be used.
  • both the left-eye lens 12a and the right-eye lens 12b may be described as the lens 12, and both the left-eye display 13a and the right-eye display 13b may be described as the transmissive display 13. Further, both the left-eye camera 14a and the right-eye camera 14b may be described as an inward-facing camera 14.
  • the narrow-angle camera 15 and the wide-angle camera 16 (16a, 16b) are provided as outward-facing cameras capable of capturing an image of the real space in front of the user.
  • the narrow-angle camera 15 and the wide-angle camera 16 (16a, 16b) can generate a captured image of a real space.
  • the narrow-angle camera 15 is installed at the center of the frame 11 (rim portion 17). Further, the narrow-angle camera 15 can also acquire distance information (depth information) to an object (object included in the angle of view) included in the captured image. That is, the narrow-angle camera 15 is configured as a depth sensor (also referred to as a 3D sensor, a distance measurement sensor, a distance camera, or the like).
  • a depth sensor also referred to as a 3D sensor, a distance measurement sensor, a distance camera, or the like.
  • the specific configuration of the narrow-angle camera 15 is not limited.
  • a digital camera including an image sensor such as a CMOS sensor or a CCD sensor is used.
  • an image sensor such as a CMOS sensor or a CCD sensor
  • a ToF (Time of Flight) sensor various sensors using a millimeter wave radar, an infrared radar, or the like, a projector that outputs a pattern image, and the like are used.
  • the wide-angle cameras 16a and 16b are installed at the left and right ends of the rim 17 so as to be symmetric with respect to the center of the rim 17, respectively.
  • the wide-angle cameras 16a and 16b are configured as stereo cameras, and can also acquire distance information to an object included in a captured image (an object included in an angle of view). That is, the wide-angle cameras 16a and 16b are also configured as depth sensors.
  • the specific configuration of the wide-angle cameras 16a and 16b is not limited. For example, a digital camera including an image sensor such as a CMOS sensor or a CCD sensor is used.
  • the narrow-angle camera 15 may be configured by a stereo camera provided symmetrically with respect to the center of the rim portion 17. Further, a single wide-angle camera 16 may be provided at the center of the rim portion 17. Further, both the narrow-angle camera 15 and the wide-angle camera 16 may be configured as stereo cameras, or the single narrow-angle camera 15 and the single wide-angle camera 16 may be configured respectively.
  • FIGS. 2 and 3 are schematic diagrams for explaining the angles of view of the narrow-angle camera 15 and the wide-angle camera 16. 2 and 3 show a configuration example in which the narrow-angle camera 15 and the wide-angle camera 16 are installed at the center of the rim portion 17 for easy understanding.
  • each of the narrow-angle camera 15 and the wide-angle camera 16 depends on a region where the angle of view of each of the plurality of cameras overlaps.
  • the angle of view is configured. Even in such a case, the relationship between the angles of view described below may be applied to the narrow-angle camera 15 and the wide-angle camera 16.
  • the angle of view can also be said to be a range that can be imaged by the narrow-angle camera 15 and the wide-angle camera 16.
  • the range that can be captured by the plurality of cameras is the range that can be captured by the narrow-angle camera 15 and the wide-angle camera 16.
  • the range in which the distance information can be obtained can be set as the imageable range.
  • FIG. 2A is a schematic diagram showing a real object in the real space S.
  • a desk 21, a television 22 and a speaker 23 arranged on the desk 21 are arranged as real objects.
  • the user 20 can visually recognize these real objects via the transmissive display 13.
  • FIG. 2B is a schematic diagram showing a state in which the virtual object 30 is displayed.
  • a vehicle is displayed as a virtual object 30 between the television 22 and the speaker 23 on the desk 21.
  • the vehicle is displayed on the transmissive display 13 of the HMD 10.
  • the virtual object 30 exists at a position visible through the display area 24 of the transmissive display 13, the virtual object 30 is displayed on the transmissive display 13.
  • the virtual object 30 is displayed at a position corresponding to the position of the face on the transmissive display 13.
  • the determination as to whether or not the virtual object 30 is included in the display area 24 of the transmissive display 13 is performed based on, for example, an image captured by the narrow-angle camera 15 and / or the wide-angle camera 16. It is possible to The specific algorithm is not limited, and an arbitrary algorithm may be adopted.
  • the entire virtual object 30 is included in the display area 24. Therefore, the user 20 can visually recognize the entire virtual object 30.
  • an image of only the part included in the display area 24 is displayed on the transmissive display 13.
  • FIG. 2C shows an angle of view (hereinafter, referred to as a first angle of view 25) 25 of the narrow-angle camera 15 and an angle of view (hereinafter, referred to as a second angle of view 26) 26 of the wide-angle camera 16.
  • a first angle of view 25 of the narrow-angle camera 15 is set in a narrow area at the center of the field of view of the user 20.
  • FIGS. 2C and 3 when viewed from the user 20, the entire first angle of view 25 of the narrow-angle camera 15 is included in the display area 24 of the transmissive display 13.
  • the second angle of view 26 of the wide-angle camera 16 is set in a wide range of the field of view of the user 20. That is, the second angle of view 26 of the wide-angle camera 16 is set to be wider than the first angle of view 25 of the narrow-angle camera 15 and encompass the entire first angle of view 25. As shown in FIGS. 2C and 3, as viewed from the user 20, the second angle of view 26 of the wide-angle camera 16 is set so as to cover the entire display area 24 of the transmissive display 13.
  • the first angle of view 25 of the narrow-angle camera 15, the display area 24 of the transmissive display 13, and the second angle of view 26 of the wide-angle camera 16 are:
  • the size is increasing. Note that “viewed from the user” is a word mainly describing the gaze direction and the position of the user 20, and does not necessarily mean that the user 20 can visually recognize the position.
  • the narrow-angle camera 15 and the wide-angle camera 16 are cameras whose resolution (the number of pixels) does not greatly differ. That is, substantially the same resolution (number of pixels) is assigned to each of the first angle of view 25 set in a narrow range and the second angle of view 26 set in a wide range shown in FIG. 2C.
  • a narrow range corresponding to the first angle of view 25 is captured at a relatively high resolution by the first captured image captured by the narrow-angle camera 15. Further, with the second captured image captured by the wide-angle camera 16, a wide range corresponding to the second angle of view 26 is captured at a relatively low resolution. That is, in the present embodiment, the narrow-angle camera 15 captures a high-definition image in the center of the field of view of the user 20. Further, the wide-angle camera 16 captures an image capable of grasping the entire visual field of the user 20.
  • the first captured image captured by the narrow-angle camera 15 has a relatively high resolution per unit area.
  • the second image captured by the wide-angle camera 16 has a relatively high resolution per unit area. That is, the first captured image can be captured at a higher resolution than the second captured image in a region per unit area of the real space S.
  • the narrow-angle camera 15 corresponds to a first imaging device having a first angle of view provided in a user 20 terminal that can be carried or worn by the user 20.
  • the wide-angle camera 16 corresponds to a second imaging device having a second angle of view wider than the first angle of view provided in the user 20 terminal and including at least a part of the first angle of view.
  • the HMD 10 including the transmissive display 13 functions as a display device that can display the virtual object 30 by superimposing it on the real space S.
  • the real object includes an arbitrary object existing in the real space S. "Displaying a virtual object superimposed on a real space” includes displaying a specific virtual object 30 on a specific real object. Also, displaying the virtual object 30 at a specific position is included. In addition, an arbitrary display in which the virtual object 30 is superimposed on the real space S or an image in which the real space S is displayed is included.
  • FIG. 4 is a block diagram showing a functional configuration example of the HMD 10. As shown in FIG.
  • the HMD 10 further includes a speaker 32, a connector 33, an operation button 34, a communication unit 35, a sensor unit 40, a storage unit 45, and a controller 50.
  • the speaker 32 is provided at a predetermined position on the frame 11.
  • the configuration of the speaker 32 is not limited.
  • a speaker 32 that can output stereo sound, monaural sound, or the like may be used as appropriate.
  • the connector 33 is a terminal for connection with another device.
  • terminals such as USB (Universal Serial Bus) and HDMI (registered trademark) (High-Definition Multimedia Interface) are provided.
  • USB Universal Serial Bus
  • HDMI registered trademark
  • the operation button 34 is provided, for example, at a predetermined position of the temple section 18. With the operation button 34, it is possible to execute operations related to various functions of the HMD 10, such as a power ON / OFF operation, a function related to image display and audio output, and a network communication function.
  • the communication unit 35 is a module for executing network communication, short-range wireless communication, and the like with other devices.
  • a wireless LAN module such as WiFi or a communication module such as Bluetooth (registered trademark) is provided.
  • the operation of the communication unit 35 enables wireless communication with another device.
  • the present invention is not limited to this, and wired communication with other devices may be performed.
  • the sensor unit 40 includes a nine-axis sensor 41, a GPS 42, a living body sensor 43, and a microphone 44.
  • the # 9-axis sensor 41 includes a 3-axis acceleration sensor, a 3-axis gyro sensor, and a 3-axis compass sensor.
  • the nine-axis sensor 41 can detect acceleration, angular velocity, and azimuth of the HMD 10 in three axes.
  • the GPS 42 acquires information on the current position of the HMD 10.
  • the detection results of the 9-axis sensor 41 and the GPS 42 are used to detect, for example, the posture and position of the user 20 (HMD 10), the movement (movement) of the user 20, and the like. These sensors may be provided at any position of the HMD 10.
  • the living body sensor 43 can detect the living body information of the user 20.
  • an electroencephalogram sensor, a myoelectric sensor, a pulse sensor, a perspiration sensor, a temperature sensor, a blood flow sensor, a body movement sensor, and the like are provided as the biological sensor 43.
  • the microphone 44 detects sound information around the user 20. For example, a voice or the like spoken by the user 20 is appropriately detected. Accordingly, for example, the user 20 can enjoy the AR experience while making a voice call, and can perform an operation input of the HMD 10 using a voice input.
  • the type of the sensor provided as the sensor unit 40 is not limited, and an arbitrary sensor may be provided.
  • a temperature sensor, a humidity sensor, or the like that can measure the temperature and humidity of the environment in which the HMD 10 is used may be provided.
  • the inward-facing camera 14, the narrow-angle camera 15, and the wide-angle camera 16 can be considered as a part of the sensor unit 40.
  • the storage unit 45 is a storage device such as a nonvolatile memory, and for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like is used. In addition, any non-transitory computer-readable storage medium may be used.
  • the control program 46 for controlling the entire operation of the HMD 10 is stored in the storage unit 45.
  • the method for installing the control program 46 in the HMD 10 is not limited.
  • the control program 46 includes a program for executing the information processing method according to the present technology.
  • the storage medium is realized as a storage medium according to the present technology.
  • the controller 50 controls the operation of each block of the HMD 10.
  • the controller 50 has a hardware configuration necessary for the computer, such as a processor (CPU) and a memory (RAM, ROM).
  • CPU central processing unit
  • RAM random access memory
  • ROM read-only memory
  • controller 50 for example, a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or another device such as an ASIC (Application Specific Integrated Circuit) may be used.
  • PLD Processed Logic Device
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • each functional block shown in FIG. 4 is realized by the CPU of the controller 50 executing a program (for example, an application program) according to the present embodiment. Then, the information processing method according to the present embodiment is executed by these functional blocks. Note that dedicated hardware such as an IC (integrated circuit) may be appropriately used to realize each functional block.
  • the information processing apparatus is realized by the HMD 10 having the controller 50. That is, the HMD 10 functions as a display device according to the present technology and also functions as an information processing device.
  • the HMD 10 realizes an information processing device including a display device, a first imaging device, and a second imaging device.
  • FIG. 5 is a block diagram illustrating a functional configuration example of the controller 50.
  • the controller 50 has an input control unit 51, a real object recognition unit 52, an imaging position determination unit 53, a virtual object determination unit 54, a range determination unit 55, and a display control unit 56.
  • the input control unit 51 acquires the first captured image captured by the narrow-angle camera 15 and the second captured image captured by the wide-angle camera 16. Further, the input control unit 51 selects a real object recognition image to be used for real object recognition. In the present embodiment, the input control unit 51 switches the real object recognition image between the first captured image and the second captured image. That is, one of the first captured image and the second captured image is selected as the real object recognition image. The present invention is not limited to this, and both the first captured image and the second captured image may be selected as the real object recognition images.
  • the real object recognition unit 52 recognizes a real object based on the real object recognition image selected by the input control unit 51. In the present embodiment, the position and shape of the real object are recognized.
  • the method of detecting the position and shape of the real object from the real object recognition image is not limited, and any technique may be used.
  • any image recognition technique such as matching processing using a model image of a real object, edge detection, and projective transformation may be used.
  • any machine learning algorithm using, for example, DNN (Deep Neural Network) may be used.
  • DNN Deep Neural Network
  • AI artificial intelligence
  • deep learning deep learning
  • the position of the real object is calculated, for example, according to a coordinate system preset in the real space. Alternatively, the position of the real object may be calculated according to the world coordinate system. In addition, position information relative to the HMD 10 may be calculated as the position of the real object.
  • an operation tool that can be moved by the user 20 is recognized as a real object.
  • the operation tool include a hand of the user 20 and a controller held in the hand of the user 20. Of course, it is not limited to this.
  • the imaging position determination unit 53 determines the positions of the narrow-angle camera 15 and the wide-angle camera 16.
  • at least one of the first captured image and the second captured image is selected as a determination image used for determining an imaging position. Then, the positions of the narrow-angle camera 15 and the wide-angle camera 16 are determined based on the selected determination image.
  • the method for determining the position of the camera based on the captured image is not limited, and an arbitrary algorithm may be used.
  • the positions of the narrow-angle camera 15 and the wide-angle camera 16 are calculated according to a coordinate system or a world coordinate system preset in the real space.
  • relative position information with respect to the operating tool may be calculated as the positions of the narrow-angle camera 15 and the wide-angle camera 16.
  • position coordinates in a three-dimensional coordinate system (XYZ coordinate system) having a predetermined position as the origin are calculated.
  • XYZ coordinate system three-dimensional coordinate system having a predetermined position as the origin
  • the X axis is the pitch axis
  • the Y axis is the roll axis
  • the Z axis is the yaw axis
  • determining the positions of the narrow-angle camera 15 and the wide-angle camera 16 in the real space is equivalent to determining the position of the HMD 10 in the real space.
  • a predetermined position of the HMD 10 is a reference position
  • the positions of the narrow-angle camera 15 and the wide-angle camera 16 with respect to the reference position can be determined by design. Accordingly, the positions of the narrow-angle camera 15 and the wide-angle camera 16 can be regarded as the positions of the HMD 10.
  • the position or the like of the narrow-angle camera 15 can be set as the reference position.
  • the virtual object determination unit 54 determines the virtual object 30 to be AR-displayed. For example, the position and the shape of the virtual object 30 to be displayed on the transmissive display 13 are determined based on the AR application program. For example, in the example shown in FIG. 2, the shape and position of the virtual object 30 of the car are determined.
  • the position of the virtual object 30 includes at least depth information.
  • the position at which the virtual object 30 is displayed may be determined from an XYZ axis coordinate system or a polar coordinate system with the HMD 10 as the origin.
  • the shape of the virtual object 30 includes the size of the virtual object 30 and the angle viewed from the user 20.
  • the size of the virtual object may be determined based on the displayed depth information of the virtual object.
  • the range determination unit 55 determines whether or not the entire operation body is substantially included in the first angle of view of the narrow-angle camera 15.
  • the whole operation body is the whole object recognized as the operation body. For example, it is assumed that a part of the body of the user 20, such as a hand or a head, is recognized as an operating tool. In this case, the entire portion representing the body part is the entire operation body.
  • the hand of the user 20 is recognized as the operating tool.
  • the hand of the user 20 is connected to the arm at the wrist.
  • the "hand" portion from the wrist to the tips of the five fingers corresponds to the entire operation body. Therefore, it is determined whether or not the “hand” portion from the wrist to the tips of the five fingers is included in the first angle of view.
  • the boundaries when representing body parts can be set as appropriate.
  • the boundary between the palm and the wrist is set as the boundary when recognizing the “hand”.
  • the wrist is not included in the “hand”.
  • the boundary may be set at a position slightly advanced from the wrist toward the elbow. In this case, the “hand” including the wrist is recognized. Therefore, the entire operation tool can be changed according to the range recognized as the operation tool.
  • “Substantially comprehensive” includes not only the case where the whole of the operating tool is completely covered, but also the state where a part of the operating tool is not included. That is, it also corresponds to an expression such that substantially the entirety is included.
  • a specific threshold or the like for determining whether or not “substantially comprehensive” may be set as appropriate. For example, when 80% or more of the operation tool is included, it can be determined that the operation tool is “substantially included”. Of course, another method may be adopted as a method of defining “substantially comprehensive”. For example, an arbitrary determination method for providing robustness in determining whether a real object is substantially included in the angle of view may be employed.
  • ⁇ Range determination unit 55 determines whether or not the entire virtual object 30 is substantially included in the first angle of view 25 of the narrow-angle camera 15. In the present embodiment, the determination is performed based on the imaging position determined by the imaging position determination unit 53 and the position and shape of the virtual object 30 determined by the virtual object determination unit 54. For example, in the example illustrated in FIG. 2C, it is determined that the virtual object 30 is included in the first angle of view 25.
  • the specific algorithm for this determination is not limited. Any machine learning algorithm or the like may be used.
  • the display control unit 56 controls image display by the transmissive display 13.
  • AR display for superimposing and displaying the virtual object 30 on the real space is controlled.
  • the display control unit 56 performs arbitrary image display control such as projection conversion of an image, adjustment of saturation and brightness, and rendering (drawing processing).
  • occlusion can be executed as the AR display.
  • the shielding is a drawing process of recognizing a three-dimensional shape of a real object and projecting a result of shape recognition of the virtual object 30 and the real object onto each of the displays 13a and 13b. That is, the process of hiding a part of the superimposed virtual object 30 in accordance with the recognized shape of the real object.
  • the user 20 can correctly display the context of the virtual object 30 and the real object.
  • the display control unit 56 controls the transmissive display 13 of the HMD 10 to shield at least a part of the virtual object 30 based on the positional relationship between the virtual object 30 and the operating tool.
  • the specific algorithm of the shielding process is not limited, and an arbitrary algorithm may be used. Also, any machine learning algorithm may be used.
  • arbitrary display control such as movement or deformation of the virtual object 30 based on the operating tool may be executed.
  • the controller 50 implements an image acquisition unit, an object recognition unit, a display control unit, and a position determination unit.
  • the input control unit 51 implements an image acquisition unit that acquires a first captured image and a second captured image.
  • the display control unit 56 implements a display control unit that controls a display device capable of displaying a virtual object superimposed on a real space.
  • the imaging position determination unit 53 implements a position determination unit that determines the position of the user 20 terminal in the real space based on at least one of the first captured image and the second captured image.
  • FIG. 6 is a flowchart showing an example of the AR display control.
  • the flowchart shown in FIG. 6 is processing executed for each frame of an input captured image.
  • FIGS. 7 to 12 are schematic diagrams for explaining the process illustrated in FIG.
  • a shielding process according to an operation of holding the hand 27 of the user 20 over the virtual object 30 will be described as an example. That is, in the examples shown in FIGS. 7 to 12, the hand 27 of the user 20 is recognized as the operating tool.
  • Step 101 Processing for the current frame is started (step 101).
  • the positions of the narrow-angle camera 15 and the wide-angle camera 16 are determined by the imaging position determination unit 53 based on the determination image (Step 102).
  • the first captured image and / or the second captured image selected as the determination image in the previous frame are used as the determination image.
  • the determination image it is not necessary to select both the first captured image and the second captured image, and it is also possible to set such that only one of them is selected.
  • the second captured image captured by the wide-angle camera 16 may be used as a determination image preferentially over the first captured image captured by the narrow-angle camera 15.
  • the position and shape of the hand 27 of the user 20 are recognized by the real object recognition unit 52 based on the real object recognition image selected by the input control unit 51 (Step 103).
  • the recognition of the hand 27 of the user 20 is executed based on the real object recognition image selected by the input control unit 51.
  • the position and shape of the virtual object 30 are calculated by the virtual object determination unit 54 (Step 104).
  • the range determining unit 55 determines whether or not the entire virtual object 30 is substantially included in the first angle of view 25 of the narrow-angle camera 15 (step 105). As illustrated in FIG. 7, when the entirety of the virtual object 30 is not substantially included in the first angle of view 25 of the narrow-angle camera 15 (NO in Step 105), the range determination unit 55 causes the It is determined whether or not the hand 27 is substantially included in the first angle of view 25 of the narrow-angle camera 15 (step 106).
  • the narrow-angle camera 15 is set as the object recognition camera. (Step 107).
  • the input control unit 51 selects the first captured image as the object recognition image. Based on the first captured image selected as the object recognition image, the hand 27 of the user 20 is recognized, and the display control unit 56 executes a shielding process (Step 109).
  • FIG. 8A a part of the virtual object 30 is hidden based on the recognized position and shape of the hand 27 of the user 20 as shown in FIG. 8A. That is, the portion where the hand 27 of the user 20 overlaps is hidden. Accordingly, as shown in FIG. 8B, the virtual object 30 is not displayed on the hand 27 of the user 20, and the front-rear relationship between the virtual object 30 and the hand 27 is appropriately represented.
  • the narrow-angle camera 15 has a large number of camera pixels with respect to the size of the real object instead of having a narrow range in which an image can be captured (a narrow angle of view), and enables highly accurate recognition. That is, by performing object recognition by the narrow-angle camera 15, the shape of the hand 27 of the user 20 to be shielded becomes a more accurate shape. Therefore, a high quality virtual experience is realized.
  • the wide-angle camera 16 is set as the object recognition camera (step S106). 108).
  • the second captured image is selected by the input control unit 51 as the image for object recognition.
  • the display control unit 56 executes a shielding process (Step 109).
  • the hand 27 of the user 20 is not substantially included in the first angle of view 25
  • the hand 27 of the user 20 is recognized based on the first captured image captured by the narrow-angle camera 15. Then, a portion of the hand 27 of the user 20 that is not included in the first angle of view 25 cannot be recognized.
  • FIG. 10A As a result, as illustrated in FIG. 10A, only the part recognized based on the first captured image of the narrow-angle camera 15 is hidden, and the non-recognized part is not hidden.
  • FIG. 10B the virtual object 30 is displayed on the unrecognized portion of the hand 27, and the display of the virtual object 30 is broken. Therefore, the bodily sensation of the user 20 when using the HMD 10 is reduced.
  • the wide-angle camera 16 is set as the object recognition camera. Therefore, as shown in FIG. 11A, it is possible to appropriately recognize the hand 27 of the user 20. Therefore, it is possible to appropriately hide the virtual object 30. As a result, as illustrated in FIG. 11B, the virtual object 30 can be displayed so that the hand 27 of the user 20 can be seen in front of the virtual object 30.
  • the resolution of the second captured image is relatively lower than the resolution of the first captured image. Therefore, the recognition accuracy of the hand 27 of the user 20 is slightly lower, and the accuracy of the shielding process is also lower.
  • the display of the virtual object 30 does not break down, and the quality of the virtual experience can be improved.
  • the wide-angle camera 16 is set as the object recognition camera in step 108. Then, the object is recognized based on the second captured image, and the display of the virtual object 30 is controlled (step 109).
  • step 105 when the entire virtual object 30 is substantially included in the first angle of view 25 of the narrow-angle camera 15 (YES in step 105), the narrow-angle camera 15 is used as the object recognition camera. It is set (step 109).
  • the input control unit 51 selects the first captured image as the object recognition image. Based on the first captured image selected as the object recognition image, the hand 27 of the user 20 is recognized, and the display control unit 56 executes a shielding process (Step 109).
  • the virtual object 30 is substantially included in the first angle of view 25 as illustrated in FIGS. 2 and 3, for example.
  • the portion where the hand 27 of the user 20 and the virtual object 30 overlap is practically included in the first angle of view 25 of the narrow-angle camera 15.
  • the part does not overlap with the virtual object 30 in the first angle of view 25.
  • step 110 The same process is repeated for the next frame (steps 110 to 101).
  • the setting of the object recognition camera executed in steps 109 and 110 may not be reflected in the display control of the same frame (step 109). That is, the display control in step 109 is executed based on the image captured by the object recognition camera set in the previous frame.
  • the display of the virtual object 30 may be broken in one frame. However, in the next frame, a proper AR display is realized, so that a decrease in the quality of the virtual experience is suppressed. Alternatively, a frame in which a failure has occurred may be discarded, and the image may be delayed by one frame. Also in this case, it is possible to maintain high quality of the virtual experience.
  • the object recognition image used for recognizing the real object is used.
  • the first captured image and the second captured image are appropriately selected. That is, the input control unit 51 executes switching for switching one of the narrow-angle camera 15 and the wide-angle camera 16 to the object recognition camera based on the range determination result of the range determination unit 55. This makes it possible to improve the bodily sensation of the user 20 while suppressing the processing load, realize high-quality virtual expression, and improve the bodily sensation of the user.
  • the AR glass or the HMD is provided with two cameras, the narrow-angle camera 15 and the wide-angle camera 16, whose resolutions do not greatly differ, and the hand 27 of the user 20 viewed from the narrow-angle camera 15 and the wide-angle camera 16. Recognize the positional relationship of Switching between the narrow-angle camera 15 and the wide-angle camera 16 for object recognition is performed in accordance with the recognized positional relationship.
  • the wide-angle camera 16 With using the high-precision narrow-angle camera 15 near the center of the field of view of the user 20, high-precision content display can be maintained.
  • the wide-angle camera 16 with low accuracy can be used to avoid breaking a large shape. As a result, it is possible to realize a high-quality virtual expression while suppressing the processing load, and to improve the bodily sensation of the user 20.
  • the range determination unit 55 determines that the entire operation tool is substantially included in the first angle of view 25
  • an image used for recognition of the operation tool is converted from the second captured image to the first image.
  • the image used for recognition of the operation body is switched from the first captured image to the second captured image.
  • both the first image captured by the narrow-angle camera 15 and the second image captured by the wide-angle camera 16 are not used, and the two images are appropriately switched and used.
  • the real object recognition unit 52 may use the first captured image preferentially over the second captured image for recognition of the real object.
  • the first captured image is given priority over the second captured image in recognizing a real object in accordance with various conditions such as the reliability of object recognition of the first captured image exceeding a threshold. May be used.
  • the display control unit 56 executes an operation process corresponding to the virtual object 30 based on the positional relationship between the virtual object 30 and the real object (hand 27).
  • the operation process is a process for executing a function set in the virtual object 30. For example, when the hand of the user 20 as the real object touches the virtual object 30 (when the coordinates match), the virtual object 30 moves.
  • the present invention is not limited to this, and an operation process based on various information of the virtual object 30 and the real object may be executed.
  • the camera for object recognition is switched by calculating the positional relationship among the narrow-angle camera 15, the wide-angle camera 16, the hand 27, and the virtual object 30. . Accordingly, even if the angle of view is out of the angle of view of the narrow-angle camera 15, it is possible to prevent the display shape of the virtual object 30 from being largely broken by performing object recognition by the wide-angle camera 16.
  • the HMD 10 includes a plurality of imaging devices and switches the camera for object recognition.
  • the recognition by the high-angle and high-resolution camera and the recognition by using the images of both the narrow-angle camera 15 and the wide-angle camera 16 are possible. Processing load can be reduced. Further, optimization according to the restriction of the device configuration of the HMD 10 can be achieved.
  • the second angle of view 26 of the wide-angle camera 16 is set to be wider than the first angle of view 25 of the narrow-angle camera 15 and encompass the entire first angle of view 25.
  • the present invention is not limited thereto, and the second angle of view 26 of the wide-angle camera 16 may be set to be wider than the first angle of view 25 and to include at least a part of the first angle of view 25.
  • the range determination unit 55 determines whether or not the entire virtual object 30 and the operating tool (the hand 27) are substantially included in the first angle of view of the narrow-angle camera 15; Based on the determination result, switching was performed to switch one of the narrow-angle camera 15 and the wide-angle camera 16 to the object recognition camera.
  • the input control unit 51 is not limited to this, and based on the change in the distance between the operating tool and the HMD 10, the input control unit 51 converts the image used for recognition of the operating tool between the captured image of the narrow-angle camera 15 and the captured image of the wide-angle camera 16. May be switched. For example, when the operating tool and the HMD 10 approach each other, the input control unit 51 switches an image used for recognition of the operating tool from an image captured by the narrow-angle camera 15 to an image captured by the wide-angle camera 16.
  • the virtual object 30 and the real object (hand 27) are within the first angle of view 25, and an object recognition camera is set.
  • the present invention is not limited to this.
  • it may be determined whether only the virtual object 30 is within the first angle of view 25. That is, the setting of the object recognition camera may be switched by YES or NO in step 105.
  • the following determination methods of the range determination unit 55 for setting the object recognition camera may be appropriately combined.
  • a priority or the like may be set for each.
  • the whole of the real object is substantially included in the first angle of view 25 of the narrow-angle camera 15.
  • the whole of the real object is not substantially included in the first angle of view 25 of the narrow-angle camera 15.
  • the entire virtual object is substantially contained within the first angle of view 25 of the narrow-angle camera 15.
  • the entire virtual object is not substantially included in the first angle of view 25 of the narrow-angle camera 15.
  • the HMD 10 is a wearable terminal such as an AR glass having a transmissive display.
  • the present technology is not limited to this, and is also applicable to non-transmissive HMDs, projectors, and the like.
  • FIG. 13 is a schematic view showing an HMD 300 according to another embodiment.
  • FIG. 13A is a perspective view schematically illustrating the appearance of the HMD 30, and
  • FIG. 13B is a perspective view schematically illustrating the state where the HMD 300 is disassembled.
  • the HMD 300 includes a base 301, a wearing band 302, a headphone 303, a wide-angle camera 304, a narrow-angle camera 305, a display unit 306, and a cover 307.
  • the base portion 301 is a member disposed in front of the left and right eyes of the user, and is provided with a frontal support portion 308 that is in contact with the frontal region of the user.
  • the wearing band unit 302 is worn on the head of the user. As shown in FIG. 11, the wearing band section 302 has a temporal band 309 and a parietal band 310.
  • the temporal band 309 is connected to the base 301 and is worn so as to surround the user's head from the temporal to the occipital region.
  • the crown band 310 is connected to the temporal band 309 and is worn so as to surround the user's head from the temporal region to the crown.
  • the headphone unit 303 is connected to the base unit 301 and is arranged so as to cover the left and right ears of the user.
  • the headphone section 303 is provided with left and right speakers.
  • the position of the headphone unit 303 can be controlled manually or automatically.
  • the configuration for that purpose is not limited, and any configuration may be adopted.
  • the wide-angle camera 304 uses a wide-angle lens with a wide angle of view, and is arranged toward the outside of the base unit 301 (the side opposite to the user 20).
  • the wide-angle camera 304 can capture an image of a real space included in the field of view of the user.
  • the narrow-angle camera 305 uses a narrow-angle lens with a narrow angle of view, and is disposed toward the outside of the base unit 301 (the side opposite to the user 20).
  • the narrow-angle camera 305 can capture a real space included in the user's field of view.
  • the display unit 306 is inserted into the base unit 301 and arranged in front of the user's eyes.
  • a display is arranged inside the display unit 306.
  • the display for example, any display device using liquid crystal, EL (Electro-Luminescence), or the like may be used.
  • the display unit 306 is provided with a lens system (not shown) for guiding an image displayed on the display to the left and right eyes of the user.
  • the cover unit 307 is attached to the base unit 301 and is configured to cover the display unit 306.
  • the HMD 300 configured as described above functions as an immersive head-mounted display configured to cover the field of view of the user.
  • the HMD 300 displays a three-dimensional virtual space.
  • the user can experience virtual reality (VR) and the like.
  • VR virtual reality
  • a display device that displays a virtual object, a first imaging device that is a narrow-angle camera 15, and an independent second imaging device that is a wide-angle camera 16 realize an information processing device according to the present technology. You may.
  • the position and the shape were calculated with the hand 27 as the real object.
  • the invention is not limited thereto, and a non-deformable object such as a controller or a tool may be used.
  • a non-deformed object the shape is constant, so that the HMD 10 does not need to recognize the shape of the real object.
  • the position and orientation of the real object are recognized by the narrow-angle camera 15 and the wide-angle camera 16.
  • the present invention is not limited to this, and may have a configuration that enables marker recognition such as an AR marker capable of recognizing the position and orientation of a real object.
  • the shape of the hand or the controller of the user 20 may be stored in a database or the like, and the matching process may be performed.
  • the method of recognizing the position and orientation of the real object may be performed using a sensor group such as GPS (Global Positioning System).
  • GPS Global Positioning System
  • the present invention is not limited to this, and a depth sensor or the like that can obtain distance information from one pixel and measure the distance to a real object may be provided.
  • the information processing method and the program according to the present technology are executed by linking a computer mounted on the HMD 10 with another computer (cloud system) communicable via a network or the like, and the information according to the present technology is executed.
  • a processing device may be constructed.
  • a system means a set of a plurality of components (devices, modules (parts), and the like), and it does not matter whether all components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems.
  • the information processing method according to the present technology and the execution of the program by the computer system include, for example, a case where acquisition of a captured image, recognition of a real object, switching of a captured image, and the like are performed by a single computer, and each process. Includes both cases when executed by different computers.
  • the execution of each process by a predetermined computer includes causing another computer to execute a part or all of the process and acquiring the result.
  • the information processing device, the actual object range determination unit, the control flow of the HMD 10, and the like described with reference to the drawings are merely exemplary embodiments, and can be arbitrarily modified without departing from the gist of the present technology. That is, another arbitrary configuration, algorithm, or the like for implementing the present technology may be adopted.
  • An image acquisition unit that acquires a second captured image acquired by a second imaging device having a second angle of view wider than the angle of view and including at least a part of the first angle of view, When the whole of the real object in the real space is substantially included in the first angle of view, the real object is recognized based on the first captured image, and the whole of the real object is the first object.
  • an object recognition unit that recognizes the real object based on the second captured image when the real object is not substantially included in the angle of view.
  • the information processing apparatus according to (1), The information processing device, wherein the real object is an operation tool movable by the user.
  • the information processing apparatus according to (6), The information processing device, wherein the entire display area of the display device is included in the second angle of view when viewed from the user.
  • the information processing apparatus according to any one of (3) to (7), If the object recognition unit determines that the entire operation body is substantially included within the first angle of view, the object recognition unit converts the image used for recognition of the operation body from the second captured image to the first image. If it is determined that the entire operation body is not substantially included in the first angle of view, the image used for recognition of the operation body is changed from the first captured image to the second captured image. An information processing device that switches to a captured image.
  • the information processing apparatus according to any one of (3) to (8), further comprising: The display device; The first imaging device; An information processing apparatus comprising: the second imaging device.
  • the object recognizing unit switches an image used for recognizing the operating tool between the first captured image and the second captured image based on a change in a distance between the operating tool and the user terminal. Processing equipment.
  • the information processing apparatus according to (10), The information processing device, wherein the object recognition unit switches an image used for recognition of the operating tool from the first captured image to the second captured image when the operating tool and the user terminal approach each other.
  • the information processing apparatus according to any one of (2) to (11), The information processing device, wherein the operation tool is a hand of the user.
  • the information processing apparatus according to any one of (1) to (13), further comprising: An information processing apparatus, comprising: a position determination unit configured to determine a position of the user terminal in the real space based on at least one of the first captured image or the second captured image.
  • An information processing apparatus comprising: a position determination unit configured to determine a position of the user terminal in the real space based on at least one of the first captured image or the second captured image.
  • the information processing apparatus according to any one of (1) to (14), The information processing device, wherein a resolution per unit area of the first captured image is higher than a resolution per unit area of the second captured image.
  • the information processing apparatus according to any one of (1) to (15), The information processing device, wherein the user terminal is a head-mounted display.
  • the information processing apparatus according to any one of (1) to (15), The information processing device, wherein the user terminal is a smartphone or a tablet terminal.
  • the information processing apparatus according to any one of (1) to (17), At least one of the first imaging device and the second imaging device is a stereo camera.
  • a first captured image obtained by a first imaging device having a first angle of view provided on a user terminal that is portable or wearable by a user, and a first captured image provided on the user terminal.
  • a second captured image acquired by a second imaging device having a second angle of view wider than the angle of view and including at least a part of the first angle of view When the whole of the real object in the real space is substantially included in the first angle of view, the real object is recognized based on the first captured image, and the whole of the real object is the first object.
  • HMD 15 narrow-angle camera 16 wide-angle camera 24 display area 25 first angle of view 26 second angle of view 30 virtual object 50 controller 51 input control unit 52 real object recognition unit 53 imaging position determination Unit 54: virtual object determination unit 55: range determination unit 56: display control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本技術の一形態に係る情報処理装置は、画像取得部と物体認識部とを具備する。画像取得部はユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像とユーザ端末に設けられた第1の画角よりも広くかつ第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得する。物体認識部は実空間にある実物体の全体が第1の画角内に実質的に包含される場合第1の撮像画像に基づいて実物体を認識し実物体の全体が第1の画角内に実質的に包含されない場合、第2の撮像画像に基づいて実物体を認識する。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、AR(Augmented Reality)等の仮想オブジェクトの表示に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1に記載の情報処理装置では、センシングデータに基づく認識精度が取得される。認識精度が第1の範囲又は第2の範囲に含まれるかに基づいて、第1のユーザ操作又は第2のユーザ操作が認識可能に制御される。これにより、認識精度に応じたユーザ操作により操作することが可能となる(特許文献1の段落[0057][0058]図3等)。
国際公開第WO2017/104272号
 AR等の仮想オブジェクトの表示について、処理の負荷を抑えつつ、高品質な仮想表現を実現可能とする技術が求められている。
 以上のような事情に鑑み、本技術の目的は、仮想オブジェクトの表示について、処理の負荷を抑えつつ、高品質な仮想表現を実現可能とする情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、画像取得部と、物体認識部とを具備する。
 前記画像取得部は、ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得する。
 前記物体認識部は、実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識する。
 この情報処理装置では、実物体の全体が第1の撮像装置の第1の画角に実質的に包含されるか否かに基づいて、実物体の認識に用いる画像として、第1の撮像画像及び第2の撮像画像が適宜選択される。これにより、処理の負荷を抑えつつ、高品質な仮想表現を実現可能となる。
 前記実物体は、前記ユーザにより移動可能な操作体であってもよい。
 前記情報処理装置は、さらに、仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備してもよい。この場合、前記物体認識部は、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記操作体を認識してもよい。
 前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御してもよい。
 前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行してもよい。
 前記ユーザから見て、前記第1の画角の全体が前記表示装置の表示領域に包含されてもよい。
 前記ユーザから見て、前記表示装置の表示領域の全体が前記第2の画角に包含されてもよい。
 前記物体認識部は、前記操作体の全体が前記第1の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第2の撮像画像から前記第1の撮像画像に切り替え、前記操作体の全体が前記第1の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替えてもよい。
 前記情報処理装置は、さらに、前記表示装置と、前記第1の撮像装置と、前記第2の撮像装置とを具備する情報処理装置でもよい。
 前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第1の撮像画像と前記第2の撮像画像との間で切り替えてもよい。
 前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替えてもよい。
 前記操作体は、前記ユーザの手であってもよい。
 前記情報処理装置は、さらに、前記第1の撮像画像又は前記第2の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備してもよい。
 前記位置判定部は、前記ユーザ端末の位置の判定に、前記第1の撮像画像よりも前記第2の撮像画像を優先的に用いてもよい。この場合、前記物体認識部は、前記実物体の認識に、前記第2の撮像画像よりも前記第1の撮像画像を優先的に用いてもよい。
 前記第1の撮像画像の単位面積あたりの解像度は、前記第2の撮像画像の単位面積あたりの解像度よりも高くてもよい。
 前記ユーザ端末は、ヘッドマウントディスプレイであってもよい。
 前記ユーザ端末は、スマートフォン又はタブレット端末であってもよい。
 前記第1の撮像装置又は前記第2の撮像装置の少なくとも一方は、ステレオカメラであってもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得することを含む。
 実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体が認識される。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得するステップ。
 実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識するステップ。
 以上のように、本技術によれば、処理の負荷を抑えつつ、高品質な仮想表現を実現可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係るHMDの外観例を示す斜視図である。 狭角カメラ及び広角カメラの画角について説明するための模式図である。 狭角カメラ及び広角カメラの画角について説明するための模式図である。 HMDの機能的な構成例を示すブロック図である。 コントローラの機能的な構成例を示すブロック図である。 AR表示制御の一例を示すフローチャートである。 図6に例示する処理を説明するための模式的な図である。 図6に例示する処理を説明するための模式的な図である。 図6に例示する処理を説明するための模式的な図である。 図6に例示する処理を説明するための模式的な図である。 図6に例示する処理を説明するための模式的な図である。 図6に例示する処理を説明するための模式的な図である。 他の実施形態に係るHMDを示す模式図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [ヘッドマウントディスプレイ(HMD:Head Mounted Display)]
 図1は、本技術の一実施形態に係るHMDの外観例を示す斜視図である。HMD10は、透過型のディスプレイを備えたメガネ型の装置であり、ARグラスとも呼ばれる。本実施形態において、HMD10は、ユーザ20により携帯可能又は装着可能なユーザ20端末として機能する。
 「ユーザにより携帯可能又は装着可能なユーザ端末」としては、携帯電話、スマートフォン(登録商標)、タブレット端末、ゲーム機器、PDA(Personal Digital Assistant)等の任意の携帯端末を含む。また、光学シースルーやビデオシースルー等の透過型HMD、非透過型(没入型)HMD等の任意のHMDが含まれる。また時計型、リストバンド型、ネックバンド型等の任意のウェアラブル装置等も含まれる。「ユーザにより携帯可能又は装着可能なユーザ端末」を、ユーザにより移動可能な「モバイル端末」として定義することも可能である。
 図1に示すように、HMD10は、フレーム11、左眼用レンズ12a及び右眼用レンズ12b、左眼用ディスプレイ13a及び右眼用ディスプレイ13b、左眼用カメラ14a及び右眼用カメラ14b、狭角カメラ15、及び広角カメラ16(16a、16b)を有する。
 フレーム11は、メガネ型の形状でなり、リム部17及びテンプル部18を有する。リム部17は、ユーザ20の左右の眼の前方に配置される部分であり、左眼用レンズ12a及び右眼用レンズ12bをそれぞれ支持する。テンプル部18は、リム部17の両端からユーザ20の両耳に向けて後方に延在し、先端が両耳に装着される。リム部17及びテンプル部18は、例えば合成樹脂、金属等の材料で形成される。
 左眼用レンズ12a及び右眼用レンズ12bは、ユーザ2の視野の少なくとも一部を覆うように、ユーザの左右の眼の前方にそれぞれ配置される。典型的には、各レンズは、ユーザの視力を矯正するように設計される。もちろんこれに限定されず、いわゆる度無しレンズが用いられてもよい。
 左眼用ディスプレイ13a及び右眼用ディスプレイ13bは、透過型ディスプレイであり、左眼用レンズ12a及び右眼用レンズ12bの一部の領域を覆うように、それぞれ配置される。すなわち左眼用レンズ12a及び右眼用レンズ12bは、ユーザの左右の眼の前方にそれぞれ配置される。
 左眼用ディスプレイ13a及び右眼用ディスプレイ13bには、左眼用及び右眼用の画像等がそれぞれ表示される。HMD10を装着するユーザ20は、現実の景色を視認すると同時に、各ディスプレイ13a及び13bに表示される画像を視認することが可能となる。これにより、ユーザは拡張現実(AR)等を体験することが可能となる。
 各ディスプレイ13a及び13bには、例えば仮想的な表示物(仮想オブジェクト)が表示される。例えばキャラクター等のCG(Computer Graphics)、写真、文字等が仮想オブジェクトとして表示可能である。もちろんこれに限定されず、任意の仮想オブジェクトが表示されてよい。
 左眼用ディスプレイ13a及び右眼用ディスプレイ13bとしては、例えば透過型の有機ELディスプレイやLCD(Liquid Crystal Display、液晶表示素子)ディスプレイ等が用いられる。この他、左眼用ディスプレイ13a及び右眼用ディスプレイ13bの具体的な構成は限定されず、例えば透明なスクリーンに画像を投影して表示する方式や、プリズム等を用いて画像を表示する方式等の任意の方式の透過型ディスプレイが適宜用いられてよい。
 左眼用カメラ14a及び右眼用カメラ14bは、ユーザの左眼及び右眼を撮像可能なように、フレーム11に適宜設置される。例えば、左眼用カメラ14a及び右眼用カメラ14bにより撮像された左眼及び右眼の画像に基づいて、ユーザの視線に関する視線情報等を検出することが可能である。
 左眼用カメラ14a及び右眼用カメラ14bとしては、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線LED等の赤外線照明を搭載した赤外線カメラが用いられてもよい。
 以下では、左眼用レンズ12a及び右眼用レンズ12bをともにレンズ12と記載し、左眼用ディスプレイ13a及び右眼用ディスプレイ13bをともに透過型ディスプレイ13と記載する場合がある。また、左眼用カメラ14a及び右眼用カメラ14bをともに内向きカメラ14と記載する場合がある。
 狭角カメラ15、及び広角カメラ16(16a、16b)は、ユーザの前方側の実空間を撮像することが可能な外向きカメラとして設けられる。狭角カメラ15、及び広角カメラ16(16a、16b)により、実空間が撮像された撮像画像を生成することが可能である。
 図1に示すように、狭角カメラ15は、フレーム11(リム部17)の中央に設置される。また狭角カメラ15は、撮像画像に含まれる物体(画角に含まれる物体)までの距離情報(奥行情報)を取得することも可能である。すなわち狭角カメラ15は、デプスセンサ(3Dセンサ、測距センサ、距離カメラ等ともいう)として構成される。
 狭角カメラ15の具体的な構成は限定されない。例えばCMOSセンサやCCDセンサ等のイメージセンサを備えるデジタルカメラが用いられる。また狭角カメラ15をデプスセンサとして機能させるために、ToF(Time of Flight)センサ、ミリ波レーダや赤外線レーダ等を用いた種々のセンサ、パターン画像を出力するプロジェクタ等が用いられる。
 広角カメラ16a及び16bは、リム部17の左右の端部に、リム部17の中心に対して左右対称となるようにそれぞれ設置される。広角カメラ16a及び16bは、ステレオカメラとして構成され、撮像画像に含まれる物体(画角に含まれる物体)までの距離情報を取得することも可能である。すなわち広角カメラ16a及び16bも、デプスセンサとして構成されている。広角カメラ16a及び16bの具体的な構成は限定されない。例えば、CMOSセンサやCCDセンサ等のイメージセンサを備えるデジタルカメラが用いられる。
 もちろん、リム部17の中心に対して左右対称に設けられたステレオカメラにより、狭角カメラ15が構成されてもよい。またリム部17の中心に単体の広角カメラ16が設けられてもよい。また狭角カメラ15及び広角カメラ16の両方がステレオカメラとして構成されてもよいし、単体の狭角カメラ15及び単体の広角カメラ16がそれぞれ構成されてもよい。
 図2及び図3は、狭角カメラ15及び広角カメラ16の画角について説明するための模式図である。なお、図2及び図3では、説明を分かりやすくするために、リム部17の中心に狭角カメラ15及び広角カメラ16が設置された構成例が図示されている。
 狭角カメラ15及び広角カメラ16として、ステレオカメラ等の複数のカメラを含む構成が採用される場合、複数のカメラの各々の画角が重なる領域により、狭角カメラ15及び広角カメラ16の各々の画角が構成される。このような場合も、以下に説明する画角の関係が、狭角カメラ15及び広角カメラ16に対して適用されればよい。
 なお画角は、狭角カメラ15及び広角カメラ16によりの撮像可能な範囲とも言える。狭角カメラ15及び広角カメラ16として、複数のカメラを含む構成が採用される場合、複数のカメラにより撮影可能な範囲が、狭角カメラ15及び広角カメラ16によりの撮像可能な範囲となる。もちろん距離情報が取得可能な範囲を、撮像可能な範囲とすることも可能である。
 図2Aは、実空間Sの実物体を示す模式図である。図2Aに示す例では、机21と、机21上に配置されたテレビ22及びスピーカ23が実物体として配置されている。ユーザ20は、透過型ディスプレイ13を介して、これら実物体を視認することが可能である。
 図2Bは、仮想オブジェクト30が表示された状態を示す模式図である。図2Bに示す例では、机21上のテレビ22とスピーカ23との間に、仮想オブジェクト30として車両が表示される。車両は、HMD10の透過型ディスプレイ13に表示される。
 例えば仮想オブジェクト30が、透過型ディスプレイ13の表示領域24を介して見える位置に存在する場合には、透過型ディスプレイ13に仮想オブジェクト30が表示される。図2Bに示す場合には、ユーザ20がテレビ22とスピーカ23との間に顔の正面を向けた場合、透過型ディスプレイ13の顔の位置に応じた位置に、仮想オブジェクト30が表示される。
 ユーザ20から見て、透過型ディスプレイ13の表示領域24内に仮想オブジェクト30が含まれるか否かの判定は、例えば狭角カメラ15又は/及び広角カメラ16により撮像される撮像画像に基づいて実行することが可能である。具体的なアルゴリズムは限定されず、任意のアルゴリズムが採用されてよい。
 なお図2B及び図3に示す例では、仮想オブジェクト30の全体が、表示領域24に含まれている。従って、ユーザ20は、仮想オブジェクト30の全体を視認することが可能である。もちろん、仮想オブジェクト30の一部のみが表示領域24に含まれていない場合には、表示領域24に含まれる部分のみの画像が、透過型ディスプレイ13に表示される。
 図2Cは、狭角カメラ15の画角(以下、第1の画角25と記載する)25と、広角カメラ16の画角(以下、第2の画角26と記載する)26とを示す模式図である。本実施形態では、ユーザ20の視野の中央の狭い領域に、狭角カメラ15の第1の画角25が設定される。図2C及び図3に示すように、ユーザ20から見て、狭角カメラ15の第1の画角25の全体は、透過型ディスプレイ13の表示領域24に包含される。
 広角カメラ16の第2の画角26は、ユーザ20の視野の広い範囲に設定される。すなわち広角カメラ16の第2の画角26は、狭角カメラ15の第1の画角25よりも広く、第1の画角25の全体を包含するように設定される。図2C及び図3に示すように、ユーザ20から見て、広角カメラ16の第2の画角26は、透過型ディスプレイ13の表示領域24の全体を包含するように設定される。
 従って図2Cに示すように、ユーザ20から見ると、狭角カメラ15の第1の画角25、透過型ディスプレイ13の表示領域24、及び広角カメラ16の第2の画角26の順で、サイズが大きくなっている。なお「ユーザから見る」とは、主に視線方向やユーザ20の位置について説明する文言であり、必ずしもユーザ20が視認可能であるという意味ではない。
 また本実施形態では、狭角カメラ15及び広角カメラ16は、解像度(画素数)が大きく異ならないカメラである。すなわち図2Cに示す狭い範囲に設定された第1の画角25、及び広い範囲に設定された第2の画角26の各々に、ほぼ同じ解像度(画素数)が割り当てられる。
 従って、狭角カメラ15により撮像される第1の撮像画像により、第1の画角25に対応する狭い範囲が、相対的に高解像度で撮像される。また広角カメラ16により撮像される第2の撮像画像により、第2の画角26に対応する広い範囲が、相対的に低解像度で撮像される。すなわち本実施形態では、狭角カメラ15により、ユーザ20の視野の中央の高精細な画像が撮像される。また広角カメラ16により、ユーザ20の視野の全体を把握可能な画像が撮像される。
 実空間Sの領域のサイズを基準とすると、狭角カメラ15により撮像される第1の撮像画像は、単位面積当たりの解像度は相対的に高くなる。広角カメラ16により撮像される第2の撮像画像は、単位面積当たりの解像度は相対的に高くなる。すなわち実空間Sの単位面積あたりの領域に対して、第1の撮像画像は第2の撮像画像よりも高解像度で撮像を行うことが可能である。
 本実施形態において、狭角カメラ15は、ユーザ20により携帯可能又は装着可能なユーザ20端末に設けられた第1の画角を有する第1の撮像装置に相当する。広角カメラ16は、ユーザ20端末に設けられた第1の画角よりも広く、第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置に相当する。
 透過型ディスプレイ13を含むHMD10は、仮想オブジェクト30を実空間Sに対し重畳して表示可能な表示装置として機能する。なお実物体は実空間Sに存在する任意の物体を含む。「仮想オブジェクトを実空間に対し重畳して表示」するとは、特定の実物体に対して特定の仮想オブジェクト30を表示することを含む。また特定の位置に仮想オブジェクト30を表示することが含まれる。その他、実空間Sや、実空間Sが表示されている画像に、仮想オブジェクト30を重畳させる任意の表示が含まれる。
 図4は、HMD10の機能的な構成例を示すブロック図である。HMD10は、さらに、スピーカ32と、コネクタ33と、操作ボタン34と、通信部35と、センサ部40と、記憶部45と、コントローラ50とを有する。
 スピーカ32は、フレーム11の所定の位置に設けられる。スピーカ32の構成は限定されず、例えばステレオ音声やモノラル音声等を出力可能なスピーカ32が適宜用いられてよい。
 コネクタ33は、他のデバイスとの接続のための端子である。例えばUSB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)等の端子が設けられる。また充電時には、充電用のドッグ(クレードル)の充電端子とコネクタ33とが接続されて充電が行われる。
 操作ボタン34は、例えばテンプル部18の所定の位置に設けられる。操作ボタン34により、電源のON/OFFの操作、画像表示や音声出力に関する機能やネットワーク通信機能等のHMD10が有する種々の機能に関する操作を実行することができる。
 通信部35は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。通信部35が動作することで、他の機器との間で無線通信が可能となる。これに限定されず、他の機器と有線通信が行われてもよい。
 センサ部40は、9軸センサ41と、GPS42と、生体センサ43と、マイク44とを有する。
 9軸センサ41は、3軸加速度センサ、3軸ジャイロセンサ、及び3軸コンパスセンサを含む。9軸センサ41により、HMD10の、3軸における加速度、角速度、及び方位を検出することが可能である。GPS42は、HMD10の現在位置の情報を取得する。9軸センサ41及びGPS42の検出結果は、例えばユーザ20(HMD10)の姿勢や位置、ユーザ20の移動(動き)等の検出に用いられる。これらのセンサは、HMD10の任意の位置に設けられてよい。
 生体センサ43は、ユーザ20の生体情報を検出することが可能である。例えば生体センサ43として、脳波センサ、筋電センサ、脈拍センサ、発汗センサ、温度センサ、血流センサ、体動センサ等が設けられる。
 マイク44は、ユーザ20の周辺の音情報を検出する。例えばユーザ20が発話した音声等が適宜検出される。これにより、例えばユーザ20は、音声通話をしながらAR体験を楽しむことや、音声入力を用いたHMD10の操作入力を行うことが可能である。
 センサ部40として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばHMD10を使用する環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。内向きカメラ14、狭角カメラ15及び広角カメラ16を、センサ部40の一部として見做すことも可能である。
 記憶部45は、不揮発性メモリ等の記憶デバイスであり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 記憶部45には、HMD10の全体の動作を制御するための制御プログラム46が記憶される。制御プログラム46を、HMD10にインストールする方法は限定されない。制御プログラム46は、本技術に係る情報処理方法を実行するためのプログラムを含む。例えば、ンピュータ読み取り可能な非一過性の任意の記憶媒体に、本技術に係るプログラムを記憶させた場合、当該記憶媒体は、本技術に係る記憶媒体として実現される。
 コントローラ50は、HMD10が有する各ブロックの動作を制御する。コントローラ50は、例えばプロセッサ(CPU)やメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部45に記憶されている制御プログラム46をRAMにロードして実行することにより、種々の処理が実行される。
 コントローラ50として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
 本実施形態では、コントローラ50のCPUが本実施形態に係るプログラム(例えばアプリケーションプログラム)を実行することで、図4に示される各機能ブロックが実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 本実施形態において、コントローラ50を有するHMD10により、本技術に係る情報処理装置が実現される。すなわちHMD10は、本技術に係る表示装置としても機能し、情報処理装置としても機能する。HMD10により、表示装置と、第1の撮像装置と、第2の撮像装置とを具備する情報処理装置が実現されている。
 [AR表示制御]
 HMD10によるAR表示の制御について説明する。図5は、コントローラ50の機能的な構成例を示すブロック図である。
 図5に示すように、コントローラ50は、入力制御部51、実物体認識部52、撮像位置判定部53、仮想オブジェクト決定部54、範囲判定部55、及び表示制御部56を有する。
 入力制御部51は、狭角カメラ15により撮像された第1の撮像画像、及び広角カメラ16により撮像された第2の撮像画像を取得する。また入力制御部51は、実物体の認識に用いる実物体認識用画像を選択する。本実施形態では、入力制御部51により、実物体認識用画像が、第1の撮像画像及び第2の撮像画像の間で切り替えられる。すなわち第1の撮像画像及び第2の撮像画像のいずれか一方が、実物体認識用画像として選択される。これに限定されず、第1の撮像画像及び第2の撮像画像の両方が実物体認識用画像として選択される場合もあり得る。
 実物体認識部52は、入力制御部51により選択された実物体認識用画像に基づいて、実物体を認識する。本実施形態では、実物体の位置及び形状が認識される。
 実物体認識用画像から実物体の位置及び形状を検出する方法は限定されず、任意の技術が用いられてよい。例えば実物体のモデル画像を用いたマッチング処理、エッジ検出、射影変換等の任意の画像認識技術が用いられてよい。実物体を検出するために、例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、実物体の認識精度を向上させることが可能となる。
 また実物体の位置は、例えば実空間に予め設定された座標系に従って算出される。あるいは、ワールド座標系に従って、実物体の位置が算出されてもよい。その他、HMD10に対する相対的な位置情報が、実物体の位置として算出されてもよい。
 また本実施形態では、実物体として、ユーザ20により移動可能な操作体が認識される。操作体としては、例えばユーザ20の手やユーザ20の手に持っているコントローラ等が挙げられる。もちろんこれに限定される訳ではない。
 撮像位置判定部53は、狭角カメラ15及び広角カメラ16の位置を判定する。本実施形態では、第1の撮像画像及び第2の撮像画像の少なくとも一方が、撮像位置の判定に用いられる判定用画像として選択される。そして選択された判定用画像に基づいて、狭角カメラ15及び広角カメラ16の位置が判定される。撮像画像に基づいてカメラの位置を判定するための方法は限定されず、任意のアルゴリズムが用いられてよい。
 例えば実空間に予め設定された座標系やワールド座標系に従って、狭角カメラ15及び広角カメラ16の位置が算出される。あるいは、操作体に対する相対的な位置情報が、狭角カメラ15及び広角カメラ16の位置として算出されてもよい。例えば、所定の位置を原点とする3次元座標系(XYZ座標系)における位置座標が算出される。またX軸をピッチ軸、Y軸をロール軸、Z軸をヨー軸とした場合における、ユーザ20(HMD10)の正面側に延在する所定の基準軸の、ピッチ角度、ロール角度、及びヨー角度が算出される。
 本実施形態において、実空間における狭角カメラ15及び広角カメラ16の位置を判定することは、実空間におけるHMD10の位置を判定することに相当する。HMD10の所定の位置を基準位置とすると、基準位置に対する狭角カメラ15及び広角カメラ16の位置は設計的に定めることが可能である。従って、狭角カメラ15及び広角カメラ16の位置を、HMD10の位置として見做すことが可能である。もちろん、狭角カメラ15の位置等を、基準位置とすることも可能である。
 仮想オブジェクト決定部54は、AR表示の対象となる仮想オブジェクト30を決定する。例えばARアプリケーションプログラムに基づいて、透過型ディスプレイ13に表示させる仮想オブジェクト30の位置と形状が決定される。例えば図2に示す例では、車の仮想オブジェクト30の形状及び位置が決定される。
 仮想オブジェクト30の位置は、少なくとも奥行き情報が含まれる。例えば、仮想オブジェクト30を表示する位置がHMD10を原点としたXYZ軸座標系や極座標系から決定されてもよい。仮想オブジェクト30の形状は、仮想オブジェクト30の大きさやユーザ20から見た角度が含まれる。例えば、仮想オブジェクトの表示される奥行き情報に基づいて、仮想オブジェクトの大きさが決定されてもよい。
 範囲判定部55は、操作体の全体が狭角カメラ15の第1の画角に実質的に包含されるか否かを判定する。操作体の全体とは、操作体として認識される対象の全体である。例えば手や頭等のユーザ20の体の一部が操作体として認識されるとする。この場合、体の部位を表す部分の全体が操作体の全体となる。
 例えばユーザ20の手が操作体として認識されるとする。ユーザ20の手は、手首にて、腕と連結されている。その手首から5本の指の先端までの「手」の部分が、操作体の全体に相当する。従って、その手首から5本の指の先端までの「手」の部分が、第1の画角に包含されるか否かが判定される。
 なお、体の部位を表す際の境界は適宜設定可能である。例えば手の平と手首の境界が、「手」を認識する際の境界に設定される。この場合、手首の部分は「手」に含まれない。一方、手首から肘に向けて若干進んだ位置に境界が設定されてもよい。この場合、手首を含んで「手」が認識される。従って、操作体として認識される範囲に応じて、操作体の全体は変更され得る。
 「実質的に包括」とは、操作体の全体を100%包括する場合のみならず、操作体の一部が包括されていない状態も含み得る。すなわち略全体が包括される、というような表現にも相当する。「実質的に包括」するか否かを判定するための具体的な閾値等は適宜設定されてよい。例えば操作体の80%以上が包括されている場合、「実質的に包括」していると判定することも可能である。もちろん「実質的に包括」を定義する方法として、他の方法が採用されてもよい。例えば、実物体が画角内に実質的に包含されているかの判定にロバスト性を持たせるための任意の判定方法が採用されてよい。
 また範囲判定部55は、仮想オブジェクト30の全体が狭角カメラ15の第1の画角25に実質的に包括されるか否かを判定する。本実施形態では、撮像位置判定部53により判定された撮像位置と、仮想オブジェクト決定部54により決定された仮想オブジェクト30の位置及び形状に基づいて、判定が実行される。例えば図2Cに示す例では、仮想オブジェクト30は、第1の画角25に包括されていると判定される。この判定のための具体的なアルゴリズムは限定されない。任意の機械学習アルゴリズム等が用いられてもよい。
 なお「全体」及び「実質的に包含」については、操作体について説明した内容と同様である。
 表示制御部56は、透過型ディスプレイ13による画像表示を制御する。本実施形態では、実空間に対して仮想オブジェクト30を重畳して表示するAR表示が制御される。表示制御部56により、画像の射影変換、彩度や明度の調整、レンダリング(描画処理)等の任意の画像表示制御が実行される。
 本実施形態では、AR表示として、遮蔽(Occlusion)が実行可能である。遮蔽とは、実物体の3次元形状を認識し、仮想オブジェクト30と実物体の形状認識の結果を各ディスプレイ13a及び13bに射影する描画処理である。すなわち、重畳された仮想オブジェクト30に対して実物体の認識形状に合わせて仮想オブジェクト30の一部を非表示化する処理のことである。遮蔽を行うことによって、仮想オブジェクト30と実物体との前後関係を正しくユーザ20に表示させることができる。
 表示制御部56は、遮蔽処理を実行する際には、仮想オブジェクト30と操作体との位置関係に基づいて、仮想オブジェクト30の少なくとも一部を遮蔽するようにHMD10の透過型ディスプレイ13を制御する。遮蔽処理の具体的なアルゴリズムは限定されず、任意のアルゴリズムが用いられてもよい。また任意の機械学習アルゴリズムが用いられてもよい。
 その他、AR表示として、操作体を基準とした仮想オブジェクト30の移動や変形等の、任意の表示制御が実行されてよい。
 本実施形態では、コントローラ50により、画像取得部、物体認識部、表示制御部、及び位置判定部が実現される。
 具体的には、入力制御部51により、第1の撮像画像と第2の撮像画像とを取得する画像取得部が実現される。
 入力制御部51、実物体認識部52、及び範囲判定部55により、実空間にある実物体の全体が第1の画角内に実質的に包含される場合、第1の撮像画像に基づいて実物体を認識し、実物体の全体が第1の画角内に実質的に包含されない場合、第2の撮像画像に基づいて実物体を認識する物体認識部が実現される。
 表示制御部56により、仮想オブジェクトを実空間に対し重畳して表示可能な表示装置を制御する表示制御部が実現される。
 撮像位置判定部53により、第1の撮像画像及び第2の撮像画像の少なくとも一方に基づいて、実空間におけるユーザ20端末の位置を判定する位置判定部が実現される。
 図6は、AR表示制御の一例を示すフローチャートである。図6に示すフローチャートは、入力される撮像画像の各フレームに対して実行される処理である。
 図7~図12は、図6に例示する処理を説明するための模式的な図である。本実施形態では、仮想オブジェクト30に対してユーザ20の手27を翳す動作に応じた、遮蔽処理を例に挙げる。すなわち図7~図12に示す例では、ユーザ20の手27が、操作体として認識される。
 現在のフレームに対する処理が開始される(ステップ101)。撮像位置判定部53により、判定用画像に基づいて、狭角カメラ15及び広角カメラ16の位置が判定される(ステップ102)。
 判定用画像としては、例えば前フレームにて判定用画像として選択された、第1撮像画像及び/又は第2の撮像画像が用いられる。判定用画像として、第1の撮像画像及び第2の撮像画像の両方が選択されることはなく、いずれか一方のみを選択するといった設定も可能である。その場合、判定用画像として、狭角カメラ15により撮像される第1の撮像画像よりも、広角カメラ16により撮像される前記第2の撮像画像を優先的に用いるといったことも可能である。
 判定用画像として、第1の撮像画像及び第2の撮像画像のいずれか一方のみを選択するとことで、2つの画像に対して処理等を実行する場合と比べて、処理の負担を抑制することが可能となる。また広い範囲が撮像された第2の撮像画像を優先的に用いることで、撮像位置の位置を効率よく算出することが可能となる。
 実物体認識部52により、入力制御部51により選択された実物体認識用画像に基づいて、ユーザ20の手27の位置及び形状が認識される(ステップ103)。ここでは、前のフレームにて、入力制御部51により選択された実物体認識用画像に基づいて、ユーザ20の手27の認識が実行される。
 仮想オブジェクト決定部54により、仮想オブジェクト30の位置と形状とが計算される(ステップ104)。
 範囲判定部55により、仮想オブジェクト30の全体が狭角カメラ15の第1の画角25内に実質的に包含されるか否かが判定される(ステップ105)。図7に例示するように、仮想オブジェクト30の全体が狭角カメラ15の第1の画角25内に実質的に包含されない場合には(ステップ105のNO)、範囲判定部55により、ユーザ20の手27が狭角カメラ15の第1の画角25内に実質的に包含されるか否かが判定される(ステップ106)。
 図7に例示するように、ユーザ20の手27が第1の画角25内に実質的に包含される場合は(ステップ106のYES)、物体認識用カメラとして狭角カメラ15が設定される(ステップ107)。これにより、入力制御部51により、物体認識用画像として、第1の撮像画像が選択される。物体認識用画像として選択された第1の撮像画像に基づいて、ユーザ20の手27が認識され、表示制御部56により、遮蔽処理が実行される(ステップ109)。
 図8Aに示すように、認識されたユーザ20の手27の位置及び形状に基づいて、仮想オブジェクト30の一部が非表示化される。すなわちユーザ20の手27が重なる部分が非表示化される。これにより、図8Bに示すように、ユーザ20の手27には仮想オブジェクト30は表示されず、仮想オブジェクト30と手27との前後関係が適正に表現される。
 狭角カメラ15は、撮像可能な範囲が狭い(画角が狭い)代わりに、実物体のサイズに対するカメラ画素数が多くなり、高精度な認識が可能である。すなわち、狭角カメラ15により物体認識を行うことで、遮蔽されるユーザ20の手27の形状はより正確な形状となる。従って、高品質な仮想体験が実現される。
 図9に例示するように、ユーザ20の手27が第1の画角25内に実質的に包含されない場合は(ステップ106のNO)、物体認識用カメラとして広角カメラ16が設定される(ステップ108)。これにより、入力制御部51により、物体認識用画像として、第2の撮像画像が選択される。物体認識用画像として選択された第2の撮像画像に基づいて、ユーザ20の手27が認識され、表示制御部56により、遮蔽処理が実行される(ステップ109)。
 例えばユーザ20の手27が第1の画角25内に実質的に包含されない場合に、狭角カメラ15により撮像される第1の撮像画像に基づいて、ユーザ20の手27を認識するとする。そうすると、ユーザ20の手27の第1の画角25に含まれない部分が認識できなくなってしまう。
 これにより図10Aに例示するように、狭角カメラ15の第1の撮像画像に基づいて認識された部分のみが非表示化され、認識されなかった部分の非表示化が実行されない。この結果、図10Bに例示するように、手27の認識されなかった部分に仮想オブジェクト30が表示されてしまい、仮想オブジェクト30の表示が破綻してしまう。従って、ユーザ20のHMD10を使用する際の体感が低下してしまう。
 本実施形態では、ユーザ20の手27が第1の画角25内に実質的に包含されない場合は、物体認識用カメラとして広角カメラ16が設定される。従って図11Aに示すように、ユーザ20の手27を適正に認識することが可能である。従って、仮想オブジェクト30を適正に非表示化することが可能となる。この結果、図11Bに例示するように、ユーザ20の手27が仮想オブジェクト30の手前に見えるように、仮想オブジェクト30を表示することが可能となる。
 なお、第2の撮像画像の解像度は、第1の撮像画像の解像度よりも相対的に低くなっている。従ってユーザ20の手27の認識精度は若干低くなっており、遮蔽処理の精度も低くなっている。しかしながら、図10Bに例示するように仮想オブジェクト30の表示が破綻することはなく、仮想体験の品質を向上させることが可能となる。
 図12に例示するように、ユーザ20の手27の全体が第1の画角25から外れた場合も、ステップ108にて、物体認識用カメラとして広角カメラ16が設定される。そして、第2の撮像画像に基づいて物体が認識され、仮想オブジェクト30の表示が制御される(ステップ109)。
 ステップ105にて、仮想オブジェクト30の全体が狭角カメラ15の第1の画角25内に実質的に包含される場合には(ステップ105のYES)、物体認識用カメラとして狭角カメラ15が設定される(ステップ109)。これにより、入力制御部51により、物体認識用画像として、第1の撮像画像が選択される。物体認識用画像として選択された第1の撮像画像に基づいて、ユーザ20の手27が認識され、表示制御部56により、遮蔽処理が実行される(ステップ109)。
 例えば図2及び図3に例示するように、仮想オブジェクト30が第1の画角25内に実質的に包含されるとする。この場合、ユーザ20の手27と仮想オブジェクト30が重なる部分は、狭角カメラ15の第1の画角25内に実施的に含まれる。例えば手27の一部分が第1の画角25内に含まれない場合でも、その部分は、第1の画角内25の仮想オブジェクト30とは重ならない。
 従って、狭角カメラ15の第1の撮像画像により認識される部分を用いて、仮想オブジェクト30を適正に非表示化することが可能である。この結果、遮蔽処理を適正に実行することが可能となり、高品質な仮想体験を実現することが可能となる。
 次のフレームに対しても、同じ処理が繰り返される(ステップ110からステップ101)。なお、ステップ109及びステップ110にて実行される物体認識用カメラの設定が、同じフレームの表示制御(ステップ109)に反映させない場合もあり得る。すなわちステップ109の表示制御は、前フレームにて設定された物体認識用カメラの撮像画像に基づいて実行される。
 この場合、1フレーム分にて仮想オブジェクト30の表示が破綻する可能性もある。しかしながら次のフレームでは、適正なAR表示が実現されるので、仮想体験の品質の低下は抑えられる。あるいは破綻が発生したフレームは破棄して、1フレーム分画像を遅延させてもよい。この場合も、仮想体験の品質を高く維持することが可能である。
 以上、本実施形態に係るHMD10では、実物体の全体が狭角カメラ15の第1の画角25に実質的に包含されるか否かに基づいて、実物体の認識に用いる物体認識用画像として、第1の撮像画像及び第2の撮像画像が適宜選択される。すなわち、入力制御部51により、範囲判定部55の範囲判定結果に基づいて、狭角カメラ15及び広角カメラ16のどちらか一方を物体認識用カメラに切替えるスイッチングが実行される。これにより、処理の負荷を抑えつつ、ユーザ20の体感を向上させることが可能となり、高品質な仮想表現を実現し、ユーザの体感を向上させることが可能となる。
 透過型ディスプレイのARグラスやビデオシースルー表示を備えたHMDでは、ユーザへの没入間を高めるためにディスプレイの高画角化(広画角化)がすすめられている。高画角なディスプレイにおいて、実物体への形状に合わせた仮想オブジェクトを重畳するときには、より広角で広い範囲が撮像可能なカメラによって現実物体を認識する必要がある。その一方で、実物体の形状(例えば手の形状)に合わせて正確な仮想オブジェクトを表示するためには、より高解像度のカメラを用いた物体の形状認識結果が必要となる。
 解決として、高画角かつ高解像度のカメラを認識の入力に用いることが考えられるが、認識処理の入力となる画像の解像度が上がることは、処理負荷が高くなるため、多くのシステムで許容されないことも多い。
 そこで、本技術では、ARグラスもしくはHMDにおいて、解像度が大きく異ならない狭角カメラ15と広角カメラ16との二つのカメラを備え、狭角カメラ15と広角カメラ16とから見たユーザ20の手27の位置関係を認識する。認識された位置関係に合わせ狭角カメラ15と広角カメラ16とのどちらを物体認識に利用するかを切替える。
 これにより、ユーザ20の視野の中心付近では、高精度な狭角カメラ15を利用することで、高精度のコンテンツ表示が維持できる。一方で、狭角カメラ15の画角外であるユーザ20の視野中心から外れたところに手がある時には、低精度な広角カメラ16を利用し、大きな形状の破たんを回避することができる。結果として、処理の負荷を抑えつつ、高品質な仮想表現を実現し、ユーザ20の体感を向上させることが可能となる。
 例えば、範囲判定部55は、操作体の全体が第1の画角25内に実質的に包含されると判定した場合、操作体の認識に用いる画像を第2の撮像画像から前記第1の撮像画像に切り替え、操作体の全体が第1の画角25内に実質的に包含されないと判定した場合、操作体の認識に用いる画像を第1の撮像画像から第2の撮像画像に切り替える。
 すなわち、物体認識用画像として、狭角カメラ15により撮像される第1の撮像画像及び広角カメラ16により撮像される第2の撮像画像の両方を使わず、2つの画像を適宜切り替えて用いる。
 また物体認識用画像が切替えられる方法として範囲判定の結果以外にも、実物体認識部52は、実物体の認識に、第2の撮像画像よりも第1の撮像画像を優先的に用いてもよい。例えば、第1の撮像画像の物体認識の信頼度が閾値を超えている等の様々な条件に応じて、実物体の認識に、第2の撮像画像よりも第1の撮像画像を優先的に用いてもよい。
 また表示制御部56は、仮想オブジェクト30と実物体(手27)との位置関係に基づいて、仮想オブジェクト30に対応する操作処理を実行する。操作処理は、仮想オブジェクト30に設定された機能の実行を行う処理である。例えば、仮想オブジェクト30に実物体であるユーザ20の手が触れた場合(座標が一致した場合)、仮想オブジェクト30が移動する等が挙げられる。もちろんこれに限定されず、仮想オブジェクト30と実物体との様々な情報に基づいた操作処理が実行されてもよい。
 本実施形態では、図7及び図9に示すように、狭角カメラ15、広角カメラ16、手27、及び仮想オブジェクト30の位置関係を算出することで、物体認識用カメラの切替を行っている。これにより、狭角カメラ15の画角外にあっても広角カメラ16により物体認識を行うことで仮想オブジェクト30の表示の形状が大きく破綻することを防ぐことが可能となる。
 また、HMD10は、複数の撮像装置を備え、物体認識用カメラの切替を行う。これにより、常に狭角カメラ15及び広角カメラ16の両方の画像を使わないことで、高画角かつ高解像度のカメラによる認識及び狭角カメラ15及び広角カメラ16の両方の画像を用いた認識より処理負荷を低減することが可能となる。またHMD10の装置構成の制約に応じた最適化を図れる。
 すなわち、ユーザ20に注目されやすい視野の中心部である狭角カメラ15の画角内であれば、高精度の認識と表示とを保つことが可能である。これにより、認識処理の処理負荷が高い高画角かつ高解像度のカメラを用いずに、装置構成の制約に応じた最適な処理負荷と認識及び表示とのバランスの良いシステムを構築することが可能である。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 上記の実施形態では、広角カメラ16の第2の画角26は、狭角カメラ15の第1の画角25よりも広く、第1の画角25の全体を包含するように設定された。これに限定されず、広角カメラ16の第2の画角26は、第1の画角25よりも広く、第1の画角25の少なくとも一部を含むように設定されてもよい。
 また上記の実施形態では、範囲判定部55は、仮想オブジェクト30及び操作体(手27)の全体が狭角カメラ15の第1の画角に実質的に包含されるか否かが判定され、判定結果に基づいて、狭角カメラ15及び広角カメラ16のどちらか一方を物体認識用カメラに切替えるスイッチングが実行された。
 これに限定されず、入力制御部51は、操作体とHMD10との距離の変化に基づいて、操作体の認識に用いる画像を狭角カメラ15の撮像画像と広角カメラ16の撮像画像との間で切り替えてもよい。例えば、入力制御部51は、操作体とHMD10とが近づいた場合に、操作体の認識に用いる画像を狭角カメラ15の撮像画像から広角カメラ16の撮像画像に切替える。
 上記の実施形態では、図6に示すように、仮想オブジェクト30及び実物体(手27)が第1の画角25内かが判定され、物体認識用カメラが設定された。これに限定されず、例えば仮想オブジェクト30のみが第1の画角25内かが判定されてもよい。すなわち、ステップ105のYES又はNOにより、物体認識用カメラの設定が切替えられてもよい。
 また例えば、以下の物体認識用カメラを設定する範囲判定部55の判定方法が適宜組み合わされてもよい。また各々に優先順位等が設定されてもよい。
 実物体の全体が狭角カメラ15の第1の画角25内に実質的に包含される。
 実物体の全体が狭角カメラ15の第1の画角25内に実質的に包含されない。
 仮想オブジェクトの全体が狭角カメラ15の第1の画角25内に実質的に包含される。
 仮想オブジェクトの全体が狭角カメラ15の第1の画角25内に実質的に包含されない。
 上記の実施形態では、HMD10は透過型ディスプレイを有したARグラス等のウェアラブル端末が用いられた。これに限定されず、非透過型のHMDやプロジェクタ等においても本技術は適用可能である。
 図13は、他の実施形態に係るHMD300を示す模式図である。図13AはHMD30の外観を模式的に示す斜視図であり、図13BはHMD300を分解した様子を模式的に示す斜視図である。
 HMD300は、基体部301と、装着バンド部302と、ヘッドフォン部303と、広角カメラ304と、狭角カメラ305と、ディスプレイユニット306と、カバー部307とを有する。
 基体部301は、ユーザの左右の眼の前方に配置される部材であり、ユーザの前頭部と当接される前頭支持部308が設けられる。
 装着バンド部302は、ユーザの頭部に装着される。図11に示すように、装着バンド部302は、側頭バンド309と、頭頂バンド310とを有する。側頭バンド309は、基体部301に接続され、側頭部から後頭部にかけてユーザの頭部を囲むように装着される。頭頂バンド310は、側頭バンド309に接続され、側頭部から頭頂部にかけてユーザの頭部を囲むように装着される。
 ヘッドフォン部303は、基体部301に接続され、ユーザの左右の耳を覆うように配置される。ヘッドフォン部303には、左用及び右用のスピーカが設けられる。ヘッドフォン部303の位置は、手動又は自動により制御可能となっている。そのための構成は限定されず、任意の構成が採用されてよい。
 広角カメラ304は、画角の広い広角レンズが用いられ、基体部301の外側(ユーザ20とは反対側)に向けて配置される。広角カメラ304は、ユーザの視野に含まれる実空間を撮像することが可能である。
 狭角カメラ305は、画角の狭い狭角レンズが用いられ、基体部301の外側(ユーザ20とは反対側)に向けて配置される。狭角カメラ305は、ユーザの視野に含まれる実空間を撮像することが可能である。
 ディスプレイユニット306は、基体部301に挿入され、ユーザの眼の前方に配置される。ディスプレイユニット306の内部には、ディスプレイが配置される。ディスプレイとしては、例えば液晶、EL(Electro-Luminescence)等を用いた任意の表示デバイスが用いられてよい。またディスプレイユニット306には、ディスプレイにより表示された画像をユーザの左右の眼に導くレンズ系(図示は省略)が配置される。
 カバー部307は、基体部301に取付けられ、ディスプレイユニット306を覆うように構成される。このように構成されたHMD300は、ユーザの視野を覆うように構成された没入型のヘッドマウントディスプレイとして機能する。例えばHMD300により、3次元的な仮想空間が表示される。ユーザはHMD300を装着することで、仮想現実(VR)等を体験することが可能となる。
 また仮想オブジェクトを表示する表示装置と、狭角カメラ15となる第1の撮像装置と、広角カメラ16となる第2の撮像装置とが各々独立した装置が本技術に係る情報処理装置を実現してもよい。
 また上記の実施形態では、手27を実物体として位置と形状が算出された。これに限定されず、コントローラや道具等の非変形物体が用いられてもよい。また非変形物体の場合、形状が一定なのでHMD10は、実物体の形状の認識を行わなくてもよい。
 上記の実施形態では、狭角カメラ15及び広角カメラ16等により実物体の位置や姿勢の認識が行われた。これに限定されず、実物体の位置姿勢認識等が可能なARマーカ等のマーカ認識を可能とする構成を有してもよい。また例えば、ユーザ20の手やコントローラの形状をデータベース等に記憶させ、マッチング処理が行われてもよい。
 これ以外にも、実物体の位置や姿勢の認識を行う方法は、GPS(Global Positioning System)等のセンサ群を用いて認識が行われてもよい。もちろんこれに限定されず、1つの画素から距離情報を得て、実物体との距離を測れるデプスセンサ等を有してもよい。
 また、HMD10に搭載されたコンピュータとネットワーク等を介して通信可能な他のコンピュータ(クラウドシステム)とが連動することで、本技術に係る情報処理方法、及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお、本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば、撮像画像の取得、実物体の認識、及び撮像画像の切替等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部又は全部を他のコンピュータに実行させその結果を取得することを含む。
 各図面を参照して説明した情報処理装置、実物体範囲判定部、HMD10の制御フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得する画像取得部と、
 実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識する物体認識部と
 を備える情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記実物体は、前記ユーザにより移動可能な操作体である
 情報処理装置。
(3)(2)に記載の情報処理装置であって、さらに、
 仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備し、
 前記物体認識部は、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記操作体を認識する
 情報処理装置。
(4)(3)に記載の情報処理装置であって、
 前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御する
 情報処理装置。
(5)(3)又は(4)に記載の情報処理装置であって、
 前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行する
 情報処理装置。
(6)(3)から(5)のうちいずれか1つに記載の情報処理装置であって、
 前記ユーザから見て、前記第1の画角の全体が前記表示装置の表示領域に包含される
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記ユーザから見て、前記表示装置の表示領域の全体が前記第2の画角に包含される
 情報処理装置。
(8)(3)から(7)のうちいずれか1つに記載の情報処理装置であって、
 前記物体認識部は、前記操作体の全体が前記第1の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第2の撮像画像から前記第1の撮像画像に切り替え、前記操作体の全体が前記第1の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替える
 情報処理装置。
(9)(3)から(8)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記表示装置と、
 前記第1の撮像装置と、
 前記第2の撮像装置と
 を具備する情報処理装置。
(10)(2)から(9)のうちいずれか1つに記載の情報処理装置であって、
 前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第1の撮像画像と前記第2の撮像画像との間で切り替える
 情報処理装置。
(11)(10)に記載の情報処理装置であって、
 前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替える
 情報処理装置。
(12)(2)から(11)のうちいずれか1つに記載の情報処理装置であって、
 前記操作体は、前記ユーザの手である
 情報処理装置。
(13)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、さらに、
 前記第1の撮像画像又は前記第2の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備する
 情報処理装置。
(14)(13)に記載の情報処理装置であって、
 前記位置判定部は、前記ユーザ端末の位置の判定に、前記第1の撮像画像よりも前記第2の撮像画像を優先的に用い、
 前記物体認識部は、前記実物体の認識に、前記第2の撮像画像よりも前記第1の撮像画像を優先的に用いる
 情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の撮像画像の単位面積あたりの解像度は、前記第2の撮像画像の単位面積あたりの解像度よりも高い
 情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
 前記ユーザ端末は、ヘッドマウントディスプレイである
 情報処理装置。
(17)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
 前記ユーザ端末は、スマートフォン又はタブレット端末である
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の撮像装置又は前記第2の撮像装置の少なくとも一方は、ステレオカメラである
 情報処理装置。
(19)ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得し、
 実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識する
 ことをコンピュータシステムが実行する情報処理方法。
(20)ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得するステップと、
 実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識するステップと
 をコンピュータシステムに実行させるプログラム。
 10…HMD
 15…狭角カメラ
 16…広角カメラ
 24…表示領域
 25…第1の画角
 26…第2の画角
 30…仮想オブジェクト
 50…コントローラ
 51…入力制御部
 52…実物体認識部
 53…撮像位置判定部
 54…仮想オブジェクト決定部
 55…範囲判定部
 56…表示制御部

Claims (20)

  1.  ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得する画像取得部と、
     実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識する物体認識部と
     を備える情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記実物体は、前記ユーザにより移動可能な操作体である
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、さらに、
     仮想オブジェクトを前記実空間に対し重畳して表示可能な表示装置を制御する表示制御部を具備し、
     前記物体認識部は、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記操作体を認識し、前記仮想オブジェクトの全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記操作体を認識する
     情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトの少なくとも一部を遮蔽するように前記表示装置を制御する
     情報処理装置。
  5.  請求項3に記載の情報処理装置であって、
     前記表示制御部は、前記仮想オブジェクトと前記操作体との位置関係に基づいて、前記仮想オブジェクトに対応する操作処理を実行する
     情報処理装置。
  6.  請求項3に記載の情報処理装置であって、
     前記ユーザから見て、前記第1の画角の全体が前記表示装置の表示領域に包含される
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記ユーザから見て、前記表示装置の表示領域の全体が前記第2の画角に包含される
     情報処理装置。
  8.  請求項3に記載の情報処理装置であって、
     前記物体認識部は、前記操作体の全体が前記第1の画角内に実質的に包含されると判定した場合、前記操作体の認識に用いる画像を前記第2の撮像画像から前記第1の撮像画像に切り替え、前記操作体の全体が前記第1の画角内に実質的に包含されないと判定した場合、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替える
     情報処理装置。
  9.  請求項3に記載の情報処理装置であって、さらに、
     前記表示装置と、
     前記第1の撮像装置と、
     前記第2の撮像装置と
     を具備する情報処理装置。
  10.  請求項2に記載の情報処理装置であって、
     前記物体認識部は、前記操作体と前記ユーザ端末との距離の変化に基づいて、前記操作体の認識に用いる画像を前記第1の撮像画像と前記第2の撮像画像との間で切り替える
     情報処理装置。
  11.  請求項10に記載の情報処理装置であって、
     前記物体認識部は、前記操作体と前記ユーザ端末とが近付いた場合に、前記操作体の認識に用いる画像を前記第1の撮像画像から前記第2の撮像画像に切り替える
     情報処理装置。
  12.  請求項2に記載の情報処理装置であって、
     前記操作体は、前記ユーザの手である
     情報処理装置。
  13.  請求項1に記載の情報処理装置であって、さらに、
     前記第1の撮像画像又は前記第2の撮像画像の少なくとも一方に基づいて、前記実空間における前記ユーザ端末の位置を判定する位置判定部を具備する
     情報処理装置。
  14.  請求項13に記載の情報処理装置であって、
     前記位置判定部は、前記ユーザ端末の位置の判定に、前記第1の撮像画像よりも前記第2の撮像画像を優先的に用い、
     前記物体認識部は、前記実物体の認識に、前記第2の撮像画像よりも前記第1の撮像画像を優先的に用いる
     情報処理装置。
  15.  請求項1に記載の情報処理装置であって、
     前記第1の撮像画像の単位面積あたりの解像度は、前記第2の撮像画像の単位面積あたりの解像度よりも高い
     情報処理装置。
  16.  請求項1に記載の情報処理装置であって、
     前記ユーザ端末は、ヘッドマウントディスプレイである
     情報処理装置。
  17.  請求項1に記載の情報処理装置であって、
     前記ユーザ端末は、スマートフォン又はタブレット端末である
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記第1の撮像装置又は前記第2の撮像装置の少なくとも一方は、ステレオカメラである
     情報処理装置。
  19.  ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得し、
     実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  ユーザにより携帯可能又は装着可能なユーザ端末に設けられた第1の画角を有する第1の撮像装置により取得された第1の撮像画像と、前記ユーザ端末に設けられた前記第1の画角よりも広くかつ前記第1の画角の少なくとも一部を含む第2の画角を有する第2の撮像装置により取得された第2の撮像画像とを取得するステップと、
     実空間にある実物体の全体が前記第1の画角内に実質的に包含される場合、前記第1の撮像画像に基づいて前記実物体を認識し、前記実物体の全体が前記第1の画角内に実質的に包含されない場合、前記第2の撮像画像に基づいて前記実物体を認識するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2019/036891 2018-10-04 2019-09-20 情報処理装置、情報処理方法、及びプログラム WO2020071144A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-188904 2018-10-04
JP2018188904 2018-10-04

Publications (1)

Publication Number Publication Date
WO2020071144A1 true WO2020071144A1 (ja) 2020-04-09

Family

ID=70055196

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/036891 WO2020071144A1 (ja) 2018-10-04 2019-09-20 情報処理装置、情報処理方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2020071144A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6976395B1 (ja) * 2020-09-24 2021-12-08 Kddi株式会社 配信装置、配信システム、配信方法及び配信プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114905A (ja) * 2013-12-12 2015-06-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2015195489A (ja) * 2014-03-31 2015-11-05 パナソニックIpマネジメント株式会社 衝突防止システム、衝突防止方法およびコンピュータプログラム
JP2017204674A (ja) * 2016-05-09 2017-11-16 株式会社ソニー・インタラクティブエンタテインメント 撮像装置、ヘッドマウントディスプレイ、情報処理システム、および情報処理方法
JP2018033111A (ja) * 2016-08-26 2018-03-01 オリンパス株式会社 画像観察装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015114905A (ja) * 2013-12-12 2015-06-22 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2015195489A (ja) * 2014-03-31 2015-11-05 パナソニックIpマネジメント株式会社 衝突防止システム、衝突防止方法およびコンピュータプログラム
JP2017204674A (ja) * 2016-05-09 2017-11-16 株式会社ソニー・インタラクティブエンタテインメント 撮像装置、ヘッドマウントディスプレイ、情報処理システム、および情報処理方法
JP2018033111A (ja) * 2016-08-26 2018-03-01 オリンパス株式会社 画像観察装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6976395B1 (ja) * 2020-09-24 2021-12-08 Kddi株式会社 配信装置、配信システム、配信方法及び配信プログラム
JP2022053334A (ja) * 2020-09-24 2022-04-05 Kddi株式会社 配信装置、配信システム、配信方法及び配信プログラム

Similar Documents

Publication Publication Date Title
US12008151B2 (en) Tracking and drift correction
US10198870B2 (en) Information processing apparatus, information processing system, and information processing method
US9898868B2 (en) Display device, method of controlling the same, and program
US10001857B2 (en) Display apparatus and method of controlling display apparatus
JP6465672B2 (ja) 情報処理装置および情報処理方法
US10427033B2 (en) Display control apparatus and display control method
US10579109B2 (en) Control device and control method
US20200202161A1 (en) Information processing apparatus, information processing method, and program
US10277814B2 (en) Display control method and system for executing the display control method
JP2016224086A (ja) 表示装置、表示装置の制御方法、及び、プログラム
KR20130034125A (ko) 증강현실 기능을 구비한 안경형 모니터
US11238616B1 (en) Estimation of spatial relationships between sensors of a multi-sensor device
JP6494305B2 (ja) 情報処理装置、表示装置、および情報処理方法
JP7238456B2 (ja) 表示システム、情報処理装置の制御プログラム、及び情報処理装置の制御方法
CN112840379A (zh) 信息处理装置、信息处理方法及程序
WO2020071144A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2020105269A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6740613B2 (ja) 表示装置、表示装置の制御方法、及び、プログラム
WO2020044949A1 (ja) 情報処理装置、情報処理方法、及びプログラム
EP3702008A1 (en) Displaying a viewport of a virtual space
US11086441B2 (en) Information processing apparatus, method for controlling information processing apparatus, and control program for information processing apparatus
US20200348749A1 (en) Information processing apparatus, information processing method, and program
JP2017134630A (ja) 表示装置、表示装置の制御方法、及び、プログラム
WO2024057783A1 (ja) 360度画像視点位置同定部を備える情報処理装置
US11954269B2 (en) Information processing apparatus, information processing method, and program for generating location data

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19868780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19868780

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP