WO2020080107A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2020080107A1
WO2020080107A1 PCT/JP2019/038915 JP2019038915W WO2020080107A1 WO 2020080107 A1 WO2020080107 A1 WO 2020080107A1 JP 2019038915 W JP2019038915 W JP 2019038915W WO 2020080107 A1 WO2020080107 A1 WO 2020080107A1
Authority
WO
WIPO (PCT)
Prior art keywords
real object
user
image
information processing
contact
Prior art date
Application number
PCT/JP2019/038915
Other languages
English (en)
French (fr)
Inventor
石川 毅
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2020553037A priority Critical patent/JP7459798B2/ja
Priority to CN201980066388.6A priority patent/CN112840379A/zh
Priority to US17/283,472 priority patent/US20220012922A1/en
Publication of WO2020080107A1 publication Critical patent/WO2020080107A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program that provide a virtual experience.
  • Patent Document 1 describes a system that provides a virtual experience using images in the real space.
  • the wearable display and wide-angle camera worn by the first user are used to generate an image representing the field of view of the first user.
  • This image is presented to the second user.
  • the second user can input virtual objects such as text and icons in the presented image.
  • the input virtual object is presented to the first user.
  • an object of the present technology is to provide an information processing device, an information processing method, and a program that can seamlessly connect a real space and a virtual space.
  • the contact motion of the user touching the real object is detected, and the target area including the real object is detected according to the contact motion.
  • the partial image corresponding to this target area is extracted from the captured image of the real space in which the real object exists, and a virtual image of the real object is generated.
  • the display control of the virtual image is executed according to the contact operation of the user. Accordingly, it is possible to easily display the virtual image in which the real object is captured, and it is possible to seamlessly connect the real space and the virtual space.
  • the display control unit may generate the virtual image representing the real object that is not shielded by a shield. As a result, it is possible to bring a clear image of a real object that is not shielded by a shield into a virtual space, and to seamlessly connect the real space and the virtual space.
  • the display control unit may generate the partial image from the captured image in which the shielding object is not included in the target region among the one or more captured images. This makes it possible to easily bring a virtual image representing a real object without occlusion into the virtual space. As a result, it becomes possible to seamlessly connect the real space and the virtual space.
  • the acquisition unit may acquire the one or more captured images from at least one of a photographing device that photographs the real space and a database that stores the output of the photographing device. This makes it possible to easily generate a highly accurate virtual image representing a real object without occlusion, for example.
  • the contact operation may include an operation in which the user brings his or her hand close to the real object.
  • the motion detection unit may determine whether or not the contact motion state is a pre-contact state in which the contact of the user's hand with the real object is predicted.
  • the acquisition unit may control the imaging device to acquire the one or more captured images when it is determined that the state of the contact operation is the pre-contact state. As a result, for example, it becomes possible to capture an image of the real object immediately before the user touches it. This makes it possible to sufficiently improve the accuracy of the virtual image.
  • the acquisition unit may increase the imaging resolution of the imaging device when the contact operation state is determined to be the pre-contact state. Thereby, for example, a virtual image with high resolution can be generated.
  • the motion detection unit may detect a contact position between the real object and the hand of the user.
  • the area detection unit may detect the target area based on the detected contact position.
  • the area detection unit may detect, as the target area, a boundary of the real object including the contact position. As a result, for example, it becomes possible to accurately separate the real object and the other area, and it is possible to generate a highly accurate virtual image.
  • the information processing apparatus may further include a line-of-sight detection unit that detects the line-of-sight direction of the user.
  • the area detection unit may detect the boundary of the real object based on the line-of-sight direction of the user.
  • the line-of-sight detection unit may detect a gaze position based on the line-of-sight direction of the user.
  • the area detection unit may detect, as the target area, a boundary of the real object including the contact position and the gaze position.
  • the area detection unit may detect a boundary of the real object based on at least one of a shadow, a size, and a shape of the real object. As a result, for example, it becomes possible to accurately detect the boundary of the real object regardless of the situation of the real object. As a result, it is possible to sufficiently improve the usability of the device.
  • the motion detection unit may detect a fingertip position of the user's hand.
  • the area detection unit may detect the target area based on a trajectory of the fingertip position accompanying the movement of the fingertip position. This makes it possible to easily set the capture range, for example.
  • the display control unit may superimpose and display an area image representing the target area on the real object. As a result, for example, it becomes possible to confirm the target area that is the capture range, and it is possible to sufficiently avoid the situation in which an unnecessary virtual image is generated.
  • the region image may be displayed so that at least one of shape, size, and position can be edited.
  • the area detection unit may change the target area based on the edited area image.
  • the capture range can be set with high accuracy, and, for example, a desired virtual image of a real object can be easily generated.
  • the motion detection unit may detect a contact position between the real object and the hand of the user.
  • the display control unit may control the display of the virtual image according to the detected contact position. Thereby, for example, it is possible to display the virtual image according to the contact position without a feeling of strangeness, and it is possible to seamlessly connect the real space and the virtual space.
  • the motion detection unit may detect a gesture of the user's hand touching the real object.
  • the display control unit may control the display of the virtual image according to the detected gesture of the user's hand. This makes it possible to switch the display method of the virtual image according to the gesture of the hand, for example, and it is possible to provide an easy-to-use interface.
  • the virtual image may be at least one of a two-dimensional image and a three-dimensional image of the real object.
  • An information processing method is an information processing method executed by a computer system, and includes acquiring one or more captured images of a real space.
  • a contact motion which is a series of motions when the user contacts the real object in the real space, is detected.
  • a target area including the real object is detected according to the detected contact motion.
  • a partial image corresponding to the target area is extracted from the one or more captured images to generate a virtual image of the real object, and display of the virtual image is controlled according to the contact operation.
  • the user 1 wearing the HMD 100 can see the actual scenery and at the same time see the image displayed on the transmissive display. That is, by using the HMD 100, it is possible to superimpose and display a virtual image or the like on a real space (real space) around the user 1. This allows the user 1 to experience Augmented Reality (AR) and the like.
  • AR Augmented Reality
  • FIG. 1A is a schematic diagram showing an example of a virtual space (AR space) viewed by the user 1.
  • a user 1a wearing the HMD 100 is sitting on the chair on the left side of FIG. 1A.
  • On the display of the HMD 100 for example, an image of another user 1b sitting on the opposite side of the desk is displayed.
  • the user 1a wearing the HMD 100 can experience an augmented reality as if they were sitting face-to-face with another user 1b.
  • the portion indicated by the solid line in the figure (the chair on which the user 1a is sitting, the table, the document 2 on the table, etc.) is the real object 3 (real object) arranged in the real space where the user 1a actually exists. ). Further, the portion indicated by the dotted line in the figure (the other user 1b and its chair, etc.) is the image displayed on the transmissive display, and becomes the virtual image 4 in the AR space.
  • the virtual image 4 is an image for displaying various objects (virtual objects) displayed in the virtual space, for example.
  • the HMD 100 even when the other user 1b is in a remote place, for example, it becomes possible to naturally carry out conversations with gestures and the like, and realize good communication. It becomes possible.
  • the present technology is applicable even when the user 1a and the other user 1b are in the same space.
  • the HMD 100 has a capture function of generating a virtual image 4 of the real object 3 in the real space and displaying it in the AR space. For example, it is assumed that the user 1a wearing the HMD 100 reaches for the document 2 on the table and touches the document 2. In this case, the HMD 100 generates the virtual image 4 of the document 2 touched by the user 1a.
  • the document 2 is an example of the real object 3 in the real space.
  • FIG. 1B schematically illustrates an example of a contact operation in which the user 1 a touches the document 2.
  • the area of the document 2 (boundary of the document 2) to be captured is detected.
  • a virtual image 4 (hatched area in the drawing) representing the document 2 touched by the user 1a is generated and displayed on the display (AR space) of the HMD 100.
  • the method of detecting the capture target area, the method of generating the virtual image 4, and the like will be described in detail later.
  • the captured document 2 (virtual image 4) is displayed as if it was turned over on the actual document 2.
  • the generated virtual image 4 is displayed superimposed on the actual document 2 as if the actual document 2 were turned over.
  • the user 1a does not need to actually turn over the document 2 and can generate the virtual image 4 simply by performing a gesture such as turning over the document 2.
  • the real object 3 (document 2) to be captured is designated by the hand of the user 1a, and the target virtual image 4 is generated.
  • the captured virtual image 4 is displayed by being superimposed on the real object target.
  • the virtual image 4 of the document 2 displayed in the AR space can be freely displayed in the AR space according to various gestures of the user 1a such as grasping, deforming, and moving the virtual image 4, for example. is there.
  • FIG. 1C shows a situation in which the user 1a grabs a virtual document 2 (virtual image 4) and hands it to another user 1b at a remote place displayed on the display of the HMD 100.
  • the virtual image 4 for example, such communication can be realized.
  • the real object 3 existing in the real space is simply captured and presented in the virtual space (virtual world). That is, it can be said that the HMD 100 has a function of simply capturing the real space. As a result, it is possible to easily bring an object in the real space into the virtual space such as the AR space and seamlessly connect the real space and the virtual space.
  • the configuration of the HMD 100 will be specifically described.
  • FIG. 2 is a perspective view schematically showing the external appearance of the HMD 100 according to the embodiment of the present technology.
  • FIG. 3 is a block diagram showing a configuration example of the HMD 100 shown in FIG.
  • the frame 10 has an eyeglass-like shape and has a rim portion 15 and a temple portion 16.
  • the rim portion 15 is a portion arranged in front of the left and right eyes of the user 1, and supports the left-eye lens 11a and the right-eye lens 11b, respectively.
  • the temple portion 16 extends rearward from both ends of the rim portion 15 toward both ears of the user 1, and the tips thereof are attached to both ears.
  • the rim portion 15 and the temple portion 16 are formed of a material such as synthetic resin or metal.
  • the left-eye lens 11a and the right-eye lens 11b are arranged in front of the left and right eyes of the user so as to cover at least a part of the visual field of the user.
  • Each lens is typically designed to correct the user's vision.
  • the present invention is not limited to this, and so-called abrupt lens may be used.
  • the left-eye display 12a and the right-eye display 12b are transmissive displays, and are arranged so as to cover a partial area of the left-eye and right-eye lenses 11a and 11b, respectively. That is, the left-eye and right-eye lenses 11a and 11b are arranged in front of the left and right eyes of the user, respectively.
  • the left eye and right eye displays 12a and 12b display left eye and right eye images and the like, respectively.
  • a virtual display object (virtual object) such as the virtual image 4 is displayed on each of the displays 12a and 12b. Therefore, the user 1 wearing the HMD 100 will see the scenery (real object 3 etc.) of the real space on which the virtual images 4 displayed on the respective displays 12a and 12b are superimposed.
  • left-eye and right-eye displays 12a and 12b for example, transmissive organic EL displays and LCD (Liquid Crystal Display) displays are used.
  • the left-eye and right-eye displays 12a and 12b are not limited to specific configurations. For example, a method of projecting and displaying an image on a transparent screen, a method of displaying an image by using a prism, or the like can be used. Any type of transmissive display may be used as appropriate.
  • the left-eye camera 13a and the right-eye camera 13b are appropriately installed in the frame 10 so that the left eye and the right eye of the user 1 can be imaged. For example, it is possible to detect the line of sight of the user 1 and the gazing point of the user 1 based on the images of the left and right eyes captured by the left-eye and right-eye cameras 13a and 13b. is there.
  • CMOS Complementary Metal-Oxide Semiconductor
  • CCD Charge Coupled Device
  • an infrared camera equipped with infrared illumination such as an infrared LED may be used.
  • the left eye lens 11a and the right eye lens 11b may both be referred to as the lens 11, and the left eye display 12a and the right eye display 12b may both be referred to as the transmissive display 12. Further, both the left-eye camera 13a and the right-eye camera 13b may be described as the inward camera 13.
  • the outward facing camera 14 is arranged at the center of the frame 10 (rim portion 15) toward the outside (opposite side to the user 1).
  • the outward camera 14 captures a real space around the user 1 and outputs a captured image of the real space.
  • the shooting range of the outward camera 14 is set to be, for example, substantially the same as the visual field of the user 1 or wider than the visual field of the user 1. That is, it can be said that the outward camera 14 is capturing the field of view of the user 1.
  • the outward camera 14 corresponds to a photographing device.
  • the outward camera 14 for example, a digital camera equipped with an image sensor such as a CMOS sensor or a CCD sensor is used. Further, for example, a stereo camera capable of detecting depth information of the real space, a camera including a TOF (Time of Flight) sensor, or the like may be used as the outward camera 14.
  • the specific configuration of the outward camera 14 is not limited, and any camera that can capture a real space with desired accuracy may be used as the outward camera 14, for example.
  • the HMD 100 further includes a sensor unit 17, a communication unit 18, a storage unit 20, and a controller 30.
  • the sensor unit 17 includes various sensor elements that detect the state of the surrounding environment, the state of the HMD 100, the state of the user 1, and the like.
  • a distance sensor (Depth sensor) that measures the distance to the target is mounted as the sensor element.
  • the stereo camera described above is an example of a distance sensor.
  • a LiDAR sensor, various radar sensors, etc. may be used as the distance sensor.
  • a 9-axis sensor including a 3-axis acceleration sensor, a 3-axis gyro sensor, and a 3-axis compass sensor, a GPS sensor that acquires information on the current position of the HMD 100, or the like may be used.
  • a biosensor heartbeat
  • an electroencephalogram sensor a myoelectric sensor
  • a pulse sensor that detects biometric information of the user 1 may be used.
  • the sensor unit 17 also includes a microphone that detects the user's voice and surrounding sound information. For example, the voice uttered by the user is appropriately detected. Thereby, for example, the user can have an AR experience while making a voice call and can perform an operation input of the HMD 100 using voice input.
  • the sensor element or the like provided as the sensor unit 17 is not limited.
  • the communication unit 18 is a module for executing network communication, short-range wireless communication, and the like with other devices.
  • a wireless LAN module such as WiFi or a communication module such as Bluetooth (registered trademark) is provided.
  • the storage unit 20 is a non-volatile storage device, and for example, an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like is used.
  • an HDD Hard Disk Drive
  • SSD Solid State Drive
  • the captured image database 21 is stored in the storage unit 20.
  • the captured image database 21 is a database that stores images in the real space captured by the outward facing camera 14, for example. Further, an image or the like in the real space captured by another camera or the like different from the outward camera 14 may be stored in the captured image database 21.
  • the photographed image database 21 for example, photographed images in the real space and photographed information regarding the photographing situation of each photographed image are stored in association with each other.
  • the shooting information for example, a shooting time when shooting a shot image, a position of the HMD 100 at the time of shooting, a shooting direction (a posture of the HMD 100, and the like), a shooting resolution, a shooting magnification, an exposure time, and the like are stored.
  • the specific configuration of the photographed image database 21 is not limited.
  • the photographed image database corresponds to a database in which the output of the photographing device is stored.
  • the storage unit 20 also stores a control program 22 for controlling the overall operation of the HMD 100.
  • the method of installing the captured image database 21 and the control program 22 in the HMD 100 is not limited.
  • the controller 30 corresponds to the information processing apparatus according to the present embodiment, and controls the operation of each block included in the HMD 100.
  • the controller 30 has a hardware configuration necessary for a computer, such as a CPU and a memory (RAM, ROM). Various processes are executed by the CPU loading the control program 22 stored in the storage unit 20 into the RAM and executing the control program 22.
  • a device such as a PLD (Programmable Logic Device) such as an FPGA (Field Programmable Gate Array) or other ASIC (Application Specific Integrated Circuit) may be used.
  • PLD Processable Logic Device
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • the CPU of the controller 30 executes the program according to the present embodiment so that the image acquisition unit 31, the contact detection unit 32, the line-of-sight detection unit 33, the area detection unit 34, and the AR display unit 35 are functional blocks. Is realized. The information processing method according to the present embodiment is executed by these functional blocks. Note that dedicated hardware such as an IC (integrated circuit) may be used as appropriate to implement each functional block.
  • IC integrated circuit
  • the image acquisition unit 31 acquires one or more captured images of the real space.
  • the image acquisition unit 31 appropriately controls the outward camera 14 to read a captured image captured by the outward camera 14.
  • the image acquisition unit 31 can acquire the image captured in real time.
  • the image acquisition unit 31 controls the outward-facing camera 14 to perform shooting for capturing the real object 3. Let it start. Further, in the case where the outward camera 14 is always performing photographing, the photographing parameter of the outward camera 14 is changed and the photographing is switched to a higher resolution image. That is, the image acquisition unit 31 controls the outward facing camera 14 so as to switch to a shooting mode for capturing the real object 3. This point will be described later in detail with reference to FIG.
  • the image acquisition unit 31 appropriately accesses the storage unit 20 and reads the captured image 40 stored in the captured image database 21. That is, the image acquisition unit 31 can acquire a captured image captured in the past by appropriately referring to the captured image database 21.
  • the image acquisition unit 31 selects one or more captured images from at least one of the outward camera 14 that captures the real space and the captured image database 21 that stores the output of the outward camera 14. To get.
  • the acquired captured image is appropriately supplied to other functional blocks, for example.
  • the captured image acquired from the outward camera 14 is appropriately stored in the captured image database 21.
  • the image acquisition unit 31 corresponds to the acquisition unit.
  • the contact detection unit 32 detects a contact motion, which is a series of motions when the user 1 contacts the real object 3 in the real space.
  • a contact motion which is a series of motions when the user 1 contacts the real object 3 in the real space.
  • To detect the contact operation for example, depth information detected by a distance sensor or the like mounted as the sensor unit 17, an image of the field of view of the user 1 captured by the outward camera 14 (captured image), or the like is used.
  • the contact motion is a series of motions (gestures) performed when the user 1 touches the real object 3, and typically, the user's hand (finger) touches the real object 3 so that the user touches the real object 3.
  • the action (hand gesture) of the user's finger when the hand of the user 1 touches the real object 3 is a contact action.
  • a hand gesture such as pinching, turning, grasping, tapping, or shifting the document 2 (real object 3) is included in the contact operation.
  • the hand gesture is not limited to a gesture performed while touching the real object 3.
  • a hand gesture performed while the user 1 is not touching the real object 3 such as spreading or narrowing a finger to pinch the real object 3 is also a contact operation.
  • the contact operation includes an operation in which the user 1 makes the hand approach the real object 3. That is, in order to touch the real object 3, the contact operation includes an operation in which the user 1 reaches for the target real object 3.
  • the operation of the user 1 moving his or her hand to approach the document 2 (real object 3) (approaching operation) is a contact operation. Therefore, it can be said that the contact detection unit 32 detects, as the contact motion of the user 1, a series of motions performed when the user contacts the real object 3, such as an approach motion and a hand gesture at the time of contact.
  • the contact detection unit 32 determines the state of the contact operation. For example, the contact detection unit determines whether or not the state of the contact operation is the pre-contact state in which the contact of the hand of the user 1 with the real object 3 is predicted. That is, it is determined whether or not the hand of the user 1 is likely to contact the real object 3. For example, when the distance between the finger of the user 1 and the surrounding real object 3 is smaller than a certain threshold value, etc., it is determined that the hand of the user 1 is likely to contact the real object 3, and the contact motion of the user 1 makes contact. It is determined to be in the previous state (see step 102 in FIG. 4). In this case, a state before the contact is a state in which the distance between the finger and the real object 3 is smaller than the threshold and the finger is not in contact with the real object 3.
  • the contact detection unit 32 also determines whether or not the state of the contact operation is the contact state in which the hand of the user 1 and the real object 3 are in contact with each other. That is, the contact detection unit 32 detects the contact of the finger of the user 1 with the surface (flat surface) of the real object 3.
  • the contact detection unit 32 detects the contact position P between the hand of the user 1 and the real object 3.
  • the contact position P for example, coordinates of a position where the hand of the user 1 and the real object 3 contact in a predetermined coordinate system set in the HMD 100 are detected.
  • the contact detection unit 32 appropriately measures the position of the hand of the user 1 and the position of the surrounding real object 3 by using a distance sensor or the like attached to the HMD 100. Based on the measurement result at each position, for example, it is determined whether or not it is in the pre-contact state, and it is detected whether or not the hand of the user 1 is likely to contact the real object 3. Further, for example, it is determined whether or not it is in the contact state, and it is detected whether or not the hand contacts the real object 3.
  • a prediction process based on machine learning or a prediction process based on the fact that the distance between the hand of the user 1 and the real object 3 is shortened is used to detect whether or not the contact is likely to occur.
  • a process of predicting contact between the user 1 and the real object 3 may be executed based on the moving direction, moving speed, and the like of the hand of the user 1.
  • the contact detection unit 32 detects the hand gesture of the user 1 based on the captured image captured by the outward facing camera 14. For example, a method of detecting a gesture by detecting an area of a finger in a captured image, a method of detecting a fingertip of each finger to detect a gesture, or the like is appropriately used. In addition, a hand gesture detection process using machine learning or the like may be executed. In addition, the method of detecting a hand gesture is not limited.
  • the line-of-sight detection unit 33 detects the line-of-sight direction of the user 1. For example, the line-of-sight direction of the user 1 is detected based on the images of the left eye and the right eye of the user 1 taken by the inward camera 13. Further, the line-of-sight detection unit 33 detects the gaze position Q based on the line-of-sight direction of the user 1. For example, when the user 1 is looking at a certain real object 3 in the real space, the position where the real object 3 intersects with the line-of-sight direction of the user 1 is detected as the gaze position Q of the user 1.
  • the method of detecting the gaze direction or the gaze position Q of the user There is no limitation on the method of detecting the gaze direction or the gaze position Q of the user 1.
  • the infrared camera inward camera 13
  • the infrared light source infrared light source
  • an image of the eyeball in which the reflection (bright spot) of the infrared light emitted from the infrared light source is reflected is captured.
  • the gaze direction is estimated from the infrared bright point and the pupil position, and the gaze position Q is detected.
  • a method of estimating the line-of-sight direction and the gaze position Q on the basis of a feature point such as a corner of the eye based on an image of an eyeball may be used.
  • the line-of-sight direction and the gaze position Q may be detected based on changes in the electro-oculogram and the like caused by the charging of the eyeball.
  • an arbitrary algorithm or the like that can detect the line-of-sight direction of the user 1 and the gaze position Q may be used.
  • the area detection unit 34 detects a capture area including the real object 3 in accordance with the contact movement detected by the contact detection unit 32.
  • the capture area is an area for generating a virtual image 4 in which the real object 3 is captured (captured), for example. That is, it can be said that the area including the real object 3 to be captured as the virtual image 4 becomes the capture area.
  • the capture area corresponds to the target area.
  • a captured image (hereinafter referred to as a contact image) in which the user 1 is in contact with the real object 3 is acquired.
  • the area detection unit 34 analyzes the contact image and detects a range (capture area) in the contact image to be captured as the virtual image 4.
  • the case is not limited to the case where the capture area is detected from the contact image.
  • the capture area may be detected from the captured image other than the contact image based on the contact position of the user 1.
  • the area automatic detection mode for automatically detecting the capture area is executed.
  • the area automatic detection mode for example, the real object 3 with which the user 1 contacts is automatically identified as the capture target. Then, the spread of the surface of the real object 3 to be captured, that is, the area representing the boundary (periphery) of the real object 3 touched by the user 1 is detected as the capture area. Further, a region representing the boundary (periphery) of the real object 3 related to the real object 3 touched by the user 1 may be detected as the capture region. For example, the boundary of the document on the top surface or the back surface of the document touched by the user 1 may be detected as the capture area. Alternatively, when one document bound with a binder or the like is touched, a capture region including the other document may be detected.
  • the area automatic detection mode it is detected which surface the user 1 is trying to touch and how wide the surface is. This makes it possible to identify the range of the surface with which the user 1 contacts (the range of the document 2, the whiteboard, etc.).
  • the method of automatically detecting the capture area is not limited, and for example, arbitrary image analysis processing capable of object detection, boundary recognition, or the like, detection processing by machine learning, or the like may be appropriately used.
  • the area manual designation mode for detecting the capture area designated by the user 1 is executed.
  • the area manual designation mode for example, the movement of the user 1 tracing the real object 3 or the like is appropriately detected, and the range designated by the user 1 is detected as the capture area.
  • the area automatic detection mode and the area manual designation mode will be described later in detail.
  • the AR display unit 35 generates an AR image (virtual image 4) displayed on the transmissive display 12 of the HMD 100 and controls the display. For example, the position / shape / orientation when displaying the AR image is calculated according to the state of the HMD 100, the state of the user 1, and the like.
  • the AR display unit 35 extracts a partial image corresponding to the capture area from one or more captured images and generates a virtual image 4 of the real object 3.
  • the partial image is, for example, an image generated by cutting out a part of the captured image corresponding to the capture area.
  • the virtual image 4 to be displayed in the AR space is generated based on the cut out partial image. Therefore, it can be said that the virtual image 4 is a partial image processed according to the AR space.
  • a virtual image 4 having a two-dimensional spread that displays the contents written on the surface of the real object 3. is generated.
  • the virtual image 4 is a two-dimensional image of the real object 3.
  • the HMD100 it is possible to capture a real object 3 having a three-dimensional shape.
  • the virtual image 4 is generated so that the three-dimensional shape of the real object 3 can be represented in the AR space.
  • the virtual image 4 is a three-dimensional image of the real object 3.
  • the AR display unit 35 generates the virtual image 4 according to the shape of the real object 3.
  • the AR display unit 35 also generates a virtual image 4 representing the real object 3 that is not shielded by the shield.
  • the state of being shielded by the shield is a state in which a part of the real object 3 is hidden by the shield (another object or the like).
  • the hand of the user 1 serves as a shield that shields the real object 3.
  • the AR display unit 35 generates the virtual image 4 such that the entire real object 3 is displayed without the real object 3 being shielded. Therefore, the virtual image 4 is a clear image showing the entire real object 3 to be captured (see FIG. 9 and the like).
  • a virtual image 4 can be generated as a partial image from, for example, a captured image of the real object 3 in a state where there is no occlusion.
  • the virtual image 4 in which a part of the real object 3 is shielded may be generated (see FIG. 16A and the like).
  • the AR display unit 35 displays the generated virtual image 4 on the transmissive display 12 so as to overlap the real object 3. That is, a clear image of the real object 3 (virtual image 4) is superimposed and displayed on the real object 3. Further, the virtual image 4 is displayed in accordance with the hand movement (hand gesture) of the user 1 in contact with the real object 3. For example, the type of display of the virtual image 4 is changed for each type of action of touching the real object 3 (tapping, rubbing, etc. of the real object 3). In this way, the AR display unit 35 controls the display of the virtual image 4 according to the contact operation of the user 1.
  • the AR display unit 35 corresponds to the display control unit.
  • FIG. 4 is a flowchart showing an example of the operation of the HMD 100.
  • the process shown in FIG. 4 is a process executed in the area automatic detection mode, for example, a loop process repeatedly executed during the operation of the HMD 100.
  • the contact detection unit 32 measures the finger position of the user 1 and the surface position of the real object 3 existing around the finger of the user 1 (step 101).
  • the position of the surface of an arbitrary real object 3 existing around the finger is measured.
  • the real object 3 which the user 1 is trying to touch does not need to be identified.
  • the position of the finger of the user 1 and the surface position of the real object 3 in the coordinate system set in the HMD 100 are measured based on the depth information detected by the distance sensor.
  • the spatial arrangement relationship between the finger of the user 1 and the real object 3 around the finger is measured.
  • the finger position for example, the fingertip of the user 1 directed to the real object 3 is detected.
  • the surface position for example, a shape representing the surface of the real object 3 near the finger of the user 1 is detected.
  • the finger position and the surface position may be appropriately detected from the depth information and the photographed image.
  • the outward-facing camera 14 it is possible to improve the detection accuracy of each position.
  • the method of detecting the finger position and the surface position is not limited.
  • the contact detection unit 32 determines whether the finger of the user 1 is likely to contact the surface of the real object 3 (step 102). That is, it is determined whether or not the contact operation state of the user 1 is the pre-contact state in which the contact is predicted.
  • a threshold determination of the distance between the finger position and the surface position is executed. That is, it is determined whether or not the distance between the finger position and the surface position is larger than a predetermined threshold value.
  • the predetermined threshold value is appropriately set, for example, so that the capture process of the real object 3 can be appropriately executed.
  • the process returns to step 101, the finger position and the surface position at the next timing are measured, and it is determined whether or not it is in the pre-contact state.
  • the image acquisition unit 31 controls the outward-facing camera 14 to start photographing in the real space with settings suitable for capture (step 103). That is, when it is predicted that the interaction between the real object 3 and the user 1 will occur, the shooting mode is switched and detailed capture is started.
  • the image acquisition unit 31 sets each shooting parameter such as the shooting resolution, the exposure time, and the shooting interval of the outward camera 14 to a value for capture.
  • the capture value is appropriately set so that a desired virtual image 4 can be generated, for example.
  • a capturing resolution for monitoring that suppresses the amount of image data is set.
  • the shooting resolution for this monitoring is changed to a shooting resolution for more detailed capture. That is, when the contact operation state is determined to be the pre-contact state, the image acquisition unit 31 increases the shooting resolution of the outward facing camera 14. Thereby, for example, it is possible to generate a detailed captured image (virtual image 4) with high resolution.
  • the exposure time of the outward facing camera 14 is appropriately set so that an image with desired brightness and contrast is captured.
  • the photographing interval is appropriately set so that a sufficient number of photographed images can be photographed as described later.
  • each shooting parameter of the outward camera 14 is set to a value for capture and the shooting mode is switched, the shooting of the real space by the outward camera 14 (shooting of the field of view of the user 1) is started.
  • a captured image captured by the outward camera 14 is read by the image acquisition unit 31 as appropriate. Note that this shooting process is repeatedly executed until a predetermined condition for generating the virtual image 4 is satisfied, for example.
  • FIG. 5 is a schematic diagram showing an example of a contact operation of the user 1 with respect to the real object 3.
  • FIG. 5A schematically shows the fingers 5 and the real object 3 (document 2) of the user 1 at the timing determined to be in the pre-contact state. Note that whether or not the document 2 shown in FIG. 5A is the target (capture target) of the contact operation is not identified in the state shown in FIG. 5A.
  • the shooting range of the outward camera 14 includes the fingers 5 of the user 1 and a part of the document 2.
  • a high-resolution photographed image is photographed in such a photographing range.
  • the captured image is an image obtained by capturing only a part of the document 2.
  • FIG. 5B shows a state before the finger 5 of the user 1 is closer to the real object 3 than the state shown in FIG. 5A.
  • the entire document 2 is included in the shooting range of the outward facing camera 14. Further, the fingers 5 of the user 1 are not in contact with the document 2, and the document 2 is photographed without being shielded by the shield. That is, the captured image captured in the state shown in FIG. 5B is an image of the document 2 (real object 3) that is not shielded by the shield.
  • FIG. 5C shows a contact state in which the finger 5 of the user 1 and the real object 3 are in contact with each other.
  • the shooting process by the outward camera 14 may be continued even in the contact state.
  • the entire range of the document 2 is included in the shooting range of the outward camera 14, but a part of the document 2 is shielded by the finger of the user 1.
  • the captured image is an image in which a part of the document 2 is shielded.
  • the image acquisition unit 31 controls the outward camera 14 to acquire one or more captured images. That is, it can be said that the image acquisition unit 31 acquires a video image (captured video image) captured in the capture setting.
  • the period during which the shooting process for capture by the outward camera 14 is executed is not limited.
  • the shooting process may be continued until the virtual image 4 is generated.
  • the shooting process may be terminated when the shooting process is performed a predetermined number of times.
  • processing such as restarting the shooting processing may be executed when there is no shot image necessary for generating the virtual image 4.
  • the number of times of photographing processing, timing, etc. may be appropriately set so that the virtual image 4 can be appropriately generated.
  • step 104 when the shooting process for capturing is started, it is determined whether the finger 5 of the user 1 has come into contact with the surface of the real object 3 (step 104). That is, it is determined whether or not the contact operation state of the user 1 is the contact state.
  • a threshold judgment of the distance between the finger position and the surface position is executed. For example, when the distance between the finger position and the surface position is larger than the contact detection threshold value, it is determined that the contact state is not established, and when the distance is equal to or less than the contact detection threshold value, the contact state is determined.
  • the method of determining the contact state is not limited.
  • the finger 5 of the user 1 and the real object 3 are apart from the threshold value for contact detection. In this case, it is determined that the finger 5 of the user 1 is not in contact with the surface of the real object 3 (No in step 104), and the determination of the contact state is executed again.
  • the distance between the finger 5 of the user 1 and the real object 3 (document 2) is less than or equal to the threshold for contact detection.
  • the area detection unit 34 causes the surface range (capture area) of the finger 5 of the user 1 to contact. Is detected (step 105).
  • FIG. 6 is a schematic diagram showing an example of capture area detection processing in the area automatic detection mode.
  • FIG. 6 schematically shows a captured image 40 (contact image 41) captured at the timing when the finger 5 of the user 1 is in contact with the document 2 (real object 3). Note that the fingers 5 of the user 1 are schematically illustrated by using dotted lines.
  • the user's finger 5 is in contact with the document 2 placed at the top among the plurality of documents 2 arranged in an overlapping manner. Therefore, the uppermost document 2 is the target of the contact operation of the user 1, that is, the capture target.
  • the contact detection unit 32 detects the contact position P between the real object 3 and the hand of the user 1. For example, in FIG. 6, the position of the fingertip of the index finger of the user 1 contacting the uppermost document 2 is detected as the contact position P.
  • the contact position P When the user 1 touches the real object 3 with a plurality of fingers, the position of the fingertip of each finger touching the real object 3 or the like may be detected as the contact position P.
  • the capture area 6 is detected based on the contact position P detected by the contact detection unit 32. Specifically, the area detector 34 detects the boundary 7 of the real object 3 including the contact position P as the capture area 6.
  • the boundary 7 of the real object 3 is, for example, the outer edge of the surface of the single real object 3, and is a boundary representing the range of the continuous surface of the real object 3.
  • the contact position P is detected on the uppermost document 2. That is, the uppermost document 2 becomes the real object 3 including the contact position P.
  • the area detection unit 34 executes predetermined image processing to detect the boundary 7 of the uppermost document 2. That is, a continuous surface area (capture area 6) is automatically detected by image processing using the contact point (contact position P) of the surface touched by the finger 5 of the user 1 as a hint. In the example shown in FIG. 6, the rectangular capture area 6 corresponding to the boundary 7 of the uppermost document 2 is detected.
  • the boundary 7 may be detected by detecting a continuous line (straight line or curved line) in the contact image 41.
  • the boundary 7 may be detected by detecting the arrangement of characters on the document surface.
  • a thick document 2 or a curled document 2 may have a shadow on its outer edge.
  • the boundary 7 of the real object 3 may be detected based on such a shadow of the real object 3. This makes it possible to properly detect the capture area 6 of the real object 3 having the same color as the background.
  • the boundary 7 of the real object 3 may be detected based on the size of the real object 3 to be captured.
  • the size of the real object 3 is, for example, the size in the real space, and is appropriately estimated based on the size of the hand of the user 1, depth information, and the like.
  • the size range that the user 1 can hold by hand is appropriately set, and the boundary 7 and the like of the real object 3 are detected so as to be within the range. Therefore, for example, when the document 2 (real object 3) placed on the desk is touched, the boundary 7 of the document 2 is detected instead of the desk. As a result, it is possible to prevent the detection of a boundary having an unnecessarily large or small size, and it is possible to properly detect the capture area 6.
  • the boundary 7 of the real object 3 may be detected based on the shape.
  • the shape of the real object 3 is, for example, a shape in the real space.
  • the boundary 7 of the document 2 such as the A4 shape or the postcard shape is detected based on the information about the shape such as the aspect ratio.
  • the information on the size and shape of the real object 3 may be acquired, for example, via an external network or the like, or may be acquired based on the past captured image 40 stored in the captured image database 21 or the like. .
  • any method capable of detecting the boundary 7 of the real object 3 may be used.
  • FIG. 7 is a schematic diagram showing another example of the detection processing of the capture area in the area automatic detection mode.
  • the capture area 6 is detected based on the contact position P and the gaze position Q of the user 1. That is, the line of sight of the user 1 is used to detect the spread of the surface that the finger 5 of the user 1 is about to touch.
  • the line-of-sight detection unit 33 detects the gaze position Q of the user 1 in the contact image 41 based on the line-of-sight direction of the user 1 detected at the timing when the contact image 41 is captured. For example, as shown in FIG. 7, since the user 1 is highly likely to see the selected real object 3 (the uppermost document 2) at the same time with the line of sight, the gaze position Q of the user 1 is on the real object 3. Is likely to be detected in.
  • the area detector 34 detects the boundary 7 of the real object 3 including the contact position P and the gaze position Q as the capture area 6. That is, the boundary 7 of the continuous surface where the contact position P and the gaze position Q exist is detected.
  • the various methods described with reference to FIG. 6 are used. This makes it possible to significantly improve the detection accuracy of the capture region 6 (the boundary 7 of the target real object 3).
  • the gaze position Q it is not limited to the case of using the gaze position Q.
  • a process of calculating the gaze area of the user based on the gaze direction of the user 1 and detecting the boundary 7 of the real object 3 including the contact position P and the gaze area in the contact image 41 may be executed.
  • the boundary 7 of the real object 3 may be detected by using an arbitrary method using the line-of-sight direction of the user 1.
  • the area detection unit 34 detects the boundary 7 of the real object 3 based on the line-of-sight direction of the user 1. As a result, it is possible to accurately determine the target that the user 1 is trying to contact, and detect the boundary 7 appropriately. As a result, the real object 3 desired by the user 1 can be properly captured, and the reliability of the device can be improved.
  • the contact position P and the gaze position Q may not be detected on the same real object 3.
  • the boundary 7 of the real object 3 including the contact position P is detected as the capture area 6.
  • the AR display unit 35 superimposes and displays the area image 42 representing the capture area 6 on the real object 3.
  • a region image 42 representing the boundary 7 of the uppermost document 2 is generated and displayed on the transmissive display 12 so as to overlap the boundary 7 of the uppermost document 2.
  • the user 1 can visually recognize the area in the real space that is to be captured.
  • the capture area 6 may be represented by using a line or the like displayed in a predetermined color.
  • a line or the like representing the capture area 6 may be displayed by animation such as blinking.
  • the entire capture area 6 may be displayed using a predetermined transparent pattern or the like.
  • the shape and display position of the area image 42 are appropriately adjusted and displayed so that the area image 42 is superimposed on the real object 3 even when the viewpoint of the user 1 (HMD 100) changes.
  • the capture area 6 (rectangular area frame or the like) visualized in the AR display is manually corrected as described below.
  • step 106 when the capture area 6 is detected, the input operation of the user 1 for modifying the capture area 6 is accepted (step 106). That is, in step 106, the user 1 can manually modify the capture area 6.
  • FIG. 8 is a schematic diagram showing an example of the correction processing of the capture area 6.
  • FIG. 8 an image similar to the contact image 41 described with reference to FIGS. 6 and 7 is shown.
  • a correction area image 42 is schematically illustrated on the boundary 7 of the uppermost document 2 (real object 3).
  • the area image 42 is displayed so that at least one of shape, size, and position can be edited.
  • the input operation by the user 1 on the display screen (transmissive display 12) is detected by detecting the position of the finger 5 of the user 1, for example.
  • the area image 42 is displayed so as to be editable according to such an input operation (correction operation) by the user 1.
  • the fingertip of the left hand of the user 1 is placed at a position overlapping the left side of the capture area 6. Further, the fingertip of the right hand of the user 1 is arranged at a position overlapping the right side of the capture area 6.
  • the AR display unit 35 receives the operation input of the user 1 selecting the right and left sides of the capture area 6. Note that in FIG. 8, the selected left and right sides are illustrated by using dotted lines. In this way, the display of the capture area 6 may be appropriately changed so as to indicate that each unit is selected.
  • the left side of the capture area 6 is dragged to the left and the right side is dragged to the right.
  • the visualized capture area 6 is expanded in the left-right direction by the user 1 spreading it by hand, and the size and shape are corrected.
  • the position of the capture area 6 may be modifiable. For example, when the user 1 arranges the fingers 5 inside the capture area 6 and moves the fingers 5, a correction operation of moving the capture area 6 according to the moving direction of the fingers or the moving amount of the fingers is accepted. Good.
  • the area image 42 is displayed so that any correction operation corresponding to the hand operation of the user 1 can be accepted.
  • the range of the real object 3 to be captured is automatically determined by the detection processing of the capture area 6, but this range can be further manually corrected.
  • fine adjustment of the capture area 6 and the like can be easily performed, and the virtual image 4 and the like in which the range desired by the user 1 is appropriately captured can be generated.
  • the correction operation by the user 1 is completed, the capture area 6 is changed based on the edited area image 42.
  • step 103 the image capturing process of the captured image 40 for capture described in step 103 may be continued. In this case, a process of changing the setting of the outward-facing camera 14 for capture to a shooting parameter most suitable for shooting the edited capture area 6 is executed.
  • the optical zoom rate or the like of the outward camera 14 is appropriately adjusted according to the edited capture area 6.
  • the size of the capture area 6 is small, it is possible to generate the high-resolution virtual image 4 and the like.
  • other shooting parameters may be changed.
  • the process of manually correcting the capture area 6 may not be executed. In this case, it is possible to shorten the time until the virtual image 4 is displayed. Further, a mode for modifying the capture area 6 may be selectable.
  • the virtual image 4 is generated based on the captured image 40 captured by the outward facing camera 14 (step 107). Specifically, a clear partial image of the capture area 6 is extracted from the captured image 40 (captured video) captured in step 103. Then, the virtual image 4 of the captured real object 3 is generated using the partial image.
  • the AR display unit 35 generates a partial image from one or more captured images 40 captured by the outward facing camera 14 from the captured image 40 that does not include a shield in the capture area 6. That is, a partial image corresponding to the capture area 6 is generated using a frame of the captured video that is not shielded by a shield (a finger or the like of the user 1).
  • the real object 3 to be captured is detected from each captured image 40 captured after the pre-contact state is detected.
  • the real object 3 to be captured is appropriately detected by using a matching process using, for example, feature point matching.
  • the method of detecting the capture target from each captured image 40 is not limited.
  • each captured image 40 It is determined whether or not the real object 3 to be captured included in each captured image 40 is shielded. That is, it is determined whether the capture area 6 in each captured image 40 includes a shield. For example, when the boundary 7 of the real object 3 to be captured is discontinuously cut, it is determined that the real object 3 is shielded. Further, for example, the fingers 5 of the user 1 are detected in each captured image 40, and when the fingers 5 are included in the capture area 6, it is determined that the real object 3 is shielded.
  • the method for determining the presence or absence of shielding is not limited.
  • the captured image 40 that has been determined that the real object 3 to be captured is not shielded is selected.
  • the captured image 40 in which the real object 3 to be captured is not shielded that is, the captured image 40 in which the real object 3 to be captured is clearly captured is an image for generating the virtual image 4. Used.
  • FIG. 9 is a schematic diagram showing an example of the captured image 40 used to generate the virtual image 4.
  • the captured image 40 shown in FIG. 9 is a schematic diagram showing the captured image 40 captured in the pre-contact state shown in FIG. 5B.
  • the entire document 2 which is the real object 3 to be captured is captured. Further, the document 2 does not have a portion hidden by the finger 5 of the user 1 and the like, and includes a clear image of the document 2 which is not shielded by the shield.
  • the AR display unit 35 generates a partial image 43 corresponding to the capture area 6 from such a captured image 40.
  • the partial image 43 (document 2) to be generated is represented by a shaded area.
  • each captured image 40 an image in which a part of the capture area 6 (real object 3) is cut off (see FIG. 5A) or an image in which a part of the capture area 6 (real object 3) is occluded ( (See FIG. 5C) and the like may be included.
  • the partial image 43 may be generated by complementing the clear part of the capture area 6 among these images. For example, such processing is also possible.
  • correction processing such as keystone correction is executed.
  • keystone correction For example, when the photographed image 40 is photographed from an oblique direction, even a rectangular document may be transformed into a trapezoidal shape and photographed. Such a deformation is corrected by the trapezoidal correction process, and, for example, a rectangular partial image 43 is generated.
  • noise removal processing for removing noise components of the partial image 43, processing for correcting the color, brightness (luminance), etc. of the partial image 43 may be appropriately executed.
  • the virtual image 4 for displaying the partial image 43 (the real object 3 to be captured) in the AR space is generated. That is, the virtual image 4 for displaying the planar partial image 43 in the three-dimensional AR space is appropriately generated.
  • the shooting mode of the outward camera 14 is switched and the detailed shot image 40 is continuously shot. .
  • the real object 3 (capture target) to be brought into the virtual world is specified by the contact with the finger 5, the captured image is traced back, and the real object 3 is captured using the image (captured image 40) where the finger 5 of the user 1 does not overlap.
  • a clear virtual image 4 of is generated. This allows the user 1 to easily create a high-quality copy of the real object 3 (virtual image 4) with a simple operation.
  • the virtual image 4 is displayed on the real object 3 by the AR display unit 35 (step 108). That is, the user 1 can visually recognize the virtual image 4 that is superimposed and displayed on the captured actual real object 3. By displaying the captured image (virtual image 4) of the real object 3 on the real object 3, for example, the user 1 can intuitively understand that the real object 3 can be copied in the AR space.
  • the virtual image 4 of the real object 3 copied from the real space can be freely handled in the AR space.
  • the user 1 can perform an operation such as grasping the copied virtual image 4 and delivering it to a remote partner (see FIG. 1).
  • grasping the copied virtual image 4 and delivering it to a remote partner (see FIG. 1).
  • 10 to 13 are schematic diagrams showing an example of the display of the virtual image 4.
  • the contact detection unit 32 detects the gesture of the hand of the user 1 who touches the real object 3.
  • the AR display unit 35 controls the display of the virtual image 4 according to the gesture of the hand of the user 1 detected by the contact detection unit 32.
  • the virtual image 4 is superimposed on the real object 3 in accordance with the designation operation when the user 1 designates the capture target.
  • FIGS. 10 to 13 variations of the superimposed display of the captured image (virtual image 4) according to the hand gesture (hand gesture) of the user 1 will be described.
  • the user 1 performs a hand gesture of turning over the document 2 (real object 3).
  • the user 1 touches the corner of the document 2 with his thumb and one finger open.
  • the display of the virtual image 4 is controlled so that the corner of the document 2 is turned over between the thumb and the index finger of the user 1.
  • the display example shown in FIG. 10 is similar to the display example shown in FIG. 1B.
  • the virtual image 4 is displayed, for example, in a state where the periphery of the contact position P is turned over and superimposed on the actual document 2. As a result, the virtual image 4 is displayed in the same manner as the actual paper, and the visual effect is exhibited. As a result, even in the AR space, it is possible to provide a natural virtual experience of turning over the actual document 2.
  • the virtual image 4 may be displayed only around the position (corner of the document 2) where the finger of the user 1 contacts. In this case, when the user 1 performs an operation of grasping the virtual image 4, a process of displaying the entire virtual image 4 is executed.
  • the display of the virtual image 4 may be controlled according to the contact position P detected by the contact detection unit 32. Accordingly, immediately after the user 1 contacts the real object 3 (document 2), the virtual image 4 needs to be displayed only around the contact position P, so that the processing amount of image processing and the like can be suppressed. . As a result, the virtual image 4 can be displayed smoothly without any discomfort. Further, by avoiding unnecessary processing, it is possible to suppress the power consumption of the HMD 100.
  • the user 1 performs a hand gesture of pinching the central portion of the document 2 (real object 3) and pulling it up.
  • a hand gesture of pinching the central portion of the document 2 (real object 3) and pulling it up.
  • the document 2 virtual paper
  • Such a shape is displayed so as to be superimposed on the actual document 2.
  • the virtual image 4 stays at that position.
  • the virtual image 4 is displayed so as to return from the picked-up shape to the planar shape and remain floating above the actual document 2.
  • the user 1 can perform operations such as grasping and moving the virtual image 4 that is displayed floating in the air.
  • a display may be executed in which the virtual image 4 gradually descends to the position directly above the actual document 2.
  • the real object 3 (document 2 etc.) is brought into the AR space with the pinching hand gesture
  • the real object 3 on the captured side existing in the real space may be grayed out. That is, a process of filling the copy-source real object 3 with gray may be executed. In this way, by graying out the real object 3, it is possible to easily present that a clone of the real object 3 has been generated in the AR space.
  • the captured object that is, the copied virtual image 4 may be added with a mark that identifies it as a virtual object on the AR. This makes it possible to easily distinguish the virtual image 4 and the real object 3.
  • the process of graying out, the process of adding an AR mark, and the like may be appropriately applied when other hand gestures are executed.
  • a hand gesture in which the user 1 taps the document 2 is performed.
  • the user 1 taps the surface of the actual document 2 with a fingertip.
  • the virtual image 4 is displayed superimposed on the actual document 2 as if it were floating.
  • the two-dimensional virtual image 4 may be curved and lifted up like an actual paper, and the like effect may be added.
  • a process may be executed in which the virtual image 4 is gradually raised from the position tapped by the user 1 and displayed. Further, for example, when the user 1 makes a hand gesture such as rubbing the actual document 2 for a moment, a process of embossing the virtual image 4 in the rubbing direction may be executed.
  • a hand gesture in which the user 1 holds the cylindrical real object 3 is executed. It is also possible to capture such a three-dimensional real object 3.
  • the user 1 grabs or strongly grips the real object 3.
  • the state in which a force is applied to the real object 3 is detected from the arrangement of the fingers 5 of the user 1 and the like.
  • a virtual image 4 in which the cylindrical real object 3 is copied is appropriately generated, and the virtual image 4 is squeezed out gradually in the vicinity of the real object 3. Is displayed in.
  • the virtual image 4 is a three-dimensional image representing the three-dimensional real object 3.
  • a three-dimensional image is generated by 3D capture that three-dimensionally captures the three-dimensional real object 3 (three-dimensional object).
  • the real object 3 is captured by using a camera other than the outward facing camera 14, for example.
  • 3D modeling of the real object 3 is executed based on the captured image 40 captured by each camera, the depth information detected by the distance sensor, and the like. It should be noted that another camera may be used in combination even when photographing the planar real object 3.
  • FIG. 14 is a schematic diagram showing another example of the display of the virtual image.
  • the virtual image 4 is displayed according to the hand gesture in which the user 1 taps the document 2 (real object 3).
  • the virtual image 4 in which the icon 44 indicating the processing is displayed is generated in the frame in which the shape of the document 2 (the shape of the capture area 6) is copied.
  • processing such as noise removal and trapezoidal correction of the partial image 43 is executed as described above.
  • some time may be required until the virtual image 4 in which the real object 3 is captured is generated.
  • the icon 44 or the like indicating that processing is being performed is displayed instead of the captured image until the final virtual image 4 is generated.
  • the display is switched from the icon 44 indicating that the process is in progress to the final virtual image 4 in which the real object 3 is copied.
  • the type of the icon 44, the method of switching the display, etc. are not limited. For example, a process of fading in so that the final virtual image 4 gradually becomes darker may be executed.
  • the capture process for the document 2 placed at the top and not shielded has been described.
  • the present technology can be applied to the real object 3 shielded by another real object 3 and the like.
  • FIG. 15 is a schematic diagram showing an example of a detection process of the capture area 6 with a shield.
  • FIG. 16 is a schematic diagram showing an example of the virtual image 4 generated by the detection processing shown in FIG.
  • FIG. 15 schematically shows the first to third documents 2a to 2c arranged so as to partially overlap each other.
  • the first document 2a is the rearmost document and is partially shielded by the second document 2b.
  • the second document 2a is arranged between the first and third documents 2a and 2c and is partially shielded by the third document 2c.
  • the third document 2c is the top document and is not shielded.
  • the area detection unit 34 detects the boundary 7 of the second document 2b.
  • a part of the boundary 7 of the second document 2b (dotted line in the figure) is shielded by the third document 2c.
  • the boundary 7 thus shielded is appropriately complemented and detected based on, for example, the boundary 7 (thick solid line in the figure) which is not shielded.
  • the area to be cut out (capture area 6) is determined by automatic detection of the capture area 6, the real object 3 (second document 2b) to be cut out may be partially hidden. In this case, it is conceivable that the captured image 40 captured by the outward-facing camera 14 cannot be partially captured because another shield is on the target real object 3.
  • the virtual image 4 of the real object 3 (second document 2b) shielded by the shield is generated by the method shown in FIGS. 16A to 16C, for example.
  • the virtual image 4 that represents the state of being shielded by the shield is generated.
  • the captured image 40 including the capture area 6 is appropriately selected from the captured images 40 captured by the outward camera 14.
  • the partial image 43 corresponding to the capture area 6 is generated from the selected captured image 40, and the virtual image 4 using the partial image 43 is generated.
  • the virtual image 4 shown in FIG. 16A is an image showing a state in which a part of the second document 2b is shielded by the third document 2c.
  • the generation process of the virtual image 4 can be shortened, and the response speed or the like to the interaction of the user 1 can be improved.
  • the virtual image 4 in which the portion shielded by the shield is grayed out is generated.
  • the boundary 7 of the real object 3 is detected from the partial image 43 generated similarly to FIG. 16A. That is, the boundary 7 of the shield (the third document 2c) included in the partial image 43 is detected. Then, the virtual image 4 in which the inside of the boundary 7 of the shield is painted in gray scale is generated. By filling in unnecessary information in this way, it becomes possible to explicitly present the defective portion.
  • the virtual image 4 in which the part shielded by the shield is complemented by other data is generated.
  • the photographed image database 21 is referred to based on the description of the surface of the second document 2b, and the photographed image 40 and the like obtained by photographing the document 2 similar to the second document 2b are searched. A predetermined matching process or the like is used to search for a similar document 2.
  • the virtual image 4 of the second document 2b is generated by using the partial image 43a of the unoccluded region and the partial image 43b of the defective portion. Therefore, the virtual image 4 is an image in which the two partial images 43a and 43b are combined.
  • the photographed image database 21 and the like are inquired, and the missing part is complemented from the document similar to the target document 2. Accordingly, even when the real object 3 shielded by the shield is the capture target, the virtual image 4 representing the real object 3 in the unshielded state can be generated. Since the retrieved similar document may be different from the target document 2, the complemented region is explicitly displayed using a frame line (dotted line in the figure) or the like. As a result, it is possible to notify that the virtual image 4 has been generated in a complementary manner.
  • FIG. 17 is a flowchart showing another example of the operation of the HMD 100.
  • the process shown in FIG. 17 is a process executed in the area manual designation mode, for example, a loop process repeatedly executed during the operation of the HMD 100.
  • the capture area 6 area manual specification mode
  • steps 201 to 203 shown in FIG. 17 the same processing as steps 101 to 103 in the area automatic detection mode shown in FIG. 4, for example, is executed. Further, in steps 206 to 208, the same processing as steps 206 to 208 shown in FIG. 4, for example, is executed by using the capture area 6 manually designated by the user 1.
  • step 201 The finger position of the user 1 and the surface position of the real object 3 are measured (step 201), and it is determined whether the finger 5 of the user 1 is likely to contact the surface of the real object 3 (step 202). When it is determined that the finger 5 of the user 1 is unlikely to contact the surface (not in the pre-contact state in which contact is predicted) (No in step 202), step 201 is executed again.
  • the outward facing camera 14 is used to make settings suitable for capture.
  • the photographing process is started (step 203). This shooting process is repeatedly executed until the virtual image 4 is generated, for example.
  • a process of detecting the capture area 6 designated by the user 1 is executed (step 204). Specifically, the fingertip position R of the user 1 is tracked, and the information of the range designation is acquired. Further, the designated range is appropriately displayed on the AR space.
  • FIG. 18 is a schematic diagram showing an example of the capture area 6 designated by the user 1.
  • FIG. 18 schematically illustrates a state in which the user 1 is moving his or her first finger (finger 5) so as to trace the outer circumference of the document 2, which is the real object 3.
  • the contact detection unit 32 detects the fingertip position R of the hand of the user 1.
  • the fingertip position R for example, the tip position of the finger 5 of the user 1 which is the closest position to the real object 3 (document 2) is detected.
  • the finger 5 of the user 1 may be in contact with the surface of the real object 3 or may be separated therefrom. That is, the fingertip position R of the user 1 is appropriately detected regardless of whether the contact operation state of the user 1 is the contact state or the pre-contact state.
  • step 204 is a loop process, and for example, each time step 204 is executed, information on the fingertip position R of the user 1 is recorded. That is, it can be said that the tracking process of the fingertip position R for recording the trajectory 8 of the fingertip position R of the user 1 is executed.
  • the fingertip position R of the user 1 is schematically illustrated by using a black circle. Also, the trajectory 8 of the fingertip position R detected by tracking the fingertip position R is schematically illustrated by using a thick black line. The information of the locus 8 of the fingertip position R becomes the information of the range specified by the user 1.
  • the AR display unit 35 displays a frame line or the like by the AR at the position traced by the user 1 with his fingertip. That is, the trajectory 8 of the fingertip position R of the user 1 is displayed in the AR space. Therefore, for example, as shown in FIG. 18, the user 1 can visually recognize the state in which the trace traced by his / her fingertip (finger 5) is superimposed and displayed on the real object 3. This makes it possible to easily specify the capture area 6 and improve usability.
  • step 205 it is determined whether or not the user 1 has manually specified the range. For example, it is determined whether or not the range input by the user 1 (the locus 8 of the fingertip position R) is a closed range. Alternatively, it is determined whether or not the fingertip (finger 5) of the user 1 has moved away from the surface of the real object 3.
  • the method of determining the completion of the range designation is not limited. For example, the operation of designating the range may be terminated based on the hand gesture of the user 1 or other input operation.
  • step 204 is executed and tracking of the fingertip position R is continued.
  • the region detection unit 34 detects the range designated by the user 1 as the capture region 6. That is, it can be said that the trajectory 8 of the fingertip position R of the user 1 is set in the capture area 6.
  • the area detection unit 34 detects the capture area 6 based on the trajectory 8 of the fingertip position R accompanying the movement of the fingertip position R. This makes it possible to manually specify the capture area 6 and capture an arbitrary area in the real space. As a result, for example, it is possible to easily provide a virtual experience with a high degree of freedom.
  • a process for accepting the manual correction of the capture area 6 is executed (step 206).
  • the capture area 6 is modified, the partial image 43 in which the capture area 6 is clearly captured is appropriately extracted from the captured image 40, and the virtual image 4 of the real object 3 is generated based on the partial image 43 (step 207). ).
  • the generated virtual image 4 is appropriately displayed by being superimposed on the real object 3 according to the hand gesture of the user 1 or the like.
  • the method of generating / displaying the virtual image 4 based on the capture area 6 manually specified is not limited, and the method described with reference to, for example, FIGS. 10 to 16 can be applied. That is, the above description of the automatically detected capture area 6 can be appropriately replaced with the description of the manually specified capture area 6.
  • each of the area automatic detection mode and the area manual designation mode may be executed individually, or may be appropriately switched and executed.
  • the region manual designation mode is executed, and when it is another gesture such as tapping the real object 3, the region automatic detection mode is executed. It For example, such a configuration may be adopted.
  • a contact motion which is a series of motions when the user contacts the real object 3, is detected, and the capture region 6 including the real object 3 is detected according to the contact motion.
  • the partial image 43 corresponding to the capture area 6 is extracted from the captured image 40 obtained by capturing the real space in which the real object 3 exists, and the virtual image 4 of the real object 3 is generated.
  • the display control of the virtual image 4 is executed according to the contact operation of the user 1.
  • a method of automatically capturing the real world in response to a predetermined input operation can be considered.
  • an operation of designating a capture range is required, and the capture process may be troublesome.
  • a shielding object may be included in the capturing range. In this case, it is necessary to retake the image again, which may hinder the experience of the user.
  • the capture area 6 is detected according to the contact operation of the user 1 with respect to the real object 3. Thereby, for example, when the user 1 touches the real object 3, the capture area 6 for capturing the real object 3 is automatically detected.
  • the user 1 even when the user 1 does not explicitly set the capture area 6 or the like, it is possible to easily generate the virtual image 4 or the like in which the desired real object 3 is captured. As a result, the user 1 can easily bring an appropriate captured image (virtual image 4) into the virtual space without inputting the capture area 6. As a result, it becomes possible to seamlessly connect the real space and the virtual space.
  • the virtual image 4 is generated by extracting the partial image corresponding to the capture area 6 from the one or more captured images 40 captured in the real space. This makes it possible, for example, to go back in time and acquire a partial image in which no occlusion occurs, and to generate a clear virtual image 4 or the like of the real object 3 without occlusion. As a result, it is possible to properly generate the desired virtual image 4 with one capture process, and it is possible to sufficiently avoid re-shooting or the like from occurring.
  • the generated virtual image 4 is displayed by being superimposed on the real object 3 according to the contact motion of the user 1.
  • the contact operation interaction
  • the highly accurate virtual image 4 generated based on the image captured immediately before is presented.
  • the display of the virtual image 4 is appropriately controlled according to the type of contact operation and the like. This makes it possible to bring the real object 3 in the real world into the AR space or the like. As a result, it becomes easy to move an object from the real world (real space) to the virtual world (virtual space), and it is possible to realize seamless connection between the real world and the virtual world.
  • the outward-facing camera 14 starts the shooting processing with the setting for capture. (Step 103, Step 203).
  • the timing of executing the capturing process for capturing is not limited.
  • the shooting process may be executed in a state where the pre-contact state is not detected.
  • an image capturing process of sequentially capturing (capturing) an object around the user 1 that may be in contact and preparing for contact may be executed.
  • the real object 3 that the user 1 is trying to contact may be speculatively captured. For example, when the user 1 wearing the HMD 100 directs his or her gaze in various directions, it is possible to capture various real objects 3 around the user 1. For example, when the real object 3 existing around the user 1 is included in the shooting range of the outward camera 14, the shooting process for capture is speculatively executed.
  • the shooting process may be executed at any timing before the virtual image 4 is generated.
  • the captured object data on the cloud that the HMD 100 can connect to via the communication unit 18 or the like may be searched. This makes it possible to generate the virtual image 4 even if the appropriate captured image 40 is not included in the captured image database 21 or the like.
  • a three-dimensional image representing the three-dimensional shape of the real object 3 is generated.
  • the capture method may be switched between 2D capture and 3D capture depending on the type of gesture. For example, if the user 1 makes a gesture of pinching the real object 3, 2D capture is executed, and if the user 1 makes a gesture of grasping the real object 3, 3D capture is executed. For example, such processing may be executed.
  • the transmissive HMD100 equipped with a transmissive display was used.
  • the present technology is not limited to this, and the present technology can also be applied when an immersive HMD that covers the field of view of the user 1 is used, for example.
  • FIG. 19 is a perspective view schematically showing the appearance of an HMD according to another embodiment.
  • the HMD 200 includes a mount part 210 mounted on the head of the user 1 and a main body part 220 arranged in front of both eyes of the user 1.
  • the HMD 200 is an immersive head mounted display configured to cover the field of view of the user 1.
  • the main body 220 is provided with a display (not shown) arranged so as to face the left and right eyes of the user 1. By displaying the image for the left eye and the image for the right eye on this display, the user 1 can view the virtual space.
  • An outward facing camera 221 is mounted on the outside of the main body 220. By displaying the image captured by the outward-facing camera 221 on the internal display, the user 1 can visually recognize a real-world image. Further, on the display, various virtual images 4 are superimposed and displayed on the image captured by the outward camera. This makes it possible to provide a virtual experience using augmented reality (AR).
  • AR augmented reality
  • the controller 30 or the like described with reference to FIG. 3 is used to perform the contact operation of the user 1 with respect to the real object 3, the detection of the capture area 6, the display control of the virtual image 4 or the like on the display, and the like. .
  • the controller 30 or the like described with reference to FIG. 3 is used to perform the contact operation of the user 1 with respect to the real object 3, the detection of the capture area 6, the display control of the virtual image 4 or the like on the display, and the like.
  • the controller 30 or the like described with reference to FIG. 3 is used to perform the contact operation of the user 1 with respect to the real object 3, the detection of the capture area 6, the display control of the virtual image 4 or the like on the display, and the like.
  • FIG. 20 is a perspective view schematically showing the outer appearance of a mobile terminal 300 according to another embodiment.
  • the front side of the mobile terminal 300 provided with the display surface 310 and the back side opposite to the front side are schematically illustrated, respectively.
  • An inward camera 320 is mounted on the front side of the mobile terminal 300, and an outward camera 330 is mounted on the back side.
  • an image of the real space taken by the outward camera 330 is displayed on the display surface 310 of the mobile terminal 300. Further, on the display surface 310, various virtual images 4 and the like are superimposed and displayed on the image in the real space. As a result, the user 1 can view the AR space in which the real space is expanded.
  • the controller 20 and the like described with reference to FIG. 3 it is possible to capture the real object 3 in accordance with the contact operation of the user 1 from the image taken by the outward camera 330. This makes it possible to easily bring the real object 3 into the AR space.
  • the present technology can be applied even when the mobile terminal 300 or the like is used. Besides, a tablet terminal, a notebook PC, or the like may be used.
  • this technology can be applied in a virtual reality (VR) space.
  • VR virtual reality
  • the real object 3 with which the user 1 contacts is captured in the real space in which the user 1 who visually recognizes the VR space is actually active. This makes it possible to easily bring an object in the real space into the VR space.
  • a clone (virtual image 4) of the real object 3 can be exchanged between users who are experiencing the VR space, and communication can be activated.
  • the information processing method according to the present technology is executed by the controller mounted on the HMD or the like.
  • the information processing method and the program according to the present technology may be executed by another computer that can communicate with a controller mounted on the HMD or the like via a network or the like.
  • the virtual space display system according to the present technology may be constructed by linking the controller mounted on the HMD or the like with another computer.
  • the information processing method and the program according to the present technology can be executed not only in a computer system configured by a single computer but also in a computer system in which a plurality of computers operate in conjunction.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all the constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems.
  • the information processing method by the computer system, and the execution of the program include, for example, detection of a user's contact action, detection of a target area including a real object, generation of a virtual image, display control of a virtual image, etc. And the case where each process is executed by a different computer. Execution of each process by a predetermined computer includes causing a part or all of the process to be executed by another computer and acquiring the result.
  • the information processing method and program according to the present technology can also be applied to a cloud computing configuration in which one function is shared by a plurality of devices via a network and jointly processes.
  • “same”, “equal”, “orthogonal” and the like are concepts including “substantially the same”, “substantially equal”, “substantially orthogonal” and the like.
  • a state included in a predetermined range for example, ⁇ 10% range
  • a predetermined range for example, ⁇ 10% range
  • An acquisition unit that acquires one or more captured images of a real space
  • a motion detection unit that detects a contact motion that is a series of motions when a user contacts a real object in the real space
  • a region detection unit that detects a target region including the real object according to the detected contact motion
  • a display controller that extracts a partial image corresponding to the target area from the one or more captured images to generate a virtual image of the real object, and controls display of the virtual image according to the contact operation.
  • Information processing equipment (2) The information processing device according to (1),
  • the display control unit is an information processing device that generates the virtual image representing the real object that is not shielded by a shield.
  • the information processing device includes an operation of bringing the user's hand closer to the real object
  • the motion detection unit determines whether the state of the contact motion is a pre-contact state in which contact of the user's hand with the real object is predicted
  • the information processing apparatus wherein the acquisition unit controls the imaging device to acquire the one or more captured images when the contact operation state is determined to be the pre-contact state.
  • the information processing apparatus increases the image capturing resolution of the image capturing apparatus when the contact operation state is determined to be the pre-contact state.
  • the information processing device according to any one of (1) to (7), The motion detection unit detects a contact position between the real object and the hand of the user, The information processing apparatus, wherein the area detection unit detects the target area based on the detected contact position. (9) The information processing device according to (8), The information processing device, wherein the area detection unit detects, as the target area, a boundary of the real object including the contact position. (10) The information processing device according to (9), further comprising: A line-of-sight detection unit that detects the direction of the user's line of sight, The information processing device, wherein the area detection unit detects a boundary of the real object based on a line-of-sight direction of the user.
  • the information processing device (11) The information processing device according to (10), The line-of-sight detection unit detects a gaze position based on the line-of-sight direction of the user, The information processing apparatus, wherein the area detection unit detects, as the target area, a boundary of the real object including the contact position and the gaze position. (12) The information processing device according to any one of (9) to (11), The information processing device, wherein the area detection unit detects a boundary of the real object based on at least one of a shadow, a size, and a shape of the real object.
  • the information processing apparatus according to any one of (1) to (12),
  • the motion detection unit detects a fingertip position of the user's hand,
  • the information processing device, wherein the area detection unit detects the target area based on a trajectory of the fingertip position accompanying the movement of the fingertip position.
  • the display control unit is an information processing device that displays an area image representing the target area by superimposing the area image on the real object.
  • the information processing device according to (14), The area image is displayed so that at least one of shape, size, and position can be edited, The information processing apparatus, wherein the area detection unit changes the target area based on the edited area image.
  • the information processing apparatus according to any one of (1) to (15), The motion detection unit detects a contact position between the real object and the hand of the user, The display control unit controls the display of the virtual image according to the detected contact position.
  • the information processing apparatus according to any one of (1) to (16), The motion detection unit detects a gesture of the user's hand touching the real object, The display control unit controls the display of the virtual image according to the detected gesture of the hand of the user.
  • the virtual image is at least one of a two-dimensional image and a three-dimensional image of the real object.
  • a computer system executes extracting a partial image corresponding to the target area from the one or more captured images to generate a virtual image of the real object, and controlling display of the virtual image according to the contact operation.
  • Information processing method Acquire one or more captured images of the real space, Detects a contact motion that is a series of motions when the user touches a real object in the real space, Detecting a target area including the real object according to the detected contact motion, A computer system executes extracting a partial image corresponding to the target area from the one or more captured images to generate a virtual image of the real object, and controlling display of the virtual image according to the contact operation.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術の一形態に係る情報処理装置は、取得部と、動作検出部と、領域検出部と、表示制御部とを具備する。前記取得部は、実空間が撮影された1以上の撮影画像を取得する。前記動作検出部は、前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する。前記領域検出部は、前記検出された接触動作に応じて前記実物体を含む対象領域を検出する。前記表示制御部は、前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、仮想体験を提供する情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1には、実空間の画像を用いて仮想的な体験を提供するシステムが記載されている。このシステムでは、第1のユーザが装着したウェアラブルディスプレイ及び広角カメラを用いて、第1のユーザの視界を表現した画像が生成される。この画像は、第2のユーザに提示される。第2のユーザは、提示された画像にテキストやアイコン等の仮想オブジェクトを入力可能である。また、入力された仮想オブジェクトは、第1のユーザに提示される。これにより、ユーザ間で視覚を共有する仮想体験を実現することが可能となる(特許文献1の明細書段落[0015]-[0017][0051][0062]図1、3等)。
特開2015-95802号公報
 このように、実空間の画像等を用いて各種の仮想体験を提供する技術が開発されており、実空間と仮想空間とをシームレスにつなぐことが可能な技術が求められている。
 以上のような事情に鑑み、本技術の目的は、実空間と仮想空間とをシームレスにつなぐことが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、取得部と、動作検出部と、領域検出部と、表示制御部とを具備する。
 前記取得部は、実空間が撮影された1以上の撮影画像を取得する。
 前記動作検出部は、前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する。
 前記領域検出部は、前記検出された接触動作に応じて前記実物体を含む対象領域を検出する。
 前記表示制御部は、前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する。
 この情報処理装置では、実物体に触れるユーザの接触動作が検出され、接触動作に応じて実物体が含まれる対象領域が検出される。この対象領域に対応する部分画像が、実物体が存在する実空間を撮影した撮影画像から抽出され、実物体の仮想画像が生成される。そしてユーザの接触動作に応じて仮想画像の表示制御が実行される。これにより、実物体がキャプチャされた仮想画像を容易に表示させることが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成してもよい。
 これにより、遮蔽物による遮蔽のない実物体のクリアな画像を仮想空間に持ち込むことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 前記表示制御部は、前記1以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成してもよい。
 これにより、遮蔽のない実物体を表す仮想画像を容易に仮想空間に持ち込むことが可能となる。この結果、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 前記表示制御部は、前記仮想画像を前記実物体に重畳して表示してもよい。
 これにより、実物体上に実物体が複製された仮想画像が表示されることになる。この結果、仮想画像を簡単に取り扱うことが可能となり優れたユーザビリティが発揮される。
 前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記1以上の撮影画像を取得してもよい。
 これにより、例えば遮蔽のない実物体を表す精度のよい仮想画像を容易に生成することが可能となる。
 前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含んでもよい。この場合、前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定してもよい。また、前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記1以上の撮影画像を取得してもよい。
 これにより、例えばユーザが接触する直前の実物体を撮影することが可能となる。これにより、仮想画像の精度を十分に向上することが可能となる。
 前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くしてもよい。
 これにより、例えば解像度の高い仮想画像を生成することが可能となる。
 前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出してもよい。この場合、前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出してもよい。
 これにより、例えば簡単な動作でキャプチャの対象や範囲等を指定することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出してもよい。
 これにより、例えば実物体とそれ以外の領域とを精度よく切り分けることが可能となり、高精度な仮想画像を生成することが可能となる。
 前記情報処理装置は、さらに、前記ユーザの視線方向を検出する視線検出部を具備してもよい。この場合、前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出してもよい。
 これにより、キャプチャ対象となる実物体とそれ以外の領域との切り分け精度を向上することが可能となる。この結果、適正な仮想画像を生成することが可能となる。
 前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出してもよい。この場合、前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出してもよい。
 これにより、キャプチャ対象となる実物体とそれ以外の領域との切り分け精度を大幅に向上することが可能となり、装置の信頼性を十分に向上することが可能となる。
 前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも1つに基づいて、前記実物体の境界を検出してもよい。
 これにより、例えば実物体の状況等に係らず実物体の境界等を精度よく検出することが可能となる。この結果、装置のユーザビリティを十分に向上することが可能となる。
 前記動作検出部は、前記ユーザの手の指先位置を検出してもよい。この場合、前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出してもよい。
 これにより、例えばキャプチャの範囲を容易に設定することが可能となる。
 前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示してもよい。
 これにより、例えばキャプチャの範囲となる対象領域を確認することが可能となり、不要な仮想画像が生成されるといった事態を十分に回避することが可能となる。
 前記領域画像は、形状、サイズ、及び位置の少なくとも1つを編集可能に表示されてもよい。この場合、前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更してもよい。
 これにより、キャプチャの範囲を精度よく設定することが可能となり、例えば所望とする実物体の仮想画像等を容易に生成することが可能となる。
 前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出してもよい。この場合、前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御してもよい。
 これにより、例えば接触位置に合わせて、仮想画像を違和感なく表示させるといったことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出してもよい。この場合、前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御してもよい。
 これにより、例えば手のジェスチャーに合わせて仮想画像の表示の仕方を切り替えるといったことが可能となり、使いやすいインターフェースを提供することが可能となる。
 前記仮想画像は、前記実物体の2次元画像及び3次元画像の少なくとも1方であってもよい。
 これにより、実空間に存在する様々な実物体の仮想画像を生成することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実空間が撮影された1以上の撮影画像を取得することを含む。
 前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作が検出される。
 前記検出された接触動作に応じて前記実物体を含む対象領域が検出される。
 前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示が制御される。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
 実空間が撮影された1以上の撮影画像を取得するステップ。
 前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップ。
 前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップ。
 前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップ。
 以上のように、本技術によれば、実空間と仮想空間とをシームレスにつなぐことが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係るHMDの動作の概要を説明するための模式図である。 本技術の一実施形態に係るHMDの外観を模式的に示す斜視図である。 図2に示すHMDの構成例を示すブロック図である。 HMDの動作の一例を示すフローチャートである。 ユーザの実物体に対する接触動作の一例を示す模式図である。 領域自動検出モードにおけるキャプチャ領域の検出処理の一例を示す模式図である。 領域自動検出モードにおけるキャプチャ領域の検出処理の他の一例を示す模式図である。 キャプチャ領域の修正処理の一例を示す模式図である。 仮想画像の生成に用いられる撮影画像の一例を示す模式図である。 仮想画像の表示の一例を示す模式図である。 仮想画像の表示の一例を示す模式図である。 仮想画像の表示の一例を示す模式図である。 仮想画像の表示の一例を示す模式図である。 仮想画像の表示の他の一例を示す模式図である。 遮蔽物のあるキャプチャ領域の検出処理の一例を示す模式図である。 図15に示す検出処理により生成される仮想画像の一例を示す模式図である。 HMDの動作の他の一例を示すフローチャートである。 ユーザにより指定されるキャプチャ領域6の一例を示す模式図である。 他の実施形態に係るHMDの外観を模式的に示す斜視図である。 他の実施形態に係る携帯端末の外観を模式的に示す斜視図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [HMDの構成]
 図1は、本技術の一実施形態に係るHMDの動作の概要を説明するための模式図である。HMD100(Head Mount Display)は、透過型のディスプレイを備えたメガネ型の装置であり、ユーザ1の頭部に装着されて使用される。
 HMD100を装着するユーザ1は、現実の景色を視認すると同時に、透過型のディスプレイに表示される画像を視認することが可能となる。すなわち、HMD100を用いることで、ユーザ1の周囲の現実の空間(実空間)に仮想的な画像等を重畳して表示させることが可能となる。これにより、ユーザ1は拡張現実(AR:Augmented Reality)等を体験することが可能となる。
 図1Aは、ユーザ1が視覚する仮想空間(AR空間)の一例を示す模式図である。図1Aの左側の椅子には、HMD100を装着したユーザ1aが座っている。HMD100のディスプレイには、例えば机を挟んで反対側に座っている他のユーザ1bの画像が表示される。この結果、HMD100を装着したユーザ1aは、あたかも他のユーザ1bと対面して座っているような拡張現実感を体験することが可能となる。
 なお図中の実線で示された部分(ユーザ1aが座っている椅子、テーブル、及びテーブル上の書類2等)は、ユーザ1aが実際に存在する実空間に配置された実物体3(実オブジェクト)である。また、図中の点線で示された部分(他のユーザ1bとその椅子等)が、透過型のディスプレイに表示される画像であり、AR空間上の仮想画像4となる。本開示において、仮想画像4とは、例えば仮想空間内に表示される各種のオブジェクト(仮想オブジェクト)を表示するための画像である。
 このように、HMD100を装着することで、例えば他のユーザ1bが遠隔地にいるような場合であっても、ジェスチャーを交えた会話等を自然に行うことが可能となり、良好なコミュニケーションを実現することが可能となる。もちろん、ユーザ1aと他のユーザ1bとが同じ空間にいるような場合であっても、本技術は適用可能である。
 HMD100は、実空間内の実物体3の仮想画像4を生成して、AR空間に表示するキャプチャ機能を備える。例えば、HMD100を装着したユーザ1aが、テーブル上の書類2に手を伸ばし、書類2に手を触れたとする。この場合、HMD100では、ユーザ1aが手を触れた書類2の仮想画像4が生成される。本実施形態では、書類2は、実空間内の実物体3の一例である。
 図1Bには、ユーザ1aが書類2に触れる接触動作の一例が模式的に図示されている。例えばユーザ1aが書類2に手を触れると、キャプチャ対象となる書類2の領域(書類2の境界)等が検出される。この検出結果に基づいて、ユーザ1aが触れた書類2を表す仮想画像4(図中の斜線の領域)が生成され、HMD100のディスプレイ(AR空間)に表示される。キャプチャ対象の領域を検出する方法や、仮想画像4を生成する方法等については、後に詳しく説明する。
 例えば図1Bに示すように、ユーザ1aが手で机の上の書類2を剥がすようにこすると、キャプチャされた書類2(仮想画像4)が、実際の書類2の上にめくれたように表示される。すなわち、生成された仮想画像4が、あたかも実際の書類2がめくれたかのように、実際の書類2に重畳して表示される。なお、ユーザ1aは、実際に書類2をめくる必要はなく、例えば書類2めくるようなジェスチャーを行うだけで、仮想画像4を生成することが可能である。
 このように、HMD100では、ユーザ1aの手でキャプチャ対象となる実物体3(書類2)が指定され、対象の仮想画像4が生成される。キャプチャされた仮想画像4は実物体対象上に重畳して表示される。AR空間に表示された書類2の仮想画像4は、例えば仮想画像4を掴む、変形させる、移動させるといったユーザ1aの各種のジェスチャー等に応じて、AR空間内で自在に表示させることが可能である。
 また仮想画像4としてAR空間に持ち込まれた書類2は、仮想的なAR空間内を自由に移動させることが可能である。例えば図1Cには、ユーザ1aが仮想物となった書類2(仮想画像4)を掴んで、HMD100のディスプレイ上に表示されている遠隔地の他のユーザ1bに手渡す様子が示されている。仮想画像4を用いることで、例えばこのようなコミュニケーションを実現することが可能となる。
 このように、HMD100では、実空間(実世界)に存在する実物体3が簡易的にキャプチャされて仮想空間(仮想世界)で提示される。すなわち、HMD100は、実空間を簡易的にキャプチャする機能を備えるとも言える。これにより、AR空間等の仮想空間に実空間の物体を容易に持ち込むことが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。以下、HMD100の構成について具体的に説明する。
 図2は、本技術の一実施形態に係るHMD100の外観を模式的に示す斜視図である。図3は、図2に示すHMD100の構成例を示すブロック図である。
 HMD100は、フレーム10、左眼用レンズ11a及び右眼用レンズ11b、左眼用ディスプレイ12a及び右眼用ディスプレイ12b、左眼用カメラ13a及び右眼用カメラ13b、及び外向きカメラ14を有する。
 フレーム10は、メガネ型の形状でなり、リム部15及びテンプル部16を有する。リム部15は、ユーザ1の左右の眼の前方に配置される部分であり、左眼用レンズ11a及び右眼用レンズ11bをそれぞれ支持する。テンプル部16は、リム部15の両端からユーザ1の両耳に向けて後方に延在し、先端が両耳に装着される。リム部15及びテンプル部16は、例えば合成樹脂、金属等の材料で形成される。
 左眼用レンズ11a及び右眼用レンズ11bは、ユーザの視野の少なくとも一部を覆うように、ユーザの左右の眼の前方にそれぞれ配置される。典型的には、各レンズは、ユーザの視力を矯正するように設計される。もちろんこれに限定されず、いわゆる度無しレンズが用いられてもよい。
 左眼用ディスプレイ12a及び右眼用ディスプレイ12bは、透過型ディスプレイであり、左眼用及び右眼用レンズ11a及び11bの一部の領域を覆うように、それぞれ配置される。すなわち左眼用及び右眼用レンズ11a及び11bは、ユーザの左右の眼の前方にそれぞれ配置される。
 左眼用及び右眼用ディスプレイ12a及び12bには、左眼用及び右眼用の画像等がそれぞれ表示される。各ディスプレイ12a及び12bには、例えば仮想画像4等の仮想的な表示物(仮想オブジェクト)が表示される。従って、HMD100を装着したユーザ1は、各ディスプレイ12a及び12bに表示された仮想画像4が重畳された実空間の景色(実物体3等)を視覚することになる。
 左眼用及び右眼用ディスプレイ12a及び12bとしては、例えば透過型の有機ELディスプレイやLCD(Liquid Crystal Display、液晶表示素子)ディスプレイ等が用いられる。この他、左眼用及び右眼用ディスプレイ12a及び12b具体的な構成は限定されず、例えば透明なスクリーンに画像を投影して表示する方式や、プリズム等を用いて画像を表示する方式等の任意の方式の透過型ディスプレイが適宜用いられてよい。
 左眼用カメラ13a及び右眼用カメラ13bは、ユーザ1の左眼及び右眼を撮像可能なように、フレーム10に適宜設置される。例えば、左眼用及び右眼用カメラ13a及び13bにより撮影された左眼及び右眼の画像に基づいて、ユーザ1の視線やユーザ1が注視している注視点等を検出することが可能である。
 左眼用及び右眼用カメラ13a及び13bとしては、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線LED等の赤外線照明を搭載した赤外線カメラが用いられてもよい。
 以下では、左眼用レンズ11a及び右眼用レンズ11bをともにレンズ11と記載し、左眼用ディスプレイ12a及び右眼用ディスプレイ12bをともに透過型ディスプレイ12と記載する場合がある。また、左眼用カメラ13a及び右眼用カメラ13bをともに内向きカメラ13と記載する場合がある。
 外向きカメラ14は、フレーム10(リム部15)の中央に、外側(ユーザ1とは反対側)に向けて配置される。外向きカメラ14は、ユーザ1の周辺の実空間を撮影し、実空間が撮影された撮影画像を出力する。外向きカメラ14の撮影範囲は、例えばユーザ1の視野と略同様か、ユーザ1の視野よりも広い範囲となるように設定される。すなわち、外向きカメラ14は、ユーザ1の視界を撮影しているとも言える。本実施形態では、外向きカメラ14は、撮影装置に相当する。
 外向きカメラ14としては、例えばCMOSセンサやCCDセンサ等のイメージセンサを備えるデジタルカメラが用いられる。また例えば、実空間の奥行情報等を検出可能なステレオカメラやTOF(Time of Flight)センサ等を備えたカメラ等が、外向きカメラ14として用いられてもよい。外向きカメラ14の具体的な構成は限定されず、例えば所望の精度で実空間を撮影可能な任意のカメラが、外向きカメラ14として用いられてよい。
 図3に示すように、HMD100はさらに、センサ部17と、通信部18と、記憶部20と、コントローラ30とを有する。
 センサ部17は、周辺環境の状態、HMD100の状態、及びユーザ1の状態等を検出する各種のセンサ素子を備える。本実施形態では、センサ素子として、対象までの距離を測定する距離センサ(Depthセンサ)が搭載される。例えば上記したステレオカメラ等は、距離センサの一例である。この他、LiDARセンサや各種のレーダセンサ等が距離センサとして用いられてよい。
 またセンサ素子として、例えば3軸加速度センサ、3軸ジャイロセンサ、及び3軸コンパスセンサを含む9軸センサや、HMD100の現在位置の情報を取得するGPSセンサ等が用いられてもよい。また、ユーザ1の生体情報を検出する脳波センサ、筋電センサ、脈拍センサ等の生体センサ(心拍)が用いられてもよい。
 またセンサ部17は、ユーザの音声や周辺の音情報を検出するマイクを備える。例えばユーザが発話した音声等が適宜検出される。これにより、例えばユーザは、音声通話をしながらAR体験を行うことや、音声入力を用いたHMD100の操作入力を行うことが可能である。この他、センサ部17として設けられるセンサ素子等は限定されない。
 通信部18は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。
 記憶部20は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。
 記憶部20には、撮影画像データベース21が格納される。撮影画像データベース21は、例えば外向きカメラ14により撮影された実空間の画像を記憶するデータベースである。また外向きカメラ14とは異なる他のカメラ等により撮影された実空間の画像等が撮影画像データベース21に記憶されてもよい。
 撮影画像データベース21には、例えば、実空間の撮影画像と、各撮影画像の撮影状況に関する撮影情報とが関連づけられて記憶される。撮影情報としては、例えば撮影画像を撮影した際の、撮影時刻、撮影時のHMD100の位置、撮影方向(HMD100の姿勢等)、撮影解像度、撮影倍率、露光時間等が記憶される。この他、撮影画像データベース21の具体的な構成は限定されない。本実施形態では、撮影画像データベースは、撮影装置の出力が記憶されたデータベースに相当する。
 また記憶部20には、HMD100の全体の動作を制御するための制御プログラム22が記憶される。撮影画像データベース21及び制御プログラム22を、HMD100にインストールする方法は限定されない。
 コントローラ30は、本実施形態に係る情報処理装置に相当し、HMD100が有する各ブロックの動作を制御する。コントローラ30は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部20に記憶されている制御プログラム22をRAMにロードして実行することにより、種々の処理が実行される。
 コントローラ30として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific Integrated Circuit)等のデバイスが用いられてもよい。
 本実施形態では、コントローラ30のCPUが本実施形態に係るプログラムを実行することで、機能ブロックとして画像取得部31、接触検出部32、視線検出部33、領域検出部34、及びAR表示部35が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 画像取得部31は、実空間が撮影された1以上の撮影画像を取得する。例えば、画像取得部31は、外向きカメラ14を適宜制御して外向きカメラ14により撮影された撮影画像を読み込む。この場合、画像取得部31は、リアルタイムで撮影された画像を取得可能である。
 例えば、後述する接触検出部32によりユーザ1と実物体3が接触しそうであると通知を受けると、画像取得部31は、外向きカメラ14を制御して実物体3をキャプチャするための撮影を開始させる。また外向きカメラ14が常時撮影を実行しているようなケースでは、外向きカメラ14の撮影パラメータが変更され、より高解像度な映像の撮影に切り替えられる。すなわち、画像取得部31は、実物体3をキャプチャするための撮影のモードに切り替わるように、外向きカメラ14を制御する。この点については、図5等を参照して後に詳しく説明する。
 また例えば、画像取得部31は、記憶部20に適宜アクセスして撮影画像データベース21に記憶された撮影画像40を読み込む。すなわち、画像取得部31は、撮影画像データベース21を適宜参照して、過去に撮影された撮影画像を取得することが可能である。
 このように、本実施形態では、画像取得部31は、実空間を撮影する外向きカメラ14、及び外向きカメラ14の出力が記憶された撮影画像データベース21の少なくとも一方から、1以上の撮影画像を取得する。取得された撮影画像は、例えば他の機能ブロックに適宜供給される。また、外向きカメラ14から取得された撮影画像は、撮影画像データベース21に適宜格納される。本実施形態では、画像取得部31は、取得部に相当する。
 接触検出部32は、実空間内の実物体3に対してユーザ1が接触する際の一連の動作である接触動作を検出する。接触動作の検出には、例えばセンサ部17として搭載された距離センサ等により検出された奥行情報や、外向きカメラ14により撮影されたユーザ1の視界の画像(撮影画像)等が用いられる。
 本開示において、接触動作とは、ユーザ1が実物体3に触れる際に行う一連の動作(ジェスチャー)であり、典型的には、ユーザ1の手(手指)が実物体3に触れるようにユーザ1が行う動作である。例えば、ユーザ1の手が実物体3に触れる際のユーザの手指の動作(ハンドジェスチャー)は接触動作である。例えば、書類2(実物体3)をつまむ、めくる、つかむ、タップする、ずらす等のハンドジェスチャーが、接触動作に含まれる。なおハンドジェスチャーは、実物体3に触れた状態で行われるジェスチャーに限定されない。例えばユーザ1が実物体3をつまむために指を広げる、あるいは狭めるといった、実物体3に触れていない状態で行われるハンドジェスチャー等も、接触動作となる。
 また、接触動作は、実物体3に対してユーザ1が手を接近させる動作を含む。すなわち、実物体3に触れるために、対象となる実物体3にユーザ1が手を伸ばす動作も接触動作に含まれる。例えば、ユーザ1が手を移動して書類2(実物体3)に手を接近させる動作(接近動作)は、接触動作である。従って、接触検出部32は、ユーザ1の接触動作として、接近動作や接触時のハンドジェスチャー等の、ユーザが実物体3に接触する際に行う一連の動作を検出すると言える。
 接触検出部32は、接触動作の状態を判定する。例えば、接触検出部は、接触動作の状態が、実物体3に対するユーザ1の手の接触が予測される接触前状態であるか否かを判定する。すなわち、ユーザ1の手が実物体3に接触しそうかどうかが判定される。例えば、ユーザ1の手指と、周辺の実物体3との距離が一定の閾値よりも小さい場合等には、ユーザ1の手が実物体3に接触しそうであるとして、ユーザ1の接触動作が接触前状態であると判定される(図4のステップ102参照)。この場合、手指と実物体3との距離が閾値よりも小さく、かつ手指が実物体3に接触していない状態が接触前状態となる。
 また接触検出部32は、接触動作の状態が、ユーザ1の手と実物体3とが接触した接触状態であるか否かを判定する。すなわち、接触検出部32は、ユーザ1の手指の実物体3の表面(平面)への接触を検出する。
 ユーザ1と実物体3との接触が検出されると、接触検出部32は、ユーザ1の手と実物体3との接触位置Pを検出する。接触位置Pとしては、例えばHMD100に設定された所定の座標系における、ユーザ1の手と実物体3とが接触する位置の座標等が検出される。
 接触動作等を検出する方法は限定されない。例えば、接触検出部32は、HMD100に取り付けられた距離センサ等を用いて、ユーザ1の手の位置及び、周辺の実物体3の位置を適宜計測する。各位置の計測結果に基づいて、例えば、接触前状態であるか否かが判定され、ユーザ1の手が実物体3に接触しそうかどうかが検出される。また例えば、接触状態であるか否かが判定され、手が実物体3に接触したかどうかが検出される。
 接触しそうであるか否かの検出には、例えば機械学習による予測処理や、ユーザ1の手と実物体3との距離が縮まったことを利用した予測処理等が用いられる。この他、ユーザ1の手の移動方向や移動速度等に基づいて、ユーザ1と実物体3との接触を予測するといった処理が実行されてもよい。
 また接触検出部32は、外向きカメラ14により撮影された撮影画像等に基づいてユーザ1のハンドジェスチャーを検出する。例えば、撮影画像内の手指の領域を検出してジェスチャーを検出する方法や、各指の指先を検出してジェスチャーを検出する方法等が適宜用いられる。また機械学習等を用いたハンドジェスチャーの検出処理が実行されてもよい。この他、ハンドジェスチャーを検出する方法等は限定されない。
 視線検出部33は、ユーザ1の視線方向を検出する。例えば内向きカメラ13により撮影されたユーザ1の左眼及び右眼の画像に基づいて、ユーザ1の視線方向が検出される。また視線検出部33は、ユーザ1の視線方向に基づいて注視位置Qを検出する。例えば、ユーザ1が実空間内のある実物体3を見ている場合、その実物体3と、ユーザ1の視線方向とが交わる位置が、ユーザ1の注視位置Qとして検出される。
 ユーザ1の視線方向や注視位置Qを検出する方法は限定されない。例えば、赤外線カメラ(内向きカメラ13)及び赤外光源が搭載された構成では、赤外光源から出射された赤外線の反射(輝点)が映り込んだ眼球の画像が撮影される。この場合、赤外線の輝点と瞳孔位置とから視線方向が推定され、注視位置Qが検出される。
 また、眼球の画像に基づいて、目じり等の特徴点を基準に視線方向及び注視位置Qを推定する方法等が用いられてもよい。また眼球が帯電することで生じる眼電位等の変化に基づいて、視線方向や注視位置Qが検出されてもよい。この他、ユーザ1の視線方向及び注視位置Q等を検出可能な任意のアルゴリズム等が用いられてよい。
 領域検出部34は、接触検出部32により検出された接触動作に応じて実物体3を含むキャプチャ領域を検出する。キャプチャ領域とは、例えば実物体3が撮影(キャプチャ)された仮想画像4を生成するための領域である。すなわち、仮想画像4としてキャプチャされるべき実物体3が含まれる領域が、キャプチャ領域となるとも言える。本実施形態では、キャプチャ領域は、対象領域に相当する。
 例えば、ユーザ1が実物体3に接触した状態が撮影された撮影画像(以下、接触画像と記載する)が取得される。領域検出部34は、接触画像を解析して仮想画像4としてキャプチャされるべき接触画像内の範囲(キャプチャ領域)を検出する。なお、接触画像からキャプチャ領域を検出する場合に限定されない。例えばユーザ1の接触位置等に基づいて、接触画像以外の撮影画像からキャプチャ領域が検出されてもよい。
 本実施形態では、キャプチャ領域を自動的に検出する領域自動検出モードが実行される。領域自動検出モードでは、例えば、ユーザ1が接触した実物体3がキャプチャ対象として自動的に識別される。そしてキャプチャ対象となる実物体3の表面の広がり、すなわち、ユーザ1が触れている実物体3の境界(周縁)を表す領域がキャプチャ領域として検出される。また、ユーザ1が触れている実物体3と関連する実物体3の境界(周縁)を表す領域がキャプチャ領域として検出されてもよい。例えばユーザ1が触れた書類の上面や背面等にある書類の境界がキャプチャ領域として検出されてもよい。あるいは、バインダ等で綴じられた一方の書類に触れた際に、他方の書類を含むようなキャプチャ領域が検出されてもよい。
 このように、領域自動検出モードでは、ユーザ1がどの面に触れようとしているのか、その面の広がりはどこまであるのかが検出される。これにより、ユーザ1が接触した面の範囲(書類2や、ホワイトボード等の範囲)を識別することが可能となる。キャプチャ領域を自動的に検出する方法等は限定されず、例えば物体検出や境界認識等が可能な任意の画像解析処理や、機械学習等による検出処理等が適宜用いられてよい。
 また本実施形態では、ユーザ1により指定されたキャプチャ領域を検出する領域手動指定モードが実行される。領域手動指定モードでは、例えば、ユーザ1が実物体3をなぞる動作等が適宜検出され、ユーザ1により指定された範囲がキャプチャ領域として検出される。領域自動検出モード及び領域手動指定モードについては、後に詳しく説明する。
 AR表示部35は、HMD100の透過型ディスプレイ12に表示されるAR画像(仮想画像4)を生成し、その表示を制御する。例えば、HMD100の状態やユーザ1の状態等に応じて、AR画像を表示するさいの位置・形状・姿勢等を算出する。
 AR表示部35は、1以上の撮影画像からキャプチャ領域に対応する部分画像を抽出して実物体3の仮想画像4を生成する。部分画像は、例えばキャプチャ領域に対応する撮影画像の一部が切り出して生成された画像である。この切り出された部分画像に基づいて、AR空間に表示するための仮想画像4が生成される。従って、仮想画像4は、AR空間に合わせて加工された部分画像であるとも言える。
 例えば、書類2やホワイトボード等の2次元的な広がりを持った実物体3がキャプチャされる場合、実物体3の表面に書かれた内容を表示する2次元的な広がりを持った仮想画像4が生成される。この場合、仮想画像4は、実物体3の2次元画像となる。
 またHMD100では、立体的な形状の実物体3をキャプチャすることも可能である。例えば、AR空間において実物体3の立体的な形状を表すことが可能なように仮想画像4が生成される。この場合、仮想画像4は、実物体3の3次元画像となる。このように、AR表示部35は、実物体3の形状に応じて仮想画像4を生成する。
 またAR表示部35は、遮蔽物により遮蔽されていない実物体3を表す仮想画像4を生成する。ここで遮蔽物により遮蔽された状態とは、実物体3の一部が遮蔽物(他の物体等)により隠されている状態である。例えば、実物体3にユーザ1の手が接触した状態で撮影された接触画像では、実物体3の一部がユーザ1の手で隠されることが考えられる。この場合、ユーザ1の手が実物体3を遮蔽する遮蔽物となる。
 本実施形態では、AR表示部35により、実物体3が遮蔽されることなく、実物体3の全体が表示されるような仮想画像4が生成される。従って、仮想画像4は、キャプチャ対象となる実物体3全体を表すクリアな画像となる(図9等参照)。このような仮想画像4は、例えば遮蔽のない状態で実物体3が撮影された撮影画像から、部分画像が生成可能である。なお、実物体3の一部が遮蔽された仮想画像4が生成される場合もあり得る(図16A等参照)。
 AR表示部35は、生成された仮想画像4を、実物体3と重なるように透過型ディスプレイ12に表示する。すなわち、クリアな実物体3の画像(仮想画像4)が実物体3上に重畳表示される。また仮想画像4は、実物体3に接触しているユーザ1の手の動作(ハンドジェスチャー)等に合わせて表示される。例えば実物体3に触れる動作の種類(実物体3をタップする、こする等)ごとに、仮想画像4の表示の種類が変更される。このように、AR表示部35は、ユーザ1の接触動作に応じて仮想画像4の表示を制御する。
 実物体3の仮想画像4を生成する方法や、仮想画像4を表示する方法等については、後に詳しく説明する。本実施形態では、AR表示部35は、表示制御部に相当する。
 [HMDの動作]
 図4は、HMD100の動作の一例を示すフローチャートである。図4に示す処理は、領域自動検出モードで実行される処理であり、例えばHMD100の動作中に繰り返し実行されるループ処理である。
 接触検出部32により、ユーザ1の手指位置と、ユーザ1の手指の周辺に存在する実物体3の表面位置とが計測される(ステップ101)。ここでは、例えば手指の周辺に存在する任意の実物体3の表面の位置が計測される。なおこのタイミングでは、ユーザ1が触れようとしている実物体3が識別される必要はない。
 例えば、距離センサにより検出された奥行情報に基づいて、HMD100(距離センサ)に設定された座標系におけるユーザ1の手指の位置と実物体3の表面位置とが計測される。この場合、ユーザ1の手指とその周辺の実物体3との空間的な配置関係が計測されるとも言える。手指位置としては、例えば実物体3に向けられたユーザ1の指先が検出される。また表面位置としては、例えばユーザ1の手指の近くの実物体3の表面を表す形状等が検出される。
 また外向きカメラ14によりユーザ1の視界が撮影されている場合等には、奥行情報と撮影画像とから、手指位置及び表面位置(手指と実物体との配置)が適宜検出されてもよい。外向きカメラ14を用いることで、各位置の検出精度を向上することが可能である。この他、手指位置及び表面位置を検出する方法は限定されない。
 接触検出部32により、ユーザ1の手指が、実物体3の表面に接触しそうであるか否かが判定される(ステップ102)。すなわち、ユーザ1の接触動作の状態が、接触が予測される接触前状態であるか否かが判定される。
 接触前状態の判定としては、例えば手指位置と表面位置との距離の閾値判定が実行される。すなわち、手指位置と表面位置との距離が、所定の閾値よりも大きいか否か等が判定される。所定の閾値は、例えば実物体3のキャプチャ処理が適正に実行可能となるように適宜設定される。
 例えばユーザ1の手指位置と実物体3の表面位置との距離が、所定の閾値よりも大きい場合には、ユーザ1の手指は実物体3から十分に離れているとして、接触前状態ではないと判定される(ステップ102のNo)。この場合、ステップ101に戻り、次のタイミングでの手指位置及び表面位置が計測され、接触前状態であるか否かの判定が実行される。
 手指位置と表面位置との距離が、所定の閾値以下である場合には、ユーザ1の手指は実物体3に接近した状態であるとして、接触が予測される接触前状態であると判定される(ステップ102のYes)。この場合、画像取得部31により、外向きカメラ14が制御され、キャプチャに適した設定で実空間の撮影が開始される(ステップ103)。すなわち、実物体3とユーザ1とのインタラクション発生が予測される際に、撮影モードを切り替えて詳細なキャプチャが開始される。
 具体的には、画像取得部31により、外向きカメラ14の撮影解像度、露光時間、撮影間隔等の各撮影パラメータが、キャプチャ用の値に設定される。キャプチャ用の値は、例えば所望の仮想画像4が生成可能なように適宜設定される。
 例えば、外向きカメラ14が、ユーザ1の視界を常時撮影しているような構成では、画像のデータ量を抑えるようなモニタリング用の撮影解像度が設定される。このモニタリング用の撮影解像度が、より詳細なキャプチャ用の撮影解像度に変更される。すなわち、画像取得部31は、接触動作の状態が、接触前状態であると判定された場合、外向きカメラ14の撮影解像度を高くする。これにより、例えば解像度の高い詳細なキャプチャ画像(仮想画像4)を生成することが可能となる。
 また例えば、外向きカメラ14の露光時間が、所望の明るさやコントラストの画像が撮影されるように適宜設定される。あるいは、後述するように十分な数の撮影画像が撮影可能となるように、撮影間隔が適宜設定される。
 外向きカメラ14の各撮影パラメータがキャプチャ用の値に設定され、撮影モードが切り替えられると、外向きカメラ14による実空間の撮影(ユーザ1の視界の撮影)が開始される。外向きカメラ14により撮影された撮影画像は、画像取得部31により適宜読み込まれる。なお、この撮影処理は、例えば仮想画像4を生成するための所定の条件が満たされるまで繰り返し実行される。
 図5は、ユーザ1の実物体3に対する接触動作の一例を示す模式図である。図5Aには、接触前状態であると判定されたタイミングでのユーザ1の手指5及び実物体3(書類2)が模式的に図示されている。なお図5Aに示す書類2が接触動作の対象(キャプチャ対象)であるか否かは、図5Aに示す状態では識別されていない。
 図5Aに示す状態では、外向きカメラ14の撮影範囲(図中の点線)には、ユーザ1の手指5と、書類2の一部が含まれる。例えばこのような撮影範囲で、高解像度な撮影画像が撮影される。この場合、撮影画像は、書類2の一部のみが撮影された画像となる。
 図5Bには、図5Aに示す状態よりもユーザ1の手指5が実物体3に接近した接触前状態が示されている。図5Bに示す状態では、外向きカメラ14の撮影範囲に、書類2全体が含まれる。またユーザ1の手指5は、書類2に接触しておらず、書類2は遮蔽物による遮蔽のない状態で撮影される。すなわち、図5Bに示す状態で撮影された撮影画像は、遮蔽物により遮蔽されていない書類2(実物体3)が撮影された画像となる。
 図5Cには、ユーザ1の手指5と実物体3とが接触した接触状態が示されている。外向きカメラ14による撮影処理は、接触状態においても継続される場合がある。この場合、外向きカメラ14の撮影範囲に、書類2全体が含まれるが、書類2の一部はユーザ1の手指に遮蔽された状態となる。この場合、撮影画像は、書類2の一部が遮蔽された画像となる。
 外向きカメラ14による撮影処理では、例えば図5A~図5Cに示すような状態での撮影が実行され、各状態での撮影画像が適宜読み込まれる。このように、画像取得部31は、接触動作の状態が、接触前状態であると判定された場合、外向きカメラ14を制御して1以上の撮影画像を取得する。すなわち、画像取得部31は、キャプチャ用の設定で撮影された映像(キャプチャ映像)を取得するともいえる。
 外向きカメラ14によるキャプチャ用の撮影処理が実行される期間等は限定されない。例えば仮想画像4が生成されるまで、撮影処理が継続されてもよい。あるいは、所定回数の撮影処理が実行された場合に、撮影処理が終了されてもよい。また例えば、所定回数の撮影処理の後、仮想画像4の生成に必要な撮影画像がなかった場合等に、撮影処理を再開するといった処理が実行されてもよい。この他、仮想画像4を適正に生成可能となるように、撮影処理の回数やタイミング等が適宜設定されてよい。
 図4に戻り、キャプチャ用の撮影処理が開始されると、ユーザ1の手指5が実物体3の表面に接触したか否かが判定される(ステップ104)。すなわち、ユーザ1の接触動作の状態が、接触状態となっているか否かが判定される。
 接触状態の判定としては、例えば手指位置と表面位置との距離の閾値判定が実行される。例えば手指位置と表面位置との距離が、接触検出用の閾値よりも大きい場合、接触状態ではないと判定され、接触検出用の閾値以下の場合、接触状態であると判定される。接触状態を判定する方法は限定されない。
 例えば、図5A及び図5Bでは、ユーザ1の手指5と実物体3(書類2)とが、接触検出用の閾値より離れている。この場合、ユーザ1の手指5は実物体3の表面に接触していないと判定され(ステップ104のNo)、接触状態の判定が再度実行される。
 また例えば図5Cでは、ユーザ1の手指5と実物体3(書類2)との距離が接触検出用の閾値以下となっている。この場合、ユーザ1の手指5は実物体3の表面に接触していると判定され(ステップ104のYes)、領域検出部34により、ユーザ1の手指5が接触した表面の範囲(キャプチャ領域)を検出する処理が実行される(ステップ105)。
 図6は、領域自動検出モードにおけるキャプチャ領域の検出処理の一例を示す模式図である。図6には、ユーザ1の手指5が書類2(実物体3)に接触しているタイミングで撮影された撮影画像40(接触画像41)が模式的に図示されている。なお、ユーザ1の手指5は、点線を用いて模式的に図示されている。
 図6に示す例では、重なって配置されている複数の書類2のうち、最上部に置かれた書類2にユーザ1の手指5が接触している。従って、最上部の書類2が、ユーザ1の接触動作の対象、すなわちキャプチャ対象となる。
 本実施形態では、接触が検出された場合に、接触検出部32により、実物体3とユーザ1の手との接触位置Pが検出される。例えば図6では、最上部の書類2に接触しているユーザ1の人差し指の指先の位置が、接触位置Pとして検出される。なお、ユーザ1が複数の指で実物体3に触れる場合には、実物体3に触れた各指の指先の位置等が接触位置Pとして検出されてもよい。
 図6に示す処理では、接触検出部32により検出された接触位置Pに基づいてキャプチャ領域6が検出される。具体的には、領域検出部34により、キャプチャ領域6として、接触位置Pを含む実物体3の境界7が検出される。ここで実物体3の境界7とは、例えば単一の実物体3の表面の外縁であり、実物体3の連続する表面の範囲を表す境目である。
 例えば接触画像41において、接触位置Pは、最上部の書類2上で検出される。すなわち、最上部の書類2は、接触位置Pを含む実物体3となる。領域検出部34では、所定の画像処理を実行して、最上部の書類2の境界7が検出される。すなわち、ユーザ1の手指5が触れている面の接触点(接触位置P)をヒントに画像処理によって連続する面の領域(キャプチャ領域6)が自動的に検出される。図6に示す例では、最上部の書類2の境界7に対応する矩形状のキャプチャ領域6が検出される。
 例えば、接触画像41において色が不連続に変化する部位が境界7として検出される。あるいは、接触画像41内の連続線(直線等や曲線等)を検出することで境界7が検出されてもよい。またキャプチャ対象が書類2等である場合には、書類表面の文字の並び等を検出することで、境界7が検出されてもよい。
 また例えば厚みのある書類2や、めくれている書類2等では、その外縁に影が発生することが考えられる。このような実物体3の影に基づいて、実物体3の境界7が検出されてもよい。これにより、背景と同色であるような実物体3についてもそのキャプチャ領域6を適正に検出することが可能である。
 またキャプチャ対象となる実物体3のサイズに基づいて、実物体3の境界7が検出されてもよい。実物体3のサイズは、例えば実空間におけるサイズであり、ユーザ1の手の大きさや、奥行情報等に基づいて適宜推定される。例えば、ユーザ1が手で持てるようなサイズの範囲が適宜設定され、その範囲に収まるように実物体3の境界7等が検出される。従って、例えば机に置かれた書類2(実物体3)に手を触れた場合には、机ではなく、書類2の境界7が検出される。これにより、不必要に大きいあるいは小さいサイズの境界等が検出されることが回避され、キャプチャ領域6を適正に検出することが可能となる。
 また例えば、書類2等のように形状が定まっている実物体3については、その形状に基づいて、実物体3の境界7が検出されてもよい。実物体3の形状は、例えば実空間における形状である。例えば斜めに撮影された接触画像41に対して、台形補正等の補正処理を実行することで正面から見た場合の形状を推定することが可能である。例えば、アスペクト比等の形状に関する情報に基づいてA4形状やはがき形状等の書類2の境界7が検出される。なお、実物体3のサイズや形状に関する情報は、例えば外部のネットワーク等を介して取得されてもよいし、撮影画像データベース21等に記憶された過去の撮影画像40に基づいて取得されてもよい。この他、実物体3の境界7を検出可能な任意の方法が用いられてよい。
 図7は、領域自動検出モードにおけるキャプチャ領域の検出処理の他の一例を示す模式図である。図7に示す処理では、接触位置Pとユーザ1の注視位置Qとに基づいてキャプチャ領域6が検出される。すなわち、ユーザ1の手指5が触れようとしている面の広がりの検出のためにユーザ1の視線が用いられる。
 例えば、視線検出部33により、接触画像41が撮影されたタイミングで検出されたユーザ1の視線方向に基づいて、接触画像41におけるユーザ1の注視位置Qが検出される。例えば図7に示すように、ユーザ1は、選択された実物体3(最上部の書類2)を視線でも同時に見ている可能性が高いため、ユーザ1の注視位置Qは、実物体3上で検出される可能性が高い。
 図7に示す処理では、領域検出部34により、キャプチャ領域6として、接触位置P及び注視位置Qを含む実物体3の境界7が検出される。すなわち、接触位置Pと注視位置Qとが存在する連続した表面の境界7が検出される。境界7を検出する方法としては、例えば図6を参照して説明した各種の方法が用いられる。これにより、キャプチャ領域6(対象となる実物体3の境界7)の検出精度を大幅に向上することが可能となる。
 なお注視位置Qを用いる場合に限定されない。例えばユーザ1の視線方向に基づいてユーザの注視領域を算出し、接触画像41において、接触位置Pと注視領域とが含まれる実物体3の境界7を検出するといった処理が実行されてもよい。この他、ユーザ1の視線方向等を利用した任意の方法を用いて、実物体3の境界7が検出されてよい。
 このように、領域検出部34は、ユーザ1の視線方向に基づいて、実物体3の境界7を検出する。これにより、ユーザ1が接触しようとした対象を高精度に判定し、その境界7を適正に検出することが可能となる。この結果、ユーザ1が所望とする実物体3を適正にキャプチャすることが可能となり、装置の信頼性を向上することが可能となる。
 なお、ユーザ1が接触対象以外の場所を見ている場合等には、接触位置Pと注視位置Qとが同一の実物体3上で検出されないこともあり得る。このような場合、接触位置Pが含まれる実物体3の境界7がキャプチャ領域6として検出される。これにより、誤った領域が検出されるといった事態を十分に回避することが可能である。
 図6又は図7等に示す処理により検出されたキャプチャ領域6(実物体3の境界7)に関する情報は、AR表示部35に出力される。
 本実施形態では、AR表示部35は、キャプチャ領域6を表す領域画像42を実物体3に重畳して表示する。例えば図6及び図7に示す例では、最上部の書類2の境界7を表す領域画像42が生成され、最上部の書類2の境界7と重なるように、透過型ディスプレイ12に表示される。この結果、ユーザ1は、これからキャプチャされる実空間上の領域を視覚することが可能となる。
 領域画像42の具体的な構成は限定されない。例えば所定の色で表示された線等を用いて、キャプチャ領域6が表されてもよい。あるいは、キャプチャ領域6を表す線等が点滅等のアニメーションにより表示されてもよい。また、キャプチャ領域6全体が、透明性のある所定のパターン等を用いて表示されてもよい。
 なお、領域画像42の表示は、例えばユーザ1(HMD100)の視点が変化した場合であっても、実物体3に重畳されるように、形状や表示位置等が適宜調整されて表示される。このように、AR表示で可視化されたキャプチャ領域6(矩形領域枠等)は、以下で説明するように、手動操作で修正される。
 図4に戻り、キャプチャ領域6が検出されると、キャプチャ領域6を修正するためのユーザ1の入力操作が受け付けられる(ステップ106)。すなわち、ステップ106では、ユーザ1は手動によりキャプチャ領域6を修正することが可能となる。
 図8は、キャプチャ領域6の修正処理の一例を示す模式図である。図8には、図6及び図7を参照して説明した接触画像41と同様の画像が示されている。また最上部の書類2(実物体3)の境界7には、修正用の領域画像42が模式的に図示されている。
 本実施形態では、領域画像42は、形状、サイズ、及び位置の少なくとも1つを編集可能に表示される。HMD100では、例えばユーザ1の手指5の位置等を検出することで、表示画面(透過型ディスプレイ12)上でのユーザ1による入力操作が検出される。領域画像42は、このようなユーザ1の入力操作(修正操作)に応じて編集可能なように表示される。
 図8に示す例では、ユーザ1の左手の指先がキャプチャ領域6の左側の辺と重なる位置に配置される。またユーザ1の右手の指先がキャプチャ領域6の右側の辺と重なる位置に配置される。この場合、AR表示部35では、キャプチャ領域6の左右の辺を選択するユーザ1の操作入力が受け付けられる。なお図8では、選択された左右の辺が点線を用いて図示されている。このように、各部が選択されたことを示すように、キャプチャ領域6の表示が適宜変更されてもよい。
 例えばユーザ1が左手を左側に動かし、右手を右側に動かした場合、キャプチャ領域6の左側の辺は左側にドラッグされ、右側の辺は右側にドラッグされる。この結果、可視化されたキャプチャ領域6は、ユーザ1が手で広げることにより左右方向に拡大され、サイズ及び形状が修正される。もちろん、キャプチャ領域6を上下方向に拡大することも可能である。
 またキャプチャ領域6の位置を修正可能であってもよい。例えばユーザ1がキャプチャ領域6の内側に手指5を配置してその手指5を動かした場合に、手指の移動方向や手指の移動量に応じてキャプチャ領域6を移動するといった修正操作が受け付けられてもよい。この他、領域画像42は、ユーザ1のハンド操作に応じた任意の修正操作を受け付け可能となるように表示される。
 このように、キャプチャ領域6の検出処理によってキャプチャする実物体3の範囲が自動的に確定するが、この範囲を更に手動で修正することが可能である。これにより、キャプチャ領域6の微調整等を容易に実行することが可能となり、ユーザ1が所望とする範囲が適正に撮影された仮想画像4等を生成することが可能となる。ユーザ1による修正操作が終了すると、編集された領域画像42に基づいてキャプチャ領域6が変更される。
 なお、キャプチャ領域6の修正(編集)が実行されている間にも、ステップ103で説明した、キャプチャ用の撮影画像40の撮影処理が継続されていてもよい。この場合、キャプチャ用の外向きカメラ14の設定を、編集後のキャプチャ領域6の撮影に最適な撮影パラメータに変更するといった処理が実行される。
 例えば、外向きカメラ14が光学ズーム機能等を備えている場合には、編集後のキャプチャ領域6に合わせて、外向きカメラ14の光学ズーム率等が適宜調整される。これにより、例えばキャプチャ領域6のサイズが小さい場合であっても、高解像度の仮想画像4等を生成することが可能となる。もちろん、他の撮影パラメータが変更されてもよい。
 なお、キャプチャ領域6を手動で修正する処理等が実行されなくてもよい。この場合、仮想画像4を表示するまでの時間を短縮することが可能となる。またキャプチャ領域6を修正するモード等が選択可能であってもよい。
 図4に戻り、外向きカメラ14により撮影された撮影画像40をもとに、仮想画像4が生成される(ステップ107)。具体的には、ステップ103で撮影された撮影画像40(キャプチャ映像)から、キャプチャ領域6のクリアな部分画像が抽出される。そして、部分画像を用いて、キャプチャした実物体3の仮想画像4が生成される。
 本実施形態では、AR表示部35により、外向きカメラ14により撮影された1以上の撮影画像40のうちキャプチャ領域6に遮蔽物が含まれない撮影画像40から部分画像が生成される。すなわち、キャプチャ映像のうち、遮蔽物(ユーザ1の手指等)で遮蔽されてないフレームを用いて、キャプチャ領域6に対応する部分画像が生成される。
 例えば、接触前状態が検出されてから撮影された各撮影画像40から、キャプチャ対象となる実物体3が検出される。キャプチャ対象となる実物体3は、例えば特徴点マッチング等を用いたマッチング処理を用いて適宜検出される。各撮影画像40からキャプチャ対象を検出する方法等は限定されない。
 各撮影画像40に含まれるキャプチャ対象となる実物体3が遮蔽されているか否かが判定される。すなわち、各撮影画像40におけるキャプチャ領域6に遮蔽物が含まれているか否かが判定される。例えばキャプチャ対象となる実物体3の境界7が不連続に切れている場合等には、実物体3が遮蔽されていると判定される。また例えば、各撮影画像40においてユーザ1の手指5を検出し、手指5がキャプチャ領域6に含まれている場合には実物体3が遮蔽されていると判定される。遮蔽の有無を判定する方法は限定されない。
 各撮影画像40のうち、キャプチャ対象となる実物体3が遮蔽されていないと判定された撮影画像40が選択される。このように、キャプチャ対象となる実物体3が遮蔽されていない撮影画像40、すなわちキャプチャ対象となる実物体3がクリアに撮影されている撮影画像40が、仮想画像4を生成するための画像として用いられる。
 図9は、仮想画像4の生成に用いられる撮影画像40の一例を示す模式図である。図9に示す撮影画像40は、図5Bに示す接触前状態で撮影された撮影画像40を示す模式図である。
 図9に示す撮影画像40では、キャプチャ対象となる実物体3である書類2全体が撮影されている。また書類2にはユーザ1の手指5で隠された部分等はなく、遮蔽物による遮蔽のないクリアな書類2の画像が含まれている。AR表示部35により、このような撮影画像40から、キャプチャ領域6に対応する部分画像43が生成される。図9には、生成される部分画像43(書類2)が斜線の領域で表されている。
 なお、各撮影画像40の中には、キャプチャ領域6(実物体3)の一部が切れた画像(図5A参照)や、キャプチャ領域6(実物体3)の一部が遮蔽された画像(図5C参照)等が含まれる場合がある。例えばこれらの画像のうち、キャプチャ領域6のクリアな部分を補完し合うことで、部分画像43が生成されてもよい。例えばこのような処理も可能である。
 部分画像43が生成されると、台形補正等の補正処理が実行される。例えば撮影画像40が斜めの方向から撮影された場合には、矩形状の書類であっても台形状に変形して撮影されることがあり得る。このような変形が台形補正処理により補正され、例えば矩形状の部分画像43が生成される。この他、部分画像43のノイズ成分を除去するノイズ除去処理や、部分画像43の色や明るさ(輝度)等を補正する処理等が適宜実行されてもよい。
 部分画像43に基づいて、部分画像43(キャプチャ対象となる実物体3)をAR空間に表示するための仮想画像4が生成される。すなわち、平面的な部分画像43を3次元的なAR空間に表示するための仮想画像4が適宜生成される。
 このように、本実施形態では、実物体3とユーザ1の手指5との接触が予測される際に、外向きカメラ14の撮影モードを切り替えて詳細な撮影画像40が継続的に撮影される。そして、手指5の接触により、仮想世界に持ち込む実物体3(キャプチャ対象)が特定されたら、キャプチャ映像を遡り、ユーザ1の手指5が重なっていない映像(撮影画像40)を用いて実物体3のクリアな仮想画像4が生成される。これにより、ユーザ1は、実物体3の高品質なコピー(仮想画像4)を簡単な操作で容易に作り出すことが可能となる。
 AR表示部35により、仮想画像4が実物体3に重畳して表示される(ステップ108)。すなわち、ユーザ1は、キャプチャした実際の実物体3上に、重畳して表示された仮想画像4を視覚することが可能となる。実物体3のキャプチャ画像(仮想画像4)を実物体3上に表示することにより、例えばユーザ1は実物体3がAR空間にコピーできたことを直感的に理解することが可能となる。
 実空間からコピーされた実物体3の仮想画像4は、AR空間で自在に扱うことが可能である。これにより、例えばユーザ1は、コピーされた仮想画像4を掴んで遠隔の相手に渡す等の動作を行うことが可能となる(図1参照)。このように、本技術を用いることで、実空間の情報を容易に仮想空間に持ち込むことが可能となる。
 図10~図13は、仮想画像4の表示の一例を示す模式図である。本実施形態では、接触検出部32により、実物体3に触れるユーザ1の手のジェスチャーが検出される。AR表示部35は、接触検出部32により検出されたユーザ1の手のジェスチャーに応じて、仮想画像4の表示を制御する。
 すなわち、ユーザ1がキャプチャ対象を指定するさいの指定動作に合わせて、仮想画像4が実物体3に重畳される。以下では、図10~図13を参照して、ユーザ1の手のジェスチャー(ハンドジェスチャー)に応じたキャプチャ画像(仮想画像4)の重畳表示のバリエーションについて説明する。
 図10に示す例では、ユーザ1が書類2(実物体3)をめくるハンドジェスチャーが行われる。例えば図10の上側の図に示すように、ユーザ1が親指と一指し指とを開いた状態で、書類2の角に触れたとする。この場合、図10の下側の図に示すように、ユーザ1の親指と人差し指との間で書類2の角がめくれているような表示となるように仮想画像4の表示が制御される。なお図10に示す表示例は、図1Bに示す表示例と同様の例である。
 仮想画像4は、例えば接触位置Pの周辺がめくれた状態で、実際の書類2に重畳して表示される。これにより、仮想画像4が実際の紙と同様に表示され視覚効果が発揮される。この結果、AR空間においても、実際の書類2をめくっているような自然な仮想体験を提供することが可能となる。
 また例えば、仮想画像4は、ユーザ1の手指が接触した位置(書類2の角)の周辺にだけ表示されてもよい。この場合、ユーザ1が仮想画像4を掴む動作をした場合に、仮想画像4の全体が表示されるといった処理が実行される。
 このように、接触検出部32により検出された接触位置Pに応じて、仮想画像4の表示が制御されてもよい。これにより、ユーザ1が実物体3(書類2)に接触した直後は、接触位置Pの周辺にだけ仮想画像4を表示すればよいため、画像処理の処理量等を抑制することが可能である。これにより、仮想画像4を違和感なくスムーズに表示することが可能となる。また不要な処理が回避されることで、HMD100の消費電力を抑制することが可能である。
 図11に示す例では、ユーザ1が書類2(実物体3)の中央部分をつまんで引き上げるハンドジェスチャーが行われる。例えば図11の上側の図に示すように、ユーザ1が親指と一指し指とで書類2をつまむ動作が行われると、仮想画像4の書類2(仮想物の紙)が、つまみあげられたような形状で、実際の書類2に重畳して表示される。
 また図11の下側の図に示すように、ユーザ1が仮想画像4から手を離す動作をすると、その位置に仮想画像4はとどまる。この時、仮想画像4は、つまみあげられた形状から、平面形状に戻り、実際の書類2の上部に浮いた状態でとどまるように表示される。この場合、ユーザ1は、例えば宙に浮いて表示された仮想画像4を掴んで、移動させる等の動作が可能である。なお、ユーザ1が手を離した後に、仮想画像4が実際の書類2の直上まで、徐々に下降するといった表示が実行されてもよい。
 またつまむハンドジェスチャーにおいて、AR空間に実物体3(書類2等)が持ち込まれた際に、実空間に存在するキャプチャされた側の実物体3をグレーアウトしてもよい。すなわち、コピー元の実物体3をグレーで塗りつぶすといった処理が実行されてもよい。このように、実物体3をグレーアウトすることで、実物体3のクローンがAR空間に生成されたことを、容易に提示することが可能となる。
 なお、キャプチャ後の物体、すなわちコピーされた仮想画像4に、AR上の仮想物であることが分かるようなマークが付加されてもよい。これにより、仮想画像4と実物体3とを容易に区別することが可能となる。なお、これらグレーアウトする処理やARマークを付加する処理等は、他のハンドジェスチャーが実行される場合等にも適宜適用されてよい。
 図12に示す例では、ユーザ1が書類2(実物体3)をタップするハンドジェスチャーが行われる。例えば図12の上側の図に示すように、ユーザ1が実際の書類2の表面を指先で軽くたたいたとする。この場合、図12の下側の図に示すように、仮想画像4は、実際の書類2が浮いたかのように、その上に重畳して表示される。この時、2次元的な仮想画像4が、実際の紙のように湾曲して浮き上がる等の効果が付加されてもよい。
 また、ユーザ1がタップする位置から仮想画像4が徐々に浮き上がって表示されるといった処理が実行されてもよい。また例えば、ユーザ1が実際の書類2を一瞬こするといったハンドジェスチャーが行われた場合に、こすった方向に向けて仮想画像4が浮き出すといった処理が実行されてもよい。
 図13に示す例では、ユーザ1が筒形の実物体3を握るハンドジェスチャーが実行される。このような立体的な実物体3をキャプチャすることも可能である。例えば図13の上側の図に示すように、ユーザ1が実物体3をつかむ、または強く握るとする。例えばユーザ1の手指5の配置等から実物体3に力が加わっている状態等が検出される。この場合、図13の下側の図に示すように、筒型の実物体3がコピーされた仮想画像4が適宜生成され、仮想画像4が絞り出されるように、実物体3の近傍に徐々に表示される。
 この場合、仮想画像4は、立体的な実物体3を表す3次元画像となる。例えば立体的な実物体3(立体物)を3次元的にキャプチャする3Dキャプチャにより、3次元画像が生成される。3Dキャプチャでは、例えば外向きカメラ14以外の他カメラも併用して、実物体3が撮影される。そして各カメラにより撮影された撮影画像40や、距離センサにより検出された奥行情報等に基づいて、実物体3の3Dモデリングが実行される。なお、平面的な実物体3を撮影する場合でも、他のカメラを併用することは有り得る。
 キャプチャ済みの画像(3Dモデルを表す仮想画像4)の提示する場合には、モデリング等を実行するために、表示するまでに時間がかかる可能性がある。このような場合、最初は粗い仮想画像4(3Dモデル)を提示して、徐々に高精度なデータに差し替えてもよい。これにより、立体的な実物体3等がキャプチャされる場合であっても、高速に仮想画像4を表示させることが可能となる。
 図14は、仮想画像の表示の他の一例を示す模式図である。図14に示す例では、ユーザ1が書類2(実物体3)をタップするハンドジェスチャーに応じて、仮想画像4が表示される。図14に示す例では、書類2の形状(キャプチャ領域6の形状)がコピーされた枠内に、処理中を示すアイコン44が表示された仮想画像4が生成される。
 例えば、実物体3の仮想画像4を生成する際には、上記したように部分画像43のノイズ除去や台形補正等の処理が実行される。これらの処理を実行することで、実物体3がキャプチャされた仮想画像4を生成するまでに、多少の時間が必要となる場合があり得る。このように、最終的な仮想画像4が生成されるまでの間、キャプチャ画像の代わりに、処理中を示すアイコン44等が表示される。
 なお、最終的な仮想画像4が生成されると、処理中を示すアイコン44から、実物体3がコピーされた最終的な仮想画像4へと表示が切り替えられる。アイコン44の種類や、表示を切り替える方法等は限定されない。例えば最終的な仮想画像4が徐々に濃くなるようにフェードインさせるといった処理が実行されてもよい。
 上記では、実物体3の一例として、最上部に配置され遮蔽されていない書類2についてのキャプチャ処理について説明した。例えば、他の実物体3等に遮蔽されている実物体3についても、本技術は適用可能である。
 図15は、遮蔽物のあるキャプチャ領域6の検出処理の一例を示す模式図である。図16は、図15に示す検出処理により生成される仮想画像4の一例を示す模式図である。
 図15には、部分的に重なって配置された第1~第3の書類2a~2cが模式的に図示されている。第1の書類2aは、最も背面側の書類であり、第2の書類2bにより部分的に遮蔽されている。第2の書類2aは、第1及び第3の書類2a及び2cとの間に配置され、第3の書類2cにより、部分的に遮蔽されている。第3の書類2cは、最上部の書類であり、遮蔽されていない。
 例えば、ユーザ1の手指5が第2の書類2bの表面に接触したとする。この場合、領域検出部34は、第2の書類2bの境界7を検出する。なお図15に示すように、第2の書類2bの境界7の一部(図中の点線)は、第3の書類2cにより遮蔽されている。このように遮蔽された境界7は、例えば遮蔽されていない境界7(図中の太い実線)等に基づいて、適宜補完して検出される。
 このように、キャプチャ領域6の自動検出により、切り出す範囲(キャプチャ領域6)が確定するが、切り出す対象となる実物体3(第2の書類2b)が部分的に隠れている場合がある。この場合、外向きカメラ14により撮影された撮影画像40では、目的とする実物体3の上に他の遮蔽物が乗っていて一部がキャプチャできないといったことが考えられる。
 AR表示部35では、例えば図16A~図16Cに示す方法で、遮蔽物により遮蔽された実物体3(第2の書類2b)の仮想画像4が生成される。
 図16Aに示す例では、遮蔽物により遮蔽された状態をそのまま表す仮想画像4が生成される。例えば外向きカメラ14により撮影された撮影画像40から、キャプチャ領域6を含む撮影画像40が適宜選択される。そして選択された撮影画像40からキャプチャ領域6に対応する部分画像43が生成されて、その部分画像43を使った仮想画像4が生成される。
 従って、図16Aに示す仮想画像4は、第2の書類2bの一部が第3の書類2cにより遮蔽された状態を表す画像となる。このように、部分画像43をそのまま使用することで、仮想画像4の生成処理を短縮することが可能となり、ユーザ1のインタラクションに対する応答速度等を向上することが可能となる。
 図16Bに示す例では、遮蔽物により遮蔽された部分がグレーアウトされた仮想画像4が生成される。例えば、図16Aと同様に生成された部分画像43から、実物体3の境界7が検出される。すなわち、部分画像43に含まれる遮蔽物(第3の書類2c)の境界7が検出される。そして、遮蔽物の境界7の内側がグレースケールで塗りつぶされた仮想画像4が生成される。このように不要な情報を塗りつぶすことで、明示的に欠損部位を提示することが可能となる。
 図16Cに示す例では、遮蔽物により遮蔽された部分が他のデータにより補完された仮想画像4が生成される。例えば、第2の書類2bの表面の記載に基づいて、撮影画像データベース21が参照され、第2の書類2bと類似する書類2が撮影された撮影画像40等が検索される。類似する書類2の検索には、所定のマッチング処理等が用いられる。
 類似する書類2を含む撮影画像40が検索された場合には、その撮影画像40から、第3の書類2cにより遮蔽された欠損部位の部分画像43bが生成される。そして、遮蔽されていない領域の部分画像43aと、欠損部位の部分画像43bとを使用して、第2の書類2bの仮想画像4が生成される。従って、仮想画像4は、2つの部分画像43a及び43bを組み合わせた画像となる。
 このように、撮影画像データベース21等に問い合わせて、対象となる書類2との類似文書から欠損部分が補完される。これにより、遮蔽物により遮蔽された実物体3がキャプチャ対象となる場合であっても、遮蔽のない状態の実物体3を表す仮想画像4を生成することが可能となる。なお、検索された類似文書が対象の書類2とは異なっている可能性もあるため、補完した領域は枠線(図中の点線)等を用いて明示的に表示される。これにより、仮想画像4が補完して生成されたことを知らせることが可能となる。
 図17は、HMD100の動作の他の一例を示すフローチャートである。図17に示す処理は、領域手動指定モードで実行される処理であり、例えばHMD100の動作中に繰り返し実行されるループ処理である。以下では、ユーザ1が手動によりキャプチャ領域6を指定する場合(領域手動指定モード)の処理について説明する。
 図17に示す、ステップ201~ステップ203では、例えば図4に示す領域自動検出モードでのステップ101~ステップ103とそれぞれ同様の処理が実行される。また、ステップ206~ステップ208では、ユーザ1により手動で指定されたキャプチャ領域6を用いて、例えば、図4に示すステップ206~ステップ208とそれぞれ同様の処理が実行される。
 ユーザ1の手指位置と実物体3の表面位置とが計測され(ステップ201)、ユーザ1の手指5が実物体3の表面に接触しそうか否かが判定される(ステップ202)。ユーザ1の手指5が表面に接触しそうではない(接触が予測される接触前状態ではない)と判定された場合(ステップ202のNo)、再度ステップ201が実行される。
 ユーザ1の手指5が表面に接触しそうである(接触が予測される接触前状態である)と判定された場合(ステップ202のYes)、外向きカメラ14を用いてキャプチャに適した設定での撮影処理が開始される(ステップ203)。この撮影処理は、例えば仮想画像4が生成されるまで繰り返し実行される。
 撮影処理が開始されると、ユーザ1により指定されるキャプチャ領域6を検出する処理が実行される(ステップ204)。具体的には、ユーザ1の指先位置Rをトラッキングして、範囲指定の情報が取得される。また指定された範囲は、AR空間上に適宜表示される。
 図18は、ユーザ1により指定されるキャプチャ領域6の一例を示す模式図である。図18には、ユーザ1が実物体3である書類2の外周をなぞるように、一指し指(手指5)を移動している様子が模式的に図示されている。
 領域手動指定モードが実行される場合、接触検出部32により、ユーザ1の手の指先位置Rが検出される。指先位置Rとしては、例えば、実物体3(書類2)に対して最も近い位置にあるユーザ1の手指5の先端位置が検出される。なお、ユーザ1の手指5は、実物体3の表面に接触していてもよいし、離れていてもよい。すなわち、ユーザ1の接触動作の状態が接触状態であるか、接触前状態であるかに係らず、ユーザ1の指先位置Rが適宜検出される。
 ユーザ1の指先位置Rの情報は、ユーザ1による範囲指定の情報として逐次記録される。図17に示すように、ステップ204はループ処理となっており、例えばステップ204が実行される度に、ユーザ1の指先位置Rの情報が記録される。すなわち、ユーザ1の指先位置Rの軌跡8を記録する指先位置Rのトラッキング処理が実行されるとも言える。
 図18には、ユーザ1の指先位置Rが黒丸を用いて模式的に図示されている。また指先位置Rをトラッキングして検出された指先位置Rの軌跡8が太い黒線を用いて模式的に図示されている。この、指先位置Rの軌跡8の情報が、ユーザ1による範囲指定の情報となる。
 またAR表示部35により、ユーザ1が指先でなぞった位置にはARにより枠線等が表示される。すなわち、ユーザ1の指先位置Rの軌跡8がAR空間上に表示される。従って、例えば図18に示すように、ユーザ1は、自身の指先(手指5)がなぞった跡が実物体3に重畳して表示された状態を視覚することが可能となる。これにより、キャプチャ領域6の指定を容易に実行することが可能となり、ユーザビリティ―が向上する。
 図17に戻り、ユーザ1による手動での範囲指定が完了したか否かが判定される(ステップ205)。例えば、ユーザ1により入力された範囲(指先位置Rの軌跡8)が閉じた範囲となったか否かが判定される。あるいは、ユーザ1の指先(手指5)が実物体3の表面から離れたか否かが判定される。この他、範囲指定の完了を判定する方法等は限定されない。例えば、ユーザ1のハンドジェスチャーやその他の入力操作に基づいて、範囲を指定する操作が終了されてもよい。
 手動での範囲指定が完了していないと判定された場合(ステップ205のNo)、ステップ204が実行され、指先位置Rのトラッキング等が継続される。
 手動での範囲指定が完了したと判定された場合(ステップ205のYes)、領域検出部34により、ユーザ1により指定された範囲が、キャプチャ領域6として検出される。すなわち、ユーザ1の指先位置Rの軌跡8が、キャプチャ領域6に設定されるとも言える。
 このように、領域手動指定モードでは、領域検出部34により、指先位置Rの移動に伴う指先位置Rの軌跡8に基づいてキャプチャ領域6が検出される。これにより、キャプチャ領域6を手動で指定することが可能となり、実空間内の任意の領域をキャプチャすることが可能となる。この結果、例えば自由度の高い仮想体験を容易に提供することが可能となる。
 範囲指定が完了してキャプチャ領域6が検出されると、手動によるキャプチャ領域6の修正を受け付ける処理が実行される(ステップ206)。キャプチャ領域6が修正されると、撮影画像40からキャプチャ領域6がクリアに撮影された部分画像43が適宜抽出され、部分画像43に基づいて実物体3の仮想画像4が生成される(ステップ207)。生成された仮想画像4は、ユーザ1のハンドジェスチャー等に応じて、実物体3に重畳して適宜表示される。
 なお、手動により指定されたキャプチャ領域6に基づいて、仮想画像4を生成・表示する方法等は限定されず、例えば図10~図16等を参照して説明した方法が適用可能である。すなわち、上記した自動的に検出されたキャプチャ領域6についての説明は、手動で指定されたキャプチャ領域6についての説明として適宜読み替えることが可能である。
 なお、領域自動検出モード及び領域手動指定モードの各モードは、個別に実行されてもよいし、適宜切り替えて実行されてもよい。例えば、ユーザ1のハンドジェスチャーが、領域を指定するジェスチャーである場合には領域手動指定モードが実行され、実物体3をタップする等の他のジェスチャーである場合には領域自動検出モードが実行される。例えばこのような構成が採用されてもよい。
 以上、本実施形態に係るコントローラ30では、実物体3に対してユーザが接触する際の一連の動作である接触動作が検出され、接触動作に応じて実物体3が含まれるキャプチャ領域6が検出される。このキャプチャ領域6に対応する部分画像43が、実物体3が存在する実空間を撮影した撮影画像40から抽出され、実物体3の仮想画像4が生成される。そしてユーザ1の接触動作に応じて仮想画像4の表示制御が実行される。これにより、実物体3がキャプチャされた仮想画像4を容易に表示させることが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 現実世界をキャプチャする方法として、例えば所定の入力操作に応じて自動的に現実世界を撮影するといった方法が考えられる。この方法では、例えばキャプチャする範囲を指定する操作等が必要となり、キャプチャ処理が煩わしくなる可能性がある。また入力操作が行われたタイミング等に合わせて自動的に撮影が実行されるため、例えば、キャプチャする範囲に遮蔽物等が含まれてしまう場合があり得る。この場合、画像を再度取り直すこと等が必要となり、ユーザの体験等を阻害する恐れが生じる。
 本実施形態では、実物体3に対するユーザ1の接触動作に応じて、キャプチャ領域6が検出される。これにより、例えばユーザ1が実物体3に触れることで、その実物体3をキャプチャするためのキャプチャ領域6が自動的に検出される。
 すなわち、ユーザ1が明示的にキャプチャ領域6等を設定しない場合であっても、所望の実物体3がキャプチャされた仮想画像4等を容易に生成する事が可能となる。この結果、ユーザ1はキャプチャ領域6を入力することなく、適正なキャプチャ画像(仮想画像4)を簡単に仮想空間に持ち込むことが可能となる。この結果、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 また本実施形態では、実空間が撮影された1以上の撮影画像40から、キャプチャ領域6に対応する部分画像を抽出して、仮想画像4が生成される。これにより、例えば時間をさかのぼって、遮蔽の生じていない部分画像を取得し、遮蔽のない実物体3のクリアな仮想画像4等を生成することが可能となる。この結果、1回のキャプチャ処理で、所望の仮想画像4を適正に生成することが可能となり、撮り直し等が発生することを十分に回避することが可能となる。
 また、生成された仮想画像4は、ユーザ1の接触動作に応じて実物体3に重畳して表示される。このようにHMD100では、接触動作(インタラクション)が発生した際に、直前キャプチャしておいた画像に基づいて生成された高精度な仮想画像4が提示される。また、仮想画像4の表示は接触動作の種類等に合わせて適宜制御される。これにより、AR空間等に実世界の実物体3を自然に持ち込むことが可能となる。この結果、実世界(実空間)から仮想世界(仮想空間)への物体の移動が容易となり、実世界と仮想世界のシームレスな連結を実現することが可能となる。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 図4及び図17を参照して説明した処理では、ユーザ1と実物体3との接触が予測される接触前状態が検出されてから、外向きカメラ14によりキャプチャ用の設定で撮影処理が開始された(ステップ103、ステップ203)。キャプチャ用の撮影処理を実行するタイミングは限定されない。
 例えば接触前状態が検出されていない状態で、撮影処理が実行されてもよい。例えば、ユーザ1の周辺の接触の可能性がある物体を順次撮影(キャプチャ)して、接触に備えるといった撮影処理が実行されてもよい。
 また、ユーザ1が接触しようとしている実物体3が特定しきれない場合、ユーザ1が接触する可能性のある実物体3を投機実行的にキャプチャしてもよい。例えばHMD100を装着したユーザ1が様々な方向に視線を向けることで、ユーザ1の周辺の様々な実物体3を撮影することが可能である。例えば、ユーザ1の周辺に存在する実物体3が外向きカメラ14の撮影範囲に含まれた場合等に、キャプチャ用の撮影処理が投機的に実行される。
 これにより、ユーザ1の周辺の実物体3が撮影されたライブラリ等を撮影画像データベース21内に構成することが可能となる。この結果、例えばユーザ1の接触動作の対象を直前に撮影することが難しいといった状況であっても、ユーザ1が触れた実物体3の仮想画像4を適正に生成することが可能となる。この他、撮影処理は、仮想画像4を生成する前の任意のタイミングで実行されてよい。
 また、キャプチャ失敗時には、例えばHMD100が通信部18等を介して接続可能なクラウド上のキャプチャ済みの物体データ等が検索されても良い。これにより、撮影画像データベース21等に適切な撮影画像40が含まれていなかった場合であっても、仮想画像4を生成することが可能となる。
 図13では、ユーザ1が立体的な実物体3を掴むことで、実物体3の3次元的な形状を表す3次元画像(仮想画像4)が生成された。例えば、ジェスチャーの種類によってキャプチャの方法を、2Dキャプチャと3Dキャプチャとのどちらかに切り替えても良い。例えば、ユーザ1が実物体3をつまむジェスチャーをした場合は2Dキャプチャが実行され、ユーザ1が実物体3をつかむジェスチャーをした場合は3Dキャプチャが実行される。例えばこのような処理が実行されてもよい。
 上記の実施形態では、透過型のディスプレイを搭載した透過型のHMD100が用いられた。これに限定されず、例えばユーザ1の視界を覆う没入型のHMDが用いられる場合にも、本技術は適用可能である。
 図19は、他の実施形態に係るHMDの外観を模式的に示す斜視図である。HMD200は、ユーザ1の頭部に装着されるマウント部210と、ユーザ1の両眼の前方に配置される本体部220とを含む。HMD200は、ユーザ1の視野を覆うように構成された没入型のヘッドマウントディスプレイである。
 本体部220には、ユーザ1左右の眼に対向して配置されたディスプレイ(図示省略)が設けられる。このディスプレイに左眼用画像及び右眼用画像等が表示されることで、ユーザ1は仮想空間を視覚することが可能となる。
 また本体部220の外側には、外向きカメラ221が搭載される。この外向きカメラ221により撮影された画像を内部のディスプレイに表示することで、ユーザ1は実世界の映像を視認することが可能である。またディスプレイでは、外向きカメラにより撮影された画像に、各種の仮想画像4が重畳して表示される。これにより、拡張現実(AR)を用いた仮想体験を提供可能である。
 例えば、図3を参照して説明したコントローラ30等を用いて、実物体3に対するユーザ1の接触動作や、キャプチャ領域6の検出、及びディスプレイでの仮想画像4等の表示制御等が実行される。これにより、ユーザ1が接触する実物体3をキャプチャした仮想画像4を容易に生成して、仮想空間に表示することが可能となり、実空間と仮想空間とをシームレスにつなぐことが可能となる。
 図20は、他の実施形態に係る携帯端末300の外観を模式的に示す斜視図である。図20の左側及び右側には、表示面310が設けられる携帯端末300の表側、及び表側とは反対側の裏側がそれぞれ模式的に図示されている。携帯端末300の表側には、内向きカメラ320が搭載され、裏側には外向きカメラ330が搭載される。
 例えば携帯端末300の表示面310に、外向きカメラ330により撮影された実空間の画像が表示される。また表示面310には、実空間の画像に対して、様々な仮想画像4等が重畳して表示される。これにより、ユーザ1は実空間が拡張されたAR空間を視覚することが可能となる。
 例えば、図3を参照して説明したコントローラ20等を用いて、外向きカメラ330により撮影された画像から、ユーザ1の接触動作に応じて実物体3をキャプチャすることが可能である。これにより、実物体3を容易にAR空間に持ち込むことが可能となる。このように、携帯端末300等が用いられる場合にも、本技術は適用可能である。この他、タブレット端末やノート型PC等が用いられてもよい。
 また本技術は、仮想現実(VR)空間においても適用可能である。例えば、VR空間を視覚するユーザ1が実際に活動する実空間において、ユーザ1が接触した実物体3がキャプチャされる。これにより、VR空間内に、実空間の物体を容易に持ち込むことが可能となる。この結果、VR空間を体験しているユーザ間で、実物体3のクローン(仮想画像4)をやり取りするといったことが可能となり、コミュニケーションを活性化することが可能となる。
 上記ではHMD等に搭載されたコントローラにより、本技術に係る情報処理方法が実行される場合を説明した。しかしながらHMD等に搭載されたコントローラとネットワーク等を介して通信可能な他のコンピュータにより、本技術に係る情報処理方法、及びプログラムが実行されてもよい。またHMD等に搭載されたコントローラと、他のコンピュータとが連動して、本技術に係る仮想空間表示システムが構築されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばユーザの接触動作の検出や、実物体を含む対象領域の検出、仮想画像の生成、及び仮想画像の表示制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 本開示において、「同じ」「等しい」「直交」等は、「実質的に同じ」「実質的に等しい」「実質的に直交」等を含む概念とする。例えば「完全に同じ」「完全に等しい」「完全に直交」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)実空間が撮影された1以上の撮影画像を取得する取得部と、
 前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する動作検出部と、
 前記検出された接触動作に応じて前記実物体を含む対象領域を検出する領域検出部と、
 前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する表示制御部と
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成する
 情報処理装置。
(3)(2)に記載の情報処理装置であって、
 前記表示制御部は、前記1以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成する
 情報処理装置。
(4)(1)から(3)のうちいずれか1つに記載の情報処理装置であって、
 前記表示制御部は、前記仮想画像を前記実物体に重畳して表示する
 情報処理装置。
(5)(1)から(4)のうちいずれか1つに記載の情報処理装置であって、
 前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記1以上の撮影画像を取得する
 情報処理装置。
(6)(5)に記載の情報処理装置であって、
 前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含み、
 前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定し、
 前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記1以上の撮影画像を取得する
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くする
 情報処理装置。
(8)(1)から(7)のうちいずれか1つに記載の情報処理装置であって、
 前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
 前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出する
 情報処理装置。
(9)(8)に記載の情報処理装置であって、
 前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出する
 情報処理装置。
(10)(9)に記載の情報処理装置であって、さらに、
 前記ユーザの視線方向を検出する視線検出部を具備し、
 前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出する
 情報処理装置。
(11)(10)に記載の情報処理装置であって、
 前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出し、
 前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出する
 情報処理装置。
(12)(9)から(11)のうちいずれか1つに記載の情報処理装置であって、
 前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも1つに基づいて、前記実物体の境界を検出する
 情報処理装置。
(13)(1)から(12)のうちいずれか1つに記載の情報処理装置であって、
 前記動作検出部は、前記ユーザの手の指先位置を検出し、
 前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出する
 情報処理装置。
(14)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示する
 情報処理装置。
(15)(14)に記載の情報処理装置であって、
 前記領域画像は、形状、サイズ、及び位置の少なくとも1つを編集可能に表示され、
 前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更する
 情報処理装置。
(16)(1)から(15)のうちいずれか1つに記載の情報処理装置であって、
 前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
 前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御する
 情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出し、
 前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御する
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記仮想画像は、前記実物体の2次元画像及び3次元画像の少なくとも1方である
 情報処理装置。
(19)実空間が撮影された1以上の撮影画像を取得し、
 前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出し、
 前記検出された接触動作に応じて前記実物体を含む対象領域を検出し、
 前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する
 ことをコンピュータシステムが実行する情報処理方法。
(20)実空間が撮影された1以上の撮影画像を取得するステップと、
 前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップと、
 前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップと、
 前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップと
 をコンピュータシステムに実行させるプログラム。
 1…ユーザ
 3…実物体
 4…仮想画像
 5…手指
 6…キャプチャ領域
 7…境界
 8…軌跡
 12…透過型ディスプレイ
 14…外向きカメラ
 21…撮影画像データベース
 30…コントローラ
 31…画像取得部
 32…接触検出部
 33…視線検出部
 34…領域検出部
 35…AR表示部
 40…撮影画像
 42…領域画像
 43、43a、43b…部分画像
 100、200…HMD

Claims (20)

  1.  実空間が撮影された1以上の撮影画像を取得する取得部と、
     前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出する動作検出部と、
     前記検出された接触動作に応じて前記実物体を含む対象領域を検出する領域検出部と、
     前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する表示制御部と
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記表示制御部は、遮蔽物により遮蔽されていない前記実物体を表す前記仮想画像を生成する
     情報処理装置。
  3.  請求項2に記載の情報処理装置であって、
     前記表示制御部は、前記1以上の撮影画像のうち前記対象領域に前記遮蔽物が含まれない前記撮影画像から前記部分画像を生成する
     情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記表示制御部は、前記仮想画像を前記実物体に重畳して表示する
     情報処理装置。
  5.  請求項1に記載の情報処理装置であって、
     前記取得部は、前記実空間を撮影する撮影装置、及び前記撮影装置の出力が記憶されたデータベースの少なくとも一方から、前記1以上の撮影画像を取得する
     情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記接触動作は、前記実物体に対して前記ユーザが手を接近させる動作を含み、
     前記動作検出部は、前記接触動作の状態が、前記実物体に対する前記ユーザの手の接触が予測される接触前状態であるか否かを判定し、
     前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置を制御して前記1以上の撮影画像を取得する
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記取得部は、前記接触動作の状態が、前記接触前状態であると判定された場合、前記撮影装置の撮影解像度を高くする
     情報処理装置。
  8.  請求項1に記載の情報処理装置であって、
     前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
     前記領域検出部は、前記検出された接触位置に基づいて前記対象領域を検出する
     情報処理装置。
  9.  請求項8に記載の情報処理装置であって、
     前記領域検出部は、前記対象領域として、前記接触位置を含む前記実物体の境界を検出する
     情報処理装置。
  10.  請求項9に記載の情報処理装置であって、さらに、
     前記ユーザの視線方向を検出する視線検出部を具備し、
     前記領域検出部は、前記ユーザの視線方向に基づいて、前記実物体の境界を検出する
     情報処理装置。
  11.  請求項10に記載の情報処理装置であって、
     前記視線検出部は、前記ユーザの視線方向に基づいて注視位置を検出し、
     前記領域検出部は、前記対象領域として、前記接触位置及び前記注視位置を含む前記実物体の境界を検出する
     情報処理装置。
  12.  請求項9に記載の情報処理装置であって、
     前記領域検出部は、前記実物体の影、サイズ、及び形状の少なくとも1つに基づいて、前記実物体の境界を検出する
     情報処理装置。
  13.  請求項1に記載の情報処理装置であって、
     前記動作検出部は、前記ユーザの手の指先位置を検出し、
     前記領域検出部は、前記指先位置の移動に伴う前記指先位置の軌跡に基づいて前記対象領域を検出する
     情報処理装置。
  14.  請求項1に記載の情報処理装置であって、
     前記表示制御部は、前記対象領域を表す領域画像を前記実物体に重畳して表示する
     情報処理装置。
  15.  請求項14に記載の情報処理装置であって、
     前記領域画像は、形状、サイズ、及び位置の少なくとも1つを編集可能に表示され、
     前記領域検出部は、前記編集された領域画像に基づいて前記対象領域を変更する
     情報処理装置。
  16.  請求項1に記載の情報処理装置であって、
     前記動作検出部は、前記実物体と前記ユーザの手との接触位置を検出し、
     前記表示制御部は、前記検出された接触位置に応じて、前記仮想画像の表示を制御する
     情報処理装置。
  17.  請求項1に記載の情報処理装置であって、
     前記動作検出部は、前記実物体に触れる前記ユーザの手のジェスチャーを検出し、
     前記表示制御部は、前記検出された前記ユーザの手のジェスチャーに応じて、前記仮想画像の表示を制御する
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記仮想画像は、前記実物体の2次元画像及び3次元画像の少なくとも1方である
     情報処理装置。
  19.  実空間が撮影された1以上の撮影画像を取得し、
     前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出し、
     前記検出された接触動作に応じて前記実物体を含む対象領域を検出し、
     前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御する
     ことをコンピュータシステムが実行する情報処理方法。
  20.  実空間が撮影された1以上の撮影画像を取得するステップと、
     前記実空間内の実物体に対してユーザが接触する際の一連の動作である接触動作を検出するステップと、
     前記検出された接触動作に応じて前記実物体を含む対象領域を検出するステップと、
     前記1以上の撮影画像から前記対象領域に対応する部分画像を抽出して前記実物体の仮想画像を生成し、前記接触動作に応じて前記仮想画像の表示を制御するステップと
     をコンピュータシステムに実行させるプログラム。
PCT/JP2019/038915 2018-10-15 2019-10-02 情報処理装置、情報処理方法、及びプログラム WO2020080107A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020553037A JP7459798B2 (ja) 2018-10-15 2019-10-02 情報処理装置、情報処理方法、及びプログラム
CN201980066388.6A CN112840379A (zh) 2018-10-15 2019-10-02 信息处理装置、信息处理方法及程序
US17/283,472 US20220012922A1 (en) 2018-10-15 2019-10-02 Information processing apparatus, information processing method, and computer readable medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-194262 2018-10-15
JP2018194262 2018-10-15

Publications (1)

Publication Number Publication Date
WO2020080107A1 true WO2020080107A1 (ja) 2020-04-23

Family

ID=70283891

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/038915 WO2020080107A1 (ja) 2018-10-15 2019-10-02 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20220012922A1 (ja)
JP (1) JP7459798B2 (ja)
CN (1) CN112840379A (ja)
WO (1) WO2020080107A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022046498A1 (en) * 2020-08-28 2022-03-03 Sterling Labs Llc Detecting user-to-object contacts using physiological data
WO2023162457A1 (ja) * 2022-02-28 2023-08-31 株式会社Jvcケンウッド 仮想空間画像表示装置、仮想空間画像表示方法、及び仮想空間画像表示プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022137722A (ja) * 2021-03-09 2022-09-22 シャープ株式会社 撮像装置、情報取得装置、および、撮像方法
US12052430B2 (en) * 2022-03-29 2024-07-30 Apple Inc. Energy efficient context relevant processing for content

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092313A (ja) * 2016-12-01 2018-06-14 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157606A (ja) * 2000-11-17 2002-05-31 Canon Inc 画像表示制御装置、複合現実感提示システム、画像表示制御方法、及び処理プログラムを提供する媒体
US7940963B2 (en) * 2006-12-27 2011-05-10 Fujifilm Corporation Monitoring system, monitoring method, and program
JP2009146333A (ja) * 2007-12-18 2009-07-02 Panasonic Corp 空間入力動作表示装置
JP2010215194A (ja) * 2009-03-19 2010-09-30 Hyundai Motor Co Ltd 車載機器の操作装置
CN101673161B (zh) * 2009-10-15 2011-12-07 复旦大学 一种可视可操作无实体的触摸屏系统
US20130100008A1 (en) * 2011-10-19 2013-04-25 Stefan J. Marti Haptic Response Module
US10013053B2 (en) * 2012-01-04 2018-07-03 Tobii Ab System for gaze interaction
US10223859B2 (en) * 2012-10-30 2019-03-05 Bally Gaming, Inc. Augmented reality gaming eyewear
JP5696908B2 (ja) * 2013-02-15 2015-04-08 コニカミノルタ株式会社 操作表示システム
WO2015183232A1 (en) 2014-05-26 2015-12-03 Nongqiang Fan Method and apparatus for interacting with display screen
KR102303115B1 (ko) * 2014-06-05 2021-09-16 삼성전자 주식회사 웨어러블 디바이스 및 웨어러블 디바이스 의 증강 현실 정보 제공 방법
US20170323480A1 (en) * 2016-05-05 2017-11-09 US Radar, Inc. Visualization Technique for Ground-Penetrating Radar
WO2018038136A1 (ja) * 2016-08-24 2018-03-01 ナーブ株式会社 画像表示装置、画像表示方法、及び画像表示プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018092313A (ja) * 2016-12-01 2018-06-14 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IWAI, DAISUKE ET AL.: "Limpid Desk: Translucent Documents on Real Desk Using Projection Based Mixed Reality", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 48, no. 3, 15 March 2007 (2007-03-15), pages 1294 - 1306, ISSN: 0387-5806 *
IWAI, DAISUKE ET AL.: "Limpid Desk: Transparentizing Documents on Real Desk in Projection-Based Mixed Reality", PROCEEDINGS ON THE IEEE VIRTUAL REALITY CONFERENCE (VR 2006), 26 March 2006 (2006-03-26), pages 30 - 31, XP010933938 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022046498A1 (en) * 2020-08-28 2022-03-03 Sterling Labs Llc Detecting user-to-object contacts using physiological data
WO2023162457A1 (ja) * 2022-02-28 2023-08-31 株式会社Jvcケンウッド 仮想空間画像表示装置、仮想空間画像表示方法、及び仮想空間画像表示プログラム

Also Published As

Publication number Publication date
JPWO2020080107A1 (ja) 2021-09-09
JP7459798B2 (ja) 2024-04-02
US20220012922A1 (en) 2022-01-13
CN112840379A (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
JP6393367B2 (ja) 追従表示システム、追従表示プログラム、および追従表示方法、ならびにそれらを用いたウェアラブル機器、ウェアラブル機器用の追従表示プログラム、およびウェアラブル機器の操作方法
CN116719452A (zh) 用于与用于移动虚拟环境中的虚拟对象的虚拟控件和/或示能表示交互的方法
CN116719413A (zh) 用于操纵环境中的对象的方法
WO2020080107A1 (ja) 情報処理装置、情報処理方法、及びプログラム
AU2021290132B2 (en) Presenting avatars in three-dimensional environments
US20220229524A1 (en) Methods for interacting with objects in an environment
CN110546601B (zh) 信息处理装置、信息处理方法和程序
US11579693B2 (en) Systems, methods, and graphical user interfaces for updating display of a device relative to a user's body
US20230336865A1 (en) Device, methods, and graphical user interfaces for capturing and displaying media
US20230171484A1 (en) Devices, methods, and graphical user interfaces for generating and displaying a representation of a user
US20240103712A1 (en) Devices, Methods, and Graphical User Interfaces For Interacting with Three-Dimensional Environments
KR20160055407A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
US20240320930A1 (en) Devices, methods, and graphical user interfaces for capturing media with a camera application
US20240256049A1 (en) Devices, methods, and graphical user interfaces for using a cursor to interact with three-dimensional environments
US20240103684A1 (en) Methods for displaying objects relative to virtual surfaces
KR20150137908A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
WO2024197130A1 (en) Devices, methods, and graphical user interfaces for capturing media with a camera application
KR20160002620U (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20160013501A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20160113498A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20160017020A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20150142556A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20150142555A (ko) 홀로그래피 터치 방법 및 프로젝터 터치 방법
KR20150136759A (ko) 홀로그래피 터치 기술 및 프로젝터 터치 기술

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19872507

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020553037

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19872507

Country of ref document: EP

Kind code of ref document: A1