WO2019069536A1 - 情報処理装置、情報処理方法、及び記録媒体 - Google Patents
情報処理装置、情報処理方法、及び記録媒体 Download PDFInfo
- Publication number
- WO2019069536A1 WO2019069536A1 PCT/JP2018/027121 JP2018027121W WO2019069536A1 WO 2019069536 A1 WO2019069536 A1 WO 2019069536A1 JP 2018027121 W JP2018027121 W JP 2018027121W WO 2019069536 A1 WO2019069536 A1 WO 2019069536A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- polarization
- information processing
- processing apparatus
- normal
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/147—Details of sensors, e.g. sensor lenses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/60—Static or dynamic means for assisting the user to position a body part for biometric acquisition
- G06V40/67—Static or dynamic means for assisting the user to position a body part for biometric acquisition by interactive indications to the user
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Definitions
- the present disclosure relates to an information processing apparatus, an information processing method, and a recording medium.
- Non-Patent Document 1 and Non-Patent Document 2 disclose an example of a technique for reproducing a three-dimensional shape of an object as a model.
- the object under the situation where the object is recognized as in the case of estimating the position, posture, and shape of the object in the real space, the object according to the acquisition condition of the information used for the recognition In some cases, it is difficult to recognize with high accuracy.
- the present disclosure proposes a technique that enables acquisition of information used for recognition of an object in real space in a more preferable manner.
- An information processing apparatus comprising: a control unit configured to control an output of notification information for guiding a change in a position in a real space according to the estimation result of the normal line.
- a computer is provided with a method in at least a part of a plane of an object in real space based on polarization information according to detection results of a plurality of polarizations different from each other in polarization direction acquired by a polarization sensor.
- An information processing method is provided, including: estimating a line; and controlling an output of notification information that induces a change in a position in the real space according to the estimation result of the normal line.
- a method in a computer at least a part of the surface of an object in real space based on polarization information according to detection results of a plurality of polarizations different from each other in polarization direction acquired by a polarization sensor
- a recording medium on which is recorded a program for executing a line estimation and controlling an output of notification information for guiding a change of a position in the real space according to the estimation result of the normal line.
- a technique is provided that enables acquisition of information used for recognition of an object in real space in a more preferable manner.
- 11 is an explanatory diagram for describing another example of notification information to be notified in order to guide a user by the information processing apparatus according to the same embodiment. It is a functional block diagram showing an example of 1 composition of hardware constitutions of an information processor which constitutes an information processing system concerning one embodiment of this indication.
- FIG. 1 is an explanatory diagram for describing an example of a schematic configuration of an information processing system according to an embodiment of the present disclosure, and applies various contents to a user by applying a so-called AR (Augmented Reality) technology. An example of the case of presentation is shown.
- AR Augmented Reality
- reference symbol m111 schematically indicates an object (for example, a real object) located in the real space.
- reference signs v131 and v133 schematically indicate virtual contents (for example, virtual objects) presented so as to be superimposed in the real space. That is, the information processing system 1 according to the present embodiment superimposes a virtual object on an object in the real space, such as the real object m111, based on the AR technology, for example, and presents it to the user.
- both real objects and virtual objects are presented together.
- the information processing system 1 includes an information processing device 10 and an input / output device 20.
- the information processing device 10 and the input / output device 20 are configured to be able to transmit and receive information to and from each other via a predetermined network.
- the type of network connecting the information processing device 10 and the input / output device 20 is not particularly limited.
- the network may be configured by a so-called wireless network such as a network based on the Wi-Fi (registered trademark) standard.
- the network may be configured by the Internet, a dedicated line, a LAN (Local Area Network), a WAN (Wide Area Network), or the like.
- the network may include a plurality of networks, and at least a part may be configured as a wired network.
- the input / output device 20 is configured to obtain various input information and present various output information to a user who holds the input / output device 20. Further, the presentation of the output information by the input / output device 20 is controlled by the information processing device 10 based on the input information acquired by the input / output device 20. For example, the input / output device 20 acquires, as input information, information for recognizing the real object m111 (for example, a captured image of the real space), and outputs the acquired information to the information processing device 10. The information processing apparatus 10 recognizes the position and orientation of the real object m111 in the real space based on the information acquired from the input / output device 20, and presents the virtual objects v131 and v133 to the input / output device 20 based on the recognition result. Let With such control, the input / output device 20 can present the virtual objects v131 and v133 to the user based on the so-called AR technology so that the virtual objects v131 and v133 overlap the real object m111. Become.
- the input / output device 20 is configured as a so-called head-mounted device that is used by, for example, a user wearing at least a part of the head, and may be configured to be able to detect the line of sight of the user. .
- the information processing apparatus 10 for example, a target desired by the user (for example, the real object m111, the virtual objects v131 and v133, etc.) based on the detection result of the line of sight of the user by the input / output device 20, for example.
- the target may be specified as the operation target.
- the information processing apparatus 10 may specify a target to which the user's gaze is directed as an operation target, using a predetermined operation on the input / output device 20 as a trigger. As described above, the information processing apparatus 10 may provide various services to the user via the input / output device 20 by specifying the operation target and executing the process associated with the operation target.
- the input / output device 20 includes a depth sensor 201 and a polarization sensor 230.
- the depth sensor 201 acquires information for estimating the distance between a predetermined viewpoint and an object (real object) located in the real space, and transmits the acquired information to the information processing apparatus 10.
- information for estimating the distance between a predetermined viewpoint and a real object, which is acquired by the depth sensor 201 is also referred to as "depth information”.
- the depth sensor 201 is configured as a so-called stereo camera provided with a plurality of imaging units 201a and 201b, and is positioned in the real space from different viewpoints by the imaging units 201a and 201b. Take an image of an object.
- the depth sensor 201 transmits the image captured by each of the imaging units 201a and 201b to the information processing apparatus 10.
- a predetermined viewpoint for example, the position of the depth sensor 201
- the subject that is, in the image
- the configuration of the part corresponding to the depth sensor 201 and the method for estimating the distance are not particularly limited.
- the distance between a predetermined viewpoint and a real object may be measured based on a method such as multi-camera stereo, moving parallax, TOF (Time Of Flight), or Structured Light.
- TOF refers to projecting light such as infrared light to a subject (that is, a real object), and measuring the time for the projected light to be reflected by the subject and returned for each pixel.
- Structured Light is a depth map including the distance (depth) to the subject based on the change in the pattern obtained from the imaging result by irradiating the pattern with light such as infrared light to the subject and imaging the pattern.
- the movement parallax is a method of measuring the distance to the subject based on the parallax even in a so-called single-eye camera. Specifically, by moving the camera, the subject is imaged from different viewpoints, and the distance to the subject is measured based on the parallax between the imaged images.
- the configuration of the depth sensor 201 (for example, a monocular camera, a stereo camera, etc.) may be changed according to the method of measuring the distance.
- the polarization sensor 230 detects light polarized in a predetermined polarization direction (hereinafter, also simply referred to as “polarization”) among light reflected by an object located in real space, and the polarization sensor 230 detects the light according to the detection result of the polarization.
- the information is transmitted to the information processing apparatus 10.
- the polarization sensor 230 is configured to be able to detect a plurality of polarized lights (more preferably, three polarized lights or more) different in polarization direction. Further, in the following description, information corresponding to the detection result of polarization by the polarization sensor 230 is also referred to as “polarization information”.
- the polarization sensor 230 is configured as a so-called polarization camera, and captures a polarization image based on light polarized in a predetermined polarization direction.
- a polarization image corresponds to information in which polarization information is mapped on an imaging plane (in other words, an image plane) of a polarization camera.
- the polarization sensor 230 transmits the captured polarization image to the information processing apparatus 10.
- the polarization sensor 230 is a polarization that arrives from a region (ideally, a region that substantially matches) at least partially overlapping a region in the real space for which acquisition of information for estimating the distance by the depth sensor 201 is to be performed. It is good to be able to capture an image.
- the polarization sensor 230 is fixed at a predetermined position, information indicating the position in the real space of each of the depth sensor 201 and the polarization sensor 230 is obtained in advance, and thus It is possible to treat the position as known information.
- the depth sensor 201 and the polarization sensor 230 may be held by a common device (for example, the input / output device 20).
- a common device for example, the input / output device 20.
- the relative positional relationship between the depth sensor 201 and the polarization sensor 230 with respect to the device is calculated in advance, and the position and orientation of each of the depth sensor 201 and the polarization sensor 230 based on the position and orientation of the device. It is possible to estimate
- the device for example, the input / output device 20 in which the depth sensor 201 and the polarization sensor 230 are held may be configured to be movable. In this case, for example, by applying a technique called self position estimation, it becomes possible to estimate the position and orientation of the device in the real space.
- SLAM simultaneous localization and mapping
- the position and orientation of the imaging unit may be, for example, information indicating relative changes based on the detection result of the sensor by providing various sensors such as an acceleration sensor or an angular velocity sensor in the device in which the imaging unit is held. It is possible to estimate as Of course, as long as the position and orientation of the imaging unit can be estimated, the method is not necessarily limited to a method based on detection results of various sensors such as an acceleration sensor and an angular velocity sensor.
- At least one of the depth sensor 201 and the polarization sensor 230 may be configured to be movable independently of the other.
- the position and orientation of the movable sensor itself in the real space may be individually estimated based on the above-described technique of self-position estimation or the like.
- the information processing apparatus 10 may acquire depth information and polarization information acquired by the depth sensor 201 and the polarization sensor 230 from the input / output device 20.
- the information processing apparatus 10 recognizes an object (real object) located in the real space based on the acquired depth information and polarization information, and reproduces the three-dimensional shape of the object.
- a model may be generated. The details of the process relating to the generation of the model will be described later separately.
- the information processing apparatus 10 causes the user using the input / output device 20 to respond to the result of acquisition of polarization information by the polarization sensor 230 via an output unit (for example, a display) of the input / output device 20.
- an output unit for example, a display
- Various information may be presented.
- the polarization sensor 230 that is, the input / output device 20
- the polarization sensor 230 is at a position where the polarization sensor 230 can acquire polarization information for recognizing a real object in a more preferable manner.
- Notification information for guiding the user to move may be presented (notified) to the user. The process related to the presentation of the notification information and an example of the notification information will be described later in detail.
- the configuration described above is merely an example, and the system configuration of the information processing system 1 according to the present embodiment is not necessarily limited to only the example illustrated in FIG. 1.
- the input / output device 20 and the information processing device 10 may be integrally configured. The details of the configurations and processes of the input / output device 20 and the information processing device 10 will be separately described later.
- FIG. 2 is an explanatory diagram for describing an example of a schematic configuration of the input / output device according to the present embodiment.
- the input / output device 20 is configured as a so-called head-mounted device that the user wears and uses on at least a part of the head.
- the input / output device 20 is configured as a so-called eyewear type (glasses type) device, and at least one of the lenses 293 a and 293 b is a transmission type display (display unit 211). Is configured as.
- the input / output device 20 further includes imaging units 201a and 201b, a polarization sensor 230, an operation unit 207, and a holding unit 291 corresponding to a frame of glasses.
- the input / output device 20 may also include imaging units 203a and 203b.
- the input / output device 20 includes the imaging units 203a and 203b.
- the holding unit 291 includes the display unit 211, the imaging units 201a and 201b, the polarization sensor 230, the imaging units 203a and 203b, and the operation unit 207. And holds the user's head in a predetermined positional relationship.
- the imaging units 201 a and 201 b and the polarization sensor 230 correspond to the imaging units 201 a and 201 b and the polarization sensor 230 shown in FIG. 1.
- the input / output device 20 may be provided with a sound collection unit for collecting the user's voice.
- the lens 293a corresponds to the lens on the right eye side
- the lens 293b corresponds to the lens on the left eye side. That is, when the input / output device 20 is attached, the holding unit 291 holds the display unit 211 such that the display unit 211 (in other words, the lenses 293a and 293b) is positioned in front of the user's eye.
- the imaging units 201a and 201b are configured as so-called stereo cameras, and when the input / output device 20 is mounted on the head of the user, the imaging units 201a and 201b face the direction in which the head of the user faces (that is, the front of the user). As a result, they are respectively held by the holding portions 291. At this time, the imaging unit 201a is held near the user's right eye, and the imaging unit 201b is held near the user's left eye. Based on such a configuration, the imaging units 201 a and 201 b image subjects (in other words, real objects located in the real space) located in front of the input / output device 20 from different positions.
- the input / output device 20 acquires the image of the subject positioned in front of the user, and based on the parallax between the images captured by the imaging units 201a and 201b, the input / output device 20 From the viewpoint position), it is possible to calculate the distance to the subject.
- the configuration and method are not particularly limited as long as the distance between the input / output device 20 and the subject can be measured.
- the imaging units 203a and 203b are respectively held by the holding unit 291 so that when the input / output device 20 is worn on the head of the user, the eyeballs of the user are positioned within the respective imaging ranges.
- the imaging unit 203a is held so that the user's right eye is positioned within the imaging range. Based on such a configuration, the line of sight of the right eye is directed based on the image of the eye of the right eye taken by the imaging unit 203a and the positional relationship between the imaging unit 203a and the right eye. It becomes possible to recognize the direction.
- the imaging unit 203b is held so that the left eye of the user is located within the imaging range.
- the direction in which the line of sight of the left eye is directed is recognized. Is possible.
- the example shown in FIG. 2 shows the configuration in which the input / output device 20 includes both of the imaging units 203a and 203b, only one of the imaging units 203a and 203b may be provided.
- the polarization sensor 230 corresponds to the polarization sensor 230 shown in FIG. 1, and when the input / output device 20 is mounted on the user's head, it faces in the direction in which the user's head is facing (ie, in front of the user) As a result, it is held by the holding portion 291. Based on such a configuration, the polarization sensor 230 captures a polarization image of the space in front of the user's eye wearing the input / output device 20.
- the installation position of the polarization sensor 230 shown in FIG. 2 is merely an example, and if the polarization sensor 230 can capture a polarization image of the space in front of the user's eye wearing the input / output device 20, the installation of the polarization sensor 230 The position is not limited.
- the operation unit 207 is configured to receive an operation on the input / output device 20 from the user.
- the operation unit 207 may be configured by, for example, an input device such as a touch panel or a button.
- the operation unit 207 is held by the holding unit 291 at a predetermined position of the input / output device 20. For example, in the example illustrated in FIG. 2, the operation unit 207 is held at a position corresponding to a temple of glasses.
- the input / output device 20 is provided with, for example, an acceleration sensor and an angular velocity sensor (gyro sensor), and the movement of the head of the user wearing the input / output device 20 (in other words, the input / output device 20) may be configured to be detectable.
- the input / output device 20 detects components of each of the yaw direction, the pitch direction, and the roll direction as the movement of the head of the user, thereby the user's A change in the position and / or posture of the head may be recognized.
- the input / output device 20 can recognize changes in its own position and posture in accordance with the movement of the head of the user. Also, at this time, the input / output device 20 displays the content on the display unit 211 so that virtual content (that is, virtual object) is superimposed on the real object located in the real space based on the so-called AR technology. It will also be possible to present. Also, at this time, the input / output device 20 may estimate its own position and orientation (that is, its own position) in the real space, for example, based on the technique called SLAM described above, etc. It may be used to present virtual objects.
- HMD head mounted display
- the see-through HMD uses, for example, a half mirror or a transparent light guide plate to hold a virtual image optical system including a transparent light guide or the like in front of the user's eyes, and displays an image inside the virtual image optical system. Therefore, the user wearing the see-through type HMD can view the outside scenery while viewing an image displayed inside the virtual image optical system.
- the see-through HMD is, for example, based on the AR technology, according to the recognition result of at least one of the position and the attitude of the see-through HMD, to the optical image of the real object located in the real space. It is also possible to superimpose the image of the virtual object.
- the see-through HMD As a specific example of the see-through HMD, a so-called glasses-type wearable device in which a portion corresponding to a lens of glasses is configured as a virtual image optical system can be mentioned.
- the input / output device 20 illustrated in FIG. 2 corresponds to an example of a see-through HMD.
- the video see-through HMD When the video see-through HMD is worn on the head or face of the user, the video see-through HMD is worn so as to cover the user's eyes, and a display unit such as a display is held in front of the user's eyes.
- the video see-through HMD has an imaging unit for imaging a surrounding landscape, and causes the display unit to display an image of a scene in front of the user captured by the imaging unit.
- the video see-through HMD superimposes a virtual object on an image of an external scene according to the recognition result of at least one of the position and orientation of the video see-through HMD based on, for example, AR technology. You may
- a projection unit is held in front of the user's eye, and the image is projected from the projection unit toward the user's eye such that the image is superimposed on an external scene. More specifically, in the retinal projection HMD, an image is directly projected from the projection unit onto the retina of the user's eye, and the image is imaged on the retina. With such a configuration, it is possible to view a clearer image even in the case of a user with myopia or hyperopia. In addition, the user wearing the retinal projection type HMD can take an external landscape into view even while viewing an image projected from the projection unit.
- the retinal projection HMD is, for example, based on the AR technology, an optical image of a real object located in the real space according to the recognition result of at least one of the position and posture of the retinal projection HMD. It is also possible to superimpose the image of the virtual object on the other hand.
- the input / output device 20 according to the present embodiment may be configured as an HMD called an immersive HMD.
- the immersive HMD is worn so as to cover the user's eyes, and a display unit such as a display is held in front of the user's eyes. Therefore, it is difficult for the user wearing the immersive HMD to directly take an external scene (that is, a scene of the real world) directly into view, and only the image displayed on the display unit comes into view.
- the immersive HMD can provide an immersive feeling to the user viewing the image.
- the configuration of the input / output device 20 described above is merely an example, and is not necessarily limited to the configuration shown in FIG.
- a configuration according to the application or function of the input / output device 20 may be additionally provided to the input / output device 20.
- an acoustic output unit for example, a speaker or the like
- an actuator for feedback of a sense of touch or force, etc. May be provided.
- the information processing system based on information (that is, polarization information) corresponding to detection results of a plurality of polarizations different in polarization direction reflected by the surface of an object located in real space. Recognize the object (in turn, estimate the position, posture, shape, etc. of the object in a three-dimensional manner).
- information that is, polarization information
- a polarization image in which polarization information is mapped onto an image plane, is captured by a polarization sensor such as a polarization camera.
- Information on the geometrical structure of the object captured in the polarization image by performing polarization imaging processing based on cosine curve fitting on the intensity of light indicated by the polarization image (that is, the light intensity of a plurality of polarizations) In the above, it is possible to calculate “geometric structure information”).
- geometrical structure information for example, information according to the amplitude and phase obtained as a result of the above-mentioned cosine curve fitting, information concerning the normal of the surface of the object concerned calculated from the amplitude concerned and the phase concerned (hereinafter referred to as “method (Also referred to as “line information”).
- line information information in which a normal vector is indicated by a zenith angle and an azimuth angle, and information in which the vector is indicated by a three-dimensional coordinate system.
- the zenith angle can be calculated from the amplitude of the cosine curve.
- the azimuth angle can be calculated from the phase of the cosine curve.
- the zenith angle and the azimuth angle can be converted into a three-dimensional coordinate system indicated by xyz or the like. Further, information indicating the distribution of the normal line information in which the normal line information is mapped on the image plane of the polarization image corresponds to a so-called normal line map. In addition, information before the polarization imaging process is performed, that is, polarization information may be used as geometric structure information.
- the three-dimensional shape of the object by estimating the normal direction of the surface of the object based on the polarization information. Further, by using depth information acquired by a depth sensor or the like, it is possible to specify the position of the surface of the object in the depth direction. More specifically, the information corresponding to the polarization information and the depth information is integrated, for example, as data such as a voxel volume (hereinafter, also referred to as “three-dimensional space model”), the three-dimensional space Based on the model, it is possible to three-dimensionally estimate the position, posture, shape, etc. of the object in the real space. Also, based on the three-dimensional space model, it is possible to reproduce (simulate) the three-dimensional shape of an object in real space as a model such as a polygon mesh.
- a model such as a polygon mesh
- FIG. 3 is an explanatory view for explaining an outline of the reliability of polarization information, and shows the positional relationship between the surface of an object to be recognized and a polarization sensor, and the polarization degree of polarization to be detected;
- the Ray vector corresponds to a vector extended from the polarization sensor to a position on the plane corresponding to each pixel of the polarization sensor.
- the vertical axis indicates the degree of polarization of the polarization detected by the polarization sensor.
- the graph shown on the left side of FIG. 3 shows the case of specular reflection.
- the graph shown on the right side of FIG. 3 shows the case of diffuse reflection.
- the degree of polarization changes according to the positional relationship between the surface of the object to be recognized and the polarization sensor (ie, the zenith angle).
- the higher the degree of polarization the greater the proportion of the light that is to be detected in the light that is reflected by the surface of the object and reaches the polarization sensor (that is, the proportion of the miscellaneous light decreases).
- the reliability of the polarization information is higher.
- the indeterminacy of the estimation result (hereinafter also referred to as "indeterminacy of the polarization normal") may become apparent. Even in such a case, the accuracy in estimating the position, posture, shape, and the like of the target object may decrease. The details of the ambiguity of the polarization normal will be separately described later.
- the present disclosure proposes a technique capable of acquiring information used for recognizing an object in real space, such as the polarization information, in a more preferable manner.
- the polarization sensor is located at a position where the information can be acquired in a more preferable manner according to the acquisition result of the information related to the recognition of the object in the real space. Instruct the user holding the device provided with the polarization sensor to be in the position state.
- FIG. 4 is an explanatory view for explaining an outline of the information processing system according to the present embodiment, and an example of a position where the polarization sensor can acquire information on recognition of an object in real space in a more preferable manner. Is shown.
- reference symbol M211 schematically indicates the surface of an object to be recognized.
- Reference numerals 230a and 230b schematically indicate the position and attitude of the polarization sensor.
- the left side of FIG. 4 shows a state in which the polarization sensor faces the surface M211 of the object.
- the reliability of polarization information acquired by the polarization sensor tends to be lower.
- the polarization sensor is moved by moving the polarization sensor to a position where the surface M211 is observed from an oblique direction (that is, a position indicated by reference numeral 230b). It is possible to improve the reliability of polarization information acquired by the sensor. That is, in the case of the example shown in FIG.
- the information processing system for example, broadcast information that guides the polarization sensor to move from the position indicated by reference numeral 230a to the position indicated by reference numeral 230b.
- the user may be prompted to move by presenting the to the user.
- the user moves based on the guidance, for example, to estimate the position, posture, shape, and the like of the target object (in other words, The effect of further improving the accuracy of the recognition of the object can be expected.
- the guidance for example, to estimate the position, posture, shape, and the like of the target object (in other words, The effect of further improving the accuracy of the recognition of the object can be expected.
- FIG. 5 is a block diagram showing an example of a functional configuration of the information processing system according to the present embodiment.
- the information processing system 1 is described as including the input / output device 20 and the information processing device 10, as in the example described with reference to FIG. That is, the input / output device 20 and the information processing device 10 shown in FIG. 5 correspond to the input / output device 20 and the information processing device 10 shown in FIG. Further, as the input / output device 20, the input / output device 20 described with reference to FIG. 2 is described as being applied.
- the input / output device 20 includes a depth sensor 201, a polarization sensor 230, and a display unit 211.
- the depth sensor 201 corresponds to the depth sensor 210 shown in FIG. 1 and the imaging units 201a and 201b shown in FIG.
- the polarization sensor 230 corresponds to the polarization sensor 230 shown in FIGS. 1 and 2.
- the display unit 211 corresponds to the display unit 211 shown in FIG. As described above, since the depth sensor 201, the polarization sensor 230, and the display unit 211 are described above, the detailed description will be omitted.
- the information processing apparatus 10 includes a self position estimation unit 110, a depth estimation unit 120, a normal estimation unit 130, a modeling processing unit 140, and an output control unit 150.
- the self position estimation unit 110 estimates the position of the input / output device 20 (in particular, the polarization sensor 230) in the real space. At this time, the self-position estimation unit 110 may estimate the attitude of the input / output device 20 in the real space.
- the position and orientation of the input / output device 20 in the real space are generally referred to as “the self-position of the input / output device 20”. That is, in the following, when "the self position of the input / output device 20" is described, it indicates at least the position in the real space of the input / output device 20 and may include the attitude of the input / output device 20.
- the self-position estimation unit 110 can estimate the self-position of the input / output device 20
- the method of the estimation and the configuration and information used for the estimation are not particularly limited.
- the self-position estimation unit 110 may estimate the self-position of the input / output device 20 based on the technique called SLAM described above.
- the self position estimation unit 110 detects a change in the position and orientation of the input / output device 20 by using a predetermined sensor (for example, an acceleration sensor or an angular velocity sensor) as a result of acquiring depth information by the depth sensor 201 Based on the result, the self position of the input / output device 20 may be estimated.
- a predetermined sensor for example, an acceleration sensor or an angular velocity sensor
- the self position estimation unit 110 outputs, to the modeling processing unit 140, information indicating the estimation result of the self position of the input / output device 20 (and consequently the self position of the polarization sensor 230).
- the self-position estimation unit 110 may output information corresponding to the estimation result of the self-position of the input / output device 20 to the output control unit 150.
- the depth estimation unit 120 acquires depth information from the depth sensor 201, and estimates the distance between a predetermined viewpoint (for example, the depth sensor 201) and an object located in the real space based on the acquired depth information.
- the depth estimation unit 120 includes the input / output device 20 (strictly, a predetermined position in the input / output device 20) in which the depth sensor 201 is held, and an object located in the real space And the distance between and.
- the depth estimation unit 120 may be configured to have a plurality of imaging units that configure the stereo camera (for example, the imaging unit 201a illustrated in FIGS. 201b) The distance between the input / output device 20 and the subject is estimated based on the parallax between the images captured by each. At this time, the depth estimation unit 120 may generate a depth map in which the estimation result of the distance is mapped to the imaging plane. Then, the depth estimation unit 120 outputs, to the modeling processing unit 140, information (for example, a depth map) according to the estimation result of the distance between the input / output device 20 and the object located in the real space.
- information for example, a depth map
- the normal estimation unit 130 acquires a polarization image captured from the polarization sensor 230.
- the normal estimating unit 130 estimates, based on polarization information included in the acquired polarization image, a geometric structure (for example, a normal) on at least a part of the surface of an object in the real space captured in the polarization image. .
- the method of estimating the geometrical structure is as described above.
- the normal vector estimation unit 130 estimates the normal vector of at least a part of the surface (for example, the surface) of the object.
- the normal line estimation unit 130 may generate a normal line map in which the estimation result of the normal line (that is, the normal line information) is mapped to the imaging plane.
- the normal line estimation unit 130 outputs information (for example, a normal line map) corresponding to the estimation result of the normal line to the modeling processing unit 140.
- the normal line estimation unit 130 may output information corresponding to the estimation result of the normal line to the output control unit 150.
- the modeling processing unit 140 acquires, from the self position estimation unit 110, information indicating the estimation result of the self position of the input / output device 20. Thereby, the modeling processing unit 140 can recognize the self position of the input / output device 20. Further, the modeling processing unit 140 acquires, from the depth estimation unit 120, information (for example, a depth map) according to the estimation result of the distance between the input / output device 20 and the object located in the real space. Further, the modeling processing unit 140 acquires, from the normal direction estimation unit 130, information (for example, a normal line map) according to the estimation result of the normal line of the plane (for example, the surface) of the object.
- the modeling processing unit 140 calculates the estimation result of the self position of the input / output device 20, the estimation result of the distance between the input / output device 20 and the object in the real space, and the estimation result of the normal of the surface of the object. , As a three-dimensional space model.
- the modeling processing unit 140 may three-dimensionally estimate the position, posture, shape, and the like of an object in the real space, for example, based on the three-dimensional space model.
- the distance between the input / output device 20 and the object it is possible to estimate the relative positional relationship between the input / output device 20 and the object. That is, it is possible to estimate the three-dimensional shape of the object based on the estimation result of the normal and the estimation result of the distance.
- the position, posture, and shape of the object are three-dimensionally estimated. Note that the above-described process is merely an example, and it is possible to three-dimensionally estimate the position, posture, shape, and the like of an object in the real space based on the acquired various information, and the method is the above. It is not limited to the example described above.
- the self position estimation unit 110, the depth estimation unit 120, and the normal direction estimation unit 130 respond to various changes in the position and orientation of the input / output device 20 (that is, changes in the position and orientation of the viewpoint).
- the modeling processing unit 140 may integrate the various information estimated for each viewpoint as a three-dimensional space model.
- the various information may be estimated along the time series according to the time series change of the position and the attitude of the input / output device 20.
- the modeling processing unit 140 may integrate the various information as a three-dimensional space model by convoluting the various information estimated along the time series in the time direction.
- the modeling processing unit 140 may update the three-dimensional space model by integrating the various information acquired anew into the three-dimensional space model generated based on the information acquired in the past. . With such a configuration, it is also possible to interpolate information of a portion of the three-dimensional space model that has not been observed in the past, based on the various information newly acquired.
- the modeling processing unit 140 based on the acquired various information, the area in the real space where the observation has already been performed (that is, the area in which the three-dimensional space model is formed) and the observation is still performed.
- Information for determining an area not exclusive may be associated with the three-dimensional space model.
- the modeling processing unit 140 sets a flag for a portion corresponding to the area in which the various information is acquired (that is, the area in which the observation is performed) in the three-dimensional space model. Good. With such a configuration, for example, based on the flag, it is possible to determine an area where observation has already been performed and an area where observation has not been performed yet.
- the information to be recorded is not necessarily limited to the above flags.
- a value calculated by adding a value corresponding to the reliability of the polarization normal (for example, a continuous value in the range of 0 to 1) is set for each observation. May be
- the modeling processing unit 140 may reproduce (simulate) the three-dimensional shape of the object in the real space as a model such as a polygon mesh based on the three-dimensional space model.
- the modeling processing unit 140 may extract a polygon mesh of a target object based on the three-dimensional space model.
- a TSDF Trusted Signed Distance Function
- a polygon mesh of an object to be a target is extracted based on a method such as Marching Cubes or Dual Contouring. It is possible.
- the three-dimensional space model is a point group, it is possible to extract the polygon mesh of the object of interest based on a method such as Poisson Surface Reconstruction or Screened Poisson Surface Reconstruction.
- the modeling processing unit 140 is information indicating estimation results of the position, orientation, shape, and the like of the object in the real space, and data that reproduces the three-dimensional shape of the object in the real space as a model (for example, voxel volume etc.
- the three-dimensional space model of (1) may be output as output data to a predetermined output destination.
- the output data may be used by the output control unit 150 described later to present various types of information to the user.
- the output control unit 150 presents various information to the user via a predetermined output unit.
- the output control unit 150 displays, based on the AR technology, display information such as a virtual object is superimposed on the object according to the estimation result of the position and orientation of the object in the real space by the modeling processing unit 140
- the display information may be presented to the user via the unit 211.
- the output control unit 150 can display information (for example, a virtual object) based on the model via the display unit 211 based on data in which the three-dimensional shape of the object in the real space is reproduced as the model. May be presented to the user.
- the output control unit 150 acquires information indicating the estimation result of the normal line in at least a part of the surface (for example, the surface) of the object in the real space, and outputs various information corresponding to the estimation result as a predetermined output unit May be presented to the user via As a specific example, when the reliability of the estimation result of the normal (in other words, the reliability of polarization information) is equal to or less than a threshold, the output control unit 150 moves to a position where the reliability further improves. Notification information for prompting (i.e., guiding) may be presented to the user via a predetermined output unit.
- the output control unit 150 recognizes the positional relationship between the input / output device 20 and the part of the surface based on the estimation result of the self position of the input / output device 20, and guides the direction according to the positional relationship. You may decide. Further, as another example, the output control unit 150 presents, to the user via the predetermined output unit, notification information for prompting (that is, guiding) movement so that the indeterminacy of the polarization normal is eliminated. You may In addition, the detail of the process which concerns at the time of presentation of the said alerting
- the functional configuration of the information processing system 1 is merely an example, and if the processing of each configuration described above is realized, the functional configuration of the information processing system 1 is not necessarily the example illustrated in FIG. It is not limited.
- the input / output device 20 and the information processing device 10 may be integrally configured.
- a part of the components of the information processing apparatus 10 may be provided in an apparatus different from the information processing apparatus 10 (for example, the input / output apparatus 20, a server, etc.).
- each function of the information processing apparatus 10 may be realized by a plurality of apparatuses operating in cooperation.
- FIG. 6 to FIG. 8 are explanatory diagrams for describing an outline of an example of processing relating to user guidance by the information processing system according to the present embodiment.
- FIG. 6 is a schematic state transition diagram of processing relating to the user's guidance by the information processing apparatus 10 according to the present embodiment.
- the processing state of the information processing apparatus 10 is between the guided state in which the user is guided by presenting the notification information to the user and the non-guided state in which the guided is not performed. Transition.
- the initial state transitioning immediately after the information processing apparatus 10 is activated is set to the non-induction state.
- the processing state of the information processing device 10 transitions to another state when a predetermined condition corresponding to the state is satisfied in each of the guided state and the non-induced state.
- FIG. 7 is an explanatory diagram for describing an example of the flow of processing relating to the user's guidance according to the reliability of the polarization normal.
- the information processing apparatus 10 based on the polarization image D311 (that is, polarization information) acquired by the polarization sensor 230, the surface (for example, an object to be recognized) in real space , Surface) (ie, polarization normal D313) is estimated (S301).
- the polarization image D311 that is, polarization information
- the surface for example, an object to be recognized
- Surface ie, polarization normal D313
- the information processing apparatus 10 calculates the reliability of the polarization normal estimation result (hereinafter, referred to as “polarization normal reliability D 315”) (S 303).
- polarization normal reliability D315 for example, the value of the degree of polarization calculated for each pixel of the polarization image D311, and whether or not the pixel value of the pixel (that is, the polarization luminance value) is saturated. It may be calculated based on information such as ka. Of course, as long as it is possible to calculate the polarization normal reliability D 315 (in other words, the reliability of polarization information), the method is not necessarily limited.
- the information processing apparatus 10 determines whether or not the user is guided (that is, whether or not to transition to the guided state) based on the calculated polarization normal reliability D315 (S305).
- the information processing apparatus 10 has a predetermined statistical value such as the average or the minimum value of the polarization normal reliability D 315 in the region where the ratio of the polarization image D 311 to the image plane is large, Transition to the induction state.
- the information processing device 10 calculates the guidance direction according to the self position D 317 of the input / output device 20 (S 307).
- the information processing apparatus 10 moves the user so that, for example, the polarization sensor 230 is positioned at a position where the reliability of the polarization normal according to the imaging result of the polarization image D311 by the polarization sensor 230 becomes higher. Calculate the direction of guidance. Therefore, an example of processing in the case of inducing the reliability of the polarization normal to be higher (that is, the polarization to be higher) will be described in more detail below.
- the information processing apparatus 10 performs guidance such that a region to be recognized (hereinafter also referred to as “target region”) in the surface of the object is observed from the viewpoint such that the zenith angle becomes larger. It is good.
- target region a region to be recognized
- FIG. 8 is an explanatory diagram for describing an example of the user's guidance by the information processing apparatus according to the present embodiment, and illustrates an example in the case of performing guidance so that the reliability of the polarization normal is higher.
- reference symbol M211 schematically indicates the surface (for example, the surface) of an object to be observed (that is, the recognition target).
- the information processing apparatus 10 maintains, for example, the user such that the gaze point in the target area does not move from at least a part of the user's view (in other words, the polarization sensor 230 Guidance while moving the user left and right (or up and down) while maintaining the state in which the fixation point is positioned within the detection range of The point of gaze may be determined, for example, by calculating the center of gravity, the center, or the like on the image of the target area.
- the polarization camera 230 located at the position indicated by the reference numeral 230a is moved to the position indicated by the reference numeral 230b.
- the polarization sensor 230 can observe the plane M211 from a position where the zenith angle based on the normal to the plane M211 becomes larger, and the polarization degree of the observed polarization becomes higher. It is possible to further improve the reliability of the normal.
- the user by urging the user to keep the fixation point stationary from at least a part of the user's field of view, the user moves parallel while maintaining the state in which the user faces the plane M211. It is possible to prevent the occurrence of a situation in which such an operation is performed. That is, in the example shown in FIG. 8, when the polarization sensor 230 moves from the position indicated by reference numeral 230a to the position indicated by reference numeral 230c, the state in which the polarization sensor 230 and the plane M211 face each other is maintained. Even after induction, the zenith angle does not increase. Therefore, even if such an operation is performed, the degree of polarization of the observed polarization does not increase, and it becomes difficult to improve the reliability of the polarization normal.
- the information processing apparatus 10 calculates the guidance direction D319 for guiding the user, as shown in FIG. Then, the information processing device 10 guides the user, for example, by notifying the display unit 211 of the input / output device 20 of notification information according to the calculation result of the guidance direction D319. The details of an example of the notification information will be described later.
- FIG. 9 to FIG. 12 are explanatory diagrams for describing an outline of another example of the process related to the user's guidance by the information processing system according to the present embodiment.
- the ambiguity of the polarization normal will be outlined.
- the position of the viewpoint from which polarization information is acquired ie, the polarization sensor 230
- a false normal is calculated as a candidate 180 degrees opposite to the incident light vector connecting the three-dimensional position of the surface to be observed.
- such indeterminacy may be a restriction in the recognition. That is, depending on the geometric structure of the environment to be observed, it may be difficult to correctly recognize the geometric structure due to the ambiguity of the polarization normal described above.
- FIG. 9 is an explanatory diagram for explaining the indeterminacy of the polarization normal.
- reference numeral M201 schematically indicates a floor provided so as to extend in the horizontal direction.
- reference symbol P211 schematically shows an example of the calculation result of the polarization normal which is the true normal of the floor surface M201. That is, the vector of the polarization normal P211 is directed vertically (upward).
- Reference M203 schematically indicates a wall surface provided so as to extend in the vertical direction.
- reference symbol P213 schematically shows an example of the calculation result of the polarization normal which is the true normal of the wall surface M203.
- reference signs P215a and P215b schematically show an example of the calculation result of the polarization normal of the wall surface M203 due to the indeterminacy of the polarization normal.
- reference symbol P215a indicates a candidate corresponding to a false normal among the polarization normals.
- reference symbol P215b indicates a candidate corresponding to the true normal among the polarization normals. That is, according to the positional relationship between the polarization sensor 230 and the floor surface M201 and the wall surface M203, the polarization normal (for example, the normal P215a) of the wall surface M203 is the floor surface due to the ambiguity of the polarization normal.
- the false normal indicates the direction in which the wall M203 extends. It will turn.
- the polarization sensor 230 is observing the wall surface M203 so as to look down from the upper side, the false normal is substantially vertically upward, ie, the normal P211 of the floor surface M201 as indicated by the reference symbol P215a. It will turn in the same direction. Under such circumstances, it may be assumed, for example, that the posture of the wall M 203 is erroneously recognized.
- the direction of the false normal is determined depending on the incident light vector connecting the position of the viewpoint from which polarization information is obtained (ie, the polarization sensor 230) and the three-dimensional position of the surface to be observed. Therefore, when a certain area in the real space is observed from a plurality of directions, if the direction in the real space indicated by the false normal among the candidates of the normal calculated according to the indeterminacy is a fixed direction Variations will occur. On the other hand, the true normal always indicates a constant direction, regardless of which direction it is observed. That is, it is possible to discriminate between the true normal and the false normal by using the above-mentioned characteristics.
- a candidate in which an object in real space is observed from a plurality of viewpoints that is, a plurality of directions
- the direction of the polarization normal calculated for each viewpoint is calculated by ambiguity (that is, false) It is sufficient to estimate the direction of the highest frequency as the direction of the true normal by counting including the normal).
- FIG. 10 is an explanatory diagram for explaining an example of the flow of processing relating to the user's guidance for the purpose of eliminating the ambiguity of the polarization normal. Also in this example, as in the example described with reference to FIG. 7, the information processing apparatus 10 can assume two states of the non-induction state and the induction state.
- the information processing apparatus 10 performs the method of the surface of the object in the real space (that is, the object to be recognized) A line (ie, polarization normal D413) is estimated (S401).
- the information processing apparatus 10 performs the polarization method by the polarization sensor 230 according to the estimation result of the polarization normal D413 and the camera parameter information D415 indicating the state of the polarization sensor 230 when the polarization image D411 is acquired.
- the observation status of the line D413 is recorded or updated (S403).
- camera parameter information D415 for example, information indicating the attitude of the polarization sensor 230, information (frustum) indicating the range in which the polarization sensor 230 captures the polarization image D411, and the like can be given.
- the camera parameter information D415 may be calculated based on the self position D419 of the input / output device 20 in which the polarization sensor 230 is held. Also, information substantially similar to the self position D419 of the input / output device 20 (that is, the self position of the polarization sensor 230) may be used as the camera parameter information D415.
- the information processing apparatus 10 is a candidate calculated by the indeterminacy of the polarization normal (in which direction each estimated normal is directed) (false (Including the normal line) and count the result, and record the count result as frequency information.
- the information processing apparatus 10 may recognize the range in which the frequency information is recorded with the polarization sensor 230 as a reference point based on the camera parameter information D415.
- the information which shows the said range it converts into the information which shows the range according to the absolute position in real space based on self-position D419 (namely, self-position of polarization sensor 230) of input-output device 20, for example. Is also possible.
- the information processing apparatus 10 displays information indicating from which direction the region (region to be observed) for which the polarization normal D413 is calculated is observed according to the self position D419 of the input / output device 20. Record as aspect information.
- the information processing apparatus 10 sets flags and the like for information corresponding to a three-dimensional position such as a voxel volume based on the above-described frequency information and aspect information, for example, the self position D419 of the input / output device 20. You may record by setting.
- the frequency information and the aspect information are also collectively referred to as normal observation information D417. That is, the recorded normal observation information D417 (frequency information and aspect information) indicates the past observation result of the area to be observed.
- FIG. 11 is a flowchart illustrating an example of processing relating to recording of normal observation information by the information processing apparatus according to the present embodiment.
- the information processing apparatus 10 selects a voxel to be processed from a voxel volume simulating a three-dimensional geometric structure in real space (S451).
- the information processing apparatus 10 determines whether the selected voxel is located in the frustum of the polarization sensor 230 based on the camera parameter information D 415 (S 453). If the selected voxel is not located in the frustum of the polarization sensor 230 (S 453, NO) and all the voxels have not been processed (S 461, NO), a new voxel from the voxel volume is processed. It chooses (S451).
- the information processing apparatus 10 indicates that each polarization normal points in any direction according to the self position D 419 of the polarization sensor 230.
- the frequency information indicating "Taka” is added (S455).
- the information processing apparatus 10 determines whether the observation direction at that time is the first observation direction among the directions in which the voxel is observed according to the setting status of the aspect information for the selected voxel (that is, It is determined whether the direction has not been observed in the past (S457). If the observation direction at that time is the direction in which the observation was performed in the past (S 457, NO) and all the voxels have not been processed (S 461, NO), new voxels are processed from the voxel volume It selects as a target of (S451).
- the observation direction at that time is a direction in which observation has not been performed in the past (S 459, YES)
- the flag of the aspect information is set (S459).
- the information processing apparatus 10 performs the process related to the update of the frequency information and the process related to the setting of the aspect information for each voxel unless the process is completed for all the voxels (S461, NO). And. Then, when all the voxels have been processed (S461, YES), the information processing apparatus 10 ends the series of processes described above.
- the normal observation information D417 (that is, the frequency information and the aspect information) is recorded or updated according to the calculation result of the polarization normal.
- the information processing apparatus 10 determines whether or not to guide the user based on the normal observation information D417 (that is, frequency information and aspect information) (that is, whether or not to transition to the induction state). ) Is determined (S405). Specifically, in the case where the acquired frequency information is based on observation information only from a direction (for example, a certain direction) in which the frequency information is acquired, the reliability of the calculated polarization normal D413 becomes lower. Therefore, the information processing apparatus 10 determines, for example, how far from the direction of variation it is observed according to the setting status of the aspect information, and determines whether to guide the user according to the determination result. You may
- the information processing apparatus 10 determines that the number of voxels observed from a position separated by a predetermined distance or more from the region is a threshold or more It may be determined whether or not it exists. Further, the information processing apparatus 10 determines whether the difference in frequency information (that is, the difference in count number) is equal to or more than a threshold among a plurality of candidates regarding the direction of the normal in which the frequency information is recorded or updated for the area. You may Based on the above determination, the information processing apparatus 10 can specify whether or not sufficient observation has been performed to eliminate the ambiguity of the polarization normal, that is, it can specify the true normal.
- the information processing apparatus 10 may transition to the induction state.
- the information processing apparatus 10 when there is a direction in which observation has not been performed in the past, or in a case where the observed frequency is lower than other directions, It may transition.
- the guidance is performed based on the normal observation information D417 and the self position D419 of the input / output device 20.
- the direction D421 is calculated.
- the information processing apparatus 10 guides the guidance direction D421 such that the polarization sensor 230 is positioned at the position of the viewpoint at which the target region is observed from the direction not observed in the past according to the setting status of the aspect information. May be calculated.
- FIG. 12 is an explanatory diagram for explaining another example of the user's guidance by the information processing apparatus according to the present embodiment, in the case of guiding the user so that the indeterminacy of the polarization normal is eliminated.
- reference symbol M211 schematically indicates a surface (for example, a surface) of an object to be observed (that is, a recognition target).
- the arrow shown by the solid line schematically shows the direction of the true normal of the surface M211.
- the arrow shown with the dashed-two dotted line has shown typically the direction of the fake normal calculated calculated according to the indeterminacy of a polarization
- any of the calculation results of the two polarization normals calculated by the ambiguity of the polarization normal It is difficult to identify which represents a true normal.
- the polarization sensor 230 located at the position indicated by the reference numeral 230d moves to the position indicated by the reference numeral 230e, as described above, the direction of the true normal does not change. Since the direction of the normal of x changes, it becomes possible to specify the direction of the true normal.
- the information processing apparatus 10 may guide the user such that the target area is observed from the direction in which the aspect information is not set.
- the information processing apparatus 10 calculates the guidance direction D421 for guiding the user. Then, the information processing device 10 guides the user, for example, by notifying the display unit 211 of the input / output device 20 of notification information according to the calculation result of the guidance direction D421. The details of an example of the notification information will be described later.
- FIGS. 9 to 12 as another example of the user's guidance by the information processing system according to the present embodiment, an example of guiding the user so that the indeterminacy of the polarization normal is eliminated. explained.
- FIG. 13 is an explanatory diagram for describing an example of notification information to be notified to guide a user by the information processing apparatus according to the present embodiment, and the user is monitored so that the target area is observed from different directions. It shows an example of notification information presented for guidance.
- the state indicated by the reference symbol V111 is the optical of the real space viewed by the user in the situation where the user is observing the region to be recognized (observed) in the real space (that is, the target region).
- the state of the image is schematically shown.
- the state V111 indicates a state in which the user faces the surface of an object in real space (hereinafter, referred to as “target area M311”).
- target area M311 an object in real space
- the state indicated by the reference symbol V113 when the display information (notification information) is superimposed on the target area M311 observed in the state V111 by the information processing apparatus 10, the state of the optical image visually recognized by the user is It is shown schematically.
- the state V113 corresponds to the state before the user is guided by the notification information presented to the information processing apparatus 10.
- the state indicated by the reference symbol V115 schematically indicates the state of an optical image visually recognized by the user after being guided by the information processing apparatus 10.
- the information processing apparatus 10 since the information processing apparatus 10 faces the target area M311 directly, the reliability of the polarization normal calculated for the target area M311 (that is, detected by the polarization sensor 230) It recognizes that the polarization degree of polarization is low, and transitions to the induced state.
- the information processing apparatus 10 presents the user with notification information V121 and V131 in order to guide the user such that the reliability of the polarization normal calculated for the target region M311 is higher.
- the information processing apparatus 10 directs the broadcast information V121 in the real space according to the normal direction of the target area M311, and in the real space corresponding to the target area M311.
- the notification information V121 is presented to the user so as to be localized at the position of.
- the target region M311 is observed from the direction in which the zenith angle based on the normal of the target region M311 is equal to or greater than the threshold.
- the information processing apparatus 10 presents, to the user, a message prompting the user to move to a position facing the notification information V121 as the notification information V131.
- the information processing apparatus 10 guides the user such that the target region M311 is observed from different directions by presenting the notification information V121 and V131 to the user.
- the notification information V121 corresponds to an example of “first display information”.
- the notification information V131 corresponds to an example of “second display information”.
- the target area M311 is observed from a position where the zenith angle based on the normal to the target area M311 becomes larger. State. That is, the degree of polarization of the polarization detected for the target region M311 becomes higher with the above-mentioned induction, and the reliability of the calculation result of the polarization normal can be further improved.
- the target area M311 is observed from a direction different from the direction in which the target area M311 is observed in the state V113, as illustrated as a state V115. That is, it is also possible to eliminate the ambiguity of the polarization normal by using the observation results of the target area M311 from a plurality of directions involved in the above-mentioned guidance.
- the information processing apparatus 10 may present notification information V133 for notifying the user of the completion of the guidance. Further, when the guidance is completed, the information processing apparatus 10 may transition to the non-induction state.
- FIG. 14 is an explanatory diagram for explaining another example of notification information to be notified in order to guide the user by the information processing apparatus according to the present embodiment, and the user is monitored so that the target area is observed from different directions. It shows an example of notification information presented for guidance.
- the state indicated by the reference symbol V211 schematically indicates the state of an optical image of the real space visually recognized by the user in a situation where the user is observing a region to be recognized in the real space.
- a state V211 indicates a state in which the user is facing the target area M311.
- the state indicated by the reference symbol V213 when display information (notification information) is superimposed on the target area M311 observed in the state V211 by the information processing apparatus 10, the state of the optical image visually recognized by the user is It is shown schematically.
- the state V213 corresponds to the state before the user is guided by the notification information presented to the information processing apparatus 10.
- the state indicated by the reference symbol V125 schematically indicates the state of an optical image visually recognized by the user after being guided by the information processing apparatus 10.
- the information processing apparatus 10 presents the notification information V221, V223, and V231 to the user in order to guide the user such that the reliability of the polarization normal calculated for the target region M311 is higher. Do.
- the information processing apparatus 10 presents the user with the notification information V221 so that the ring-shaped notification information V221 is localized at the position in the real space corresponding to the target area M311. Further, the information processing apparatus 10 presents spherical notification information V 223 so as to be localized on the optical axis of the polarization sensor 230 (in other words, in the front direction of the input / output device 20). In addition, the information processing apparatus 10 instructs the user to move in the calculated guidance direction (for example, one of the left and right directions) while maintaining the state where the spherical notification information V223 is positioned in the ring-shaped notification information V221. A prompting message is presented to the user as notification information V231.
- the notification information V221 serves as an index of a position at which the gaze point from the user's viewpoint is localized. Further, the notification information V223 plays a role of presenting the position of the fixation point from the user's point of view to the user in a visibly recognizable manner. As described above, the information processing apparatus 10 guides the user such that the target region M311 is observed from different directions by presenting the notification information V221, V223, and V231 to the user.
- the target area M311 is observed from a position where the zenith angle based on the normal to the target area M311 becomes larger. State. That is, the degree of polarization of the polarization detected for the target region M311 becomes higher with the above-mentioned induction, and the reliability of the calculation result of the polarization normal can be further improved.
- the target area M311 is observed from a direction different from the direction in which the target area M311 is observed in the state V213. That is, it is also possible to eliminate the ambiguity of the polarization normal by using the observation results of the target area M311 from a plurality of directions involved in the above-mentioned guidance.
- the information processing apparatus 10 may present notification information V233 for notifying the user of the completion of the guidance. Further, when the guidance is completed, the information processing apparatus 10 may transition to the non-induction state.
- the above-described example of the notification information is merely an example, and the user can be guided so as to realize improvement in the reliability of the polarization normal and elimination of the indeterminacy of the polarization normal. Aspects are not necessarily limited to the examples described above with reference to FIGS. 13 and 14.
- notification information may be presented as voice or sound.
- the notification information may be presented as a tactile sensation or haptic sensation (so-called haptics) simulated by vibration or the like.
- the information processing apparatus which concerns on this embodiment demonstrated an example of alerting
- FIG. 15 is a functional block diagram showing an example of a hardware configuration of an information processing apparatus that constitutes an information processing system according to an embodiment of the present disclosure.
- An information processing apparatus 900 constituting an information processing system mainly includes a CPU 901, a ROM 902, and a RAM 903.
- the information processing apparatus 900 further includes a host bus 907, a bridge 909, an external bus 911, an interface 913, an input device 915, an output device 917, a storage device 919, a drive 921 and a connection port 923. And a communication device 925.
- the CPU 901 functions as an arithmetic processing unit and a control unit, and controls the entire operation or a part of the information processing apparatus 900 according to various programs recorded in the ROM 902, the RAM 903, the storage device 919, or the removable recording medium 927.
- the ROM 902 stores programs used by the CPU 901, calculation parameters, and the like.
- the RAM 903 primarily stores programs used by the CPU 901, parameters that appropriately change in execution of the programs, and the like. These are mutually connected by a host bus 907 constituted by an internal bus such as a CPU bus.
- a host bus 907 constituted by an internal bus such as a CPU bus.
- the host bus 907 is connected to an external bus 911 such as a peripheral component interconnect / interface (PCI) bus via the bridge 909. Further, an input device 915, an output device 917, a storage device 919, a drive 921, a connection port 923, and a communication device 925 are connected to the external bus 911 via an interface 913.
- PCI peripheral component interconnect / interface
- the input device 915 is an operation unit operated by the user, such as a mouse, a keyboard, a touch panel, a button, a switch, a lever, and a pedal.
- the input device 915 may be, for example, a remote control means (so-called remote control) using infrared rays or other radio waves, or an externally connected device such as a mobile phone or PDA corresponding to the operation of the information processing apparatus 900. It may be 929.
- the input device 915 includes, for example, an input control circuit that generates an input signal based on the information input by the user using the above-described operation means, and outputs the generated input signal to the CPU 901.
- the user of the information processing apparatus 900 can input various data to the information processing apparatus 900 and instruct processing operations by operating the input device 915.
- the output device 917 is configured of a device capable of visually or aurally notifying the user of the acquired information.
- Such devices include display devices such as CRT display devices, liquid crystal display devices, plasma display devices, EL display devices and lamps, audio output devices such as speakers and headphones, and printer devices.
- the output device 917 outputs, for example, results obtained by various processes performed by the information processing apparatus 900.
- the display device displays the result obtained by the various processes performed by the information processing apparatus 900 as text or an image.
- the audio output device converts an audio signal composed of reproduced audio data, acoustic data and the like into an analog signal and outputs it.
- the display unit 211 illustrated in FIG. 5 may be configured by the output device 917.
- the storage device 919 is a device for data storage configured as an example of a storage unit of the information processing device 900.
- the storage device 919 is configured of, for example, a magnetic storage unit device such as a hard disk drive (HDD), a semiconductor storage device, an optical storage device, a magneto-optical storage device, or the like.
- the storage device 919 stores programs executed by the CPU 901, various data, and the like.
- the drive 921 is a reader / writer for a recording medium, and is built in or externally attached to the information processing apparatus 900.
- the drive 921 reads out information recorded in a removable recording medium 927 such as a mounted magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and outputs the information to the RAM 903.
- the drive 921 can also write a record on a removable recording medium 927 such as a mounted magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the removable recording medium 927 is, for example, a DVD medium, an HD-DVD medium, a Blu-ray (registered trademark) medium, or the like.
- the removable recording medium 927 may be Compact Flash (registered trademark) (CF: Compact Flash), a flash memory, an SD memory card (Secure Digital memory card), or the like.
- the removable recording medium 927 may be, for example, an IC card (Integrated Circuit card) equipped with a non-contact IC chip, an electronic device, or the like.
- the connection port 923 is a port for direct connection to the information processing apparatus 900.
- Examples of the connection port 923 include a Universal Serial Bus (USB) port, an IEEE 1394 port, and a Small Computer System Interface (SCSI) port.
- USB Universal Serial Bus
- SCSI Small Computer System Interface
- As another example of the connection port 923 there are an RS-232C port, an optical audio terminal, a high-definition multimedia interface (HDMI (registered trademark)) port, and the like.
- HDMI registered trademark
- the communication device 925 is, for example, a communication interface configured of a communication device or the like for connecting to a communication network (network) 931.
- the communication device 925 is, for example, a communication card for a wired or wireless LAN (Local Area Network), Bluetooth (registered trademark) or WUSB (Wireless USB).
- the communication device 925 may be a router for optical communication, a router for Asymmetric Digital Subscriber Line (ADSL), a modem for various communications, or the like.
- the communication device 925 can transmit and receive signals and the like according to a predetermined protocol such as TCP / IP, for example, with the Internet or another communication device.
- the communication network 931 connected to the communication device 925 is configured by a network or the like connected by wire or wireless, and may be, for example, the Internet, home LAN, infrared communication, radio wave communication, satellite communication, etc. .
- a computer program for realizing each function of the information processing apparatus 900 constituting the information processing system according to the present embodiment as described above can be prepared and implemented on a personal computer or the like.
- a computer readable recording medium in which such a computer program is stored can be provided.
- the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory or the like.
- the above computer program may be distributed via, for example, a network without using a recording medium.
- the number of computers that execute the computer program is not particularly limited. For example, a plurality of computers (for example, a plurality of servers and the like) may execute the computer program in cooperation with each other.
- the plane of the object in real space is obtained based on polarization information according to the detection results of each of a plurality of polarizations different in polarization direction obtained by the polarization sensor. Estimate normals at least in part. Further, the information processing apparatus controls so that notification information for guiding the position of the polarization sensor in the real space to change is notified according to the estimation result of the normal (that is, the notification information Control the output).
- an angle formed by the direction of the normal to the plane and the direction corresponding to the vector extended from the polarization sensor to the plane controls so that the alerting
- the user moves the polarization sensor to a position where the polarization degree of polarization detected by the polarization sensor is further improved with at least a part of the surface of the object in real space as the target area. It is possible to induce In addition, by inducing the target regions to be observed from a plurality of different directions, it is possible to eliminate the indeterminacy of the polarization normal. That is, according to the information processing system according to the present embodiment, by guiding the user as described above, it is possible to acquire information used for recognizing an object in the real space in a more preferable manner. .
- the application destination of the technology is not necessarily limited. That is, as described above, the technology according to the present disclosure can be applied if a condition that induces polarization information to be acquired by the polarization sensor 230 in a more preferable manner is required.
- the input / output device 20 The configuration of is not limited. As a specific example, a portable terminal device such as a smartphone may be applied as the input / output device 20.
- the configuration of the device applied as the input / output device 20 may be appropriately changed according to the application destination of the technology according to the present disclosure.
- An estimation unit configured to estimate a normal line of at least a part of a surface of an object in real space based on polarization information according to detection results of a plurality of polarizations different from each other in polarization direction acquired by a polarization sensor;
- a control unit configured to control an output of notification information for guiding a change of a position in the real space according to the estimation result of the normal line;
- An information processing apparatus comprising: (2) The control unit Acquiring position information according to the estimation result of the position of the polarization sensor in the real space, Control is performed such that the notification information is output according to the position information and the estimation result of the normal.
- the notification information is information for guiding the position of the object in the real space of the polarization sensor to be changed while maintaining the position of the object within at least a part of the detection range of the polarization sensor.
- the notification information is information for guiding the surface to be positioned on an optical axis of the polarization sensor.
- the information processing apparatus according to (1) or (2), wherein the notification information is information for guiding the surface to be observed from different directions.
- the information processing apparatus wherein the display information includes information as an index for localizing a gaze point from a predetermined viewpoint to at least a partial area of the surface.
- the display information includes first display information and second display information for guiding the user to face the first display information.
- the control unit presents the first display information so as to be superimposed on the surface so as to turn in a direction in a real space according to the estimation result of the normal line.
- the information processing apparatus according to (6).
- the control unit is configured to output the notification information to guide an angle formed by a direction of the normal to the surface and a direction corresponding to a vector extended from the polarization sensor to the surface to be larger.
- the information processing apparatus which controls (10) The information processing apparatus according to any one of (1) to (8), wherein the control unit controls the output of the notification information according to the reliability of the estimation result of the normal line. (11) The information processing apparatus according to (10), wherein the control unit controls an output of the notification information that guides movement in a direction in which the reliability is higher. (12) The information processing apparatus according to (10) or (11), wherein the control unit controls an output of the notification information when the reliability is equal to or less than a threshold. (13) The information processing apparatus according to any one of (1) to (8), wherein the control unit controls an output of the notification information according to a past observation result of the surface.
- Information processing device (15) The control unit controls the output of the notification information when there is a direction in which observation of the surface has not been performed in the past among the directions with respect to the surface, according to (13) or (14).
- Information processing equipment
- the computer is Estimating a normal in at least a part of a surface of an object in real space based on polarization information according to detection results of a plurality of polarizations different in polarization direction acquired by the polarization sensor; Controlling an output of notification information for guiding a change of a position in the real space according to the estimation result of the normal line;
- Information processing methods including: (17) On the computer Estimating a normal in at least a part of a surface of an object in real space based on polarization information according to detection results of a plurality of polarizations different in polarization direction acquired by the polarization sensor; Controlling an output of notification information for guiding a change of a position in the real space according to the estimation result of the normal line;
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Vascular Medicine (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
【課題】実空間内の物体の認識に利用される情報をより好適な態様で取得可能とする。 【解決手段】偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する推定部と、前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御する制御部と、を備える、情報処理装置。
Description
本開示は、情報処理装置、情報処理方法、及び記録媒体に関する。
近年、画像認識技術の高度化に伴い、デジタルカメラ等のような撮像部により撮像された画像に基づき、実空間内の物体(以降では、「実オブジェクト」とも称する)の位置、姿勢、及び形状等を3次元的に推定(または計測)することが可能となってきている。また、このような推定結果を利用することで、実オブジェクトの3次元形状を、ポリゴン等によりモデルとして再現(再構成)することも可能となってきている。例えば、非特許文献1及び非特許文献2には、物体の3次元的な形状をモデルとして再現する技術の一例が開示されている。
また、上述のような技術の応用により、実オブジェクトの画像を撮像する撮像部等のような所定の視点の実空間内における位置や姿勢(即ち、自己位置)を推定(認識)することも可能となってきている。
Matthias Neibner 他,"Real-time 3D Reconstruction at Scale using Voxel Hashing",ACM Transactions on Graphics(TOG)、2013年、[平成29年8月11 日検索]、インターネット<https://graphics.stanford.edu/~niessner/papers/2013/4hashing/niessner2013hashing.pdf>
Frank Stenbrucker 他,"Volumetric 3D Mapping in Real-Time on a CPU",ICRA、2014年、[平成29年8月11 日検索]、インターネット<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.601.1521&rep=rep1&type=pdf>
一方で、実空間内の物体の位置、姿勢、及び形状を推定する場合等のように当該物体を認識するような状況下において、当該認識に利用される情報の取得条件に応じて、当該物体の認識率が低下し、ひいては高い精度での認識が困難となる場合もある。
そこで、本開示では、実空間内の物体の認識に利用される情報をより好適な態様で取得可能とする技術を提案する。
本開示によれば、偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する推定部と、前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御する制御部と、を備える、情報処理装置が提供される。
また、本開示によれば、コンピュータが、偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、を含む、情報処理方法が提供される。
また、本開示によれば、コンピュータに、偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、を実行させるプログラムが記録された記録媒体が提供される。
以上説明したように本開示によれば、実空間内の物体の認識に利用される情報をより好適な態様で取得可能とする技術が提供される。
なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.概略構成
1.1.システム構成
1.2.入出力装置の構成
2.実空間内の物体の認識に関する検討
3.技術的特徴
3.1.機能構成
3.2.偏光法線の信頼度に応じた誘導例
3.3.偏光法線の不定性を解消するための誘導例
3.4.報知情報の一例
4.ハードウェア構成
5.むすび
1.概略構成
1.1.システム構成
1.2.入出力装置の構成
2.実空間内の物体の認識に関する検討
3.技術的特徴
3.1.機能構成
3.2.偏光法線の信頼度に応じた誘導例
3.3.偏光法線の不定性を解消するための誘導例
3.4.報知情報の一例
4.ハードウェア構成
5.むすび
<<1.概略構成>>
<1.1.システム構成>
まず、図1を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成の一例について説明する。図1は、本開示の一実施形態に係る情報処理システムの概略的な構成の一例について説明するための説明図であり、所謂AR(Augmented Reality)技術を応用してユーザに対して各種コンテンツを提示する場合の一例を示している。
<1.1.システム構成>
まず、図1を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成の一例について説明する。図1は、本開示の一実施形態に係る情報処理システムの概略的な構成の一例について説明するための説明図であり、所謂AR(Augmented Reality)技術を応用してユーザに対して各種コンテンツを提示する場合の一例を示している。
図1において、参照符号m111は、実空間内に位置する物体(例えば、実オブジェクト)を模式的に示している。また、参照符号v131及びv133は、実空間内に重畳するように提示される仮想的なコンテンツ(例えば、仮想オブジェクト)を模式的に示している。即ち、本実施形態に係る情報処理システム1は、例えば、AR技術に基づき、実オブジェクトm111等の実空間内の物体に対して、仮想オブジェクトを重畳してユーザに提示する。なお、図1では、本実施形態に係る情報処理システムの特徴をよりわかりやすくするために、実オブジェクトと仮想オブジェクトとの双方をあわせて提示している。
図1に示すように、本実施形態に係る情報処理システム1は、情報処理装置10と、入出力装置20とを含む。情報処理装置10と入出力装置20とは、所定のネットワークを介して互いに情報を送受信可能に構成されている。なお、情報処理装置10と入出力装置20とを接続するネットワークの種別は特に限定されない。具体的な一例として、当該ネットワークは、Wi-Fi(登録商標)規格に基づくネットワークのような、所謂無線のネットワークにより構成されていてもよい。また、他の一例として、当該ネットワークは、インターネット、専用線、LAN(Local Area Network)、または、WAN(Wide Area Network)等により構成されていてもよい。また、当該ネットワークは、複数のネットワークを含んでもよく、少なくとも一部が有線のネットワークとして構成されていてもよい。
入出力装置20は、各種入力情報の取得や、当該入出力装置20を保持するユーザに対して各種出力情報の提示を行うための構成である。また、入出力装置20による出力情報の提示は、情報処理装置10により、当該入出力装置20により取得された入力情報に基づき制御される。例えば、入出力装置20は、実オブジェクトm111を認識するための情報(例えば、撮像された実空間の画像)を入力情報として取得し、取得した情報を情報処理装置10に出力する。情報処理装置10は、入出力装置20から取得した情報に基づき、実空間内における実オブジェクトm111の位置や姿勢を認識し、当該認識結果に基づき、入出力装置20に仮想オブジェクトv131及びv133を提示させる。このような制御により、入出力装置20は、所謂AR技術に基づき、実オブジェクトm111に対して仮想オブジェクトv131及びv133が重畳するように、当該仮想オブジェクトv131及びv133をユーザに提示することが可能となる。
また、入出力装置20は、例えば、ユーザが頭部の少なくとも一部に装着して使用する所謂頭部装着型デバイスとして構成されており、当該ユーザの視線を検出可能に構成されていてもよい。このような構成に基づき、情報処理装置10は、例えば、入出力装置20によるユーザの視線の検出結果に基づき、当該ユーザが所望の対象(例えば、実オブジェクトm111や、仮想オブジェクトv131及びv133等)を注視していることを認識した場合に、当該対象を操作対象として特定してもよい。また、情報処理装置10は、入出力装置20に対する所定の操作をトリガとして、ユーザの視線が向けられている対象を操作対象として特定してもよい。以上のようにして、情報処理装置10は、操作対象を特定し、当該操作対象に関連付けられた処理を実行することで、入出力装置20を介して各種サービスをユーザに提供してもよい。
ここで、本実施形態に係る情報処理システムが、上述したように実空間内の物体(実オブジェクト)を認識するためのより具体的な構成の一例について説明する。図1に示すように、本実施形態に係る入出力装置20は、デプスセンサ201と、偏光センサ230とを含む。
デプスセンサ201は、所定の視点と実空間内に位置する物体(実オブジェクト)との間の距離を推定するための情報を取得し、取得した当該情報を情報処理装置10に送信する。なお、以降の説明では、デプスセンサ201により取得される、所定の視点と実オブジェクトとの間の距離を推定するための情報を、「深度情報」とも称する。
例えば、図1に示す例では、デプスセンサ201は、複数の撮像部201a及び201bを備えた所謂ステレオカメラとして構成されており、当該撮像部201a及び201bにより、互いに異なる視点から実空間内に位置する物体の画像を撮像する。この場合には、デプスセンサ201は、撮像部201a及び201bそれぞれにより撮像された画像を情報処理装置10に送信することとなる。
このようにして互いに異なる視点から撮像された複数の画像を利用することで、例えば、当該複数の画像間の視差に基づき、所定の視点(例えば、デプスセンサ201の位置)と被写体(即ち、画像中に撮像された実オブジェクト)との間の距離を推定(算出)することが可能となる。そのため、例えば、所定の視点と被写体との間の距離の推定結果が撮像平面にマッピングされた所謂デプスマップを生成することも可能となる。
なお、所定の視点と実空間内の物体(実オブジェクト)との間の距離を推定すること可能であれば、デプスセンサ201に相当する部分の構成や、当該距離の推定に係る方法は特に限定されない。具体的な一例として、マルチカメラステレオ、移動視差、TOF(Time Of Flight)、Structured Light等の方式に基づき、所定の視点と実オブジェクトとの間の距離が測定されてもよい。ここで、TOFとは、被写体(即ち、実オブジェクト)に対して赤外線等の光を投光し、投光した光が当該被写体で反射して戻るまでの時間を画素ごとに測定することで、当該測定結果に基づき被写体までの距離(深度)を含めた画像(即ち、デプスマップ)を得る方式である。また、Structured Lightは、被写体に対して赤外線等の光によりパターンを照射しそれを撮像することで、撮像結果から得られる当該パターンの変化に基づき、被写体までの距離(深度)を含めたデプスマップを得る方式である。また、移動視差とは、所謂単眼カメラにおいても、視差に基づき被写体までの距離を測定する方法である。具体的には、カメラを移動させることで、被写体を互いに異なる視点から撮像し、撮像された画像間の視差に基づき被写体までの距離を測定する。なお、このとき各種センサによりカメラの移動距離及び移動方向を認識することで、被写体までの距離をより精度良く測定することが可能となる。なお、距離の測定方法に応じて、デプスセンサ201の構成(例えば、単眼カメラ、ステレオカメラ等)を変更してもよい。
偏光センサ230は、実空間内に位置する物体で反射した光のうち、所定の偏光方向に偏光された光(以下、単に「偏光」とも称する)を検知し、当該偏光の検知結果に応じた情報を情報処理装置10に送信する。なお、本実施形態に係る情報処理システム1においては、偏光センサ230は、偏光方向が互いに異なる複数の偏光(より好ましくは、3偏光以上)を検知可能に構成されている。また、以降の説明においては、偏光センサ230による偏光の検知結果に応じた情報を「偏光情報」とも称する。
具体的な一例として、偏光センサ230は、所謂偏光カメラとして構成されており、所定の偏光方向に偏光された光に基づく偏光画像を撮像する。ここで、偏光画像とは、偏光情報が偏光カメラの撮像平面(換言すると、画像平面)上にマッピングされた情報に相当する。なお、この場合には、偏光センサ230は、撮像した偏光画像を情報処理装置10に送信することとなる。
また、偏光センサ230は、デプスセンサ201による距離を推定するための情報の取得対象となる実空間内の領域と少なくとも一部が重畳する領域(理想的には、略一致する領域)から到来する偏光を撮像可能に保持されるとよい。なお、デプスセンサ201及び偏光センサ230のそれぞれが所定の位置に固定されている場合には、デプスセンサ201及び偏光センサ230それぞれの実空間内の位置を示す情報をあらかじめ取得しておくことで、それぞれの位置を既知の情報として扱うことが可能である。
また、図1に示すように、デプスセンサ201及び偏光センサ230が共通の装置(例えば、入出力装置20)に保持されているとよい。この場合には、例えば、当該装置に対するデプスセンサ201及び偏光センサ230の相対的な位置関係をあらかじめ算出しておくことで、当該装置の位置及び姿勢に基づきデプスセンサ201及び偏光センサ230それぞれの位置及び姿勢を推定することが可能となる。
また、デプスセンサ201及び偏光センサ230が保持された装置(例えば、入出力装置20)が移動可能に構成されていてもよい。この場合には、例えば、自己位置推定と呼ばれる技術を応用することで、当該装置の実空間内における位置及び姿勢を推定することが可能となる。
ここで、所定の装置の実空間内における位置及び姿勢を推定する技術のより具体的な一例として、SLAM(simultaneous localization and mapping)と称される技術について説明する。SLAMとは、カメラ等の撮像部、各種センサ、エンコーダ等を利用することにより、自己位置推定と環境地図の作成とを並行して行う技術である。より具体的な一例として、SLAM(特に、Visual SLAM)では、撮像部により撮像された動画像に基づき、撮像されたシーン(または、被写体)の3次元形状を逐次的に復元する。そして、撮像されたシーンの復元結果を、撮像部の位置及び姿勢の検出結果と関連付けることで、周囲の環境の地図の作成と、当該環境における撮像部の位置及び姿勢の推定とが行われる。なお、撮像部の位置及び姿勢については、例えば、当該撮像部が保持された装置に加速度センサや角速度センサ等の各種センサを設けることで、当該センサの検出結果に基づき相対的な変化を示す情報として推定することが可能である。もちろん、撮像部の位置及び姿勢を推定可能であれば、その方法は、必ずしも加速度センサや角速度センサ等の各種センサの検知結果に基づく方法のみには限定されない。
また、デプスセンサ201及び偏光センサ230のうち少なくとも一方が、他方とは独立して移動可能に構成されていてもよい。この場合には、移動可能に構成されたセンサ自体の実空間内における位置及び姿勢が、上述した自己位置推定の技術等に基づき個別に推定されればよい。
また、情報処理装置10は、デプスセンサ201及び偏光センサ230により取得された深度情報及び偏光情報を入出力装置20から取得してもよい。この場合には、例えば、情報処理装置10は、取得した当該深度情報及び偏光情報に基づき、実空間内に位置する物体(実オブジェクト)を認識し、当該物体の3次元的な形状を再現したモデルを生成してもよい。なお、当該モデルの生成に係る処理の詳細については別途後述する。
また、情報処理装置10は、偏光センサ230による偏光情報の取得結果に応じて、入出力装置20を使用するユーザに対して、当該入出力装置20の出力部(例えば、ディスプレイ等)を介して各種情報を提示してもよい。具体的な一例として、情報処理装置10は、偏光センサ230が実オブジェクトを認識するための偏光情報をより好適な態様で取得可能となる位置に当該偏光センサ230(即ち、入出力装置20)が移動するように誘導するための報知情報をユーザに提示(報知)してもよい。なお、当該報知情報の提示に係る処理や、当該報知情報の一例については詳細を別途後述する。
なお、上述した構成はあくまで一例であり、本実施形態に係る情報処理システム1のシステム構成は、必ずしも図1に示す例のみには限定されない。具体的な一例として、入出力装置20及び情報処理装置10は一体的に構成されていてもよい。また、入出力装置20及び情報処理装置10の構成及び処理の詳細については別途後述する。
以上、図1を参照して、本開示の一実施形態に係る情報処理システムの概略的な構成の一例について説明した。
<1.2.入出力装置の構成>
続いて、図2を参照して、図1に示した本実施形態に係る入出力装置20の概略的な構成の一例について説明する。図2は、本実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。
続いて、図2を参照して、図1に示した本実施形態に係る入出力装置20の概略的な構成の一例について説明する。図2は、本実施形態に係る入出力装置の概略的な構成の一例について説明するための説明図である。
前述したように、本実施形態に係る入出力装置20は、ユーザが頭部の少なくとも一部に装着して使用する所謂頭部装着型デバイスとして構成されている。例えば、図2に示す例では、入出力装置20は、所謂アイウェア型(メガネ型)のデバイスとして構成されており、レンズ293a及び293bのうち少なくともいずれかが透過型のディスプレイ(表示部211)として構成されている。また、入出力装置20は、撮像部201a及び201bと、偏光センサ230と、操作部207と、メガネのフレームに相当する保持部291とを備える。また、入出力装置20は、撮像部203a及び203bを備えてもよい。なお、以降では、入出力装置20が、撮像部203a及び203bを備えているものとして各種説明を行う。保持部291は、入出力装置20がユーザの頭部に装着されたときに、表示部211と、撮像部201a及び201bと、偏光センサ230と、撮像部203a及び203bと、操作部207とを、当該ユーザの頭部に対して所定の位置関係となるように保持する。なお、撮像部201a及び201bと、偏光センサ230とは、図1に示す撮像部201a及び201bと、偏光センサ230とに相当する。また、図2には図示していないが、入出力装置20は、ユーザの音声を集音するための集音部を備えていてもよい。
ここで、入出力装置20のより具体的な構成について説明する。例えば、図2に示す例では、レンズ293aが、右眼側のレンズに相当し、レンズ293bが、左眼側のレンズに相当する。即ち、保持部291は、入出力装置20が装着された場合に、表示部211(換言すると、レンズ293a及び293b)がユーザの眼前に位置するように、当該表示部211を保持する。
撮像部201a及び201bは、所謂ステレオカメラとして構成されており、入出力装置20がユーザの頭部に装着されたときに、当該ユーザの頭部が向いた方向(即ち、ユーザの前方)を向くように、保持部291によりそれぞれ保持される。このとき、撮像部201aが、ユーザの右眼の近傍に保持され、撮像部201bが、当該ユーザの左眼の近傍に保持される。このような構成に基づき、撮像部201a及び201bは、入出力装置20の前方に位置する被写体(換言すると、実空間に位置する実オブジェクト)を互いに異なる位置から撮像する。これにより、入出力装置20は、ユーザの前方に位置する被写体の画像を取得するとともに、撮像部201a及び201bそれぞれにより撮像された画像間の視差に基づき、当該入出力装置20(ひいては、ユーザの視点の位置)から、当該被写体までの距離を算出することが可能となる。
なお、入出力装置20と被写体との間の距離を測定可能であれば、その構成や方法は特に限定されないことは前述したとおりである。
また、撮像部203a及び203bは、入出力装置20がユーザの頭部に装着されたときに、それぞれの撮像範囲内に当該ユーザの眼球が位置するように、保持部291によりそれぞれ保持される。具体的な一例として、撮像部203aは、撮像範囲内にユーザの右眼が位置するように保持される。このような構成に基づき、撮像部203aにより撮像された右眼の眼球の画像と、当該撮像部203aと当該右眼との間の位置関係と、に基づき、当該右眼の視線が向いている方向を認識することが可能となる。同様に、撮像部203bは、撮像範囲内に当該ユーザの左眼が位置するように保持される。即ち、撮像部203bにより撮像された左眼の眼球の画像と、当該撮像部203bと当該左眼との間の位置関係と、に基づき、当該左眼の視線が向いている方向を認識することが可能となる。なお、図2に示す例では、入出力装置20が撮像部203a及び203bの双方を含む構成について示しているが、撮像部203a及び203bのうちいずれかのみが設けられていてもよい。
偏光センサ230は、図1に示す偏光センサ230に相当し、入出力装置20がユーザの頭部に装着されたときに、当該ユーザの頭部が向いた方向(即ち、ユーザの前方)を向くように、保持部291により保持される。このような構成の基で、偏光センサ230は、入出力装置20を装着したユーザの眼前の空間の偏光画像を撮像する。なお、図2に示す偏光センサ230の設置位置はあくまで一例であり、偏光センサ230により入出力装置20を装着したユーザの眼前の空間の偏光画像が撮像可能であれば、当該偏光センサ230の設置位置は限定されない。
操作部207は、入出力装置20に対するユーザからの操作を受け付けるための構成である。操作部207は、例えば、タッチパネルやボタン等のような入力デバイスにより構成されていてもよい。操作部207は、保持部291により、入出力装置20の所定の位置に保持されている。例えば、図2に示す例では、操作部207は、メガネのテンプルに相当する位置に保持されている。
また、本実施形態に係る入出力装置20は、例えば、加速度センサや、角速度センサ(ジャイロセンサ)が設けられ、当該入出力装置20を装着したユーザの頭部の動き(換言すると、入出力装置20自体の動き)を検出可能に構成されていてもよい。具体的な一例として、入出力装置20は、ユーザの頭部の動きとして、ヨー(yaw)方向、ピッチ(pitch)方向、及びロール(roll)方向それぞれの成分を検出することで、当該ユーザの頭部の位置及び姿勢のうち少なくともいずれかの変化を認識してもよい。
以上のような構成に基づき、本実施形態に係る入出力装置20は、ユーザの頭部の動きに応じた、自身の位置や姿勢の変化を認識することが可能となる。また、このとき入出力装置20は、所謂AR技術に基づき、実空間に位置する実オブジェクトに対して、仮想的なコンテンツ(即ち、仮想オブジェクト)が重畳するように、表示部211に当該コンテンツを提示することも可能となる。また、このとき入出力装置20は、例えば、前述したSLAMと称される技術等に基づき、実空間内における自身の位置及び姿勢(即ち、自己位置)を推定してもよく、当該推定結果を仮想オブジェクトの提示に利用してもよい。
また、入出力装置20として適用可能な頭部装着型の表示装置(HMD:Head Mounted Display)の一例としては、例えば、シースルー型HMD、ビデオシースルー型HMD、及び網膜投射型HMDが挙げられる。
シースルー型HMDは、例えば、ハーフミラーや透明な導光板を用いて、透明な導光部等からなる虚像光学系をユーザの眼前に保持し、当該虚像光学系の内側に画像を表示させる。そのため、シースルー型HMDを装着したユーザは、虚像光学系の内側に表示された画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、シースルー型HMDは、例えば、AR技術に基づき、当該シースルー型HMDの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。なお、シースルー型HMDの具体的な一例として、メガネのレンズに相当する部分を虚像光学系として構成した、所謂メガネ型のウェアラブルデバイスが挙げられる。例えば、図2に示した入出力装置20は、シースルー型HMDの一例に相当する。
ビデオシースルー型HMDは、ユーザの頭部または顔部に装着された場合に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。また、ビデオシースルー型HMDは、周囲の風景を撮像するための撮像部を有し、当該撮像部により撮像されたユーザの前方の風景の画像を表示部に表示させる。このような構成により、ビデオシースルー型HMDを装着したユーザは、外部の風景を直接視野に入れることは困難ではあるが、表示部に表示された画像により、外部の風景を確認することが可能となる。また、このときビデオシースルー型HMDは、例えば、AR技術に基づき、当該ビデオシースルー型HMDの位置及び姿勢のうち少なくともいずれかの認識結果に応じて、外部の風景の画像に対して仮想オブジェクトを重畳させてもよい。
網膜投射型HMDは、ユーザの眼前に投影部が保持されており、当該投影部からユーザの眼に向けて、外部の風景に対して画像が重畳するように当該画像が投影される。より具体的には、網膜投射型HMDでは、ユーザの眼の網膜に対して、投影部から画像が直接投射され、当該画像が網膜上で結像する。このような構成により、近視や遠視のユーザの場合においても、より鮮明な映像を視聴することが可能となる。また、網膜投射型HMDを装着したユーザは、投影部から投影される画像を視聴している間も、外部の風景を視野に入れることが可能となる。このような構成により、網膜投射型HMDは、例えば、AR技術に基づき、当該網膜投射型HMDの位置や姿勢のうち少なくともいずれかの認識結果に応じて、実空間に位置する実オブジェクトの光学像に対して仮想オブジェクトの画像を重畳させることも可能となる。
また、上記では、AR技術を適用することを前提として、本実施形態に係る入出力装置20の構成の一例について説明したが、必ずしも、当該入出力装置20の構成を限定するものではない。例えば、VR技術を適用することを想定した場合には、本実施形態に係る入出力装置20は、没入型HMDと呼ばれるHMDとして構成されていてもよい。没入型HMDは、ビデオシースルー型HMDと同様に、ユーザの眼を覆うように装着され、ユーザの眼前にディスプレイ等の表示部が保持される。そのため、没入型HMDを装着したユーザは、外部の風景(即ち、現実世界の風景)を直接視野に入れることが困難であり、表示部に表示された映像のみが視界に入ることとなる。このような構成により、没入型HMDは、画像を視聴しているユーザに対して没入感を与えることが可能となる。
なお、上述した入出力装置20の構成はあくまで一例であり、必ずしも図2に示す構成のみには限定されない。具体的な一例として、入出力装置20の用途や機能に応じた構成が、当該入出力装置20に追加で設けられていてもよい。具体的な一例として、ユーザに対して情報を提示するための出力部として、音声や音響を提示するための音響出力部(例えば、スピーカ等)や、触覚や力覚をフィードバックするためのアクチュエータ等が設けられていてもよい。
以上、図2を参照して、本開示の一実施形態に係る入出力装置の概略的な構成の一例について説明した。
<<2.実空間内の物体の認識に関する検討>>
続いて、実空間内の物体(実オブジェクト)を認識し、当該物体の位置、姿勢、及び形状等を3次元的に推定に係る技術(ひいては、当該物体をモデル化する技術)の一例について概要を説明したうえで、本実施形態に係る情報処理システムの技術的課題について整理する。
続いて、実空間内の物体(実オブジェクト)を認識し、当該物体の位置、姿勢、及び形状等を3次元的に推定に係る技術(ひいては、当該物体をモデル化する技術)の一例について概要を説明したうえで、本実施形態に係る情報処理システムの技術的課題について整理する。
前述したように、本実施形態に係る情報処理システムでは、実空間内に位置する物体の表面で反射した偏光方向が互いに異なる複数の偏光の検知結果に応じた情報(即ち、偏光情報)に基づき、当該物体を認識する(ひいては、当該物体の位置、姿勢、及び形状等を3次元的に推定する)。
具体的には、偏光カメラ等のような偏光センサにより、偏光情報が画像平面上にマッピングされた偏光画像が撮像される。当該偏光画像が示す光の強度(即ち、複数の偏光の光強度)に対して、コサインカーブフィッティングに基づく偏光イメージング処理を施すことで、当該偏光画像に撮像された物体の幾何構造に関する情報(以降では、「幾何構造情報」とも称する)を算出することが可能である。
幾何構造情報としては、例えば、上記コサインカーブフィッティングの結果として得られる振幅及び位相に応じた情報や、当該振幅及び当該位相に基づき算出される当該物体の表面の法線に関する情報(以下、「法線情報」とも称する)が挙げられる。また、法線情報としては、法線ベクトルを天頂角及び方位角で示した情報や、当該ベクトルを3次元の座標系で示した情報等が挙げられる。なお、天頂角については、コサインカーブの振幅から算出することが可能である。また、方位角については、コサインカーブの位相から算出することが可能である。また、天頂角及び方位角については、xyz等で示される3次元の座標系に変換可能であることは言うまでもない。また、上記法線情報が偏光画像の画像平面上にマッピングされた当該法線情報の分布を示す情報が、所謂法線マップに相当する。また、上記偏光イメージング処理が施される前の情報、即ち、偏光情報が幾何構造情報として使用されてもよい。
以上のようにして、偏光情報に基づく物体の表面の法線方向を推定することで、当該物体の3次元的な形状を推定することが可能となる。また、デプスセンサ等により取得された深度情報を利用することで、当該物体の表面の奥行き方向の位置を特定することが可能となる。より具体的には、上記偏光情報や上記深度情報に応じた情報を、例えば、ボクセルボリュームのようなデータ(以降では、「3次元空間モデル」とも称する)として統合することにより、当該3次元空間モデルに基づき、実空間内の物体の位置、姿勢、及び形状等を3次元的に推定することが可能となる。また、当該3次元空間モデルに基づき、実空間内の物体の3次元形状をポリゴンメッシュ等のモデルとして再現する(模擬する)ことも可能となる。
一方で、偏光情報の取得条件に応じて、当該偏光情報の信頼度が低下する場合がある。例えば、図3は、偏光情報の信頼度の概要について説明するための説明図であり、認識対象となる物体の表面と偏光センサとの間の位置関係と、検出される偏光の偏光度と、の間の関係の一例を示している。具体的には、図3の横軸は、認識対象となる物体の面の法線の方向と、偏光センサから当該面に伸ばしたベクトル(以降では、「Rayベクトル」とも称する)に対応する方向と、が成す角(即ち、当該法線を基準とした天頂角)の角度を示している。なお、厳密には、Rayベクトルは、偏光センサから当該面上における当該偏光センサの各ピクセルに対応する位置に伸ばしたベクトルに相当する。また、縦軸は、偏光センサにより検出される偏光の偏光度を示している。なお、図3の左側に示すグラフは、鏡面反射の場合について示している。また、図3の右側に示すグラフは、拡散反射の場合について示している。
図3に示すように、認識対象となる物体の表面と偏光センサとの間の位置関係(即ち、上記天頂角)に応じて偏光度が変化する。なお、偏光度がより高いほど、物体の表面で反射し偏光センサに到達する光において、検出対象となる偏光が占める割合がより大きくなる(即ち、雑光の割合が少なくなる)ため、取得される偏光情報の信頼度がより高くなる。
ここで、図3を参照するとわかるように、鏡面反射及び拡散反射のいずれの場合においても、物体の表面に対して偏光センサが正対している場合(即ち、天頂角が0度の場合)には、偏光度がより低くなる(理想的には0となる)ため、取得される偏光情報の信頼度がより低くなる。このような状況下では、取得された偏光情報に基づき、対象となる物体の表面の法線方向の推定に係る精度が低下するため、当該物体の位置、姿勢、及び形状等の推定(換言すると、物体の認識)に係る精度が低下する場合がある。
また、偏光情報に基づき法線を推定する場合に、当該推定結果の不定性(以降では、「偏光法線の不定性」とも称する)が顕在化する場合がある。このような場合においても、対象となる物体の位置、姿勢、及び形状等の推定に係る精度が低下する場合がある。なお、偏光法線の不定性の詳細については別途後述する。
以上のような状況を鑑み、本開示では、上記偏光情報のような、実空間内の物体の認識に利用される情報をより好適な態様で取得可能とする技術について提案する。
具体的には、本開示の一実施形態に係る情報処理システムは、実空間内の物体の認識に関する情報の取得結果に応じて、当該情報がより好適な態様で取得可能な位置に偏光センサが位置する状態となるように、当該偏光センサが設けられた装置を保持するユーザを誘導する。
例えば、図4は、本実施形態に係る情報処理システムの概要について説明するための説明図であり、偏光センサが実空間内の物体の認識に関する情報をより好適な態様で取得可能な位置の一例について示している。図4において、参照符号M211は、認識の対象となる物体の表面を模式的に示している。また、参照符号230a及び230bは、偏光センサの位置及び姿勢を模式的に示している。
具体的には、図4の左側の図は、物体の表面M211に対して偏光センサが正対している状態を示している。このような場合には、図3を参照して前述したように、偏光センサにより取得される偏光情報の信頼度がより低くなる傾向にある。このような場合には、例えば、図4の右側に示すように、当該表面M211が斜め方向から観測される位置(即ち、参照符号230bで示す位置)に偏光センサが移動することで、当該偏光センサにより取得される偏光情報の信頼度を向上させることが可能となる。即ち、図4に示す例の場合には、本実施形態に係る情報処理システムは、例えば、偏光センサが、参照符号230aで示す位置から参照符号230bで示す位置に移動するように誘導する報知情報をユーザに提示することで、当該ユーザに対して移動を促してもよい。
このような構成により、本開示の一実施形態に係る情報処理システムにおいては、ユーザが当該誘導に基づき移動することで、例えば、対象となる物体の位置、姿勢、及び形状等の推定(換言すると、当該物体の認識)に係る精度をより向上させる効果が期待できる。なお、以降では、本実施形態に係る情報処理システムの技術的特徴についてより詳細について説明する。
<<3.技術的特徴>>
以下に、本実施形態に係る情報処理システムの技術的特徴について説明する。
以下に、本実施形態に係る情報処理システムの技術的特徴について説明する。
<3.1.機能構成>
まず、図5を参照して、本実施形態に係る情報処理システムの機能構成の一例について説明する。図5は、本実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。なお、図5に示す例では、図1を参照して説明した例と同様に、情報処理システム1が、入出力装置20と、情報処理装置10とを含むものとして説明する。即ち、図5に示す入出力装置20及び情報処理装置10は、図1に示す入出力装置20及び情報処理装置10に相当する。また、入出力装置20としては、図2を参照して説明した入出力装置20が適用されるものとして説明する。
まず、図5を参照して、本実施形態に係る情報処理システムの機能構成の一例について説明する。図5は、本実施形態に係る情報処理システムの機能構成の一例を示したブロック図である。なお、図5に示す例では、図1を参照して説明した例と同様に、情報処理システム1が、入出力装置20と、情報処理装置10とを含むものとして説明する。即ち、図5に示す入出力装置20及び情報処理装置10は、図1に示す入出力装置20及び情報処理装置10に相当する。また、入出力装置20としては、図2を参照して説明した入出力装置20が適用されるものとして説明する。
図5に示すように、入出力装置20は、デプスセンサ201と、偏光センサ230と、表示部211とを含む。デプスセンサ201は、図1に示すデプスセンサ210と、図2に示す撮像部201a及び201bとに相当する。また、偏光センサ230は、図1及び図2に示す偏光センサ230に相当する。同様に、表示部211は、図2に示す表示部211に相当する。このように、デプスセンサ201、偏光センサ230、及び表示部211については前述しているため、詳細な説明は省略する。
続いて、情報処理装置10の構成について説明する。図5に示すように、情報処理装置10は、自己位置推定部110と、デプス推定部120と、法線推定部130と、モデリング処理部140と、出力制御部150とを含む。
自己位置推定部110は、入出力装置20(特に、偏光センサ230)の実空間内における位置を推定する。また、このとき自己位置推定部110は、入出力装置20の実空間内における姿勢を推定してもよい。なお、以降の説明では、入出力装置20の実空間内における位置及び姿勢を総じて、「入出力装置20の自己位置」とも称する。即ち、以降において、「入出力装置20の自己位置」と記載した場合には、少なくとも入出力装置20の実空間内の位置を示し、当該入出力装置20の姿勢を含んでもよいものとする。
なお、自己位置推定部110が、入出力装置20の自己位置を推定することが可能であれば、当該推定に係る手法や、当該推定のために利用される構成や情報は特に限定されない。具体的な一例として、自己位置推定部110は、上述したSLAMと呼ばれる技術に基づき、入出力装置20の自己位置を推定してもよい。この場合には、例えば、自己位置推定部110は、デプスセンサ201による深度情報の取得結果と、所定のセンサ(例えば、加速度センサや角速度センサ等)による入出力装置20の位置や姿勢の変化の検出結果と、に基づき、入出力装置20の自己位置を推定すればよい。
また、入出力装置20に対する偏光センサ230の相対的な位置関係をあらかじめ算出しておくことで、入出力装置20の自己位置の推定結果に基づき、偏光センサ230の自己位置を算出することが可能である。
そして、自己位置推定部110は、入出力装置20の自己位置(ひいては、偏光センサ230の自己位置)の推定結果を示す情報をモデリング処理部140に出力する。また、自己位置推定部110は、入出力装置20の自己位置の推定結果に応じた情報を出力制御部150に出力してもよい。
デプス推定部120は、デプスセンサ201から深度情報を取得し、取得した当該深度情報に基づき、所定の視点(例えば、デプスセンサ201)と実空間内に位置する物体との間の距離を推定する。なお、以降の説明では、デプス推定部120は、デプスセンサ201が保持された入出力装置20(厳密には、入出力装置20中の基準となる所定の位置)と、実空間内に位置する物体と、の間の距離を推定するものとする。
具体的な一例として、デプス推定部120は、デプスセンサ201がステレオカメラとして構成されている場合には、当該ステレオカメラを構成する複数の撮像部(例えば、図1及び図2に示す撮像部201a及び201b)それぞれにより撮像された画像間の視差に基づき、入出力装置20と被写体との間の距離を推定する。また、このときデプス推定部120は、当該距離の推定結果が撮像平面にマッピングされたデプスマップを生成してもよい。そして、デプス推定部120は、入出力装置20と実空間内に位置する物体との間の距離の推定結果に応じた情報(例えば、デプスマップ)をモデリング処理部140に出力する。
法線推定部130は、偏光センサ230から撮像された偏光画像を取得する。法線推定部130は、取得した偏光画像に含まれる偏光情報に基づき、当該偏光画像中に撮像された実空間内の物体の表面の少なくとも一部における幾何構造(例えば、法線)を推定する。なお、幾何構造の推定方法については前述したとおりである。また、以降の説明では、法線推定部130は、当該物体の面(例えば、表面)のうち少なくとも一部における法線を推定するものとする。また、このとき法線推定部130は、当該法線の推定結果(即ち、法線情報)が撮像平面にマッピングされた法線マップを生成してもよい。そして、法線推定部130は、当該法線の推定結果に応じた情報(例えば、法線マップ)をモデリング処理部140に出力する。また、法線推定部130は、当該法線の推定結果に応じた情報を出力制御部150に出力してもよい。
モデリング処理部140は、自己位置推定部110から、入出力装置20の自己位置の推定結果を示す情報を取得する。これにより、モデリング処理部140は、入出力装置20の自己位置を認識することが可能となる。また、モデリング処理部140は、デプス推定部120から、入出力装置20と実空間内に位置する物体との間の距離の推定結果に応じた情報(例えば、デプスマップ)を取得する。また、モデリング処理部140は、法線推定部130から、当該物体の面(例えば、表面)の法線の推定結果に応じた情報(例えば、法線マップ)を取得する。モデリング処理部140は、入出力装置20の自己位置の推定結果と、当該入出力装置20と実空間内の物体との間の距離の推定結果と、当該物体の面の法線の推定結果と、を3次元空間モデルとして統合する。
また、モデリング処理部140は、例えば、上記3次元空間モデルに基づき、実空間内の物体の位置、姿勢、及び形状等を3次元的に推定してもよい。具体的な一例として、上記物体の面(例えば、表面)の法線の推定結果に基づき、当該面の3次元的な姿勢を推定することが可能である。また、入出力装置20と当該物体との間の距離の推定結果に基づき、当該入出力装置20と当該物体との間の相対的な位置関係を推定することが可能である。即ち、上記法線の推定結果と、上記距離の推定結果と、に基づき、上記物体の3次元的な形状を推定することが可能である。また、入出力装置20の自己位置の推定結果を利用することで、当該入出力装置20に対する上記物体の相対位置を、実空間内における当該物体の位置(絶対位置)に変換することが可能である。以上のようにして、上記物体の位置、姿勢、及び形状が3次元的に推定される。なお、上述した処理はあくまで一例であり、取得された各種情報に基づき、実空間内の物体の位置、姿勢、及び形状等を3次元的に推定することが可能であれば、その手法は上記に説明した例には限定されない。
また、自己位置推定部110、デプス推定部120、及び法線推定部130は、入出力装置20の位置や姿勢の変化(即ち、視点の位置や姿勢の変化)に応じて、対応する各種情報(即ち、上記自己位置、上記距離、及び上記法線)の推定を行ってもよい。この場合には、例えば、モデリング処理部140は、視点ごとに推定された当該各種情報を、3次元空間モデルとして統合してもよい。また、入出力装置20の位置や姿勢の時系列に沿った変化に応じて、当該時系列に沿って上記各種情報が推定されてもよい。この場合には、例えば、モデリング処理部140は、時系列に沿って推定された当該各種情報を時間方向に畳み込むことで、当該各種情報を3次元空間モデルとして統合してもよい。このように、複数の視点(即ち、異なる視点)それぞれについて取得された各種情報が3次元空間モデルとして統合されることで、実空間内の物体の位置、姿勢、及び形状等の推定(換言すると、当該物体の認識)に係る精度をより向上させることも可能となる。
また、モデリング処理部140は、新たに取得された上記各種情報を、過去に取得された情報に基づき生成された3次元空間モデルに統合することで、当該3次元空間モデルを更新してもよい。このような構成により、新たに取得された上記各種情報に基づき、上記3次元空間モデルのうち、過去に観測されていない部分の情報を補間することも可能となる。
また、モデリング処理部140は、取得された上記各種情報に基づき、実空間内の領域のうち、既に観測が行われた領域(即ち、3次元空間モデルを形成した領域)と、未だ観測が行われてない領域と、を判別するための情報を3次元空間モデルに関連付けてもよい。具体的な一例として、モデリング処理部140は、3次元空間モデルのうち、上記各種情報が取得された領域(即ち、観測が行われた領域)に相当する部分に対してフラグを設定してもよい。このような構成により、例えば、当該フラグに基づき、既に観測が行われた領域と、未だ観測が行われてない領域と、を判別することが可能となる。特に、ある物体を一部の方向からのみ観測しているような状況下においては、当該物体の裏面側の観測が行われておらず、当該裏面側については3次元空間モデルが形成されていない場合がある。このような場合においても、上記フラグに基づき、当該物体について、既に観測が行われている方向(換言すると、3次元空間モデルの形成が行われている部分)と、未だ観測が行われてない方向(換言すると、3次元空間モデルの形成が行われていない部分)と、を判別することが可能となる。なお、上記に説明した例はあくまで一例であり、上記物体について、既に観測が行われている方向と、未だ観測が行われてない方向と、を判別することが可能であれば、そのために設定される情報は必ずしも上記フラグには限定されない。具体的な一例として、上記フラグに替えて、偏光法線の信頼度の応じた値(例えば、0~1の範囲の連続値)が観測ごとに加算されることで算出される値が設定されてもよい。
また、モデリング処理部140は、上記3次元空間モデルに基づき、実空間内の物体の3次元形状をポリゴンメッシュ等のモデルとして再現(模擬)してもよい。具体的な一例として、モデリング処理部140は、上記3次元空間モデルに基づき、対象となる物体のポリゴンメッシュを抽出してもよい。より具体的な一例として、3次元空間モデルとしてTSDF(Truncated Signed Distance Function)が用いられる場合には、例えば、Marching Cubesや、Dual Contouring等の手法に基づき、対象となる物体のポリゴンメッシュを抽出することが可能である。また、3次元空間モデルが点群の場合には、Poisson Surface Reconstructionや、Screened Poisson Surface Reconstruction等の手法に基づき、対象となる物体のポリゴンメッシュを抽出することが可能である。
また、モデリング処理部140は、実空間内の物体の位置、姿勢、及び形状等の推定結果を示す情報や、実空間内の物体の3次元形状をモデルとして再現したデータ(例えば、ボクセルボリューム等の3次元空間モデル)を、出力データとして所定の出力先に出力してもよい。具体的な一例として、当該出力データが、後述する出力制御部150により、ユーザに対して各種情報を提示するために利用されてもよい。
出力制御部150は、所定の出力部を介してユーザに各種情報を提示する。例えば、出力制御部150は、モデリング処理部140による実空間内の物体の位置や姿勢の推定結果に応じて、AR技術に基づき、仮想オブジェクト等の表示情報が当該物体に重畳するように、表示部211を介して当該表示情報をユーザに提示してもよい。また、他の一例として、出力制御部150は、実空間内の物体の3次元形状をモデルとして再現したデータに基づき、当該モデルに基づく表示情報(例えば、仮想オブジェクト)を、表示部211を介してユーザに提示してもよい。
また、出力制御部150は、実空間内の物体の面(例えば、表面)の少なくとも一部における法線の推定結果を示す情報を取得し、当該推定結果に応じた各種情報を所定の出力部を介してユーザに提示してもよい。具体的な一例として、出力制御部150は、当該法線の推定結果の信頼度(換言すると、偏光情報の信頼度)が閾値以下の場合に、当該信頼度がより向上する位置への移動を促す(即ち、誘導する)ための報知情報を、所定の出力部を介してユーザに提示してもよい。このとき、出力制御部150は、入出力装置20の自己位置の推定結果に基づき、当該入出力装置20と上記一部の面の位置関係を認識し、当該位置関係に応じて誘導する方向を決定してもよい。また、他の一例として、出力制御部150は、偏光法線の不定性が解消されるように移動を促す(即ち、誘導する)ための報知情報を、所定の出力部を介してユーザに提示してもよい。なお、上記報知情報の提示時に係る処理の詳細については別途後述する。
なお、上述した本実施形態に係る情報処理システム1の機能構成はあくまで一例であり、上述した各構成の処理が実現されれば、情報処理システム1の機能構成は必ずしも図5に示す例には限定されない。具体的な一例として、入出力装置20と情報処理装置10とが一体的に構成されていてもよい。また、他の一例として、情報処理装置10の各構成のうち一部の構成が、当該情報処理装置10とは異なる装置(例えば、入出力装置20、サーバ等)に設けられていてもよい。また、情報処理装置10の各機能が、複数の装置が連携して動作することで実現されてもよい。
以上、図5を参照して、本実施形態に係る情報処理システムの機能構成の一例について説明した。
<3.2.偏光法線の信頼度に応じた誘導例>
続いて、本実施形態に係る情報処理システムによるユーザの誘導の一例として、偏光法線の信頼度がより向上するようにユーザを誘導する場合の例について説明する。例えば、図6~図8は、本実施形態に係る情報処理システムによるユーザの誘導に係る処理の一例について概要を説明するための説明図である。
続いて、本実施形態に係る情報処理システムによるユーザの誘導の一例として、偏光法線の信頼度がより向上するようにユーザを誘導する場合の例について説明する。例えば、図6~図8は、本実施形態に係る情報処理システムによるユーザの誘導に係る処理の一例について概要を説明するための説明図である。
まず、図6を参照して、本実施形態に係る情報処理装置10によるユーザの誘導に係る処理の状態について説明する。図6は、本実施形態に係る情報処理装置10によるユーザの誘導に係る処理の概略的な状態遷移図を示している。図6に示すように、情報処理装置10の処理状態は、ユーザに対して報知情報を提示することで当該ユーザの誘導を行う誘導状態と、当該誘導を行わない非誘導状態と、の間で遷移する。なお、情報処理装置10が起動した直後等に遷移する初期状態は、非誘導状態に設定されているとよい。また、情報処理装置10の処理状態は、誘導状態及び非誘導状態のそれぞれにおいて当該状態に対応する所定の条件を満たした場合に、他の状態に遷移する。
次いで、図7を参照して、情報処理装置10が、偏光法線の信頼度に応じてユーザの誘導を行うか否か(即ち、誘導状態に遷移するか否か)を判定し、判定結果に応じて誘導方向を算出する一連の処理の流れの一例について説明する。図7は、偏光法線の信頼度に応じたユーザの誘導に係る処理の流れの一例について説明するための説明図である。
図7に示すように、情報処理装置10は、偏光センサ230により取得された偏光画像D311(即ち、偏光情報)に基づき、実空間内の物体(即ち、認識対象となる物体)の面(例えば、表面)の法線(即ち、偏光法線D313)を推定する(S301)。
次いで、情報処理装置10は、偏光法線の推定結果の信頼度(以下、「偏光法線信頼度D315」と称する)を算出する(S303)。偏光法線信頼度D315については、例えば、偏光画像D311のピクセルごとに算出される偏光度(degree of polarization)の値や、当該ピクセルの画素値(即ち、偏光輝度値)が飽和しているか否か等の情報に基づき算出してもよい。もちろん、偏光法線信頼度D315(換言すると、偏光情報の信頼度)を算出することが可能であれば、その方法は必ずしも限定されない。
次いで、情報処理装置10は、算出した偏光法線信頼度D315に基づき、ユーザの誘導を行うか否か(即ち、誘導状態に遷移するか否か)を判定する(S305)。具体的な一例として、情報処理装置10は、偏光画像D311の画像平面に占める割合のより大きい領域において、偏光法線信頼度D315の平均、最小値等の所定の統計量が閾値以下の場合に誘導状態に遷移する。
情報処理装置10は、誘導状態に遷移した場合には、入出力装置20の自己位置D317に応じて誘導方向の算出を行う(S307)。このとき、情報処理装置10は、例えば、偏光センサ230による偏光画像D311の撮像結果に応じた偏光法線の信頼度がより高くなる位置に当該偏光センサ230が位置するように、ユーザの移動を誘導する方向を算出する。そこで、当該偏光法線の信頼度がより高くなるように(即ち、偏光度がより高くなるように)誘導する場合の処理の一例について、以下により詳細に説明する。
図3を参照して前述したように、偏光度と、物体の面(例えば、表面)の法線を基準とした天頂角と、の間の関係としては、鏡面反射のモデルと、拡散反射のモデルと、が想定される。偏光法線については、一般的には拡散反射のモデルに基づき上記天頂角を推定するため、当該天頂角がより大きいほど偏光度がより高くなる傾向にある。そのため、情報処理装置10は、物体の面のうち認識対象となる領域(以降では、「対象領域」とも称する)が、上記天頂角がより大きくなるような視点から観測されるように誘導を行うとよい。
例えば、図8は、本実施形態に係る情報処理装置によるユーザの誘導の一例について説明するための説明図であり、偏光法線の信頼度がより高くなるように誘導する場合の一例を示している。図8において、参照符号M211は、観測対象(即ち、認識対象)となる物体の面(例えば、表面)を模式的に示している。
図8に示す例では、情報処理装置10は、例えば、ユーザに対して、対象領域中の注視点がユーザの視界中の少なくとも一部から動かないように維持しつつ(換言すると、偏光センサ230の検知範囲内に注視点が位置する状態を維持しつつ)、当該ユーザが左右(または上下)に移動するように誘導を行う。なお、上記注視点については、例えば、対象領域の画像上での重心や中央等を算出することで決定されればよい。このような誘導を行うことで、例えば図8に示すように、参照符号230aで示す位置に位置する偏光カメラ230が、参照符号230bで示す位置に移動することとなる。これにより、偏光センサ230が、面M211の法線を基準とした天頂角がより大きくなる位置から当該面M211を観測することが可能となり、観測される偏光の偏光度がより高くなるため、偏光法線の信頼度をより向上させることが可能となる。
特に、上述した例では、注視点がユーザの視界中の少なくとも一部から動かないように維持する動作をユーザに促すことで、当該ユーザが面M211と対向している状態を維持しながら平行移動するような動作を行うこと事態の発生を防止することが可能となる。即ち、図8に示す例において、偏光センサ230が、参照符号230aで示す位置から参照符号230cで示す位置に移動した場合には、当該偏光センサ230と面M211が対向している状態が維持され、誘導後においても上記天頂角が大きくならない。そのため、このような動作が行われたとしても、観測される偏光の偏光度が高くならず、偏光法線の信頼度を向上させることが困難となる。
以上のようにして、情報処理装置10は、図7に示すように、ユーザを誘導する誘導方向D319を算出する。そして、情報処理装置10は、例えば、入出力装置20の表示部211に誘導方向D319の算出結果に応じた報知情報を報知することでユーザを誘導する。なお、当該報知情報の一例について別途詳細を後述する。
以上、図6~図8を参照して、本実施形態に係る情報処理システムによるユーザの誘導の一例として、偏光法線の信頼度がより向上するようにユーザを誘導する場合の例について説明した。
<3.3.偏光法線の不定性を解消するための誘導例>
続いて、本実施形態に係る情報処理システムによるユーザの誘導の他の一例として、偏光法線の不定性が解消されるようにユーザを誘導する場合の例について説明する。例えば、図9~図12は、本実施形態に係る情報処理システムによるユーザの誘導に係る処理の他の一例について概要を説明するための説明図である。
続いて、本実施形態に係る情報処理システムによるユーザの誘導の他の一例として、偏光法線の不定性が解消されるようにユーザを誘導する場合の例について説明する。例えば、図9~図12は、本実施形態に係る情報処理システムによるユーザの誘導に係る処理の他の一例について概要を説明するための説明図である。
まず、偏光法線の不定性について概要を説明する。偏光法線には、原理的に180度の不定性が存在する。具体的には、偏光法線の算出時には、実際の法線(以降では、「真の法線」とも称する)に加えて、偏光情報を取得する視点(即ち、偏光センサ230)の位置と、観測対象となる面の3次元的な位置と、を結んだ入射光ベクトルを挟んで180度逆に偽の法線が候補として算出される。このとき、算出される2つの法線の候補のうちどちらが真の法線に相当するかを認識することは原理的には困難であるため、偏光法線を物体の認識に利用するような状況下において、このような不定性が当該認識における制約となる場合がある。即ち、観測対象となる環境の幾何構造によっては、上述した偏光法線の不定性により、当該幾何構造を正しく認識することが困難となる場合がある。
例えば、図9は、偏光法線の不定性について説明するための説明図である。図9に示す例において、参照符号M201は、水平方向に延伸するように設けられた床面を模式的に示している。また、参照符号P211は、床面M201の真の法線である偏光法線の算出結果の一例を模式的に示している。即ち、偏光法線P211のベクトルは、鉛直方向(上方向)を向いている。参照符号M203は、鉛直方向に延伸するように設けられた壁面を模式的に示している。また、参照符号P213は、壁面M203の真の法線である偏光法線の算出結果の一例を模式的に示している。
これに対して、参照符号P215a及びP215bは、偏光法線の不定性により、壁面M203の偏光法線の算出結果の一例を模式的に示している。具体的には、参照符号P215aは、偏光法線の候補のうち偽の法線に相当する候補を示している。また、参照符号P215bは、偏光法線の候補のうち真の法線に相当する候補を示している。即ち、偏光センサ230と、床面M201及び壁面M203と、の間の位置関係に応じて、偏光法線の不定性により、当該壁面M203の偏光法線(例えば、法線P215a)が、床面M201の偏光法線(即ち、法線P211)と略等しい方向を向いているものと認識される場合がある。即ち、壁面M203の真の法線を基準として、天頂角が45度となる方向から当該壁面M203が偏光センサ230により観測された場合に、偽の法線は、当該壁面M203が延伸する方向を向くこととなる。このとき、偏光センサ230が上方側から見下ろすように壁面M203を観測している場合に、偽の法線は、参照符号P215aで示すように鉛直上方、即ち、床面M201の法線P211と略等しい方向を向くこととなる。このような状況下では、例えば、壁面M203の姿勢が誤って認識される場合も想定され得る。
以上のような状況を鑑み、上述した偏光法線の不定性の解消を目的とした誘導の一例について以下に説明する。
まず、偏光法線の不定性に応じて算出される真の法線及び偽の法線の特性について概要を説明する。偽の法線は、偏光情報を取得する視点(即ち、偏光センサ230)の位置と、観測対象となる面の3次元的な位置と、を結んだ入射光ベクトルに依存して方向が定まる。そのため、実空間内のある領域を複数の方向から観測した場合には、不定性に応じて算出される法線の候補のうち偽の法線が示す実空間内の方向は一定の方向とならずにばらつきが生じる。これに対して、真の法線は、いずれの方向から観測された場合においても、常に一定の方向を示す。即ち、以上のような特性を利用することで、真の法線と偽の法線とを判別することが可能となる。具体的には、実空間内のある対象を複数の視点(即ち、複数の方向)から観測し、視点ごとに算出される偏光法線の方向を不定性によって算出される候補(即ち、偽の法線)も含めてカウントすることで、最も頻度の高い方向を真の法線の方向として推定すればよい。
続いて、図10を参照して、情報処理装置10が、実空間内の物体の観測状況(即ち、偏光法線の不定性が解消されているか否か)に応じてユーザの誘導を行うか否かを判定し、判定結果に応じて誘導方向を算出する一連の処理の流れの一例について説明する。図10は、偏光法線の不定性の解消を目的としたユーザの誘導に係る処理の流れの一例について説明するための説明図である。なお、本例においても、図7を参照して説明した例と同様に、情報処理装置10は、非誘導状態と誘導状態との2つの状態を取り得るものとする。
図10に示すように、情報処理装置10は、偏光センサ230により取得された偏光画像D411(即ち、偏光情報)に基づき、実空間内の物体(即ち、認識対象となる物体)の面の法線(即ち、偏光法線D413)を推定する(S401)。
次いで、情報処理装置10は、偏光法線D413の推定結果と、偏光画像D411が取得されたときの偏光センサ230の状態を示すカメラパラメータ情報D415と、に応じて、当該偏光センサ230による偏光法線D413の観測状況を記録または更新する(S403)。カメラパラメータ情報D415としては、例えば、偏光センサ230の姿勢を示す情報や、当該偏光センサ230が偏光画像D411を撮像する範囲を示す情報(frustum)等が挙げられる。なお、カメラパラメータ情報D415については、偏光センサ230が保持された入出力装置20の自己位置D419に基づき算出されてもよい。また、カメラパラメータ情報D415として、当該入出力装置20の自己位置D419(即ち、偏光センサ230の自己位置)と実質的に同様の情報が利用されてもよい。
具体的には、情報処理装置10は、偏光法線D413の推定結果に基づき、推定された各法線がいずれの方向を向いていたかを、偏光法線の不定性によって算出される候補(偽の法線)も含めてカウントし、カウント結果を頻度情報として記録する。また、このとき情報処理装置10は、カメラパラメータ情報D415に基づき、偏光センサ230を基点として頻度情報が記録された範囲を認識してもよい。なお、当該範囲を示す情報については、例えば、入出力装置20の自己位置D419(即ち、偏光センサ230の自己位置)に基づき、実空間内の絶対位置に応じた範囲を示す情報に変換することも可能である。
また、このとき情報処理装置10は、入出力装置20の自己位置D419に応じて、偏光法線D413が算出された領域(観測対象となる領域)がどの方向から観測されたのかを示す情報をアスペクト情報として記録する。
なお、情報処理装置10は、上述した頻度情報及びアスペクト情報を、例えば、入出力装置20の自己位置D419に基づき、ボクセルボリュームのような3次元的な位置に対応する情報に対してフラグ等を設定することで記録してもよい。なお、以降の説明においては、上記頻度情報と上記アスペクト情報とを総じて、法線観測情報D417とも称する。即ち、記録された法線観測情報D417(頻度情報及びアスペクト情報)が、観測対象となる領域の過去の観測結果を示していることとなる。
ここで、図11を参照して、上記法線観測情報D417の記録に係る処理の一例についてより具体的に説明する。図11は、本実施形態に係る情報処理装置による法線観測情報の記録に係る処理の一例について示したフローチャートである。
まず、情報処理装置10は、実空間の3次元的な幾何構造を模擬したボクセルボリュームから処理の対象とするボクセルを選択する(S451)。情報処理装置10は、カメラパラメータ情報D415に基づき、選択したボクセルが偏光センサ230のフラスタム内に位置するか否かを判定する(S453)。なお、選択したボクセルが偏光センサ230のフラスタム内に位置せず(S453、NO)、かつ全ボクセルについて処理済ではない場合(S461、NO)には、ボクセルボリュームから新たなボクセルを処理の対象として選択する(S451)。
選択したボクセルが偏光センサ230のフラスタム内に位置する場合には(S453、YES)、情報処理装置10は、偏光センサ230の自己位置D419に応じて、各偏光法線がいずれの方向を向いていたかを示す頻度情報を加算する(S455)。
また、情報処理装置10は、選択したボクセルに対するアスペクト情報の設定状況に応じて、そのときの観測方向が、当該ボクセルを観測する各方向のうち初めて観測が行われた方向か否か(即ち、過去に観測が行われていない方向か否か)を判定する(S457)。なお、そのときの観測方向が、過去に観測が行われた方向であり(S457、NO)、かつ全ボクセルについて処理済ではない場合(S461、NO)には、ボクセルボリュームから新たなボクセルを処理の対象として選択する(S451)。
一方で、そのときの観測方向が、過去に観測が行われていない方向の場合には(S459、YES)、選択したボクセルと偏光センサ230との間の位置関係に応じて、当該ボクセルに対してアスペクト情報のフラグを設定する(S459)。
以上のようにして、情報処理装置10は、全ボクセルを対象として処理が完了しない限り(S461、NO)、各ボクセルについて、上記頻度情報の更新に係る処理と、上記アスペクト情報の設定に係る処理と、を実行する。そして、情報処理装置10は、全ボクセルが処理済となった場合に(S461、YES)、上述した一連の処理を終了する。
以上のようにして、偏光法線の算出結果に応じて、法線観測情報D417(即ち、頻度情報及びアスペクト情報)が記録または更新される。
次いで、図10に示すように、情報処理装置10は、法線観測情報D417(即ち、頻度情報及びアスペクト情報)に基づき、ユーザの誘導を行うか否か(即ち、誘導状態に遷移するか否か)を判定する(S405)。具体的には、取得された頻度情報が偏った方向(例えば、ある一方向)からのみの観測情報に基づく場合には、算出された偏光法線D413の信頼度がより低くなる。そのため、情報処理装置10は、例えば、上記アスペクト情報の設定状況に応じて、どの程度ばらついた方向から観測されているかを判定し、当該判定結果に応じてユーザの誘導を行うか否かを判定してもよい。
より具体的な一例として、情報処理装置10は、モデリングの対象となる領域に関連付けて設定されたアスペクト情報に基づき、当該領域から所定の距離以上離れた位置から観測されるボクセルの数が閾値以上存在するか否かを判定してもよい。また、情報処理装置10は、当該領域について頻度情報が記録または更新された法線の方向に関する複数の候補間において、頻度情報の差(即ち、カウント数の差)が閾値以上か否かを判定してもよい。以上のような判定に基づき、情報処理装置10は、偏光法線の不定性を解消するために十分な観測が行われているが否か、即ち、真の法線を特定することが可能な程度に複数の方向から対象領域の観測が行われているか否かを判断する。そして、情報処理装置10は、十分な観測が行われていないと判断した場合に、誘導状態に遷移してもよい。より具体的な一例として、情報処理装置10は、過去に観測が行われていない方向が存在する場合や、観測された頻度が他の方向に比べて低い方向が存在する場合に、誘導状態に遷移してもよい。
そして、情報処理装置10は、ユーザの誘導を行うと判定した場合(即ち、誘導状態に遷移した場合)には、法線観測情報D417と、入出力装置20の自己位置D419と、に基づき誘導方向D421を算出する。具体的な一例として、情報処理装置10は、アスペクト情報の設定状況に応じて、対象領域を過去に観測されていない方向から観測する視点の位置に偏光センサ230が位置するように、誘導方向D421を算出してもよい。
例えば、図12は、本実施形態に係る情報処理装置によるユーザの誘導の他の一例について説明するための説明図であり、偏光法線の不定性が解消されるようにユーザを誘導する場合の一例について示している。図12において、参照符号M211は、観測対象(即ち、認識対象)となる物体の面(例えば、表面)を模式的に示している。また、実線で示した矢印は、面M211の真の法線の方向を模式的に示している。また、二点鎖線で示した矢印は、偏光法線の不定性に応じて算出される偽の法線の方向を模式的に示している。
例えば、偏光センサ230が、参照符号230dで示した位置に位置する場合の偏光法線の算出結果のみでは、偏光法線の不定性により算出される2つの偏光法線の算出結果のうち、いずれが真の法線を示しているかを特定することは困難である。これに対して、例えば、参照符号230dで示した位置に位置する偏光センサ230が、参照符号230eで示した位置に移動すると、前述の通り、真の法線の方向は変化せずに、偽の法線の方向が変化するため、真の法線の方向を特定することが可能となる。
即ち、情報処理装置10は、対象領域について設定されたアスペクト情報の設定状況に基づき、当該アスペクト情報が設定されていない方向から当該対象領域が観測されるように、ユーザを誘導すればよい。
なお、参照符号230fで示すように、偏光センサ230の位置が変化せずに、偏光センサ230の姿勢のみが変化した場合には、偏光法線の候補の算出結果が変化しない。そのため、偏光法線の不定性を解消する場合には、偏光センサ230の位置が変化するように誘導が行われることが望ましい。
以上のようにして、情報処理装置10は、図10に示すように、ユーザを誘導する誘導方向D421を算出する。そして、情報処理装置10は、例えば、入出力装置20の表示部211に誘導方向D421の算出結果に応じた報知情報を報知することでユーザを誘導する。なお、当該報知情報の一例について別途詳細を後述する。
以上、図9~図12を参照して、本実施形態に係る情報処理システムによるユーザの誘導の他の一例として、偏光法線の不定性が解消されるようにユーザを誘導する場合の例について説明した。
<3.4.報知情報の一例>
続いて、本実施形態に係る情報処理装置がユーザを誘導するために、所定の出力部を介して当該ユーザに報知する報知情報の一例について説明する。
続いて、本実施形態に係る情報処理装置がユーザを誘導するために、所定の出力部を介して当該ユーザに報知する報知情報の一例について説明する。
(報知情報の提示例1)
例えば、図13は、本実施形態に係る情報処理装置がユーザを誘導するために報知する報知情報の一例について説明するための説明図であり、対象領域が異なる方向から観測されるようにユーザを誘導するために提示される報知情報の一例を示している。
例えば、図13は、本実施形態に係る情報処理装置がユーザを誘導するために報知する報知情報の一例について説明するための説明図であり、対象領域が異なる方向から観測されるようにユーザを誘導するために提示される報知情報の一例を示している。
図13において、参照符号V111で示す状態は、実空間内の認識対象(観測対象)となる領域(即ち、対象領域)をユーザが観測している状況において、ユーザによって視認される実空間の光学像の状態を模式的に示している。なお、状態V111は、実空間内の物体の面(以下、「対象領域M311」と称する)に対してユーザが正対している状態を示している。また、参照符号V113で示す状態は、状態V111において観測される対象領域M311に対して情報処理装置10により表示情報(報知情報)が重畳された場合に、ユーザによって視認される光学像の状態を模式的に示している。なお、状態V113は、情報処理装置10に提示された報知情報によりユーザが誘導される前の状態に対応している。また、参照符号V115で示された状態は、情報処理装置10により誘導された後に、ユーザによって視認される光学像の状態を模式的に示している。
例えば、状態V111において、情報処理装置10は、ユーザが対象領域M311に対して正対しているため、当該対象領域M311について算出される偏光法線の信頼度(即ち、偏光センサ230により検出される偏光の偏光度)が低いことを認識し、誘導状態に遷移する。誘導状態に遷移すると、情報処理装置10は、対象領域M311について算出される偏光法線の信頼度がより高くなるようにユーザを誘導するために、報知情報V121及びV131をユーザに提示する。
具体的には、状態V113において、情報処理装置10は、報知情報V121が、上記対象領域M311の法線方向に応じた実空間内の方向を向き、かつ当該対象領域M311に対応する実空間内の位置に定位するように、当該報知情報V121をユーザに提示する。このとき、報知情報V121は、ユーザが当該報知情報V121に対して正対している場合に、対象領域M311の法線を基準とした天頂角が閾値以上となる方向から当該対象領域M311が観測される状態となる方向を向くように提示される。また、図13に示す例では、情報処理装置10は、報知情報V121に対して正対する位置への移動を促すメッセージを報知情報V131としてユーザに提示している。即ち、情報処理装置10は、報知情報V121及びV131をユーザに提示することで、対象領域M311が異なる方向から観測されるように当該ユーザを誘導している。なお、報知情報V121が「第1の表示情報」の一例に相当する。また、報知情報V131が「第2の表示情報」の一例に相当する。
このような情報処理装置10による誘導に従いユーザが移動することで、状態V115として示すように、対象領域M311が、当該対象領域M311の法線を基準とした天頂角がより大きくなる位置から観測される状態となる。即ち、上記誘導に伴い、対象領域M311について検出される偏光の偏光度がより高くなり、偏光法線の算出結果の信頼度をより向上させることが可能となる。また、上述した誘導に従いユーザが移動することで、状態V115として示すように、状態V113において対象領域M311が観測される方向とは異なる方向から当該対象領域M311が観測されることとなる。即ち、上記誘導に伴う複数の方向からの対象領域M311の観測結果を利用することで、偏光法線の不定性を解消することも可能となる。
なお、情報処理装置10は、誘導に従いユーザの移動が完了すると、当該ユーザに対して誘導が完了したことを報知する報知情報V133を提示してもよい。また、誘導が完了した場合には、情報処理装置10は、非誘導状態に遷移してもよい。
(報知情報の提示例2)
図14は、本実施形態に係る情報処理装置がユーザを誘導するために報知する報知情報の他の一例について説明するための説明図であり、対象領域が異なる方向から観測されるようにユーザを誘導するために提示される報知情報の一例を示している。
図14は、本実施形態に係る情報処理装置がユーザを誘導するために報知する報知情報の他の一例について説明するための説明図であり、対象領域が異なる方向から観測されるようにユーザを誘導するために提示される報知情報の一例を示している。
図14において、参照符号V211で示す状態は、実空間内の認識対象となる領域をユーザが観測している状況において、ユーザによって視認される実空間の光学像の状態を模式的に示している。なお、状態V211は、対象領域M311に対してユーザが正対している状態を示している。また、参照符号V213で示す状態は、状態V211において観測される対象領域M311に対して情報処理装置10により表示情報(報知情報)が重畳された場合に、ユーザによって視認される光学像の状態を模式的に示している。なお、状態V213は、情報処理装置10に提示された報知情報によりユーザが誘導される前の状態に対応している。また、参照符号V125で示された状態は、情報処理装置10により誘導された後に、ユーザによって視認される光学像の状態を模式的に示している。
図13に示す状態V111と同様に、状態V211において、情報処理装置10は、ユーザが対象領域M311に対して正対しているため、当該対象領域M311について算出される偏光法線の信頼度(即ち、偏光センサ230により検出される偏光の偏光度)が低いことを認識し、誘導状態に遷移する。誘導状態に遷移すると、情報処理装置10は、対象領域M311について算出される偏光法線の信頼度がより高くなるようにユーザを誘導するために、報知情報V221、V223、及びV231をユーザに提示する。
具体的には、状態V213において、情報処理装置10は、リング状の報知情報V221が対象領域M311に対応する実空間内の位置に定位するように、当該報知情報V221をユーザに提示する。また、情報処理装置10は、偏光センサ230の光軸上(換言すると、入出力装置20の正面方向)に定位するように、球状の報知情報V223を提示する。そのうえで、情報処理装置10は、球状の報知情報V223がリング状の報知情報V221内に位置する状態を維持したまま、算出した誘導方向(例えば、左右のいずれかの方向)への移動をユーザに促すメッセージを報知情報V231としてユーザに提示している。即ち、報知情報V221が、ユーザの視点からの注視点を定位させる位置の指標としての役割を果たす。また、報知情報V223が、ユーザの視点からの注視点の位置を視認可能に当該ユーザに提示する役割を果たす。以上のようにして、情報処理装置10は、報知情報V221、V223、及びV231をユーザに提示することで、対象領域M311が異なる方向から観測されるように当該ユーザを誘導している。
このような情報処理装置10による誘導に従いユーザが移動することで、状態V215として示すように、対象領域M311が、当該対象領域M311の法線を基準とした天頂角がより大きくなる位置から観測される状態となる。即ち、上記誘導に伴い、対象領域M311について検出される偏光の偏光度がより高くなり、偏光法線の算出結果の信頼度をより向上させることが可能となる。また、上述した誘導に従いユーザが移動することで、状態V215として示すように、状態V213において対象領域M311が観測される方向とは異なる方向から当該対象領域M311が観測されることとなる。即ち、上記誘導に伴う複数の方向からの対象領域M311の観測結果を利用することで、偏光法線の不定性を解消することも可能となる。
なお、情報処理装置10は、誘導に従いユーザの移動が完了すると、当該ユーザに対して誘導が完了したことを報知する報知情報V233を提示してもよい。また、誘導が完了した場合には、情報処理装置10は、非誘導状態に遷移してもよい。
なお、上述した報知情報の例はあくまで一例であり、偏光法線の信頼度の向上や偏光法線の不定性の解消を実現できるようにユーザを誘導することが可能であれば、報知情報の態様は必ずしも図13及び図14を参照して上述した例には限定されない。
また、上述した例では、表示情報を報知情報としてユーザに提示する例について説明したが、上述の通りにユーザを誘導することが可能であれば報知情報の種別についても特に限定されない。具体的な一例として、報知情報が、音声や音響等として提示されてもよい。また、他の一例として、報知情報が、振動等により模擬された触覚や力覚(所謂、ハプティックス)として提示されてもよい。
以上、図13及び図14を参照して、本実施形態に係る情報処理装置がユーザを誘導するために、所定の出力部を介して当該ユーザに報知する報知情報の一例について説明した。
<<4.ハードウェア構成>>
続いて、図15を参照しながら、前述した情報処理装置10のように、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例について、詳細に説明する。図15は、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。
続いて、図15を参照しながら、前述した情報処理装置10のように、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一例について、詳細に説明する。図15は、本開示の一実施形態に係る情報処理システムを構成する情報処理装置のハードウェア構成の一構成例を示す機能ブロック図である。
本実施形態に係る情報処理システムを構成する情報処理装置900は、主に、CPU901と、ROM902と、RAM903と、を備える。また、情報処理装置900は、更に、ホストバス907と、ブリッジ909と、外部バス911と、インタフェース913と、入力装置915と、出力装置917と、ストレージ装置919と、ドライブ921と、接続ポート923と、通信装置925とを備える。
CPU901は、演算処理装置及び制御装置として機能し、ROM902、RAM903、ストレージ装置919又はリムーバブル記録媒体927に記録された各種プログラムに従って、情報処理装置900内の動作全般又はその一部を制御する。ROM902は、CPU901が使用するプログラムや演算パラメタ等を記憶する。RAM903は、CPU901が使用するプログラムや、プログラムの実行において適宜変化するパラメタ等を一次記憶する。これらはCPUバス等の内部バスにより構成されるホストバス907により相互に接続されている。例えば、図5に示す自己位置推定部110、デプス推定部120、法線推定部130、モデリング処理部140、及び出力制御部150は、CPU901により構成され得る。
ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。また、外部バス911には、インタフェース913を介して、入力装置915、出力装置917、ストレージ装置919、ドライブ921、接続ポート923及び通信装置925が接続される。
入力装置915は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー及びペダル等、ユーザが操作する操作手段である。また、入力装置915は、例えば、赤外線やその他の電波を利用したリモートコントロール手段(いわゆる、リモコン)であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器929であってもよい。さらに、入力装置915は、例えば、上記の操作手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などから構成されている。情報処理装置900のユーザは、この入力装置915を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置917は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で構成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置917は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト又はイメージで表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して出力する。例えば、図5に示す表示部211は、出力装置917により構成され得る。
ストレージ装置919は、情報処理装置900の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)等の磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ等を格納する。
ドライブ921は、記録媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体927に記録されている情報を読み出して、RAM903に出力する。また、ドライブ921は、装着されている磁気ディスク、光ディスク、光磁気ディスク又は半導体メモリ等のリムーバブル記録媒体927に記録を書き込むことも可能である。リムーバブル記録媒体927は、例えば、DVDメディア、HD-DVDメディア又はBlu-ray(登録商標)メディア等である。また、リムーバブル記録媒体927は、コンパクトフラッシュ(登録商標)(CF:CompactFlash)、フラッシュメモリ又はSDメモリカード(Secure Digital memory card)等であってもよい。また、リムーバブル記録媒体927は、例えば、非接触型ICチップを搭載したICカード(Integrated Circuit card)又は電子機器等であってもよい。
接続ポート923は、情報処理装置900に直接接続するためのポートである。接続ポート923の一例として、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポート等がある。接続ポート923の別の例として、RS-232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポート等がある。この接続ポート923に外部接続機器929を接続することで、情報処理装置900は、外部接続機器929から直接各種のデータを取得したり、外部接続機器929に各種のデータを提供したりする。
通信装置925は、例えば、通信網(ネットワーク)931に接続するための通信デバイス等で構成された通信インタフェースである。通信装置925は、例えば、有線若しくは無線LAN(Local Area Network)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置925は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。また、通信装置925に接続される通信網931は、有線又は無線によって接続されたネットワーク等により構成され、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信又は衛星通信等であってもよい。
以上、本開示の実施形態に係る情報処理システムを構成する情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。なお、図15では図示しないが、情報処理システムを構成する情報処理装置900に対応する各種の構成を当然備える。
なお、上述のような本実施形態に係る情報処理システムを構成する情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、パーソナルコンピュータ等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリなどである。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信してもよい。また、当該コンピュータプログラムを実行させるコンピュータの数は特に限定されない。例えば、当該コンピュータプログラムを、複数のコンピュータ(例えば、複数のサーバ等)が互いに連携して実行してもよい。
<<5.むすび>>
以上説明したように、本実施形態に係る情報処理装置は、偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する。また、当該情報処理装置は、上記法線の推定結果に応じて、上記偏光センサの実空間内における位置が変化するように誘導する報知情報が報知されるように制御する(即ち、報知情報の出力を制御する)。具体的な一例として、情報処理装置は、上記面の法線の方向と、上記偏光センサから当該面に伸ばしたベクトルに対応する方向と、が成す角(即ち、上記法線を基準とした天頂角)がより大きくなるように誘導する報知情報が報知されるように制御する。
以上説明したように、本実施形態に係る情報処理装置は、偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する。また、当該情報処理装置は、上記法線の推定結果に応じて、上記偏光センサの実空間内における位置が変化するように誘導する報知情報が報知されるように制御する(即ち、報知情報の出力を制御する)。具体的な一例として、情報処理装置は、上記面の法線の方向と、上記偏光センサから当該面に伸ばしたベクトルに対応する方向と、が成す角(即ち、上記法線を基準とした天頂角)がより大きくなるように誘導する報知情報が報知されるように制御する。
以上のような制御により、例えば、実空間内の物体の面の少なくとも一部を対象領域として、偏光センサにより検出される偏光の偏光度がより向上する位置に当該偏光センサが移動するようにユーザを誘導することが可能となる。また、当該対象領域が互いに異なる複数の方向から観測されるように誘導することで、偏光法線の不定性を解消することも可能となる。即ち、本実施形態に係る情報処理システムに依れば、上述の通りユーザを誘導することで、実空間内の物体の認識に利用される情報をより好適な態様で取得することが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、上述した例では、主に、本開示に係る技術をARやVRの実現に応用する場合の例に着目して説明したが、必ずしも当該技術の応用先を限定するものではない。即ち、上述したように、偏光センサ230により偏光情報がより好適な態様で取得可能となる誘導するような状況が求められれば、本開示に係る技術を応用することが可能である。また、上記では、入出力装置20としてメガネ型のウェアラブルデバイスを適用する場合の一例について説明したが、上述した本実施形態に係るシステムの機能を実現することが可能であれば、入出力装置20の構成は限定されない。具体的な一例として、入出力装置20としてスマートフォン等のような携行可能に構成された端末装置が適用されてもよい。また、本開示に係る技術の応用先に応じて、入出力装置20として適用される装置の構成が適宜変更されてもよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する推定部と、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御する制御部と、
を備える、情報処理装置。
(2)
前記制御部は、
前記偏光センサの実空間内の位置の推定結果に応じた位置情報を取得し、
前記位置情報と、前記法線の推定結果と、に応じた前記報知情報が出力されるように制御する、
前記(1)に記載の情報処理装置。
(3)
前記報知情報は、前記偏光センサの検知範囲のうち少なくとも一部の範囲内に前記物体が位置する状態が維持され、かつ当該偏光センサの実空間内における位置が変化するように誘導する情報である、前記(1)または(2)に記載の情報処理装置。
(4)
前記報知情報は、前記偏光センサの光軸上に前記面が位置するように誘導する情報である、前記(3)に記載の情報処理装置。
(5)
前記報知情報は、前記面が異なる方向から観測されるように誘導する情報である、前記(1)または(2)に記載の情報処理装置。
(6)
前記報知情報は、前記誘導を行うための表示情報である、前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
前記表示情報は、所定の視点からの注視点を前記面の少なくとも一部の領域に定位させるための指標となる情報を含む、前記(6)に記載の情報処理装置。
(8)
前記表示情報は、第1の表示情報と、前記第1の表示情報に対して正対するように誘導する第2の表示情報と、を含み、
前記制御部は、前記第1の表示情報を、前記法線の推定結果に応じた実空間内の方向を向くように、前記面に重畳させて提示する、
前記(6)に記載の情報処理装置。
(9)
前記制御部は、前記面の前記法線の方向と、前記偏光センサから当該面に伸ばしたベクトルに対応する方向と、が成す角がより大きくなるように誘導する前記報知情報が出力されるように制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
前記制御部は、前記法線の推定結果の信頼度に応じて、前記報知情報の出力を制御する前記(1)~(8)のいずれか一項に記載の情報処理装置。
(11)
前記制御部は、前記信頼度がより高くなる方向への移動を誘導する前記報知情報の出力を制御する、前記(10)に記載の情報処理装置。
(12)
前記制御部は、前記信頼度が閾値以下の場合に、前記報知情報の出力を制御する、前記(10)または(11)に記載の情報処理装置。
(13)
前記制御部は、前記面の過去の観測結果に応じて、前記報知情報の出力を制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向への移動を誘導する前記報知情報が出力されるように制御する、前記(13)に記載の情報処理装置。
(15)
前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向が存在する場合に、前記報知情報の出力を制御する、前記(13)または(14)に記載の情報処理装置。
(16)
コンピュータが、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を含む、情報処理方法。
(17)
コンピュータに、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を実行させるプログラムが記録された記録媒体。
(1)
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する推定部と、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御する制御部と、
を備える、情報処理装置。
(2)
前記制御部は、
前記偏光センサの実空間内の位置の推定結果に応じた位置情報を取得し、
前記位置情報と、前記法線の推定結果と、に応じた前記報知情報が出力されるように制御する、
前記(1)に記載の情報処理装置。
(3)
前記報知情報は、前記偏光センサの検知範囲のうち少なくとも一部の範囲内に前記物体が位置する状態が維持され、かつ当該偏光センサの実空間内における位置が変化するように誘導する情報である、前記(1)または(2)に記載の情報処理装置。
(4)
前記報知情報は、前記偏光センサの光軸上に前記面が位置するように誘導する情報である、前記(3)に記載の情報処理装置。
(5)
前記報知情報は、前記面が異なる方向から観測されるように誘導する情報である、前記(1)または(2)に記載の情報処理装置。
(6)
前記報知情報は、前記誘導を行うための表示情報である、前記(1)~(5)のいずれか一項に記載の情報処理装置。
(7)
前記表示情報は、所定の視点からの注視点を前記面の少なくとも一部の領域に定位させるための指標となる情報を含む、前記(6)に記載の情報処理装置。
(8)
前記表示情報は、第1の表示情報と、前記第1の表示情報に対して正対するように誘導する第2の表示情報と、を含み、
前記制御部は、前記第1の表示情報を、前記法線の推定結果に応じた実空間内の方向を向くように、前記面に重畳させて提示する、
前記(6)に記載の情報処理装置。
(9)
前記制御部は、前記面の前記法線の方向と、前記偏光センサから当該面に伸ばしたベクトルに対応する方向と、が成す角がより大きくなるように誘導する前記報知情報が出力されるように制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
前記制御部は、前記法線の推定結果の信頼度に応じて、前記報知情報の出力を制御する前記(1)~(8)のいずれか一項に記載の情報処理装置。
(11)
前記制御部は、前記信頼度がより高くなる方向への移動を誘導する前記報知情報の出力を制御する、前記(10)に記載の情報処理装置。
(12)
前記制御部は、前記信頼度が閾値以下の場合に、前記報知情報の出力を制御する、前記(10)または(11)に記載の情報処理装置。
(13)
前記制御部は、前記面の過去の観測結果に応じて、前記報知情報の出力を制御する、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(14)
前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向への移動を誘導する前記報知情報が出力されるように制御する、前記(13)に記載の情報処理装置。
(15)
前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向が存在する場合に、前記報知情報の出力を制御する、前記(13)または(14)に記載の情報処理装置。
(16)
コンピュータが、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を含む、情報処理方法。
(17)
コンピュータに、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を実行させるプログラムが記録された記録媒体。
1 情報処理システム
10 情報処理装置
100 情報処理装置
109 法線推定部
110 自己位置推定部
120 デプス推定部
130 法線推定部
140 出力制御部
140 モデリング処理部
150 出力制御部
20 入出力装置
201 デプスセンサ
201a 撮像部
201b 撮像部
203a 撮像部
203b 撮像部
207 操作部
210 デプスセンサ
211 表示部
230 偏光センサ
291 保持部
293a レンズ
293b レンズ
10 情報処理装置
100 情報処理装置
109 法線推定部
110 自己位置推定部
120 デプス推定部
130 法線推定部
140 出力制御部
140 モデリング処理部
150 出力制御部
20 入出力装置
201 デプスセンサ
201a 撮像部
201b 撮像部
203a 撮像部
203b 撮像部
207 操作部
210 デプスセンサ
211 表示部
230 偏光センサ
291 保持部
293a レンズ
293b レンズ
Claims (17)
- 偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定する推定部と、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御する制御部と、
を備える、情報処理装置。 - 前記制御部は、
前記偏光センサの実空間内の位置の推定結果に応じた位置情報を取得し、
前記位置情報と、前記法線の推定結果と、に応じた前記報知情報が出力されるように制御する、
請求項1に記載の情報処理装置。 - 前記報知情報は、前記偏光センサの検知範囲のうち少なくとも一部の範囲内に前記物体が位置する状態が維持され、かつ当該偏光センサの実空間内における位置が変化するように誘導する情報である、請求項1に記載の情報処理装置。
- 前記報知情報は、前記偏光センサの光軸上に前記面が位置するように誘導する情報である、請求項3に記載の情報処理装置。
- 前記報知情報は、前記面が異なる方向から観測されるように誘導する情報である、請求項1に記載の情報処理装置。
- 前記報知情報は、前記誘導を行うための表示情報である、請求項1に記載の情報処理装置。
- 前記表示情報は、所定の視点からの注視点を前記面の少なくとも一部の領域に定位させるための指標となる情報を含む、請求項6に記載の情報処理装置。
- 前記表示情報は、第1の表示情報と、前記第1の表示情報に対して正対するように誘導する第2の表示情報と、を含み、
前記制御部は、前記第1の表示情報を、前記法線の推定結果に応じた実空間内の方向を向くように、前記面に重畳させて提示する、
請求項6に記載の情報処理装置。 - 前記制御部は、前記面の前記法線の方向と、前記偏光センサから当該面に伸ばしたベクトルに対応する方向と、が成す角がより大きくなるように誘導する前記報知情報が出力されるように制御する、請求項1に記載の情報処理装置。
- 前記制御部は、前記法線の推定結果の信頼度に応じて、前記報知情報の出力を制御する、請求項1に記載の情報処理装置。
- 前記制御部は、前記信頼度がより高くなる方向への移動を誘導する前記報知情報の出力を制御する、請求項10に記載の情報処理装置。
- 前記制御部は、前記信頼度が閾値以下の場合に、前記報知情報の出力を制御する、請求項10に記載の情報処理装置。
- 前記制御部は、前記面の過去の観測結果に応じて、前記報知情報の出力を制御する、請求項1に記載の情報処理装置。
- 前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向への移動を誘導する前記報知情報が出力されるように制御する、請求項13に記載の情報処理装置。
- 前記制御部は、前記面に対する各方向のうち、過去に当該面の観測が行われていない方向が存在する場合に、前記報知情報の出力を制御する、請求項13に記載の情報処理装置。
- コンピュータが、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を含む、情報処理方法。 - コンピュータに、
偏光センサにより取得された偏光方向が互いに異なる複数の偏光それぞれの検出結果に応じた偏光情報に基づき、実空間内の物体の面の少なくとも一部における法線を推定することと、
前記法線の推定結果に応じて、実空間内における位置の変更を誘導する報知情報の出力を制御することと、
を実行させるプログラムが記録された記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/651,383 US11244145B2 (en) | 2017-10-05 | 2018-07-19 | Information processing apparatus, information processing method, and recording medium |
EP18864610.3A EP3693925B1 (en) | 2017-10-05 | 2018-07-19 | Information processing device, information processing method, and recording medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-194815 | 2017-10-05 | ||
JP2017194815A JP2019067323A (ja) | 2017-10-05 | 2017-10-05 | 情報処理装置、情報処理方法、及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019069536A1 true WO2019069536A1 (ja) | 2019-04-11 |
Family
ID=65994474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2018/027121 WO2019069536A1 (ja) | 2017-10-05 | 2018-07-19 | 情報処理装置、情報処理方法、及び記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11244145B2 (ja) |
EP (1) | EP3693925B1 (ja) |
JP (1) | JP2019067323A (ja) |
WO (1) | WO2019069536A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11127212B1 (en) * | 2017-08-24 | 2021-09-21 | Sean Asher Wilens | Method of projecting virtual reality imagery for augmenting real world objects and surfaces |
EP3617999B1 (en) * | 2018-09-01 | 2023-04-19 | Tata Consultancy Services Limited | Systems and methods for dense surface reconstruction of an object using graph signal processing |
US11361511B2 (en) * | 2019-01-24 | 2022-06-14 | Htc Corporation | Method, mixed reality system and recording medium for detecting real-world light source in mixed reality |
JP7378934B2 (ja) * | 2019-01-29 | 2023-11-14 | キヤノン株式会社 | 情報処理装置、情報処理方法及びシステム |
JP7535213B2 (ja) | 2020-09-01 | 2024-08-16 | 雅文 玉川 | ゴルフフェース面照準システム |
WO2023047653A1 (ja) | 2021-09-27 | 2023-03-30 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016133396A (ja) * | 2015-01-20 | 2016-07-25 | キヤノン株式会社 | 法線情報生成装置、撮像装置、法線情報生成方法および法線情報生成プログラム |
WO2016174915A1 (ja) * | 2015-04-30 | 2016-11-03 | ソニー株式会社 | 画像処理装置と画像処理方法およびプログラム |
JP2017072499A (ja) * | 2015-10-08 | 2017-04-13 | キヤノン株式会社 | 処理装置、処理システム、撮像装置、処理方法、プログラム、および記録媒体 |
JP2017135528A (ja) * | 2016-01-27 | 2017-08-03 | キヤノン株式会社 | 画像処理装置、撮像装置および画像処理プログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10260866B2 (en) * | 2015-03-06 | 2019-04-16 | Massachusetts Institute Of Technology | Methods and apparatus for enhancing depth maps with polarization cues |
JP6727816B2 (ja) * | 2016-01-19 | 2020-07-22 | キヤノン株式会社 | 画像処理装置、撮像装置、画像処理方法、画像処理プログラムおよび記憶媒体 |
CN110168608B (zh) * | 2016-11-22 | 2023-08-29 | 乐高公司 | 用于获取物理对象的3维数字表示的系统 |
WO2019044123A1 (ja) * | 2017-08-30 | 2019-03-07 | ソニー株式会社 | 情報処理装置、情報処理方法、及び記録媒体 |
JP7039616B2 (ja) * | 2017-12-22 | 2022-03-22 | 株式会社ソニー・インタラクティブエンタテインメント | 情報処理装置および表面粗さ取得方法 |
US10659751B1 (en) * | 2018-12-14 | 2020-05-19 | Lyft Inc. | Multichannel, multi-polarization imaging for improved perception |
US10634907B1 (en) * | 2018-12-19 | 2020-04-28 | Facebook Technologies, Llc | Eye tracking based on polarization volume grating |
KR20210035555A (ko) * | 2019-09-24 | 2021-04-01 | 삼성전자주식회사 | 증강 현실 장치 및 이를 포함하는 웨어러블 장치 |
-
2017
- 2017-10-05 JP JP2017194815A patent/JP2019067323A/ja active Pending
-
2018
- 2018-07-19 EP EP18864610.3A patent/EP3693925B1/en active Active
- 2018-07-19 US US16/651,383 patent/US11244145B2/en active Active
- 2018-07-19 WO PCT/JP2018/027121 patent/WO2019069536A1/ja unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016133396A (ja) * | 2015-01-20 | 2016-07-25 | キヤノン株式会社 | 法線情報生成装置、撮像装置、法線情報生成方法および法線情報生成プログラム |
WO2016174915A1 (ja) * | 2015-04-30 | 2016-11-03 | ソニー株式会社 | 画像処理装置と画像処理方法およびプログラム |
JP2017072499A (ja) * | 2015-10-08 | 2017-04-13 | キヤノン株式会社 | 処理装置、処理システム、撮像装置、処理方法、プログラム、および記録媒体 |
JP2017135528A (ja) * | 2016-01-27 | 2017-08-03 | キヤノン株式会社 | 画像処理装置、撮像装置および画像処理プログラム |
Non-Patent Citations (3)
Title |
---|
FRANK STENBRUCKER ET AL.: "Volumetric 3D Mapping in Real-Time on a CPU", ICRA, 2014, Retrieved from the Internet <URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.601.1521&rep=repl&type=pdf> |
MATTHIAS NEIBNER ET AL.: "Real-time 3D Reconstruction at Scale using Voxel Hashing", ACM TRANSACTIONS ON GRAPHICS (TOG, 2013, Retrieved from the Internet <URL:https://graphics.stanford.edu/~niessner/papers/2013/4hashing/niessner2013hashing.pdf> |
See also references of EP3693925A4 |
Also Published As
Publication number | Publication date |
---|---|
EP3693925B1 (en) | 2022-10-26 |
EP3693925A4 (en) | 2020-11-04 |
EP3693925A1 (en) | 2020-08-12 |
US20200242335A1 (en) | 2020-07-30 |
JP2019067323A (ja) | 2019-04-25 |
US11244145B2 (en) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6747504B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP3855288B1 (en) | Spatial relationships for integration of visual images of physical environment into virtual reality | |
WO2019069536A1 (ja) | 情報処理装置、情報処理方法、及び記録媒体 | |
US11010958B2 (en) | Method and system for generating an image of a subject in a scene | |
US9940720B2 (en) | Camera and sensor augmented reality techniques | |
US9412205B2 (en) | Extracting sensor data for augmented reality content | |
JP5936155B2 (ja) | 3次元ユーザインタフェース装置及び3次元操作方法 | |
WO2016203792A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20200341284A1 (en) | Information processing apparatus, information processing method, and recording medium | |
JP6017664B1 (ja) | 情報処理方法及び情報処理プログラム | |
US20240087237A1 (en) | Augmented reality guidance that generates guidance markers | |
US20200211243A1 (en) | Image bounding shape using 3d environment representation | |
US20210409628A1 (en) | Visual-inertial tracking using rolling shutter cameras | |
US11508130B2 (en) | Augmented reality environment enhancement | |
US11719931B2 (en) | Augmented reality gaming using virtual eyewear beams | |
US20190369807A1 (en) | Information processing device, information processing method, and program | |
US20200211275A1 (en) | Information processing device, information processing method, and recording medium | |
JP6613099B2 (ja) | 仮想現実空間を立体的に表示するためのプログラム、コンピュータ及びヘッドマウントディスプレイシステム | |
WO2020184029A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN118708103A (zh) | 手指取向触摸检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 18864610 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2018864610 Country of ref document: EP Effective date: 20200506 |