WO2023047653A1 - 情報処理装置、情報処理方法 - Google Patents

情報処理装置、情報処理方法 Download PDF

Info

Publication number
WO2023047653A1
WO2023047653A1 PCT/JP2022/011732 JP2022011732W WO2023047653A1 WO 2023047653 A1 WO2023047653 A1 WO 2023047653A1 JP 2022011732 W JP2022011732 W JP 2022011732W WO 2023047653 A1 WO2023047653 A1 WO 2023047653A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
map
sensor
map data
camera
Prior art date
Application number
PCT/JP2022/011732
Other languages
English (en)
French (fr)
Inventor
剛 松盛
幸喜 辻
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN202280062839.0A priority Critical patent/CN117980959A/zh
Priority to JP2023549348A priority patent/JPWO2023047653A1/ja
Publication of WO2023047653A1 publication Critical patent/WO2023047653A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present technology relates to an information processing apparatus and its method, and in particular, display processing of map data representing a three-dimensional structure of a target space generated based on sensing information from at least one of a visible light camera and a distance measuring sensor. Regarding technology.
  • SLAM Simultaneous Localization and Mapping
  • a visible light camera such as an RGB camera
  • a range sensor such as a LiDAR (Light Detection And Ranging) sensor or a ToF (Time Of Flight) sensor, or both or either one are used to scan the target space.
  • Map data is generated.
  • the map data obtained by scanning the target space in this way can be used for various services.
  • One example is a service that provides AR (Augmented Reality) content to users located in a target space.
  • AR Augmented Reality
  • patent document 1 can be cited as related conventional technology.
  • the patent document 1 discloses a technique of using multiple types of sensors and fusing their sensing information to generate map data.
  • a map based on the map data on a predetermined display device.
  • a GUI screen with a map display as a GUI (Graphical User Interface) screen for setting the presentation position of AR content in the target space.
  • the map display is only done to show the shape of the object scanned in the target space.
  • This technology was created in view of the above circumstances, and aims to improve the information value of the map showing the three-dimensional structure of the target space.
  • An information processing apparatus includes a display processing unit that performs display processing of map data representing a three-dimensional structure of a target space generated based on sensing information from at least one of a visible light camera and a distance measurement sensor, The display processing unit performs display processing of the map data based on sensing information from a third sensor, which is a sensor other than the visible light camera and the ranging sensor.
  • a visible light camera means a camera that captures an image using an imaging device configured to be capable of receiving visible light.
  • a ranging sensor means a sensor that detects the distance to a target object.
  • an information processing method provides information in an information processing device that performs display processing of map data indicating a three-dimensional structure of a target space, which is generated based on sensing information obtained by at least one of a visible light camera and a ranging sensor.
  • the processing method is an information processing method for performing display processing of the map data based on sensing information from a third sensor, which is a sensor other than the visible light camera and the ranging sensor.
  • FIG. 1 is a block diagram illustrating a schematic configuration of an AR service providing system as an embodiment of the present technology
  • FIG. FIG. 4 is an explanatory diagram of an example of AR services provided to users in the embodiment
  • It is the figure which showed the image of the map data in embodiment.
  • 1 is a block diagram showing a hardware configuration example of a computer device as an embodiment
  • FIG. 2 is a functional block diagram for explaining functions of an information processing apparatus as an embodiment
  • FIG. 5 is an explanatory diagram of map generation-related processing based on an image captured by a polarization camera in the embodiment
  • FIG. 5 is an explanatory diagram of map generation-related processing based on an image captured by a multi-spectrum camera in the embodiment
  • FIG. 4 is a diagram showing an example of an external light noise region within a target space
  • FIG. 5 is an explanatory diagram of map data generation-related processing based on an image captured by a thermal camera in the embodiment
  • FIG. 4 is an explanatory diagram of map generation-related processing based on EVS sensing information
  • FIG. 10 is a diagram showing an example of a setting screen when a multispectral camera is selected
  • FIG. 10 is a diagram showing a display example of surface segment information of a subject based on an image captured by a polarization camera; It is the figure which showed the example of a display of the information which shows a transparent part.
  • FIG. 10 is a diagram showing a display example of information indicating a specific material portion estimated from an image captured by a multispectrum camera
  • FIG. 10 is a diagram showing another example of information display based on sensing information of a thermal camera;
  • FIG. 1 is a block diagram illustrating a schematic configuration of an AR (Augmented Reality) service providing system 100 as an embodiment of the present technology.
  • the AR service providing system 100 includes a server device 1, a visible light camera 2, a ranging sensor 3, a third sensor 4, a fusion data generating device 5, and one or more user terminals 6. I have.
  • the server device 1, the fusion data generation device 5, and the user terminal 6 are computers each having a data communication function via a network 7, which is a communication network such as the Internet or a LAN (Local Area Network).
  • the server device 1 , the fusion data generation device 5 , and the user terminal 6 are configured as devices, and are capable of performing data communication with each other via a network 7 . Further, the fusion data generation device 5 is configured to be able to perform wired or wireless data communication with each of the visible light camera 2, the ranging sensor 3, and the third sensor 4. Sensing information of each of the sensor 3 and the third sensor 4 can be acquired.
  • the user terminal 6 is a computer device that is assumed to be used by a user who receives the AR service provided by the AR service providing system 100 .
  • the user terminal 6 is configured as a portable computer device, and may be in the form of, for example, a smart phone, a tablet terminal, a notebook personal computer, smart glasses, a head-mounted display, or the like.
  • the user terminal 6 is provided with a display device capable of image display in order to present AR content, which will be described later, to the user.
  • the display screen of this display device is hereinafter referred to as "display screen 6a".
  • the user terminal 6 is provided with a visible light camera for obtaining a real space captured image, which is an image obtained by capturing the real space.
  • the visible light camera means a camera that captures an image using an imaging element configured to receive visible light.
  • the user terminal 6 is required to estimate its own position when receiving the AR service.
  • the user terminal 6 is provided with a ranging sensor such as a LiDAR (Light Detection And Ranging) sensor, a ToF (Time Of Flight) sensor, etc., in addition to the visible light camera described above.
  • a ranging sensor is a sensor that detects the distance to an object.
  • the server device 1 is a computer device that is assumed to be used by the AR service provider.
  • the visible light camera 2 is a camera that captures an image using an imaging device configured to receive visible light.
  • the visible light camera 2 has color filters for individually receiving R (red) light, B (blue) light, and G (green) light. It is configured as an RGB camera that obtains a color image as a captured image based on the received light signal.
  • a distance sensor 3 detects the distance to an object.
  • a sensor such as a LiDAR sensor or a ToF sensor, which performs distance measurement based on the result of receiving the reflected light of the light irradiated to the object, can be used.
  • a ToF sensor is used as the distance measuring sensor 3 .
  • the ToF sensor referred to here has a light-receiving portion having a pixel array portion in which a plurality of pixels having light-receiving elements are arranged as a light-receiving portion for receiving reflected light from an object. Based on the signal, it is assumed that the distance image data can be obtained.
  • the distance image means information in which information indicating distance is associated with each pixel.
  • a third sensor 4 represents a sensor other than the visible light camera 2 and the ranging sensor 3 .
  • the fusion data generation device 5 is a device that generates fusion data by fusing sensing information from a plurality of sensors such as the visible light camera 2 , the ranging sensor 3 , and the third sensor 4 . Details of the third sensor 4 and the fusion data generation device 5 will be described later.
  • the AR content in this example is realized by superimposing and displaying the virtual object Vo on the real-space captured image while the user terminal 6 displays the above-described real-space captured image on the display screen 6a.
  • An AR service is a service that presents such AR content to users.
  • target spaces in which the user can experience AR include various facilities such as commercial facilities such as shopping malls and amusement parks, public facilities such as parks, and spaces in which artificial structures are arranged such as downtown areas. .
  • commercial facilities such as shopping malls and amusement parks
  • public facilities such as parks
  • spaces in which artificial structures are arranged such as downtown areas.
  • an object indicating advertisement information of a store in a commercial facility for example, discount information such as "30% OFF" as exemplified in FIG. 2B
  • a guide avigation
  • an object indicating navigation information for example, an arrow mark illustrated in FIG. 2B, etc.
  • the AR service providing system 100 scans a target space such as a shopping mall as described above, and generates map data indicating the three-dimensional structure of the target space.
  • the server device 1 generates the map data based on sensing information from at least one of the visible light camera 2 and the distance measuring sensor 3 .
  • the map data generation in this case uses the visible light image data obtained by the visible light camera 2 and the distance image data obtained by the distance measuring sensor 3 (ToF sensor in this example) as generation source data.
  • the server device 1 performs this based on RGBD image data (D: Depth) obtained by fusing the visible light image data and the distance image data.
  • FIG. 3 shows an image of map data.
  • a moving body such as a self-propelled robot (including a form of a vehicle) or a drone is prepared.
  • a visible light camera 2 and a distance measuring sensor 3 for object space scanning are mounted on this moving object.
  • Map data By scanning the target space while moving the moving object equipped with the visible light camera 2 and the distance measuring sensor 3 in the target space in this way, the three-dimensional structure of the target space as illustrated in FIG.
  • Generate map data showing Map data is generated, for example, as 3D model data indicating the position, shape, and orientation of an object scanned on a three-dimensional coordinate space.
  • a specific method of generating map data is not particularly limited.
  • map data may be generated by SLAM (Simultaneous Localization and Mapping) technology, for example.
  • SLAM Simultaneous Localization and Mapping
  • the mobile object used for map data generation is not necessarily limited to a self-propelled object, and for example, a method of moving the object manually can be adopted.
  • the map data generated by the server device 1 in this way is used for various processes in the AR service.
  • the map data is used to display a setting screen Gs for the service provider to set the placement position of the virtual object Vo in the target space.
  • a map of the target space based on the map data is displayed on the setting screen Gs, and the setting screen Gs enables the service provider to easily set the placement position of the virtual object Vo on the map.
  • the virtual object Vo as advertising information as illustrated in FIG. It is conceivable to set the presentation position of the virtual object Vo so that the corresponding virtual object Vo is presented at a predetermined position in the target space when is positioned at a predetermined position in the target space.
  • the server apparatus 1 performs various display processes as an embodiment regarding the display of the setting screen Gs, and details of the display processes will be described later.
  • the map data generated by the server device 1 is also used for self-position estimation performed by the user terminal 6 within the target space.
  • the user terminal 6 can present the virtual object Vo at the correct position within the target space.
  • an application application program
  • map data generated by the server device 1 is stored.
  • the user terminal 6 refers to the map data stored in this way and performs self-position estimation by SLAM.
  • the fusion data generating device 5 is assumed to be installed at the site where the object space is scanned using the above-described moving object. Also, it is assumed that the user terminal 6 is placed in the target space during a period different from the period during which the above scanning is performed.
  • the server device 1 is assumed to be arranged at a remote location with respect to the target space as, for example, a cloud server or the like.
  • Each computer device (information processing device) as the server device 1, the fusion data generation device 5, and the user terminal 6 shown in FIG. 1 can be realized by a computer device 10 having a hardware configuration as shown in FIG. can.
  • the computer device 10 has a CPU 11 .
  • the CPU 11 executes various processes according to a program stored in a non-volatile memory unit 14 such as a ROM 12 or an EEP-ROM (Electrically Erasable Programmable Read-Only Memory), or a program loaded from a storage unit 19 to a RAM 13. .
  • the RAM 13 also stores data necessary for the CPU 11 to execute various processes.
  • the CPU 11, ROM 12, RAM 13, and non-volatile memory section 14 are interconnected via a bus 23.
  • An input/output interface (I/F) 15 is also connected to this bus 23 .
  • the input/output interface 15 is connected to an input section 16 including operators and operating devices.
  • operators and operating devices such as keyboards, mice, keys, dials, touch panels, touch pads, and remote controllers are assumed.
  • a user's operation is detected by the input unit 16 , and a signal corresponding to the input operation is interpreted by the CPU 11 .
  • the input/output interface 15 is also connected integrally or separately with a display unit 17 such as an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) panel, and an audio output unit 18 such as a speaker.
  • the display unit 17 is used to display various types of information, and is composed of, for example, a display device provided in the housing of the computer device 10 or a separate display device connected to the computer device.
  • the display unit 17 displays images for various types of image processing, moving images to be processed, etc. on the display screen based on instructions from the CPU 11 . Further, the display unit 17 displays various operation menus, icons, messages, etc., that is, as a GUI (Graphical User Interface) based on instructions from the CPU 11 .
  • GUI Graphic User Interface
  • the input/output interface 15 may be connected to a storage unit 19 composed of a HDD (Hard Disk Drive), a solid-state memory, etc., and a communication unit 20 composed of a modem, etc.
  • a storage unit 19 composed of a HDD (Hard Disk Drive), a solid-state memory, etc.
  • a communication unit 20 composed of a modem, etc.
  • the communication unit 20 performs communication processing via a transmission line such as the Internet, wired/wireless communication with various devices, bus communication, and the like.
  • a drive 21 is also connected to the input/output interface 15 as required, and a removable recording medium 22 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory is appropriately mounted.
  • Data files such as programs used for each process can be read from the removable recording medium 22 by the drive 21 .
  • the read data file is stored in the storage unit 19 , and the image and sound contained in the data file are output by the display unit 17 and the sound output unit 18 .
  • Computer programs and the like read from the removable recording medium 22 are installed in the storage unit 19 as required.
  • software for the processing of this embodiment can be installed via network communication by the communication unit 20 or via the removable recording medium 22.
  • the software may be stored in advance in the ROM 12, the storage unit 19, or the like.
  • the computer device 10 is not limited to being composed of a single computer device configured as shown in FIG. 4, and may be configured by systematizing a plurality of computer devices.
  • the plurality of computer devices may be systematized by a LAN (Local Area Network) or the like, or may be remotely located by a VPN (Virtual Private Network) or the like using the Internet or the like.
  • the plurality of computing devices may include computing devices as a group of servers (cloud) available through a cloud computing service.
  • the computer device 10 is provided with various sensors (for example, a visible light camera, a distance sensor, an IMU (Inertial Measurement Unit) sensor, etc.) used for self-position estimation.
  • sensors for example, a visible light camera, a distance sensor, an IMU (Inertial Measurement Unit) sensor, etc.
  • FIG. 5 is a functional block diagram for explaining functions of the server apparatus 1 as an embodiment. The functions of these embodiments are realized by software processing by the CPU 11 of the server device 1 in this example. As illustrated, the server device 1 has functions as a map generation unit F1, a display processing unit F2, and an AR service processing unit F3.
  • the map generator F ⁇ b>1 generates map data based on sensing information from at least one of the visible light camera 2 and the ranging sensor 3 and sensing information from the third sensor 4 .
  • the map data is generated using the visible light image data obtained by the visible light camera 2 and the range image data obtained by the distance measuring sensor 3 (ToF sensor) as source data.
  • the server device 1 performs this processing based on the RGBD image data obtained by fusing the image data and the distance image data. That is, the map generator F1 in this case generates map data based on the sensing information from both the visible light camera 2 and the distance measuring sensor 3 and the sensing information from the third sensor 4 .
  • the third sensor 4, like the visible light camera 2 and the distance measuring sensor 3, is mounted on the moving body described above. As a result, the visible light camera 2, the ranging sensor 3, and the third sensor 4 are moved in conjunction with each other during scanning of the target space for map data generation.
  • the third sensor 4 at least a sensor other than the visible light camera 2 and the ranging sensor 3 may be used.
  • An example using a thermal camera, EVS (Event Based Vision Sensor) will be described (see FIG. 1).
  • the polarizing camera means a camera configured to acquire a polarizing image showing, for each pixel, polarization information about light reflected from an object.
  • a multi-spectrum camera is a general term for cameras capable of capturing images in a plurality of wavelength bands, and generally includes what is called a multi-spectrum camera and what is called a hyper-spectrum camera.
  • a thermal camera means a camera configured to acquire a thermal image showing the temperature of a subject for each pixel.
  • the EVS is a sensor having a pixel array portion in which a plurality of pixels having light receiving elements are arranged, and means a sensor that detects a change of a predetermined amount or more in the amount of received light as an event. EVS is sometimes called DVS (Dynamic Vision Sensor).
  • the multi-spectrum camera obtains captured images for each of a plurality of wavelength bands, and this obtains information on the amount of light received for light in each wavelength band included in subject light (reflected light from the subject). It can be rephrased as what you get. From this point, it can be said that the captured image of the multi-spectrum camera is the wavelength analysis information of the subject light.
  • the fusion data generation device 5 shown in FIG. Fusion data is generated by fusion of sensing information from the optical camera 2, the distance measuring sensor 3, and the third sensor 4.
  • FIG. The fusion data referred to here includes at least sensing information obtained by each of the visible light camera 2, the distance measuring sensor 3, and the third sensor 4, and is a state in which the sensing information obtained by these different sensors is time-synchronized. data.
  • Information sensed by the third sensor 4 as a polarization camera is information as a polarization image.
  • the sensing information obtained by the multi-spectrum camera is information of captured images for each of a plurality of wavelength bands, in other words, wavelength analysis information of subject light.
  • Sensing information by the third sensor 4 as a thermal camera is a thermal image
  • sensing information by the third sensor 4 as an EVS is an event detection image indicating the detection position of an event.
  • an IMU sensor is provided as one of the third sensors 4 when map data generation in the server device 1 is performed by SLAM technology as in this example.
  • the information indicating the position and orientation (relative position and orientation) of the mobile object obtained by this IMU sensor is fused with the visible light image data obtained by the visible light camera 2 and the distance image data obtained by the distance measuring sensor 3.
  • the generated data is transferred from the fusion data generation device 5 to the server device 1 .
  • the server device 1 can generate map data (environmental map) using SLAM technology based on the information indicating the position and orientation of the moving object transferred via the fusion data generation device 5 in this way.
  • the map generation unit F1 in the server device 1 performs map data generation processing based on fusion data including sensing information from the third sensor 4 as described above. An example of map data generation processing using such sensing information from the third sensor 4 will be described later.
  • the display processing unit F2 performs display processing of map data representing the three-dimensional structure of the target space, which is generated based on sensing information from at least one of the visible light camera 2 and the distance measuring sensor 3.
  • FIG. Specifically, the display processing of the map data in this case is performed as the display processing of the setting screen Gs described above.
  • the setting screen Gs is displayed on the display unit 17 (see FIG. 4) of the server device 1.
  • FIG. In the present embodiment, the display processing unit F2 performs map data display processing based on sensing information from the third sensor 4. Details of the display processing will be described again.
  • the AR service processing unit F3 performs various types of processing related to the AR service. For example, it performs a process of registering account information of a user who receives the provision of the AR service, a process of distributing various types of information in response to a request from the user terminal 6 (for example, distributing the aforementioned application, map data, etc.), and the like.
  • FIG. 6 is an explanatory diagram of map generation-related processing based on an image captured by a polarization camera.
  • the map generation-related processing in this case can be rephrased as map data generation processing based on the polarization information of the subject light obtained by the polarization camera.
  • the map generator F1 performs noise reduction processing, surface segment identification processing, and transparent object identification processing as processing based on polarization information.
  • the noise reduction processing referred to here is processing for reducing noise generated in the distance image obtained by the distance measuring sensor 3, specifically noise caused by multipath of reflected light from the object.
  • the distance measuring sensor 3 irradiates a distance measuring object with light for distance measurement, and performs distance measurement based on the result of receiving the reflected light. Specifically, distance measurement is performed based on the time from when the light for distance measurement is emitted until when the reflected light is received. At this time, depending on the shape of the object for distance measurement, a portion where the reflected light is reflected multiple times, in other words, a portion where the reflected light multipaths occur. The portion where the multipath of the reflected light occurs becomes a noise portion in the distance measurement because the distance measurement information cannot be obtained correctly.
  • the normal direction information of the subject means information indicating the normal direction of the surface forming the subject (the direction in which the surface faces).
  • the map generation unit F1 corrects the distance value of the noise region thus estimated to a distance value obtained by linear interpolation or the like from the distance value of the surrounding non-noise region. This makes it possible to reduce multipath-induced noise.
  • the process of reducing multipath-induced noise can also be performed based on the surface section information of the subject, which is estimated from the normal direction information of the subject.
  • the surface division information of the subject means information indicating the division of the surface of the subject, such as the division of the floor surface and the wall surface. From such surface segment information, it is possible to estimate an area where noise due to multipath occurs, such as a boundary between a floor surface and a wall surface.
  • the map generation unit F1 corrects the distance value of the noise region thus estimated to a distance value obtained by linear interpolation or the like from the distance value of the surrounding non-noise region.
  • the surface segment specifying process shown in FIG. 6 means performing topology processing (processing for managing spatial positional relationships between figures) for map data based on the surface segment information of the subject.
  • the positional relationship between detected figures can be managed more accurately than when topology processing is performed without using the plane segment information of the subject. Therefore, it is possible to improve the accuracy of the map data.
  • the transparent object identifying process is a process of estimating (identifying) the transparent object area of the subject based on the polarization information.
  • Various techniques for estimating transparent object regions based on polarization information are conceivable.
  • One example is a method of estimating a transparent object area based on a comparison result between a visible light image and a polarized light image.
  • the estimation of the transparent object area may be performed using AI (artificial intelligence) trained using the polarization image as learning data.
  • the map generator F1 generates map data based on the information of the transparent object region estimated based on the polarization information in this way. Specifically, it generates map data indicating that an object as a transparent object exists in the transparent object region. As a result, it is possible to reflect the information of the transparent object area such as glass, which is difficult to detect depending on the visible light image data, on the map data, thereby improving the accuracy of the map data.
  • FIG. 7 is an explanatory diagram of map generation-related processing based on an image captured by a multi-spectrum camera.
  • the map generation-related processing in this case can be rephrased as map data generation processing based on the wavelength analysis information of the subject light obtained by the multi-spectrum camera.
  • the map generation unit F1 performs specific object exclusion processing and external light cancellation processing as processing based on the wavelength analysis information of subject light.
  • the specific object exclusion process is a process based on the material information of the subject estimated based on the wavelength analysis information. This is the process of excluding from the map.
  • the wavelength analysis information of the subject light obtained by the multi-spectrum camera it is possible to estimate the material of the subject. This is because the wavelength characteristics of the reflected light may differ from material to material.
  • a target material is determined in advance, and a portion having wavelength characteristics that match or are similar to the wavelength characteristics of the reflected light of the target material is estimated as the specific subject portion.
  • the processing based on the matching or similarity of wavelength characteristics is performed for each material to estimate the subject portion of each material.
  • the map data generated by the map generation unit F1 as described above is referred to in the self-position estimation in the user terminal 6.
  • the shape and color of plant parts such as plants change over time, If the plant part is included in the map data, there is a possibility that the user terminal 6 will deviate from the map data generated by SLAM, and the accuracy of the self-position estimation in the user terminal 6 will decrease.
  • the part to be excluded from the map is not limited to the plant part. Specifically, a portion that may become noise in self-position estimation based on map data is estimated based on material information, and the portion is excluded from the map.
  • the process of generating map data based on the wavelength analysis information of subject light is not limited to the process of excluding specific objects as described above.
  • the map generation unit F1 generates map data based on the wavelength analysis information of the subject light by adding material information of the subject estimated from the wavelength analysis information as accompanying information. Processing that generates data can also be performed. As a result, it is possible to generate map data that more accurately represents the target space, and to improve the accuracy of the map data.
  • the external light canceling process is a process of performing image correction on the external light noise region estimated based on the wavelength analysis information.
  • the outside light noise area means an area where outside light such as sunlight is irradiated with an intensity equal to or higher than a predetermined intensity.
  • FIG. 8 is a diagram showing an example of an external light noise area within the target space.
  • the parts indicated by "X" and "Y" respectively represent transparent parts such as window glass provided in buildings within the facility.
  • the outside light is light with a shallow irradiation angle, such as the afternoon sun in the evening, there will be areas where the outside light hits strongly, as indicated by the shaded areas in the figure, on the corridors and walls inside the building. .
  • map data is generated that does not accurately reflect the original colors and brightness of these areas. It will be. Due to this, there is a possibility that the accuracy of the self-position estimation performed by the user terminal 6 with reference to the map data may be degraded.
  • the map generating unit F1 in this case estimates the external light noise area based on the wavelength analysis information obtained by the multi-spectrum camera as the external light cancellation process, and reproduces the original brightness and color of the external light noise area.
  • image correction processing of the external light noise region is performed. For example, for the visible light image data used as map data generation source data, the brightness and color of the ambient light noise area are corrected to approximate the brightness and color of the area surrounding the ambient light noise area (including correction to make them the same color). .
  • the map data generated by the server device 1 side can be prevented from deviating from the map data generated by the user terminal 6 in SLAM, and the deterioration of the self-position estimation accuracy in the user terminal 6 can be suppressed. can be planned.
  • FIG. 9 is an explanatory diagram of map data generation-related processing based on an image captured by a thermal camera.
  • the map generation-related processing in this case can be rephrased as map data generation processing based on subject temperature information obtained by a thermal camera.
  • the map generator F1 performs segmentation processing and specific object exclusion processing.
  • the segmentation process is a process of segmenting regions for each object in the target space.
  • the map generation unit F1 performs a process of estimating an area division for each object as segmentation processing based on the temperature information of the subject obtained by the thermal camera, and adds information indicating the estimated area division for each object as accompanying information. Perform processing to generate map data. As a result, it is possible to generate map data that more accurately represents the target space, and to improve the accuracy of the map data.
  • the specific object exclusion process is a process for excluding a specific subject portion having specific temperature characteristics from the map. Specifically, in this example, from temperature information of a subject obtained by a thermal camera, a portion that may become noise in self-position estimation based on map data, specifically, a human portion, is estimated, and processing for excluding the human portion from the map is performed. conduct. This makes it possible to improve the accuracy of map data when used for self-position estimation.
  • FIG. 10 is an explanatory diagram of map generation-related processing based on EVS sensing information.
  • the EVS is a sensor that detects a change in the amount of received light equal to or greater than a predetermined amount as an event.
  • the map generator F1 performs moving object elimination processing as processing based on EVS sensing information. Specifically, based on the sensing information of the EVS, for example, a moving object such as a person, an animal, or a vehicle is detected, and a process of excluding the moving object from the map is performed. A moving object such as a person, an animal, or a vehicle is also a portion that can become noise in self-position estimation based on map data. Therefore, by performing the process of excluding moving objects from the map as described above, it is possible to improve the accuracy of the map data.
  • the server device 1 generates the meta information, but it is also possible to generate the meta information on the fusion data generation device 5 side. In this case, data to which meta information is added is transferred to the server device 1 as fusion data, and the server device 1 performs various kinds of processing based on the meta information described above based on the meta information.
  • map data generation processing based on the sensing information of each of the polarization camera, the multi-spectrum camera, the thermal camera, and the EVS was individually described, but all of the map data generation processing based on the sensing information of each is combined, or It is also possible to combine some of them.
  • the display processing unit F2 performs map data display processing based on sensing information from the third sensor.
  • the map data to be displayed in this case is not limited to being generated by the generating process based on the sensing information of the third sensor 4 illustrated above.
  • the display processing unit F2 performs processing for causing the display unit 17 to display a map including sensing information from the third sensor 4 as a map showing the three-dimensional structure of the target space. Display examples of sensing information will be described with reference to FIGS. 11 to 13 .
  • FIG. 11 shows an example of the setting screen Gs.
  • the setting screen Gs has an operation reception unit Ps for selecting which sensing information to display among the polarization camera, the multispectrum camera, the thermal camera, and the EVS provided as the third sensor 4. is displayed with a map based on the map data.
  • check boxes for individually selecting a polarization camera, a multi-spectrum camera, a thermal camera, and an EVS are arranged in the operation reception unit Ps.
  • the display processing unit F2 in this example performs display processing on the display unit 17 so that the sensing information of the sensor whose check box is operated is displayed on the map in the setting screen Gs.
  • FIG. 12 shows an example of the setting screen Gs when the polarization camera is selected.
  • the polarization information obtained by the polarization camera is displayed on the map of the setting screen Gs.
  • the polarization information is displayed by different display modes (for example, different patterns or different colors for each polarization angle). Do it in an expressive way.
  • FIG. 13 shows an example of the setting screen Gs when the multispectral camera is selected.
  • the sensing information by the multi-spectrum camera for example, it is conceivable to display information indicating the amount of received light for each wavelength band on a map.
  • FIG. 13 shows an example of the operation reception unit Ps corresponding to that case. checkbox is displayed.
  • the display processing unit F2 displays information indicating the amount of received light in the wavelength band corresponding to the check box selected from these check boxes on the map on the setting screen Gs.
  • the thermal camera and EVS sensing information can also be displayed on the map in the same way.
  • a display of sensing information by a thermal camera it is conceivable to display information indicating temperature distribution on a map.
  • the display of EVS sensing information it is conceivable to display information indicating the detection result of an event on a map.
  • a map showing the three-dimensional structure of the target space can be specified from the sensing information of the visible light camera 2 and the distance measuring sensor 3. It is possible to display not only information indicating the shape of an object, but also attribute information other than the shape of the object. Therefore, it is possible to improve the information value of the map.
  • the display processing unit F2 performs processing for displaying a map including information estimated from sensing information by the third sensor 4 on the display unit 17.
  • FIG. As information estimated from sensing information, for example, in the case of a polarizing camera, it is conceivable to display subject's plane segment information estimated from an image captured by the polarizing camera. In the case of a multi-spectrum camera, it is conceivable to display information indicating the presence area of a specific subject estimated from the captured image of the multi-spectrum camera (information indicating the presence area of an object made of a specific material). In the case of a thermal camera, it is conceivable to display information indicating the presence area of the specific subject estimated from the captured image of the thermal camera.
  • FIG. 14 shows a display example of surface segment information of a subject based on an image captured by a polarization camera.
  • the operation reception unit Ps displays check boxes for selecting the floor surface, the wall surface, and the transparent portion (the transparent portion in the drawing) that can be estimated from the polarization information.
  • the display processing unit F2 displays information indicating the surface corresponding to the selected check box (shaded area in the example in the figure) when the check box for the floor surface or the wall surface is selected from these check boxes.
  • a process for displaying on the map of the setting screen Gs is performed.
  • the display processing unit F2 displays information indicating the transparent portion estimated based on the polarization information on the map of the setting screen Gs, as illustrated in FIG. process to cause
  • FIG. 16 shows a display example of information indicating a specific material part estimated from an image captured by a multi-spectrum camera.
  • the operation reception unit Ps displays a check box for selecting a material for each selectable material.
  • the display processing unit F2 performs a process of displaying information indicating the material portion corresponding to the selected check box among these check boxes (hatched portion in the example in the figure) on the map of the setting screen Gs.
  • the information indicating the existence area of the specific subject estimated from the captured image of the thermal camera also indicates the existence area of the selected specific subject in the same manner as in FIG. information to be displayed.
  • the configuration of the setting screen Gs described above is merely an example, and is not limited to this.
  • selection of information to be displayed can be realized by other operations such as button operations instead of operations on check boxes.
  • the sensing information and the information estimated from the sensing information are displayed separately.
  • both the sensing information and the information estimated from the sensing information can be displayed on the map.
  • both the sensing information of the multi-spectrum camera as illustrated in FIG. 13 and the surface section information based on the sensing information of the polarization camera as illustrated in FIG. 14 are displayed on the map.
  • Information and information estimated from sensing information can also be displayed on the map.
  • the information to be displayed on the map is not limited to the information exemplified above.
  • the information to be displayed on the map is not limited to the information exemplified above.
  • a polarization camera it is conceivable to display the normal direction information of the subject. It is also conceivable to display information indicating the external light noise region for the multi-spectrum camera.
  • the embodiment is not limited to the specific example described above, and various modifications can be made.
  • the map data is generated by the server device 1, but the map data may be generated by a local device such as the fusion data generation device 5 or the like.
  • the server device 1 performs map data display processing based on the sensing information of the third sensor 4 based on the locally generated map data.
  • map data display processing and generation processing according to the present technology are applied to the map data processing related to the provision of the AR service.
  • map data display processing and generation processing according to the present technology can be suitably applied not only to map data related to provision of AR services, but also to map data related to provision of VR (Virtual Reality) services.
  • the information processing device as an embodiment is a target space generated based on sensing information from at least one of a visible light camera (2) and a range sensor (3).
  • a display processing unit (F2 in the same) that performs display processing of map data showing a three-dimensional structure, and the display processing unit receives sensing information from a third sensor (4 in the same), which is a sensor other than the visible light camera and the distance measurement sensor.
  • the display processing of the map data is performed based on.
  • a map that reflects the sensing information such as a map that includes sensing information from the third sensor and information estimated from the sensing information, is displayed as a map showing the three-dimensional structure of the target space. becomes possible. Therefore, it is possible to display not only the shape of the object but also attribute information other than the shape of the object, such as the material and type, as a map showing the three-dimensional structure of the target space, thereby improving the information value of the map.
  • the display processing unit performs processing for displaying a map including sensing information from the third sensor on the display unit (17) as a map showing the three-dimensional structure of the target space. ing.
  • polarization information of subject light obtained when the third sensor is a polarization camera wavelength analysis information of subject light (reflected light from the subject) obtained when the third sensor is a multi-spectrum camera
  • the display processing unit causes the display unit to display a map including information estimated from sensing information by the third sensor as a map showing the three-dimensional structure of the target space. Is going.
  • the third sensor is a polarizing camera
  • a map including the surface section information of the subject estimated from the polarization information of the subject light obtained is displayed. It is possible to display a map including information estimated from the information. Therefore, it becomes possible to display more specific information as the attribute information of the object, and it is possible to further improve the information value of the map.
  • the third sensor includes a polarizing camera
  • the display processing unit generates a map showing the three-dimensional structure of the target space, the object estimated from the captured image of the polarizing camera.
  • a map containing the plane classification information is displayed on the display unit.
  • the third sensor includes a multi-spectrum camera
  • the display processing unit estimates the captured image of the multi-spectrum camera as a map showing the three-dimensional structure of the target space.
  • a process for displaying a map including information indicating the existence area of the specific subject on the display unit is performed.
  • a multi-spectrum camera is used as the third sensor, it is possible to estimate the presence area of a specific subject such as a plant by analyzing the wavelength of light from the subject. It is possible to display a map containing information indicating an area. Therefore, even if it is difficult to identify a specific subject such as a plant only from the shape of the object displayed on the map, the existence area of the specific subject can be shown to the map viewer, thereby improving the information value of the map. can be achieved.
  • the third sensor includes a thermal camera
  • the display processing unit generates a map showing the three-dimensional structure of the target space, the specific subject estimated from the captured image of the thermal camera.
  • a process is performed to display a map containing information indicating the existence area of the on the display unit.
  • a map generating unit (F1 ) As described above, it is possible to improve the accuracy of the map data by utilizing not only the sensing information from the visible light camera and the distance measuring sensor but also the sensing information from the third sensor to generate the map data.
  • the third sensor includes a polarizing camera
  • the map generating section generates map data based on the polarization information of the subject light obtained by the polarizing camera.
  • multipath-induced noise reduction processing is performed on the range image data, and information on the transparent object region estimated from the polarization information is mapped.
  • the map data generation process it is possible to perform processing for improving the accuracy of the map data based on the polarization information, such as performing processing to reflect it in the data. Therefore, it is possible to improve the accuracy of the map data.
  • the map generator generates map data based on the normal direction information of the subject estimated from the polarization information.
  • map data is generated by, for example, performing multipath-induced noise reduction processing on range image data based on the normal direction information itself or the surface section information of the subject estimated from the normal direction information. In the process, it becomes possible to perform processing for improving map data accuracy based on the normal direction information. Therefore, it is possible to improve the accuracy of the map data.
  • the map generation unit receives range image data obtained by a distance measuring sensor as source data for map data generation, and performs map data generation processing based on normal direction information. Based on the estimated plane segment information of the subject, the multipath-induced noise reduction process is performed on the range image data. According to the above configuration, it is possible to reduce ranging noise caused by multipaths of reflected light from a target object in ranging. Therefore, it is possible to improve the accuracy of the map data.
  • the map generation unit inputs visible light image data obtained by a visible light camera as map data generation source data, and obtains transparent object region information estimated based on polarization information.
  • map data generation source data obtained by a visible light camera
  • transparent object region information estimated based on polarization information obtained by a visible light camera
  • We generate map data based on This makes it possible to reflect information on a transparent object region such as glass, which is difficult to detect with visible light image data, in the map data. Therefore, it is possible to improve the accuracy of the map data.
  • the third sensor includes a multi-spectrum camera
  • the map generation unit generates map data based on wavelength analysis information of subject light obtained by the multi-spectrum camera. ing.
  • map data for example, by generating map data to which the material information of the subject estimated from the wavelength analysis information of the subject light is added as accompanying information, it is possible to generate map data representing the target space more accurately.
  • map data such as excluding specific subject parts made of specific materials such as parts from the map, and performing image correction processing for external light noise areas estimated from wavelength analysis information. , it is possible to perform processing for improving map data accuracy based on the wavelength analysis information. Therefore, it is possible to improve the accuracy of the map data.
  • the map generation unit generates map data based on the subject material information estimated based on the wavelength analysis information.
  • map data for example, by generating map data to which the material information of the subject estimated from the wavelength analysis information of the subject light is added as accompanying information, it is possible to generate map data representing the target space more accurately. It is possible to perform processing for improving the accuracy of map data based on material information, such as processing for excluding portions from the map that may become noise in self-position estimation based on map data. Therefore, it is possible to improve the accuracy of the map data.
  • the map generation unit performs a process of excluding plant parts estimated based on the wavelength analysis information in the map data generation process. As a result, processing is performed to eliminate from the map the plant parts that may become noise in the self-position estimation based on the map data. Therefore, it is possible to improve the accuracy of map data when used for self-position estimation.
  • the map generation unit inputs visible light image data obtained by a visible light camera as map data generation source data, and performs map data generation processing based on wavelength analysis information. Image correction processing is performed for the estimated ambient light noise region. According to the above configuration, it is possible to correct an inaccurate portion of the map data due to the occurrence of the external light noise region to an accurate state. Therefore, it is possible to improve the accuracy of the map data.
  • the third sensor includes a thermal camera
  • the map generation unit generates map data based on subject temperature information obtained by the thermal camera.
  • the temperature information it is possible to perform segmentation of the object (because the temperature can be different for each object).
  • the map generation unit generates map data based on the division information of the object region estimated based on the temperature information. As a result, it is possible to perform processing for improving the accuracy of map data based on the segmentation information of the object regions of the objects existing in the target space. Therefore, it is possible to improve the accuracy of the map data.
  • the map generation unit performs processing for excluding a human portion estimated based on temperature information in the map data generation processing.
  • processing is performed to eliminate from the map the human portion that may become noise in the self-position estimation based on the map data. Therefore, it is possible to improve the accuracy of map data when used for self-position estimation.
  • the third sensor includes an event-based vision sensor
  • the map generator generates a map based on subject movement information obtained based on sensing information from the event-based vision sensor. I am generating data.
  • processing for excluding moving objects such as people, animals, vehicles, etc. from the map is performed. It is possible to perform processing for improving the accuracy of the map data based on it. Therefore, it is possible to improve the accuracy of the map data.
  • An information processing method as an embodiment is an information processing method in an information processing apparatus that performs display processing of map data representing a three-dimensional structure of a target space generated based on sensing information from at least one of a visible light camera and a distance measuring sensor. It is an information processing method for performing display processing of map data based on sensing information from a third sensor, which is a sensor other than a visible light camera and a distance measurement sensor. With such an information processing method, it is possible to obtain the same actions and effects as those of the information processing apparatus as the embodiment described above.
  • the present technology can also adopt the following configuration.
  • a display processing unit that performs display processing of map data showing the three-dimensional structure of the target space generated based on sensing information from at least one of the visible light camera and the distance measuring sensor, The information processing device, wherein the display processing unit performs display processing of the map data based on sensing information from a third sensor that is a sensor other than the visible light camera and the ranging sensor.
  • the display processing unit displays a map including sensing information from the third sensor on the display unit as the map showing the three-dimensional structure of the target space.
  • the display processing unit performs processing for displaying, on the display unit, a map including information estimated from sensing information by the third sensor as a map showing the three-dimensional structure of the target space.
  • the third sensor includes a thermal camera;
  • the display processing unit causes the display unit to display, as a map showing the three-dimensional structure of the target space, a map containing information indicating the existence area of the specific subject estimated from the captured image of the thermal camera.
  • the information processing apparatus according to any one of 3) to (5). (7) (1) to (6) above, further comprising a map generation unit that generates the map data based on sensing information from at least one of the visible light camera and the ranging sensor, and sensing information from the third sensor.
  • the information processing device according to any one of the above.
  • the third sensor includes a polarization camera;
  • the map generating unit inputs distance image data obtained by the distance measuring sensor as source data for generating the map data, and in the process of generating the map data, surface division information of the subject estimated from the normal direction information.
  • the map generation unit inputs visible light image data obtained by the visible light camera as source data for generating the map data, and generates the map data based on information of a transparent object region estimated based on the polarization information.
  • the information processing apparatus according to any one of (8) to (10).
  • the third sensor includes a multispectral camera;
  • the information processing apparatus performs a process of excluding plant parts estimated based on the wavelength analysis information in the process of generating the map data.
  • the map generating unit inputs visible light image data obtained by the visible light camera as source data for generating the map data, and in the process of generating the map data, an external light noise region estimated based on the wavelength analysis information.
  • the third sensor includes a thermal camera;
  • the information processing apparatus according to any one of (7) to (15), wherein the map generation unit generates the map data based on subject temperature information obtained by the thermal camera.
  • the map generation unit generates the map data based on division information of an object region estimated based on the temperature information.
  • the map generation unit performs a process of excluding a human portion estimated based on the temperature information in the process of generating the map data.
  • the third sensor includes an event-based vision sensor; The information processing apparatus according to any one of (7) to (18), wherein the map generation unit generates the map data based on subject movement information obtained based on sensing information of the event-based vision sensor.
  • An information processing method in an information processing device that performs display processing of map data representing a three-dimensional structure of a target space generated based on sensing information from at least one of a visible light camera and a ranging sensor, comprising: An information processing method, wherein display processing of the map data is performed based on sensing information from a third sensor that is a sensor other than the visible light camera and the ranging sensor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術に係る情報処理装置は、可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う表示処理部を備え、表示処理部は、可視光カメラと測距センサとを除くセンサである第三センサによるセンシング情報に基づいてマップデータの表示処理を行う。

Description

情報処理装置、情報処理方法
 本技術は、情報処理装置とその方法に関するものであり、特には、可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された対象空間の三次元構造を示すマップデータについての表示処理技術に関する。
 例えばSLAM(Simultaneous Localization and Mapping)等の技術により、対象空間の三次元構造を示すマップデータを生成するということが行われている。SLAMにおいては、例えばRGBカメラ等の可視光カメラと、LiDAR(Light Detection And Ranging)センサやToF(Time Of Flight)センサ等の測距センサの双方又は何れか一方を用いて対象空間をスキャニングしてマップデータが生成される。
 このように対象空間をスキャニングして得られるマップデータは、様々なサービスに活用することが可能である。一例としては、対象空間内に位置するユーザにAR(Augmented Reality:拡張現実)コンテンツを提供するサービスを挙げることができる。この場合、マップデータに基づき対象空間内の所定位置に仮想オブジェクトを提示したり、対象空間内の所定位置にユーザが位置したことをトリガとして所定の仮想オブジェクトを提示したりする等といったことが考えられる。
 なお、関連する従来技術については下記特許文献1を挙げることができる。該特許文献1には、複数種類のセンサを用いて、それらのセンシング情報をフュージョンさせてマップデータを生成する技術が開示されている。
特開2018-55695号公報
 ここで、マップデータを用いたサービスを実現する上では、所定の表示装置にマップデータに基づくマップを表示するということが考えられる。例えば、上記のようなARコンテンツの提供サービスにおいては、対象空間におけるARコンテンツの提示位置を設定するためのGUI(Graphical User Interface)画面として、マップの表示を伴うGUI画面を表示するということが考えられる。
 しかしながら、現状においてマップ表示は、対象空間内でスキャニングされた物体の形状を示すようにしか行われていない。
 本技術は上記事情に鑑み為されたものであり、対象空間の三次元構造を示すマップついて、情報価値の向上を図ることを目的とする。
 本技術に係る情報処理装置は、可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う表示処理部を備え、前記表示処理部は、前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行うものである。
 可視光カメラとは、可視光を受光可能に構成された撮像素子により撮像を行うカメラを意味する。測距センサとは、対象物体までの距離を検出するセンサを意味する。上記構成により、対象空間の三次元構造を示すマップとして、第三センサによるセンシング情報や該センシング情報から推定される情報を含むマップを表示する等、該センシング情報を反映させたマップ表示を行うことが可能となる。
 また、本技術に係る情報処理方法は、可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う情報処理装置における情報処理方法であって、前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行う情報処理方法である。
 このような情報処理方法によっても、上記した本技術に係る情報処理装置と同様の作用が得られる。
本技術に係る実施形態としてのARサービス提供システムの概略構成を例示したブロック図である。 実施形態においてユーザに提供するARサービスの例の説明図である。 実施形態におけるマップデータのイメージを示した図である。 実施形態としてのコンピュータ装置のハードウエア構成例を示したブロック図である。 実施形態としての情報処理装置が有する機能を説明するための機能ブロック図である。 実施形態における偏光カメラの撮像画像に基づくマップ生成関連処理の説明図である。 実施形態におけるマルチスペクトラムカメラの撮像画像に基づくマップ生成関連処理の説明図である。 対象空間内における外光ノイズ領域の例を示した図である。 実施形態におけるサーマルカメラの撮像画像に基づくマップデータ生成関連処理の説明図である。 実施形態における図である。 EVSのセンシング情報に基づくマップ生成関連処理の説明図である。 設定画面の例を示した図である。 マルチスペクトラムカメラが選択された場合の設定画面の例を示した図である。 偏光カメラの撮像画像に基づく被写体の面区分情報の表示例を示した図である。 透明部分を示す情報の表示例を示した図である。 マルチスペクトラムカメラの撮像画像から推定される特定の素材部分を示す情報の表示例を示した図である。 サーマルカメラのセンシング情報に基づく情報表示の別例を示した図である。
 以下、添付図面を参照し、本技術に係る情報処理装置の実施の形態を次の順序で説明する。
<1.システムの概要>
(1-1.システム全体構成)
(1-2.ハードウエア構成>
<2.実施形態としての処理>
(2-1.マップ生成関連処理)
(2-2.表示処理)
<3.変形例>
<4.実施形態のまとめ>
<5.本技術>
<1.システムの概要>
(1-1.システム全体構成)
 図1は、本技術に係る実施形態としてのAR(Augmented Reality:拡張現実)サービス提供システム100の概略構成を例示したブロック図である。
 図示のようにARサービス提供システム100は、サーバ装置1と、可視光カメラ2と、測距センサ3と、第三センサ4と、フュージョンデータ生成装置5と、1又は複数のユーザ端末6とを備えている。
 ARサービス提供システム100において、サーバ装置1、フュージョンデータ生成装置5、及びユーザ端末6は、それぞれ、インターネットやLAN(Local Area Network)等の通信ネットワークであるネットワーク7を介したデータ通信機能を有するコンピュータ装置として構成され、これらサーバ装置1、フュージョンデータ生成装置5、及びユーザ端末6は、ネットワーク7を介して相互にデータ通信を行うことが可能とされている。
 また、フュージョンデータ生成装置5は、可視光カメラ2、測距センサ3、及び第三センサ4のそれぞれと有線又は無線によるデータ通信を行うことが可能に構成され、これら可視光カメラ2、測距センサ3、及び第三センサ4それぞれのセンシング情報を取得可能とされる。
 ユーザ端末6は、ARサービス提供システム100において提供するARサービスの受け手であるユーザにより使用されることが想定されるコンピュータ装置である。ユーザ端末6としては、可搬性を有するコンピュータ装置として構成され、例えばスマートフォンやタブレット端末、ノートブック型のパーソナルコンピュータ、或いはスマートグラスやヘッドマウントディスプレイ等の装置形態が考えられる。
 本例では、後述するARコンテンツをユーザに提示可能とするため、ユーザ端末6には、画像表示が可能なディスプレイデバイスが設けられる。このディスプレイデバイスの表示画面を以下、「表示画面6a」と表記する。
 また、ユーザ端末6には、実空間を撮像した画像である実空間撮像画像を得るための可視光カメラが設けられる。ここで、可視光カメラとは、可視光を受光可能に構成された撮像素子により撮像を行うカメラを意味する。
 また、本例では、ARサービスを受けるにあたり、ユーザ端末6が自己位置推定を行うことが要請される。この自己位置推定を可能とするために、ユーザ端末6には、上記した可視光カメラ以外に、例えばLiDAR(Light Detection And Ranging)センサやToF(Time Of Flight)センサ等による測距センサが設けられる場合がある。測距センサは、物体までの距離を検出するセンサである。
 サーバ装置1は、上記ARサービスの提供者により使用されることが想定されるコンピュータ装置である。
 可視光カメラ2は、可視光を受光可能に構成された撮像素子により撮像を行うカメラである。本例において、可視光カメラ2は、R(赤)光、B(青)光、G(緑)光を個別に受光するためのカラーフィルタを有し、これらR光、B光、G光の受光信号に基づいて撮像画像としてカラー画像を得るRGBカメラとして構成されている。
 測距センサ3は、物体までの距離を検出する。測距センサ3としては、例えばLiDARセンサやToFセンサ等、物体に対して照射した光の反射光を受光した結果に基づいて測距を行うセンサを用いることができる。本例では、測距センサ3としてToFセンサが用いられる。ここで言うToFセンサは、物体からの反射光を受光する受光部として、受光素子を有する画素が複数配列された画素アレイ部を有する受光部を有し、該受光部が画素ごとに検出した受光信号に基づき、距離画像データを得ることが可能に構成されたものであるとする。
 ここで、距離画像とは、画素ごとに距離を示す情報が対応づけられた情報を意味する。
 第三センサ4は、可視光カメラ2及び測距センサ3以外のセンサを表すものである。
 フュージョンデータ生成装置5は、可視光カメラ2、測距センサ3、及び第三センサ4としての複数のセンサによるセンシング情報をフュージョンしたフュージョンデータを生成する装置である。
 なお、第三センサ4、及びフュージョンデータ生成装置5の詳細は後述する。
 ここで、ユーザに提供するARサービスの例を図2を参照して説明しておく。
 先ず、本例におけるARコンテンツは、ユーザ端末6が上述した実空間撮像画像を表示画面6a上に表示している状態で、該実空間撮像画像上に仮想オブジェクトVoを重畳表示することで実現されるコンテンツとなる(図2A、図2B参照)。
 ARサービスは、このようなARコンテンツをユーザに提示するサービスとされる。
 ユーザにARを体験させる対象空間の例としては、例えば、ショッピングモールや遊園地等の商業施設や公園等の公共施設といった各種の施設、街中等といった人工構築物が配置された空間を挙げることができる。或いは、例えば洞窟等といった天然の構築物が配置された空間を対象空間とすることも考えられる。
 仮想オブジェクトVoとしては、例えば商業施設における店舗の広告情報(例えば、図2B中に例示するような「30%OFF」等の割引き情報等)を示すオブジェクトや、所定の目的地に案内(ナビゲーション)するためのナビゲーション情報(例えば、図2B中に例示する矢印マーク等)を示すオブジェクトを提示すること等が考えられる。
 ARサービス提供システム100では、ARサービスの提供にあたり、例えば上記のようなショッピングモール等の対象空間をスキャニングして、該対象空間の三次元構造を示すマップデータの生成が行われる。
 本例では、該マップデータの生成は、少なくとも可視光カメラ2、測距センサ3の少なくとも何れか一方のセンシング情報に基づいてサーバ装置1が行う。具体的に、この場合のマップデータ生成は、可視光カメラ2により得られる可視光画像データと、測距センサ3(本例ではToFセンサ)により得られる距離画像データとを生成元データとし、これら可視光画像データと距離画像データとをフュージョンして得られるRGBD画像データ(D:Depth)に基づきサーバ装置1が行う。
 図3に、マップデータのイメージを示す。
 マップデータの生成にあたっては、例えば自走可能なロボット(車両の態様も含む)やドローン等の移動体を用意する。この移動体に、対象空間スキャニングのための可視光カメラ2及び測距センサ3を搭載しておく。このように可視光カメラ2及び測距センサ3が搭載された移動体を対象空間内で移動させながら、対象空間のスキャニングを行うことで、図3に例示するような、対象空間の三次元構造を示すマップデータを生成する。
 マップデータは、例えば三次元座標空間上においてスキャニングされた物体の位置や形状、姿勢を示す3Dモデルデータとして生成される。
 マップデータの具体的な生成手法については特に限定されない。一例として、マップデータは、例えばSLAM(Simultaneous Localization and Mapping)の技術により生成することが考えられる。
 なお、マップデータ生成に用いる移動体としては、必ずしも自走可能なものに限定されず、例えば人力で移動させる手法も採り得る。
 このようにサーバ装置1が生成したマップデータは、ARサービスにおける各種処理に用いられる。具体的に、本例においてマップデータは、サービス提供者が対象空間内における仮想オブジェクトVoの配置位置の設定を行うための設定画面Gsの表示に用いられる。この設定画面Gsには、マップデータに基づく対象空間のマップが表示され、このような設定画面Gsによりサービス提供者は、マップ上で仮想オブジェクトVoの配置位置を容易に設定することが可能とされる。
 例えば、図2Bで例示したような広告情報としての仮想オブジェクトVoについては、対象とする店舗の壁等の所定位置に提示することが考えられ、また、矢印マーク等のナビゲーション情報であれば、ユーザが対象空間内の所定の位置に位置した場合に対応する仮想オブジェクトVoが対象空間内の所定位置に提示されるように仮想オブジェクトVoの提示位置を設定することが考えられる。このようにARコンテンツを生成する上では、サービス提供者が、対象空間内における仮想オブジェクトVoの提示位置の設定作業を行うことが想定されるものである。
 ここで、本例では、設定画面Gsの表示に関して、サーバ装置1が実施形態としての各種表示処理を行うが、該表示処理の詳細は後に改めて説明する。
 また、サーバ装置1が生成したマップデータは、本例では、ユーザ端末6が対象空間内で行う自己位置推定にも用いられる。この自己位置推定を行うことで、ユーザ端末6は、対象空間内の正しい位置に仮想オブジェクトVoを提示することが可能とされる。
 本例では、ユーザ端末6には、ARサービスを受けるためのアプリ(アプリケーションプログラム)がインストールされると共に、サーバ装置1が生成したマップデータが記憶される。ユーザ端末6は、このように記憶されたマップデータを参照して、SLAMによる自己位置推定を行う。
 ここで、図1において、フュージョンデータ生成装置5は、上述した移動体を用いて対象空間をスキャニングする現場において配置されることが想定された装置とされる。
 また、ユーザ端末6は、上記のようなスキャニングが行われる期間とは異なる期間において対象空間内に配置されることが想定される。
 サーバ装置1は、例えばクラウドサーバ等として、対象空間に対する遠隔地に配置されることが想定されている。
(1-2.ハードウエア構成)
 図1に示したサーバ装置1、フュージョンデータ生成装置5、及びユーザ端末6としての各コンピュータ装置(情報処理装置)は、図4に示すようなハードウエア構成を有するコンピュータ装置10により実現することができる。
 図示のようにコンピュータ装置10は、CPU11を備えている。CPU11は、ROM12や例えばEEP-ROM(Electrically Erasable Programmable Read-Only Memory)などの不揮発性メモリ部14に記憶されているプログラム、又は記憶部19からRAM13にロードされたプログラムに従って各種の処理を実行する。RAM13にはまた、CPU11が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU11、ROM12、RAM13、及び不揮発性メモリ部14は、バス23を介して相互に接続されている。このバス23にはまた、入出力インタフェース(I/F)15も接続されている。
 入出力インタフェース15には、操作子や操作デバイスよりなる入力部16が接続される。例えば、入力部16としては、キーボード、マウス、キー、ダイヤル、タッチパネル、タッチパッド、リモートコントローラ等の各種の操作子や操作デバイスが想定される。
 入力部16によりユーザの操作が検知され、入力された操作に応じた信号はCPU11によって解釈される。
 また入出力インタフェース15には、LCD(Liquid Crystal Display)或いは有機EL(Electro-Luminescence)パネルなどよりなる表示部17や、スピーカなどよりなる音声出力部18が一体又は別体として接続される。
 表示部17は各種の情報表示に用いられ、例えばコンピュータ装置10の筐体に設けられるディスプレイデバイスや、コンピュータ装置に接続される別体のディスプレイデバイス等により構成される。
 表示部17は、CPU11の指示に基づいて表示画面上に各種の画像処理のための画像や処理対象の動画等の表示を実行する。また表示部17はCPU11の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を行う。
 入出力インタフェース15には、HDD(Hard Disk Drive)や固体メモリなどより構成される記憶部19や、モデムなどより構成される通信部20が接続される場合もある。
 通信部20は、インターネット等の伝送路を介しての通信処理や、各種機器との有線/無線通信、バス通信などによる通信を行う。
 入出力インタフェース15にはまた、必要に応じてドライブ21が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブル記録媒体22が適宜装着される。
 ドライブ21により、リムーバブル記録媒体22から各処理に用いられるプログラム等のデータファイルなどを読み出すことができる。読み出されたデータファイルは記憶部19に記憶されたり、データファイルに含まれる画像や音声が表示部17や音声出力部18で出力されたりする。またリムーバブル記録媒体22から読み出されたコンピュータプログラム等は必要に応じて記憶部19にインストールされる。
 上記のようなハードウエア構成を有するコンピュータ装置10では、例えば本実施形態の処理のためのソフトウエアを、通信部20によるネットワーク通信やリムーバブル記録媒体22を介してインストールすることができる。或いは、当該ソフトウエアは予めROM12や記憶部19等に記憶されていてもよい。
 CPU11が各種のプログラムに基づいて処理動作を行うことで、前述したサーバ装置1やフュージョンデータ生成装置5、ユーザ端末6としての必要な情報処理や通信処理が実行される。
 なお、コンピュータ装置10は、図4のような構成によるコンピュータ装置が単一で構成されることに限らず、複数のコンピュータ装置がシステム化されて構成されてもよい。複数のコンピュータ装置は、LAN(Local Area Network)等によりシステム化されていてもよいし、インターネット等を利用したVPN(Virtual Private Network)等により遠隔地に配置されたものでもよい。複数のコンピュータ装置には、クラウドコンピューティングサービスによって利用可能なサーバ群(クラウド)としてのコンピュータ装置が含まれてもよい。
 なお、ユーザ端末6への適用の場合、コンピュータ装置10には、前述した自己位置推定に用いる各種のセンサ(例えば、可視光カメラや距離センサ、IMU(Inertial Measurement Unit)センサ等)が設けられる。
<2.実施形態としての処理>
 図5は、サーバ装置1が有する実施形態としての機能を説明するための機能ブロック図である。これら実施形態としての機能は、本例では、サーバ装置1のCPU11によるソフトウエア処理により実現される。
 図示のようにサーバ装置1は、マップ生成部F1、表示処理部F2、及びARサービス処理部F3としての機能を有する。
 マップ生成部F1は、可視光カメラ2、測距センサ3の少なくとも一方によるセンシング情報と、第三センサ4によるセンシング情報とに基づいてマップデータの生成を行う。前述のように、本例においてマップデータの生成は、可視光カメラ2により得られる可視光画像データと測距センサ3(ToFセンサ)により得られる距離画像データとを生成元データとし、これら可視光画像データと距離画像データとをフュージョンして得られるRGBD画像データに基づきサーバ装置1が行う。つまり、この場合のマップ生成部F1は、可視光カメラ2、測距センサ3の双方によるセンシング情報と第三センサ4によるセンシング情報とに基づいてマップデータの生成を行う。
 第三センサ4は、可視光カメラ2及び測距センサ3と同様に、前述した移動体に搭載される。これにより、マップデータ生成のための対象空間のスキャニング時において、可視光カメラ2、測距センサ3、及び第三センサ4が連動して移動するようにされる。
 ここで、第三センサ4としては、少なくとも、可視光カメラ2と測距センサ3とを除くセンサを用いればよいが、特に本実施形態では、第三センサ4として、偏光カメラ、マルチスペクトラムカメラ、サーマルカメラ、EVS(イベントベースドビジョンセンサ:Event Based Vision Sensor)を用いる例を説明する(図1参照)。
 ここで、偏光カメラとは、被写体からの反射光についての偏光情報を画素ごとに示す偏光画像を取得可能に構成されたカメラを意味する。
 また、マルチスペクトラムカメラとは、複数の波長帯の撮像ができるカメラを総称したものであり、一般にマルチスペクトラムカメラと言われるもののほか、ハイパースペクトラムカメラ(Hyper Spectrum Camera)と呼ばれるものなども含む。
 サーマルカメラとは、被写体の温度を画素ごとに示すサーマル画像を取得可能に構成されたカメラを意味する。
 EVSとは、受光素子を有する画素が複数配列された画素アレイ部を有するセンサであって、受光量の所定量以上の変化をイベントとして検出するセンサを意味する。EVSは、DVS(Dynamic Vision Sensor)と呼ばれることもある。
 なお、偏光カメラについては下記参考文献1等を参照されたい。また、マルチスペクトラムカメラについては下記参考文献2等を、サーマルカメラについては下記参考文献3等を、EVSについては下記参考文献4等を参照されたい。
 ・参考文献1:特開2019-67323号公報
 ・参考文献2:特開2021-12433号公報
 ・参考文献3:特表2004-506354号公報
 ・参考文献4:特開2021-103842号公報
 ここで、マルチスペクトラムカメラは、複数の波長帯それぞれについての撮像画像を得るものであり、これは、被写体光(被写体からの反射光)に含まれる各波長帯の光についての受光量の情報を得ているものと換言できる。この点から、マルチスペクトラムカメラの撮像画像は、被写体光の波長解析情報であると言うことができる。
 ここで、図1に示したフュージョンデータ生成装置5は、上記のような可視光カメラ2、測距センサ3、及び第三センサ4のセンシング情報に基づくマップデータ生成を可能とするべく、これら可視光カメラ2、測距センサ3、及び第三センサ4のセンシング情報をフュージョンしたフュージョンデータを生成する。ここで言うフュージョンデータとは、少なくとも、可視光カメラ2、測距センサ3、第三センサ4それぞれのセンサによるセンシング情報を含み、且つこれら異なるセンサによるセンシング情報の時刻的な同期がとられた状態のデータを意味する。
 偏光カメラとしての第三センサ4によるセンシング情報は、偏光画像としての情報である。また、マルチスペクトラムカメラによるセンシング情報は、複数の波長帯それぞれについての撮像画像の情報、換言すれば、被写体光の波長解析情報である。
 また、サーマルカメラとしての第三センサ4によるセンシング情報は、サーマル画像であり、EVSとしての第三センサ4によるセンシング情報はイベントの検出位置を示すイベント検出画像である。
 なお、本例のようにサーバ装置1におけるマップデータ生成をSLAMの技術により行う場合には、第三センサ4の一つとして、IMUセンサを設ける。このIMUセンサにより得られる、移動体の位置や姿勢(相対的な位置や姿勢)を示す情報を、可視光カメラ2により得られる可視光画像データや測距センサ3により得られる距離画像データとフュージョンしたデータをフュージョンデータ生成装置5からサーバ装置1に転送する。サーバ装置1は、このようにフュージョンデータ生成装置5経由で転送された移動体の位置や姿勢を示す情報に基づき、SLAMの技術によるマップデータ(環境地図)の生成を行うことが可能となる。
 サーバ装置1におけるマップ生成部F1は、上記のような第三センサ4によるセンシング情報を含むフュージョンデータに基づき、マップデータの生成処理を行う。このような第三センサ4によるセンシング情報を用いたマップデータの生成処理例については後述する。
 表示処理部F2は、可視光カメラ2、測距センサ3の少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う。
具体的に、この場合のマップデータの表示処理は、前述した設定画面Gsの表示処理として行われる。ここで、設定画面Gsの表示は、サーバ装置1における表示部17(図4参照)上で行われる。
 本実施形態において、表示処理部F2は、第三センサ4によるセンシング情報に基づいてマップデータの表示処理を行うが、該表示処理の詳細は改めて説明する。
 ARサービス処理部F3は、ARサービスに係る各種の処理を行う。例えば、ARサービスの提供を受けるユーザのアカウント情報の登録処理や、ユーザ端末6からの要求に応じた各種情報の配信処理(例えば、前述したアプリやマップデータ等の配信)等を行う。
(2-1.マップ生成関連処理)
 以下、マップ生成部F1がマップデータの生成において第三センサ4のセンシング情報に基づき行う処理(マップ生成関連処理)について説明する。
 ここでは、第三センサ4が偏光カメラである場合、マルチスペクトラムカメラである場合、サーマルカメラである場合、EVSである場合の各場合について、それぞれ対応するマップ生成関連処理を説明する。
 図6は、偏光カメラの撮像画像に基づくマップ生成関連処理の説明図である。
 この場合のマップ生成関連処理は、偏光カメラにより得られる被写体光の偏光情報に基づくマップデータの生成処理と換言できるものである。
 この場合、マップ生成部F1は、偏光情報に基づく処理として、ノイズ低減処理、面区分特定処理、透明物体の特定処理を行う。
 ここで言うノイズ低減処理は、測距センサ3により得られた距離画像に生じるノイズ、具体的には、被写体からの反射光のマルチパス起因ノイズの低減処理である。測距センサ3は、測距対象物に対し測距用の光を照射し、その反射光を受光した結果に基づいて測距を行う。具体的には、測距用の光を発してから反射光が受光されるまでの時間に基づいて測距を行う。このとき、測距対象物の形状によっては、反射光が複数回反射する部分、換言すれば、反射光のマルチパスが生じる部分が発生する。反射光のマルチパスが生じた部分は、測距情報を正しく得ることができなくなるため、測距におけるノイズ部分となる。
 反射光のマルチパスは、例えば床面と壁面の境界部分等、面の境界部分において生じ易い。このため、マルチパス起因ノイズの低減処理として、偏光カメラによる偏光情報から推定される、被写体の法線方向情報に基づいたノイズ低減処理を行う。ここで、被写体の法線方向情報とは、被写体を構成する面の法線方向(面が向く方向)を示す情報を意味する。
 なお、偏光情報から被写体の法線方向を推定する手法については、例えば前述した参考文献1を参照されたい。
 被写体の法線方向情報が特定できれば、距離画像データにおいて、上記のような床面と壁面との境界部等、マルチパス起因のノイズが生じている領域を推定できる。マップ生成部F1は、このように推定したノイズ領域の距離の値を、周囲の非ノイズ領域の距離の値から線形補間等で求めた距離の値に補正する。これにより、マルチパス起因ノイズの低減を行うことが可能とされる。
 或いは、マルチパス起因ノイズの低減処理は、被写体の法線方向情報から推定される、被写体の面区分情報に基づき行うこともできる。被写体の面区分情報とは、例えば床面、壁面の区分等、被写体の面の区分を示す情報を意味する。
 このような面区分情報から、床面と壁面との境界部等、マルチパス起因のノイズが生じている領域を推定できる。マップ生成部F1は、このように推定したノイズ領域の距離の値を、周囲の非ノイズ領域の距離の値から線形補間等で求めた距離の値に補正する。
 図6に示す面区分特定処理は、上記した被写体の面区分情報に基づいて、マップデータについてのトポロジー処理(図形同士の空間的な位置関係を管理する処理)を行うことを意味している。
 被写体の面区分情報を用いずにトポロジー処理を行う場合よりも、検出図形同士の位置関係を正確に管理することが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 透明物体の特定処理は、偏光情報に基づいて被写体における透明物体領域を推定(特定)する処理となる。
 偏光情報に基づく透明物体領域の推定手法については多様に考えられる。一例としては、可視光画像と偏光画像との比較結果に基づき透明物体領域を推定する手法が挙げられる。具体的には、例えば、可視光画像においては物体が存在しないが偏光画像においては偏光情報が検出されている領域を透明物体領域として推定する手法等を挙げることができる。或いは、透明物体領域の推定は、偏光画像を学習用データとして用いて学習させたAI(人工知能)を用いて行うことも考えられる。
 マップ生成部F1は、このように偏光情報に基づき推定される透明物体領域の情報に基づいてマップデータの生成を行う。具体的には、透明物体領域に透明物体としての物体が存在していることを表すマップデータの生成を行う。
 これにより、可視光画像データによっては検出し難いガラス等の透明物体領域の情報をマップデータに反映させることが可能となり、マップデータの正確性向上を図ることができる。
 図7は、マルチスペクトラムカメラの撮像画像に基づくマップ生成関連処理の説明図である。
 この場合のマップ生成関連処理は、マルチスペクトラムカメラにより得られる被写体光の波長解析情報に基づくマップデータの生成処理と換言できるものである。
 この場合、マップ生成部F1は、被写体光の波長解析情報に基づく処理として、特定物体の排除処理、及び外光キャンセル処理を行う。
 特定物体の排除処理は、波長解析情報に基づき推定される被写体の素材情報に基づく処理であり、具体的には、該素材情報から推定される特定被写体部分、具体的に本例では植物部分をマップから排除する処理である。
 ここで、マルチスペクトラムカメラにより得られる被写体光の波長解析情報によれば、被写体の素材を推定することが可能である。これは、素材ごとに、反射光の有する波長特性が異なり得ることに起因する。例えば、予めターゲットとする素材を定めておき、該ターゲットとしての素材が有する反射光の波長特性と一致又は類似する波長特性を有する部分を、特定被写体部分として推定する。ターゲットとする素材が複数ある場合には、素材ごとに上記のような波長特性の一致又は類似性に基づく処理を行って、それぞれの素材の被写体部分を推定する。
 ここで、前述のようにマップ生成部F1が生成したマップデータは、ユーザ端末6における自己位置推定において参照されるが、例えば植木等の植物部分は、経時的に形状や色が変化するため、植物部分がマップデータに含まれていると、ユーザ端末6がSLAMにおいて生成するマップデータとの乖離が生じ、ユーザ端末6における自己位置推定の精度が低下してしまう虞がある。
 上記のように植物部分をマップから排除する処理を行うことで、このようなユーザ端末6における自己位置推定の精度低下の抑制を図ることができる。
 なお、マップからの排除対象とする部分は、植物部分に限定されるものではない。具体的には、マップデータに基づく自己位置推定においてノイズとなり得る部分を素材情報に基づき推定し、該部分をマップから排除するものとすればよい。
 ここで、被写体光の波長解析情報に基づくマップデータの生成処理としては、上記のような特定物体の排除処理に限定されない。例えば、図示による説明は省略するが、マップ生成部F1は、被写体光の波長解析情報に基づくマップデータの生成処理として、該波長解析情報から推定される被写体の素材情報を付随情報として付加したマップデータを生成する処理を行うこともできる。
 これにより、対象空間をより正確に表すマップデータの生成を行うことができ、マップデータの正確性向上を図ることができる。
 外光キャンセル処理は、波長解析情報に基づき推定される外光ノイズ領域についての画像補正を行う処理である。
 外光ノイズ領域とは、例えば太陽光等に基づく外光が所定強度以上の強度で照射されている領域を意味する。
 図8は、対象空間内における外光ノイズ領域の例を示した図である。
 図中、「X」「Y」でそれぞれ示す部分は、施設内の建物に設けられた窓ガラス等の透明部分を表している。この場合、外光が夕方における西日等、照射角度が浅い光とされると、建物内の廊下部分や壁部分には、図中の斜線部で示すように外光が強く当たる部分が生じる。外光が強く当たった部分は、その周囲部分と比較して明るさや色の違いが生じ、このため、該部分について、本来の色や明るさが正しく反映されていないマップデータが生成されてしまうことになる。これに起因して、ユーザ端末6が該マップデータを参照して行う自己位置推定の精度が低下してしまう虞がある。
 そこで、この場合のマップ生成部F1は、外光キャンセル処理として、マルチスペクトラムカメラによる波長解析情報に基づき外光ノイズ領域を推定し、外光ノイズ領域の本来の明るさや色が再現されるように、外光ノイズ領域の画像補正処理を施す。例えば、マップデータの生成元データとして用いる可視光画像データについて、外光ノイズ領域の明るさや色を、外光ノイズ領域周囲の領域の明るさや色に近づける補正(同色にする補正も含む)を行う。
 これにより、サーバ装置1側で生成するマップデータについて、ユーザ端末6がSLAMにおいて生成するマップデータとの乖離が生じ難くなるようにすることができ、ユーザ端末6における自己位置推定精度の低下抑制を図ることができる。
 図9は、サーマルカメラの撮像画像に基づくマップデータ生成関連処理の説明図である。
 この場合のマップ生成関連処理は、サーマルカメラにより得られる被写体の温度情報に基づくマップデータの生成処理と換言できる。
 この場合、マップ生成部F1は、セグメンテーション処理、特定物体の排除処理を行う。
 セグメンテーション処理は、対象空間内における物体ごとの領域区分を行う処理である。ここで、サーマルカメラにより得られる被写体の温度情報によっては、物体のセグメンテーション(物体ごとの領域区分)を行うことが可能である。これは、物体ごとに温度が異なり得ることによる。
 マップ生成部F1は、サーマルカメラにより得られる被写体の温度情報に基づき、セグメンテーション処理として、物体ごとの領域区分を推定する処理を行い、推定した物体ごとの領域区分を示す情報を付随情報として付加したマップデータを生成する処理を行う。
 これにより、対象空間をより正確に表すマップデータの生成を行うことができ、マップデータの正確性向上を図ることができる。
 特定物体の排除処理は、特定の温度特性を有する特定被写体部分をマップから排除する処理である。具体的に本例では、サーマルカメラによる被写体の温度情報から、マップデータに基づく自己位置推定においてノイズとなり得る部分、具体的には、人物部分を推定し、該人物部分をマップから排除する処理を行う。
 これにより、自己位置推定に用いる上でのマップデータの正確性向上を図ることができる。
 図10は、EVSのセンシング情報に基づくマップ生成関連処理の説明図である。
 前述のようにEVSは受光量の所定量以上の変化をイベントとして検出するセンサとされるため、被写体の動きを検出するセンサであると換言できる。
 この場合のマップ生成部F1は、EVSのセンシング情報に基づく処理として、動物体の排除処理を行う。具体的には、EVSのセンシング情報に基づき、例えば人物や動物、車両等の動物体を検出し、該動物体をマップから排除する処理を行う。
 人物や動物、車両等の動物体としても、マップデータに基づく自己位置推定においてノイズとなり得る部分となる。従って、上記のように動物体をマップから排除する処理を行うことで、マップデータの正確性向上を図ることができる。
 ここで、上記で例示した偏光カメラ、マルチスペクトラムカメラ、サーマルカメラ、EVS等の第三センサ4について、それらセンサのセンシング情報から推定される情報、例えば、偏光カメラに係る法線方向情報、面区分情報、マルチスペクトラムカメラに係る素材情報等の情報を総称して「メタ情報」と表記する。
 上記説明では、メタ情報の生成をサーバ装置1が行う例としたが、メタ情報の生成はフュージョンデータ生成装置5側で行うことも可能である。この場合、フュージョンデータとして、メタ情報が付加されたデータがサーバ装置1に転送され、サーバ装置1は該メタ情報に基づいて、上記で説明したメタ情報に基づく各種の処理を行う。
 また、上記では、偏光カメラ、マルチスペクトラムカメラ、サーマルカメラ、EVSそれぞれのセンシング情報に基づくマップデータ生成処理を個別に説明したが、それぞれのセンシング情報に基づくマップデータ生成処理の全てを組み合わせて、又は一部を組み合わせて行うことも可能である。
(2-2.表示処理)
 続いて、図5に示した表示処理部F2の処理について説明する。
 前述のように表示処理部F2は、第三センサによるセンシング情報に基づいて、マップデータの表示処理を行うものである。
 ここで、この場合において表示対象とされるマップデータは、上記で例示した第三センサ4のセンシング情報に基づく生成処理により生成されたものであることに限定されない。
 表示処理部F2は、対象空間の三次元構造を示すマップとして、第三センサ4によるセンシング情報を含むマップを表示部17に表示させる処理を行う。
 図11から図13を参照し、センシング情報の表示例を説明する。
 図11は、設定画面Gsの例を示している。
 図示のように設定画面Gsには、第三センサ4として設けられた偏光カメラ、マルチスペクトラムカメラ、サーマルカメラ、EVSのうち何れのセンシング情報を表示するかの選択を行うための操作受付部Psとしての画像が、マップデータに基づくマップと共に表示されている。図示のように操作受付部Psには、偏光カメラ、マルチスペクトラムカメラ、サーマルカメラ、EVSを個別に選択するためのチェックボックスが配置されている。
 本例における表示処理部F2は、このチェックボックスに対する操作が行われたセンサのセンシング情報が、設定画面Gsにおけるマップ上に表示されるように表示部17についての表示処理を行う。
 図12は、偏光カメラが選択された場合の設定画面Gsの例を示している。この場合、設定画面Gsのマップ上には、偏光カメラにより得られる偏光情報を表示する。このとき、偏光情報の表示は、図中で例示するように、偏光情報が示す偏光角度の違いを表示態様の違い(例えば偏光角度ごとに図柄を異ならせる、或いは、色を異ならせる等)により表現するようにして行う。
 図13は、マルチスペクトラムカメラが選択された場合の設定画面Gsの例を示している。
 マルチスペクトラムカメラによるセンシング情報については、例えば、波長帯ごとの受光量を示す情報をマップ上に表示することが考えられる。図13では、その場合に対応した操作受付部Psの例を示しているが、この場合の操作受付部Psには、マルチスペクトラムカメラが選択されたことに応じて、選択可能な各波長帯ごとのチェックボックスが表示される。この場合、表示処理部F2は、これらチェックボックスのうちから選択されたチェックボックスに対応する波長帯の受光量を示す情報を設定画面Gsにおけるマップ上に表示させる。
 なお、図示は省略したが、サーマルカメラ、EVSのセンシング情報についても、同様の要領でマップ上に表示されるようにすればよい。例えば、サーマルカメラによるセンシング情報の表示としては、温度分布を示す情報をマップ上に表示することが考えられる。また、EVSのセンシング情報の表示としては、イベントの検出結果を示す情報をマップ上に表示することが考えられる。
 上記のような第三センサ4のセンシング情報に基づくマップデータの表示処理を行うことで、対象空間の三次元構造を示すマップとして、可視光カメラ2や測距センサ3のセンシング情報から特定される物体の形状を示す情報のみでなく、物体の形状以外の属性情報を表示することが可能となる。
 従って、マップの情報価値向上を図ることができる。
 また、表示処理部F2は、第三センサ4によるセンシング情報から推定される情報を含むマップを表示部17に表示させる処理を行う。
 センシング情報から推定される情報としては、例えば偏光カメラであれば、偏光カメラの撮像画像から推定される被写体の面区分情報を表示させることが考えられる。
 また、マルチスペクトラムカメラであれば、マルチスペクトラムカメラの撮像画像から推定される特定被写体の存在領域を示す情報(特定の素材による物体の存在領域を示す情報)を表示させることが考えられる。
 また、サーマルカメラであれば、サーマルカメラの撮像画像から推定される特定被写体の存在領域を示す情報を表示させることが考えられる。
 図14は、偏光カメラの撮像画像に基づく被写体の面区分情報の表示例を示している。
 この場合、操作受付部Psには、偏光情報から推定可能な床面、壁面、透明部分(図中、透明部)を選択するためのチェックボックスが表示される。
 この場合の表示処理部F2は、これらチェックボックスから床面、壁面のチェックボックスが選択された場合には、選択されたチェックボックスに対応する面を示す情報(図中の例では斜線部)を設定画面Gsのマップ上に表示させる処理を行う。
 また、表示処理部F2は、透明部分のチェックボックスが選択された場合には、図15に例示するように、偏光情報に基づき推定された透明部分を示す情報を設定画面Gsのマップ上に表示させる処理を行う。
 図16は、マルチスペクトラムカメラの撮像画像から推定される特定の素材部分を示す情報の表示例を示している。
 この場合の操作受付部Psには、素材を選択するためのチェックボックスが選択可能な素材ごとに表示される。表示処理部F2は、これらチェックボックスうち選択されたチェックボックスに対応する素材部分を示す情報(図中の例では斜線部)を設定画面Gsのマップ上に表示させる処理を行う。
 なお、図示は省略したが、サーマルカメラの撮像画像から推定される特定被写体の存在領域を示す情報についても、図16と同様の要領で、選択された特定被写体について、その特定被写体の存在領域を示す情報が表示されるようにすればよい。
 なお、サーマルカメラのセンシング情報に基づく情報表示としては、例えば図17の例のように、高温部と低温部等、温度帯の選択を可能としておき、選択された温度帯となっている領域を示す情報をマップ上に表示させるといったことも考えられる。
 ここで、上記で説明した設定画面Gsの構成はあくまでも一例であり、これに限定されない。例えば、表示すべき情報の選択は、チェックボックスに対する操作ではなく、例えばボタンの操作等の他の操作で実現されるようにすることも可能である。
 また、上記では、センシング情報の表示と、センシング情報から推定される情報の表示とを個別に行うものとして説明したが、センシング情報とセンシング情報から推定される情報の双方をマップ上に表示させることも可能である。
 このとき、例えば図13に例示したようなマルチスペクトラムカメラのセンシング情報と、図14に例示したような偏光カメラのセンシング情報に基づく面区分情報の双方をマップ上に表示させる等、異なるセンサによるセンシング情報、及びセンシング情報から推定される情報をマップ上に表示させることもできる。
 また、第三センサ4のセンシング情報に基づくマップデータの表示処理において、マップ上に表示させる情報としては、上記で例示した情報に限定されない。例えば、偏光カメラについて、被写体の法線方向情報を表示することが考えられる。また、マルチスペクトラムカメラについて、外光ノイズ領域を示す情報を表示することも考えられる。
<3.変形例>
 なお、実施形態としては上記した具体例に限定されるものでなく、多様な変形例としての構成を採り得る。
 例えば上記では、マップデータの生成をサーバ装置1が行う例としたが、マップデータの生成はフュージョンデータ生成装置5等のローカル側の装置により行う構成とすることもできる。この場合、サーバ装置1は、ローカル側で生成されたマップデータに基づいて、第三センサ4のセンシング情報に基づくマップデータの表示処理を行う。
 また、上記では、本技術に係るマップデータの表示処理や生成処理を、ARサービスの提供に係るマップデータについての処理に適用する例としたが、本技術に係るマップデータの表示処理や生成処理は、例えば工事現場等のマップデータや、実世界と同じマップを使用するゲームの作成用のマップデータ等、多種多様なマップデータについての処理として適用することが可能である。
 また、本技術に係るマップデータの表示処理や生成処理は、ARサービスの提供に係るマップデータのみでなく、VR(Virtual Reality)サービスの提供に係るマップデータについても好適に適用することができる。
<4.実施形態のまとめ>
 以上で説明したように実施形態としての情報処理装置(サーバ装置1)は、可視光カメラ(同2)、測距センサ(同3)の少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う表示処理部(同F2)を備え、表示処理部は、可視光カメラと測距センサとを除くセンサである第三センサ(同4)によるセンシング情報に基づいてマップデータの表示処理を行うものである。
 上記構成により、対象空間の三次元構造を示すマップとして、第三センサによるセンシング情報や該センシング情報から推定される情報を含むマップを表示する等、該センシング情報を反映させたマップ表示を行うことが可能となる。
 従って、対象空間の三次元構造を示すマップとして物体の形状のみでなく素材や種別等といった物体の形状以外の属性情報を表示することが可能となり、マップの情報価値向上を図ることができる。
 また、実施形態としての情報処理装置においては、表示処理部は、対象空間の三次元構造を示すマップとして、第三センサによるセンシング情報を含むマップを表示部(同17)に表示させる処理を行っている。
 これにより、例えば第三センサが偏光カメラである場合に得られる被写体光の偏光情報や、第三センサがマルチスペクトラムカメラである場合に得られる被写体光(被写体からの反射光)の波長解析情報、或いは第三センサがサーマルカメラである場合に得られる被写体の温度情報等、第三センサによるセンシング情報を反映させたマップ表示を行うことが可能となる。
 従って、マップの情報価値向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、表示処理部は、対象空間の三次元構造を示すマップとして、第三センサによるセンシング情報から推定される情報を含むマップを表示部に表示させる処理を行っている。
 これにより、例えば第三センサが偏光カメラである場合に得られる被写体光の偏光情報から推定される被写体の面区分情報を含むマップを表示する等、第三センサによるセンシング情報そのものではなく、該センシング情報から推定される情報を含むマップ表示を行うことが可能となる。
 従って、物体の属性情報としてより具体的な情報を表示することが可能となり、マップの情報価値のさらなる向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、第三センサには偏光カメラが含まれ、表示処理部は、対象空間の三次元構造を示すマップとして、偏光カメラの撮像画像から推定される被写体の面区分情報を含むマップを表示部に表示させる処理を行っている。
 上記構成によれば、対象空間の何れの領域が床面や壁面に該当するか等といった対象空間の面区分の情報をマップの閲覧者に容易に理解させることができる。
 また、実施形態としての情報処理装置においては、第三センサにはマルチスペクトラムカメラが含まれ、表示処理部は、対象空間の三次元構造を示すマップとして、マルチスペクトラムカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行っている。
 第三センサとしてマルチスペクトラムカメラを用いる場合には、被写体光の波長解析により例えば植物等の特定被写体の存在領域を推定可能であり、上記構成によれば、このように推定された特定被写体の存在領域を示す情報を含むマップの表示を行うことが可能となる。
 従って、例えばマップに映し出される物体の形状のみでは植物等の特定被写体であることを識別し難い場合であっても、特定被写体の存在領域をマップ閲覧者に示すことができ、マップの情報価値向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、第三センサにはサーマルカメラが含まれ、表示処理部は、対象空間の三次元構造を示すマップとして、サーマルカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行っている。
 第三センサとしてサーマルカメラを用いる場合には、被写体の温度情報より例えば人物や動物等の特定被写体の存在領域を推定可能であり、上記構成によれば、このように推定された特定被写体の存在領域を示す情報を含むマップの表示を行うことが可能となる。
 従って、例えばマップに映し出される物体の形状のみでは人物や動物等の特定被写体であることを識別し難い場合であっても、特定被写体の存在領域をマップ閲覧者に示すことができ、マップの情報価値向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、可視光カメラ、測距センサの少なくとも一方によるセンシング情報と、第三センサによるセンシング情報とに基づいてマップデータの生成を行うマップ生成部(同F1)を備えている。
 上記のように可視光カメラや測距センサによるセンシング情報のみでなく、第三センサによるセンシング情報も活用してマップデータ生成を行うことで、マップデータの正確性向上を図ることができる。
 また、実施形態としての情報処理装置においては、第三センサには偏光カメラが含まれ、マップ生成部は、偏光カメラにより得られる被写体光の偏光情報に基づいてマップデータの生成を行っている。
 これにより、例えば被写体光の偏光情報から推定される被写体の法線方向情報に基づき距離画像データについてのマルチパス起因ノイズの低減処理を行ったり、偏光情報から推定される透明物体領域の情報をマップデータに反映させる処理を行ったりする等、マップデータの生成過程において、偏光情報に基づいたマップデータ正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、マップ生成部は、偏光情報から推定される被写体の法線方向情報に基づいてマップデータの生成を行っている。
 上記構成によれば、法線方向情報そのもの、或いは、法線方向情報から推定される被写体の面区分情報に基づいて距離画像データについてのマルチパス起因ノイズの低減処理を行う等、マップデータの生成過程において、法線方向情報に基づいたマップデータ正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、マップ生成部は、マップデータの生成元データとして測距センサにより得られる距離画像データを入力し、マップデータの生成処理において、法線方向情報から推定される被写体の面区分情報に基づき、距離画像データについてマルチパス起因ノイズの低減処理を行っている。
 上記構成によれば、測距において対象物体からの反射光のマルチパスに起因した測距ノイズの低減を図ることが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 また、実施形態としての情報処理装置においては、マップ生成部は、マップデータの生成元データとして可視光カメラにより得られる可視光画像データを入力し、偏光情報に基づき推定される透明物体領域の情報に基づいてマップデータの生成を行っている。
 これにより、可視光画像データによっては検出し難いガラス等の透明物体領域の情報をマップデータに反映させることが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、第三センサにはマルチスペクトラムカメラが含まれ、マップ生成部は、マルチスペクトラムカメラにより得られる被写体光の波長解析情報に基づいてマップデータの生成を行っている。
 これにより、例えば被写体光の波長解析情報から推定される被写体の素材情報を付随情報として付加したマップデータを生成して、対象空間をより正確に表すマップデータの生成を可能としたり、或いは、植物部分等の特定の素材で構成される特定被写体部分をマップから除外する処理を行ったり、波長解析情報から推定される外光ノイズ領域の画像補正処理を行ったりする等、マップデータの生成過程において、波長解析情報に基づいたマップデータ正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、マップ生成部は、波長解析情報に基づき推定される被写体の素材情報に基づいてマップデータの生成を行っている。
 これにより、例えば被写体光の波長解析情報から推定される被写体の素材情報を付随情報として付加したマップデータを生成して、対象空間をより正確に表すマップデータの生成を可能としたり、或いは、植物部分等、マップデータに基づく自己位置推定においてノイズとなり得る部分をマップから排除する処理等、素材情報に基づいたマップデータ正確性向上のための処理を行ったりすることが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 また、実施形態としての情報処理装置においては、マップ生成部は、マップデータの生成処理において、波長解析情報に基づき推定される植物部分を排除する処理を行っている。
 これにより、マップデータに基づく自己位置推定においてノイズとなり得る植物部分をマップから排除する処理が行われる。
 従って、自己位置推定に用いる上でのマップデータの正確性向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、マップ生成部は、マップデータの生成元データとして可視光カメラにより得られる可視光画像データを入力し、マップデータの生成処理において、波長解析情報に基づき推定される外光ノイズ領域についての画像補正処理を行っている。
 上記構成によれば、マップデータにおいて外光ノイズ領域の発生により不正確となった部分を正確な状態に補正することが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、第三センサにはサーマルカメラが含まれ、マップ生成部は、サーマルカメラにより得られる被写体の温度情報に基づいてマップデータの生成を行っている。
 温度情報によっては、物体のセグメンテーション(物体領域の区分)を行うことが可能とされる(物体ごとに温度が異なり得るため)。上記構成によれば、例えばこのようなセグメンテーションにより特定される物体領域の区分情報に基づいてマップデータの正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 また、実施形態としての情報処理装置においては、マップ生成部は、温度情報に基づき推定される物体領域の区分情報に基づいてマップデータの生成を行っている。
 これにより、対象空間に存在する物体についての物体領域の区分情報に基づいて、マップデータの正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 さらに、実施形態としての情報処理装置においては、マップ生成部は、マップデータの生成処理において、温度情報に基づき推定される人物部分を排除する処理を行っている。
 これにより、マップデータに基づく自己位置推定においてノイズとなり得る人物部分をマップから排除する処理が行われる。
 従って、自己位置推定に用いる上でのマップデータの正確性向上を図ることができる。
 さらにまた、実施形態としての情報処理装置においては、第三センサにはイベントベースドビジョンセンサが含まれ、マップ生成部は、イベントベースドビジョンセンサのセンシング情報に基づき得られる被写体の動き情報に基づいてマップデータの生成を行っている。
 上記構成によれば、イベントベースドビジョンセンサのセンシング情報に基づき得られる被写体の動き情報に基づいて、例えば人物や動物、車両等といった動物体をマップから排除する処理を行う等、被写体の動き情報に基づいたマップデータの正確性向上のための処理を行うことが可能となる。
 従って、マップデータの正確性向上を図ることができる。
 実施形態としての情報処理方法は、可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う情報処理装置における情報処理方法であって、可視光カメラと測距センサとを除くセンサである第三センサによるセンシング情報に基づいてマップデータの表示処理を行う情報処理方法である。
 このような情報処理方法によっても、上記した実施形態としての情報処理装置と同様の作用及び効果を得ることができる。
 なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
<5.本技術>
 本技術は以下のような構成を採ることもできる。
(1)
 可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う表示処理部を備え、
 前記表示処理部は、前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行う
 情報処理装置。
(2)
 前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記第三センサによるセンシング情報を含むマップを表示部に表示させる処理を行う
 前記(1)に記載の情報処理装置。
(3)
 前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記第三センサによるセンシング情報から推定される情報を含むマップを表示部に表示させる処理を行う
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記第三センサには偏光カメラが含まれ、
 前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記偏光カメラの撮像画像から推定される被写体の面区分情報を含むマップを表示部に表示させる処理を行う
 前記(3)に記載の情報処理装置。
(5)
 前記第三センサにはマルチスペクトラムカメラが含まれ、
 前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記マルチスペクトラムカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行う
 前記(3)又は(4)に記載の情報処理装置。
(6)
 前記第三センサにはサーマルカメラが含まれ、
 前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記サーマルカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行う
 前記(3)から(5)の何れかに記載の情報処理装置。
(7)
 前記可視光カメラ、前記測距センサの少なくとも一方によるセンシング情報と、前記第三センサによるセンシング情報とに基づいて前記マップデータの生成を行うマップ生成部を備えた
 前記(1)から(6)の何れかに記載の情報処理装置。
(8)
 前記第三センサには偏光カメラが含まれ、
 前記マップ生成部は、前記偏光カメラにより得られる被写体光の偏光情報に基づいて前記マップデータの生成を行う
 前記(7)に記載の情報処理装置。
(9)
 前記マップ生成部は、前記偏光情報から推定される被写体の法線方向情報に基づいて前記マップデータの生成を行う
 前記(8)に記載の情報処理装置。
(10)
 前記マップ生成部は、前記マップデータの生成元データとして前記測距センサにより得られる距離画像データを入力し、前記マップデータの生成処理において、前記法線方向情報から推定される被写体の面区分情報に基づき、前記距離画像データについてマルチパス起因ノイズの低減処理を行う
 前記(9)に記載の情報処理装置。
(11)
 前記マップ生成部は、前記マップデータの生成元データとして前記可視光カメラにより得られる可視光画像データを入力し、前記偏光情報に基づき推定される透明物体領域の情報に基づいて前記マップデータの生成を行う
 前記(8)から(10)の何れかに記載の情報処理装置。
(12)
 前記第三センサにはマルチスペクトラムカメラが含まれ、
 前記マップ生成部は、前記マルチスペクトラムカメラにより得られる被写体光の波長解析情報に基づいて前記マップデータの生成を行う
 前記(7)から(11)の何れかに記載の情報処理装置。
(13)
 前記マップ生成部は、前記波長解析情報に基づき推定される被写体の素材情報に基づいて前記マップデータの生成を行う
 前記(12)に記載の情報処理装置。
(14)
 前記マップ生成部は、前記マップデータの生成処理において、前記波長解析情報に基づき推定される植物部分を排除する処理を行う
 前記(13)に記載の情報処理装置。
(15)
 前記マップ生成部は、前記マップデータの生成元データとして前記可視光カメラにより得られる可視光画像データを入力し、前記マップデータの生成処理において、前記波長解析情報に基づき推定される外光ノイズ領域についての画像補正処理を行う
 前記(12)から(14)の何れかに記載の情報処理装置。
(16)
 前記第三センサにはサーマルカメラが含まれ、
 前記マップ生成部は、前記サーマルカメラにより得られる被写体の温度情報に基づいて前記マップデータの生成を行う
 前記(7)から(15)の何れかに記載の情報処理装置。
(17)
 前記マップ生成部は、前記温度情報に基づき推定される物体領域の区分情報に基づいて前記マップデータの生成を行う
 前記(16)に記載の情報処理装置。
(18)
 前記マップ生成部は、前記マップデータの生成処理において、前記温度情報に基づき推定される人物部分を排除する処理を行う
 前記(16)又は(17)に記載の情報処理装置。
(19)
 前記第三センサにはイベントベースドビジョンセンサが含まれ、
 前記マップ生成部は、前記イベントベースドビジョンセンサのセンシング情報に基づき得られる被写体の動き情報に基づいて前記マップデータの生成を行う
 前記(7)から(18)の何れかに記載の情報処理装置。
(20)
 可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う情報処理装置における情報処理方法であって、
 前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行う
 情報処理方法。
1 サーバ装置
2 可視光カメラ
3 測距センサ
4 第三センサ
5 フュージョンデータ生成装置
6 ユーザ端末
6a 表示画面
7 ネットワーク
10 コンピュータ装置
11 CPU
12 ROM
13 RAM
14 不揮発性メモリ部
15 入出力インタフェース
16 入力部
17 表示部
18 音声出力部
19 記憶部
20 通信部
21 ドライブ
22 リムーバブル記録媒体
23 バス
F1 マップ生成部
F2 表示処理部
F3 ARサービス処理部
Gs 設定画面
Ps 操作受付部

Claims (20)

  1.  可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う表示処理部を備え、
     前記表示処理部は、前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行う
     情報処理装置。
  2.  前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記第三センサによるセンシング情報を含むマップを表示部に表示させる処理を行う
     請求項1に記載の情報処理装置。
  3.  前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記第三センサによるセンシング情報から推定される情報を含むマップを表示部に表示させる処理を行う
     請求項1に記載の情報処理装置。
  4.  前記第三センサには偏光カメラが含まれ、
     前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記偏光カメラの撮像画像から推定される被写体の面区分情報を含むマップを表示部に表示させる処理を行う
     請求項3に記載の情報処理装置。
  5.  前記第三センサにはマルチスペクトラムカメラが含まれ、
     前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記マルチスペクトラムカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行う
     請求項3に記載の情報処理装置。
  6.  前記第三センサにはサーマルカメラが含まれ、
     前記表示処理部は、前記対象空間の三次元構造を示すマップとして、前記サーマルカメラの撮像画像から推定される特定被写体の存在領域を示す情報を含むマップを表示部に表示させる処理を行う
     請求項3に記載の情報処理装置。
  7.  前記可視光カメラ、前記測距センサの少なくとも一方によるセンシング情報と、前記第三センサによるセンシング情報とに基づいて前記マップデータの生成を行うマップ生成部を備えた
     請求項1に記載の情報処理装置。
  8.  前記第三センサには偏光カメラが含まれ、
     前記マップ生成部は、前記偏光カメラにより得られる被写体光の偏光情報に基づいて前記マップデータの生成を行う
     請求項7に記載の情報処理装置。
  9.  前記マップ生成部は、前記偏光情報から推定される被写体の法線方向情報に基づいて前記マップデータの生成を行う
     請求項8に記載の情報処理装置。
  10.  前記マップ生成部は、前記マップデータの生成元データとして前記測距センサにより得られる距離画像データを入力し、前記マップデータの生成処理において、前記法線方向情報から推定される被写体の面区分情報に基づき、前記距離画像データについてマルチパス起因ノイズの低減処理を行う
     請求項9に記載の情報処理装置。
  11.  前記マップ生成部は、前記マップデータの生成元データとして前記可視光カメラにより得られる可視光画像データを入力し、前記偏光情報に基づき推定される透明物体領域の情報に基づいて前記マップデータの生成を行う
     請求項8に記載の情報処理装置。
  12.  前記第三センサにはマルチスペクトラムカメラが含まれ、
     前記マップ生成部は、前記マルチスペクトラムカメラにより得られる被写体光の波長解析情報に基づいて前記マップデータの生成を行う
     請求項7に記載の情報処理装置。
  13.  前記マップ生成部は、前記波長解析情報に基づき推定される被写体の素材情報に基づいて前記マップデータの生成を行う
     請求項12に記載の情報処理装置。
  14.  前記マップ生成部は、前記マップデータの生成処理において、前記波長解析情報に基づき推定される植物部分を排除する処理を行う
     請求項13に記載の情報処理装置。
  15.  前記マップ生成部は、前記マップデータの生成元データとして前記可視光カメラにより得られる可視光画像データを入力し、前記マップデータの生成処理において、前記波長解析情報に基づき推定される外光ノイズ領域についての画像補正処理を行う
     請求項12に記載の情報処理装置。
  16.  前記第三センサにはサーマルカメラが含まれ、
     前記マップ生成部は、前記サーマルカメラにより得られる被写体の温度情報に基づいて前記マップデータの生成を行う
     請求項7に記載の情報処理装置。
  17.  前記マップ生成部は、前記温度情報に基づき推定される物体領域の区分情報に基づいて前記マップデータの生成を行う
     請求項16に記載の情報処理装置。
  18.  前記マップ生成部は、前記マップデータの生成処理において、前記温度情報に基づき推定される人物部分を排除する処理を行う
     請求項16に記載の情報処理装置。
  19.  前記第三センサにはイベントベースドビジョンセンサが含まれ、
     前記マップ生成部は、前記イベントベースドビジョンセンサのセンシング情報に基づき得られる被写体の動き情報に基づいて前記マップデータの生成を行う
     請求項7に記載の情報処理装置。
  20.  可視光カメラ、測距センサの少なくとも一方によるセンシング情報に基づき生成された、対象空間の三次元構造を示すマップデータの表示処理を行う情報処理装置における情報処理方法であって、
     前記可視光カメラと前記測距センサとを除くセンサである第三センサによるセンシング情報に基づいて前記マップデータの表示処理を行う
     情報処理方法。
PCT/JP2022/011732 2021-09-27 2022-03-15 情報処理装置、情報処理方法 WO2023047653A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280062839.0A CN117980959A (zh) 2021-09-27 2022-03-15 信息处理装置和信息处理方法
JP2023549348A JPWO2023047653A1 (ja) 2021-09-27 2022-03-15

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-156929 2021-09-27
JP2021156929 2021-09-27

Publications (1)

Publication Number Publication Date
WO2023047653A1 true WO2023047653A1 (ja) 2023-03-30

Family

ID=85720373

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/011732 WO2023047653A1 (ja) 2021-09-27 2022-03-15 情報処理装置、情報処理方法

Country Status (3)

Country Link
JP (1) JPWO2023047653A1 (ja)
CN (1) CN117980959A (ja)
WO (1) WO2023047653A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168472A1 (ja) * 2016-03-30 2017-10-05 パナソニックIpマネジメント株式会社 位置推定装置、位置推定方法及び制御プログラム
US20170372137A1 (en) * 2015-01-27 2017-12-28 The Trustees Of The University Of Pennsylvania Systems, devices, and methods for robotic remote sensing for precision agriculture
JP2018055695A (ja) 2017-10-26 2018-04-05 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd ある環境内で無人航空機を制御する方法、ある環境のマップを生成する方法、システム、プログラムおよび通信端末
JP2018195241A (ja) * 2017-05-22 2018-12-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019067323A (ja) 2017-10-05 2019-04-25 ソニー株式会社 情報処理装置、情報処理方法、及び記録媒体
US20200011668A1 (en) * 2018-07-09 2020-01-09 Samsung Electronics Co., Ltd. Simultaneous location and mapping (slam) using dual event cameras
JP2020156800A (ja) * 2019-03-27 2020-10-01 ソニー株式会社 医療用アームシステム、制御装置、及び制御方法
JP2021012433A (ja) 2019-07-03 2021-02-04 ソニー株式会社 情報処理装置、情報処理方法、プログラム、センシングシステム
JP2021103842A (ja) 2019-12-25 2021-07-15 ソニーセミコンダクタソリューションズ株式会社 固体撮像素子、および、撮像装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170372137A1 (en) * 2015-01-27 2017-12-28 The Trustees Of The University Of Pennsylvania Systems, devices, and methods for robotic remote sensing for precision agriculture
WO2017168472A1 (ja) * 2016-03-30 2017-10-05 パナソニックIpマネジメント株式会社 位置推定装置、位置推定方法及び制御プログラム
JP2018195241A (ja) * 2017-05-22 2018-12-06 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2019067323A (ja) 2017-10-05 2019-04-25 ソニー株式会社 情報処理装置、情報処理方法、及び記録媒体
JP2018055695A (ja) 2017-10-26 2018-04-05 エスゼット ディージェイアイ テクノロジー カンパニー リミテッドSz Dji Technology Co.,Ltd ある環境内で無人航空機を制御する方法、ある環境のマップを生成する方法、システム、プログラムおよび通信端末
US20200011668A1 (en) * 2018-07-09 2020-01-09 Samsung Electronics Co., Ltd. Simultaneous location and mapping (slam) using dual event cameras
JP2020156800A (ja) * 2019-03-27 2020-10-01 ソニー株式会社 医療用アームシステム、制御装置、及び制御方法
JP2021012433A (ja) 2019-07-03 2021-02-04 ソニー株式会社 情報処理装置、情報処理方法、プログラム、センシングシステム
JP2021103842A (ja) 2019-12-25 2021-07-15 ソニーセミコンダクタソリューションズ株式会社 固体撮像素子、および、撮像装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKAMATSU TOSHIHIRO, TAIKAN SATO, KAZUHIRO KANEKO: "Identifying submucosal tumors (GIST) from hyperspectral images using near-infrared light", NATIONAL CANCER CENTER JAPAN, 2 February 2021 (2021-02-02), XP093053456, Retrieved from the Internet <URL:www.ncc.go.jp/jp/information/pr_release/2020/20210202/index.html> [retrieved on 20230612] *

Also Published As

Publication number Publication date
CN117980959A (zh) 2024-05-03
JPWO2023047653A1 (ja) 2023-03-30

Similar Documents

Publication Publication Date Title
US11887312B2 (en) Fiducial marker patterns, their automatic detection in images, and applications thereof
US11165959B2 (en) Connecting and using building data acquired from mobile devices
US20200388080A1 (en) Displaying content in an augmented reality system
CN207117844U (zh) 多vr/ar设备协同系统
RU2741443C1 (ru) Способ и устройство для планирования точек выборки для съёмки и картографирования, терминал управления и носитель для хранения данных
JP7236565B2 (ja) 位置姿勢決定方法、装置、電子機器、記憶媒体及びコンピュータプログラム
WO2016152633A1 (ja) 画像処理システムおよび画像処理方法、並びにプログラム
US9161168B2 (en) Personal information communicator
US20190122435A1 (en) Generating time-delayed augmented reality content
WO2018213702A1 (en) Augmented reality system
CN113378605B (zh) 多源信息融合方法及装置、电子设备和存储介质
Pintore et al. Mobile mapping and visualization of indoor structures to simplify scene understanding and location awareness
WO2023047653A1 (ja) 情報処理装置、情報処理方法
US20220269397A1 (en) Systems and methods for interactive maps
US20220180592A1 (en) Collaborative Augmented Reality Measurement Systems and Methods
KR20240090140A (ko) 정보 처리 장치, 정보 처리 방법
US20190392594A1 (en) System and method for map localization with camera perspectives
JP2022531788A (ja) エクステンデッド・リアリティにおけるセンサ信号を収集、探索、及び視覚化するための斬新なシステム及び方法
US20240196107A1 (en) System and method for enhancing a collaborative camera installation experience
US20220198765A1 (en) Spatially Aware Environment Interaction
WO2022121606A1 (zh) 用于获得场景中的设备或其用户的标识信息的方法和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22872412

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023549348

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280062839.0

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022872412

Country of ref document: EP

Effective date: 20240429