WO2023286321A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023286321A1
WO2023286321A1 PCT/JP2022/007805 JP2022007805W WO2023286321A1 WO 2023286321 A1 WO2023286321 A1 WO 2023286321A1 JP 2022007805 W JP2022007805 W JP 2022007805W WO 2023286321 A1 WO2023286321 A1 WO 2023286321A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
information processing
processing
physical space
content
Prior art date
Application number
PCT/JP2022/007805
Other languages
English (en)
French (fr)
Inventor
宏真 土井
Original Assignee
ソニーセミコンダクタソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーセミコンダクタソリューションズ株式会社 filed Critical ソニーセミコンダクタソリューションズ株式会社
Priority to CN202280048250.5A priority Critical patent/CN117616463A/zh
Priority to JP2023535101A priority patent/JPWO2023286321A1/ja
Publication of WO2023286321A1 publication Critical patent/WO2023286321A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and more particularly to an information processing device, an information processing method, and a program that enable a wider range of video expression.
  • Augmented Reality (AR) images may be generated using various image processing in order to use the recognition results of environmental meshes and 3D objects for video recording for games and SNS (Social Networking Services).
  • SNS Social Networking Services
  • a technique for generating an augmented reality video for example, the technique disclosed in Patent Literature 1 is known.
  • This disclosure has been made in view of this situation, and is intended to enable the range of video expression to be expanded.
  • An information processing apparatus includes a processing unit that performs a process of replacing a region corresponding to the physical space with associated content based on a scan result obtained by 3D scanning the physical space,
  • the processing unit is an information processing device that associates the content with a region corresponding to the physical space based on information on at least one of an object, shape, size, color, and material in the physical space.
  • an information processing device replaces a region corresponding to the physical space with a corresponding content based on a scan result obtained by 3D scanning the physical space,
  • the information processing method associates the content with an area corresponding to the physical space based on information on at least one of an object, shape, size, color, and material in the physical space.
  • a program includes a processing unit that performs a process of replacing a region corresponding to the real space with a corresponding content based on a scan result obtained by 3D scanning the real space,
  • the processing unit is a program that functions as an information processing device that associates the content with an area corresponding to the physical space based on information on at least one of an object, shape, size, color, and material in the physical space. be.
  • the area corresponding to the real space is replaced with the associated content.
  • the content is associated with an area corresponding to the physical space based on information on at least one of an object, shape, size, color, and material in the physical space.
  • the information processing device may be an independent device, or may be an internal block configuring one device.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of an information processing apparatus to which the present disclosure is applied;
  • FIG. 1 is a block diagram showing a functional configuration example of an information processing apparatus to which the present disclosure is applied;
  • FIG. 4 is a block diagram showing a detailed configuration example of an AR processing unit;
  • FIG. 4 is a flowchart for explaining the flow of processing executed by an information processing apparatus to which the present disclosure is applied;
  • 4 is a flowchart for explaining details of AR processing;
  • FIG. 10 is a diagram showing a first example of AR application display;
  • FIG. 10 is a diagram showing a second example of AR application display;
  • FIG. 12 is a diagram showing a third example of AR application display
  • 1 is a diagram illustrating a configuration example of a system including a device that performs processing to which the present disclosure is applied
  • FIG. It is a block diagram which shows the structural example of an electronic device.
  • 3 is a block diagram showing a configuration example of an edge server or a cloud server;
  • FIG. It is a block diagram which shows the structural example of an optical sensor.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of an information processing apparatus to which the present disclosure is applied.
  • the information processing device 10 is an electronic device such as a smart phone, tablet terminal, or mobile phone.
  • the information processing device 10 includes a CPU (Central Processing Unit) 100 that controls the operation of each unit and performs various types of processing, a GPU (Graphics Processing Unit) 101 that specializes in image processing and parallel processing, and a DRAM (Dynamic Random Access Memory). ) and an auxiliary memory 103 such as a flash memory, which are connected via a bus 112 .
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • DRAM Dynamic Random Access Memory
  • auxiliary memory 103 such as a flash memory
  • the auxiliary memory 103 records programs, various parameters, and data.
  • the CPU 100 expands the programs and parameters recorded in the auxiliary memory 103 into the main memory 102 and executes the programs. When executing the program, the data recorded in the auxiliary memory 103 can be used as needed.
  • the GPU 101 can similarly execute programs recorded in the auxiliary memory 103 .
  • the bus 112 includes an operation system 104 such as physical buttons and a touch panel, a display 105 for displaying information such as text and images, a speaker 106 for outputting sound, and a predetermined communication system.
  • a communication I/F 107 such as a corresponding communication module is further connected. Examples of communication methods include mobile communication systems such as 5G (5th Generation) and wireless LANs (Local Area Networks).
  • the bus 112 is further connected with an RGB sensor 108, an IMU (Inertial Measurement Unit) 109, a distance measurement sensor 110, and a GPS (Global Positioning System) 111.
  • RGB sensor 108 an IMU (Inertial Measurement Unit) 109
  • IMU Inertial Measurement Unit
  • distance measurement sensor 110 a distance measurement sensor
  • GPS Global Positioning System
  • the RGB sensor 108 is an image sensor including an image sensor such as a CMOS (Complementary Metal Oxide Semiconductor) image sensor.
  • the RGB sensor 108 captures an image of an object and outputs a captured image obtained as a result.
  • a captured image an RGB image is output in which one pixel is represented by the three primary colors of R (red), G (green), and B (blue).
  • the IMU 109 is an inertial measurement device consisting of a 3-axis accelerometer and a 3-axis gyro.
  • the IMU 109 measures three-dimensional acceleration and angular velocity and outputs acceleration information obtained as a result.
  • a ranging sensor 110 is a ranging sensor such as a ToF (Time of Flight) sensor.
  • the ToF sensor may be of either the dToF (direct Time of Flight) method or the iToF (indirect Time of Flight) method.
  • a ranging sensor 110 measures the distance to an object and outputs the resulting ranging information.
  • the distance measurement sensor 110 may be a structured light sensor, a LiDAR (Light Detection and Ranging) sensor, or a stereo camera that performs distance measurement using a plurality of sensors.
  • the GPS 111 measures the current position by receiving signals from GPS satellites and outputs the resulting location information.
  • GPS is an example of a satellite positioning system, and other satellite positioning systems may be used.
  • the hardware configuration shown in FIG. 1 is an example, and other components may be added or some components may be removed.
  • the CPU 100 and GPU 101 may be configured as an SoC (System on a Chip).
  • the GPU 101 may not be provided when the CPU 100 executes an AR processing program, which will be described later.
  • FIG. 2 is a block diagram showing a functional configuration example of an information processing apparatus to which the present disclosure is applied.
  • the information processing apparatus 10 includes an RGB image acquisition unit 151, an acceleration information acquisition unit 152, a ranging information acquisition unit 153, a location information acquisition unit 154, a weather information acquisition unit 155, a time information acquisition unit 156, and an object detection unit. 157, a SLAM processing unit 158, a point cloud generation unit 159, a modeling unit 160, a 3D object/material recognition unit 161, a mesh clustering unit 162, a shape recognition unit 163, a semantic segmentation unit 164, and an AR processing unit 165. These blocks are configured as processing units that perform processing related to augmented reality (AR).
  • AR augmented reality
  • the RGB image acquisition unit 151 acquires the RGB image captured by the RGB sensor 108 and supplies it to the object detection unit 157, SLAM processing unit 158, and semantic segmentation unit 164.
  • the acceleration information acquisition unit 152 acquires acceleration information measured by the IMU 109 and supplies it to the SLAM processing unit 158 .
  • the ranging information acquisition unit 153 acquires ranging information measured by the ranging sensor 110 and supplies it to the SLAM processing unit 158, the point cloud generation unit 159, and the 3D object/material recognition unit 161.
  • Ranging information includes depth images and IR reflectance information.
  • a depth image is supplied as distance measurement information to the SLAM processing unit 158 and the point cloud generation unit 159 .
  • IR reflectance information is supplied to the 3D object/material recognition unit 161 .
  • a depth image is a depth map with a depth value for each pixel.
  • the IR reflectance information is, for example, an infrared image with an IR (infrared) value for each pixel.
  • the distance measuring sensor 110 is a ToF sensor
  • a method of calculating the distance to the surface of the target object from the time it takes for the target object to be irradiated with infrared light from the light-emitting element and the reflected light to return There is In this method, since an image is generated from the reflected light (infrared light) received by the light receiving element, an infrared image can be obtained by accumulating the images.
  • the location information acquisition unit 154 acquires location information measured by the GPS 111 and supplies it to the AR processing unit 165.
  • the location information is information indicating the position of the information processing device 10 .
  • the weather information acquisition unit 155 acquires weather information from a server on a network such as the Internet via the communication I/F 107 and supplies it to the AR processing unit 165 .
  • the weather information includes information indicating sunny, cloudy, rainy, etc., and information such as temperature.
  • the time information acquisition unit 156 acquires time information such as the current time and date, and supplies it to the AR processing unit 165.
  • time information managed inside the information processing apparatus 10 may be acquired, or time information managed by a server on a network such as the Internet may be acquired via the communication I/F 107. may be obtained.
  • the object detection unit 157 detects an object included in the RGB image supplied from the RGB image acquisition unit 151 and supplies the detection result to the 3D object/material recognition unit 161 .
  • the SLAM processing unit 158 is supplied with the RGB image from the RGB image acquisition unit 151, the acceleration information from the acceleration information acquisition unit 152, and the depth image from the distance measurement information acquisition unit 153.
  • the SLAM processing unit 158 performs SLAM (Simultaneous Localization and Mapping) processing based on the RGB image, acceleration information, and depth image.
  • SLAM processing processing such as self-position estimation using RGB images and acceleration information is performed, and orientation information regarding the position and orientation of (the RGB sensor 108 of) the information processing device 10 is obtained.
  • the SLAM processing unit 158 supplies the orientation information to the 3D object/material recognition unit 161 and the modeling unit 160 .
  • depth images are not essential in SLAM processing, the accuracy of SLAM processing can be improved by using depth images as distance measurement information to resolve the scale. Also, in SLAM processing, posture information may be calculated without using acceleration information.
  • the point cloud generation unit 159 generates a point cloud based on the depth image supplied from the ranging information acquisition unit 153 and supplies it to the modeling unit 160 .
  • a point cloud is point cloud data having information such as three-dimensional coordinates and colors.
  • the posture information from the SLAM processing unit 158 and the point cloud from the point cloud generation unit 159 are supplied to the modeling unit 160 .
  • Modeling unit 160 performs modeling based on the posture information and the point cloud.
  • an environment mesh is generated that represents the environment in the real space with a polygon mesh structure. That is, the real space environment is 3D scanned and modeled with a polygon mesh structure.
  • the modeling unit 160 supplies the environment meshes to a 3D object/material recognition unit 161 , a mesh clustering unit 162 and a shape recognition unit 163 .
  • the 3D object/material recognition unit 161 receives IR reflectance information from the distance measurement information acquisition unit 153 , object detection results from the object detection unit 157 , posture information from the SLAM processing unit 158 , and information from the modeling unit 160 . An environmental mesh is supplied. The 3D object/material recognition unit 161 performs recognition processing for recognizing 3D objects and materials based on orientation information, object detection results, IR reflectance information, and environment meshes.
  • 3D object recognition processing objects such as chairs, sofas, beds, televisions, people, PET bottles, and books that exist in the real space are recognized by using object detection results (RGB images) and information such as posture information. be.
  • object detection results RGB images
  • material recognition processing materials such as wood, metal, stone, fabric, and cloth are recognized by using information such as object detection results (RGB images), IR reflectance information, and environmental meshes.
  • the 3D object/material recognition unit 161 supplies the recognition result of the 3D object and material to the AR processing unit 165 .
  • IR reflectance information and the environment mesh in the material recognition process.
  • RGB image information not only RGB image information but also IR reflectance information (infrared image) is used to increase the amount of information, so the material can be recognized more accurately.
  • IR reflectance information infrared image
  • the shape recognition result recognized by the shape recognition unit 163 may be further used.
  • the mesh clustering unit 162 performs mesh clustering based on the environment mesh supplied from the modeling unit 160 and supplies the mesh clustering result to the AR processing unit 165.
  • a polygon mesh is information consisting of a set of vertices that define the shape of an object, and the group (floor, etc.) to which those vertices belong is recognized and divided.
  • Semantic segmentation can recognize clusters of pixels that form characteristic categories based on RGB images.
  • the shape recognition unit 163 performs recognition processing for recognizing shapes and sizes based on the environmental mesh supplied from the modeling unit 160, and supplies the shape and size recognition results to the AR processing unit 165.
  • the AR processing unit 165 is supplied with the 3D object and material recognition results from the 3D object/material recognition unit 161, the clustering results from the mesh clustering unit 162, and the shape and size recognition results from the shape recognition unit 163. be done.
  • the recognition results of 3D objects include information about objects (chairs, sofas, etc.) and colors. That is, the AR processing unit 165 is supplied with information on the object, shape, size, color, and material together with the clustering result. However, at least one of the information on the object, shape, size, color, and material may be supplied.
  • the AR processing unit 165 is also supplied with location information from the location information acquisition unit 154, weather information from the weather information acquisition unit 155, and time information from the time information acquisition unit 156.
  • the AR processing unit 165 generates augmented reality (AR) images based on 3D object and material recognition results, clustering results, shape and size recognition results, location information, weather information, and time information. I do.
  • AR augmented reality
  • the AR processing unit 165 can appropriately read and use data recorded in the auxiliary memory 103 (content data such as AR objects).
  • FIG. 3 shows a detailed configuration example of the AR processing unit 165.
  • the AR processing section 165 is composed of an object generation section 191 , a morphing processing section 192 and an effect processing section 193 .
  • the object generation unit 191 generates an AR object used as an augmented reality video.
  • objects such as vehicles such as ships, buildings such as houses, plants such as trees and flowers, creatures such as animals and insects, balloons, rockets, and people (characters) are generated.
  • the morphing processing unit 192 performs morphing processing and replaces polygon meshes and objects.
  • processing is performed so that an image that naturally transforms from one object to another is displayed.
  • polygon mesh replacement polygon meshes grouped by mesh clustering are replaced with images of sky, sea, waterfall, ground, and the like.
  • object replacement a person recognized as a 3D object is replaced with a CG (Computer Graphics) model or the like according to background information.
  • CG Computer Graphics
  • the effect processing unit 193 performs effect processing using VFX (Visual Effects) and realizes visual effects that cannot be seen in the real space.
  • VFX Visual Effects
  • there are processes such as changing lighting according to the time of day or night, weather such as cloudiness, and applying effects to the entire screen corresponding to weather such as rain and snow.
  • the object generation unit 191, the morphing processing unit 192, and the effect processing unit 193 can use various information when performing their respective processes. For example, based on additional information such as location information, weather information, and time information, the effect processing unit 193 can process content such as changing lighting according to conditions such as location, weather, and time of day. By using information such as location information, weather information, and time information, it is possible to generate an augmented reality video corresponding to such information.
  • the processing unit including the AR processing unit 165 etc. based on the scanning result obtained by 3D scanning the physical space, displays the content corresponding to the area corresponding to the physical space. is replaced with .
  • the content is associated with the area corresponding to the physical space based on information regarding at least one of the objects, shapes, sizes, colors, and materials in the physical space.
  • the AR processing unit 165 associates content with an area having a specific object based on information about the object in the real space. This object is recognized based on the RGB image captured by the RGB sensor 108 . Also, the AR processing unit 165 associates the content with an area having a specific shape based on the information about the shape in the real space. This shape is recognized based on the RGB image captured by the RGB sensor, acceleration information measured by the IMU 109 , and distance measurement information measured by the distance measurement sensor 110 .
  • the AR processing unit 165 associates content with areas having a specific size based on information about size in the real space. This size is recognized based on the RGB image captured by the RGB sensor, acceleration information measured by the IMU 109 , and distance measurement information measured by the distance measurement sensor 110 . Also, the AR processing unit 165 associates content with an area having a specific color based on information about colors in the physical space. This color is recognized based on the RGB image captured by the RGB sensor 108 .
  • the AR processing unit 165 associates content with areas having specific materials based on information about materials in the real space. This material is recognized based on the RGB image captured by the RGB sensor 108 and the distance measurement information measured by the distance measurement sensor 110 .
  • object generation processing by the object generation unit 191 and effect processing by the effect processing unit 193 are processes that are executed as necessary.
  • the arrows between blocks represent the flow of signals and data exchanged between blocks, but the dashed arrows mean that the flow of signals and data is not essential.
  • FIG. 4 In the information processing device 10 such as a smartphone, an AR application that displays an augmented reality image is downloaded from a server on the Internet and activated. For example, in the information processing apparatus 10, when the user performs a predetermined operation when the AR application is activated, the processing shown in the flowchart of FIG. 4 is executed.
  • each acquisition unit acquires data as necessary.
  • An RGB image, acceleration information, and ranging information are acquired by the RGB image acquiring section 151, the acceleration information acquiring section 152, and the ranging information acquiring section 153, respectively.
  • Location information, weather information, and time information are acquired by the location information acquisition unit 154, the weather information acquisition unit 155, and the time information acquisition unit 156, respectively.
  • step S12 the SLAM processing unit 158 performs SLAM processing based on the RGB image, the acceleration information, and the depth image to calculate posture information. Note that in SLAM processing, acceleration information and depth images are appropriately used, and posture information is calculated using at least RGB images.
  • step S13 the point cloud generation unit 159 generates a point cloud based on the depth image.
  • step S14 the modeling unit 160 performs modeling based on the posture information and the point cloud to generate an environment mesh.
  • step S15 the 3D object/material recognition unit 161 performs recognition processing for recognizing 3D objects and materials based on posture information, object detection results, IR reflectance information, and environment meshes.
  • objects that exist in the real space are recognized by using information such as object detection results (RGB images) and posture information.
  • object detection results RGB images
  • material recognition process the material is recognized by using information such as the object detection result (RGB image), IR reflectance information, and environment mesh.
  • IR reflectance information and environment mesh are used as necessary.
  • step S16 the mesh clustering unit 162 performs mesh clustering based on the environment mesh.
  • environmental meshes groups of polygon meshes
  • the recognition result of semantic segmentation may be used when mesh clustering is performed.
  • step S17 the shape recognition unit 163 performs recognition processing for recognizing the shape and size based on the environmental mesh.
  • the environment mesh is represented by a polygon mesh consisting of a set of vertices and the like, it is possible to recognize a specific shape such as a square or concave and its size from this polygon mesh.
  • step S18 the AR processing unit 165 performs AR processing based on information such as the results of recognition of 3D objects and materials, the results of recognition of shapes and sizes, and the results of clustering.
  • information such as the results of recognition of 3D objects and materials, the results of recognition of shapes and sizes, and the results of clustering.
  • additional information such as location information, weather information, and time information can be used as appropriate. Details of the AR processing will now be described with reference to the flowchart of FIG.
  • step S51 the object generation unit 191 performs object generation processing for generating AR objects such as ships and houses.
  • step S52 the morphing processing unit 192 performs morphing processing such as polygon mesh replacement and object replacement.
  • polygon meshes grouped by mesh clustering are replaced with images such as the sky and the sea.
  • object replacement a person recognized as a 3D object is replaced with a CG model or the like.
  • step S53 the effect processing unit 193 performs effect processing such as changing lighting according to conditions such as the time of day and weather, and applying effects to the entire screen.
  • AR processing AR objects are generated by object generation processing, polygon meshes and objects are replaced by morphing processing, lighting is changed by effect processing, and effects are applied to the entire screen. A realistic image is generated.
  • step S19 the AR processing unit 165 outputs the augmented reality video data obtained by the AR processing to the display 105.
  • the augmented reality image generated by the AR processing unit 165 is displayed on the display 105 .
  • FIG. 6 shows display examples of the AR application.
  • a user operating an information processing device 10 such as a smart phone activates an AR application and photographs a sofa in a room.
  • an image including sofa 200 is displayed on display 105 .
  • the augmented reality video as shown in FIG. 7 is displayed by executing the processing shown in the flowcharts of FIGS. 4 and 5 by the AR application.
  • objects 211 and 212 are displayed by performing object generation processing and morphing processing as AR processing.
  • polygon meshes defining the shape of the sofa 200 as well as the floor and walls are replaced with the sky, the ground, and the like.
  • the seat surface of the sofa 200 is replaced with an image 213 such as the ground, and an augmented reality image is displayed in which objects 211 and 212 such as buildings are arranged.
  • the objects 211 and 212 may be AR objects generated by object generation processing, or objects such as CG models replaced by object replacement by morphing processing.
  • a staircase can be replaced with a waterfall
  • a carpet can be replaced with a meadow
  • a plastic bottle placed on a table can be replaced with a rocket
  • a wall clock can be replaced with the sun.
  • the processing executed by the information processing apparatus to which the present disclosure is applied has been described above.
  • the information processing apparatus to which the present disclosure is applied increases the information amount and accuracy of information used in object generation processing and morphing processing by executing the processing shown in the flowcharts of FIGS. 4 and 5 . Therefore, it is possible to expand the range of visual expression of augmented reality. In addition, by expanding the range of visual expression in augmented reality, effects such as eliminating the unnaturalness of images can be obtained.
  • the information processing apparatus based on the scan result obtained by 3D scanning the real space, when performing the process of replacing the area corresponding to the real space with the associated content, Based on information on at least one of an object, shape, size, color, and material, content is associated with a region corresponding to the physical space.
  • the amount of information used in AR processing increases, and as a result, the range of visual expression in augmented reality can be expanded.
  • the display 105 displays an augmented reality image by 3D scanning the real space, modeling it with a polygon mesh structure, and replacing the polygon mesh with content. For example, a user operates an AR application to start 3D scanning of the real space. may be displayed on the display 105.
  • Fig. 8 shows a display example of the AR application.
  • the display 105 displays an image representing the sofa, walls, and floor in the room using polygon meshes 221 . That is, the display example of FIG. 8 displays an intermediate state displayed between the captured image of FIG. 6 and the augmented reality image of FIG. 7 in chronological order.
  • AR applications may also provide polygon mesh editing functions. For example, when the user performs an editing operation such as touching the polygon mesh 221 shown in FIG. 8 with a finger, the polygon mesh 221 may be processed (deformed, etc.) according to the editing operation. Data related to the polygon mesh 221 may be recorded in the auxiliary memory 103 so that the polygon mesh 221 can be edited later, and the polygon mesh 221 may be edited based on the data read out from the auxiliary memory 103 . Alternatively, the AR application may suggest editing of the polygon mesh 221 to the user.
  • the information processing apparatus 10 can record, in the auxiliary memory 103, scan result data obtained by 3D scanning the physical space.
  • the data of the scan results may be transmitted to a server on a network such as the Internet, recorded, and obtained as necessary.
  • the information processing apparatus 10 can perform augmented reality based on the held scan result data.
  • a video can be displayed.
  • the information processing apparatus 10 does not need to 3D scan the real space, so the processing load can be reduced and the time until the augmented reality video is displayed can be shortened. Whether or not the same place has been visited may be determined using information such as location information and sensing information.
  • the information processing device 10 is a mobile device such as a smart phone, but the information processing device 10 may be a head mounted display (HMD), a wearable device, a personal computer (PC) or other electronic device. It may be a device.
  • HMD head mounted display
  • PC personal computer
  • the auxiliary memory 103 records content data such as an AR object. May be obtained as needed.
  • the present disclosure it is possible to adopt a configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.
  • the functions of the functional configuration example of the information processing apparatus 10 shown in FIG. 2 may be provided in the cloud-side server.
  • the information processing device 10 on the local side can perform processing up to 3D scanning of the real space to form a polygon mesh, and the server on the cloud side can perform the subsequent AR processing and the like.
  • all the functions of the functional configuration example of the information processing apparatus 10 shown in FIG. 2 may be provided in a cloud-side server.
  • the information processing apparatus 10 on the local side sends information obtained from various sensors and the like to the server on the cloud side, and the server on the cloud side performs the processing shown in the flowcharts of FIGS. 4 and 5 .
  • the processing result from the server on the cloud side is sent to the information processing device 10 on the local side, and the augmented reality video is displayed.
  • FIG. 9 shows a configuration example of a system including a device that performs processing to which the present disclosure is applied.
  • the electronic device 20001 is a mobile terminal such as a smart phone, tablet terminal, or mobile phone.
  • the electronic device 20001 corresponds to, for example, the information processing apparatus 10 in FIG. 1, and has an optical sensor 20011 corresponding to the RGB sensor 108 (FIG. 1) and the distance measuring sensor 110 (FIG. 1).
  • a photosensor is a sensor (image sensor) that converts light into electrical signals.
  • the electronic device 20001 can connect to a network 20040 such as the Internet via a core network 20030 by connecting to a base station 20020 installed at a predetermined location by wireless communication corresponding to a predetermined communication method.
  • An edge server 20002 for realizing mobile edge computing (MEC) is provided at a position closer to the mobile terminal such as between the base station 20020 and the core network 20030.
  • a cloud server 20003 is connected to the network 20040 .
  • the edge server 20002 and the cloud server 20003 are capable of performing various types of processing depending on the application. Note that the edge server 20002 may be provided within the core network 20030 .
  • Processing to which the present disclosure is applied is performed by the electronic device 20001, the edge server 20002, the cloud server 20003, or the optical sensor 20011.
  • a process to which the present disclosure is applied includes at least one of the processes of each step shown in the flowcharts of FIGS. 4 and 5 .
  • a processor such as a CPU (Central Processing Unit) executes a program, or dedicated hardware such as a processor specialized for a specific application is used.
  • a processor such as a CPU (Central Processing Unit) executes a program, or dedicated hardware such as a processor specialized for a specific application is used.
  • processing to which the present disclosure is applied is realized.
  • a GPU Graphics Processing Unit
  • a processor specialized for a specific application can be used as a processor specialized for a specific application.
  • the electronic device 20001 includes a CPU 20101 that controls the operation of each unit and various types of processing, a GPU 20102 that specializes in image processing and parallel processing, a main memory 20103 such as a DRAM (Dynamic Random Access Memory), and an auxiliary memory such as a flash memory. It has a memory 20104 .
  • a CPU 20101 that controls the operation of each unit and various types of processing
  • a GPU 20102 that specializes in image processing and parallel processing
  • main memory 20103 such as a DRAM (Dynamic Random Access Memory)
  • auxiliary memory such as a flash memory. It has a memory 20104 .
  • the auxiliary memory 20104 records data such as programs for processing to which the present disclosure is applied and various parameters.
  • the CPU 20101 loads the programs and parameters recorded in the auxiliary memory 20104 into the main memory 20103 and executes the programs.
  • the CPU 20101 and GPU 20102 expand the programs and parameters recorded in the auxiliary memory 20104 into the main memory 20103 and execute the programs. This allows the GPU 20102 to be used as a GPGPU (General-Purpose computing on Graphics Processing Units).
  • GPGPU General-Purpose computing on Graphics Processing Units
  • the CPU 20101 and GPU 20102 may be configured as an SoC (System on a Chip).
  • SoC System on a Chip
  • the GPU 20102 may not be provided.
  • the electronic device 20001 also includes an optical sensor 20011, an operation unit 20105 such as a physical button or a touch panel, a sensor 20106 including at least one or more sensors, a display 20107 that displays information such as images and text, and sounds. It has a speaker 20108 for outputting, a communication I/F 20109 such as a communication module compatible with a predetermined communication method, and a bus 20110 for connecting them.
  • an optical sensor 20011 an operation unit 20105 such as a physical button or a touch panel
  • a sensor 20106 including at least one or more sensors
  • a display 20107 that displays information such as images and text, and sounds.
  • It has a speaker 20108 for outputting, a communication I/F 20109 such as a communication module compatible with a predetermined communication method, and a bus 20110 for connecting them.
  • the sensor 20106 has at least one or more of various sensors such as an optical sensor (image sensor), sound sensor (microphone), vibration sensor, acceleration sensor, angular velocity sensor, pressure sensor, odor sensor, and biosensor.
  • data (image data) acquired from the optical sensor 20011 and data acquired from at least one or more of the sensors 20106 can be used. That is, the optical sensor 20011 corresponds to the RGB sensor 108 (FIG. 1) and the ranging sensor 110 (FIG. 1), and the sensor 20106 corresponds to the IMU 109 (FIG. 1).
  • Data acquired from two or more optical sensors by sensor fusion technology or data obtained by integrally processing them may be used in processing to which the present disclosure is applied.
  • the two or more photosensors may be a combination of the photosensors 20011 and 20106, or the photosensor 20011 may include a plurality of photosensors.
  • optical sensors include RGB visible light sensors, distance sensors such as ToF (Time of Flight), polarization sensors, event-based sensors, sensors that acquire IR images, and sensors that can acquire multiple wavelengths. .
  • processors such as the CPU 20101 and GPU 20102 can perform processing to which the present disclosure is applied.
  • the processing can be started quickly after image data is acquired by the optical sensor 20011; therefore, the processing can be performed at high speed. can. Therefore, when the electronic device 20001 is used for processing such as an application that requires information to be transmitted with a short delay time, the user can operate without discomfort due to delay.
  • the processor of the electronic device 20001 performs processing to which the present disclosure is applied, there is no need to use communication lines, computer equipment for servers, etc., compared to the case of using a server such as the cloud server 20003, and the cost is low. processing can be realized.
  • FIG. 11 shows a configuration example of the edge server 20002.
  • the edge server 20002 has a CPU 20201 that controls the operation of each unit and performs various types of processing, and a GPU 20202 that specializes in image processing and parallel processing.
  • the edge server 20002 further has a main memory 20203 such as a DRAM, an auxiliary memory 20204 such as a HDD (Hard Disk Drive) or an SSD (Solid State Drive), and a communication I/F 20205 such as a NIC (Network Interface Card). They are connected to bus 20206 .
  • the auxiliary memory 20204 records data such as programs for processing to which the present disclosure is applied and various parameters.
  • the CPU 20201 loads the programs and parameters recorded in the auxiliary memory 20204 into the main memory 20203 and executes the programs.
  • the CPU 20201 and the GPU 20202 can use the GPU 20202 as a GPGPU by deploying programs and parameters recorded in the auxiliary memory 20204 in the main memory 20203 and executing the programs.
  • the GPU 20202 may not be provided when the CPU 20201 executes a processing program to which the present disclosure is applied.
  • processors such as the CPU 20201 and GPU 20202 can perform processing to which the present disclosure is applied.
  • the edge server 20002 is provided closer to the electronic device 20001 than the cloud server 20003, so low processing delay can be realized.
  • the edge server 20002 has higher processing capability such as computation speed than the electronic device 20001 and the optical sensor 20011, and thus can be configured for general purposes. Therefore, when the processor of the edge server 20002 performs processing to which the present disclosure is applied, regardless of differences in specifications and performance of the electronic device 20001 and the optical sensor 20011, if data can be received, processing to which the present disclosure is applied can be performed. .
  • processing loads on the electronic device 20001 and the optical sensor 20011 can be reduced.
  • the configuration of the cloud server 20003 is the same as the configuration of the edge server 20002, so the explanation is omitted.
  • processors such as the CPU 20201 and GPU 20202 can perform processing to which the present disclosure is applied. Since the cloud server 20003 has higher processing capability such as calculation speed than the electronic device 20001 and the optical sensor 20011, it can be configured for general purposes. Therefore, when the processor of the cloud server 20003 performs processing to which the present disclosure is applied, the processing to which the present disclosure is applied can be performed regardless of differences in specifications and performance of the electronic device 20001 and the optical sensor 20011 . Further, when it is difficult for the processor of the electronic device 20001 or the optical sensor 20011 to perform the high-load processing to which the present disclosure is applied, the processor of the cloud server 20003 performs the high-load processing to which the present disclosure is applied. , the processing result can be fed back to the processor of the electronic device 20001 or the optical sensor 20011 .
  • FIG. 12 shows a configuration example of the optical sensor 20011.
  • the optical sensor 20011 can be configured as a one-chip semiconductor device having a laminated structure in which a plurality of substrates are laminated, for example.
  • the optical sensor 20011 is configured by stacking two substrates, a substrate 20301 and a substrate 20302 .
  • the configuration of the optical sensor 20011 is not limited to a laminated structure, and for example, a substrate including an imaging unit may include a processor that performs processing to which the present disclosure is applied, such as a CPU or DSP (Digital Signal Processor).
  • a CPU Central Processing Unit
  • An imaging unit 20321 configured by arranging a plurality of pixels two-dimensionally is mounted on the upper substrate 20301 .
  • the lower substrate 20302 includes an imaging processing unit 20322 that performs processing related to image pickup by the imaging unit 20321, an output I/F 20323 that outputs the picked-up image and signal processing results to the outside, and an image pickup unit 20321.
  • An imaging control unit 20324 for controlling is mounted.
  • An imaging block 20311 is configured by the imaging unit 20321 , the imaging processing unit 20322 , the output I/F 20323 and the imaging control unit 20324 .
  • the lower substrate 20302 includes a CPU 20331 that controls each part and various processes, a DSP 20332 that performs signal processing using captured images and information from the outside, and SRAM (Static Random Access Memory) and DRAM (Dynamic Random Access Memory).
  • a memory 20333 such as a memory
  • a communication I/F 20334 for exchanging necessary information with the outside are installed.
  • a signal processing block 20312 is configured by the CPU 20331 , the DSP 20332 , the memory 20333 and the communication I/F 20334 . At least one processor of the CPU 20331 and the DSP 20332 can perform processing to which the present disclosure is applied.
  • the signal processing block 20312 for processing to which the present disclosure is applied can be mounted on the lower substrate 20302 in the laminated structure in which a plurality of substrates are laminated.
  • the image data acquired by the imaging block 20311 for imaging mounted on the upper substrate 20301 is processed by the signal processing block 20312 for processing to which the present disclosure is applied and mounted on the lower substrate 20302.
  • a series of processes can be performed in a semiconductor device of one chip.
  • a processor such as the CPU 20331 can perform processing to which the present disclosure is applied.
  • the processor of the optical sensor 20011 performs processing such as processing to which the present disclosure is applied, a series of processing is performed in a single-chip semiconductor device, so information is not leaked to the outside of the sensor, so information confidentiality is improved. can be done.
  • the processor of the optical sensor 20011 can perform processing to which the present disclosure is applied, such as processing using image data, at high speed. For example, real-time performance can be sufficiently ensured when processing is used for applications that require real-time performance.
  • ensuring real-time property means that information can be transmitted with a short delay time.
  • the processor of the optical sensor 20011 performs processing to which the present disclosure is applied, the processor of the electronic device 20001 passes various kinds of metadata, thereby reducing processing and reducing power consumption.
  • processing performed by the computer does not necessarily have to be performed in chronological order according to the order described as the flowchart.
  • processing performed by a computer according to a program includes processing that is executed in parallel or individually (for example, parallel processing or processing by objects).
  • the program may be processed by one computer (processor such as a CPU), or distributed processing by a plurality of computers.
  • the present disclosure can be configured as follows.
  • a processing unit that performs a process of replacing a region corresponding to the physical space with a corresponding content based on a scan result obtained by 3D scanning the physical space, The information processing device, wherein the processing unit associates the content with an area corresponding to the physical space based on information regarding at least one of an object, shape, size, color, and material in the physical space.
  • the information processing apparatus according to (1) further comprising a recording unit that records the content.
  • the processing unit associates the content with a region having a specific object based on information about the object.
  • the processing unit associates the content with a region having a specific shape based on the information about the shape.
  • the information processing apparatus associates the content with an area having a specific size based on the information about the size.
  • the processing unit associates the content with a region having a specific color based on the information about the color.
  • the processing unit associates the content with a region having a specific material based on the information about the material.
  • the object is recognized based on a captured image captured by an image sensor.
  • the information processing apparatus (9) The information processing apparatus according to (4), wherein the shape is recognized based on a captured image captured by an image sensor, acceleration information measured by an IMU, and distance measurement information measured by a distance measurement sensor. (10) The information processing apparatus according to (5), wherein the size is recognized based on a captured image captured by an image sensor, acceleration information measured by an IMU, and distance measurement information measured by a distance measurement sensor. (11) The information processing apparatus according to (6), wherein the color is recognized based on a captured image captured by an image sensor. (12) The information processing apparatus according to (7), wherein the material is recognized based on a captured image captured by an image sensor and distance measurement information measured by a distance measurement sensor.
  • the processing unit further performs at least one of a process of generating an object to be placed in the area corresponding to the physical space and a process of applying an effect to the area corresponding to the physical space.
  • the information processing apparatus according to any one of the items.
  • the additional information includes information regarding at least one of weather and time.
  • the processing unit performs a process of 3D scanning the physical space, modeling it with a polygon mesh structure, and replacing the polygon mesh with the content,
  • the information processing apparatus according to (16) wherein the display unit displays an image related to the polygon mesh after starting 3D scanning of the physical space and before replacing the polygon mesh with the content.
  • the information processing device Based on the scan result obtained by 3D scanning the physical space, performing a process of replacing the area corresponding to the physical space with the associated content, An information processing method, wherein the content is associated with an area corresponding to the physical space based on information regarding at least one of an object, shape, size, color, and material in the physical space.
  • the computer A processing unit that performs a process of replacing a region corresponding to the physical space with a corresponding content based on a scan result obtained by 3D scanning the physical space, A program for causing the processing unit to function as an information processing device that associates the content with an area corresponding to the physical space based on information on at least one of an object, shape, size, color, and material in the physical space.
  • Information processing device 100 CPU, 101 GPU, 102 main memory, 103 auxiliary memory, 104 operation system, 105 display, 106 speaker, 107 communication I/F, 108 RGB sensor, 109 IMU, 110 ranging sensor, 111 GPS, 151 RGB image acquisition unit, 152 acceleration information acquisition unit, 153 ranging information acquisition unit, 154 location information acquisition unit, 155 weather information acquisition unit, 156 time acquisition unit, 157 object detection unit, 158 SLAM processing unit, 159 point cloud generation Section 160 Modeling Section 161 3D Object/Material Recognition Section 162 Mesh Clustering Section 163 Shape Recognition Section 164 Semantic Segmentation Section 165 AR Processing Section 191 Object Generation Section 192 Morphing Processing Section 193 Effect Processing Section

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本開示は、映像表現の幅を広げることができるようにする情報処理装置、情報処理方法、及びプログラムに関する。 現実空間を3Dスキャンして得られるスキャン結果に基づいて、現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、処理部は、現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、現実空間に応じた領域にコンテンツを対応付ける情報処理装置が提供される。本開示は、例えば、各種センサを有する電子機器に適用することができる。

Description

情報処理装置、情報処理方法、及びプログラム
 本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に、映像表現の幅を広げることができるようにした情報処理装置、情報処理方法、及びプログラムに関する。
 環境メッシュや3Dオブジェクトの認識結果を、ゲームやSNS(Social Networking Service)の動画撮影へ活用するために、様々な映像処理を用いて拡張現実(AR:Augmented Reality)の映像を生成することがある。拡張現実の映像を生成する技術としては、例えば、特許文献1に開示されている技術が知られている。
特開2020-64592号公報
 拡張現実の映像を生成するに際しては、映像表現の幅を広げるための技術が求められていた。
 本開示はこのような状況に鑑みてなされたものであり、映像表現の幅を広げることができるようにするものである。
 本開示の一側面の情報処理装置は、現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける情報処理装置である。
 本開示の一側面の情報処理方法は、情報処理装置が、現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行い、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける情報処理方法である。
 本開示の一側面のプログラムは、コンピュータを、現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける情報処理装置として機能させるプログラムである。
 本開示の一側面の情報処理装置、情報処理方法、及びプログラムにおいては、現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域が、対応付けられたコンテンツに置き換えられ、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツが対応付けられる。
 なお、本開示の一側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。
本開示を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。 本開示を適用した情報処理装置の機能的構成例を示すブロック図である。 AR処理部の詳細な構成例を示すブロック図である。 本開示を適用した情報処理装置で実行される処理の流れを説明するフローチャートである。 AR処理の詳細を説明するフローチャートである。 ARアプリケーションの表示の第1の例を示す図である。 ARアプリケーションの表示の第2の例を示す図である。 ARアプリケーションの表示の第3の例を示す図である。 本開示を適用した処理を行う装置を含むシステムの構成例を示す図である。 電子機器の構成例を示すブロック図である。 エッジサーバ又はクラウドサーバの構成例を示すブロック図である。 光センサの構成例を示すブロック図である。
<1.本開示の実施の形態>
(装置の構成)
 図1は、本開示を適用した情報処理装置の一実施の形態の構成例を示すブロック図である。
 情報処理装置10は、スマートフォン、タブレット型端末、携帯電話機等の電子機器である。
 情報処理装置10は、各部の動作の制御や各種の処理を行うCPU(Central Processing Unit)100と、画像処理や並列処理に特化したGPU(Graphics Processing Unit)101と、DRAM(Dynamic Random Access Memory)等のメインメモリ102と、フラッシュメモリ等の補助メモリ103を有し、バス112を介して接続される。
 補助メモリ103は、プログラムや各種パラメータ、データを記録している。CPU100は、補助メモリ103に記録されたプログラムやパラメータをメインメモリ102に展開してプログラムを実行する。プログラムを実行する際には、補助メモリ103に記録されたデータを必要に応じて用いることができる。GPU101も同様に補助メモリ103に記録されたプログラムを実行することができる。
 情報処理装置10において、バス112には、物理的なボタンやタッチパネル等の操作系104と、テキスト等の情報や映像を表示するディスプレイ105と、音を出力するスピーカ106と、所定の通信方式に対応した通信モジュール等の通信I/F107とがさらに接続される。通信方式としては、例えば、5G(5th Generation)等の移動通信システムや、無線LAN(Local Area Network)などが含まれる。
 また、情報処理装置10において、バス112には、RGBセンサ108と、IMU(Inertial Measurement Unit)109と、測距センサ110と、GPS(Global Positioning System)111とがさらに接続される。
 RGBセンサ108は、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等のイメージセンサを含む画像センサである。RGBセンサ108は、対象を撮影してその結果得られる撮影画像を出力する。撮影画像としては、1つの画素をR(赤)、G(緑)、B(青)の3原色で表したRGB画像が出力される。
 IMU109は、3軸の加速度計や3軸のジャイロからなる慣性計測装置である。IMU109は、3次元の加速度や角速度を計測してその結果得られる加速度情報を出力する。
 測距センサ110は、ToF(Time of Flight)センサなどの測距センサである。ToFセンサは、dToF(direct Time of Flight)方式とiToF(indirect Time of Flight)方式のいずれの方式であってもよい。測距センサ110は、対象までの距離を測定してその結果得られる測距情報を出力する。なお、測距センサ110は、ストラクチャライト方式のセンサ、LiDAR(Light Detection and Ranging)方式のセンサ、その他、複数のセンサを用いて測距を行うステレオカメラなどであってもよい。
 GPS111は、GPS衛星からの信号を受け取ることで現在位置を測定し、その結果得られるロケーション情報を出力する。なお、GPSは、衛星測位システムの一例であり、他の衛星測位システムを用いてもよい。
 なお、図1に示したハードウェア構成は一例であり、他の構成要素が追加されたり、一部の構成要素が取り除かれたりしてもよい。図1において、CPU100とGPU101は、SoC(System on a Chip)として構成されてもよい。CPU100が後述するAR処理用のプログラムを実行する場合にはGPU101を設けなくてもよい。
(機能的構成)
 図2は、本開示を適用した情報処理装置の機能的構成例を示すブロック図である。
 図2において、情報処理装置10は、RGB画像取得部151、加速度情報取得部152、測距情報取得部153、ロケーション情報取得部154、天気情報取得部155、時間情報取得部156、オブジェクト検出部157、SLAM処理部158、ポイントクラウド生成部159、モデリング部160、3Dオブジェクト・材質認識部161、メッシュクラスタリング部162、形状認識部163、セマンティックセグメンテーション部164、及びAR処理部165から構成される。これらのブロックは、拡張現実(AR)に関する処理を行う処理部として構成される。
 RGB画像取得部151は、RGBセンサ108により撮影されたRGB画像を取得し、オブジェクト検出部157、SLAM処理部158、及びセマンティックセグメンテーション部164に供給する。
 加速度情報取得部152は、IMU109により測定された加速度情報を取得し、SLAM処理部158に供給する。
 測距情報取得部153は、測距センサ110により測定された測距情報を取得し、SLAM処理部158、ポイントクラウド生成部159、及び3Dオブジェクト・材質認識部161に供給する。
 測距情報は、デプス画像とIR反射率情報を含む。SLAM処理部158とポイントクラウド生成部159には、測距情報としてデプス画像が供給される。3Dオブジェクト・材質認識部161には、IR反射率情報が供給される。
 デプス画像は、ピクセルごとにデプス値を持ったデプスマップなどである。IR反射率情報は、ピクセルごとにIR(infrared)の値を持った赤外線画像などである。例えば、測距センサ110がToFセンサである場合に、発光素子からの赤外光を対象物体に照射してその反射光が戻ってくるまでの時間から、対象物体表面までの距離を算出する方式がある。この方式では、受光素子で受光した反射光(赤外光)から画像を生成するので、それらの画像を蓄積することで、赤外線画像が得られる。
 ロケーション情報取得部154は、GPS111により測定されたロケーション情報を取得し、AR処理部165に供給する。ロケーション情報は、情報処理装置10の位置を示す情報である。
 天気情報取得部155は、通信I/F107を介してインターネット等のネットワーク上のサーバから天気情報を取得し、AR処理部165に供給する。天気情報は、晴、曇り、雨などを示す情報や、気温などの情報を含む。
 時間情報取得部156は、現在の時刻や日付などの時間情報を取得し、AR処理部165に供給する。時間情報は、情報処理装置10の内部で管理している時間情報を取得してもよいし、あるいは、インターネット等のネットワーク上のサーバで管理されている時間情報を、通信I/F107を介して取得してもよい。
 オブジェクト検出部157は、RGB画像取得部151から供給されるRGB画像に含まれるオブジェクトを検出し、その検出結果を3Dオブジェクト・材質認識部161に供給する。
 SLAM処理部158には、RGB画像取得部151からのRGB画像と、加速度情報取得部152からの加速度情報と、測距情報取得部153からのデプス画像が供給される。SLAM処理部158は、RGB画像、加速度情報、及びデプス画像に基づいて、SLAM(Simultaneous Localization and Mapping)処理を行う。
 このSLAM処理では、RGB画像と加速度情報を用いた自己位置推定などの処理が行われ、情報処理装置10(のRGBセンサ108)の位置と向きに関する姿勢情報が得られる。SLAM処理部158は、姿勢情報を、3Dオブジェクト・材質認識部161、及びモデリング部160に供給する。
 なお、SLAM処理においては、デプス画像は必須ではないが、測距情報としてのデプス画像をスケールの解決に用いることで、SLAM処理の精度を向上させることができる。また、SLAM処理では、加速度情報を用いずに、姿勢情報を算出しても構わない。
 ポイントクラウド生成部159は、測距情報取得部153から供給されるデプス画像に基づいて、ポイントクラウドを生成し、モデリング部160に供給する。ポイントクラウドは、3次元座標や色などの情報を持つ点群データである。
 モデリング部160には、SLAM処理部158からの姿勢情報と、ポイントクラウド生成部159からのポイントクラウドが供給される。モデリング部160は、姿勢情報及びポイントクラウドに基づいて、モデリングを行う。
 このモデリングでは、現実空間の環境をポリゴンメッシュ構造で表した環境メッシュが生成される。すなわち、現実空間の環境が3Dスキャンされ、ポリゴンメッシュ構造でモデリングされる。モデリング部160は、環境メッシュを、3Dオブジェクト・材質認識部161、メッシュクラスタリング部162、及び形状認識部163に供給する。
 3Dオブジェクト・材質認識部161には、測距情報取得部153からのIR反射率情報と、オブジェクト検出部157からのオブジェクト検出結果と、SLAM処理部158からの姿勢情報と、モデリング部160からの環境メッシュが供給される。3Dオブジェクト・材質認識部161は、姿勢情報、オブジェクト検出結果、IR反射率情報、及び環境メッシュに基づいて、3Dオブジェクトや材質を認識する認識処理を行う。
 3Dオブジェクトの認識処理では、オブジェクト検出結果(RGB画像)と姿勢情報等の情報を用いることで、現実空間に存在する椅子やソファー、ベッド、テレビ、人、ペットボトル、本などの物体が認識される。材質の認識処理では、オブジェクト検出結果(RGB画像)、IR反射率情報、及び環境メッシュ等の情報を用いることで、木、金属、石、織物、布などの材質が認識される。3Dオブジェクト・材質認識部161は、3Dオブジェクトと材質の認識結果を、AR処理部165に供給する。
 なお、材質の認識処理においては、IR反射率情報と環境メッシュを用いることは必須ではない。材質の認識処理を行うに際して、RGB画像の情報だけでなく、IR反射率情報(赤外線画像)を用いることで情報量が増えるため、より正しく材質を認識することができる。また、材質の認識処理においては、形状認識部163により認識される形状の認識結果をさらに用いてもよい。
 メッシュクラスタリング部162は、モデリング部160から供給される環境メッシュに基づいて、メッシュクラスタリングを行い、メッシュクラスタリング結果を、AR処理部165に供給する。
 このメッシュクラスタリングでは、クラスタリングの手法を用いて、環境メッシュのグループ分けが行われ、床、天井、壁、窓、ドア、椅子、ソファー、ベッドなどに分けられる。すなわち、ポリゴンメッシュは、オブジェクトの形状を定義する頂点などの集合からなる情報であるが、それらの頂点がどのグループ(床など)に属するかが認識されて分けられる。
 なお、メッシュクラスタリングを行うに際しては、セマンティックセグメンテーション部164によるセマンティックセグメンテーションの認識結果を用いても構わない。セマンティックセグメンテーションでは、RGB画像に基づき、特徴的なカテゴリを形成するピクセルの集まりを認識することができる。
 形状認識部163は、モデリング部160から供給される環境メッシュに基づいて、形状や大きさを認識する認識処理を行い、形状や大きさの認識結果を、AR処理部165に供給する。
 形状や大きさの認識処理では、空間や突起、凹みなどの特定の形状や大きさが認識される。例えば、空間の形状や大きさとしては、広い空間が存在しているなどが認識される。すなわち、環境メッシュは、頂点などの集合からなるポリゴンメッシュで表されるため、このポリゴンメッシュから、例えば四角や凹んでいるなどの特定の形状を認識することができる。この認識処理では、ポリゴンメッシュのかたまりが、特定の形状に一致するかどうかが判定されるが、その判定に際しては、ルールベースで行ってもよいし、あるいは、RGB画像等の学習データを用いた機械学習により学習された学習済みモデルを用いてもよい。
 AR処理部165には、3Dオブジェクト・材質認識部161からの3Dオブジェクトや材質の認識結果と、メッシュクラスタリング部162からのクラスタリング結果と、形状認識部163からの形状や大きさの認識結果が供給される。3Dオブジェクトの認識結果には、物体(椅子やソファー等)や色に関する情報が含まれる。すなわち、AR処理部165には、クラスタリング結果とともに、物体、形状、大きさ、色、及び材質に関する情報が供給される。ただし、物体、形状、大きさ、色、及び材質に関する情報は、少なくともいずれかの情報が供給されればよい。
 AR処理部165にはまた、ロケーション情報取得部154からのロケーション情報と、天気情報取得部155からの天気情報と、時間情報取得部156からの時間情報が供給される。
 AR処理部165は、3Dオブジェクトや材質の認識結果、クラスタリング結果、形状や大きさの認識結果、ロケーション情報、天気情報、及び時間情報に基づいて、拡張現実(AR)の映像を生成するAR処理を行う。AR処理部165は、AR処理を行うに際して、補助メモリ103に記録されたデータ(ARオブジェクト等のコンテンツのデータ)を適宜読み出して用いることができる。
 図3は、AR処理部165の詳細な構成例を示している。図3において、AR処理部165は、オブジェクト生成部191、モーフィング処理部192、及びエフェクト処理部193から構成される。
 オブジェクト生成部191は、拡張現実の映像として用いられるARオブジェクトを生成する。例えば、ARオブジェクトとしては、船等の乗り物、家等の建物、木や花等の植物、動物や虫等の生き物、風船、ロケット、人(キャラクタ)などのオブジェクトが生成される。
 モーフィング処理部192は、モーフィング処理を行い、ポリゴンメッシュやオブジェクトの置換を行う。モーフィング処理では、ある物体から他の物体へと自然に変形する映像が表示されるように処理が行われる。例えば、ポリゴンメッシュの置換では、メッシュクラスタリングでグループ分けされたポリゴンメッシュが、空、海、滝、地面などの画像に置換される。オブジェクトの置換では、3Dオブジェクトとして認識された人が、その背景の情報に応じたCG(Computer Graphics)モデルなどに置換される。
 エフェクト処理部193は、VFX(Visual Effects)を用いたエフェクト処理を行い、現実空間には見ることのできない映像効果を実現する。例えば、VFXとしては、昼や夜の時間帯、曇り等の天候などに応じたライティング(Lighting)の変更や、雨や雪などの天候に対応したエフェクトを画面全体に施すなどの処理がある。
 オブジェクト生成部191、モーフィング処理部192、及びエフェクト処理部193は、それぞれの処理を行うに際して、様々な情報を用いることができる。例えば、エフェクト処理部193では、ロケーション情報や天気情報、時間情報などの付加情報に基づき、場所や天候、時間帯などの条件に応じたライティングの変更などのコンテンツの加工を行うことができる。ロケーション情報、天気情報、及び時間情報などの情報を用いることで、それらの情報に応じた拡張現実の映像を生成することができる。
 以上のように構成される情報処理装置10では、AR処理部165等を含む処理部によって、現実空間を3Dスキャンして得られるスキャン結果に基づき、現実空間に応じた領域を、対応付けたコンテンツに置き換える処理が行われる。この対応付けに際しては、現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づき、現実空間に応じた領域にコンテンツが対応付けられる。
 より具体的には、AR処理部165は、現実空間における物体に関する情報に基づいて、特定の物体を有する領域に、コンテンツを対応付ける。この物体は、RGBセンサ108により撮影されたRGB画像に基づいて認識される。また、AR処理部165は、現実空間における形状に関する情報に基づいて、特定の形状を有する領域に、コンテンツを対応付ける。この形状は、RGBセンサにより撮影されたRGB画像、IMU109により測定された加速度情報、及び測距センサ110により測定された測距情報に基づいて認識される。
 AR処理部165は、現実空間における大きさに関する情報に基づいて、特定の大きさを有する領域に、コンテンツを対応付ける。この大きさは、RGBセンサにより撮影されたRGB画像、IMU109により測定された加速度情報、及び測距センサ110により測定された測距情報に基づいて認識される。また、AR処理部165は、現実空間における色に関する情報に基づいて、特定の色を有する領域に、コンテンツを対応付ける。この色は、RGBセンサ108により撮影されたRGB画像に基づいて認識される。
 AR処理部165は、現実空間における材質に関する情報に基づいて、特定の材質を有する領域に、コンテンツを対応付ける。この材質は、RGBセンサ108により撮影されたRGB画像、及び測距センサ110により測定された測距情報に基づいて認識される。
 なお、AR処理部165において、オブジェクト生成部191によるオブジェクト生成処理と、エフェクト処理部193によるエフェクト処理は、必要に応じて実行される処理である。図2において、ブロック間の矢印は、ブロック間でやり取りされる信号やデータの流れを表しているが、破線で表した矢印は、信号やデータの流れが必須ではないことを意味している。
(処理の流れ)
 次に、図4,図5のフローチャートを参照して、本開示を適用した情報処理装置で実行される処理の流れを説明する。スマートフォン等の情報処理装置10では、拡張現実の映像を表示するARアプリケーションがインターネット上のサーバからダウンロードされて起動される。例えば、情報処理装置10では、ARアプリケーションの起動時に、ユーザにより所定の操作がなされたとき、図4のフローチャートに示した処理が実行される。
 ステップS11において、各取得部は必要に応じてデータを取得する。RGB画像取得部151、加速度情報取得部152、及び測距情報取得部153によって、RGB画像、加速度情報、及び測距情報がそれぞれ取得される。また、ロケーション情報取得部154、天気情報取得部155、及び時間情報取得部156によって、ロケーション情報、天気情報、及び時間情報がそれぞれ取得される。
 ステップS12において、SLAM処理部158は、RGB画像、加速度情報、及びデプス画像に基づいて、SLAM処理を行い、姿勢情報を算出する。なお、SLAM処理では、加速度情報とデプス画像は適宜用いられ、少なくもRGB画像を用いて姿勢情報が算出される。
 ステップS13において、ポイントクラウド生成部159は、デプス画像に基づいて、ポイントクラウドを生成する。
 ステップS14において、モデリング部160は、姿勢情報及びポイントクラウドに基づいて、モデリングを行い、環境メッシュを生成する。
 ステップS15において、3Dオブジェクト・材質認識部161は、姿勢情報、オブジェクト検出結果、IR反射率情報、及び環境メッシュに基づいて、3Dオブジェクトや材質を認識する認識処理を行う。
 3Dオブジェクトの認識処理では、オブジェクト検出結果(RGB画像)と姿勢情報等の情報を用いることで、現実空間に存在する物体が認識される。材質の認識処理では、オブジェクト検出結果(RGB画像)、IR反射率情報、及び環境メッシュ等の情報を用いることで材質が認識される。なお、材質の認識処理では、IR反射率情報と環境メッシュは必要に応じて用いられる。
 ステップS16において、メッシュクラスタリング部162は、環境メッシュに基づいて、メッシュクラスタリングを行う。このメッシュクラスタリングでは、クラスタリングの手法を用いて、環境メッシュ(ポリゴンメッシュのかたまり)のグループ分けが行われる。なお、メッシュクラスタリングを行うに際しては、セマンティックセグメンテーションの認識結果を用いてもよい。
 ステップS17において、形状認識部163は、環境メッシュに基づいて、形状や大きさを認識する認識処理を行う。形状の認識処理では、環境メッシュが頂点などの集合からなるポリゴンメッシュで表されるため、このポリゴンメッシュから、例えば四角や凹んでいるなどの特定の形状とその大きさを認識することができる。
 ステップS18において、AR処理部165は、3Dオブジェクトや材質の認識結果、形状や大きさの認識結果、及びクラスタリング結果などの情報に基づいて、AR処理を行う。AR処理では、ロケーション情報や天気情報、時間情報などの付加情報を適宜用いることができる。ここで、図5のフローチャートを参照して、AR処理の詳細を説明する。
 ステップS51において、オブジェクト生成部191は、船や家などのARオブジェクトを生成するオブジェクト生成処理を行う。
 ステップS52において、モーフィング処理部192は、ポリゴンメッシュの置換やオブジェクトの置換などのモーフィング処理を行う。
 ポリゴンメッシュの置換では、メッシュクラスタリングでグループ分けされたポリゴンメッシュが、空や海などの画像に置換される。オブジェクトの置換では、3Dオブジェクトとして認識された人が、CGモデルなどに置換される。
 ステップS53において、エフェクト処理部193は、時間帯や天候などの条件に応じたライティングの変更や、画面全体にエフェクトを施すなどのエフェクト処理を行う。
 このように、AR処理として、オブジェクト生成処理によってARオブジェクトを生成したり、モーフィング処理によってポリゴンメッシュやオブジェクトを置換したり、エフェクト処理によってライティングの変更や画面全体にエフェクトを施したりすることで、拡張現実の映像が生成される。
 図4に戻り、ステップS19において、AR処理部165は、AR処理により得られる拡張現実の映像データを、ディスプレイ105に出力する。これにより、ディスプレイ105には、AR処理部165により生成された拡張現実の映像が表示される。
 図6,図7には、ARアプリケーションの表示例を示している。図6に示すように、スマートフォン等の情報処理装置10を操作しているユーザが、ARアプリケーションを起動して部屋にあるソファーを撮影している場面を想定する。このとき、情報処理装置10では、ソファー200を含む映像がディスプレイ105に表示される。
 情報処理装置10では、ARアプリケーションによって、図4,図5のフローチャートに示した処理が実行されることで、図7に示すような、拡張現実の映像が表示される。例えば、AR処理として、オブジェクト生成処理やモーフィング処理が行われることで、オブジェクト211,212が表示される。また、AR処理として、モーフィング処理が行われることで、ソファー200のほか、床や壁の形状を定義したポリゴンメッシュが、空や地面などに置換されている。
 具体的には、ソファー200の座面の部分が、地面などの画像213に置き換えられ、そこに、建物などのオブジェクト211,212が配置された拡張現実の映像が表示されている。オブジェクト211,212は、オブジェクト生成処理により生成されたARオブジェクトであってもよいし、モーフィング処理によるオブジェクトの置換により置き換えられたCGモデル等のオブジェクトであってもよい。それ以外にも、例えば、階段を滝に置き換えたり、絨毯を草原に置き換えたり、テーブルに置かれたペットボトルをロケットに置き換えたり、壁掛け時計を太陽に置き換えたりてもよい。
 以上、本開示を適用した情報処理装置で実行される処理を説明した。本開示を適用した情報処理装置では、図4,図5のフローチャートに示した処理を実行することで、オブジェクト生成処理やモーフィング処理で用いられる情報の情報量と精度が高くなる。そのため、拡張現実の映像表現の幅を広げることができる。また、拡張現実の映像表現の幅が広がることで、映像の不自然さが解消されるなどの効果が得られる。
 近年、環境メッシュや3Dオブジェクトの認識結果を、ゲームやSNSの動画撮影へ活用するために、CGオブジェクト生成やモーフィング処理、ライティング変更処理、VFX処理などを用いて拡張現実の映像を生成することが行われている。CGオブジェクトの配置には、メッシュクラスタリング結果や3Dオブジェクトの認識結果が主に使用されていた。しかしながら、メッシュクラスタリング結果が少ないことや精度が悪いこと、あるいは3Dオブジェクトの認識結果が少ないことや精度が悪いことなどによる情報の不足に起因して、拡張現実の映像表現の幅が狭くなり、面白さを損ねてしまうことがあった。
 それに対して、本開示を適用した情報処理装置では、現実空間を3Dスキャンして得られるスキャン結果に基づき、現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行うに際して、現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づき、現実空間に応じた領域にコンテンツが対応付けられる。これにより、AR処理で用いられる情報が増えるため、結果として拡張現実の映像表現の幅を広げることができる。
<2.変形例>
(ポリゴンメッシュの表示と編集)
 情報処理装置10においては、現実空間を3Dスキャンしてポリゴンメッシュ構造でモデリングし、ポリゴンメッシュをコンテンツに置き換える処理が行われることで、ディスプレイ105には拡張現実の映像が表示される。例えば、ユーザがARアプリケーションを操作することで、現実空間の3Dスキャンが開始されるが、このとき、現実空間の3Dスキャンを開始した後であって、ポリゴンメッシュをコンテンツに置き換える前に、ポリゴンメッシュに関する映像をディスプレイ105に表示してもよい。
 図8には、ARアプリケーションの表示例を示している。図8において、ディスプレイ105には、部屋にあるソファー、壁、床をポリゴンメッシュ221により表現した映像が表示されている。すなわち、図8の表示例は、時系列としては、図6の撮影映像と図7の拡張現実の映像との間に表示される中間的な状態を表示したものである。
 また、ARアプリケーションは、ポリゴンメッシュの編集機能を提供してもよい。例えば、図8に示したポリゴンメッシュ221に対してユーザが指で触れるなどの編集操作を行った場合に、当該編集操作に応じてポリゴンメッシュ221を加工(変形等)してもよい。ポリゴンメッシュ221を後から編集できるように関連するデータを補助メモリ103に記録しておき、補助メモリ103から読み出したデータに基づき、ポリゴンメッシュ221を編集してもよい。あるいは、ARアプリケーションから、ユーザに対して、ポリゴンメッシュ221の編集を提案してもよい。
(スキャン情報の保存)
 情報処理装置10は、現実空間を3Dスキャンして得られるスキャン結果のデータを、補助メモリ103に記録することができる。スキャン結果のデータは、インターネット等のネットワーク上のサーバに送信して記録し、必要に応じて取得してもよい。このように、スキャン結果のデータを保持しておくことで、例えばユーザがスキャン済みの現実空間を再度訪れたとき、情報処理装置10では、保持していたスキャン結果のデータに基づき、拡張現実の映像を表示することができる。
 このとき、情報処理装置10は、現実空間を3Dスキャンする必要がないため、処理負荷を軽減できるとともに、拡張現実の映像を表示するまでの時間を短縮することができる。同一の場所を訪れたかどうかは、ロケーション情報やセンシング情報などの情報を用いて判定すればよい。
(他の電子機器の例)
 上述した説明では、情報処理装置10がスマートフォン等のモバイル機器である場合を例示したが、情報処理装置10は、HMD(Head Mounted Display)や、ウェアラブル機器、PC(Personal Computer)などの他の電子機器であってもよい。
(クラウドの利用)
 上述した説明では、情報処理装置10において、補助メモリ103が、ARオブジェクト等のコンテンツのデータを記録する場合を例示したが、コンテンツのデータは、インターネット等のネットワーク上のサーバに記録しておき、必要に応じて取得してもよい。
 また、本開示の他の実施の形態として、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。具体的には、図2に示した情報処理装置10の機能的構成例の機能のうち、少なくとも一部の機能をクラウド側のサーバが備えるようにしてもよい。例えば、現実空間を3Dスキャンしてポリゴンメッシュを形成するまでの処理をローカル側の情報処理装置10が行い、それ以降のAR処理などをクラウド側のサーバが行うことができる。あるいは、図2に示した情報処理装置10の機能的構成例の機能の全てをクラウド側のサーバが備えるようにしてもよい。例えば、ローカル側の情報処理装置10は、各種センサ等から得られた情報をクラウド側のサーバに送ることで、クラウド側のサーバにより図4,図5のフローチャートに示した処理が行われる。クラウド側のサーバからの処理結果は、ローカル側の情報処理装置10に送られ、拡張現実の映像が表示される。
(他の構成の例)
 図9は、本開示を適用した処理を行う装置を含むシステムの構成例を示している。
 電子機器20001は、スマートフォン、タブレット型端末、携帯電話機等のモバイル端末である。電子機器20001は、例えば、図1の情報処理装置10に対応しており、RGBセンサ108(図1)や測距センサ110(図1)に対応した光センサ20011を有する。光センサは、光を電気信号に変換するセンサ(画像センサ)である。電子機器20001は、所定の通信方式に対応した無線通信によって所定の場所に設置された基地局20020に接続することで、コアネットワーク20030を介して、インターネット等のネットワーク20040に接続することができる。
 基地局20020とコアネットワーク20030の間などのモバイル端末により近い位置には、モバイルエッジコンピューティング(MEC:Mobile Edge Computing)を実現するためのエッジサーバ20002が設けられる。ネットワーク20040には、クラウドサーバ20003が接続される。エッジサーバ20002とクラウドサーバ20003は、用途に応じた各種の処理を行うことができる。なお、エッジサーバ20002は、コアネットワーク20030内に設けられてもよい。
 電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011により、本開示を適用した処理が行われる。本開示を適用した処理は、図4,図5のフローチャートに示した各ステップの処理のうち、少なくともいずれかの処理を含む。
 電子機器20001、エッジサーバ20002、クラウドサーバ20003、又は光センサ20011においては、CPU(Central Processing Unit)等のプロセッサがプログラムを実行したり、あるいは特定用途に特化したプロセッサ等の専用のハードウェアを用いたりすることで、本開示を適用した処理が実現される。例えば、特定用途に特化したプロセッサとしては、GPU(Graphics Processing Unit)を用いることができる。
 図10は、電子機器20001の構成例を示している。電子機器20001は、各部の動作の制御や各種の処理を行うCPU20101と、画像処理や並列処理に特化したGPU20102と、DRAM(Dynamic Random Access Memory)等のメインメモリ20103と、フラッシュメモリ等の補助メモリ20104を有する。
 補助メモリ20104は、本開示を適用した処理用のプログラムや各種パラメータ等のデータを記録している。CPU20101は、補助メモリ20104に記録されたプログラムやパラメータをメインメモリ20103に展開してプログラムを実行する。あるいは、CPU20101とGPU20102は、補助メモリ20104に記録されたプログラムやパラメータをメインメモリ20103に展開してプログラムを実行する。これにより、GPU20102を、GPGPU(General-Purpose computing on Graphics Processing Units)として用いることができる。
 なお、CPU20101やGPU20102は、SoC(System on a Chip)として構成されてもよい。CPU20101が本開示を適用した処理用のプログラムを実行する場合には、GPU20102を設けなくてもよい。
 電子機器20001はまた、光センサ20011と、物理的なボタンやタッチパネル等の操作部20105と、少なくとも1以上のセンサを含むセンサ20106と、画像やテキスト等の情報を表示するディスプレイ20107と、音を出力するスピーカ20108と、所定の通信方式に対応した通信モジュール等の通信I/F20109と、それらを接続するバス20110を有する。
 センサ20106は、光センサ(画像センサ)、音センサ(マイクロフォン)、振動センサ、加速度センサ、角速度センサ、圧力センサ、匂いセンサ、生体センサ等の各種のセンサを少なくとも1以上有している。本開示を適用した処理では、光センサ20011から取得したデータ(画像データ)とともに、センサ20106の少なくとも1以上のセンサから取得したデータを用いることができる。すなわち、光センサ20011は、RGBセンサ108(図1)と測距センサ110(図1)に対応し、センサ20106は、IMU109(図1)に対応している。
 なお、センサフュージョンの技術によって2以上の光センサから取得したデータやそれらを統合的に処理して得られるデータが、本開示を適用した処理で用いられてもよい。2以上の光センサとしては、光センサ20011とセンサ20106内の光センサの組み合わせでもよいし、あるいは光センサ20011内に複数の光センサが含まれていてもよい。例えば、光センサには、RGBの可視光センサ、ToF(Time of Flight)等の測距センサ、偏光センサ、イベントベースのセンサ、IR像を取得するセンサ、多波長取得可能なセンサなどが含まれる。
 電子機器20001においては、CPU20101やGPU20102等のプロセッサによって本開示を適用した処理を行うことができる。電子機器20001のプロセッサが本開示を適用した処理を行う場合には、光センサ20011で画像データを取得した後に時間を要さずに処理を開始することができるため、高速に処理を行うことができる。そのため、電子機器20001では、短い遅延時間で情報を伝達することが求められるアプリケーションなどの用途に処理が用いられた際に、ユーザは遅延による違和感なく操作を行うことができる。また、電子機器20001のプロセッサが本開示を適用した処理を行う場合、クラウドサーバ20003等のサーバを利用する場合と比べて、通信回線やサーバ用のコンピュータ機器などを利用する必要がなく、低コストで処理を実現することができる。
 図11は、エッジサーバ20002の構成例を示している。エッジサーバ20002は、各部の動作の制御や各種の処理を行うCPU20201と、画像処理や並列処理に特化したGPU20202を有する。エッジサーバ20002はさらに、DRAM等のメインメモリ20203と、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助メモリ20204と、NIC(Network Interface Card)等の通信I/F20205を有し、それらがバス20206に接続される。
 補助メモリ20204は、本開示を適用した処理用のプログラムや各種パラメータ等のデータを記録している。CPU20201は、補助メモリ20204に記録されたプログラムやパラメータをメインメモリ20203に展開してプログラムを実行する。あるいは、CPU20201とGPU20202は、補助メモリ20204に記録されたプログラムやパラメータをメインメモリ20203に展開してプログラムを実行することで、GPU20202をGPGPUとして用いることができる。なお、CPU20201が本開示を適用した処理用のプログラムを実行する場合には、GPU20202を設けなくてもよい。
 エッジサーバ20002においては、CPU20201やGPU20202等のプロセッサによって本開示を適用した処理を行うことができる。エッジサーバ20002のプロセッサが本開示を適用した処理を行う場合、エッジサーバ20002はクラウドサーバ20003と比べて、電子機器20001と近い位置に設けられるため、処理の低遅延化を実現することができる。また、エッジサーバ20002は、電子機器20001や光センサ20011に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、エッジサーバ20002のプロセッサが本開示を適用した処理を行う場合、電子機器20001や光センサ20011の仕様や性能の違いに依らず、データを受信できれば本開示を適用した処理を行うことができる。エッジサーバ20002で本開示を適用した処理を行う場合には、電子機器20001や光センサ20011における処理の負荷を軽減することができる。
 クラウドサーバ20003の構成は、エッジサーバ20002の構成と同様であるため、説明は省略する。
 クラウドサーバ20003においては、CPU20201やGPU20202等のプロセッサによって本開示を適用した処理を行うことができる。クラウドサーバ20003は、電子機器20001や光センサ20011に比べて、演算速度などの処理能力が高いため、汎用的に構成することができる。そのため、クラウドサーバ20003のプロセッサが本開示を適用した処理を行う場合、電子機器20001や光センサ20011の仕様や性能の違いに依らず、本開示を適用した処理を行うことができる。また、電子機器20001又は光センサ20011のプロセッサで負荷の高い本開示を適用した処理を行うことが困難である場合には、その負荷の高い本開示を適用した処理をクラウドサーバ20003のプロセッサが行い、その処理結果を電子機器20001又は光センサ20011のプロセッサにフィードバックすることができる。
 図12は、光センサ20011の構成例を示している。光センサ20011は、例えば複数の基板が積層された積層構造を有する1チップの半導体装置として構成することができる。光センサ20011は、基板20301と基板20302の2枚の基板が積層されて構成される。なお、光センサ20011の構成としては積層構造に限らず、例えば、撮像部を含む基板が、CPUやDSP(Digital Signal Processor)等の本開示を適用した処理を行うプロセッサを含んでいてもよい。
 上層の基板20301には、複数の画素が2次元に並んで構成される撮像部20321が搭載されている。下層の基板20302には、撮像部20321での画像の撮像に関する処理を行う撮像処理部20322と、撮像画像や信号処理結果を外部に出力する出力I/F20323と、撮像部20321での画像の撮像を制御する撮像制御部20324が搭載されている。撮像部20321、撮像処理部20322、出力I/F20323、及び撮像制御部20324により撮像ブロック20311が構成される。
 下層の基板20302には、各部の制御や各種の処理を行うCPU20331と、撮像画像や外部からの情報等を用いた信号処理を行うDSP20332と、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等のメモリ20333と、外部と必要な情報のやり取りを行う通信I/F20334が搭載されている。CPU20331、DSP20332、メモリ20333、及び通信I/F20334により信号処理ブロック20312が構成される。CPU20331及びDSP20332の少なくとも1つのプロセッサによって本開示を適用した処理を行うことができる。
 このように、複数の基板が積層された積層構造における下層の基板20302に、本開示を適用した処理用の信号処理ブロック20312を搭載することができる。これにより、上層の基板20301に搭載される撮像用の撮像ブロック20311で取得される画像データが、下層の基板20302に搭載された本開示を適用した処理用の信号処理ブロック20312で処理されるため、1チップの半導体装置内で一連の処理を行うことができる。
 光センサ20011においては、CPU20331等のプロセッサによって本開示を適用した処理を行うことができる。光センサ20011のプロセッサが処理等の本開示を適用した処理を行う場合、1チップの半導体装置内で一連の処理が行われるため、センサ外部に情報が漏れないことから情報の秘匿性を高めることができる。また、画像データ等のデータを他の装置に送信する必要がないため、光センサ20011のプロセッサでは、画像データを用いた処理等の本開示を適用した処理を高速に行うことができる。例えば、リアルタイム性が求められるアプリケーションなどの用途に処理が用いられた際に、リアルタイム性を十分に確保することができる。ここで、リアルタイム性を確保するということは、短い遅延時間で情報を伝達できることを指す。さらに、光センサ20011のプロセッサが本開示を適用した処理を行うに際して、電子機器20001のプロセッサにより各種のメタデータを渡すことで、処理を削減して低消費電力化を図ることができる。
 なお、本明細書において、コンピュータ(CPU等のプロセッサ)がプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(CPU等のプロセッサ)により処理されてもよいし、複数のコンピュータによって分散処理されてもよい。
 なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 また、本開示は、以下のような構成をとることができる。
(1)
 現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、
 前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
 情報処理装置。
(2)
 前記コンテンツを記録する記録部をさらに備える
 前記(1)に記載の情報処理装置。
(3)
 前記処理部は、前記物体に関する情報に基づいて、特定の物体を有する領域に、前記コンテンツを対応付ける
 前記(1)又は(2)に記載の情報処理装置。
(4)
 前記処理部は、前記形状に関する情報に基づいて、特定の形状を有する領域に、前記コンテンツを対応付ける
 前記(1)又は(2)に記載の情報処理装置。
(5)
 前記処理部は、前記大きさに関する情報に基づいて、特定の大きさを有する領域に、前記コンテンツを対応付ける
 前記(1)又は(2)に記載の情報処理装置。
(6)
 前記処理部は、前記色に関する情報に基づいて、特定の色を有する領域に、前記コンテンツを対応付ける
 前記(1)又は(2)に記載の情報処理装置。
(7)
 前記処理部は、前記材質に関する情報に基づいて、特定の材質を有する領域に、前記コンテンツを対応付ける
 前記(1)又は(2)に記載の情報処理装置。
(8)
 前記物体は、画像センサにより撮影された撮影画像に基づいて認識される
 前記(3)に記載の情報処理装置。
(9)
 前記形状は、画像センサにより撮影された撮影画像、IMUにより測定された加速度情報、及び測距センサにより測定された測距情報に基づいて認識される
 前記(4)に記載の情報処理装置。
(10)
 前記大きさは、画像センサにより撮影された撮影画像、IMUにより測定された加速度情報、及び測距センサにより測定された測距情報に基づいて認識される
 前記(5)に記載の情報処理装置。
(11)
 前記色は、画像センサにより撮影された撮影画像に基づいて認識される
 前記(6)に記載の情報処理装置。
(12)
 前記材質は、画像センサにより撮影された撮影画像、及び測距センサにより測定された測距情報に基づいて認識される
 前記(7)に記載の情報処理装置。
(13)
 前記処理部は、前記現実空間に応じた領域に配置するオブジェクトを生成する処理、及び前記現実空間に応じた領域にエフェクトを施す処理のうち、少なくとも一方の処理をさらに行う
 前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
 前記処理部は、ネットワークを経由して取得された付加情報に基づいて、前記コンテンツを加工する
 前記(13)に記載の情報処理装置。
(15)
 前記付加情報は、天気、及び時間の少なくとも一方に関する情報を含む
 前記(14)に記載の情報処理装置。
(16)
 前記現実空間に応じた領域を前記コンテンツに置き換えた映像を表示する表示部をさらに備える
 前記(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
 前記処理部は、前記現実空間を3Dスキャンしてポリゴンメッシュ構造でモデリングし、ポリゴンメッシュを前記コンテンツに置き換える処理を行い、
 前記表示部は、前記現実空間の3Dスキャンを開始した後であって、前記ポリゴンメッシュを前記コンテンツに置き換える前に、前記ポリゴンメッシュに関する映像を表示する
 前記(16)に記載の情報処理装置。
(18)
 前記処理部は、ユーザの編集操作に応じて、前記ポリゴンメッシュを加工する
 前記(17)に記載の情報処理装置。
(19)
 情報処理装置が、
 現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行い、
 前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
 情報処理方法。
(20)
 コンピュータを、
 現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、
 前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
 情報処理装置として機能させるプログラム。
 10 情報処理装置, 100 CPU, 101 GPU, 102 メインメモリ, 103 補助メモリ, 104 操作系, 105 ディスプレイ, 106 スピーカ, 107 通信I/F, 108 RGBセンサ, 109 IMU, 110 測距センサ, 111 GPS, 151 RGB画像取得部, 152 加速度情報取得部, 153 測距情報取得部, 154 ロケーション情報取得部, 155 天気情報取得部, 156 時間取得部, 157 オブジェクト検出部, 158 SLAM処理部, 159 ポイントクラウド生成部, 160 モデリング部, 161 3Dオブジェクト・材質認識部, 162 メッシュクラスタリング部, 163 形状認識部, 164 セマンティックセグメンテーション部, 165 AR処理部, 191 オブジェクト生成部, 192 モーフィング処理部, 193 エフェクト処理部

Claims (20)

  1.  現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、
     前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
     情報処理装置。
  2.  前記コンテンツを記録する記録部をさらに備える
     請求項1に記載の情報処理装置。
  3.  前記処理部は、前記物体に関する情報に基づいて、特定の物体を有する領域に、前記コンテンツを対応付ける
     請求項1に記載の情報処理装置。
  4.  前記処理部は、前記形状に関する情報に基づいて、特定の形状を有する領域に、前記コンテンツを対応付ける
     請求項1に記載の情報処理装置。
  5.  前記処理部は、前記大きさに関する情報に基づいて、特定の大きさを有する領域に、前記コンテンツを対応付ける
     請求項1に記載の情報処理装置。
  6.  前記処理部は、前記色に関する情報に基づいて、特定の色を有する領域に、前記コンテンツを対応付ける
     請求項1に記載の情報処理装置。
  7.  前記処理部は、前記材質に関する情報に基づいて、特定の材質を有する領域に、前記コンテンツを対応付ける
     請求項1に記載の情報処理装置。
  8.  前記物体は、画像センサにより撮影された撮影画像に基づいて認識される
     請求項3に記載の情報処理装置。
  9.  前記形状は、画像センサにより撮影された撮影画像、IMUにより測定された加速度情報、及び測距センサにより測定された測距情報に基づいて認識される
     請求項4に記載の情報処理装置。
  10.  前記大きさは、画像センサにより撮影された撮影画像、IMUにより測定された加速度情報、及び測距センサにより測定された測距情報に基づいて認識される
     請求項5に記載の情報処理装置。
  11.  前記色は、画像センサにより撮影された撮影画像に基づいて認識される
     請求項6に記載の情報処理装置。
  12.  前記材質は、画像センサにより撮影された撮影画像、及び測距センサにより測定された測距情報に基づいて認識される
     請求項7に記載の情報処理装置。
  13.  前記処理部は、前記現実空間に応じた領域に配置するオブジェクトを生成する処理、及び前記現実空間に応じた領域にエフェクトを施す処理のうち、少なくとも一方の処理をさらに行う
     請求項1に記載の情報処理装置。
  14.  前記処理部は、ネットワークを経由して取得された付加情報に基づいて、前記コンテンツを加工する
     請求項13に記載の情報処理装置。
  15.  前記付加情報は、天気、及び時間の少なくとも一方に関する情報を含む
     請求項14に記載の情報処理装置。
  16.  前記現実空間に応じた領域を前記コンテンツに置き換えた映像を表示する表示部をさらに備える
     請求項1に記載の情報処理装置。
  17.  前記処理部は、前記現実空間を3Dスキャンしてポリゴンメッシュ構造でモデリングし、ポリゴンメッシュを前記コンテンツに置き換える処理を行い、
     前記表示部は、前記現実空間の3Dスキャンを開始した後であって、前記ポリゴンメッシュを前記コンテンツに置き換える前に、前記ポリゴンメッシュに関する映像を表示する
     請求項16に記載の情報処理装置。
  18.  前記処理部は、ユーザの編集操作に応じて、前記ポリゴンメッシュを加工する
     請求項17に記載の情報処理装置。
  19.  情報処理装置が、
     現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行い、
     前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
     情報処理方法。
  20.  コンピュータを、
     現実空間を3Dスキャンして得られるスキャン結果に基づいて、前記現実空間に応じた領域を、対応付けたコンテンツに置き換える処理を行う処理部を備え、
     前記処理部は、前記現実空間における物体、形状、大きさ、色、及び材質の少なくともいずれかに関する情報に基づいて、前記現実空間に応じた領域に前記コンテンツを対応付ける
     情報処理装置として機能させるプログラム。
PCT/JP2022/007805 2021-07-12 2022-02-25 情報処理装置、情報処理方法、及びプログラム WO2023286321A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202280048250.5A CN117616463A (zh) 2021-07-12 2022-02-25 信息处理装置、信息处理方法及程序
JP2023535101A JPWO2023286321A1 (ja) 2021-07-12 2022-02-25

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-115287 2021-07-12
JP2021115287 2021-07-12

Publications (1)

Publication Number Publication Date
WO2023286321A1 true WO2023286321A1 (ja) 2023-01-19

Family

ID=84919257

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/007805 WO2023286321A1 (ja) 2021-07-12 2022-02-25 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
JP (1) JPWO2023286321A1 (ja)
CN (1) CN117616463A (ja)
WO (1) WO2023286321A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009195707A (ja) * 2008-02-21 2009-09-03 Palo Alto Research Center Inc 位置認識混合現実感ゲームプラットフォーム
JP2009289035A (ja) * 2008-05-29 2009-12-10 Jiro Makino 画像表示システム、携帯型表示装置、サーバコンピュータ、および遺跡観光システム
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
JP2020024671A (ja) * 2018-08-01 2020-02-13 東芝ライテック株式会社 生成装置、生成方法および生成プログラム
JP2020064592A (ja) * 2018-10-16 2020-04-23 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置、画像生成システム、画像生成方法、およびプログラム
WO2020121483A1 (ja) * 2018-12-13 2020-06-18 マクセル株式会社 表示端末、表示制御システムおよび表示制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009195707A (ja) * 2008-02-21 2009-09-03 Palo Alto Research Center Inc 位置認識混合現実感ゲームプラットフォーム
JP2009289035A (ja) * 2008-05-29 2009-12-10 Jiro Makino 画像表示システム、携帯型表示装置、サーバコンピュータ、および遺跡観光システム
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
JP2020024671A (ja) * 2018-08-01 2020-02-13 東芝ライテック株式会社 生成装置、生成方法および生成プログラム
JP2020064592A (ja) * 2018-10-16 2020-04-23 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置、画像生成システム、画像生成方法、およびプログラム
WO2020121483A1 (ja) * 2018-12-13 2020-06-18 マクセル株式会社 表示端末、表示制御システムおよび表示制御方法

Also Published As

Publication number Publication date
CN117616463A (zh) 2024-02-27
JPWO2023286321A1 (ja) 2023-01-19

Similar Documents

Publication Publication Date Title
JP7486565B2 (ja) クラウド支援型の新しい視点を利用したローカルマップデータの生成
EP3815398B1 (en) Multi-sync ensemble model for device localization
KR102164471B1 (ko) 복합 현실 환경을 작성하기 위한 시스템 등
CN105765631B (zh) 对跟踪和映射误差稳健的大规模表面重构
EP2852935B1 (en) Systems and methods for generating a 3-d model of a user for a virtual try-on product
CN105378801B (zh) 全息图快照网格
CN105981076B (zh) 合成增强现实环境的构造
US11928779B2 (en) Multi-resolution voxel meshing
CN110633617B (zh) 使用语义分割的平面检测
CN105190703A (zh) 使用光度立体来进行3d环境建模
CN110866966B (zh) 利用与环境相匹配的逼真表面属性渲染虚拟对象
CN109255749A (zh) 自主和非自主平台中的地图构建优化
US20240104744A1 (en) Real-time multi-view detection of objects in multi-camera environments
CN112348937A (zh) 人脸图像处理方法及电子设备
WO2022088819A1 (zh) 视频处理方法、视频处理装置和存储介质
US20230245396A1 (en) System and method for three-dimensional scene reconstruction and understanding in extended reality (xr) applications
US11200650B1 (en) Dynamic image re-timing
KR20210054408A (ko) Gis를 이용한 모델링 장치 및 방법
US11954909B2 (en) Semantic labeling of negative spaces
WO2023286321A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Leberl et al. Aerial computer vision for a 3d virtual habitat
CN112070901A (zh) 一种园林的ar场景构建方法、装置、存储介质及终端
CN115527000B (zh) 一种用于无人机倾斜摄影模型批量单体化的方法及装置
US11182980B1 (en) Procedural generation of computer objects
WO2022193180A1 (zh) 视频帧处理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22841671

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023535101

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 18576422

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 202280048250.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE