WO2020166352A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2020166352A1
WO2020166352A1 PCT/JP2020/003351 JP2020003351W WO2020166352A1 WO 2020166352 A1 WO2020166352 A1 WO 2020166352A1 JP 2020003351 W JP2020003351 W JP 2020003351W WO 2020166352 A1 WO2020166352 A1 WO 2020166352A1
Authority
WO
WIPO (PCT)
Prior art keywords
template
content
environment
environment map
real
Prior art date
Application number
PCT/JP2020/003351
Other languages
English (en)
French (fr)
Inventor
岳 成田
高志 瀬能
智也 石川
洋祐 加治
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/422,341 priority Critical patent/US11605207B2/en
Publication of WO2020166352A1 publication Critical patent/WO2020166352A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/61Scene description

Definitions

  • the present technology relates to an information processing device, an information processing method, and a program, and in particular, an information processing device capable of applying AR content generated assuming a predetermined environment to an actual environment and displaying the AR content. , Information processing methods, and programs.
  • AR Augmented Reality
  • HMD Head Mounted Display
  • AR content which is the content for realizing AR, measures, for example, the three-dimensional shape of a specific scene that displays the AR content, and arranges objects such as characters in the three-dimensional space represented by the measurement results. Generated by. RGB cameras, depth sensors, LiDAR, and other sensors are used to measure scenes.
  • the position and orientation of the user in the same specific scene as the scene measured when the AR content was generated are detected, and the position and orientation of the object are controlled according to the detected position and orientation. Is done.
  • the playback of the AR content generated as described above can be performed only in the specific scene in which the three-dimensional shape was measured. For example, AR content generated for a specific living room cannot be displayed in another living room.
  • the present technology has been made in view of such a situation, and makes it possible to apply AR content generated assuming a predetermined environment to the actual environment and display it.
  • An information processing apparatus is a first map generation unit that generates a template environment map that represents a three-dimensional space environment that serves as a template in which a predetermined object exists, and an object that is superimposed on the environment in the real space. Which is a content used as a template used to generate display content for displaying the object, and displays information about the object arranged at a position in the three-dimensional space having a predetermined positional relationship with the predetermined object.
  • a first content generation unit that generates template content including the first content generation unit.
  • An information processing device is a template environment map that represents a three-dimensional space environment that serves as a template in which a predetermined object is present, and display content for displaying an object by overlaying it on the real space environment.
  • a template that is used to generate a template, and that acquires template content including information of the object arranged at a position in the three-dimensional space having a predetermined positional relationship with the predetermined object.
  • An acquisition unit, a map generation unit that generates a real environment map that represents the environment of the real space, and the display content is generated by processing the template content based on the template environment map and the real environment map. And a content generation unit.
  • a template environment map representing a three-dimensional space environment that serves as a template, in which a predetermined object exists is generated, and display content for displaying an object overlaid on the real space environment is generated.
  • the template content used for the operation is generated, and the template content including the information of the object arranged at the position in the three-dimensional space having the predetermined positional relationship with the predetermined object is generated.
  • a template environment map that represents a three-dimensional space environment that serves as a template in which a predetermined object exists, and display content that is used to display an object in the real space environment are generated.
  • a template content used for this purpose which is template content including information of the object arranged at a position in the three-dimensional space having a predetermined positional relationship with the predetermined object, is acquired.
  • a real environment map representing the environment of the real space is generated, and the display content is generated by processing the template content based on the template environment map and the real environment map.
  • FIG. 7 is a flowchart illustrating a display AR content generation process. It is a figure which shows the example of a real environment map and AR content for a display. It is a figure which shows the example of the positional relationship of each object. It is a figure which shows the example of substitution of the position of an object. It is a figure which shows the example of a real environment map and AR content for a display. It is a figure which shows the example of the positional relationship of each object. It is a figure which shows the example of substitution of the position of an object. It is a figure which shows the example of a real environment map and AR content for a display. It is a figure which shows the example of the positional relationship of each object. It is a figure which shows the example of substitution of the position of an object.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment of the present technology.
  • the information processing system in FIG. 1 is configured by connecting the HMD 1 and the information processing device 2 via a network 3 such as a LAN (Local Area Network) or the Internet.
  • a network 3 such as a LAN (Local Area Network) or the Internet.
  • the HMD 1 is a glasses-type wearable terminal having a transmissive display unit.
  • the HMD 1 displays an image including various objects such as characters on the display unit under the control of the information processing device 2 performed via the network 3. The user will see the object over the landscape in front of him.
  • the projection method of the image including the object may be a virtual image projection method or a retinal projection method in which an image is directly formed on the retina of the user's eye.
  • the information processing device 2 reproduces the AR content and transmits the image data obtained by the reproduction to the HMD1 to display the image of the AR content on the HMD1.
  • the information processing device 2 is composed of, for example, a PC.
  • a mobile terminal such as the video-transmissive HMD HMD1A shown in FIG. 2A or the smartphone 1B shown in FIG. 2B may be used as a display device for AR content.
  • the AR content video played by the information processing device 2 is displayed by being superimposed on the image of the landscape in front of the HMD1A taken by the camera provided in the HMD1A.
  • a display In front of the eyes of the user wearing the HMD 1A, there is provided a display that displays the AR content over the image captured by the camera.
  • the video of the AR content reproduced by the information processing device 2 is displayed by being superimposed on the image of the landscape in front of the smartphone 1B, which is captured by the camera provided on the back surface of the smartphone 1B. ..
  • a display that displays various images is provided on the front surface of the smartphone 1B.
  • -A projector that projects an image on the surface of an object existing in an actual scene may be used as a display device for AR content.
  • Various devices such as tablet terminals and television receivers can be used as display devices for AR content.
  • the display device and the information processing device 2 may be connected by wire instead of wirelessly via the network 3.
  • FIG. 3 is a diagram showing an example of an actual scene.
  • the living room shown in FIG. 3 is the actual scene (real space) in which the user views the AR content.
  • the object O T 1 is a floor
  • the object O T 11 is a table
  • the object O T 21 to O T 24 is a chair
  • sofa the object O T 12
  • the objects O T 21 to O T 24 which are four chairs, are arranged with their front faces facing the object O T 11 , which is a table having a substantially square top plate.
  • the object O T 12 which is a sofa is arranged in the vicinity of the object O T 11 .
  • the AR content image is displayed over such an actual scene.
  • FIG. 4 is a diagram showing a display example of AR content.
  • the object including the characters C 1 to C 4 has, for example, a three-dimensional shape. Depending on the position and orientation of the user in the three-dimensional space, the appearance of the object, such as size and angle, differs.
  • the AR content used for displaying such a video is generated by the information processing device 2 based on the template AR content that is the AR content prepared in advance as a template.
  • the AR content is generated by changing the arrangement of the objects in the template AR content according to the actual scene as shown in FIG.
  • the actual scene is unknown to the information processing device 2 until the three-dimensional shape is measured.
  • the AR content is generated by applying the template AR content generated assuming a specific scene to an unknown scene.
  • Template AR content is constructed by arranging objects in a three-dimensional space represented by the three-dimensional shape of a specific scene assumed as a template.
  • the environment including the three-dimensional shape of each scene is represented by an environment map.
  • the environment map includes information indicating the three-dimensional shape of the scene and information about objects existing in the scene.
  • the information about the object represents the attribute, number, position, etc. of the object.
  • the three-dimensional shape of the template scene which is the scene assumed as the template, is represented by the template environment map.
  • the template environment map includes information indicating the three-dimensional shape of the template scene and information about objects existing in the template scene.
  • the template scene is a known scene for the information processing device 2.
  • FIG. 5 is a diagram showing an example of a template scene.
  • the template scene shown in FIG. 5 is a scene assuming a specific living room.
  • object O S 1 is a floor
  • the object O S 11 is a table, which is that there is an object O S 21 through O S 24 is the chair .
  • Object O S 21 through O S 24 is a four-legged chairs are arranged toward the front to the object O S 11 is a table with a circular top plate.
  • FIG. 6 is a diagram showing an example of template AR content.
  • the template AR content is configured by placing objects having a three-dimensional shape in the template scene.
  • the image four character C 1 to C 4 of the object is seated on the object O S 21 through O S 24 is a chair, respectively, the template AR content is composed.
  • the template AR content includes video data of the characters C 1 to C 4 sitting on the objects O S 21 to O S 24 .
  • ⁇ Reproduction of AR content is performed based on the display AR content generated by processing the template AR content including the image of the character in such a template scene according to the actual scene.
  • an actual scene is measured, and an actual environment map, which is an environment map showing the three-dimensional shape of the actual scene, is generated.
  • the real environment map shows the three-dimensional shape (three-dimensional shape of the actual scene), attributes, number, and position of each of the objects O T 1 , O T 11 , and O T 21 to O T 24 in FIG. To be done.
  • the position and orientation of the user in the actual scene are estimated, and when the position of the user is used as a reference, the characters C 1 to C 4 are sitting on the actually existing objects O T 21 to O T 24.
  • the display AR content of FIG. 4 for making it visible is generated based on the template AR content of FIG.
  • FIG. 7 is a diagram showing an example of the overall processing flow.
  • FIG. 7 Each process shown in FIG. 7 is performed by the information processing device 2, for example. Details of each process will be described later.
  • a template environment map (FIG. 5) is generated.
  • the template environment map is information including information indicating the three-dimensional shape of the template scene and information about objects existing in the template scene.
  • the template AR content (FIG. 6) is generated as the process of step S2.
  • the template AR content is constructed by arranging objects in a template scene whose three-dimensional shape is represented by a template environment map.
  • Generation of the template environment map and generation of the template AR content as described above is performed as a pre-processing before the reproduction of the AR content.
  • the environmental data of the actual scene is acquired as the process of step S11.
  • Environmental data measured by the HMD 1 worn by the user is transmitted to the information processing device 2.
  • the environmental data includes, for example, an RGB image taken by an RGB camera provided on the HMD1 and distance information indicating the distance to each position of the object detected by the sensor provided on the HMD1.
  • the distance information includes, for example, a distance image measured by a depth sensor and point cloud data (point cloud) measured by LiDAR (Light Detection and Ranging).
  • the real environment map is information including information representing a three-dimensional shape of an actual scene and information about objects existing in the actual scene.
  • step S13 display AR content is generated based on the template environment map, the template AR content, and the actual environment map.
  • the AR content for display is generated by comparing the template scene represented by the template environment map with the actual scene represented by the actual environment map, and changing the position and orientation of the objects included in the template AR content. Be seen.
  • step S14 the position and orientation of the user in the actual scene represented by the real environment map is estimated based on the environment data acquired in step S11 and the real environment map generated in step S12. To be done.
  • the position and orientation of the HMD 1, which is a display device, is estimated as the position and orientation of the user.
  • step S15 the display AR content is played back, and the AR content according to the position and orientation estimated in step S14 is displayed.
  • Video data corresponding to the position and posture of the user is transmitted from the information processing device 2 to the HMD 1, and the video is displayed so as to be superimposed on the actual scene.
  • AR content providers do not have to individually generate AR content tailored to specific scenes.
  • users can view and experience one general-purpose template AR content in various scenes.
  • the AR content provider does not need to acquire the environment map of the actual scene in which the AR content is viewed in advance.
  • FIG. 8 is a block diagram showing a configuration example of the HMD 1.
  • the HMD 1 is configured by connecting the camera 12, the sensor 13, the communication unit 14, the display unit 15, and the memory 16 to the control unit 11.
  • the control unit 11 includes a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the control unit 11 executes a program stored in the ROM or the memory 16 and controls the entire operation of the HMD 1.
  • control unit 11 generates environment data based on the RGB image captured by the camera 12 and the measurement result of the sensor 13 when the AR content is reproduced, and causes the communication unit 14 to transmit the environment data to the information processing device 2.
  • the control unit 11 displays the video data received by the communication unit 14 on the display unit 15. Output to and display.
  • the camera 12 captures a scene in front of the user at a predetermined timing such as when playing AR content.
  • the camera 12 outputs the RGB image obtained by shooting to the control unit 11.
  • the sensor 13 is composed of a depth sensor, LiDAR, etc.
  • the depth sensor and LiDAR forming the sensor 13 measure the distance to each position forming an actual scene, and output a distance image, point cloud data, etc. to the control unit 11 as data representing the measurement result.
  • the sensor 13 appropriately includes various sensors such as an acceleration sensor, a gyro sensor, and a positioning sensor.
  • the measurement results of the acceleration sensor, the gyro sensor, and the positioning sensor are included in the environmental data and transmitted to the information processing device 2.
  • the measurement results obtained by the acceleration sensor, gyro sensor, and positioning sensor are used to estimate the position and orientation of the user.
  • the communication unit 14 is composed of a communication module such as a wireless LAN.
  • the communication unit 14 communicates with the information processing device 2 via the network 3 and transmits the environmental data supplied from the control unit 11 to the information processing device 2.
  • the communication unit 14 also receives the video data transmitted from the information processing device 2 and outputs the video data to the control unit 11.
  • the display unit 15 displays the AR content video based on the video data supplied from the control unit 11.
  • the memory 16 is a storage medium such as a flash memory.
  • the memory 16 stores various data such as programs executed by the CPU of the control unit 11.
  • FIG. 9 is a block diagram showing a configuration example of the information processing device 2.
  • the CPU 51, ROM 52, and RAM 53 are connected to each other by a bus 54.
  • An input/output interface 55 is further connected to the bus 54.
  • the input/output interface 55 is connected to an input unit 56 including a keyboard and a mouse, and an output unit 57 including a display and a speaker. Further, the input/output interface 55 is connected with a storage unit 58 including a hard disk or a non-volatile memory, a communication unit 59 including a network interface, and a drive 60 that drives a removable medium 61.
  • FIG. 10 is a block diagram showing a functional configuration example of the information processing device 2.
  • the information processing unit 71 is realized by the CPU 51 of FIG. 9 executing a predetermined program.
  • the information processing unit 71 includes a template environment map generation unit 81, a template AR content generation unit 82, a template storage unit 83, an environment data acquisition unit 84, an actual environment map generation unit 85, a display AR content generation unit 86, an estimation unit 87, And a display control unit 88.
  • the template environment map generation unit 81 generates a template environment map.
  • the process of step S1 of FIG. 7 is a process performed by the template environment map generation unit 81.
  • the template environment map generated by the template environment map generation unit 81 is supplied to the template AR content generation unit 82 and the template storage unit 83.
  • the template AR content generation unit 82 uses the template environment map supplied from the template environment map generation unit 81 to generate template AR content.
  • the process of step S2 in FIG. 7 is the process performed by the template AR content generation unit 82.
  • Object data, information designating the position and orientation of the object in the template scene, and the like are appropriately input to the template AR content generation unit 82, and used to generate the template AR content.
  • the template AR content generated by the template AR content generation unit 82 is supplied to the template storage unit 83.
  • the template storage unit 83 stores the template environment map generated by the template environment map generation unit 81 and the template AR content generated by the template AR content generation unit 82.
  • the template environment map and the template AR content stored in the template storage unit 83 are read by the display AR content generation unit 86 when the display AR content is generated.
  • the environmental data acquisition unit 84 acquires the environmental data transmitted from the HMD 1 when the AR content is reproduced and received by the communication unit 59.
  • the process of step S11 of FIG. 7 is a process performed by the environment data acquisition unit 84.
  • the environmental data acquired by the environmental data acquisition unit 84 is supplied to the actual environment map generation unit 85 and the estimation unit 87.
  • the actual environment map generation unit 85 generates an actual environment map based on the environmental data supplied from the environmental data acquisition unit 84.
  • the process of step S12 of FIG. 7 is a process performed by the real environment map generation unit 85.
  • the real environment map generated by the real environment map generation unit 85 is supplied to the display AR content generation unit 86 and the estimation unit 87.
  • the display AR content generation unit 86 reads and acquires the template environment map and the template AR content from the template storage unit 83.
  • the display AR content generation unit 86 generates display AR content based on the data read from the template storage unit 83 and the real environment map supplied from the real environment map generation unit 85.
  • the AR content for display is generated, for example, by processing the template AR content according to the actual scene represented by the actual environment map.
  • step S13 in FIG. 7 is the process performed by the display AR content generation unit 86.
  • the display AR content generated by the display AR content generation unit 86 is supplied to the display control unit 88.
  • the estimation unit 87 estimates the position and orientation of the user in the actual scene based on the environmental data supplied from the environmental data acquisition unit 84 and the actual environment map supplied from the actual environment map generation unit 85.
  • the processing of step S14 of FIG. 7 is processing performed by the estimation unit 87.
  • Information indicating the estimation result by the estimation unit 87 is supplied to the display control unit 88.
  • the display control unit 88 reproduces the display AR content supplied from the display AR content generation unit 86, and generates video data according to the position and orientation estimated by the estimation unit 87.
  • the process of step S15 of FIG. 7 is a process performed by the display control unit 88.
  • the display control unit 88 controls the communication unit 59 to transmit the video data to the HMD 1 and display the video of the AR content for display on the HMD 1.
  • the environment map template environment map generation template environment map generating unit 81 generates the, information representing one or more objects O S _i attribute X_i is associated, the relative position between the object O S _i It contains information that describes the relationship.
  • Attribute X_i represents floor, table, such as a chair, a category of the object O S _i.
  • the relative positional relationship between the objects O S — i is represented, for example, as a difference between the positions of the objects O S — i in the template scene that is the three-dimensional space.
  • the relative positional relationship between the object O S _i is, in addition to the translational component, may be represented by the rotational component.
  • the template environment map generation unit 81 generates a template environment map by, for example, arranging a 3D CAD model of an object associated with an attribute in a virtual three-dimensional space such as a game engine. Further, the template environment map generation unit 81 generates a natural language that represents the attributes, numbers, relative positional relationships, etc. of objects existing in the template scene as a template environment map.
  • Templates AR to the template AR content is generated template AR content generation unit 82 generates the content, one or more objects C_j information, and, relative to the object O S _i described in each object C_j and template environment map The information that represents the physical positional relationship is included.
  • the relative positional relationship between the object C_j and object O S _i is, in addition to the translational component, may be represented by the rotational component.
  • FIG. 11 is a diagram showing an example of a template environment map and template AR contents.
  • the template environment map and the template AR content are represented by text.
  • the template environment map shown in the upper part of FIG. 11 has a floor surface, one table and four chairs on the floor surface, and four chairs surround the table. Represents a scene as shown.
  • the template AR content shown in the lower part of FIG. 11 is a content that realizes the appearance as shown in FIG. 6 by seating four different characters on four chairs surrounding a table.
  • information about users who view AR content may be included as part or all of the information about objects described in the template environment map.
  • template AR content such as “sitting a character in a chair closest to the user” is generated.
  • the “user” and the “chair” respectively correspond to the object O S — i.
  • “closest to the user” is defined by information indicating the relative positional relationship between the two.
  • dynamic template AR content in which objects move in the template scene may be generated.
  • FIG. 12 is a diagram showing an example of the flow of processing for generating an actual environment map.
  • the actual environment map is generated by the actual environment map generation unit 85 when the environmental data including the RGB image, the distance image, the point cloud data, etc. is supplied from the environmental data acquisition unit 84. Be seen. For example, the environmental data is repeatedly transmitted from the HMD 1 at a predetermined cycle. An actual environment map is generated based on the environmental data that is sequentially transmitted.
  • a voxel space composed of a voxel (voxel) that stores a truncation-signed distance to an object surface existing in an actual scene and an object ID for uniquely distinguishing an object existing in the scene is prepared. ..
  • An object attribute table that manages the attributes of each object is prepared.
  • the actual environment map generation unit 85 uses the RGB image, the distance image, and the point cloud data supplied from the environment data acquisition unit 84 to generate images and points. Region segmentation of objects represented by groups, attribute estimation, and object ID estimation.
  • Area division identifies the area of each object in the actual scene.
  • the attribute of the object is estimated by the attribute estimation.
  • the real environment map generation unit 85 has data for estimating the attribute of the object based on the characteristics such as the shape represented by the image or the point cloud data.
  • the object ID estimation is a process necessary for obtaining consistency with the object ID given to the object, and is performed by appropriately referring to the object ID already stored in the voxel space as shown by an arrow A12. Be seen. Further, the object tracking process may be performed based on the image or point cloud data input as the time series data, and the object ID may be estimated based on the result of the object tracking.
  • the actual environment map generation unit 85 stores the object ID estimated by the object ID estimation in the voxel space based on the distance image or the point cloud data.
  • the object ID is set as voxel information at a position corresponding to the distance to the object.
  • the real environment map generation unit 85 stores the result of attribute estimation for each object and the result of object ID estimation in the object attribute table.
  • the attributes of each object are managed in association with the object ID.
  • the actual environment map generation unit 85 uses the RGB image, distance image, and point cloud data supplied from the environment data acquisition unit 84 to determine the object surface of each object. Compute the censored distance to and store in voxel space.
  • the information stored in the voxels forming the voxel space represents the ID of the object located at the position corresponding to each voxel.
  • the real environment map generation unit 85 integrates the information of the voxel space and the information of the object attribute table to obtain the three-dimensional shape of the actual scene and the actual scene.
  • the attributes and positions of each object existing in the scene and the relative positional relationship between the objects are extracted.
  • the real environment map generation unit 85 generates information including the extracted information as a real environment map, as indicated by the tip of arrow A18.
  • FIG. 13 is a diagram showing another example of the flow of the actual environment map generation processing.
  • the real environment map generation process shown in FIG. 13 stores the truncation-signed distance in the voxel space first, and based on the information stored in the voxel space, the area division of the object, the attribute estimation, the object ID estimation, and the like. Is a process for performing.
  • the actual environment map generation unit 85 uses the RGB image, distance image, and point cloud data supplied from the environment data acquisition unit 84 for each object.
  • the censored distance to the object surface is calculated and stored in the voxel space.
  • step S42 the real environment map generation unit 85 extracts an array of truncation-coded distances, point cloud data, mesh, and the like from the voxel space, and based on the extracted information, object area division, attribute estimation, and object ID estimation. I do.
  • step S43 the real environment map generation unit 85 stores the object ID estimated by the object ID estimation in the voxel space.
  • the actual environment map generation unit 85 stores the attribute estimation result for each object and the object ID estimation result in the object attribute table.
  • the real environment map generation unit 85 integrates the information of the voxel space and the information of the object attribute table to obtain the three-dimensional shape of the actual scene and the actual scene.
  • the attributes and positions of each object existing in the scene and the relative positional relationship between the objects are extracted.
  • the real environment map generation unit 85 generates information including the extracted information as a real environment map, as indicated by the tip of arrow A35.
  • the display AR content generation process of the display AR content generation unit 86 will be described with reference to the flowchart in FIG.
  • the display AR content is generated using the template environment map and the template AR content read from the template storage unit 83, and the actual environment map generated by the actual environment map generating unit 85.
  • step S51 the display AR content generation unit 86 causes the object O T _i having the same attribute X_i as the object O S _i represented by the template environment map to exist in the actual scene represented by the actual environment map.
  • the object to be searched O T _i is searched.
  • step S52 the display AR content generation unit 86, the number of found object O T _i, and the relative positional relationship of the object O T _i, respectively, are represented by the template environment map, an attribute X_i It is determined whether or not the number of objects O S _i possessed and the relative positional relationship of the objects O S _i match.
  • the condition is It is judged as satisfying.
  • the positional relationship of the objects does not have to be completely the same, and may be determined to satisfy the condition when the similarity of the positional relationship is higher than a threshold value.
  • step S52 When it is determined in step S52 that the number and relative positional relationship of the searched objects O T — i match the number and relative positional relationship of the objects O S — i, respectively, the process proceeds to step S53.
  • step S53 the display AR content generation unit 86 replaces the position of the object based on the position of the object O S — i in the template AR content with the position based on the position of the object O T — i. Generate AR content for display.
  • Positional relationship between the object and the object O T _i in display AR content the same positional relationship as the positional relationship between the object and the object O S _i in the template AR content.
  • FIG. 15 is a diagram showing an example (example 2-1) of a real environment map and display AR contents.
  • the actual environment map shown in the upper part of FIG. 15 has a floor surface, one table and four chairs on the floor surface, and four chairs surround the table. Represents a scene as shown.
  • the template environment map representing the template scene described with reference to FIG. 11 (FIG. 5) are prepared, as the object O T _i with object O S _i same attributes X_i, the object O S 11 ( Object O T 11 (FIG. 3) having the same “table” attribute as in FIG. 5) is retrieved.
  • the object O T 21 having the attribute of "chair” in the same object O S 21 the same object O S 22 object O T 22 having the attribute of "chair”, the same as the object O S 23 "chair” object O T 23 having the attributes, and the object O T 24 having the attribute of "chair” object O S 24 identical and are searched respectively.
  • the number of objects O S 11 (table) and objects O S 21 to O S 24 (chairs) in the template scene, and the positional relationship between them are the same as object O T 11 (table) and object O T 21 in the actual scene. To the number of O T 24 (chairs) and their positional relationships are determined to be the same.
  • FIG. 16 is a diagram showing an example of the positional relationship of each object.
  • the positional relationship between the objects O S 11 and the objects O S 21 to O S 24 in the template scene represented by the template environment map is as shown on the left side of FIG.
  • the positional relationship between the objects O T 11 and the objects O T 21 to O T 24 in the actual scene which is represented by the actual environment map, is the positional relationship shown on the right side of FIG.
  • the positional relationship between the object O S 11 and the objects O S 21 to O S 24 in the template scene has the same “table” attribute as the positional relationship between the object O T 11 and the objects O T 21 to O T 24 in the actual scene. They are the same in that there are four chairs in a position surrounding the object that they have.
  • display AR contents that realize the appearance in which four different characters are seated on four chairs that surround the table are generated based on the template AR contents.
  • the chairs used for seating the four characters are the objects O T 21 to O T 24 existing in the actual scene.
  • FIG. 17 is a diagram showing an example of replacement of the position of an object in the template AR content.
  • the position of the character C 1 sitting on the object O S 21 in the template AR content is replaced with the position of the object O T 21 as shown by an arrow A101 in FIG. To be done.
  • the position of each character is represented by a circle with a predetermined pattern.
  • the position of the character C 1 is set based on the positions of the objects O S 11 and O S 21 , and the same positional relationship as that is based on the positions of the objects O T 11 and O T 21. Maintained.
  • the position of the character C 2 seated on the object O S 22 in the template AR content is replaced with the position of the object O T 22 as shown by an arrow A102.
  • the position of the character C 3 seated on the object O S 23 is replaced with the position of the object O T 23 as shown by an arrow A103.
  • the position of the character C 4 sitting on the object O S 24 is replaced with the position of the object O T 24 as shown by an arrow A104.
  • step S52 when it is determined in step S52 that the number and relative positional relationship of the searched objects O T _i do not match the number and relative positional relationship of the objects O S _i, respectively.
  • the process proceeds to step S54.
  • step S54 the display AR content generation unit 86, the object O T '_i having attributes X'_i similar to the object O S _i represented by the template environment map is represented by a real environment map, the actual The object O T _i existing in the scene is searched.
  • the attribute X'_i similar to the attribute X_i is defined in advance in a table or the like when the template AR content is generated, for example.
  • the attribute X'_i may be designated by the user when the AR content for display is generated.
  • step S55 the display AR content generation unit 86, including the retrieved object O T '_i, number of objects O T _i, and, the relative positional relationship of the object O T _i, respectively, the template environment It is determined whether the number of objects O S _i having the attribute X_i represented by the map and the relative positional relationship of the objects O S _i match.
  • step S55 When it is determined in step S55 that the number and relative positional relationship of the objects O T — i match the number and relative positional relationship of the objects O S — i, respectively, the process proceeds to step S53.
  • step S53 similarly to the above-described processing, the position of the object in the template AR content with reference to the position of the object O S — i is replaced with the position with reference to the position of the object O T — i to display AR content for use is generated.
  • FIG. 18 is a diagram showing an example (example 2-2) of a real environment map and display AR contents.
  • the actual environment map shown in the upper part of FIG. 18 represents a scene in which the floor surface exists and one table, four chairs, and one sofa exist on the floor surface.
  • three of the four chairs surround the table, but one chair is positioned away from the table.
  • the one-legged sofa is supposed to be near the table.
  • the object O T _i with object O S _i same attributes X_i is retrieved.
  • the number of objects O S 11 (table) and objects O S 21 to O S 24 (chairs) in the template scene, and the positional relationship between them are the same as object O T 11 (table) and object O T 21 in the actual scene. or it is determined that the O T 24 is not identical to the number, and the respective positional relationship (the chair).
  • FIG. 19 is a diagram showing an example of the positional relationship of each object.
  • the positional relationship between the object O S 11 and the objects O S 21 to O S 24 in the template scene is the same as the positional relationship between the object O T 11 and the objects O T 21 to O T 24 in the actual scene. They are not the same in that some objects O T 24 are at distant locations.
  • the object O T 12 having the attribute of “sofa” having the attribute similar to that of “chair” is searched from the objects O T — i existing in the actual scene represented by the real environment map.
  • the number of objects O S 11 in the template scene (table) and the object O S 21 through O S 24 (chair), and each of the positional relationships, including the object O T 12, the object O T 11 in the actual scene It is determined that the number of (tables) and objects O T 21 to O T 23 (chairs) and the number of objects O T 12 (sofa), and the positional relationship between them are the same.
  • the display AR content that realizes the appearance in which four different characters are seated on the three chairs that surround the table and the sofa near the table is the template AR content. It is generated based on.
  • the chairs used for seating the four characters are the objects O T 21 to O T 23 and the object O T 12 existing in the actual scene.
  • FIG. 20 is a diagram showing an example of replacement of an object position in the template AR content.
  • the position of the character C 2 seated on the object O S 22 in the template AR content is replaced with the position of the object O T 22 as indicated by an arrow A112.
  • the position of the character C 3 sitting on the object O S 23 is replaced with the position of the object O T 23 as shown by an arrow A113.
  • the position of the character C 4 seated on the object O S 24 is replaced with the position of the object O T 12 which is a sofa, as indicated by an arrow A114.
  • step S55 when it is determined in step S55 that the number and relative positional relationship of the searched objects O T — i do not match the number and relative positional relationship of the objects O S — i, respectively.
  • the process proceeds to step S56.
  • the actual scene does not have objects with the same number and the same positional relationship as the objects that exist in the template scene.
  • step S56 the display AR content generation unit 86, an object C_j (virtual object) with the object O S _i same attributes X_i represented by the template environment map, the number of missing, generates.
  • an object with the attribute of "chair” is generated. Instead of generating objects having the same attribute, objects having similar attributes may be generated.
  • step S57 the display AR content generation unit 86 determines that the relative positional relationship between the object O T _i existing in the actual scene and the newly generated object C_j is the positional relationship of the object O S _i in the template scene.
  • the arrangement position of the object C_j is determined so that they coincide with each other.
  • the object O T _i also includes the object O T ′_i searched in step S54.
  • step S58 the display AR content generation unit 86 replaces the position of the object based on the position of the object O S _i in the template AR content with the position based on the positions of the object O T _i and the object C_j. By doing so, the AR content for display is generated.
  • FIG. 21 is a diagram showing an example (example 2-3) of the actual environment map and the AR content for display.
  • the actual environment map shown in the upper part of FIG. 21 shows a scene in which the floor is present and one table and three chairs are present on the floor. In this example, three chairs surround the table.
  • the object O T _i with object O S _i same attributes X_i is retrieved.
  • the number of objects O S 11 (table) and objects O S 21 to O S 24 (chairs) in the template scene, and the positional relationship between them are the same as object O T 11 (table) and object O T 21 in the actual scene. To the number of O T 23 (chairs) and the positional relationship between them are not the same. In an actual scene, the number of chairs would be insufficient by one.
  • FIG. 22 is a diagram showing an example of the positional relationship of each object.
  • FIG. 16 Shown on the left side of FIG. 22, the positional relationship of the object O S 11 and the object O S 21 through O S 24 in the template scene, FIG. 16 is the same as the positional relationship described with reference to FIG. 19.
  • the positional relationship between the objects O T 11 and the objects O T 21 to O T 23 in the actual scene represented by the actual environment map is the positional relationship shown on the right side of FIG.
  • the positional relationship between the object O S 11 and the objects O S 21 to O S 24 in the template scene is the same as the positional relationship between the object O T 11 and the objects O T 21 to O T 23 in the actual scene. They are not the same in that they are lacking.
  • the arrangement position of the object C 11 is determined so as to have the same positional relationship as the positional relationship between the object O S 11 and the objects O S 21 to O S 24 in the template scene.
  • the display AR content that realizes the appearance in which four different characters are seated on the three chairs and the virtual chair that surround the table are based on the template AR content.
  • the chairs used for seating the four characters are the objects O T 21 to O T 23 existing in the actual scene and the virtual object C 11 .
  • the display AR content also includes video data for displaying the object C 11 .
  • FIG. 23 is a diagram showing an example of replacement of the position of an object in the template AR content.
  • the position of the character C 2 seated on the object O S 22 in the template AR content is replaced with the position of the object O T 22 as shown by an arrow A122.
  • the position of the character C 3 sitting on the object O S 23 is replaced with the position of the object O T 23 as shown by an arrow A123.
  • the virtual object is used to replace the character position.
  • step S53 ends after the display AR content is generated in step S53 or step S58.
  • AR content providers do not have to individually generate AR content tailored to a specific scene. Further, the AR content provider does not need to acquire in advance an environment map of the actual scene in which the AR content is viewed.
  • a technology related to AR that detects a primitive shape such as a plane based on the environment map of the actual scene and displays the object according to the position and orientation of the detected shape.
  • the AR content provider can provide the AR content with rich expression.
  • the configuration on the generation side of the template template environment map and template AR content
  • the configuration on the reproduction side of the AR content can be realized in the HMD 1.
  • FIG. 24 is a block diagram showing another configuration example of the information processing system.
  • the information processing unit 101 is realized by executing a predetermined program by the control unit 11 in FIG.
  • the information processing unit 101 includes an environment data acquisition unit 84, an actual environment map generation unit 85, a display AR content generation unit 86, an estimation unit 87, a display control unit 88, and a template acquisition unit 111.
  • the template acquisition unit 111 controls the communication unit 14 to acquire the template generated in the information processing unit 71 of the information processing device 2 and transmitted from the information processing device 2.
  • the template acquisition unit 111 outputs the acquired template to the display AR content generation unit 86 when the AR content is reproduced.
  • HMD1 perform the processing including the generation of the actual environment map and the generation of the AR content for display.
  • the program to be installed is provided by being recorded on a removable medium 61 shown in FIG. 9 including an optical disc (CD-ROM (Compact Disc-Read Only Memory), DVD (Digital Versatile Disc), etc.) and semiconductor memory. Further, it may be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program can be installed in advance in the ROM 52 or the storage unit 58.
  • the program executed by the computer may be a program in which processing is performed in time series in the order described in this specification, or in parallel, or at a required timing such as when a call is made. It may be a program in which processing is performed.
  • the system means a set of a plurality of constituent elements (devices, modules (parts), etc.), and it does not matter whether or not all constituent elements are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems. ..
  • the present technology can have a configuration of cloud computing in which one function is shared by a plurality of devices via a network and jointly processes.
  • each step described in the above-mentioned flowchart can be executed by one device or shared by a plurality of devices.
  • one step includes a plurality of processes
  • the plurality of processes included in the one step can be executed by one device or shared by a plurality of devices.
  • a first map generation unit that generates a template environment map that represents an environment of a three-dimensional space that serves as a template in which a predetermined object exists,
  • the content is a template used to generate display content for displaying an object in an environment of a real space, the content being in a position on the three-dimensional space having a predetermined positional relationship with the predetermined object.
  • a first content generation unit that generates a template content including the information of the arranged objects.
  • a second map generation unit that generates a real environment map that represents the environment of the real space;
  • the information processing apparatus according to (1), further including: a second content generation unit that generates the display content by processing the template content based on the template environment map and the actual environment map.
  • generation part produces
  • Information processing device (4)
  • the second map generation unit generates the real environment map including information indicating an attribute of a real object that is an object existing in a real space and information indicating a positional relationship between the real objects.
  • generation part sets the position of the said object contained in the said template content based on the positional relationship of the said real object represented by the information contained in the said real environment map. Information processing equipment.
  • the information processing apparatus (9) The information processing apparatus according to (5), wherein the second content generation unit generates the display content including data of a virtual object having the same attribute as the predetermined object. (10) The information according to (9), wherein the second content generation unit generates the display content including data of the virtual object arranged at a position having the same positional relationship as the positional relationship of the predetermined object. Processing equipment. (11) The second map generation unit is based on at least one of an image obtained by photographing a real space with a camera and distance information obtained by measuring a distance to the real object with a distance sensor. The information processing apparatus according to any one of (4) to (10), wherein the real environment map is generated.
  • the information processing apparatus according to any one of (2) to (11), further including a display control unit that reproduces the display content and displays the object in a real space.
  • the information processing device Generate a template environment map that represents the environment of the three-dimensional space that serves as a template, in which a predetermined object exists,
  • the content is a template used to generate display content for displaying an object in an environment of a real space, the content being in a position on the three-dimensional space having a predetermined positional relationship with the predetermined object.
  • An information processing method for generating template content including information on the arranged objects.
  • a template environment map that represents the environment of the three-dimensional space that serves as a template, in which a predetermined object exists
  • the content is a template used to generate display content for displaying an object in an environment of a real space, the content being in a position on the three-dimensional space having a predetermined positional relationship with the predetermined object.
  • a template environment map that represents the environment of a three-dimensional space that serves as a template, in which a predetermined object exists, and a content that serves as a template used to generate display content for displaying an object overlaid on the environment of the real space.
  • a template acquisition unit that acquires template content including information of the object arranged in a position on the three-dimensional space having a predetermined positional relationship with the predetermined object
  • a map generation unit that generates a real environment map that represents the environment of the real space
  • An information processing apparatus comprising: a content generation unit that generates the display content by processing the template content based on the template environment map and the actual environment map.
  • the information processing device A template environment map that represents the environment of a three-dimensional space that serves as a template, in which a predetermined object exists, and a content that serves as a template used to generate display content for displaying an object overlaid on the environment of the real space.
  • a template environment map that represents the environment of a three-dimensional space that serves as a template, in which a predetermined object exists, and a content that serves as a template used to generate display content for displaying an object overlaid on the environment of the real space.
  • template content including information of the object arranged at a position on the three-dimensional space having a predetermined positional relationship with the predetermined object
  • 1 HMD 2 information processing device, 71 information processing unit, 81 template environment map generation unit, 82 template AR content generation unit, 83 template storage unit, 84 environment data acquisition unit, 85 actual environment map generation unit, 86 display AR content Generation unit, 87 estimation unit, 88 display control unit

Abstract

本技術は、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにする情報処理装置、情報処理方法、およびプログラムに関する。 本技術の一側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、所定の物体と所定の位置関係を有する三次元空間上の位置に配置されたオブジェクトの情報を含むテンプレートコンテンツを生成する。本技術は、例えば透過型のHMDに適用することができる。

Description

情報処理装置、情報処理方法、およびプログラム
 本技術は、情報処理装置、情報処理方法、およびプログラムに関し、特に、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
 ユーザの目の前の風景に三次元のキャラクタの映像などを重ねて表示させるAR(Augmented Reality)が注目されている。HMD(Head Mounted Display)などの表示デバイスを用いることにより、ユーザは、自分がいる空間と同じ空間にキャラクタがいるような没入感を得ることができる。
 ARを実現するためのコンテンツであるARコンテンツは、例えば、ARコンテンツを表示させる特定のシーンの三次元形状を計測し、計測結果により表される三次元空間上にキャラクタなどのオブジェクトを配置することによって生成される。シーンの計測には、RGBカメラ、デプスセンサ、LiDARなどのセンサが用いられる。
 一方、ARコンテンツの再生は、ARコンテンツの生成時に計測したシーンと同じ特定のシーンにおけるユーザの位置と姿勢を検出し、検出した位置と姿勢に応じて、オブジェクトの位置と向きを制御するようにして行われる。
特表2016-539398号公報 特開2017-049658号公報
 上述したようにして生成されたARコンテンツの再生は、三次元形状の計測を行った特定のシーンでしか行うことができない。例えば、ある特定のリビングルーム向けに生成したARコンテンツを、別のリビングルームで表示させることができない。
 本技術はこのような状況に鑑みてなされたものであり、所定の環境を想定して生成されたARコンテンツを、実際の環境に適用して表示させることができるようにするものである。
 本技術の一側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第1のマップ生成部と、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第1のコンテンツ生成部とを備える。
 本技術の他の側面の情報処理装置は、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、前記実空間の環境を表す実環境マップを生成するマップ生成部と、前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部とを備える。
 本技術の一側面においては、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップが生成され、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツが生成される。
 本技術の他の側面においては、所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとが取得される。また、前記実空間の環境を表す実環境マップが生成され、前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツが生成される。
本技術の一実施形態に係る情報処理システムの構成例を示す図である。 表示デバイスの例を示す図である。 実際のシーンの例を示す図である。 ARコンテンツの表示例を示す図である。 テンプレートシーンの例を示す図である。 テンプレートARコンテンツの例を示す図である。 全体の処理の流れの例を示す図である。 HMDの構成例を示すブロック図である。 情報処理装置の構成例を示すブロック図である。 情報処理装置の機能構成例を示すブロック図である。 テンプレート環境マップとテンプレートARコンテンツの例を示す図である。 実環境マップの生成処理の流れの例を示す図である。 実環境マップの生成処理の流れの他の例を示す図である。 表示用ARコンテンツ生成処理について説明するフローチャートである。 実環境マップと表示用ARコンテンツの例を示す図である。 各物体の位置関係の例を示す図である。 オブジェクトの位置の置換の例を示す図である。 実環境マップと表示用ARコンテンツの例を示す図である。 各物体の位置関係の例を示す図である。 オブジェクトの位置の置換の例を示す図である。 実環境マップと表示用ARコンテンツの例を示す図である。 各物体の位置関係の例を示す図である。 オブジェクトの位置の置換の例を示す図である。 情報処理システムの他の構成例を示すブロック図である。
 以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
 1.ARコンテンツの表示デバイスについて
 2.表示用ARコンテンツの生成について
 3.各装置の構成
 4.各処理の詳細
 5.変形例
<<ARコンテンツの表示デバイスについて>>
 図1は、本技術の一実施形態に係る情報処理システムの構成例を示す図である。
 図1の情報処理システムは、HMD1と情報処理装置2が、LAN(Local Area Network)やインターネットなどのネットワーク3を介して接続されることによって構成される。
 図1に示すように、HMD1は、透過型の表示部を備えた眼鏡型のウェアラブル端末である。HMD1は、ネットワーク3を介して行われる情報処理装置2による制御に従って、キャラクタなどの各種のオブジェクトを含む映像を表示部に表示する。ユーザは、自分の前方の風景に重ねてオブジェクトを見ることになる。
 オブジェクトを含む映像の投影方式は、虚像投影方式であってもよいし、ユーザの目の網膜に直接結像させる網膜投影方式であってもよい。
 情報処理装置2は、ARコンテンツを再生し、再生して得られた映像データをHMD1に送信することによって、ARコンテンツの映像をHMD1において表示させる。情報処理装置2は、例えばPCにより構成される。
 HMD1に代えて、図2のAに示すビデオ透過型のHMDであるHMD1Aや、図2のBに示すスマートフォン1Bなどの携帯端末が、ARコンテンツの表示デバイスとして用いられるようにしてもよい。
 表示デバイスとしてHMD1Aが用いられる場合、情報処理装置2が再生するARコンテンツの映像は、HMD1Aに設けられたカメラにより撮影された、HMD1Aの前方の風景の画像に重ねて表示される。HMD1Aを装着したユーザの目の前方には、カメラにより撮影された画像に重ねてARコンテンツを表示するディスプレイが設けられている。
 また、スマートフォン1Bが用いられる場合、情報処理装置2が再生するARコンテンツの映像は、スマートフォン1Bの背面に設けられたカメラにより撮影された、スマートフォン1Bの前方の風景の画像に重ねて表示される。スマートフォン1Bの正面には、各種の画像を表示するディスプレイが設けられている。
 実際のシーンに存在する物体の表面に映像を投影するプロジェクタがARコンテンツの表示デバイスとして用いられるようにしてもよい。タブレット端末、テレビジョン受像機などの各種のデバイスをARコンテンツの表示デバイスとして用いることが可能である。
 表示デバイスと情報処理装置2がネットワーク3を介して無線で接続されるのではなく、有線で接続されるようにしてもよい。
<<表示用ARコンテンツの生成について>>
 図3は、実際のシーンの例を示す図である。
 ARコンテンツを視聴するユーザが、HMD1を装着した状態で図3に示すようなリビングルームにいるものとする。図3に示すリビングルームが、ユーザがARコンテンツを視聴する実際のシーン(実空間)となる。
 図3の例においては、実際のシーンに存在する物体(実物体)として、床面である物体OT 1、テーブルである物体OT 11、椅子である物体OT 21乃至OT 24、ソファである物体OT 12、および、観葉植物である物体OT 13があるものとされている。4脚の椅子である物体OT 21乃至OT 24は、略正方形の天板を有するテーブルである物体OT 11に正面を向けて配置されている。また、ソファである物体OT 12は、物体OT 11の近傍に配置されている。
 情報処理装置2においてARコンテンツの再生が行われ、ARコンテンツの映像データが送信されてきた場合、ARコンテンツの映像がこのような実際のシーンに重ねて表示される。
 図4は、ARコンテンツの表示例を示す図である。
 図4の例においては、オブジェクトとしての4人のキャラクタC1乃至C4が、それぞれ椅子である物体OT 21乃至OT 24に座っている映像が表示されている。ユーザは、前方に実際にある物体OT 21乃至OT 24にキャラクタC1乃至C4が座っている様子を見ることになる。
 キャラクタC1乃至C4を含むオブジェクトは、例えば三次元形状を有している。三次元空間上におけるユーザの位置と姿勢に応じて、大きさ、角度などのオブジェクトの見え方が異なるものとなる。
 以下、ARコンテンツに含まれるオブジェクトが人型のキャラクタである場合について主に説明するが、動物、乗り物、家具、建物などの他の物体をオブジェクトとすることも可能である。
 このような映像の表示に用いられるARコンテンツは、テンプレートとして予め用意されたARコンテンツであるテンプレートARコンテンツに基づいて、情報処理装置2により生成される。例えば、テンプレートARコンテンツにおけるオブジェクトの配置を、図3に示すような実際のシーンに応じて変更することによって、ARコンテンツが生成される。
 実際のシーンは、三次元形状の計測を行うまでは、情報処理装置2にとっては未知のシーンである。特定のシーンを想定して生成されたテンプレートARコンテンツを、未知のシーンに適用することによってARコンテンツが生成されることになる。
 テンプレートARコンテンツは、テンプレートとして想定された特定のシーンの三次元形状により表される三次元空間上にオブジェクトを配置することによって構成される。
 ここで、それぞれのシーンの三次元形状を含む環境は、環境マップにより表される。環境マップには、シーンの三次元形状を表す情報と、シーンに存在する物体に関する情報が含まれる。物体に関する情報により、物体の属性、数、位置などが表される。
 テンプレートとして想定されたシーンであるテンプレートシーンの三次元形状は、テンプレート環境マップにより表される。テンプレート環境マップには、テンプレートシーンの三次元形状を表す情報と、テンプレートシーンに存在する物体に関する情報が含まれる。テンプレートシーンは、情報処理装置2にとっては既知のシーンである。
 図5は、テンプレートシーンの例を示す図である。
 図5に示すテンプレートシーンは、特定のリビングルームを想定したシーンである。図5の例においては、テンプレートシーンに存在する物体として、床面である物体OS 1、テーブルである物体OS 11、椅子である物体OS 21乃至OS 24があるものとされている。4脚の椅子である物体OS 21乃至OS 24は、円形の天板を有するテーブルである物体OS 11に正面を向けて配置されている。
 テンプレート環境マップにより、物体OS 1、物体OS 11、物体OS 21乃至OS 24のそれぞれの三次元形状(テンプレートシーンの三次元形状)、属性、数、位置が表される。
 図6は、テンプレートARコンテンツの例を示す図である。
 図6に示すように、テンプレートARコンテンツは、三次元形状を有するオブジェクトをテンプレートシーンに配置することによって構成される。
 図6の例においては、オブジェクトとしての4人のキャラクタC1乃至C4がそれぞれ椅子である物体OS 21乃至OS 24に座っている映像により、テンプレートARコンテンツが構成されている。テンプレートARコンテンツには、物体OS 21乃至OS 24に座るキャラクタC1乃至C4の映像のデータが含まれる。
 ARコンテンツの再生は、このようなテンプレートシーンにおけるキャラクタの映像を含むテンプレートARコンテンツを、実際のシーンに応じて加工することによって生成された表示用ARコンテンツに基づいて行われる。
 表示用ARコンテンツの生成時、実際のシーンの計測が行われ、実際のシーンの三次元形状などを表す環境マップである実環境マップが生成される。実環境マップにより、図3の物体OT 1、物体OT 11、物体OT 21乃至OT 24などのそれぞれの三次元形状(実際のシーンの三次元形状)、属性、数、位置が表される。
 また、実際のシーンにおけるユーザの位置と姿勢が推定され、ユーザの位置を基準としたときに、実際に存在する物体OT 21乃至OT 24にキャラクタC1乃至C4が座っているように見えるようにするための図4の表示用ARコンテンツが、図6のテンプレートARコンテンツに基づいて生成される。
 このようにして生成された表示用ARコンテンツが再生されることにより、図4を参照して説明したようなオブジェクトの見え方が実現されることになる。
 図7は、全体の処理の流れの例を示す図である。
 図7に示す各処理が、例えば情報処理装置2により行われる。各処理の詳細については後述する。
 図7の右上に示すように、はじめに、ステップS1の処理として、テンプレート環境マップ(図5)の生成が行われる。テンプレート環境マップは、テンプレートシーンの三次元形状を表す情報と、テンプレートシーンに存在する物体に関する情報を含む情報である。
 テンプレート環境マップの生成が行われた後、ステップS2の処理として、テンプレートARコンテンツ(図6)の生成が行われる。テンプレートARコンテンツは、テンプレート環境マップにより三次元形状などが表されるテンプレートシーンにオブジェクトを配置することによって構成される。
 以上のようなテンプレート環境マップの生成とテンプレートARコンテンツの生成が、ARコンテンツの再生前の事前処理として行われる。
 ARコンテンツの再生時、ステップS11の処理として、実際のシーンの環境データが取得される。情報処理装置2に対しては、ユーザが装着するHMD1により計測された環境データが送信されてくる。
 環境データには、例えば、HMD1に設けられたRGBカメラにより撮影されたRGB画像や、HMD1に設けられたセンサにより検出された、物体の各位置までの距離を表す距離情報が含まれる。距離情報には、例えば、デプスセンサにより計測された距離画像、LiDAR(Light Detection and Ranging)により計測された点群データ(ポイントクラウド)が含まれる。
 環境データが取得された後、ステップS12の処理として、実環境マップの生成が行われる。実環境マップは、実際のシーンの三次元形状を表す情報と、実際のシーンに存在する物体に関する情報を含む情報である。
 ステップS13の処理として、テンプレート環境マップ、テンプレートARコンテンツ、および実環境マップに基づいて、表示用ARコンテンツの生成が行われる。表示用ARコンテンツの生成は、テンプレート環境マップにより表されるテンプレートシーンと実環境マップにより表される実際のシーンとを比較し、テンプレートARコンテンツに含まれるオブジェクトの位置と向きを変更することによって行われる。
 また、ステップS14の処理として、ステップS11において取得された環境データと、ステップS12において生成された実環境マップとに基づいて、実環境マップにより表される実際のシーンにおけるユーザの位置と姿勢が推定される。例えば、表示デバイスであるHMD1の位置と姿勢が、ユーザの位置と姿勢として推定される。
 ステップS15の処理として、表示用ARコンテンツの再生が行われ、ステップS14において推定された位置と姿勢に応じたARコンテンツの表示が行われる。ユーザの位置と姿勢に応じた映像のデータが情報処理装置2からHMD1に対して送信され、実際のシーンに重ねて映像が表示される。
 以上のようにテンプレートARコンテンツを汎用的に用いて表示用ARコンテンツが生成されるようにすることにより、以下のような効果が得られる。
 第1に、ARコンテンツの提供者は、特定のシーンに合わせたARコンテンツを個別に生成する必要がない。
 第2に、ユーザは、1つの汎用的なテンプレートARコンテンツを、様々なシーンで視聴・体験することができる。
 第3に、ARコンテンツの提供者は、ARコンテンツの視聴が行われる実際のシーンの環境マップを事前に取得する必要がない。
<<各装置の構成>>
 ここで、情報処理システムを構成する各装置の構成について説明する。
<HMD1の構成>
 図8は、HMD1の構成例を示すブロック図である。
 図8に示すように、HMD1は、制御部11に対して、カメラ12、センサ13、通信部14、表示部15、およびメモリ16が接続されることによって構成される。
 制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部11は、ROMやメモリ16に記憶されているプログラムを実行し、HMD1の全体の動作を制御する。
 例えば、制御部11は、ARコンテンツの再生時、カメラ12により撮影されたRGB画像とセンサ13による計測結果に基づいて環境データを生成し、通信部14から情報処理装置2に対して送信させる。
 また、制御部11は、表示用ARコンテンツの再生が情報処理装置2において行われ、ARコンテンツの映像データが通信部14において受信された場合、通信部14において受信された映像データを表示部15に出力し、表示させる。
 カメラ12は、ARコンテンツの再生時などの所定のタイミングにおいて、ユーザの前方の風景を撮影する。カメラ12は、撮影することによって得られたRGB画像を制御部11に出力する。
 センサ13は、デプスセンサやLiDARなどにより構成される。センサ13を構成するデプスセンサやLiDARは、実際のシーンを構成する各位置までの距離を計測し、距離画像、点群データなどを計測結果を表すデータとして制御部11に出力する。
 センサ13には、適宜、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサも含まれる。この場合、加速度センサ、ジャイロセンサ、測位センサによる計測結果が環境データに含まれ、情報処理装置2に対して送信される。加速度センサ、ジャイロセンサ、測位センサによる計測結果は、ユーザの位置と姿勢などの推定に用いられる。
 通信部14は、無線LANなどの通信モジュールにより構成される。通信部14は、ネットワーク3を介して情報処理装置2と通信を行い、制御部11から供給された環境データを情報処理装置2に対して送信する。また、通信部14は、情報処理装置2から送信された映像データを受信し、制御部11に対して出力する。
 表示部15は、制御部11から供給された映像データに基づいて、ARコンテンツの映像を表示させる。
 メモリ16は、フラッシュメモリなどの記憶媒体である。メモリ16には、制御部11のCPUが実行するプログラムなどの各種のデータが記憶される。
<情報処理装置2の構成>
 図9は、情報処理装置2の構成例を示すブロック図である。
 CPU51、ROM52、RAM53は、バス54により相互に接続されている。
 バス54には、さらに、入出力インタフェース55が接続されている。入出力インタフェース55には、キーボード、マウスなどよりなる入力部56、ディスプレイ、スピーカなどよりなる出力部57が接続される。また、入出力インタフェース55には、ハードディスクや不揮発性のメモリなどよりなる記憶部58、ネットワークインタフェースなどよりなる通信部59、リムーバブルメディア61を駆動するドライブ60が接続される。
 図10は、情報処理装置2の機能構成例を示すブロック図である。
 情報処理装置2においては、図9のCPU51により所定のプログラムが実行されることによって情報処理部71が実現される。
 情報処理部71は、テンプレート環境マップ生成部81、テンプレートARコンテンツ生成部82、テンプレート記憶部83、環境データ取得部84、実環境マップ生成部85、表示用ARコンテンツ生成部86、推定部87、および表示制御部88により構成される。
 テンプレート環境マップ生成部81は、テンプレート環境マップを生成する。図7のステップS1の処理が、テンプレート環境マップ生成部81が行う処理となる。テンプレート環境マップ生成部81により生成されたテンプレート環境マップは、テンプレートARコンテンツ生成部82とテンプレート記憶部83に供給される。
 テンプレートARコンテンツ生成部82は、テンプレート環境マップ生成部81から供給されたテンプレート環境マップを用いてテンプレートARコンテンツを生成する。図7のステップS2の処理が、テンプレートARコンテンツ生成部82が行う処理となる。
 テンプレートARコンテンツ生成部82に対しては、適宜、オブジェクトのデータや、テンプレートシーンにおけるオブジェクトの位置と向きを指定する情報なども入力され、テンプレートARコンテンツの生成に用いられる。テンプレートARコンテンツ生成部82により生成されたテンプレートARコンテンツはテンプレート記憶部83に供給される。
 テンプレート記憶部83は、テンプレート環境マップ生成部81により生成されたテンプレート環境マップと、テンプレートARコンテンツ生成部82により生成されたテンプレートARコンテンツを記憶する。テンプレート記憶部83に記憶されたテンプレート環境マップとテンプレートARコンテンツは、表示用ARコンテンツの生成時に表示用ARコンテンツ生成部86により読み出される。
 環境データ取得部84は、ARコンテンツの再生時にHMD1から送信され、通信部59において受信された環境データを取得する。図7のステップS11の処理が、環境データ取得部84が行う処理となる。環境データ取得部84により取得された環境データは、実環境マップ生成部85と推定部87に供給される。
 実環境マップ生成部85は、環境データ取得部84から供給された環境データに基づいて実環境マップを生成する。図7のステップS12の処理が、実環境マップ生成部85が行う処理となる。実環境マップ生成部85により生成された実環境マップは、表示用ARコンテンツ生成部86と推定部87に供給される。
 表示用ARコンテンツ生成部86は、テンプレート環境マップとテンプレートARコンテンツをテンプレート記憶部83から読み出して取得する。表示用ARコンテンツ生成部86は、テンプレート記憶部83から読み出したそれらのデータと実環境マップ生成部85から供給された実環境マップに基づいて、表示用ARコンテンツを生成する。表示用ARコンテンツの生成は、例えば、実環境マップにより表される実際のシーンに応じて、テンプレートARコンテンツを加工するようにして行われる。
 図7のステップS13の処理が、表示用ARコンテンツ生成部86が行う処理となる。表示用ARコンテンツ生成部86により生成された表示用ARコンテンツは表示制御部88に供給される。
 推定部87は、環境データ取得部84から供給された環境データと実環境マップ生成部85から供給された実環境マップとに基づいて、実際のシーンにおけるユーザの位置と姿勢を推定する。図7のステップS14の処理が、推定部87が行う処理となる。推定部87による推定結果を表す情報は表示制御部88に供給される。
 表示制御部88は、表示用ARコンテンツ生成部86から供給された表示用ARコンテンツを再生し、推定部87により推定された位置と姿勢に応じた映像データを生成する。図7のステップS15の処理が、表示制御部88が行う処理となる。表示制御部88は、通信部59を制御することによって映像データをHMD1に送信し、表示用ARコンテンツの映像をHMD1において表示させる。
<<各処理の詳細>>
 ここで、情報処理部71の各部の処理の詳細について説明する。
<テンプレート環境マップおよびテンプレートARコンテンツの生成>
 はじめに、テンプレート環境マップの生成、および、テンプレートARコンテンツの生成について説明する。
・テンプレート環境マップの生成
 テンプレート環境マップ生成部81が生成するテンプレート環境マップには、属性X_iが関連付けられた1つ以上の物体OS_iを表す情報と、物体OS_i同士の相対的な位置関係を表す情報が含まれる。
 属性X_iは、床面、テーブル、椅子などの、物体OS_iのカテゴリを表す。
 物体OS_i同士の相対的な位置関係は、例えば、三次元空間であるテンプレートシーンにおける各物体OS_iの位置の差として表される。物体OS_i同士の相対的な位置関係が、並進成分に加えて、回転成分によって表されるようにしてもよい。
 テンプレート環境マップ生成部81は、例えば、属性が関連付けられた物体の3D CADモデルをゲームエンジン等の仮想的な三次元空間に配置することによってテンプレート環境マップを生成する。また、テンプレート環境マップ生成部81は、テンプレートシーンに存在する物体の属性、数、相対的な位置関係などを表す自然言語をテンプレート環境マップとして生成する。
・テンプレートARコンテンツの生成
 テンプレートARコンテンツ生成部82が生成するテンプレートARコンテンツには、1つ以上のオブジェクトC_jの情報、および、各オブジェクトC_jとテンプレート環境マップに記述される物体OS_iとの相対的な位置関係を表す情報が含まれる。
 ここで、オブジェクトC_jと物体OS_iとの相対的な位置関係が、並進成分に加えて、回転成分によって表されるようにしてもよい。
 図11は、テンプレート環境マップとテンプレートARコンテンツの例を示す図である。
 図11の例においては、テンプレート環境マップとテンプレートARコンテンツがテキストで表されている。
 図11の上段に示すテンプレート環境マップは、床面が存在するとともに、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図5に示すようなシーンを表す。
 図11の下段に示すテンプレートARコンテンツは、テーブルを囲む4脚の椅子に、異なる4人のキャラクタをそれぞれ着席させる、図6に示すような見え方を実現するコンテンツである。
 なお、テンプレート環境マップに記述される物体に関する情報の一部または全部として、ARコンテンツを視聴するユーザに関する情報が含まれるようにしてもよい。
 この場合、例えば、「ユーザに最も近い椅子にキャラクタを着席させる」といったようなテンプレートARコンテンツが生成される。ここでは、「ユーザ」と「椅子」がそれぞれ物体OS_iに相当する。また、「ユーザに最も近い」が、両者の相対的な位置関係を表す情報により定義される。
 また、テンプレートシーンをオブジェクトが移動する、動的なテンプレートARコンテンツが生成されるようにしてもよい。
 この場合、例えば、「床面と、床面上の2脚の椅子が存在し、一方の椅子に着席しているキャラクタが、立ち上がって床面上を移動して他方の椅子に着席する」といったようなテンプレートARコンテンツが生成される。
<実環境マップの生成>
 次に、実環境マップの生成について説明する。
 図12は、実環境マップの生成処理の流れの例を示す図である。
 図12の上方に示すように、実環境マップの生成は、RGB画像、距離画像、点群データなどを含む環境データが環境データ取得部84から供給されたときに実環境マップ生成部85により行われる。例えば、HMD1からは、環境データが所定の周期で繰り返し送信されてくる。順次送信されてくる環境データに基づいて、実環境マップの生成が行われる。
 例えば、実際のシーンに存在する物体表面までの打ち切り符号付き距離と、シーンに存在する物体を一意に区別するための物体IDとを格納するボクセル(voxel)から構成されるボクセル空間が用意される。また、各物体の属性を管理する物体属性テーブルが用意される。
 はじめに、矢印A11の先に示すように、ステップS31の処理として、実環境マップ生成部85は、環境データ取得部84から供給されたRGB画像、距離画像、点群データに基づいて、画像や点群により表される物体の領域分割、属性推定、および物体ID推定を行う。
 領域分割により、実際のシーンに存在する各物体の領域が特定される。
 また、属性推定により、物体の属性が推定される。実環境マップ生成部85は、画像や点群データにより表される形状などの特徴に基づいて物体の属性を推定するためのデータを有している。
 物体ID推定により、領域が特定されるとともに属性が推定されたそれぞれの物体の物体IDが推定される。物体ID推定は、物体に付与された物体IDとの整合性をとるために必要な処理であり、適宜、矢印A12に示すように、ボクセル空間に既に格納されている物体IDを参照して行われる。また、時系列データとして入力される画像や点群データに基づいて物体追跡処理を行い、物体追跡の結果に基づいて、物体IDが推定されるようにしてもよい。
 矢印A13の先に示すように、ステップS32の処理として、実環境マップ生成部85は、物体ID推定により推定された物体IDを、距離画像または点群データに基づいてボクセル空間に格納する。物体IDが、物体までの距離に対応する位置のボクセルの情報として設定される。
 矢印A14の先に示すように、実環境マップ生成部85は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。物体属性テーブルにおいては、物体IDと対応付けて、それぞれの物体の属性が管理される。
 矢印A15の先に示すように、ステップS33の処理として、実環境マップ生成部85は、環境データ取得部84から供給されたRGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。ボクセル空間を構成するボクセルに格納された情報により、各ボクセルに対応する位置にある物体のIDが表される。
 打ち切り符号付き距離の計算方法およびボクセル空間への格納方法は、例えば、下記の文献に開示されている。
“Newcombe, Richard A., et al. "KinectFusion: Real-time dense surface mapping and tracking." Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011.”
 矢印A16,A17の先に示すように、ステップS34の処理として、実環境マップ生成部85は、ボクセル空間の情報と物体属性テーブルの情報を統合し、実際のシーンの三次元形状と、実際のシーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。実環境マップ生成部85は、矢印A18の先に示すように、抽出した情報を含む情報を実環境マップとして生成する。
 図13は、実環境マップの生成処理の流れの他の例を示す図である。
 図13に示す実環境マップの生成処理は、打ち切り符号付き距離のボクセル空間への格納を先に行い、ボクセル空間に格納された情報に基づいて、物体の領域分割、属性推定、物体ID推定などを行う処理である。
 すなわち、矢印A31の先に示すように、ステップS41の処理として、実環境マップ生成部85は、環境データ取得部84から供給されたRGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。
 ステップS42において、実環境マップ生成部85は、打ち切り符号付き距離の配列、点群データ、メッシュなどをボクセル空間から抽出し、抽出した情報に基づいて、物体の領域分割、属性推定、物体ID推定を行う。
 以降の処理は、図12を参照して説明した処理と同様の処理である。すなわち、ステップS43の処理として、実環境マップ生成部85は、物体ID推定により推定された物体IDをボクセル空間に格納する。
 矢印A32の先に示すように、実環境マップ生成部85は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。
 矢印A33,A34の先に示すように、ステップS44の処理として、実環境マップ生成部85は、ボクセル空間の情報と物体属性テーブルの情報を統合し、実際のシーンの三次元形状と、実際のシーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。実環境マップ生成部85は、矢印A35の先に示すように、抽出した情報を含む情報を実環境マップとして生成する。
 このように、実環境マップの生成に関する各ステップの処理は、適宜、順番を変更することが可能である。
 また、実環境マップの生成処理に用いる技術として、カメラにより撮影されたRGB画像や各種のセンサの計測結果に基づいて実際のシーンの三次元形状などを推定する各種の技術を採用することが可能である。
<表示用ARコンテンツの生成>
 次に、表示用ARコンテンツの生成について説明する。
 図14のフローチャートを参照して、表示用ARコンテンツ生成部86の表示用ARコンテンツ生成処理について説明する。
 表示用ARコンテンツの生成は、テンプレート記憶部83から読み出されたテンプレート環境マップとテンプレートARコンテンツ、および、実環境マップ生成部85により生成された実環境マップを用いて行われる。
 ステップS51において、表示用ARコンテンツ生成部86は、テンプレート環境マップにより表される物体OS_iと同一の属性X_iを有する物体OT_iを、実環境マップにより表される、実際のシーンに存在する物体OT_iの中から検索する。
 ステップS52において、表示用ARコンテンツ生成部86は、検索された物体OT_iの数、および、物体OT_iの相対的な位置関係が、それぞれ、テンプレート環境マップにより表される、属性X_iを有する物体OS_iの数、および、物体OS_iの相対的な位置関係と一致するか否かを判定する。
 ここでは、同じ属性の物体が同じ数だけテンプレートシーンと実際のシーンのそれぞれにあり、かつ、同じ属性の物体のテンプレートシーンにおける位置関係と実際のシーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。物体の位置関係については、完全に同じである必要はなく、位置関係の類似度が閾値以上高い場合に、条件を満たすものとして判定されるようにしてもよい。
 検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致するとステップS52において判定された場合、処理はステップS53に進む。
 ステップS53において、表示用ARコンテンツ生成部86は、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。
 表示用ARコンテンツにおけるオブジェクトと物体OT_iとの間の位置関係は、テンプレートARコンテンツにおけるオブジェクトと物体OS_iとの間の位置関係と同じ位置関係となる。
 図15は、実環境マップと表示用ARコンテンツの例(例2-1)を示す図である。
 図15の上段に示す実環境マップは、床面が存在するとともに、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図3に示すようなシーンを表す。
 例えば、図11を参照して説明したテンプレートシーン(図5)を表すテンプレート環境マップが用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS 11(図5)と同一の「テーブル」の属性を有する物体OT 11(図3)が検索される。
 また、物体OS 21と同一の「椅子」の属性を有する物体OT 21、物体OS 22と同一の「椅子」の属性を有する物体OT 22、物体OS 23と同一の「椅子」の属性を有する物体OT 23、および、物体OS 24と同一の「椅子」の属性を有する物体OT 24が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS 11(テーブル)と物体OS 21乃至OS 24(椅子)の数、およびそれぞれの位置関係は、実際のシーンにおける物体OT 11(テーブル)と物体OT 21乃至OT 24(椅子)の数、およびそれぞれの位置関係と同一であると判定される。
 図16は、各物体の位置関係の例を示す図である。
 テンプレート環境マップにより表される、テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、図16の左側に示すような位置関係となる。
 一方、実環境マップにより表される、実際のシーンにおける物体OT 11と物体OT 21乃至OT 24の位置関係は、図16の右側に示すような位置関係となる。
 テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、実際のシーンにおける物体OT 11と物体OT 21乃至OT 24の位置関係と、同じ「テーブル」の属性を有する物体を囲む位置に4脚の椅子が存在するという点で同一である。
 なお、図16において、物体OS 21乃至OS 24と物体OT 21乃至OT 24の近傍に示す矢印は椅子の向きを表す。
 この場合、図15の下段に示すように、テーブルを囲む4脚の椅子に、異なる4人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体OT 21乃至OT 24である。
 図17は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。
 上述した位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS 21に着席するキャラクタC1の位置は、図17の矢印A101で示すように、物体OT 21の位置に置換される。図17において、各キャラクタの位置は、所定の模様を付した円で表される。
 テンプレートARコンテンツにおいて、キャラクタC1の位置は物体OS 11や物体OS 21の位置を基準として設定されるが、それと同じ位置関係が、物体OT 11や物体OT 21の位置を基準として維持される。
 同様に、テンプレートARコンテンツにおいて物体OS 22に着席するキャラクタC2の位置は、矢印A102で示すように物体OT 22の位置に置換される。また、テンプレートARコンテンツにおいて物体OS 23に着席するキャラクタC3の位置は、矢印A103で示すように物体OT 23の位置に置換される。テンプレートARコンテンツにおいて物体OS 24に着席するキャラクタC4の位置は、矢印A104で示すように物体OT 24の位置に置換される。
 このようにして位置が置換されることによって生成された表示用ARコンテンツが再生されることにより、図4を参照して説明したようなキャラクタC1乃至C4の見え方が実現されることになる。
 図14の説明に戻り、ステップS52において、検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致しないと判定された場合、処理はステップS54に進む。
 ステップS54において、表示用ARコンテンツ生成部86は、テンプレート環境マップにより表される物体OS_iと類似する属性X’_iを有する物体OT’_iを、実環境マップにより表される、実際のシーンに存在する物体OT_iの中から検索する。
 属性X_iと類似する属性X’_iについては、例えば、テンプレートARコンテンツの生成時にテーブル等で予め定義されている。表示用ARコンテンツの生成時にユーザにより属性X’_iが指定されるようにしてもよい。
 ステップS55において、表示用ARコンテンツ生成部86は、検索された物体OT’_iを含めて、物体OT_iの数、および、物体OT_iの相対的な位置関係が、それぞれ、テンプレート環境マップにより表される、属性X_iを有する物体OS_iの数、および、物体OS_iの相対的な位置関係と一致するか否かを判定する。
 ここでは、類似する属性の物体を含めて、同一の属性の物体が同じ数だけテンプレートシーンと実際のシーンのそれぞれにあり、かつ、それぞれの物体のテンプレートシーンにおける位置関係と実際のシーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。
 物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致するとステップS55において判定された場合、処理はステップS53に進む。
 ステップS53においては、上述した処理と同様に、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iの位置を基準とした位置に置換することによって、表示用ARコンテンツが生成される。
 図18は、実環境マップと表示用ARコンテンツの例(例2-2)を示す図である。
 図18の上段に示す実環境マップは、床面が存在するとともに、床面上に1つのテーブルと4脚の椅子、および、1脚のソファが存在するシーンを表す。この例においては、4脚の椅子のうちの3脚の椅子はテーブルを囲んでいるものの、1脚の椅子はテーブルから離れた位置にあるものとされている。また、1脚のソファはテーブルの近傍にあるものとされている。
 例えば、図11を参照して説明したテンプレートシーン(図5)を表すテンプレート環境マップが用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS 11(図5)と同一の「テーブル」の属性を有する物体OT 11が検索される。
 同様に、物体OS 21と同一の「椅子」の属性を有する物体OT 21、物体OS 22と同一の「椅子」の属性を有する物体OT 22、物体OS 23と同一の「椅子」の属性を有する物体OT 23、および、物体OS 24と同一の「椅子」の属性を有する物体OT 24が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS 11(テーブル)と物体OS 21乃至OS 24(椅子)の数、およびそれぞれの位置関係は、実際のシーンにおける物体OT 11(テーブル)と物体OT 21乃至OT 24(椅子)の数、およびそれぞれの位置関係と同一ではないと判定される。
 図19は、各物体の位置関係の例を示す図である。
 図19の左側に示す、テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、図16を参照して説明した位置関係と同じである。
 一方、実環境マップにより表される、実際のシーンにおける物体OT 11と物体OT 21乃至OT 24の位置関係は、図19の右側に示すような位置関係となる。実際のシーンには、ソファである物体OT 12も存在する。
 テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、実際のシーンにおける物体OT 11と物体OT 21乃至OT 24の位置関係と、1脚の「椅子」である物体OT 24が離れた位置に存在するという点で同一ではない。
 この場合、「椅子」に類似する属性を有する「ソファ」の属性を有する物体OT 12が、実環境マップにより表される、実際のシーンに存在する物体OT_iの中から検索される。
 また、テンプレートシーンにおける物体OS 11(テーブル)と物体OS 21乃至OS 24(椅子)の数、およびそれぞれの位置関係は、物体OT 12を含めて、実際のシーンにおける物体OT 11(テーブル)と物体OT 21乃至OT 23(椅子)と物体OT 12(ソファ)の数、およびそれぞれの位置関係と同一であると判定される。
 この場合、図18の下段に示すように、テーブルを囲む3脚の椅子とテーブルの近傍のソファに、異なる4人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体OT 21乃至OT 23、および物体OT 12である。
 図20は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。
 図19に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS 21に着席するキャラクタC1の位置は、図20の矢印A111で示すように、物体OT 21の位置に置換される。
 同様に、テンプレートARコンテンツにおいて物体OS 22に着席するキャラクタC2の位置は、矢印A112で示すように物体OT 22の位置に置換される。テンプレートARコンテンツにおいて物体OS 23に着席するキャラクタC3の位置は、矢印A113で示すように物体OT 23の位置に置換される。
 また、テンプレートARコンテンツにおいて物体OS 24に着席するキャラクタC4の位置は、矢印A114で示すように、ソファである物体OT 12の位置に置換される。
 このように、テンプレートシーンに存在する物体と同一の属性の物体がない場合、類似する属性の物体を用いて、キャラクタの位置の置換が行われる。
 これにより、テンプレートシーンに存在する物体と完全に同じ物体が実際のシーンにない場合であっても、テンプレートARコンテンツを実際のシーンに適用することが可能となる。
 図14の説明に戻り、ステップS55において、検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致しないと判定された場合、処理はステップS56に進む。
 この場合、属性が類似する物体を含めたとしても、実際のシーンには、テンプレートシーンに存在する物体と同じ数、同じ位置関係の物体が存在していないことになる。
 ステップS56において、表示用ARコンテンツ生成部86は、テンプレート環境マップにより表される物体OS_iと同一の属性X_iを有するオブジェクトC_j(仮想的な物体)を、不足する数だけ、生成する。
 「椅子」の属性を有する物体が実際のシーンにおいて不足する場合、「椅子」の属性を有するオブジェクトが生成される。同一の属性のオブジェクトが生成されるのではなく、類似する属性のオブジェクトが生成されるようにしてもよい。
 ステップS57において、表示用ARコンテンツ生成部86は、実際のシーンに存在する物体OT_iと新たに生成したオブジェクトC_jとの相対的な位置関係が、テンプレートシーンにおける物体OS_iの位置関係と一致するように、オブジェクトC_jの配置位置を決定する。ここで、物体OT_iには、ステップS54において検索された物体OT’_iも含まれる。
 ステップS58において、表示用ARコンテンツ生成部86は、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iおよびオブジェクトC_jの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。
 図21は、実環境マップと表示用ARコンテンツの例(例2-3)を示す図である。
 図21の上段に示す実環境マップは、床面が存在するとともに、床面上に1つのテーブルと3脚の椅子が存在するシーンを表す。この例においては、3脚の椅子はテーブルを囲んでいるものとされている。
 例えば、図11を参照して説明したテンプレートシーン(図5)を表すテンプレート環境マップが用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS 11(図5)と同一の「テーブル」の属性を有する物体OT 11が検索される。
 同様に、物体OS 21と同一の「椅子」の属性を有する物体OT 21、物体OS 22と同一の「椅子」の属性を有する物体OT 22、および、物体OS 23と同一の「椅子」の属性を有する物体OT 23が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS 11(テーブル)と物体OS 21乃至OS 24(椅子)の数、およびそれぞれの位置関係は、実際のシーンにおける物体OT 11(テーブル)と物体OT 21乃至OT 23(椅子)の数、およびそれぞれの位置関係と同一ではないと判定される。実際のシーンにおいては、椅子の数が1脚だけ不足することになる。
 図22は、各物体の位置関係の例を示す図である。
 図22の左側に示す、テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、図16、図19を参照して説明した位置関係と同じである。
 一方、実環境マップにより表される、実際のシーンにおける物体OT 11と物体OT 21乃至OT 23の位置関係は、図22の右側に示すような位置関係となる。
 テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は、実際のシーンにおける物体OT 11と物体OT 21乃至OT 23の位置関係と、1脚の「椅子」が不足しているという点で同一ではない。
 この場合、「椅子」の属性を有するオブジェクトC11が生成される。
 また、破線で示すように、オブジェクトC11の配置位置が、テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係と同じ位置関係を有するように決定される。図21の右側に示す実際のシーンにおける物体OT 11、物体OT 21乃至OT 23、オブジェクトC11の位置関係と、テンプレートシーンにおける物体OS 11と物体OS 21乃至OS 24の位置関係は同じ位置関係を有する。
 この場合、図21の下段に示すように、テーブルを囲む3脚の椅子と仮想的な椅子に、異なる4人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体OT 21乃至OT 23、および、仮想的なオブジェクトC11である。表示用ARコンテンツには、オブジェクトC11を表示させるための映像データも含まれる。
 図23は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。
 図22に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS 21に着席するキャラクタC1の位置は、図23の矢印A121で示すように、物体OT 21の位置に置換される。
 同様に、テンプレートARコンテンツにおいて物体OS 22に着席するキャラクタC2の位置は、矢印A122で示すように物体OT 22の位置に置換される。テンプレートARコンテンツにおいて物体OS 23に着席するキャラクタC3の位置は、矢印A123で示すように物体OT 23の位置に置換される。
 また、テンプレートARコンテンツにおいて物体OS 24に着席するキャラクタC4の位置は、矢印A124で示すように、オブジェクトC11の位置に置換される。
 このように、実際のシーンに存在する物体が不足する場合、仮想的なオブジェクトを用いて、キャラクタの位置の置換が行われる。
 これにより、テンプレートシーンに存在する物体と完全に同じ物体が実際のシーンにない場合であっても、テンプレートARコンテンツを実際のシーンに適用することが可能となる。
 ステップS53またはステップS58において表示用ARコンテンツが生成された後、処理は終了となる。
 以上の処理により、ARコンテンツの提供者は、特定のシーンに合わせたARコンテンツを個別に生成する必要がない。また、ARコンテンツの提供者は、ARコンテンツの視聴が行われる実際のシーンの環境マップを事前に取得する必要がない。
 一方、ユーザは、1つの汎用的なテンプレートARコンテンツを、様々なシーンで視聴・体験することができる。
 例えば、実際のシーンの環境マップに基づいて、平面などのプリミティブな形状を検出し、検出した形状の位置や姿勢に応じてオブジェクトを表示させるようなARに関する技術は存在する。
 上述したように、テンプレートシーンにおける複数の物体の数および位置関係と、実際のシーンにおける複数の物体の数および位置関係とを比較してオブジェクトの位置を決定することにより、複雑な三次元形状を有するシーンにオブジェクトを配置してユーザに視聴させることが可能となる。すなわち、ARコンテンツの提供者は、表現が豊かなARコンテンツを提供することが可能となる。
<<変形例>>
<システム構成の例>
 図10に示す情報処理部71の構成のうちの少なくとも一部が、HMD1において実現されるようにしてもよい。例えば、テンプレート(テンプレート環境マップとテンプレートARコンテンツ)の生成側の構成が情報処理部71において実現され、ARコンテンツの再生側の構成がHMD1において実現されるようにすることが可能である。
 図24は、情報処理システムの他の構成例を示すブロック図である。
 図24に示す構成のうち、図10を参照して説明した構成と同じ構成には同じ符号を付してある。重複する説明については適宜省略する。
 HMD1においては、図8の制御部11により所定のプログラムが実行されることによって情報処理部101が実現される。
 情報処理部101は、環境データ取得部84、実環境マップ生成部85、表示用ARコンテンツ生成部86、推定部87、表示制御部88、および、テンプレート取得部111により構成される。
 テンプレート取得部111は、通信部14を制御し、情報処理装置2の情報処理部71において生成され、情報処理装置2から送信されてきたテンプレートを取得する。テンプレート取得部111は、ARコンテンツの再生時、取得したテンプレートを表示用ARコンテンツ生成部86に出力する。
 このように、実環境マップの生成と表示用ARコンテンツの生成を含む処理がHMD1において行われるようにすることが可能である。
<コンピュータの構成例>
 上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、汎用のパーソナルコンピュータなどにインストールされる。
 インストールされるプログラムは、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)や半導体メモリなどよりなる図9に示されるリムーバブルメディア61に記録して提供される。また、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供されるようにしてもよい。プログラムは、ROM52や記憶部58に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
<構成の組み合わせ例>
 本技術は、以下のような構成をとることもできる。
(1)
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第1のマップ生成部と、
 実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第1のコンテンツ生成部と
 を備える情報処理装置。
(2)
 実空間の環境を表す実環境マップを生成する第2のマップ生成部と、
 前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する第2のコンテンツ生成部と
 をさらに備える前記(1)に記載の情報処理装置。
(3)
 前記第1のマップ生成部は、前記所定の物体の属性を表す情報と、前記所定の物体の位置関係を表す情報を含む前記テンプレート環境マップを生成する
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記第2のマップ生成部は、実空間に存在する物体である実物体の属性を表す情報と、前記実物体の位置関係を表す情報を含む前記実環境マップを生成する
 前記(2)に記載の情報処理装置。
(5)
 前記第2のコンテンツ生成部は、前記テンプレートコンテンツに含まれる前記オブジェクトの位置を、前記実環境マップに含まれる情報により表される前記実物体の位置関係に基づいて設定する
 前記(4)に記載の情報処理装置。
(6)
 前記第2のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と同じ属性を有する前記実物体の位置関係に基づいて設定する
 前記(5)に記載の情報処理装置。
(7)
 前記第2のコンテンツ生成部は、前記所定の物体と同じ属性を有する前記実物体が、前記所定の物体の前記三次元空間における位置関係と同じ位置関係を有している場合、前記所定の物体を基準とした位置関係と同じ位置関係を前記実物体との間で有するように前記オブジェクトの位置を設定する
 前記(6)に記載の情報処理装置。
(8)
 前記第2のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と類似する属性を有する前記実物体の位置関係に基づいて設定する
 前記(5)に記載の情報処理装置。
(9)
 前記第2のコンテンツ生成部は、前記所定の物体と同じ属性を有する仮想的な物体のデータを含む前記表示用コンテンツを生成する
 前記(5)に記載の情報処理装置。
(10)
 前記第2のコンテンツ生成部は、前記所定の物体の位置関係と同じ位置関係を有する位置に配置した前記仮想的な物体のデータを含む前記表示用コンテンツを生成する
 前記(9)に記載の情報処理装置。
(11)
 前記第2のマップ生成部は、実空間をカメラにより撮影して得られた画像、および、前記実物体までの距離を距離センサにより計測して得られた距離情報のうちの少なくともいずれかに基づいて、前記実環境マップを生成する
 前記(4)乃至(10)のいずれかに記載の情報処理装置。
(12)
 前記表示用コンテンツを再生し、実空間に重ねて前記オブジェクトを表示させる表示制御部をさらに備える
 前記(2)乃至(11)のいずれかに記載の情報処理装置。
(13)
 情報処理装置が、
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
 実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
 情報処理方法。
(14)
 コンピュータに、
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
 実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
 処理を実行させるためのプログラム。
(15)
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、
 実空間の環境を表す実環境マップを生成するマップ生成部と、
 前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部と
 を備える情報処理装置。
(16)
 情報処理装置が、
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
 実空間の環境を表す実環境マップを生成し、
 前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
 を備える情報処理方法。
(17)
 コンピュータに、
 所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
 実空間の環境を表す実環境マップを生成し、
 前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
 処理を実行させるためのプログラム。 
 1 HMD, 2 情報処理装置, 71 情報処理部, 81 テンプレート環境マップ生成部, 82 テンプレートARコンテンツ生成部, 83 テンプレート記憶部, 84 環境データ取得部, 85 実環境マップ生成部, 86 表示用ARコンテンツ生成部, 87 推定部, 88 表示制御部

Claims (17)

  1.  所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成する第1のマップ生成部と、
     実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する第1のコンテンツ生成部と
     を備える情報処理装置。
  2.  実空間の環境を表す実環境マップを生成する第2のマップ生成部と、
     前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する第2のコンテンツ生成部と
     をさらに備える請求項1に記載の情報処理装置。
  3.  前記第1のマップ生成部は、前記所定の物体の属性を表す情報と、前記所定の物体の位置関係を表す情報を含む前記テンプレート環境マップを生成する
     請求項1に記載の情報処理装置。
  4.  前記第2のマップ生成部は、実空間に存在する物体である実物体の属性を表す情報と、前記実物体の位置関係を表す情報を含む前記実環境マップを生成する
     請求項2に記載の情報処理装置。
  5.  前記第2のコンテンツ生成部は、前記テンプレートコンテンツに含まれる前記オブジェクトの位置を、前記実環境マップに含まれる情報により表される前記実物体の位置関係に基づいて設定する
     請求項4に記載の情報処理装置。
  6.  前記第2のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と同じ属性を有する前記実物体の位置関係に基づいて設定する
     請求項5に記載の情報処理装置。
  7.  前記第2のコンテンツ生成部は、前記所定の物体と同じ属性を有する前記実物体が、前記所定の物体の前記三次元空間における位置関係と同じ位置関係を有している場合、前記所定の物体を基準とした位置関係と同じ位置関係を前記実物体との間で有するように前記オブジェクトの位置を設定する
     請求項6に記載の情報処理装置。
  8.  前記第2のコンテンツ生成部は、前記オブジェクトの位置を、前記所定の物体と類似する属性を有する前記実物体の位置関係に基づいて設定する
     請求項5に記載の情報処理装置。
  9.  前記第2のコンテンツ生成部は、前記所定の物体と同じ属性を有する仮想的な物体のデータを含む前記表示用コンテンツを生成する
     請求項5に記載の情報処理装置。
  10.  前記第2のコンテンツ生成部は、前記所定の物体の位置関係と同じ位置関係を有する位置に配置した前記仮想的な物体のデータを含む前記表示用コンテンツを生成する
     請求項9に記載の情報処理装置。
  11.  前記第2のマップ生成部は、実空間をカメラにより撮影して得られた画像、および、前記実物体までの距離を距離センサにより計測して得られた距離情報のうちの少なくともいずれかに基づいて、前記実環境マップを生成する
     請求項4に記載の情報処理装置。
  12.  前記表示用コンテンツを再生し、実空間に重ねて前記オブジェクトを表示させる表示制御部をさらに備える
     請求項2に記載の情報処理装置。
  13.  情報処理装置が、
     所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
     実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
     情報処理方法。
  14.  コンピュータに、
     所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップを生成し、
     実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツを生成する
     処理を実行させるためのプログラム。
  15.  所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得するテンプレート取得部と、
     実空間の環境を表す実環境マップを生成するマップ生成部と、
     前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成するコンテンツ生成部と
     を備える情報処理装置。
  16.  情報処理装置が、
     所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
     実空間の環境を表す実環境マップを生成し、
     前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
     を備える情報処理方法。
  17.  コンピュータに、
     所定の物体が存在する、テンプレートとなる三次元空間の環境を表すテンプレート環境マップと、実空間の環境に重ねてオブジェクトを表示させるための表示用コンテンツを生成することに用いられるテンプレートとなるコンテンツであって、前記所定の物体と所定の位置関係を有する前記三次元空間上の位置に配置された前記オブジェクトの情報を含むテンプレートコンテンツとを取得し、
     実空間の環境を表す実環境マップを生成し、
     前記テンプレート環境マップと前記実環境マップとに基づいて前記テンプレートコンテンツを加工することによって前記表示用コンテンツを生成する
     処理を実行させるためのプログラム。
PCT/JP2020/003351 2019-02-13 2020-01-30 情報処理装置、情報処理方法、およびプログラム WO2020166352A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/422,341 US11605207B2 (en) 2019-02-13 2020-01-30 Information processing device, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-023226 2019-02-13
JP2019023226A JP2022051977A (ja) 2019-02-13 2019-02-13 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2020166352A1 true WO2020166352A1 (ja) 2020-08-20

Family

ID=72043962

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/003351 WO2020166352A1 (ja) 2019-02-13 2020-01-30 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US11605207B2 (ja)
JP (1) JP2022051977A (ja)
WO (1) WO2020166352A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
JP2016516241A (ja) * 2013-03-14 2016-06-02 マイクロソフト テクノロジー ライセンシング,エルエルシー 拡張現実体験の様々な環境へのマッピング

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9607437B2 (en) 2013-10-04 2017-03-28 Qualcomm Incorporated Generating augmented reality content for unknown objects
JP6491574B2 (ja) 2015-08-31 2019-03-27 Kddi株式会社 Ar情報表示装置
US11263824B2 (en) * 2018-11-14 2022-03-01 Unity IPR ApS Method and system to generate authoring conditions for digital content in a mixed reality environment

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014515130A (ja) * 2011-03-10 2014-06-26 マイクロソフト コーポレーション 写実的に表されたビューのテーマベースの拡張
JP2016516241A (ja) * 2013-03-14 2016-06-02 マイクロソフト テクノロジー ライセンシング,エルエルシー 拡張現実体験の様々な環境へのマッピング

Also Published As

Publication number Publication date
US20220108533A1 (en) 2022-04-07
US11605207B2 (en) 2023-03-14
JP2022051977A (ja) 2022-04-04

Similar Documents

Publication Publication Date Title
US10873741B2 (en) Image processing apparatus and method
US11363349B2 (en) Geometry matching in virtual reality and augmented reality
US10699482B2 (en) Real-time immersive mediated reality experiences
US11076142B2 (en) Real-time aliasing rendering method for 3D VR video and virtual three-dimensional scene
US10085008B2 (en) Image processing apparatus and method
US9128897B1 (en) Method and mechanism for performing cloud image display and capture with mobile devices
US11010958B2 (en) Method and system for generating an image of a subject in a scene
GB2543913A (en) Virtual conference room
JPWO2016009865A1 (ja) 情報処理装置及び方法、表示制御装置及び方法、再生装置及び方法、プログラム、並びに情報処理システム
JP2022501748A (ja) 立体ストライクゾーンの表示方法及び装置
US20140192045A1 (en) Method and apparatus for generating three-dimensional caricature using shape and texture of face
US11087527B2 (en) Selecting an omnidirectional image for display
US10902554B2 (en) Method and system for providing at least a portion of content having six degrees of freedom motion
WO2020166352A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20220245885A1 (en) Volumetric Imaging
KR20210055381A (ko) 스마트 디스플레이를 통해 증강 현실 컨텐츠를 제공하는 장치, 방법 및 컴퓨터 프로그램
CN113253840B (zh) 多参与模式的人工现实系统
JP7072706B1 (ja) 表示制御装置、表示制御方法および表示制御プログラム
WO2023238660A1 (ja) 情報処理装置、情報処理方法およびプログラム
Nel Low-Bandwidth transmission of body scan using skeletal animation
Dittrich et al. An Immersive and Collaborative Virtual Theater Experiences
US20220044351A1 (en) Method and system for providing at least a portion of content having six degrees of freedom motion

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20756269

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20756269

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP