WO2021095704A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
WO2021095704A1
WO2021095704A1 PCT/JP2020/041812 JP2020041812W WO2021095704A1 WO 2021095704 A1 WO2021095704 A1 WO 2021095704A1 JP 2020041812 W JP2020041812 W JP 2020041812W WO 2021095704 A1 WO2021095704 A1 WO 2021095704A1
Authority
WO
WIPO (PCT)
Prior art keywords
template
augmented reality
scene
abstract
content
Prior art date
Application number
PCT/JP2020/041812
Other languages
English (en)
French (fr)
Inventor
都夢 田原
智也 石川
岳 成田
高志 瀬能
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/755,722 priority Critical patent/US20220392174A1/en
Publication of WO2021095704A1 publication Critical patent/WO2021095704A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2004Aligning objects, relative positioning of parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2021Shape modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2219/00Indexing scheme for manipulating 3D models or images for computer graphics
    • G06T2219/20Indexing scheme for editing of 3D models
    • G06T2219/2024Style variation

Definitions

  • the present technology relates to an information processing device, an information processing method and a program, and particularly to an information processing device for performing augmented reality display using augmented reality content generated assuming a predetermined environment.
  • template AR Augmented Reality
  • This template AR content is created using an environment map that can be obtained by measuring a normally assumed scene using various sensors such as an RGB camera, a depth sensor, and LiDAR (Light Detection and Langing).
  • This environment map has information such as three-dimensional geometric information, attributes, number, and arrangement of objects in the scene.
  • an acceleration sensor GPS (Global Positioning System), etc. to identify the position and orientation of the user and AR display device with respect to the environment map of the implementation scene acquired in advance. Display AR content.
  • GPS Global Positioning System
  • the above template AR content can usually be used only in the specific scene used at the time of production. That is, there is a problem that the AR content created for a specific room cannot be displayed correctly in another room.
  • Patent Document 1 proposes a technique for implementing template AR content in an unknown scene different from that at the time of production. This technology solves the optimal mapping of AR content with the geometric information and affordances of the scene as constraints in order to map the AR content experience to different environments.
  • Patent Document 1 has a problem that it is premised that an ideal environment map and restrictions similar to the original scene in which the template AR content is produced can be obtained even in an unknown scene. That is, in order for the user to experience the template AR content in an unknown scene, it is necessary to be able to accurately acquire the scene information after performing a certain environment construction work that can reproduce the conditions of the original scene. This significantly limits the types of scenes in which the template AR content can be experienced and the conditions of objects existing in the scenes.
  • the purpose of this technology is to enable the template AR content to be used satisfactorily in an implementation scene different from the scene at the time of production.
  • the concept of this technology is An environment map generator that generates an environment map of the augmented reality implementation scene, An abstract expression generation unit that generates an abstract expression of an augmented reality scene based on the environment map of the augmented reality scene, The abstract representation of the augmented reality implementation scene is compared with the abstract representation of the template augmented reality generated based on the template augmented reality environment map, and the template augmented reality content is mapped and displayed on the augmented reality implementation scene based on the comparison result. It is in an information processing device equipped with an augmented reality content generation unit for display that generates augmented reality content for display.
  • the environment map generation unit generates an environment map of the augmented reality implementation scene.
  • the abstract expression generation unit generates an abstract expression of the augmented reality implementation scene based on the environment map of the augmented reality scene.
  • the abstract expression may be an expression having a graph structure.
  • the display augmented reality content generator compares the abstract representation of the augmented reality implementation scene with the abstract representation of the template augmented reality generated based on the template augmented reality environment map. Then, this display augmented reality content generation unit maps the template augmented reality content to the augmented reality implementation scene based on the comparison result, and generates the augmented reality content for display.
  • an abstract representation of the augmented reality implementation scene is generated based on the environment map of the augmented reality implementation scene, and the abstract representation of the augmented reality implementation scene is compared with the abstract representation of the template augmented reality, and the comparison is made. Based on the result, the template augmented reality content is mapped to the augmented reality implementation scene to generate the augmented reality content for display.
  • the calculation process for mapping the template augmented reality content to the augmented reality implementation scene is reduced and it can be done easily.
  • the appropriate display according to the user's intention when experiencing the template augmented reality content in the augmented reality implementation scene of each user can be obtained.
  • an abstract expression editing unit for editing an abstract expression of an augmented reality implementation scene or an abstract expression of a template augmented reality may be further provided.
  • the abstract expression editorial department presents the abstract expression of the augmented reality implementation scene and the abstract expression of the template augmented reality side by side to the user, and the abstract expression presentation unit in which the user presents the abstract expression of the augmented reality implementation scene side by side, and the abstract of the augmented reality implementation scene based on this presentation.
  • Representations or templates may be configured to have a user interface section for modifying and manipulating the abstract representation of augmented reality. As a result, the user can easily and appropriately perform the operation of changing the abstract expression.
  • the user may use a plurality of partially identical parts. May be recognizable.
  • the user can easily recognize a plurality of partially isomorphic parts, and efficiently perform an operation of changing the abstract expression in order to display the template augmented reality content appropriately according to the user's intention. Is possible.
  • the display augmented reality content generation unit of the augmented reality implementation scene after the change operation may be designed to compare abstract expressions with template augmented reality abstract expressions. This makes it possible to display the template augmented reality content appropriately according to the user's intention when experiencing it in the user's augmented reality implementation scene, or expand the range of user scenes in which the template augmented reality content can be experienced. Is possible.
  • an automatic editing unit that automatically edits the abstract expression of the augmented reality implementation scene generated by the abstract expression generation unit based on the editing information for the augmented reality implementation scene in the abstract expression editing unit is further provided. May be done.
  • an automatic editing unit that automatically edits the abstract expression of the augmented reality implementation scene generated by the abstract expression generation unit based on the editing information for the augmented reality implementation scene in the abstract expression editing unit. May be done.
  • the abstract expression is an expression having a graph structure
  • the editing may include an operation of changing the relationship between the nodes or an operation of changing the attribute of the node.
  • FIG. 1 It is a figure which shows the configuration example of the information processing system as an embodiment. It is a figure which shows the example of the actual scene. It is a figure which shows the display example of AR content. It is a figure which shows the example of the template scene. It is a figure which shows the example of the template AR content. It is a flowchart which shows an example of the processing flow of this technology. It is a flowchart which shows an example of the processing procedure of the generation processing of the AR implementation scene environment map (actual environment map). It is a flowchart which shows another example of the processing procedure of the generation process of the AR execution scene environment map (actual environment map). It is a figure for demonstrating the structure of the graph used as an abstract expression.
  • FIG. 1 It is a figure which shows an example of the abstract expression of the scene acquired by the AR implementation scene environment map (map C) and the edited abstract expression. It is a diagram showing an example of AR content mapping (map A ⁇ map C; the mapping result can be changed in various ways by the user editing the abstract expression according to the intention) determined based on the abstract expression of the edited scene. is there. It is a figure for demonstrating the automatic adaptation system by accumulating the editing information of a template and AR implementation environment. It is a figure for demonstrating the template AR content creation support.
  • FIG. 1 shows a configuration example of the information processing system 10 as an embodiment.
  • the information processing system 10 has a configuration in which an AR glass 11 as an AR display device and an information processing device 12 are connected via a network 13 such as a LAN (Local Area Network).
  • a network 13 such as a LAN (Local Area Network).
  • the AR glass 11 is a glasses-type wearable terminal provided with a transmissive display unit.
  • the AR glass 11 displays an image including various objects such as characters on the display unit according to the control by the information processing device 12 performed via the network 13.
  • the user will see the object as AR content on top of the landscape in front of him.
  • the projection method of the image including the object may be a virtual image projection method or a retinal projection method in which the image is directly formed on the retina of the user's eye.
  • the information processing device 12 reproduces the AR content and transmits the image data obtained by the reproduction to the AR glass 11 to display the image of the AR content on the AR glass 11.
  • the information processing device 12 is composed of, for example, a PC (personal computer).
  • the AR display device is not limited to the AR glass 11, and instead of the AR glass 11, a transmissive HMD (Head Mounted Display), a smartphone, or the like may be used.
  • FIG. 2 shows an example of an AR implementation scene. It is assumed that the user who views the AR content is in the living room as shown in FIG. 2 with the AR glass 11 attached.
  • This AR implementation scene is an actual scene in which the user views the AR content.
  • objects OT1 that are floor surfaces
  • objects OT11 that are tables
  • objects OT21 to OT24 that are chairs
  • objects OT12 that are sofas
  • objects OT13 that are foliage plants.
  • the objects OT21 to OT24 which are four chairs, are arranged so as to face the object OT11, which is a table having a substantially square top plate.
  • the object OT12 which is a sofa, is arranged in the vicinity of the object OT11.
  • the video of the AR content is displayed superimposed on the AR implementation scene.
  • FIG. 3 shows a display example of AR content.
  • images of four characters C1 to C4 as objects sitting on objects OT21 to OT24, which are chairs, are displayed.
  • the user will see the characters C1 to C4 sitting on the objects OT21 to OT24 that are actually in front of them.
  • Objects containing characters C1 to C4 have, for example, a three-dimensional shape.
  • the appearance of objects such as size and angle differs depending on the position and posture of the user in the three-dimensional space.
  • the object included in the AR content is a humanoid character
  • other objects such as animals, vehicles, furniture, and buildings as objects.
  • the AR content used for displaying such an image is generated by the information processing device 12 based on the template AR content which is the AR content prepared in advance as a template.
  • the AR content for display is generated by performing mapping that changes the arrangement of objects in the template AR content according to the actual scene.
  • the AR implementation scene is an unknown scene for the information processing device 12 until the three-dimensional shape is measured.
  • the display AR content is generated by applying the template AR content generated assuming a specific scene to an unknown scene.
  • Template AR content is configured by arranging objects in a three-dimensional space represented by the three-dimensional shape of a specific scene assumed as a template.
  • the environment map includes information representing the three-dimensional shape of the scene and information about the objects existing in the scene.
  • Information about an object represents the attributes, number, position, etc. of the object.
  • the three-dimensional shape of the template scene which is the scene assumed as the template, is represented by the template AR environment map.
  • This template AR environment map includes information representing the three-dimensional shape of the template scene and information about objects existing in the template scene.
  • the template scene is a scene known to the information processing apparatus 12.
  • FIG. 4 shows an example of a template scene.
  • the template scene in this example is a scene that assumes a specific living room.
  • objects OS1 which are floor surfaces
  • objects OS11 which are tables
  • objects OS21 to OS24 which are chairs.
  • the four chairs, objects OS21 to OS24, are arranged facing the front of the object OS11, which is a table having a circular top plate.
  • the template AR environment map represents the three-dimensional shapes (three-dimensional shapes of the template scene), attributes, numbers, positions, etc. of the objects OS1, the object OS11, and the objects OS21 to OS24.
  • FIG. 5 shows an example of template AR content.
  • This template AR content is configured by arranging an object having a three-dimensional shape in a template scene.
  • the template AR content is composed of images in which four characters C1 to C4 as objects are sitting on objects OS21 to OS24, which are chairs, respectively.
  • the template AR content includes video data of characters C1 to C4 sitting on the objects OS21 to OS24.
  • the AR content is reproduced based on the display AR content generated by processing the template AR content including the character image in such a template scene according to the AR implementation scene.
  • the AR implementation scene is measured, and the AR implementation scene environment map, which is an environment map showing the three-dimensional shape of the AR implementation scene, is generated.
  • the AR implementation scene environment map represents the three-dimensional shapes (three-dimensional shapes of the actual scene), attributes, numbers, positions, and the like of the objects OT1, the objects OT11, and the objects OT21 to OT24 in FIG.
  • the position and posture of the user in the AR implementation scene are estimated, and when the position and posture of the user are used as a reference, the characters C1 to C4 appear to be sitting on the actually existing objects OT21 to OT24.
  • the display AR content of FIG. 3 for this purpose is generated based on the template AR content of FIG.
  • an abstract expression of an AR implementation scene is generated based on the AR implementation scene environment map, the abstract expression of this AR implementation scene is compared with the template AR abstract expression, and the template AR content is AR based on the comparison result. Generate display content by mapping to the implementation scene. Further, in the present technology, the abstract expression of the AR implementation scene or the template AR abstract expression is edited as necessary.
  • the flowchart of FIG. 6 shows an example of the processing flow of the present technology. Each process in the flowchart of FIG. 6 is performed by, for example, the information processing apparatus 12.
  • an AR implementation scene environment map is generated.
  • This AR implementation scene environment map is generated based on information on the AR implementation scene (time-series RGB images, distance images, point clouds, etc. acquired by various sensors such as an RGB camera, a depth sensor, and LiDAR).
  • the generation of this AR implementation scene environment map is performed by a non-patent document (G. Narita et al. Panopticfusion: Online volumetric semantic mapping at the level of stuff and things. In IEEE / RSJ Int. Conf. On Intelligent Robots and Systems ( It can be done by the method described in IROS), 2019), etc.
  • This AR implementation scene environment map is based on the relative positional relationship between one or more objects existing in a scene or scene in which attributes including three-dimensional geometric information and semantic information, numbers, etc. are associated with each other. It is composed. Examples of the method of expressing the three-dimensional geometric information include a method using a voxel space and a censored distance, but the method is not necessarily limited to these.
  • Attributes are defined as identifiable label representations such as object categories, object IDs, materials, colors, affordances, etc.
  • the relative positional relationship between objects is represented by, for example, the position of each object in the same coordinate system, the position including the direction of the object, and the posture (rotation and translation).
  • the flowchart of FIG. 7 shows an example of the processing procedure of the generation process of the AR implementation scene environment map (actual environment map).
  • the AR implementation scene environment map is generated based on the AR implementation scene information including the RGB image, the distance image, the point cloud data, and the like.
  • AR execution scene information is repeatedly transmitted from the AR glass 11 to the information processing device 12 at a predetermined cycle.
  • a voxel space composed of a voxel that stores a cutoff signed distance to an object surface existing in an AR execution scene and an object ID for uniquely distinguishing an object existing in the AR execution scene.
  • an object attribute table that manages the attributes of each object is prepared.
  • the information processing apparatus 12 divides the area of the object represented by the image or the point cloud based on the RGB image, the distance image, and the point cloud data. Attribute estimation and object ID estimation are performed. The area division identifies the area of each object existing in the actual scene. In addition, the attribute of the object is estimated by the attribute estimation.
  • the information processing device 12 has data for estimating the attributes of an object based on features such as a shape represented by an image or point cloud data.
  • object ID estimation the object ID of each object whose attributes are estimated while the area is specified is estimated.
  • the object ID estimation is a process necessary to obtain consistency with the object ID given to the object, and as shown by arrow A12, the object ID already stored in the voxel space is referred to as appropriate. Will be.
  • the object tracking process may be performed based on the image or the point cloud data input as the time series data, and the object ID may be estimated based on the result of the object tracking.
  • the information processing device 12 stores the object ID estimated by the object ID estimation in the voxel space based on the distance image or the point cloud data.
  • the object ID is set as voxel information at a position corresponding to the distance to the object.
  • the information processing device 12 stores the result of attribute estimation for each object and the result of object ID estimation in the object attribute table.
  • the attributes of each object are managed in association with the object ID.
  • the information processing apparatus 12 calculates the cutoff signed distance of each object to the object surface based on the RGB image, the distance image, and the point cloud data, and the voxel. Store in space.
  • the information stored in the voxels constituting the voxel space represents the ID of the object at the position corresponding to each voxel.
  • the method of calculating the censored distance and the method of storing it in the voxel space are, for example, non-patent documents (Newcombe, Richard A., et al. "Kinect Fusion: Real-time dense surface mapping and tracking.” Mixed and augmented reality (ISMAR). ), 2011 10th IEEE international symposium on. IEEE, 2011).
  • the information processing device 12 integrates the information of the boxel space and the information of the object attribute table into the three-dimensional shape of the AR implementation scene and the AR implementation scene. Extract the attributes and positions of each existing object, and the relative positional relationship between the objects. As shown at the tip of the arrow A18, the information processing device 12 stores information including the extracted information as an AR implementation scene environment map.
  • the flowchart of FIG. 8 shows another example of the processing procedure of the generation process of the AR implementation scene environment map (actual environment map).
  • This generation process is a process in which the distance with the cutoff sign is stored in the voxel space first, and the area division of the object, the attribute estimation, the object ID estimation, and the like are performed based on the information stored in the voxel space.
  • the information processing apparatus 12 calculates the cutoff signed distance of each object to the object surface based on the RGB image, the distance image, and the point cloud data. , Store in voxel space.
  • step ST42 the information processing apparatus 12 extracts an array of cutoff signed distances, point cloud data, meshes, etc. from the voxel space, and based on the extracted information, divides the area of the object, estimates the attributes, and estimates the object ID. ..
  • the subsequent processing is the same processing as the processing described with reference to the flowchart of FIG. 7. That is, as the process of step ST43, the information processing device 12 stores the object ID estimated by the object ID estimation in the voxel space. As shown at the tip of the arrow A32, the information processing apparatus 12 stores the result of attribute estimation for each object and the result of object ID estimation in the object attribute table.
  • the information processing device 12 integrates the information of the boxel space and the information of the object attribute table into the three-dimensional shape of the AR implementation scene and the AR implementation scene. Extract the attributes and positions of each existing object, and the relative positional relationship between the objects. As shown at the tip of the arrow A35, the information processing device 12 stores information including the extracted information as an AR implementation scene environment map.
  • the order of the processes of each step related to the generation of the AR implementation scene environment map can be changed as appropriate.
  • various technologies for estimating the three-dimensional shape of the AR implementation scene based on the RGB images taken by the camera and the measurement results of various sensors are adopted. It is possible.
  • an abstract expression of the AR implementation scene is generated based on the AR implementation scene environment map.
  • the abstract representation of this AR implementation scene is defined as an expression having a graph structure in which objects and users existing in the AR implementation scene are nodes and the nodes are connected via labeled edges and related nodes.
  • connection relationship can be defined between the chair node and the table node using the relation label "close”.
  • the 3D information of the object unit corresponding to the subject and object of the relationship from the acquired environment map, their positions, attitude information, etc., and the distance between them. You can use the information of the direction.
  • the three-dimensional information of the object of the dense environment map may be abstracted and simplified by using a “3D bounding box” or the like.
  • the Euclidean distance and the angle formed by the vector corresponding to the front direction of each object are calculated, and appropriately determined threshold processing is performed. Just do it.
  • the information measured when acquiring the environment map for example, RGB-D image sequence
  • inference may be performed using a neural network using them as inputs.
  • a label front / behind / left / right / on / above / under / near etc.
  • a spatial positional relationship can be mentioned.
  • the predicate relationship with the object of the subject and the state associated therewith may be treated as a relationship label. Examples of this include “the chair” has “” and “the virtual character” sits “on the chair.”
  • the relationship between objects may be defined in a group unit composed of a plurality of objects. This includes, for example, "the table is” surrounded “by chairs.”
  • the relationship defined in group units may be acquired as a result of integrating the relationships between one-to-one objects, or may be estimated from the beginning using all the information of a plurality of objects.
  • one scene may be divided into sub-scene units for each group of objects, and one scene may be abstractly described by a set of a plurality of graphs. Further, one object may be divided into parts or regions to form a set of a plurality of nodes (see FIG. 9A), or a graph layered by a superordinate concept may be used (FIG. 9B). reference).
  • the flowchart of FIG. 10 shows an example of the processing procedure of the generation processing of the abstract expression of the AR execution scene.
  • step ST51 the information processing device 12 performs downsampling and noise removal processing on the three-dimensional data of the environment map as needed.
  • step ST52 the information processing device 12 divides the three-dimensional measurement information (point cloud / Voxel, etc.) for each object instance (individual identification object).
  • step ST53 the information processing device 12 abstracts the three-dimensional position information of the object by using, for example, a “3D bounding box”.
  • step ST54 the information processing apparatus 12 estimates the corresponding relationship based on the three-dimensional positions and orientations of the object pair or a plurality of objects.
  • step ST55 the information processing device 12 constructs abstract representation data of the AR execution scene from all the estimated inter-object relationship information.
  • the template AR data group is held by the information processing device 12, and is composed of a predetermined number of template AR data.
  • Each template AR data includes a template AR environment map, a template AR abstract representation and a template AR content.
  • the template AR environment map is a scene in which attributes including three-dimensional geometric information and semantic information, the number, etc. are associated, and one or more objects existing in the scene, and those. It is composed of relative positional relationships between objects.
  • This template AR environment map may be acquired by pre-measuring an AR implementation scene assuming AR implementation, or by arranging a 3D CAD (3D CAD) model in a virtual space such as a game engine. May be good.
  • the template AR abstract representation is generated based on the template AR environment map in the same manner as the abstract representation of the AR implementation scene described above.
  • This template AR abstract expression is a graph in which objects and users existing in the template scene, and virtual objects such as characters used for presenting AR contents are used as nodes, and these nodes are connected via labeled edges and related nodes. Defined as a structured representation.
  • the template AR content is configured by arranging virtual objects in a template scene whose three-dimensional shape or the like is represented by the template AR environment map.
  • step ST13 the abstract expression of the AR implementation scene and the template AR abstract expression corresponding to the template AR content used in this AR implementation scene are comparatively presented, and the abstract expression is edited by the user as necessary.
  • the content is set so that the object node of the AR implementation scene and the object node of the template AR content correspond to each other.
  • mapping it is possible to reproduce the template AR content in another space.
  • the AR implementation scene (actual environment), as described above, it is not always possible to prepare a situation in which the context (scene condition) preset in the template AR content is reproduced. This corresponds to the fact that the template AR abstract expression is not always included in the abstract expression of the AR implementation scene. In such a case, by editing the abstract expression of each scene, it is possible to realize an AR conforming display according to each AR implementation scene.
  • the flowchart of FIG. 11 shows an example of the processing procedure up to mapping the AR content through editing the abstract representation of the scene.
  • the information processing device 12 acquires the AR implementation scene and the template AR abstract expression based on the AR implementation scene and the template AR environment map.
  • step ST62 the information processing apparatus 12 determines the object ID to be edited in the abstract expression in which the user is comparatively presented (parallel presented) to the user via the input interface (user interface), for example, by the video display unit. Specify and overwrite the label of the relationship or attribute to be edited.
  • This edit is made to the abstract representation of the AR implementation scene and / or the template AR abstract representation.
  • the abstract expression of the AR implementation scene can include only one template AR abstract expression.
  • step ST63 the information processing device 12 acquires the correspondence relationship of each object between the AR execution scene and the template by using the overwritten abstract expression.
  • step ST64 the information processing apparatus 12 performs mapping to replace the object on the template AR environment map with the object on the environment map of the AR implementation scene based on the acquired correspondence, and displays the AR content for display. create. This makes it possible to display the AR content in the AR implementation scene.
  • FIG. 12 shows an example of the processing procedure of the editing process. The steps of each process are not necessarily limited to the order shown in FIG.
  • the user can decide whether or not to use those abstract expressions as they are (steps ST71, 72).
  • the abstract expression of the AR implementation scene and the template AR abstract expression are presented (displayed) to the user side by side. By this presentation, the user can easily and appropriately perform the operation of changing the abstract expression.
  • the plurality of partially isomorphic parts are presented so as to be recognizable by the user.
  • the user can easily recognize a plurality of partially isomorphic parts, and efficiently perform an operation of changing the abstract expression in order to display the template augmented reality content appropriately according to the user's intention. It becomes possible.
  • step ST73 the process proceeds to the process of comparing the two abstract expressions and solving the matching.
  • step ST74 the user can edit each abstract expression at this point (step ST74, step ST75).
  • the abstract expression may be edited by a graph editing operation using a GUI (Graphical User Interface) that visualizes the state of the scene.
  • This editing includes, for example, the operation of changing the relationship between nodes and the operation of changing the attributes of nodes.
  • FIG. 13 shows the presentation of the editing interface of the abstract expression to the user in the AR implementation scene.
  • FIG. 13A shows an example of an AR implementation scene
  • FIG. 13B schematically shows an example of presenting an abstract expression editing process using a video display device (display, HMD, AR glass, etc.). ..
  • the user intuitively operates an interface that visualizes the abstract expression of the scene presented by the display, HMD, AR glass, projector projection, etc. (for example, touch operation of the edge itself representing the relationship or individual label. You may be able to edit (for example, delete) by doing.
  • a presentation that is visually easy for the user may be used, such as solving the matching problem between the two in advance and emphasizing the places where the graph structures do not match with colors.
  • a system for inputting text or recognizing and inputting a voice spoken by a user may be provided for adding or editing labels such as relationships between objects and attributes of objects. Further, the system side may search for an object that can be substituted based on the abstract expression of the scene and present it to the user.
  • the information processing apparatus 12 After performing the process of comparing the two abstract expressions and solving the matching in step ST73, the information processing apparatus 12 includes the template AR abstract expression in the abstract expression of the AR implementation scene, or is partially the same type. It is determined whether or not there is (step ST76). When the abstract expression of the AR implementation scene includes the template AR abstract expression, the information processing device 12 transitions to the process of creating the AR content for display (step ST82).
  • the information processing device 12 determines whether there is an object having attributes and relationships that can be substituted for the AR implementation scene environment map. Judgment (step ST77). When there is an object having attributes and relationships that can be substituted for the AR implementation scene environment map, the information processing device 12 transitions to the process of creating the AR content for display (step ST82).
  • the information processing device 12 determines whether to edit the abstract expression of the AR implementation scene (step ST78). This determination is made based on the user's editing instructions. When editing the abstract representation of the AR implementation scene, the information processing device 12 returns to the process of step ST71.
  • the information processing device 12 determines whether to edit the template AR abstract expression (step ST79). This determination is made based on the user's editing instructions. When editing the template AR abstract representation, the information processing apparatus 12 returns to the process of step ST72.
  • the information processing device 12 determines whether the AR execution scene has a space that can be replaced by a virtual object (step ST80). When there is a space that can be replaced by a virtual object in the AR execution scene, the information processing device 12 transitions to the process of creating the AR content for display (step ST82).
  • the information processing device 12 When there is no space that can be replaced by a virtual object in the AR implementation scene in step ST80, the information processing device 12 does not create the AR content for display (step ST81). In this case, the AR content based on the template AR content is not displayed in the AR implementation scene.
  • FIG. 14 An example of editing the abstract expression of the template scene and the AR implementation scene will be described with reference to FIG.
  • This editing example is an example in which the template AR content "virtual character sits in a chair near the user" is displayed in a situation where there are a plurality of chair candidates.
  • the left side of FIG. 14 represents the template AR abstract representation
  • the right side of FIG. 14 represents the abstract representation of the AR implementation scene.
  • the virtual character is based on the conditions set in advance by the content creator and the context information of the scene. You will choose from the candidates and sit down. However, there is no guarantee that the selection result will be the result intended by the user, and the user cannot control it unless he / she knows specific conditions.
  • the abstract expression of the AR execution scene and the template AR abstract expression are compared, and the abstract expression of the AR execution scene or the template AR abstract expression is changed so that the virtual character can sit on the chair intended by the user. You can perform operations.
  • FIG. 15A is an example in which a change operation is performed on the template AR abstract expression.
  • "front side” is added in addition to “close” as a relationship based on the "user” of the “chair”.
  • the structure excluding the "virtual character” from the template AR abstract expression is in a state corresponding only to the "user” and “chair B” parts in the abstract expression of the AR implementation scene, and the chair intended by the user for the virtual character. It is possible to sit on B.
  • FIG. 15B is an example in which a change operation is performed on the abstract expression of the AR implementation scene.
  • “near” is deleted from “close” and “left side” as the relationship based on the "user” of “chair A”, and the relationship based on the “user” of “chair C” is used.
  • “Near” has been deleted from “Near” and “Right”.
  • the structure excluding the "virtual character” from the template AR abstract expression is in a state corresponding only to the "user” and “chair B” parts in the abstract expression of the AR implementation scene, and the chair intended by the user for the virtual character. It is possible to sit on B.
  • This editing example is an example in which the template AR content "Display a virtual object on a table near the user" is displayed in a situation where there is a cabinet instead of a table.
  • the left side of FIG. 16 represents the template AR abstract representation, and the right side of FIG. 16 represents the abstract representation of the AR implementation scene.
  • the AR implementation scene is different from the situation assumed by the template AR content, so the template AR content should be mapped to the AR implementation scene as it is. Can't.
  • mapping will be performed using that. be able to.
  • FIG. 17A is an example in which a change operation is performed on the template AR abstract expression.
  • "cabinet" in the template AR abstract representation is changed to the attribute "table”.
  • the structure excluding the "virtual object" from the template AR abstract expression becomes a state corresponding to the "user” and “table” parts in the abstract expression of the AR implementation scene, and the template AR content is mapped to the AR implementation scene. It becomes possible.
  • FIG. 17B is an example in which a change operation is performed on the abstract expression of the AR implementation scene.
  • the "table" in the abstract representation of the AR implementation scene is changed to the attribute "cabinet".
  • the structure excluding the "virtual object" from the template AR abstract expression becomes a state corresponding to the "user” and "cabinet” parts in the abstract expression of the AR implementation scene, and the template AR content is mapped to the AR implementation scene. It becomes possible.
  • step ST14 based on the abstract representation of the template AR and the AR implementation scene after the editing process in step ST13, the environment map of the AR implementation scene, the template AR environment map, and the template AR content. , AR content for display is generated.
  • the template AR abstract expression is compared with the abstract expression of the AR implementation scene, and the object on the template AR environment map is placed on the environment map of the AR implementation scene based on the comparison result (correspondence relationship). It is done by mapping to replace with an object.
  • step ST91 the information processing apparatus 12 converts the object OT_i having the same attribute X_i as the object OS_i represented by the template AR abstract representation into the object OT_i existing in the AR implementation scene represented by the abstract representation of the AR implementation scene. Search from.
  • step ST92 the information processing apparatus 12 has the number of objects OT_i searched and the number of objects OS_i having the attribute X_i whose relative positional relationship of the objects OT_i is represented by the template AR abstract expression, respectively. And, it is determined whether or not it matches the relative positional relationship of the object OS_i.
  • condition is set when there are the same number of objects with the same attribute in each of the template scene and the AR implementation scene, and the positional relationship of the objects with the same attribute in the template scene and the positional relationship in the AR implementation scene are the same. Judged as satisfying.
  • the positional relationship of the objects does not have to be exactly the same, and when the similarity of the positional relationship is higher than the threshold value, it may be determined that the condition is satisfied.
  • step ST92 If it is determined in step ST92 that the number and relative positional relationship of the searched objects OT_i match the number and relative positional relationship of the objects OS_i, respectively, the information processing apparatus 12 proceeds to the process of step ST93.
  • step ST93 the information processing apparatus 12 generates display AR content by replacing the position of the object based on the position of the object OS_i in the template AR content with the position based on the position of the object OT_i. ..
  • the positional relationship between the object and the object OT_i in the display AR content is the same as the positional relationship between the object and the object OS_i in the template AR content.
  • FIG. 19 shows an example of a template AR environment map, an AR implementation scene environment map, and AR contents for display.
  • the template AR and the environment map of the AR implementation scene correspond to the abstract expression after the editing process.
  • the template AR environment map shown in the upper part of FIG. 19 represents the template scene shown in FIG. 4 in which one table and four chairs exist on the floor and four chairs surround the table. Further, in the AR implementation scene environment map shown in the middle of FIG. 19, one table and four chairs exist on the floor surface, and four chairs surround the table.
  • the AR implementation shown in FIG. 2 Represents a scene.
  • the object OT11 (Fig. 2) having the same "table” attribute as the object OS11 (Fig. 4) is searched as the object OT_i having the same attribute X_i as the object OS_i. Will be done. Further, an object OT21 having the same "chair” attribute as the object OS21, an object OT22 having the same "chair” attribute as the object OS22, an object OT23 having the same "chair” attribute as the object OS23, and an object. Objects OT24 having the same "chair” attribute as OS24 are searched for.
  • the number of objects OS11 (table) and objects OS21 to OS24 (chairs) in the template scene, and the positional relationship between them are the number of objects OT11 (table) and objects OT21 to OT24 (chairs) in the AR implementation scene, and their respective positions. It is determined that the positional relationship is the same as that of.
  • FIG. 20 is a diagram showing an example of the positional relationship of each object in the template AR environment map and the environment map of the AR implementation scene.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene represented by the template AR environment map is as shown on the left side of FIG. 20.
  • the positional relationship between the objects OT11 and the objects OT21 to OT24 in the AR implementation scene represented by the AR implementation scene environment map is as shown on the right side of FIG. 20.
  • the arrows shown in the vicinity of the objects OS21 to OS24 and the objects OT21 to OT24 indicate the direction of the chair.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene is the same as the positional relationship between the objects OT11 and the objects OT21 to OT24 in the AR implementation scene, and there are four chairs at positions surrounding the objects having the same "table" attribute. It is the same in that it does.
  • display AR content that realizes the appearance of seating four different characters on the four chairs surrounding the table is generated based on the template AR content.
  • the chairs used for seating the four characters are the objects OT21 to OT24 existing in the AR implementation scene.
  • FIG. 21 is a diagram showing an example of replacing the position of an object in the template AR content.
  • the position of the character C1 seated on the object OS21 in the template AR content is replaced with the position of the object OT21 as shown by the arrow A101 in FIG.
  • the position of each character is represented by a circle with a predetermined pattern.
  • the position of the character C1 is set with reference to the positions of the object OS11 and the object OS21, but the same positional relationship is maintained with reference to the positions of the object OT11 and the object OT21.
  • the position of the character C2 seated on the object OS22 is replaced with the position of the object OT22 as shown by the arrow A102.
  • the position of the character C3 seated on the object OS23 is replaced with the position of the object OT23 as shown by the arrow A103.
  • the position of the character C4 seated on the object OS24 is replaced with the position of the object OT24 as indicated by the arrow A104.
  • Step 12 proceeds to the process of step ST94.
  • step ST94 the information processing apparatus 12 converts the object OT'_i having the attribute X'_i similar to the object OS_i represented by the template AR abstract representation into the AR implementation scene represented by the abstract representation of the AR implementation scene. Search from the existing object OT_i.
  • the attribute X'_i similar to the attribute X_i is defined in advance in a table or the like when the template AR content is generated, for example.
  • the attribute X'_i may be specified by the user when the display AR content is generated.
  • step ST95 the information processing apparatus 12 includes the searched object OT'_i, and the number of the object OT_i and the relative positional relationship of the object OT_i are represented by the template AR abstract representation, respectively. It is determined whether or not the number of objects OS_i having X_i matches the relative positional relationship of the objects OS_i.
  • step ST95 If it is determined in step ST95 that the number and relative positional relationship of the objects OT_i match the number and relative positional relationship of the objects OS_i, respectively, the information processing apparatus 12 proceeds to the process of step ST93.
  • step ST93 similarly to the above-described processing, the display AR content is created by replacing the position of the object based on the position of the object OS_i with the position based on the position of the object OT_i in the template AR content. Will be generated.
  • FIG. 22 shows an example of a template AR environment map, an AR implementation scene environment map, and AR contents for display.
  • the template AR and the environment map of the AR implementation scene correspond to the abstract expression after the editing process.
  • the template AR environment map shown in the upper part of FIG. 22 shows the template scene shown in FIG. 4 in which one table and four chairs exist on the floor and four chairs surround the table. Further, the AR implementation scene environment map shown in the middle of FIG. 22 shows a scene in which a floor surface is present, and one table, four chairs, and one sofa are present on the floor surface. In this example, three of the four chairs surround the table, but one chair is located away from the table. Also, one sofa is supposed to be near the table.
  • the object OT11 having the same "table” attribute as the object OS11 (FIG. 4) is searched as the object OT_i having the same attribute X_i as the object OS_i. Further, an object OT21 having the same "chair” attribute as the object OS21, an object OT22 having the same "chair” attribute as the object OS22, an object OT23 having the same "chair” attribute as the object OS23, and an object. Objects OT24 having the same "chair” attribute as OS24 are searched for.
  • the number of objects OS11 (table) and objects OS21 to OS24 (chairs) in the template scene, and the positional relationship between them are the number of objects OT11 (table) and objects OT21 to OT24 (chairs) in the AR implementation scene, and their respective positions. It is determined that they are not the same as the positional relationship of.
  • FIG. 23 is a diagram showing an example of the positional relationship of each object in the template AR environment map and the environment map of the AR implementation scene.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene represented by the template AR environment map shown on the left side of FIG. 23 is the same as the positional relationship described with reference to FIG.
  • the positional relationship between the objects OT11 and the objects OT21 to OT24 in the AR implementation scene represented by the AR implementation scene environment map is as shown on the right side of FIG. 23.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene is that the positional relationship between the objects OT11 and the objects OT21 to OT24 in the AR implementation scene and the object OT24 which is one "chair" exist at a distant position.
  • the object OT12 having the attribute of "sofa” having the attribute similar to "chair” is searched from the object OT_i existing in the AR implementation scene represented by the AR implementation scene environment map.
  • the number of objects OS11 (table) and objects OS21 to OS24 (chairs) in the template scene, and the positional relationship between them, including the object OT12, are the objects OT11 (table) and objects OT21 to OT23 (chairs) in the AR implementation scene. ) And the number of objects OT12 (sofa), and the positional relationship between them is determined to be the same.
  • the AR content for display that realizes the appearance in which four different characters are seated on the three chairs surrounding the table and the sofa near the table is used as the template AR content.
  • the chairs used for seating the four characters are the objects OT21 to OT23 and the objects OT12 that exist in the actual scene.
  • FIG. 24 is a diagram showing an example of replacing the position of an object in the template AR content.
  • the position of the character C1 seated on the object OS21 in the template AR content is replaced with the position of the object OT21 as shown by the arrow A111 in FIG.
  • the position of the character C2 seated on the object OS22 is replaced with the position of the object OT22 as shown by the arrow A112.
  • the position of the character C3 seated on the object OS23 is replaced with the position of the object OT23 as shown by the arrow A113.
  • the position of the character C4 seated on the object OS24 is replaced with the position of the object OT12 which is a sofa as shown by the arrow A114.
  • Step 12 proceeds to the process of step ST96. In this case, even if objects having similar attributes are included, the same number of objects and the same positional relationship as the objects existing in the template scene do not exist in the AR execution scene.
  • step ST96 the information processing device 12 generates an insufficient number of objects C_j (virtual objects) having the same attribute X_i as the object OS_i represented by the template AR abstract expression.
  • objects having the attribute of "chair” is insufficient in the AR implementation scene, the object having the attribute of "chair” is generated. Instead of creating objects with the same attributes, objects with similar attributes may be created.
  • step ST97 the information processing device 12 sets the object C_j so that the relative positional relationship between the object OT_i existing in the AR execution scene and the newly generated object C_j matches the positional relationship of the object OS_i in the template scene. Determine the placement position of.
  • the object OT_i also includes the object OT'_i searched in step ST94.
  • step ST98 the information processing apparatus 12 replaces the position of the object based on the position of the object OS_i in the template AR content with the position based on the positions of the object OT_i and the object C_j, thereby displaying the AR content for display. To generate.
  • FIG. 25 shows an example of a template AR environment map, an AR implementation scene environment map, and AR contents for display.
  • the template AR and the environment map of the AR implementation scene correspond to the abstract expression after the editing process.
  • the template AR environment map shown in the upper part of FIG. 25 shows the template scene shown in FIG. 4 in which one table and four chairs exist on the floor and four chairs surround the table. Further, the AR implementation scene environment map shown in the middle of FIG. 25 shows a scene in which a floor surface is present and one table and three chairs are present on the floor surface. In this example, the three chairs are supposed to surround the table.
  • the object OT11 having the same "table” attribute as the object OS11 (FIG. 4) is searched as the object OT_i having the same attribute X_i as the object OS_i.
  • an object OT21 having the same "chair” attribute as the object OS21, an object OT22 having the same "chair” attribute as the object OS22, and an object OT23 having the same "chair” attribute as the object OS23 is searched.
  • the number of objects OS11 (table) and objects OS21 to OS24 (chairs) in the template scene, and the positional relationship between them are the number of objects OT11 (table) and objects OT21 to OT23 (chairs) in the actual scene, and their respective positions. It is determined that they are not the same as the positional relationship of. In the AR implementation scene, the number of chairs will be insufficient by one.
  • FIG. 26 is a diagram showing an example of the positional relationship of each object in the template AR environment map and the environment map of the AR implementation scene.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene represented by the template AR environment map shown on the left side of FIG. 26 is the same as the positional relationship described with reference to FIGS. 20 and 23.
  • the positional relationship between the objects OT11 and the objects OT21 to OT23 in the AR implementation scene represented by the AR implementation scene environment map is as shown on the right side of FIG. 26.
  • the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene is not the same as the positional relationship between the objects OT11 and the objects OT21 to OT23 in the actual scene in that one "chair” is insufficient. In this case, the object C11 having the attribute of "chair” is generated.
  • the arrangement position of the object C11 is determined to have the same positional relationship as the positional relationship between the object OS11 and the objects OS21 to OS24 in the template scene.
  • the positional relationship between the objects OT11, OT21 to OT23, and the object C11 in the AR implementation scene shown on the right side of FIG. 26 and the positional relationship between the objects OS11 and the objects OS21 to OS24 in the template scene have the same positional relationship.
  • the display AR content that realizes the appearance of seating four characters on the three chairs and the virtual chair surrounding the table is based on the template AR content. Will be generated.
  • the chairs used for seating the four characters are the objects OT21 to OT23 existing in the actual scene and the virtual object C11.
  • the display AR content also includes video data for displaying the object C11.
  • FIG. 27 is a diagram showing an example of replacing the position of an object in the template AR content.
  • the position of the character C1 seated on the object OS21 in the template AR content is replaced with the position of the object OT21 as shown by the arrow A121 in FIG.
  • the position of the character C2 seated on the object OS22 is replaced with the position of the object OT22 as shown by the arrow A122.
  • the position of the character C3 seated on the object OS23 is replaced with the position of the object OT23 as indicated by the arrow A123.
  • the position of the character C4 seated on the object OS24 is replaced with the position of the object C11 as shown by the arrow A124.
  • step ST93 the display AR content is generated in step ST93 or step ST98, the process ends.
  • step ST15 based on the AR implementation scene information (environment data) and the environment map of the AR implementation scene generated in step ST11, the AR implementation represented by the environment map of the AR implementation scene
  • the position and orientation of the user in the scene are estimated.
  • the position and posture of the AR glass 11 which is a display device is estimated as the position and posture of the user.
  • step ST16 the display AR content is reproduced, and the AR content is displayed according to the position and posture estimated in step ST15.
  • Video data according to the user's position and posture is transmitted from the information processing device 12 to the AR glass 11, and the video is displayed superimposed on the AR implementation scene.
  • the following effects can be obtained by generating the display AR content by the process in the flowchart of FIG. That is, when the AR content for display is generated, the abstract expressions are compared with each other, and the calculation process for mapping the template AR content to the AR implementation scene is reduced as compared with the case of comparing the environment maps with each other. It will be easy.
  • FIG. 28 shows a configuration example of the AR glass 11.
  • the AR glass 11 has a control unit 111, a camera 112, a sensor 113, a communication unit 114, a display unit 115, and a memory 116.
  • the control unit 11 is composed of a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like.
  • the control unit 111 executes a program stored in the ROM or the memory 116 and controls the entire operation of the AR glass 11.
  • the control unit 111 When the AR content is reproduced, the control unit 111 generates AR execution scene information (environmental data) based on the RGB image taken by the camera 112 and the measurement result by the sensor 113, and the communication unit 114 sends the information processing device 12 to the information processing device 12. To send. Further, when the display AR content is reproduced by the information processing device 12 and the video data of the AR content is received by the communication unit 114, the control unit 111 outputs the video based on the video data to the display unit 115. Display it.
  • AR execution scene information environmental data
  • the camera 112 captures the scenery in front of the user at a predetermined timing such as when playing back AR content. Then, the camera 112 outputs the RGB image obtained by taking a picture to the control unit 111.
  • the sensor 113 is composed of a depth sensor, LiDAR, or the like.
  • the depth sensor and LiDAR that make up the sensor 113 measure the distance to each position that makes up the AR implementation scene (actual scene), and output the distance image, point cloud data, etc. to the control unit 111 as data that represents the measurement result. To do.
  • the sensor 113 also includes various sensors such as an acceleration sensor, a gyro sensor, and a positioning sensor, as appropriate.
  • the measurement results by the acceleration sensor, the gyro sensor, and the positioning sensor are included in the environmental data and output to the information processing device 12.
  • the measurement results from the acceleration sensor, gyro sensor, and positioning sensor are used to estimate the position and posture of the user.
  • the communication unit 114 is composed of a communication module such as a wireless LAN.
  • the communication unit 114 communicates with the information processing device 12 via the network 13 and transmits the environmental data supplied from the control unit 111 to the information processing device 12. Further, the communication unit 114 receives the video data transmitted from the information processing device 12 and outputs the video data to the control unit 111.
  • the display unit 115 displays the image of the AR content based on the image data supplied from the control unit 111.
  • the memory 116 is a storage medium such as a flash memory. Various data such as a program executed by the CPU of the control unit 111 is stored in the memory 116.
  • FIG. 29 shows a configuration example of the information processing device 12.
  • the CPU 151, the ROM 152, and the RAM 153 are connected to each other by the bus 154.
  • An input / output interface 155 is further connected to the bus 154.
  • An input unit 156 including a keyboard and a mouse, and an output unit 157 including a display and a speaker are connected to the input / output interface 155.
  • the input / output interface 155 is connected to a storage unit 158 made of a hard disk, a non-volatile memory, etc., a communication unit 159 made of a network interface, etc., and a drive 160 for driving the removable media 161.
  • FIG. 30 shows an example of the functional configuration of the information processing device 12.
  • each functional unit is realized by executing a predetermined program by the CPU 151 of FIG. 29.
  • the information processing device 12 includes an AR implementation scene information acquisition unit 181, an AR implementation scene environment map generation unit 182, an AR implementation scene abstract expression generation unit 183, a template AR data group storage unit 184, and an abstract expression comparison / editing unit. It has an AR content generation unit 186 for display, an estimation unit 187, and a display control unit 188.
  • the AR implementation scene information acquisition unit 181 acquires the AR implementation scene information (environmental data) transmitted from the AR glass 11 at the time of reproducing the AR content and received by the communication unit 159.
  • the AR implementation scene information acquired by the AR implementation scene information acquisition unit 181 is supplied to the AR implementation scene environment map generation unit 182 and the estimation unit 187.
  • the AR implementation scene environment map generation unit 182 generates an environment map (actual environment map) of the AR implementation scene based on the AR implementation scene information supplied from the AR implementation scene information acquisition unit 181.
  • the process of step ST11 in FIG. 6 is the process performed by the AR implementation scene environment map generation unit 182.
  • the environment map of the AR implementation scene generated by the AR implementation scene environment map generation unit 182 is supplied to the AR implementation scene abstract expression generation unit 183 and the estimation unit 187, and further to the display AR content generation unit 186.
  • the AR implementation scene abstract expression generation unit 183 generates an abstract expression of the AR implementation scene based on the environment map of the AR implementation scene supplied from the AR implementation scene environment map generation unit 182.
  • the process of step ST12 in FIG. 6 is the process performed by the AR implementation scene abstract expression generation unit 183.
  • the template AR data group storage unit 184 stores the template AR data group. That is, the template AR data group storage unit 184 stores a predetermined number of template AR data generated in advance by the information processing device 12 or another information processing device.
  • Each template AR data includes a template AR environment map, a template AR abstract representation and a template AR content, as shown in FIG.
  • the abstract expression comparison / editing unit 185 compares and presents to the user the abstract expression of the AR implementation scene generated by the AR implementation scene abstract expression generation unit 183 and the template AR abstract expression corresponding to the template AR content used in the AR implementation scene. (Present in parallel) and change the abstract expression under the change operation from the user interface of the user.
  • the process of step ST13 in FIG. 6 is the process performed by the abstract expression comparison / editing unit 185.
  • the display AR content generation unit 186 acquires the abstract expression of the AR implementation scene from the AR implementation scene abstract expression generation unit 183, and corresponds to the template AR content used in the AR implementation scene from the template AR data group storage unit 184. Get the template AR content and its abstract representation.
  • the abstract expression has undergone the editing process of step ST13, and has been changed as necessary.
  • the display AR content generation unit 186 acquires the environment map of the AR implementation scene from the AR implementation scene environment map generation unit 182, and also supports the template AR content used in the AR implementation scene from the template AR data group storage unit 184. Get the template AR environment map.
  • the display AR content generation unit 186 generates display AR content based on each acquired information. To generate this AR content for display, the template AR abstract expression is compared with the abstract expression of the AR implementation scene, and the object on the template AR environment map is placed on the environment map of the AR implementation scene based on the comparison result (correspondence relationship). It is done by mapping to replace the object of.
  • the process of step ST14 in FIG. 6 is the process performed by the display AR content generation unit 186.
  • the display AR content generated by the display AR content generation unit 186 is supplied to the display control unit 188.
  • the estimation unit 187 uses the AR implementation scene information (environmental data) supplied from the AR implementation scene information acquisition unit 181 and the environment map (actual environment map) of the AR implementation scene supplied from the AR implementation scene environment map generation unit 182. Based on this, the position and posture of the user in the AR implementation scene are estimated.
  • the process of step ST15 in FIG. 6 is the process performed by the estimation unit 187.
  • Information representing the estimation result by the estimation unit 187 is supplied to the display control unit 188.
  • the display control unit 188 reproduces the display AR content supplied from the display AR content generation unit 186, and generates video data according to the position and orientation estimated by the estimation unit 187.
  • the process of step ST16 in FIG. 6 is a process performed by the display control unit 188.
  • the display control unit 188 transmits the video data to the AR glass 11 by controlling the communication unit 159 (see FIG. 29), and displays the video of the AR content for display on the AR glass 11.
  • the template AR environment map contains semantic information such as 3D geometric information and attributes of each object and information on relative 3D positional relationships. At this time, by extracting the relationship between the objects from the information possessed by the map A and combining it with the information of the template AR content, the template AR abstract expression for performing the content mapping can be defined as shown in FIG. 31 (b). ..
  • the virtual character and the chair are connected in a relationship of "sitting", which shows the relationship after content mapping.
  • the object node in the abstract expression and the object on the environment map correspond to each other, and the chair to be the target of the virtual character "sitting" is determined. Therefore, the virtual character may be controlled so that the state of the virtual character with the target chair is "sitting".
  • mapping B an AR implementation scene environment map as shown in FIG. 33 (a), in which the arrangement and number of chairs are different from the template AR environment map.
  • the chair A is arranged on the opposite side of the map A, and the chair B is arranged next to the chair A.
  • the map You can get an abstract representation of the scene for B.
  • the subgraph composed of the sofa, the user, the television, and the chair A matches the template AR abstract expression graph. Therefore, the chair on the map A can be made to correspond to the chair A on the map B. Therefore, as shown in FIG. 34, by controlling the chair A so that the virtual character is in the “sitting” state, the mapping of the template AR content created in the map A to the map B can be realized.
  • FIG. 35 (a) An example of content mapping for an environment map (hereinafter, referred to as “map C”) of different AR implementation scenes in which the chair arrangement conditions are changed as shown in FIG. 35 (a) will be shown.
  • map C content mapping for an environment map
  • FIG. 35 (b) Assuming that the chair A and the chair B of the user are arranged on both sides of the user in the map C and the positional relationship (on left, on right, near) with respect to the user is obtained respectively, FIG. 35 (b).
  • an abstract representation of the scene for map C can be obtained.
  • the template AR abstract expression excluding the nodes (virtual characters) related to the AR content and the scene abstract expression of map C are used. Matching should be done.
  • the chair to be mapped is selected from the candidates based on the conditions and restrictions set in advance by the template AR content creator. Specifically, conditions / constraints such as those with a higher evaluation value of the "near" relationship with the user (for example, those with a smaller Euclidean distance) and those facing the direction closer to the user. Can be considered.
  • the selection result based on such conditions and restrictions will be decided as a whole unless the environment map is updated. Therefore, there is no guarantee that the selection result will be as intended by the user. That is, in the above framework, unless the user constructs an environment map that satisfies the details of the conditions and constraints for mapping, the mapping as intended by the user cannot be guaranteed. There is an inconvenience that mapping that does not satisfy various conditions and restrictions (for example, dare to select the chair with the second highest evaluation value of "near”) cannot be performed.
  • FIG. 38 (a) On the left side of FIG. 38 (a), as in FIG. 35 (b), an abstract representation of the scene acquired from the map C shown in FIG. 35 (a) is shown.
  • the abstract expression of the scene as shown on the right side of FIG. 38A is acquired by inputting the editing operation of the user.
  • the relationship "near" acquired between the chair A and the user is deleted from the abstract expression.
  • a graph representing the scene abstract expression may be presented to the user in the GUI by some kind of video display device, including not only deleting the relationship but also adding a new relationship and changing the attribute of the object. Editing can be performed by various input methods such as text, voice, and touch operation.
  • the abstract expression of the scene as shown on the right side of FIG. 38 (b) can be obtained on the map C by inputting the editing operation of the user.
  • unique AR content mapping can be realized.
  • the template AR can be performed only by the editing operation of the abstract expression of the user without changing the arrangement condition in the map C.
  • the content mapping result can be changed. Therefore, it is possible to realize content mapping as intended by the user and adaptation of one template AR content to various individual environments.
  • “Template AR content creation support” As shown in the flowchart of FIG. 41, by using the abstract expression of the edited template AR as a new template (process of step ST18), the cost of creating the template by the content creator can be reduced.
  • the content edited by the user may be shared so that the content creator can operate it, or the content creator may create a base template in advance and use it to create a derivative template thereof.
  • the parts corresponding to the flowchart of FIG. 6 are indicated with the same step numbers.
  • AR simulation system using substitutes By composing the environment where you want to implement AR with mock using substitutes regardless of scale and category, and editing the abstract expression obtained for them so as to match the template, you can go to the production environment where AR is implemented. It is possible to perform a simulation of playing back AR content without it. For example, AR display in a room can be simulated by measuring a model or prototype of a room on a desk and editing and displaying those abstract expressions. As the content that can be presented as a simulation, for example, an action plan of an agent such as a robot or a virtual character indoors can be considered.
  • the present technology can have the following configurations.
  • An environment map generator that generates an environment map of the augmented reality implementation scene
  • An abstract expression generation unit that generates an abstract expression of an augmented reality scene based on the environment map of the augmented reality scene
  • the abstract representation of the augmented reality implementation scene is compared with the abstract representation of the template augmented reality generated based on the template augmented reality environment map, and the template augmented reality content is mapped and displayed on the augmented reality implementation scene based on the comparison result.
  • An information processing device equipped with a display content generator that generates augmented reality content.
  • the information processing apparatus further comprising an abstract expression editing unit for editing the abstract expression of the augmented reality implementation scene or the abstract expression of the template augmented reality.
  • the abstract expression editing unit includes an abstract expression presentation unit that presents the abstract expression of the augmented reality implementation scene and the abstract expression of the template augmented reality side by side to the user.
  • the information processing device which has a user interface unit for the user to change and operate the abstract expression of the augmented reality implementation scene or the abstract expression of the template augmented reality based on the presentation.
  • the abstract expression presenting unit uses the plurality of partially identical parts.
  • the information processing device which is presented so that the user can recognize it.
  • (6) When the abstract expression of the augmented reality implementation scene or the abstract expression of the template augmented reality is edited by the abstract expression editorial department.
  • the automatic editing unit that automatically edits the abstract expression of the augmented reality implementation scene generated by the abstract expression generation unit based on the editing information for the augmented reality implementation scene in the abstract expression editing unit is further provided.
  • the information processing apparatus according to any one of (3) to (6).
  • the abstract expression is an expression having a graph structure.
  • An information processing method that has a procedure for generating content for use.
  • An environment map generation means that generates an environment map of an augmented reality implementation scene
  • An abstract expression generation means for generating an abstract expression of an augmented reality scene based on the environment map of the augmented reality scene
  • the abstract representation of the augmented reality implementation scene is compared with the abstract representation of the template augmented reality generated based on the template augmented reality environment map, and the template augmented reality content is mapped and displayed on the augmented reality implementation scene based on the comparison result.
  • a program that functions as a means of generating augmented reality content for display.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Data Mining & Analysis (AREA)
  • Architecture (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

テンプレートARコンテンツを制作時のシーンとは異なる実施シーンで良好に利用可能とする。 拡張現実実施シーンの環境マップを生成する。拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する。拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、その比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する。例えば、拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を編集可能とする。

Description

情報処理装置、情報処理方法およびプログラム
 本技術は、情報処理装置、情報処理方法およびプログラムに関し、特に、所定の環境を想定して生成された拡張現実コンテンツを用いた拡張現実表示を行うための情報処理装置等に関する。
 従来、テンプレートAR(拡張現実:Augmented Reality)コンテンツが知られている。このテンプレートARコンテンツは、通常想定するシーンをRGBカメラ、デプスセンサ、LiDAR(Light Detection and Ranging)などの種々のセンサを利用して計測することで取得できる環境マップを用いて制作される。この環境マップは、シーン中の物体の3次元幾何情報、属性、個数、配置などの情報を持つ。
 AR実施時は、上記センサの他、必要であれば加速度センサやGPS(Global Positioning System)等を用いて事前に取得した実施シーンの環境マップに対するユーザやAR表示デバイスの位置、姿勢を同定してARコンテンツを表示する。
 上述のテンプレートARコンテンツは、通常、制作時に利用した特定のシーンでしか利用できない。つまり、特定の部屋に対して制作したARコンテンツを別の部屋で正しく表示することができないという問題がある。
 例えば、特許文献1には、テンプレートARコンテンツを製作時とは異なる未知のシーンで実施することを目的とした技術が提案されている。この技術は、ARコンテンツ体験を異なる環境にマッピングするために、シーンの幾何情報やアフォーダンスを制約としてARコンテンツの最適なマッピングを解くというものである。
特表2016-516241号公報
 特許文献1に記載される技術は、未知シーンにおいてもテンプレートARコンテンツを製作した元のシーンと類似した理想的な環境マップや制約が得られることを前提とするという問題がある。つまり、ユーザが未知シーンでテンプレートARコンテンツを体験するためには、元のシーンの条件を再現できるような一定の環境構築作業を実施したうえで、シーンの情報を正確に取得できる必要がある。これは、テンプレートARコンテンツを体験可能なシーンの種類やシーン中に存在する物体の条件を著しく制限してしまう。
 また、AR実施シーンを変化させない限り、一つのテンプレートARコンテンツから体験可能なAR体験がただ一つに定まってしまうという問題もある。ユーザがARを体験するシーンのばらつきや条件の変化、あるいはユーザの意図通りの表示に対応するには、想定される条件に合わせた大量のテンプレートやテンプレートそのものの複雑化が必要となる。さらに、一つに定まったAR体験がユーザの意図したものとなる保証はない。
 本技術の目的は、テンプレートARコンテンツを制作時のシーンとは異なる実施シーンで良好に利用可能とすることにある。
 本技術の概念は、
 拡張現実実施シーンの環境マップを生成する環境マップ生成部と、
 前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する抽象表現生成部と、
 前記拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する表示用拡張現実コンテンツ生成部を備える
 情報処理装置にある。
 本技術において、環境マップ生成部により、拡張現実実施シーンの環境マップが生成される。また、抽象表現生成部により、拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現が生成される。例えば、抽象表現は、グラフ構造を持つ表現であってもよい。
 表示用拡張現実コンテンツ生成部により、拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現が比較される。そして、この表示用拡張現実コンテンツ生成部により、その比較結果に基づいてテンプレート拡張現実コンテンツが拡張現実実施シーンにマッピングされて表示用拡張現実コンテンツが生成される。
 このように本技術においては、拡張現実実施シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成し、この拡張現実実施シーンの抽象表現とテンプレート拡張現実の抽象表現を比較し、その比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成するものである。
 そのため、環境マップ同士を比較する場合に比べて、テンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングするための計算処理が軽減されて簡単にできる。また、拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を編集することで、テンプレート拡張現実コンテンツを個々のユーザの拡張現実実施シーンで体験する際にユーザの意図に沿った適切な表示が可能となり、また、テンプレート拡張現実コンテンツが体験できるユーザシーン(拡張現実実施シーン)の幅を広げることが可能となる。
 なお、本技術において、例えば、拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を編集する抽象表現編集部をさらに備える、ようにされてもよい。この場合、例えば、抽象表現編集部は、拡張現実実施シーンの抽象表現およびテンプレート拡張現実の抽象表現を並べてユーザに提示する抽象表現提示部と、この提示に基づいてユーザが拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を変更操作するユーザインタフェース部を有する、ようにされてもよい。これにより、ユーザは、抽象表現の変更操作を容易かつ適切に行うことが可能となる。
 また、この場合、例えば、抽象表現提示部は、拡張現実実施シーンの抽象表現にテンプレート拡張現実の抽象表現に対応した部分的同型部分が複数存在する場合には、複数の部分的同型部分をユーザが認識可能に提示する、ようにされてもよい。これにより、ユーザは、複数の部分的同型部分の認識を容易に行うことができ、テンプレート拡張現実コンテンツをユーザの意図に沿った適切な表示とするための抽象表現の変更操作を効率よく行うことが可能となる。
 また、この場合、例えば、抽象表現編集部で拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現が編集された場合、表示用拡張現実コンテンツ生成部は、変更操作後の拡張現実実施シーンの抽象表現とテンプレート拡張現実の抽象表現を比較する、ようにされてもよい。これにより、テンプレート拡張現実コンテンツをユーザの拡張現実実施シーンで体験する際にユーザの意図に沿った適切な表示とすることが可能となり、あるいはテンプレート拡張現実コンテンツが体験できるユーザシーンの幅を広げることが可能となる。
 また、この場合、例えば、抽象表現編集部における拡張現実実施シーンに対する編集情報に基づいて抽象表現生成部で生成された拡張現実実施シーンの抽象表現を自動的に編集する自動編集部をさらに備える、ようにされてもよい。これにより、拡張現実実施シーンにある特定の物体を拡張現実コンテンツの表示時に利用したくない場合に、コンテンツ毎に抽象表現から削除するような操作をしなくてもよくなる。
 また、この場合、例えば、抽象表現は、グラフ構造を持つ表現であり、編集は、ノード間の関係を変更する操作、またはノードの属性を変更する操作を含む、ようにされてもよい。このような変更操作を含むことで、抽象表現の編集を効果的に行うことが可能となる。
実施の形態としての情報処理システムの構成例を示す図である。 実際のシーンの例を示す図である。 ARコンテンツの表示例を示す図である。 テンプレートシーンの例を示す図である。 テンプレートARコンテンツの例を示す図である。 本技術の処理の流れの一例を示すフローチャートである。 AR実施シーン環境マップ(実環境マップ)の生成処理の処理手順の一例を示すフローチャートである。 AR実施シーン環境マップ(実環境マップ)の生成処理の処理手順の他の一例を示すフローチャートである。 抽象表現として利用するグラフの構造に関する説明をするための図である。 AR実施シーンの抽象表現の生成処理の処理手順の一例を示すフローチャートである。 シーンの抽象表現の編集を介してARコンテンツをマッピングするまでの処理手順の一例を示すフローチャートである。 編集処理の処理手順の一例を示すフローチャートである。 AR実施シーンの抽象表現の編集インタフェース提示を示す図である。 テンプレートシーンおよびAR実施シーンの抽象表現の編集例について説明するための図である。 テンプレートシーンおよびAR実施シーンの抽象表現の編集例について説明するための図である。 テンプレートシーンおよびAR実施シーンの抽象表現の他の編集例について説明するための図である。 テンプレートシーンおよびAR実施シーンの抽象表現の他の編集例について説明するための図である。 表示用ARコンテンツの生成処理の処理手順の一例を示すフローチャートである。 テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示す図である。 テンプレートAR環境マップとAR実施しン環境マップにおける各物体の位置関係の例を示す図である。 テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。 テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示す図である。 テンプレートAR環境マップとAR実施しン環境マップにおける各物体の位置関係の例を示す図である。 テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。 テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示す図である。 テンプレートAR環境マップとAR実施しン環境マップにおける各物体の位置関係の例を示す図である。 テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。 ARグラスの構成例を示すブロック図である。 情報処理装置の構成例を示すブロック図である。 情報処理装置の機能構成例を示すブロック図である。 テンプレート環境マップ(マップA)とテンプレートAR抽象表現の一例を示す図である。 テンプレートAR抽象表現に基づくテンプレートARコンテンツのマッピングの一例を示す図である。 AR実施シーン環境マップ(マップB)と取得されたシーンの抽象表現の一例を示す図である。 テンプレートAR抽象表現に基づくARコンテンツのマッピング(マップA→マップB)の一例を示す図である。 AR実施シーン環境マップ(マップC)と取得されたシーンの抽象表現の一例を示す図である。 複数のマッチング候補が存在する場合を示す図である。 テンプレートAR抽象表現に基づくARコンテンツのマッピング(マップA→マップC;コンテンツ制作者の定めた条件や制約によりいずれかの候補が選択される)の一例を示す図である。 AR実施シーン環境マップ(マップC)で取得されたシーンの抽象表現と編集された抽象表現の一例を示す図である。 編集されたシーンの抽象表現に基づいて定まったARコンテンツのマッピング(マップA→マップC;ユーザが意図に合わせて抽象表現を編集することでマッピング結果を多様に変えられる)の一例を示す図である。 テンプレートやAR実施環境の編集情報の蓄積による自動適合システムを説明するための図である。 テンプレートARコンテンツ作成支援を説明するための図である。
 以下、発明を実施するための形態(以下、「実施の形態」とする)について説明する。なお、説明は以下の順序で行う。
 1.実施の形態
 2.変形例
 <1.実施の形態>
 [情報処理システム]
 図1は、実施の形態としての情報処理システム10の構成例を示している。この情報処理システム10は、AR表示装置としてのARグラス11と情報処理装置12とが、LAN(Local Area Network)等のネットワーク13を介して接続された構成となっている。
 ARグラス11は、透過型の表示部を備えた眼鏡型のウェアラブル端末である。ARグラス11は、ネットワーク13を介して行われる情報処理装置12による制御に従って、キャラクタなどの各種のオブジェクトを含む映像を表示部に表示する。ユーザは、自分の前方の風景に重ねてARコンテンツとしてのオブジェクトを見ることになる。オブジェクトを含む映像の投影方式は、虚像投影方式であってもよいし、ユーザの目の網膜に直接結像させる網膜投影方式であってもよい。
 情報処理装置12は、ARコンテンツを再生し、再生して得られた映像データをARグラス11に送信することによって、ARコンテンツの映像をARグラス11において表示させる。情報処理装置12は、例えばPC(personal computer)により構成される。なお、AR表示装置はARグラス11に限定されるものではなく、このARグラス11に代えて、透過型のHMD(Head Mounted Display)やスマートフォン等であってもよい。
 図2は、AR実施シーンの一例を示している。ARコンテンツを視聴するユーザが、ARグラス11を装着した状態で、図2に示すようなリビングルームにいるものとする。このAR実施シーンは、ユーザがARコンテンツを視聴する実際のシーンとなる。
 このAR実施シーンには、物体として、床面である物体OT1、テーブルである物体OT11、椅子である物体OT21~OT24、ソファである物体OT12、および、観葉植物である物体OT13が存在する。4脚の椅子である物体OT21~OT24は、略正方形の天板を有するテーブルである物体OT11に正面を向けて配置されている。また、ソファである物体OT12は、物体OT11の近傍に配置されている。
 情報処理装置12においてARコンテンツの再生が行われ、ARコンテンツの映像データがARグラス11に送信されてきた場合、ARコンテンツの映像が、このAR実施シーンに重ねて表示される。
 図3は、ARコンテンツの表示例を示している。この表示例においては、オブジェクトとしての4人のキャラクタC1からC4が、それぞれ椅子である物体OT21~OT24に座っている映像が表示されている。ユーザは、前方に実際にある物体OT21~OT24にキャラクタC1~C4が座っている様子を見ることになる。
 キャラクタC1~C4を含むオブジェクトは、例えば3次元形状を有している。3次元空間上におけるユーザの位置と姿勢に応じて、大きさ、角度などのオブジェクトの見え方が異なるものとなる。
 以下、ARコンテンツに含まれるオブジェクトが人型のキャラクタである場合について主に説明するが、動物、乗り物、家具、建物などの他の物体をオブジェクトとすることも可能である。
 このような映像の表示に用いられるARコンテンツは、テンプレートとして予め用意されたARコンテンツであるテンプレートARコンテンツに基づいて、情報処理装置12により生成される。例えば、テンプレートARコンテンツにおけるオブジェクトの配置を実際のシーンに応じて変更するマッピングを行うことによって、表示用ARコンテンツが生成される。
 AR実施シーンは、3次元形状の計測を行うまでは、情報処理装置12にとっては未知シーンである。特定のシーンを想定して生成されたテンプレートARコンテンツを、未知シーンに適用することによって表示用ARコンテンツが生成されることになる。
 テンプレートARコンテンツは、テンプレートとして想定された特定のシーンの3次元形状により表される3次元空間上にオブジェクトを配置することによって構成される。
 ここで、それぞれのシーンの3次元形状を含む環境は、環境マップにより表される。環境マップには、シーンの3次元形状を表す情報と、シーンに存在する物体に関する情報が含まれる。物体に関する情報により、物体の属性、数、位置などが表される。
 テンプレートとして想定されたシーンであるテンプレートシーンの3次元形状は、テンプレートAR環境マップにより表される。このテンプレートAR環境マップには、テンプレートシーンの3次元形状を表す情報と、テンプレートシーンに存在する物体に関する情報が含まれる。テンプレートシーンは、情報処理装置12にとっては既知のシーンである。
 図4は、テンプレートシーンの一例を示している。この例のテンプレートシーンは、特定のリビングルームを想定したシーンである。このテンプレートシーンには、床面である物体OS1、テーブルである物体OS11、椅子である物体OS21~OS24が存在する。4脚の椅子である物体OS21~OS24は、円形の天板を有するテーブルである物体OS11に正面を向けて配置されている。
 テンプレートAR環境マップにより、物体OS1、物体OS11、物体OS21~OS24のそれぞれの3次元形状(テンプレートシーンの3次元形状)、属性、数、位置などが表される。
 図5は、テンプレートARコンテンツの一例を示している。このテンプレートARコンテンツは、3次元形状を有するオブジェクトを、テンプレートシーンに配置することによって構成される。ここでは、オブジェクトとしての4人のキャラクタC1~C4がそれぞれ椅子である物体OS21~OS24に座っている映像により、テンプレートARコンテンツが構成されている。テンプレートARコンテンツには、物体OS21~OS24に座るキャラクタC1~C4の映像のデータが含まれる。
 ARコンテンツの再生は、このようなテンプレートシーンにおけるキャラクタの映像を含むテンプレートARコンテンツを、AR実施シーンに応じて加工することによって生成された表示用ARコンテンツに基づいて行われる。
 表示用ARコンテンツの生成時、AR実施シーンの計測が行われ、このAR実施シーンの3次元形状などを表す環境マップであるAR実施シーン環境マップが生成される。このAR実施シーン環境マップにより、図2の物体OT1、物体OT11、物体OT21~OT24などのそれぞれの3次元形状(実際のシーンの3次元形状)、属性、数、位置などが表される。
 また、AR実施シーンにおけるユーザの位置と姿勢が推定され、ユーザの位置と姿勢を基準としたときに、実際に存在する物体OT21~OT24にキャラクタC1~C4が座っているように見えるようにするための、図3の表示用ARコンテンツが、図5のテンプレートARコンテンツに基づいて生成される。
 このようにして生成された表示用ARコンテンツが再生されることにより、図3を参照して説明したようなオブジェクトの見え方が実現されることになる。
 本技術においては、AR実施シーン環境マップに基づいてAR実施シーンの抽象表現を生成し、このAR実施シーンの抽象表現とテンプレートAR抽象表現を比較し、その比較結果に基づいてテンプレートARコンテンツをAR実施シーンにマッピングして表示用コンテンツを生成する。また、本技術においては、AR実施シーンの抽象表現またはテンプレートAR抽象表現を必要に応じて編集する。
 「本技術の処理」
 図6のフローチャートは、本技術の処理の流れの一例を示している。この図6のフローチャートにおける各処理が、例えば、情報処理装置12により行われる。
 ステップST11の処理では、AR実施シーン環境マップが生成される。このAR実施シーン環境マップは、AR実施シーンの情報(RGBカメラ、デプスセンサ、LiDARなどの各種センサによって取得された時系列のRGB画像、距離画像、点群など)に基づいて生成される。このAR実施シーン環境マップの生成は、例えば、非特許文献(G. Narita et al. Panopticfusion: Online volumetric semantic mapping at the level of stuff and things. In IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS), 2019)等に記載されているような方法で行うことができる。
 このAR実施シーン環境マップは、3次元幾何情報や意味的情報を含む属性、個数などが関連付けられたシーンやシーン中に存在する1つ以上の物体と、それら物体同士の相対的な位置関係で構成される。3次元幾何情報の表現方法としては、ボクセル空間や打ち切り符号付き距離を利用する手法が例として挙げられるが、必ずしもそれらに限定されない。
 属性は、物体のカテゴリや物体ID、材質、色、アフォーダンスなどの識別可能なラベル表現として定義される。物体同士の相対的な位置関係は、例えば、単なる同一座標系内おける各物体の位置や、物体の向きも含めた位置、姿勢(回転と並進)で表される。
 図7のフローチャートは、AR実施シーン環境マップ(実環境マップ)の生成処理の処理手順の一例を示している。AR実施シーン環境マップの生成は、RGB画像、距離画像、点群データなどを含むAR実施シーン情報に基づいて行われる。例えば、ARグラス11から情報処理装置12には、AR実施シーン情報が所定の周期で繰り返し送信されてくる。
 例えば、AR実施シーンに存在する物体表面までの打ち切り符号付き距離と、そのAR実施シーンに存在する物体を一意に区別するための物体IDとを格納するボクセル(voxel)から構成されるボクセル空間が用意される。また、各物体の属性を管理する物体属性テーブルが用意される。
 最初に、矢印A11の先に示すように、ステップST31の処理として、情報処理装置12は、RGB画像、距離画像、点群データに基づいて、画像や点群により表される物体の領域分割、属性推定、および物体ID推定を行う。領域分割により、実際のシーンに存在する各物体の領域が特定される。また、属性推定により、物体の属性が推定される。情報処理装置12は、画像や点群データにより表される形状などの特徴に基づいて物体の属性を推定するためのデータを有している。
 物体ID推定により、領域が特定されるとともに属性が推定されたそれぞれの物体の物体IDが推定される。物体ID推定は、物体に付与された物体IDとの整合性をとるために必要な処理であり、適宜、矢印A12に示すように、ボクセル空間に既に格納されている物体IDを参照して行われる。また、時系列データとして入力される画像や点群データに基づいて物体追跡処理を行い、物体追跡の結果に基づいて、物体IDが推定されるようにしてもよい。
 矢印A13の先に示すように、ステップST32の処理として、情報処理装置12は、物体ID推定により推定された物体IDを、距離画像または点群データに基づいてボクセル空間に格納する。物体IDが、物体までの距離に対応する位置のボクセルの情報として設定される。
 矢印A14の先に示すように、情報処理装置12は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。物体属性テーブルにおいては、物体IDと対応付けて、それぞれの物体の属性が管理される。
 矢印A15の先に示すように、ステップST33の処理として、情報処理装置12は、RGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。ボクセル空間を構成するボクセルに格納された情報により、各ボクセルに対応する位置にある物体のIDが表される。
 打ち切り符号付き距離の計算方法およびボクセル空間への格納方法は、例えば、非特許文献(Newcombe, Richard A., et al. "KinectFusion: Real-time dense surface mapping and tracking." Mixed and augmented reality (ISMAR), 2011 10th IEEE international symposium on. IEEE, 2011)に開示されている。
 矢印A16、A17の先に示すように、ステップST34の処理として、情報処理装置12は、ボクセル空間の情報と物体属性テーブルの情報を統合し、AR実施シーンの3次元形状と、AR実施シーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。情報処理装置12は、矢印A18の先に示すように、抽出した情報を含む情報をAR実施シーン環境マップとして格納する。
 図8のフローチャートは、AR実施シーン環境マップ(実環境マップ)の生成処理の処理手順の他の一例を示している。この生成処理は、打ち切り符号付き距離のボクセル空間への格納を先に行い、ボクセル空間に格納された情報に基づいて、物体の領域分割、属性推定、物体ID推定などを行う処理である。
 すなわち、矢印A31の先に示すように、ステップST41の処理として、情報処理装置12は、RGB画像、距離画像、点群データに基づいて、各物体の物体表面までの打ち切り符号付き距離を計算し、ボクセル空間に格納する。
 ステップST42において、情報処理装置12は、打ち切り符号付き距離の配列、点群データ、メッシュなどをボクセル空間から抽出し、抽出した情報に基づいて、物体の領域分割、属性推定、物体ID推定を行う。
 以降の処理は、図7のフローチャートを参照して説明した処理と同様の処理である。すなわち、ステップST43の処理として、情報処理装置12は、物体ID推定により推定された物体IDをボクセル空間に格納する。矢印A32の先に示すように、情報処理装置12は、物体毎の属性推定の結果と、物体ID推定の結果を物体属性テーブルに格納する。
 矢印A33、A34の先に示すように、ステップST44の処理として、情報処理装置12は、ボクセル空間の情報と物体属性テーブルの情報を統合し、AR実施シーンの3次元形状と、AR実施シーンに存在する各物体の属性、位置、および物体同士の相対的な位置関係とを抽出する。情報処理装置12は、矢印A35の先に示すように、抽出した情報を含む情報をAR実施シーン環境マップとして格納する。
 このように、AR実施シーン環境マップの生成に関する各ステップの処理は、適宜、順番を変更することが可能である。また、AR実施シーン環境マップの生成処理に用いる技術として、カメラにより撮影されたRGB画像や各種のセンサの計測結果に基づいて、AR実施シーンの3次元形状などを推定する各種の技術を採用することが可能である。
 図6の説明に戻り、ステップST12の処理では、AR実施シーン環境マップに基づいて、AR実施シーンの抽象表現が生成される。このAR実施シーンの抽象表現は、AR実施シーンに存在する物体やユーザをノードとし、それらのノード間をラベル付きエッジや関係ノードを介して接続したグラフ構造を持つ表現として定義される。
 この場合、関係を持たないノード同士は接続関係を持たない。また、物体間の関係は、一例として、自然言語による抽象的な記述を用いた表現で表される。例えば、リビングシーンに存在する椅子がテーブルと近い距離に配置されている場合、椅子ノードとテーブルノードの間に「近い」という関係ラベルを用いた接続関係を定義できる。
 事前に定義された物体間の関係を推定するには、取得された環境マップから関係の主体と客体に対応する物体単位の3次元情報およびそれらの位置、姿勢情報などを抽出し、互いの距離や向きの情報を利用すればよい。この際、必要であれば密な環境マップの物体の3次元情報を“3D bounding box”などを用いて抽象化、簡単化してもよい。
 また、両物体の距離や向きの情報を基にした関係の推定は、例えば、ユークリッド距離や各物体の正面方向に対応するベクトルのなす角を計算して、適当に定めたしきい値処理を行えばよい。この際に、環境マップを取得する際に計測した情報(例えばRGB-D画像系列など)を利用してもよく、それらを入力としたニューラルネットワークを用いて推論してもよい。
 代表的な関係ラベルとしては、空間的な位置関係を表すラベル(front/behind/left/right/on/above/under/near etc.)が挙げられる。その他、主体の客体に対する述語関係やそれらに伴う状態を関係ラベルとして取り扱ってもよい。この例としては、「椅子は座面を「持っている(has)」」や「仮想キャラクタは椅子に「座っている(sitting)」」などがある。
 また、物体間の関係は、複数の物体で構成されるグループ単位で定義されてもよい。これには、例えば、「テーブルが椅子に「囲まれている」」といったものがある。グループ単位で定義される関係は、1対1の物体間の関係を統合した結果として取得してもよく、最初から複数の物体の情報を全て用いて推定してもよい。
 抽象表現として利用するグラフの構造としては、物体をノードとしてそれらの関係をエッジのラベルで定義した表現に加えて、例えば、非特許文献(J. Johnson et al. Image Retrieval using Scene Graphs. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3668?3678. IEEE, 2015)で提案されている物体、属性、関係をノードとして相互に接続した有向グラフ表現を用いることができる。また、例えば、非特許文献(R. Ma et al. Language-Driven Synthesis of 3D Scenes from Scene Databases. SIGGRAPHASIA, 2018)のように複数の物体間の関係を集約する関係ノードを用いて表現してもよい。
 グラフ同士のマッチングが得られるのであれば、1つのシーンを物体のまとまり毎に分割したサブシーン単位でグラフを持ち、複数のグラフの集合で1つのシーンを抽象的に記述してもよい。また、1つの物体をパーツや領域ごとに分割して複数のノードの集合としてもよく(図9(a)参照)、上位概念で階層化されたグラフであってもよい(図9(b)参照)。
 図10のフローチャートは、AR実施シーンの抽象表現の生成処理の処理手順の一例を示している。
 まず、情報処理装置12は、ステップST51において、必要に応じて環境マップの持つ3次元データに対して、ダウンサンプルやノイズ除去の処理をする。次に、情報処理装置12は、ステップST52において、物体のインスタンス(個々の識別物体)毎に、3次元計測情報(点群/Voxelなど)を分割する。
 次に、情報処理装置12は、ステップST53において、必要に応じて、物体の3次元位置情報を例えば“3D bounding box”などを用いて抽象化する。次に、情報処理装置12は、ステップST54において、物体ペアあるいは複数の物体の3次元位置および姿勢を基に、対応する関係を推定する。次に、情報処理装置12は、ステップST55において、推定された全ての物体間関係情報からAR実施シーンの抽象表現データを構成する。
 図6の説明に戻り、テンプレートARデータ群は、情報処理装置12が保持するものであり、所定数のテンプレートARデータからなっている。それぞれのテンプレートARデータは、テンプレートAR環境マップ、テンプレートAR抽象表現およびテンプレートARコンテンツを含んでいる。
 テンプレートAR環境マップは、上述したAR実施シーン環境マップと同様に、3次元幾何情報や意味的情報を含む属性、個数などが関連付けられたシーンやシーン中に存在する1つ以上の物体と、それら物体同士の相対的な位置関係で構成される。このテンプレートAR環境マップは、AR実施を想定したAR実施シーンを事前計測することで取得してもよく、また3DCAD(3次元CAD)モデルをゲームエンジン等の仮想空間に配置することで取得してもよい。
 テンプレートAR抽象表現は、テンプレートAR環境マップに基づいて、上述したAR実施シーンの抽象表現と同様にして生成される。このテンプレートAR抽象表現は、テンプレートシーンに存在する物体やユーザ、さらにはARコンテンツ提示に用いられるキャラクタ等の仮想オブジェクトをノードとし、それらのノード間をラベル付きエッジや関係ノードを介して接続したグラフ構造を持つ表現として定義される。テンプレートARコンテンツは、テンプレートAR環境マップにより3次元形状などが表されるテンプレートシーンに仮想オブジェクトが配置されることによって構成される。
 ステップST13の処理では、AR実施シーンの抽象表現とこのAR実施シーンで利用するテンプレートARコンテンツに対応したテンプレートAR抽象表現が比較提示され、必要に応じて、ユーザにより抽象表現の編集が行われる。
 テンプレートAR抽象表現から仮想オブジェクトを除いた構造がAR実施シーン抽象表現に含まれる(部分的に同型である)場合、AR実施シーンの物体ノードとテンプレートARコンテンツの物体ノードを対応させるようにコンテンツをマッピングすることで、テンプレートARコンテンツの別空間での再生を実現できる。
 一方で、AR実施シーン(実環境)では、上述の通り、必ずしもテンプレートARコンテンツに予め設定されたコンテキスト(シーン条件)を再現した状況を準備できるとは限らない。これは、AR実施シーンの抽象表現に、テンプレートAR抽象表現が、必ずしも含まれないことに相当する。このような場合に各シーンの抽象表現を編集することで、個別のAR実施シーンに応じたAR適合表示の実現が可能となる。
 図11のフローチャートは、シーンの抽象表現の編集を介してARコンテンツをマッピングするまでの処理手順の一例を示している。情報処理装置12は、ステップST61において、AR実施シーンとテンプレートAR環境マップに基づいて、AR実施シーンとテンプレートAR抽象表現を取得する。
 次に、情報処理装置12は、ステップST62において、ユーザが入力インタフェース(ユーザインタフェース)を介して、例えば映像表示部によりユーザに比較提示(並列提示)されている抽象表現における編集対象の物体IDを指定し、その編集対象の関係や属性のラベルを上書きする。この編集は、AR実施シーンの抽象表現またはテンプレートAR抽象表現に、あるいはそれらの双方に対して行われる。この編集により、例えば、AR実施シーンの抽象表現に、テンプレートAR抽象表現が1つだけ含まれるようにすることができる。
 次に、情報処理装置12は、ステップST63において、上書きされた抽象表現を用いてAR実施シーンとテンプレート間での各物体の対応関係を取得する。次に、情報処理装置12は、ステップST64において、取得した対応関係を基に、テンプレートAR環境マップ上の物体をAR実施シーンの環境マップ上の物体に置き換えるマッピングを行って、表示用ARコンテンツを作成する。これにより、AR実施シーンにおけるARコンテンツの表示が可能となる。
 図12のフローチャートは、編集処理の処理手順の一例を示している。なお、各処理のステップは必ずしも、図12に示した順番に限定されないものとする。
 AR実施シーンの抽象表現とテンプレートAR抽象表現がそれぞれ入力された際に、ユーザはそれらの抽象表現をそのまま用いるかどうかを決めることができる(ステップST71,72)。この場合、例えば、AR実施シーンの抽象表現およびテンプレートAR抽象表現が並べてユーザに提示(表示)される。この提示により、ユーザは、抽象表現の変更操作を容易かつ適切に行うことが可能となる。
 また、この場合、例えば、AR実施シーンの抽象表現にテンプレートAR抽象表現に対応した部分的同型部分が複数存在する場合には、複数の部分的同型部分が、ユーザが認識可能に提示される。この提示により、ユーザは、複数の部分的同型部分の認識を容易に行うことができ、テンプレート拡張現実コンテンツをユーザの意図に沿った適切な表示とするための抽象表現の変更操作を効率よく行うことが可能となる。
 抽象表現をそのまま用いる場合は、2つの抽象表現を比較してマッチングを解く処理(ステップST73)に遷移する。一方、抽象表現をそのまま用いない場合は、この時点で、ユーザがそれぞれの抽象表現を編集することができる(ステップST74、ステップST75)。
 抽象表現の編集は、シーンの状態を可視化したGUI(Graphical User Interface)によるグラフ編集操作で行われてもよい。この編集には、例えば、ノード間の関係を変更する操作や、ノードの属性を変更する操作が含まれる。図13は、AR実施シーンにおけるユーザへの抽象表現の編集インタフェース提示を示している。図13(a)はAR実施シーンの一例を示し、図13(b)は映像表示装置(ディスプレイ、HMD、ARグラスなど)を利用した抽象表現の編集工程提示の一例を概略的に示している。
 この場合、ディスプレイやHMD、ARグラス、あるいはプロジェクタ投映等により提示されたシーンの抽象表現を可視化したインタフェースを、ユーザが直感的に操作する(例えば関係を表すエッジそのものや、個別のラベルをタッチ操作する)ことで編集(例えば、削除など)できてもよい。
 この際に、予め両者のマッチング問題を解いておき、グラフ構造が一致しない場所を色で強調するなど、ユーザに視覚的にわかりやすい提示を用いてもよい。また、物体間の関係や物体の属性などのラベルの追加、編集にはテキストでの入力やユーザが発話した音声を認識して入力するシステムを備えていてもよい。また、システム側がシーンの抽象表現を基に代替できる物体を探索して、ユーザに提示してもよい。
 ステップST73で、2つの抽象表現を比較してのマッチングを解く処理を行った後、情報処理装置12は、AR実施シーンの抽象表現にテンプレートAR抽象表現が含まれるか、つまる部分的に同型であるかを判断する(ステップST76)。AR実施シーンの抽象表現にテンプレートAR抽象表現が含まれるとき、情報処理装置12は、表示用ARコンテンツを作成する処理に遷移する(ステップST82)。
 ステップST76の処理でAR実施シーンの抽象表現にテンプレートAR抽象表現が含まれていないとき、情報処理装置12は、AR実施シーン環境マップに代替できそうな属性、関係を持つオブジェクトが存在するかを判断する(ステップST77)。AR実施シーン環境マップに代替できそうな属性、関係を持つオブジェクトが存在するとき、情報処理装置12は、表示用ARコンテンツを作成する処理に遷移する(ステップST82)。
 ステップST77の処理でAR実施シーン環境マップに代替できそうな属性、関係を持つオブジェクトが存在しないとき、情報処理装置12は、AR実施シーンの抽象表現を編集するか判断する(ステップST78)。この判断は、ユーザの編集指示に基づいて行われる。AR実施シーンの抽象表現を編集するとき、情報処理装置12は、ステップST71の処理に戻る。
 ステップST78の処理でAR実施シーンの抽象表現を編集しないとき、情報処理装置12は、テンプレートAR抽象表現を編集するか判断する(ステップST79)。この判断は、ユーザの編集指示に基づいて行われる。テンプレートAR抽象表現を編集するとき、情報処理装置12は、ステップST72の処理に戻る。
 ステップST79の処理でAR実施シーンの抽象表現を編集しないとき、情報処理装置12は、AR実施シーンに仮想オブジェクトで代替できる空間があるか判断する(ステップST80)。AR実施シーンに仮想オブジェクトで代替できる空間があるとき、情報処理装置12は、表示用ARコンテンツを作成する処理に遷移する(ステップST82)。
 ステップST80でAR実施シーンに仮想オブジェクトで代替できる空間がないとき、情報処理装置12は、表示用ARコンテンツを作成しないこととする(ステップST81)。この場合、AR実施シーンへのテンプレートARコンテンツに基づくARコンテンツの表示はされないことになる。
 図14を参照して、テンプレートシーンおよびAR実施シーンの抽象表現の編集例について説明する。この編集例は、テンプレートARコンテンツ「仮想キャラクタがユーザの近くの椅子に座る」を複数の椅子候補がある状況で表示する場合の例である。図14の左側はテンプレートAR抽象表現を表し、図14の右側はAR実施シーンの抽象表現を表している。
 テンプレートAR抽象表現では、「ユーザ」、「椅子」、「仮想キャラクタ」の3つのノードが存在する。そして、テンプレートAR抽象表現では、「椅子」は「ユーザ」の近くに存在し、「仮想キャラクタ」は「椅子」に座る、ことを表している。
 一方、AR実施シーンの抽象表現では、「ユーザ」、「椅子A」、「椅子B」、「椅子C」の4つのノードが存在する。そして、「椅子A」は「ユーザ」の左側で近くに存在し、「椅子B」は「ユーザ」の前側で近くに存在し、「椅子C」は「ユーザ」の右側で近くに存在している、ことを表している。
 この場合、テンプレートAR抽象表現から「仮想キャラクタ」を除いた構造が、AR実施シーンの抽象表現には、3か所存在する。つまり、「ユーザ」と「椅子A」の部分、「ユーザ」と「椅子B」の部分、「ユーザ」と「椅子A」の部分である。
 この状態で何ら編集を行わないとすると、後述する表示用ARコンテンツの生成処理におけるマッピングでは、仮想キャラクタは、コンテンツ製作者が事前に設定しておいた条件やシーンのコンテキスト情報などを基に、候補の中から選択して座ることになる。しかし、その選択結果がユーザの意図した通りの結果である保証はなく、ユーザは具体的な条件を知らない限り制御できない。
 この場合、編集処理では、AR実施シーンの抽象表現とテンプレートAR抽象表現を比較して、ユーザが意図した椅子に仮想キャラクタが座れるように、AR実施シーンの抽象表現またはテンプレートAR抽象表現を変更する操作を行うことができる。
 図15(a)は、テンプレートAR抽象表現に対して変更操作を行った例である。この場合、「椅子」の「ユーザ」を基準とする関係として、「近い」に加えて、「前側」が追加されている。これにより、テンプレートAR抽象表現から「仮想キャラクタ」を除いた構造が、AR実施シーンの抽象表現における「ユーザ」と「椅子B」の部分のみに該当する状態となり、仮想キャラクタをユーザが意図した椅子Bに座らせることが可能となる。
 図15(b)は、AR実施シーンの抽象表現に対して変更操作を行った例である。この場合、「椅子A」の「ユーザ」を基準とする関係として、「近い」と「左側」から、「近い」が削除され、また「椅子C」の「ユーザ」を基準とする関係として、「近い」と「右側」から、「近い」が削除されている。これにより、テンプレートAR抽象表現から「仮想キャラクタ」を除いた構造が、AR実施シーンの抽象表現における「ユーザ」と「椅子B」の部分のみに該当する状態となり、仮想キャラクタをユーザが意図した椅子Bに座らせることが可能となる。
 次に、図16を参照して、テンプレートシーンおよびAR実施シーンの抽象表現の他の編集例について説明する。この編集例は、テンプレートARコンテンツ「ユーザの近くのテーブルの上に仮想物体を表示する」をテーブルではなくキャビネットがある状況で表示する場合の例である。図16の左側はテンプレートAR抽象表現を表し、図16の右側はAR実施シーンの抽象表現を表している。
 テンプレートAR抽象表現では、「ユーザ」、「キャビネット」、「仮想物体」の3つのノードが存在する。そして、テンプレートAR抽象表現では、「椅子」は「ユーザ」の近くに存在し、「仮想物体」は「キャビネット」の上に表示される、ことを表している。一方、AR実施シーンの抽象表現では、「ユーザ」、「テーブル」の2つのノードが存在する。そして、「テーブル」は「ユーザ」の近くに存在している、ことを表している。
 この状態で何ら編集を行わないとすると、後述する表示用ARコンテンツの生成処理においては、AR実施シーンがテンプレートARコンテンツの想定する状況と異なるため、そのままテンプレートARコンテンツをAR実施シーンにマッピングすることはできない。
 この場合、テンプレートシーンおよびAR実施シーンの抽象表現の両者に共通した高次の属性(上面に物を置くことができる、など)を事前に定義しておけば、それを利用してマッピングを行うことができる。
 図17(a)は、テンプレートAR抽象表現に対して変更操作を行った例である。この場合、テンプレートAR抽象表現における「キャビネット」が「テーブル」という属性に変更されている。これにより、テンプレートAR抽象表現から「仮想物体」を除いた構造が、AR実施シーンの抽象表現における「ユーザ」と「テーブル」の部分に該当する状態となり、テンプレートARコンテンツをAR実施シーンにマッピングすることが可能となる。
 図17(b)は、AR実施シーンの抽象表現に対して変更操作を行った例である。この場合、AR実施シーンの抽象表現における「テーブル」が「キャビネット」という属性に変更されている。これにより、テンプレートAR抽象表現から「仮想物体」を除いた構造が、AR実施シーンの抽象表現における「ユーザ」と「キャビネット」の部分に該当する状態となり、テンプレートARコンテンツをAR実施シーンにマッピングすることが可能となる。
 図6の説明に戻り、ステップST14では、ステップST13における編集処理を経た後のテンプレートARとAR実施シーンの抽象表現、AR実施シーンの環境マップ、テンプレートAR環境マップ、および、テンプレートARコンテンツに基づいて、表示用ARコンテンツの生成が行われる。表示用ARコンテンツの生成は、テンプレートAR抽象表現とAR実施シーンの抽象表現とを比較し、その比較結果(対応関係)を基にテンプレートAR環境マップ上の物体をAR実施シーンの環境マップ上の物体に置き換えるマッピングをすることによって行われる。
 図18のフローチャートは、表示用ARコンテンツの生成処理の処理手順の一例を示している。ステップST91において、情報処理装置12は、テンプレートAR抽象表現により表される物体OS_iと同一の属性X_iを有する物体OT_iを、AR実施シーンの抽象表現により表される、AR実施シーンに存在する物体OT_iの中から検索する。
 ステップST92において、情報処理装置12は、検索された物体OT_iの数、および、物体OT_iの相対的な位置関係が、それぞれ、テンプレートAR抽象表現により表される、属性X_iを有する物体OS_iの数、および、物体OS_iの相対的な位置関係と一致するか否かを判定する。
 ここでは、同じ属性の物体が同じ数だけテンプレートシーンとAR実施シーンのそれぞれにあり、かつ、同じ属性の物体のテンプレートシーンにおける位置関係とAR実施シーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。物体の位置関係については、完全に同じである必要はなく、位置関係の類似度が閾値以上高い場合に、条件を満たすものとして判定されるようにしてもよい。
 検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致するとステップST92において判定された場合、情報処理装置12はステップST93の処理に進む。
 ステップST93において、情報処理装置12は、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。表示用ARコンテンツにおけるオブジェクトと物体OT_iとの間の位置関係は、テンプレートARコンテンツにおけるオブジェクトと物体OS_iとの間の位置関係と同じ位置関係となる。
 図19は、テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示している。なお、ここで、テンプレートARおよびAR実施シーンの環境マップは編集処理を経た後の抽象表現に対応したものであるとする。
 図19の上段に示すテンプレートAR環境マップは、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図4に示すテンプレートシーンを表す。また、図19の中段に示すAR実施シーン環境マップは、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図2に示すAR実施シーンを表す。
 このようなテンプレートAR環境マップ用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS11(図4)と同一の「テーブル」の属性を有する物体OT11(図2)が検索される。また、物体OS21と同一の「椅子」の属性を有する物体OT21、物体OS22と同一の「椅子」の属性を有する物体OT22、物体OS23と同一の「椅子」の属性を有する物体OT23、および、物体OS24と同一の「椅子」の属性を有する物体OT24が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS11(テーブル)と物体OS21~OS24(椅子)の数、およびそれぞれの位置関係は、AR実施シーンにおける物体OT11(テーブル)と物体OT21~OT24(椅子)の数、およびそれぞれの位置関係と同一であると判定される。
 図20は、テンプレートAR環境マップとAR実施シーンの環境マップにおける各物体の位置関係の例を示す図である。テンプレートAR環境マップにより表される、テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、図20の左側に示すような位置関係となる。一方、AR実施シーン環境マップにより表される、AR実施シーンにおける物体OT11と物体OT21~OT24の位置関係は、図20の右側に示すような位置関係となる。なお、図20において、物体OS21~OS24と物体OT21~OT24の近傍に示す矢印は椅子の向きを表す。
 テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、AR実施シーンにおける物体OT11と物体OT21~OT24の位置関係と、同じ「テーブル」の属性を有する物体を囲む位置に4脚の椅子が存在するという点で同一である。
 この場合、図19の下段に示すように、テーブルを囲む4脚の椅子に、異なる4人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、AR実施シーンに存在する物体OT21~OT24である。
 図21は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。図20に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS21に着席するキャラクタC1の位置は、図21の矢印A101で示すように、物体OT21の位置に置換される。図21において、各キャラクタの位置は、所定の模様を付した円で表される。テンプレートARコンテンツにおいて、キャラクタC1の位置は物体OS11や物体OS21の位置を基準として設定されるが、それと同じ位置関係が、物体OT11や物体OT21の位置を基準として維持される。
 同様に、テンプレートARコンテンツにおいて物体OS22に着席するキャラクタC2の位置は、矢印A102で示すように物体OT22の位置に置換される。また、テンプレートARコンテンツにおいて物体OS23に着席するキャラクタC3の位置は、矢印A103で示すように物体OT23の位置に置換される。テンプレートARコンテンツにおいて物体OS24に着席するキャラクタC4の位置は、矢印A104で示すように物体OT24の位置に置換される。
 このようにして位置が置換されることによって生成された表示用ARコンテンツが再生されることにより、図3を参照して説明したようなキャラクタC1~C4の見え方が実現されることになる。
 図18の説明に戻り、ステップST92において、検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致しないと判定された場合、情報処理装置12は、ステップST94の処理に進む。
 ステップST94において、情報処理装置12は、テンプレートAR抽象表現により表される物体OS_iと類似する属性X’_iを有する物体OT’_iを、AR実施シーンの抽象表現により表される、AR実施シーンに存在する物体OT_iの中から検索する。
 属性X_iと類似する属性X’_iについては、例えば、テンプレートARコンテンツの生成時にテーブル等で予め定義されている。表示用ARコンテンツの生成時にユーザにより属性X’_iが指定されるようにしてもよい。
 ステップST95において、情報処理装置12は、検索された物体OT’_iを含めて、物体OT_iの数、および、物体OT_iの相対的な位置関係が、それぞれ、テンプレートAR抽象表現により表される、属性X_iを有する物体OS_iの数、および、物体OS_iの相対的な位置関係と一致するか否かを判定する。
 ここでは、類似する属性の物体を含めて、同一の属性の物体が同じ数だけテンプレートシーンとAR実施シーンのそれぞれにあり、かつ、それぞれの物体のテンプレートシーンにおける位置関係とAR実施シーンにおける位置関係が同じである場合に、条件を満たすものとして判定される。
 物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致するとステップST95において判定された場合、情報処理装置12は、ステップST93の処理に進む。
 ステップST93においては、上述した処理と同様に、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iの位置を基準とした位置に置換することによって、表示用ARコンテンツが生成される。
 図22は、テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示している。なお、ここで、テンプレートARおよびAR実施シーンの環境マップは編集処理を経た後の抽象表現に対応したものであるとする。
 図22の上段に示すテンプレートAR環境マップは、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図4に示すテンプレートシーンを表す。また、図22の中段に示すAR実施シーン環境マップは、床面が存在するとともに、床面上に1つのテーブルと4脚の椅子、および、1脚のソファが存在するシーンを表す。この例においては、4脚の椅子のうちの3脚の椅子はテーブルを囲んでいるものの、1脚の椅子はテーブルから離れた位置にあるものとされている。また、1脚のソファはテーブルの近傍にあるものとされている。
 このようなテンプレートAR環境マップ用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS11(図4)と同一の「テーブル」の属性を有する物体OT11が検索される。また、物体OS21と同一の「椅子」の属性を有する物体OT21、物体OS22と同一の「椅子」の属性を有する物体OT22、物体OS23と同一の「椅子」の属性を有する物体OT23、および、物体OS24と同一の「椅子」の属性を有する物体OT24が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS11(テーブル)と物体OS21~OS24(椅子)の数、およびそれぞれの位置関係は、AR実施シーンにおける物体OT11(テーブル)と物体OT21~OT24(椅子)の数、およびそれぞれの位置関係と同一ではないと判定される。
 図23は、テンプレートAR環境マップとAR実施シーンの環境マップにおける各物体の位置関係の例を示す図である。図23の左側に示す、テンプレートAR環境マップにより表される、テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、図20を参照して説明した位置関係と同じである。一方、AR実施シーン環境マップにより表される、AR実施シーンにおける物体OT11と物体OT21~OT24の位置関係は、図23の右側に示すような位置関係となる。AR実施シーンには、ソファである物体OT12も存在する。
 テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、AR実施シーンにおける物体OT11と物体OT21~OT24の位置関係と、1脚の「椅子」である物体OT24が離れた位置に存在するという点で同一ではない。この場合、「椅子」に類似する属性を有する「ソファ」の属性を有する物体OT12が、AR実施シーン環境マップにより表される、AR実施シーンに存在する物体OT_iの中から検索される。
 また、テンプレートシーンにおける物体OS11(テーブル)と物体OS21~OS24(椅子)の数、およびそれぞれの位置関係は、物体OT12を含めて、AR実施シーンにおける物体OT11(テーブル)と物体OT21~OT23(椅子)と物体OT12(ソファ)の数、およびそれぞれの位置関係と同一であると判定される。
 この場合、図22の下段に示すように、テーブルを囲む3脚の椅子とテーブルの近傍のソファに、異なる4人のキャラクタがそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体OT21~OT23、および物体OT12である。
 図24は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。図23に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS21に着席するキャラクタC1の位置は、図24の矢印A111で示すように、物体OT21の位置に置換される。
 同様に、テンプレートARコンテンツにおいて物体OS22に着席するキャラクタC2の位置は、矢印A112で示すように物体OT22の位置に置換される。テンプレートARコンテンツにおいて物体OS23に着席するキャラクタC3の位置は、矢印A113で示すように物体OT23の位置に置換される。また、テンプレートARコンテンツにおいて物体OS24に着席するキャラクタC4の位置は、矢印A114で示すように、ソファである物体OT12の位置に置換される。
 このように、テンプレートシーンに存在する物体と同一の属性の物体がない場合、類似する属性の物体を用いて、キャラクタの位置の置換が行われる。これにより、テンプレートシーンに存在する物体と完全に同じ物体がAR実施のシーンにない場合であっても、テンプレートARコンテンツを実際のシーンに適用することが可能となる。
 図18の説明に戻り、ステップST95において、検索された物体OT_iの数および相対的な位置関係が、それぞれ、物体OS_iの数および相対的な位置関係と一致しないと判定された場合、情報処理装置12は、ステップST96の処理に進む。この場合、属性が類似する物体を含めたとしても、AR実施シーンには、テンプレートシーンに存在する物体と同じ数、同じ位置関係の物体が存在していないことになる。
 ステップST96において、情報処理装置12は、テンプレートAR抽象表現により表される物体OS_iと同一の属性X_iを有するオブジェクトC_j(仮想的な物体)を、不足する数だけ、生成する。「椅子」の属性を有する物体がAR実施シーンにおいて不足する場合、「椅子」の属性を有するオブジェクトが生成される。同一の属性のオブジェクトが生成されるのではなく、類似する属性のオブジェクトが生成されるようにしてもよい。
 ステップST97において、情報処理装置12は、AR実施シーンに存在する物体OT_iと新たに生成したオブジェクトC_jとの相対的な位置関係が、テンプレートシーンにおける物体OS_iの位置関係と一致するように、オブジェクトC_jの配置位置を決定する。ここで、物体OT_iには、ステップST94において検索された物体OT’_iも含まれる。
 ステップST98において、情報処理装置12は、テンプレートARコンテンツにおける、物体OS_iの位置を基準としたオブジェクトの位置を、物体OT_iおよびオブジェクトC_jの位置を基準とした位置に置換することによって、表示用ARコンテンツを生成する。
 図25は、テンプレートAR環境マップ、AR実施シーン環境マップおよび表示用ARコンテンツの一例を示している。なお、ここで、テンプレートARおよびAR実施シーンの環境マップは編集処理を経た後の抽象表現に対応したものであるとする。
 図25の上段に示すテンプレートAR環境マップは、床面上に1つのテーブルと4脚の椅子が存在し、かつ、4脚の椅子がテーブルを囲んでいる、図4に示すテンプレートシーンを表す。また、図25の中段に示すAR実施シーン環境マップは、床面が存在するとともに、床面上に1つのテーブルと3脚の椅子が存在するシーンを表す。この例においては、3脚の椅子はテーブルを囲んでいるものとされている。
 このようなテンプレートAR環境マップ用意されている場合、物体OS_iと同一の属性X_iを有する物体OT_iとして、物体OS11(図4)と同一の「テーブル」の属性を有する物体OT11が検索される。同様に、物体OS21と同一の「椅子」の属性を有する物体OT21、物体OS22と同一の「椅子」の属性を有する物体OT22、および、物体OS23と同一の「椅子」の属性を有する物体OT23が、それぞれ検索される。
 また、テンプレートシーンにおける物体OS11(テーブル)と物体OS21~OS24(椅子)の数、およびそれぞれの位置関係は、実際のシーンにおける物体OT11(テーブル)と物体OT21~OT23(椅子)の数、およびそれぞれの位置関係と同一ではないと判定される。AR実施シーンにおいては、椅子の数が1脚だけ不足することになる。
 図26は、テンプレートAR環境マップとAR実施シーンの環境マップにおける各物体の位置関係の例を示す図である。図26の左側に示す、テンプレートAR環境マップにより表される、テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、図20、図23を参照して説明した位置関係と同じである。一方、AR実施シーン環境マップにより表される、AR実施シーンにおける物体OT11と物体OT21~OT23の位置関係は、図26の右側に示すような位置関係となる。
 テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は、実際のシーンにおける物体OT11と物体OT21~OT23の位置関係と、1脚の「椅子」が不足しているという点で同一ではない。この場合、「椅子」の属性を有するオブジェクトC11が生成される。
 また、破線で示すように、オブジェクトC11の配置位置が、テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係と同じ位置関係を有するように決定される。図26の右側に示すAR実施シーンにおける物体OT11、物体OT21~OT23、オブジェクトC11の位置関係と、テンプレートシーンにおける物体OS11と物体OS21~OS24の位置関係は同じ位置関係を有する。
 この場合、図25の下段に示すように、テーブルを囲む3脚の椅子と仮想的な椅子に、4人のキャラクタをそれぞれ着席させる見え方を実現する表示用ARコンテンツがテンプレートARコンテンツに基づいて生成される。ここで、4人のキャラクタを着席させることに用いられる椅子は、実際のシーンに存在する物体OT21~OT23、および、仮想的なオブジェクトC11である。表示用ARコンテンツには、オブジェクトC11を表示させるための映像データも含まれる。
 図27は、テンプレートARコンテンツにおけるオブジェクトの位置の置換の例を示す図である。図26に示す位置関係を各物体が有している場合、テンプレートARコンテンツにおいて物体OS21に着席するキャラクタC1の位置は、図27の矢印A121で示すように、物体OT21の位置に置換される。
 同様に、テンプレートARコンテンツにおいて物体OS22に着席するキャラクタC2の位置は、矢印A122で示すように物体OT22の位置に置換される。テンプレートARコンテンツにおいて物体OS23に着席するキャラクタC3の位置は、矢印A123で示すように物体OT23の位置に置換される。また、テンプレートARコンテンツにおいて物体OS24に着席するキャラクタC4の位置は、矢印A124で示すように、オブジェクトC11の位置に置換される。
 このように、実際のシーンに存在する物体が不足する場合、仮想的なオブジェクトを用いて、キャラクタの位置の置換が行われる。これにより、テンプレートシーンに存在する物体と完全に同じ物体が実際のシーンにない場合であっても、テンプレートARコンテンツを実際のシーンに適用することが可能となる。
 図18の説明に戻り、ステップST93またはステップST98において表示用ARコンテンツが生成された後、処理は終了となる。
 図6の説明に戻り、ステップST15では、AR実施シーン情報(環境テ゛ータ)と、ステップST11において生成されたAR実施シーンの環境マップとに基づいて、AR実施シーンの環境マップにより表されるAR実施シーンにおけるユーザの位置と姿勢が推定される。例えば、表示デバイスであるARグラス11の位置と姿勢が、ユーザの位置と姿勢として推定される。
 ステップST16では、表示用ARコンテンツの再生が行われ、ステップST15において推定された位置と姿勢に応じたARコンテンツの表示が行われる。ユーザの位置と姿勢に応じた映像のデータが情報処理装置12からARグラス11に対して送信され、AR実施シーンに重ねて映像が表示される。
 上述したように図6のフローチャートにおける処理で表示用ARコンテンツが生成されることで、以下のような効果が得られる。すなわち、表示用ARコンテンツを生成する際に、抽象表現同士を比較するものであり、環境マップ同士を比較する場合に比べて、テンプレートARコンテンツをAR実施シーンにマッピングするための計算処理が軽減されて簡単になる。
 また、AR実施シーンの抽象表現またはテンプレートAR抽象表現を編集することで、テンプレートARコンテンツを個々のユーザのAR実施シーンで体験する際に、ユーザの意図に沿った適切な表示が可能となり、また、テンプレートARコンテンツを体験できるユーザシーン(AR実施シーン)の幅を広げることが可能となる。
 「ARグラスの構成」
 図28は、ARグラス11の構成例を示している。ARグラス11は、制御部111と、カメラ112と、センサ113と、通信部114と、表示部115と、メモリ116を有している。
 制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。制御部111は、ROMやメモリ116に記憶されているプログラムを実行し、ARグラス11の全体の動作を制御する。
 制御部111は、ARコンテンツの再生時、カメラ112により撮影されたRGB画像とセンサ113による計測結果に基づいてAR実施シーン情報(環境データ)を生成し、通信部114から情報処理装置12に対して送信させる。また、制御部111は、表示用ARコンテンツの再生が情報処理装置12において行われ、ARコンテンツの映像データが通信部114において受信された場合、その映像データによる映像を表示部115に出力し、表示させる。
 カメラ112は、ARコンテンツの再生時などの所定のタイミングにおいて、ユーザの前方の風景を撮影する。そして、カメラ112は、撮影することによって得られたRGB画像を制御部111に出力する。
 センサ113は、デプスセンサやLiDARなどにより構成される。センサ113を構成するデプスセンサやLiDARは、AR実施シーン(実際のシーン)を構成する各位置までの距離を計測し、距離画像、点群データなどを、計測結果を表すデータとして制御部111に出力する。
 センサ113には、適宜、加速度センサ、ジャイロセンサ、測位センサなどの各種のセンサも含まれる。この場合、加速度センサ、ジャイロセンサ、測位センサによる計測結果が環境データに含まれ、情報処理装置12に出力される。加速度センサ、ジャイロセンサ、測位センサによる計測結果は、ユーザの位置と姿勢などの推定に用いられる。
 通信部114は、無線LANなどの通信モジュールにより構成される。通信部114は、ネットワーク13を介して情報処理装置12と通信を行い、制御部111から供給された環境データを情報処理装置12に対して送信する。また、通信部114は、情報処理装置12から送信された映像データを受信し、制御部111に対して出力する。
 表示部115は、制御部111から供給された映像データに基づいて、ARコンテンツの映像を表示させる。メモリ116は、フラッシュメモリなどの記憶媒体である。メモリ116には、制御部111のCPUが実行するプログラムなどの各種のデータが記憶される。
 「情報処理装置の構成」
 図29は、情報処理装置12の構成例を示している。CPU151、ROM152、RAM153は、バス154により相互に接続されている。
 バス154には、さらに、入出力インタフェース155が接続されている。入出力インタフェース155には、キーボード、マウスなどよりなる入力部156、ディスプレイ、スピーカなどよりなる出力部157が接続されている。また、入出力インタフェース155には、ハードディスクや不揮発性のメモリなどよりなる記憶部158、ネットワークインタフェースなどよりなる通信部159、リムーバブルメディア161を駆動するドライブ160が接続されている。
 「情報処理装置の機能構成」
 図30は、情報処理装置12の機能構成例を示している。情報処理装置12においては、図29のCPU151により所定のプログラムが実行されることで各機能部が実現される。
 情報処理装置12は、AR実施シーン情報取得部181と、AR実施シーン環境マップ生成部182と、AR実施シーン抽象表現生成部183と、テンプレートARデータ群記憶部184と、抽象表現比較・編集部185と、表示用ARコンテンツ生成部186と、推定部187と、表示制御部188を有している。
 AR実施シーン情報取得部181は、ARコンテンツの再生時にARグラス11から送信され、通信部159において受信されたAR実施シーン情報(環境データ)を取得する。AR実施シーン情報取得部181により取得されたAR実施シーン情報は、AR実施シーン環境マップ生成部182と推定部187に供給される。
 AR実施シーン環境マップ生成部182は、AR実施シーン情報取得部181から供給されたAR実施シーン情報に基づいてAR実施シーンの環境マップ(実環境マップ)を生成する。図6のステップST11の処理が、AR実施シーン環境マップ生成部182が行う処理となる。AR実施シーン環境マップ生成部182により生成されたAR実施シーンの環境マップは、AR実施シーン抽象表現生成部183と推定部187、さらには表示用ARコンテンツ生成部186に供給される。
 AR実施シーン抽象表現生成部183は、AR実施シーン環境マップ生成部182から供給されるAR実施シーンの環境マップに基づいてAR実施シーンの抽象表現を生成する。図6のステップST12の処理が、AR実施シーン抽象表現生成部183が行う処理となる。
 テンプレートARデータ群記憶部184は、テンプレートARデータ群を記憶する。つまり、このテンプレートARデータ群記憶部184は、情報処理装置12または他の情報処理装置で予め生成された所定数のテンプレートARデータを記憶する。それぞれのテンプレートARデータは、図6に示すように、テンプレートAR環境マップ、テンプレートAR抽象表現およびテンプレートARコンテンツを含んでいる。
 抽象表現比較・編集部185は、AR実施シーン抽象表現生成部183で生成されたAR実施シーンの抽象表現とそのAR実施シーンで利用するテンプレートARコンテンツに対応したテンプレートAR抽象表現をユーザに比較提示(並列提示)し、ユーザのユーザインタフェースからの変更操作の下、抽象表現を変更する。図6のステップST13の処理が、抽象表現比較・編集部185が行う処理となる。
 表示用ARコンテンツ生成部186は、AR実施シーン抽象表現生成部183からAR実施シーンの抽象表現を取得すると共に、テンプレートARデータ群記憶部184からそのAR実施シーンで利用するテンプレートARコンテンツに対応したテンプレートARコンテンツとその抽象表現を取得する。抽象表現は、ステップST13の編集処理を経たものであり、必要に応じて変更されたものである。また、表示用ARコンテンツ生成部186は、AR実施シーン環境マップ生成部182からAR実施シーンの環境マップを取得すると共に、テンプレートARデータ群記憶部184からAR実施シーンで利用するテンプレートARコンテンツに対応したテンプレートAR環境マップを取得する。
 表示用ARコンテンツ生成部186は、取得した各情報に基づいて、表示用ARコンテンツを生成する。この表示用ARコンテンツの生成は、テンプレートAR抽象表現とAR実施シーンの抽象表現とを比較し、その比較結果(対応関係)を基にテンプレートAR環境マップ上の物体をAR実施シーンの環境マップ上の物体に置き換えるマッピングをすることによって行われる。図6のステップST14の処理が、表示用ARコンテンツ生成部186が行う処理となる。表示用ARコンテンツ生成部186により生成された表示用ARコンテンツは表示制御部188に供給される。
 推定部187は、AR実施シーン情報取得部181から供給されたAR実施シーン情報(環境データ)とAR実施シーン環境マップ生成部182から供給されたAR実施シーンの環境マップ(実環境マップ)とに基づいて、AR実施シーンにおけるユーザの位置と姿勢を推定する。図6のステップST15の処理が、推定部187が行う処理となる。推定部187による推定結果を表す情報は表示制御部188に供給される。
 表示制御部188は、表示用ARコンテンツ生成部186から供給された表示用ARコンテンツを再生し、推定部187により推定された位置と姿勢に応じた映像データを生成する。図6のステップST16の処理が、表示制御部188が行う処理となる。表示制御部188は、通信部159(図29参照)を制御することによって映像データをARグラス11に送信し、表示用ARコンテンツの映像をARグラス11において表示させる。
 「シーンの抽象表現を用いたテンプレートARコンテンツのマッピングに関する処理例」
 シーンの抽象表現を用いたテンプレートARコンテンツのマッピングに関する処理例を説明する。ここでは、「ユーザがソファに座ってテレビを見ているときに、仮想キャラクタがユーザの近くにある椅子に座る」というテンプレートARコンテンツを想定し、それをシーンの抽象表現を用いてマッピングする一連の処理を説明する。
 「テンプレートARコンテンツとその抽象表現」
 「ユーザがソファに座ってテレビを見ている(テレビの方向を向いている)ときに、仮想キャラクタがユーザの近くにある椅子に座る」というテンプレートARコンテンツを想定した際に、テンプレートAR環境マップとして、図31(a)に示すような位置関係(真上から見た図)に椅子、ソファ、テレビ、ユーザが配置されているものを考える(以下、「マップA」と呼称する)。
 テンプレートAR環境マップには、各物体の3次元幾何情報や属性などの意味的情報および相対的な3次元位置関係の情報が含まれている。このとき、マップAの持つ情報から物体間の関係を抽出し、テンプレートARコンテンツの情報と併せることで、コンテンツマッピングを行うためのテンプレートAR抽象表現が、図31(b)に示すように定義できる.
 このテンプレートAR抽象表現では、仮想キャラクタと椅子が「sitting」という関係で接続されているが、これはコンテンツマッピング後の関係を示している。マップA上でコンテンツマッピングを行う際には、図32に示すように、抽象表現における物体ノードと環境マップ上の物体との対応を取り、仮想キャラクタの「sitting」の対象となる椅子を決定することで、対象の椅子との仮想キャラクタの状態が「sitting」となるように仮想キャラクタを制御すればよい。
 「異なるAR実施シーンへのシーンの抽象表現を用いたテンプレートARコンテンツマッピング」
 図31のテンプレートARコンテンツを異なるAR実施シーンにマッピングする例を、以下に示す。ここでは、テンプレートAR環境マップとは椅子の配置と数が異なる、図33(a)に示すようなAR実施シーン環境マップ(以下、「マップB」と呼称する)へのマッピングを考える。
 図33(a)に示した通り、マップBにおいてはマップAと反対側に椅子Aが配置され,その隣に椅子Bが配置されている。このとき、椅子Aとユーザは「near」、椅子Aと椅子Bは「on left」という関係を持つことが、マップBの情報から得られるとすると、図33(b)に示すように、マップBに対するシーンの抽象表現を得ることができる。
 図31(b)に示すテンプレートAR抽象表現と比較すると、ソファ、ユーザ、テレビ、椅子Aから構成される部分グラフとテンプレートAR抽象表現グラフがマッチングしている。そのため、マップAにおける椅子をマップBにおける椅子Aと対応させることができる。したがって、図34に示すように、椅子Aに対して仮想キャラクタが「sitting」の状態となるように制御することで、マップAにおいて制作されたテンプレートARコンテンツのマップBへのマッピングが実現できる。
 「複数のマッピング候補が存在するようなシーンへのテンプレートARコンテンツマッピング」
 次に、椅子の配置条件を、図35(a)に示すように変えた異なるAR実施シーンの環境マップ(以下、「マップC」と呼称する)に対するコンテンツマッピングの例を示す。マップCにおいてはユーザの椅子Aと椅子Bがユーザの両脇に配置されており、それぞれユーザに対する位置関係(on left,on right, near)が得られているものとすると、図35(b)に示すように、マップCに対するシーンの抽象表現を得ることができる。
 マップAで制作されたテンプレートARコンテンツをマップCに抽象表現を介してマッピングするには、テンプレートAR抽象表現からARコンテンツに関わるノード(仮想キャラクタ)を除いたものとマップCのシーン抽象表現とのマッチングを行えばよい。
 このとき、マップAで制作された今回の場合は、図36(b),(c)に破線で識別可能に示しているように、図36(a)に示すテンプレートAR抽象表現と同型となる部分を2通り含んでいる。そのため、図37に示すように、椅子Aと椅子Bのいずれかに仮想キャラクタが座るというマッピングが考えられる。
 このとき、マッピング対象の椅子は候補の中から予めテンプレートARコンテンツ制作者が定めた条件や制約に基づいて選択される。具体的には、ユーザとの間の「near」という関係の評価値がより高いもの(例えば、ユークリッド距離がより小さいものなど)や、ユーザとより近い方向を向いているものなどの条件・制約が考えられる。
 このような条件や制約に基づく選択結果は、環境マップが更新されない限り一通りに決まってしまう。そのため、その選択結果がユーザの意図通りのものとなる保証はない。すなわち、上記の枠組みでは,ユーザがマッピングのための条件や制約の詳細を踏まえた上でそれを満たすような環境マップを構成しなければ、ユーザが意図した通りのマッピングを保証できず、そのような条件や制約を満たさないようなマッピング(例えば、敢えて「near」の評価値が2番目に高い椅子を選択する、など)を行えないという不都合がある。
 「複数のマッピング候補が存在するようなシーンへの抽象表現の編集を介したテンプレートARコンテンツマッピング」
 マップCにおいて取得された環境マップに基づくシーンの抽象表現をそのままマッピングに利用するのではなく、抽象表現を編集するステップを介して利用する例について述べる。
 図38(a)の左側には、図35(b)と同様に、図35(a)に示すマップCから取得したシーンの抽象表現を示している。このシーンの抽象表現に対し、ユーザの編集操作の入力により、図38(a)の右側に示すようなシーンの抽象表現を取得する。ここでは、椅子Aとユーザとの間に取得された「near」という関係を抽象表現から削除している。抽象表現の編集に際しては、シーン抽象表現を表すグラフが何らかの映像表示装置によりユーザにGUIで提示されていてもよく、関係の削除のみならず新たな関係の追加や物体の属性の変更なども含めた編集を、テキストや音声、タッチ操作等の様々な入力方法で行えるものとする。
 図38(a)の右側に示すように編集されたシーンの抽象表現とテンプレートAR抽象表現を用いることで、マップCに対して、図39に示すように、一意なARコンテンツマッピングを実現できる。また、同一条件下で逆に椅子Bの「near」という関係を削除すると、今度はテンプレートARコンテンツを椅子Aに対してマッピングさせることができる。
 また、図38(b)の左側に示すテンプレートAR抽象表現に対し、ユーザの編集操作の入力により、図38(b)の右側に示すようなシーンの抽象表現を取得することでも、マップCに対して、図39に示すように、一意なARコンテンツマッピングを実現できる。
 このように、シーンの抽象表現を介したテンプレートARコンテンツマッピングと、シーンの抽象表現の編集操作を組み合わせることで、マップCにおける配置条件を変えずに、ユーザの抽象表現の編集操作のみでテンプレートARコンテンツのマッピング結果を変化させることができる。そのため、ユーザの意図通りのコンテンツマッピングや1つのテンプレートARコンテンツの多様な個別環境への適合が実現できる。
 <2.変形例>
 「テンプレートやAR実施環境の編集情報の蓄積による自動適合システム」
 図40のフローチャートに示すように、ユーザがAR実施シーンの抽象表現を編集した履歴を蓄積しておき、新たに取得したテンプレートARコンテンツを表示する際に、予め自動でAR実施シーンの抽象表現を編集する処理ステップ(ステップST17)をさらに設けることが考えられる。例えば、AR実施シーンにある特定の物体をARコンテンツ表示時に利用したくない場合に、コンテンツ毎に抽象表現から削除するような操作をしなくてもよく、自動でその設定を反映するようにしておいてもよい。なお、図40のフローチャートにおいて、図6のフローチャートと対応する部分には、同一のステップ番号を付して示している。
 「テンプレートARコンテンツ作成支援」
 図41のフローチャートに示すように、編集したテンプレートARの抽象表現を新たなテンプレートとして利用することで(ステップST18の処理)、コンテンツ製作者によるテンプレートの作成コストを削減できる。ユーザが編集したものを共有してコンテンツ製作者が操作できるようにしてもよいし、コンテンツ製作者が予めベースとなるテンプレートを作成して、その派生テンプレートを制作するために利用してもよい。なお、図41のフローチャートにおいて、図6のフローチャートと対応する部分には、同一のステップ番号を付して示している。
 「代用物を用いたARシミュレーションシステム」
 ARを実施したい環境をスケールやカテゴリを問わない代用物を用いたモックで構成し、それらに対して得られた抽象表現をテンプレートと合わせるように編集することで、ARを実施する本番環境に行かなくてもARコンテンツを再生するシミュレーションを行うことができる。例えば、机上に載るスケールの部屋の模型やプロトタイプ品に対して計測を行い、それらの抽象表現を編集して表示することでその部屋でのAR表示をシミュレーションできる。シミュレーションとして提示できるコンテンツとして、例えば、屋内でのロボットや仮想キャラクタなどのエージェントの行動計画などが考えられる。
 また、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は、以下のような構成もとることができる。
 (1)拡張現実実施シーンの環境マップを生成する環境マップ生成部と、
 前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する抽象表現生成部と、
 前記拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する表示用コンテンツ生成部を備える
 情報処理装置。
 (2)前記抽象表現は、グラフ構造を持つ表現である
 前記(1)に記載の情報処理装置。
 (3)前記拡張現実実施シーンの抽象表現または前記テンプレート拡張現実の抽象表現を編集する抽象表現編集部をさらに備える
 前記(1)または(2)に記載の情報処理装置。
 (4)前記抽象表現編集部は、前記拡張現実実施シーンの抽象表現およびテンプレート拡張現実の抽象表現を並べてユーザに提示する抽象表現提示部と、
 前記提示に基づいて前記ユーザが前記拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を変更操作するユーザインタフェース部を有する
 前記(3)に記載の情報処理装置。
 (5)前記抽象表現提示部は、前記拡張現実実施シーンの抽象表現に前記テンプレート拡張現実の抽象表現に対応した部分的同型部分が複数存在する場合には、前記複数の部分的同型部分を前記ユーザが認識可能に提示する
 前記(4)に記載の情報処理装置。
 (6)前記抽象表現編集部で前記拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現が編集された場合、
 前記表示用拡張現実コンテンツ生成部は、前記変更操作後の前記拡張現実実施シーンの抽象表現と前記テンプレート拡張現実の抽象表現を比較する
 前記(3)から(5)のいずれかに記載の情報処理装置。
 (7)前記抽象表現編集部における前記拡張現実実施シーンに対する編集情報に基づいて前記抽象表現生成部で生成された前記拡張現実実施シーンの抽象表現を自動的に編集する自動編集部をさらに備える
 前記(3)から(6)のいずれかに記載の情報処理装置。
 (8)前記抽象表現は、グラフ構造を持つ表現であり、
 前記編集は、ノード間の関係を変更する操作、またはノードの属性を変更する操作を含む
 前記(3)から(7)のいずれかに記載の情報処理装置。
 (9)拡張現実実施シーンの環境マップを生成する手順と、
 前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する手順と、
 前記拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用コンテンツを生成する手順を有する
 情報処理方法。
 (10)コンピュータを、
 拡張現実実施シーンの環境マップを生成する環境マップ生成手段と、
 前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する抽象表現生手段と、
 前記拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する表示用拡張現実コンテンツ生成手段として機能させる
 プログラム。
 10・・・情報処理システム
 11・・・ARグラス
 12・・・情報処理
 13・・・ネットワーク
 111・・・制御部
 112・・・カメラ
 113・・・センサ
 114・・・通信部
 115・・・表示部
 116・・・メモリ
 181・・・AR実施シーン情報取得部
 182・・・AR実施シーン環境マップ生成部
 183・・・AR実施シーン抽象表現生成部
 184・・・テンプレートARデータ群記憶部
 185・・・抽象表現比較・編集部
 186・・・表示用ARコンテンツ生成部
 187・・・推定部
 188・・・表示制御部

Claims (10)

  1.  拡張現実実施シーンの環境マップを生成する環境マップ生成部と、
     前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する抽象表現生成部と、
     前記拡張現実実施シーンの抽象表現とテンプレート拡張現実環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する表示用拡張現実コンテンツ生成部を備える
     情報処理装置。
  2.  前記抽象表現は、グラフ構造を持つ表現である
     請求項1に記載の情報処理装置。
  3.  前記拡張現実実施シーンの抽象表現または前記テンプレート拡張現実の抽象表現を編集する抽象表現編集部をさらに備える
     請求項1に記載の情報処理装置。
  4.  前記抽象表現編集部は、前記拡張現実実施シーンの抽象表現およびテンプレート拡張現実の抽象表現を並べてユーザに提示する抽象表現提示部と、
     前記提示に基づいて前記ユーザが前記拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現を変更操作するユーザインタフェース部を有する
     請求項3に記載の情報処理装置。
  5.  前記抽象表現提示部は、前記拡張現実実施シーンの抽象表現に前記テンプレート拡張現実の抽象表現に対応した部分的同型部分が複数存在する場合には、前記複数の部分的同型部分を前記ユーザが認識可能に提示する
     請求項4に記載の情報処理装置。
  6.  前記抽象表現編集部で前記拡張現実実施シーンの抽象表現またはテンプレート拡張現実の抽象表現が編集された場合、
     前記表示用拡張現実コンテンツ生成部は、前記変更操作後の前記拡張現実実施シーンの抽象表現と前記テンプレート拡張現実の抽象表現を比較する
     請求項3に記載の情報処理装置。
  7.  前記抽象表現編集部における前記拡張現実実施シーンに対する編集情報に基づいて前記抽象表現生成部で生成された前記拡張現実実施シーンの抽象表現を自動的に編集する自動編集部をさらに備える
     請求項3に記載の情報処理装置。
  8.  前記抽象表現は、グラフ構造を持つ表現であり、
     前記編集は、ノード間の関係を変更する操作、またはノードの属性を変更する操作を含む
     請求項3に記載の情報処理装置。
  9.  拡張現実実施シーンの環境マップを生成する手順と、
     前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する手順と、
     前記拡張現実実施シーンの抽象表現とテンプレートAR環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する手順を有する
     情報処理方法。
  10.  コンピュータを、
     拡張現実実施シーンの環境マップを生成する環境マップ生成手段と、
     前記拡張現実シーンの環境マップに基づいて拡張現実実施シーンの抽象表現を生成する抽象表現生手段と、
     前記拡張現実実施シーンの抽象表現とテンプレートAR環境マップに基づいて生成されたテンプレート拡張現実の抽象表現を比較し、該比較結果に基づいてテンプレート拡張現実コンテンツを拡張現実実施シーンにマッピングして表示用拡張現実コンテンツを生成する表示用拡張現実コンテンツ生成手段として機能させる
     プログラム。
PCT/JP2020/041812 2019-11-15 2020-11-10 情報処理装置、情報処理方法およびプログラム WO2021095704A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/755,722 US20220392174A1 (en) 2019-11-15 2020-11-10 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019206604 2019-11-15
JP2019-206604 2019-11-15

Publications (1)

Publication Number Publication Date
WO2021095704A1 true WO2021095704A1 (ja) 2021-05-20

Family

ID=75911482

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/041812 WO2021095704A1 (ja) 2019-11-15 2020-11-10 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US20220392174A1 (ja)
WO (1) WO2021095704A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009748A1 (ja) * 2022-07-04 2024-01-11 ソニーグループ株式会社 情報処理装置、情報処理方法、および記録媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020246400A1 (ja) * 2019-06-06 2020-12-10 ソニー株式会社 情報処理装置、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016516241A (ja) * 2013-03-14 2016-06-02 マイクロソフト テクノロジー ライセンシング,エルエルシー 拡張現実体験の様々な環境へのマッピング
US20180096528A1 (en) * 2016-09-30 2018-04-05 Intel Corporation Automatic placement of augmented reality models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016516241A (ja) * 2013-03-14 2016-06-02 マイクロソフト テクノロジー ライセンシング,エルエルシー 拡張現実体験の様々な環境へのマッピング
US20180096528A1 (en) * 2016-09-30 2018-04-05 Intel Corporation Automatic placement of augmented reality models

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009748A1 (ja) * 2022-07-04 2024-01-11 ソニーグループ株式会社 情報処理装置、情報処理方法、および記録媒体

Also Published As

Publication number Publication date
US20220392174A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
CN113593351B (zh) 一种立体综合教学场系统的工作方法
Wang et al. Mixed reality in architecture, design, and construction
JP4880350B2 (ja) 実マーカオブジェクトを識別する拡張現実システム
JP2016218999A (ja) ターゲット環境の画像内に表現されたオブジェクトを検出するように分類器をトレーニングする方法およびシステム
WO2021095704A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN106951561A (zh) 基于虚拟现实技术与gis数据的电子地图系统
JP7475022B2 (ja) 室内空間の3次元地図生成方法及び装置
CN102725038A (zh) 组合多传感输入以用于数字动画
CN108038911A (zh) 一种基于ar技术的全息成像控制方法
US10909423B2 (en) Generating training data for machine learning classifier
CN110110412A (zh) 基于bim技术的户型全装修模拟展示方法及展示系统
Ishikawa et al. Semantic segmentation of 3D point cloud to virtually manipulate real living space
Flagg et al. Video-based crowd synthesis
Wüst et al. Applying the 3D GIS DILAS to archaeology and cultural heritage projects requirements and first results
WO2022224522A1 (ja) 表示制御装置、表示制御方法、およびプログラム
Zhao et al. Localization and completion for 3D object interactions
EP4275173A1 (en) Computer-implemented reconstruction of interior rooms
WO2023174561A1 (en) Generating synthetic interior room scene data for training ai-based modules
Agus et al. Interactive 3D Exploration of a Virtual Sculpture Collection: an Analysis of User Behavior in Museum Settings.
CN111696182A (zh) 一种虚拟主播生成系统、方法和存储介质
CN116912444B (zh) 一种基于人工智能的元宇宙模型生成系统及方法
US11605207B2 (en) Information processing device, information processing method, and program
WO2023228712A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102649693B1 (ko) 체험형 디지털 입체공간 구축시스템 및 그 입체공간 구축방법
François et al. A methodology for reverse architecture: modelling space and use.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20887568

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20887568

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP