WO2020017261A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2020017261A1
WO2020017261A1 PCT/JP2019/025255 JP2019025255W WO2020017261A1 WO 2020017261 A1 WO2020017261 A1 WO 2020017261A1 JP 2019025255 W JP2019025255 W JP 2019025255W WO 2020017261 A1 WO2020017261 A1 WO 2020017261A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
subject
captured image
virtual space
dimensional position
Prior art date
Application number
PCT/JP2019/025255
Other languages
English (en)
French (fr)
Inventor
孝悌 清水
石川 毅
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/254,305 priority Critical patent/US11250636B2/en
Priority to EP19837662.6A priority patent/EP3825817A4/en
Priority to CN201980046227.0A priority patent/CN112424728B/zh
Priority to KR1020217000351A priority patent/KR20210031894A/ko
Priority to JP2020531203A priority patent/JP7338626B2/ja
Publication of WO2020017261A1 publication Critical patent/WO2020017261A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/016Input arrangements with force or tactile feedback as computer generated output to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04801Cursor retrieval aid, i.e. visual aspect modification, blinking, colour changes, enlargement or other visual cues, for helping user do find the cursor in graphical user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/21Collision detection, intersection

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program.
  • VR Virtual Reality
  • VR technology is used to support communication between users at different locations.
  • Patent Literature 1 discloses a technique in which a lecture object is distributed from an instructor-side device to a student-side device and a virtual object based on the lecture material is displayed in a virtual space in each device.
  • the lecture materials include materials created or quoted in real time or improvised, input by the video input means provided in the instructor's device.
  • the lecture material in Patent Document 1 is an example of a real-action VR content.
  • the real VR content is VR content in which a captured image of a real space is arranged in a virtual space.
  • an omnidirectional image of a real space a 360-degree panorama image in all directions, up, down, left, and right
  • the user can feel as if he or she is in the real space. be able to.
  • the actual VR content is typically composed of a two-dimensional captured image, it is difficult to realize three-dimensional spatial interaction such as touching. Therefore, for example, even if the user touches an object in the live-action VR content, the tactile sensation is not fed back to the user. Thus, the interaction realized in the live-action VR content is unnatural, different from the interaction in the real space.
  • the present disclosure proposes a mechanism capable of more appropriately realizing spatial interaction in live-action VR content.
  • a captured image including a subject, an acquisition unit that acquires subject three-dimensional position information indicating a three-dimensional position of the subject, and the captured image, the subject three-dimensional position information, and display in a virtual space Generating content configuration information, which is information used for an interaction involving the subject in the captured image and virtual space association information that associates the subject in the captured image with the subject three-dimensional position information.
  • An information processing apparatus comprising:
  • a captured image including a subject, subject three-dimensional position information indicating a three-dimensional position of the subject, and an interaction involving the subject in the captured image displayed in a virtual space are used.
  • Information virtual space association information that associates the subject in the captured image with the subject three-dimensional position information, and an acquisition unit that acquires content configuration information, and based on the content configuration information, And an output control unit that controls the output of feedback corresponding to an interaction involving the subject in the captured image displayed in the virtual space.
  • a captured image including a subject, and acquiring three-dimensional subject position information indicating a three-dimensional position of the subject, the captured image, the three-dimensional subject position information, and a virtual space.
  • Content configuration information which is information used for an interaction involving the subject in the displayed captured image and includes virtual space association information that associates the subject in the captured image with the subject three-dimensional position information.
  • a captured image including a subject, subject three-dimensional position information indicating a three-dimensional position of the subject, and an interaction involving the subject in the captured image displayed in a virtual space are used.
  • a computer a captured image including a subject, and an acquisition unit that acquires subject three-dimensional position information indicating a three-dimensional position of the subject, the captured image, the subject three-dimensional position information, and Virtual space association information for associating the subject in the captured image with the subject three-dimensional position information, the information being used for an interaction involving the subject in the captured image displayed in the virtual space.
  • a program for functioning as a content configuration information generation unit that generates content configuration information is provided.
  • a computer can be used to capture a captured image including a subject, subject three-dimensional position information indicating a three-dimensional position of the subject, and an interaction involving the subject in the captured image displayed in a virtual space.
  • An acquisition unit that acquires content configuration information including virtual space association information that associates the subject in the captured image with the subject three-dimensional position information, based on the content configuration information,
  • a mechanism is provided that can more appropriately realize spatial interaction in live-action VR content.
  • the above effects are not necessarily limited, and any of the effects shown in the present specification or other effects that can be grasped from the present specification are used together with or in place of the above effects. May be played.
  • FIG. 1 is a diagram illustrating an example of a configuration of a content distribution system according to an embodiment of the present disclosure.
  • FIG. 2 is a diagram for describing an overview of a recording device according to the first embodiment.
  • FIG. 3 is a diagram for describing an overview of the playback device according to the embodiment.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of the recording apparatus according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of a format of content configuration information according to the embodiment.
  • 4 is a flowchart illustrating an example of a flow of a recording process performed by the recording device according to the embodiment.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of the playback device according to the embodiment.
  • FIG. 6 is a diagram for describing an example of a second spatial interaction according to the embodiment. It is a flow chart which shows an example of the flow of the 2nd space interaction processing performed by the reproducing device concerning the embodiment. It is a flow chart which shows an example of the flow of the 2nd space interaction processing performed by the reproducing device concerning the embodiment. It is a figure for explaining viewpoint change based on a viewpoint change object concerning the embodiment. It is a figure for explaining an example of movement and change of a user position concerning the embodiment.
  • FIG. 13 is a diagram illustrating an example of viewpoint switching of VR content using a captured image captured by the sensor device having the arrangement illustrated in FIG. 12.
  • FIG. 6 is a diagram for describing an overview of a recording device according to a second embodiment.
  • FIG. 3 is a diagram for describing an overview of the playback device according to the embodiment.
  • FIG. 3 is a block diagram illustrating an example of a functional configuration of the recording apparatus according to the embodiment.
  • FIG. 3 is a diagram illustrating an example of a format of content configuration information according to the embodiment.
  • FIG. 4 is a flowchart illustrating an example of a flow of a recording process performed by the recording device according to the embodiment. It is a flow chart which shows an example of the flow of the 1st space interaction processing performed by the reproducing device concerning the embodiment.
  • FIG. 6 is a diagram for describing an example of a second spatial interaction according to the embodiment. It is a flow chart which shows an example of the flow of the 2nd space interaction processing performed by the reproducing device concerning the embodiment.
  • FIG. 2 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the embodiment.
  • FIG. 1 is a diagram illustrating an example of a configuration of a content distribution system 1 according to an embodiment of the present disclosure.
  • the content distribution system 1 includes a recording device 10 and a reproducing device 20, and the recording device 10 and the reproducing device 20 are connected via a network 30.
  • the recording device 10 is an information processing device that acquires and records information for VR content to be reproduced by the reproduction device 20, and transmits the information to the reproduction device 20.
  • the recording device 10 transmits the captured image (moving image / still image) obtained by capturing the real space and the depth information of the real space to the reproducing device 20.
  • the recording device 10 may transmit the acquired information in real time, omitting the recording.
  • the moving image is data including a plurality of still images (image data) and the reproduction time of each still image.
  • image data image data
  • Still images that make up moving images are also called frames.
  • the display speed of a moving image is also referred to as a frame rate, and is represented by the number of frames displayed per second (FPS: Frame Per Second).
  • the moving image may include audio data to be reproduced along with reproduction of the image data.
  • the captured image transmitted from the recording device 10 to the reproduction device 20 is a moving image.
  • the playback device 20 is an information processing device that controls playback of VR content based on information received from the recording device 10. For example, the playback device 20 generates the VR content based on the information received from the recording device 10, visually outputs the VR content, and causes the output device to output feedback corresponding to a user operation on the VR content.
  • VR content is content in which various virtual objects are arranged in a virtual space.
  • a virtual object is a virtual object arranged in a virtual space.
  • Elements used for determining collision between virtual objects are added to the virtual objects.
  • This element may be called a collider.
  • the collider is arranged so as to be superimposed on the virtual object, and the collision determination between the virtual objects is performed by the collision determination between the colliders. Note that virtual objects are displayed, but colliders are typically not displayed (ie, invisible). This is because the collider is an element used for collision determination. Of course, a setting for displaying a collider may be made, in which case the collider is displayed.
  • the network 30 is a wired or wireless transmission path for information transmitted from a device connected to the network 30.
  • the network 30 is realized by, for example, the Internet, a LAN (Local Area Network), a wireless LAN, a cellular communication network, or the like.
  • the first embodiment associates the three-dimensional position information of the surface of the real object with the real object in the captured image arranged in the virtual space, so that the real object can be compared with the virtual object in the virtual space. This is a mode for realizing three-dimensional spatial interaction.
  • FIG. 2 is a diagram for explaining an outline of the recording apparatus of the recording apparatus 10 according to the present embodiment.
  • FIG. 2 shows an example of a space in which information is recorded by the recording device 10.
  • a performer 18 performs on a stage 16 in front of a large audience in a spectator seat 17.
  • a first sensor device 11 and a second sensor device 12 (12A and 12B) are installed as devices involved in recording by the recording device 10.
  • a monitor 15 is also provided.
  • the first sensor device 11 is a device that senses a real space including a real object to be subjected to spatial interaction in VR content.
  • a real object is an object that exists in a real space.
  • the first sensor device 11 includes an imaging device and a depth sensor.
  • the imaging device is a device that captures a real object (that is, a subject) in a real space and acquires a captured image.
  • the imaging device is realized by, for example, a monocular camera, a stereo camera, an infrared camera, or the like.
  • the captured image is a two-dimensional image, a full celestial sphere (360 degrees) image, a half celestial sphere (180 degrees) image, or an image having any other imaging range.
  • the imaging device is realized by a stereo camera and captures a stereoscopic omnidirectional image that can be viewed stereoscopically.
  • the imaging device is also referred to as a VR camera.
  • the depth sensor is a device that detects depth information of a real object in a real space.
  • the depth information is a measured value in the optical axis direction (depth) of the sensor.
  • the depth sensor for example, any type of sensor such as Light Coding, Time of Flight, or Infrared Depth can be adopted.
  • the first sensor device 11 is, for example, installed at the center of the monitor 15 and senses the stage 16 including the performer 18 from a relatively short distance.
  • the stage 16 and the performer 18 are real objects to be subjected to spatial interaction in VR content.
  • the second sensor device 12 is a device that senses a real space.
  • the second sensor device 12 includes an imaging device.
  • the imaging device is as described above for the first sensor device 11.
  • the second sensor device 12 is installed in the audience seat and senses the stage 16 including the performer 18 from a relatively long distance.
  • the monitor 15 is a display device that displays a state of the user receiving the VR content provided by the playback device 20. For this reason, the performer 18 can perform while visually recognizing the spectator who is actually in front of him and the spectator who is appreciating himself through the network 30.
  • the recording device 10 generates content configuration information including various types of information for configuring the VR content on the reproduction device 20 side based on the sensing results obtained by the first sensor device 11 and the second sensor device 12. Then, the recording device 10 transmits the generated content configuration information to the playback device 20.
  • the sensing result by the first sensor device 11 is used for generating VR content capable of performing spatial interaction described later and switching viewpoints described later.
  • the sensing result by the second sensor device 12 is used for viewpoint switching described later.
  • FIG. 3 is a diagram for explaining an outline of the reproducing apparatus 20 according to the present embodiment.
  • FIG. 3 illustrates an HMD (Head Mounted Display) 21 and a controller 22 as devices involved in the playback of VR content by the playback device 20.
  • HMD Head Mounted Display
  • the HMD 21 is an output device that outputs VR content.
  • the HMD 21 is mounted on the user's head such that a display unit capable of displaying an image is located in front of the user's eyes.
  • the HMD 21 rotates or zooms the VR content in accordance with the movement of the user's head while displaying the VR content.
  • the HMD 21 outputs visual / aural / olfactory feedback corresponding to the user operation on the VR content.
  • the output device may be realized by, for example, a smartphone or a tablet terminal in addition to the HMD 21.
  • the controller 22 is an input / output device that outputs a tactile feedback corresponding to the user operation while receiving the user operation on the VR content.
  • the controller 22 is a stick-type device, and is held and operated by the user.
  • the controller 22 can be realized in any shape other than the stick type, such as a glove type.
  • VR content is operated based on the position and orientation of the controller 22.
  • Tactile feedback that can be output includes, for example, vibration, electrical stimulation, or haptics. In the following, haptic feedback is realized by vibration.
  • a position is a three-dimensional position unless otherwise specified.
  • the posture is a posture having 6 degrees of freedom (6 DoF) unless otherwise specified.
  • the playback device 20 generates VR content based on the content configuration information received from the recording device 10.
  • the first sensor device 11 and the second sensor device 12 shown in FIG. 2 correspond to viewpoints in the space to be recorded.
  • the user can freely select a viewpoint in the space to be recorded, and can receive the VR content viewing the space to be recorded from any viewpoint.
  • Switching of the viewpoint is performed by switching the VR content to be reproduced. More specifically, the viewpoint switching is performed based on which sensor device (first sensor device 11 or second sensor device 12) generates the content configuration information that is the source of the VR content to be reproduced. This is realized by switching.
  • a captured image of the real space is arranged and displayed in the virtual space as one of the virtual objects. Further, in the VR content according to the present embodiment, three-dimensional position information indicating the three-dimensional position of the real object is associated with the real object in the captured image arranged in the virtual space. This makes it possible to realize a spatial interaction involving a real object included in a captured image arranged in the virtual space. Hereinafter, this point will be described in detail.
  • the HMD 21 displays the VR content 40 generated by the playback device 20.
  • the VR content 40 a captured image including the performer 18 on the stage 16 shown in FIG. 2 is arranged and displayed in the virtual space, and three-dimensional position information is provided to each of the stage 16 and the performer 18 in the captured image. Are associated with each other.
  • the position and orientation of the operating tool 41 in the virtual space change according to the position and orientation of the controller 22 in the real space.
  • the operation tool 41 is a virtual object indicating a user's operation position in the virtual space.
  • the playback device 20 determines a collision between the operating tool 41 and the stage 16 or the performer 18 in the virtual space based on the position of the operating tool 41 in the virtual space and the three-dimensional position information associated with the stage 16 or the performer 18. I do. Then, when it is determined that the collision has occurred, the reproducing device 20 causes the HMD 21 to output visual / aural / olfactory feedback corresponding to the collision and causes the controller 22 to output haptic feedback corresponding to the collision.
  • the content distribution system 1 it is possible to realize a space interaction involving a real object in a captured image arranged in a virtual space.
  • FIG. 4 is a block diagram illustrating an example of a functional configuration of the recording apparatus 10 according to the embodiment.
  • the recording device 10 includes an image acquisition unit 110, a streaming processing unit 120, a depth information acquisition unit 130, a surface model acquisition unit 140, a content configuration information generation unit 150, and a transmission unit 160.
  • FIG. 4 also shows an example of the functional configuration of the first sensor device 11 and the second sensor device 12.
  • the first sensor device 11 includes a VR camera 101 and a depth sensor 102
  • the second sensor device 12 includes a VR camera 101.
  • the recording device 10 can be connected to one or more first sensor devices 11 and one or more second sensor devices 12.
  • First sensor device 11 The VR camera 101 and the depth sensor 102 are as described above with reference to FIG.
  • the image acquisition unit 110 has a function of acquiring a captured image including a real object in a real space from the VR camera 101 included in the first sensor device 11 or the second sensor device 12.
  • acquiring a captured image refers to receiving data of the captured image, reading out captured image data recorded on a predetermined recording medium such as a memory, or the like.
  • the VR camera 101 is a stereo camera
  • the image acquisition unit 110 outputs a stereo image (stereo whole sky) composed of two left and right captured images (an L image that is a left captured image and an R image that is a right captured image). (Sphere image) as a captured image.
  • the image obtaining unit 110 outputs the obtained captured image to the streaming processing unit 120.
  • the streaming processing unit 120 has a function of performing streaming processing of the captured image acquired by the image acquisition unit 110. For example, the streaming processing unit 120 outputs the captured images to the content configuration information generation unit 150 in the order of the imaging time.
  • the depth information acquisition unit 130 has a function of acquiring depth information of a real object in a real space from the depth sensor 102 included in the first sensor device 11.
  • the depth information here is, for example, a depth image.
  • the depth information acquisition unit 130 outputs the acquired depth information to the surface model acquisition unit 140.
  • the surface model acquisition unit 140 has a function of acquiring a surface model of a real object based on the depth information acquired by the depth information acquisition unit 130.
  • the surface model of the real object is three-dimensional model data including information of a point group including a plurality of points that are associated with three-dimensional position information and are points on the surface of the real object.
  • the three-dimensional position information is information indicating the position of the depth sensor 102 in the coordinate system, which is defined by an origin set based on the position of the depth sensor 102 and a coordinate axis set based on the attitude of the depth sensor 102.
  • the surface model can be regarded as three-dimensional position information (corresponding to subject three-dimensional position information) of a point group on the surface of the real object.
  • the point group here is, for example, a pixel group including a plurality of pixels in the depth image acquired by the depth information acquisition unit 130.
  • the resolution of the point cloud is arbitrary.
  • the resolution of the point cloud corresponding to the real object may be lower than the resolution of the real object in the captured image.
  • the captured image may be represented as a point cloud.
  • the surface model may be three-dimensional position information of a point group on the surface of a real object satisfying a predetermined condition.
  • the real object that satisfies the predetermined condition is, for example, a real object involved in spatial interaction in VR content, and is the stage 16 and the performer 18 in the example shown in FIG.
  • the predetermined condition is that the object is a real object involved in the spatial interaction, and specifically, that the object is a moving object, that the object has a surface having a size exceeding a predetermined threshold value, or that the object is a foreground.
  • the surface model acquisition unit 140 specifies a real object that satisfies a predetermined condition by applying image recognition or the like to a depth image.
  • the surface model acquisition unit 140 extracts, from the depth image, a point group on the surface of the real object that satisfies the predetermined condition, and deletes the others to obtain a three-dimensional image of the point group on the surface of the real object that satisfies the predetermined condition.
  • the surface model acquisition unit 140 may detect an area where an interaction is expected to occur, such as the hand of the performer 18, by image recognition processing in advance and use the area to reduce transmission delay. For example, the surface model acquisition unit 140 may generate a surface model only for an area where an interaction is expected to occur and record the generated surface model in the content configuration information.
  • the surface model acquisition unit 140 may detect an area where interaction should be avoided, such as a predetermined part of the body other than the hand of the performer 18, by image recognition processing in advance, and use the area to reduce transmission delay. For example, the surface model acquisition unit 140 may prohibit recording of the surface model information of the relevant region in the content configuration information as a region for which generation of an interaction is to be avoided, as being excluded from generation of the surface model.
  • the surface model may be three-dimensional position information of a number of points corresponding to the transmission speed of the content configuration information.
  • the surface model acquisition unit 140 thins out the points forming the surface model until the point group has a predetermined granularity according to the transmission speed. For example, the surface model acquisition unit 140 thins out many points from the point group if the transmission speed is low, and thins out a small number of points from the point group if the transmission speed is high. This makes it possible to prevent transmission delay of the content configuration information from the recording device 10 to the reproduction device 20 without excess or deficiency.
  • the surface model acquisition unit 140 may remove noise of the point cloud.
  • the noise is, for example, a point significantly apart from the others.
  • the content configuration information generation unit 150 has a function of generating content configuration information based on outputs from the streaming processing unit 120 and the surface model acquisition unit 140. Content configuration information generation section 150 outputs the generated content configuration information to transmission section 160.
  • the content configuration information is information including various information for configuring the VR content on the playback device 20 side.
  • the content configuration information generation unit 150 generates content configuration information by containerizing various information for configuring the VR content on the playback device 20 side based on the captured image, the surface model, and the information.
  • the content configuration information includes a captured image, a surface model, and virtual space association information that associates a real object in the captured image with the surface model.
  • the virtual space association information is information used for an interaction involving a real object in a captured image displayed in the virtual space. The format of the content configuration information will be described later.
  • the content configuration information generation unit 150 generates content configuration information corresponding to the viewpoint selected on the playback device 20 side. More specifically, the content configuration information generation unit 150 generates the content configuration information based on the sensing result of the sensor device (the first sensor device 11 or the second sensor device 12) corresponding to the viewpoint selected on the playback device 20 side. Generate
  • the transmitting unit 160 has a function of transmitting information to another device. Specifically, transmitting section 160 transmits the content configuration information generated by content configuration information generating section 150 to playback device 20.
  • FIG. 5 is a diagram illustrating an example of a format of the content configuration information according to the present embodiment.
  • the content configuration information includes VR image information and spatial interaction configuration information.
  • FIG. 5 shows the format of the content configuration information in which the images and the surface models of the frames having the frame numbers 1 to n are containerized.
  • the format will be described in detail.
  • the VR image information includes an image output from the streaming processing unit 120 and information related thereto.
  • ⁇ VR image information includes an L image (left image in a stereo image) and its frame number for each frame, and an R image (right image in a stereo image) and its frame number for each frame.
  • the frame number is information corresponding to the image capturing time of an image, and corresponds to virtual space association information.
  • ⁇ VR image information includes image metadata.
  • the metadata includes a content ID.
  • the content ID is identification information of the VR content.
  • the content ID may be regarded as information indicating a viewpoint in a space to be recorded.
  • the content ID may be information indicating which sensor device (VR camera 101) the captured image was captured by, that is, identification information of the sensor device that captured the captured image.
  • the content ID is identification information for associating the captured image with the surface model, and corresponds to virtual space association information.
  • the spatial interaction configuration information includes a surface model for each frame, attribute information of the surface model, and a frame number.
  • the surface model for each frame is a surface model of a real object included in an image for each frame. That is, the spatial interaction configuration information includes three-dimensional position information of a plurality of points on the surface of the real object included in the image for each frame.
  • the attribute information is information indicating a physical coefficient of a real object included in an image for each frame, such as a coefficient of restitution, a coefficient of friction, and a normal direction.
  • the attribute information can be set for each point included in the surface model.
  • the frame number is information corresponding to the detection time of the surface model (that is, the detection time of the depth information), and corresponds to the virtual space association information.
  • timing synchronization time-series synchronization
  • the spatial interaction configuration information includes metadata.
  • the metadata includes a content ID, viewpoint switching object information, sensor device position and orientation information, and feedback setting information.
  • Content ID is identification information of VR content.
  • the content ID may be regarded as information indicating a viewpoint in a space to be recorded.
  • the content ID may be information indicating which sensor device (depth sensor 102) the surface model was generated based on the depth information detected by, that is, identification information of the sensor device that detected the depth information.
  • the content ID is identification information for associating the captured image with the surface model, and corresponds to virtual space association information.
  • the viewpoint switching object information is information on the viewpoint switching object, and is used for viewpoint switching.
  • the viewpoint switching object is a virtual object associated with a collider for switching viewpoints.
  • the viewpoint switching object information includes an ID of the viewpoint switching object, three-dimensional position information of the viewpoint switching object, and a content ID associated with the viewpoint switching object. This content ID is the content ID of the VR content at the switching destination when the viewpoint is switched based on the viewpoint switching object.
  • Sensor device position and orientation information is information on the coordinate system of the imaging device that captured the captured image and the coordinate system of the sensor that detected the surface model (that is, depth information), and corresponds to virtual space association information. That is, the sensor device position and orientation information according to the present embodiment is information relating to the coordinate system of the VR camera 101 and the coordinate system of the depth sensor 102.
  • the coordinate system of the VR camera 101 is defined by an origin set based on the position of the VR camera 101 and coordinate axes set based on the attitude of the VR camera 101.
  • the coordinate system of the depth sensor 102 is defined by an origin set based on the position of the depth sensor 102 and a coordinate axis set based on the attitude of the depth sensor 102.
  • the sensor device position and orientation information may include information indicating the position and orientation of the VR camera 101 and the depth sensor 102, which is information defining these coordinate systems. Further, the sensor device position and orientation information may include information indicating a deviation of these coordinate systems, such as a difference between the positions of the VR camera 101 and the depth sensor 102 and a difference between the orientations.
  • the sensor device position and orientation information may be manually set based on, for example, the installation status of the VR camera 101 and the depth sensor 102.
  • the sensor device position and orientation information includes the position and orientation of the recognition target in the captured image and the position and orientation of the recognition target in the depth image when the recognition target is imaged by the VR camera 101 and sensed by the depth sensor 102. And may be obtained by comparing
  • a recognition target object a panel or a cubic instrument to which a predetermined checker pattern is attached is exemplified.
  • the VR camera 101 and the depth sensor 102 included in the same first sensor device 11 may be displaced in position and orientation. Due to this shift, a shift may occur between the real object in the captured image arranged in the virtual space and the surface model associated with the real object when the playback device 20 configures the VR content.
  • the inclusion of the sensor device position and orientation information in the content configuration information allows the reproduction device 20 to correct the displacement.
  • Feedback setting information is information for setting feedback content when an interaction involving a real object in a captured image displayed in a virtual space is performed.
  • the feedback setting information includes information for setting the content to be fed back visually, tactilely, audibly, or olfactoryly.
  • the feedback setting information may include visual feedback setting information that sets the content to be visually fed back.
  • the visual feedback setting information includes, for example, information indicating an icon indicating a collision, which should be displayed when a collision occurs, and the like.
  • the feedback setting information includes haptic feedback setting information for setting the content to be hapticly fed back.
  • the haptic feedback setting information may include, for example, information indicating a frequency, an amplitude, and a vibration time of a vibration to be output when a collision occurs.
  • the feedback setting information may include audible feedback setting information for setting the content to be audibly fed back.
  • the auditory feedback setting information includes, for example, information indicating a sound to be output when a collision occurs.
  • the feedback setting information may include olfactory feedback setting information for setting contents to be olfactory fed back.
  • the olfactory feedback setting information includes, for example, information indicating an odor such as explosive or perfume to be output when a collision occurs.
  • the feedback setting information includes viewpoint movement setting information for setting the content to be fed back when the viewpoint is moved in the virtual space.
  • the viewpoint movement setting information includes, for example, information for specifying the viewpoint switching position and information for specifying the amount of rotation of the field of view after moving the viewpoint.
  • the spatial interaction configuration information may include a set of a surface model, attribute information of the surface model, and metadata for each real object.
  • the spatial interaction configuration information may include feedback setting information for each real object.
  • the identification information of the real object is associated with the information for each real object.
  • a surface model may be diverted between frames.
  • the spatial interaction information includes information for identifying a surface model to be diverted and a period in which the surface model is diverted. For example, when there is a real object that does not move for a predetermined time, the content configuration information generation unit 150 records the surface model in association with the start frame of the predetermined time, and time information (for example, The end frame of the predetermined time) is recorded. As a result, the amount of transmission can be reduced, so that transmission delay can be reduced.
  • FIG. 6 is a flowchart illustrating an example of the flow of a recording process performed by the recording device 10 according to the present embodiment. As shown in FIG. 6, first, the image acquisition unit 110 acquires a captured image in the real space, and the depth information acquisition unit 130 acquires depth information (step S102).
  • the surface model acquisition unit 140 generates a surface model based on the depth information. Specifically, the surface model acquisition unit 140 extracts a point group (for example, a pixel group) that forms the surface of the real object that satisfies a predetermined condition based on the depth information (step S104).
  • the predetermined condition is, for example, being a moving object, having a surface having a size exceeding a predetermined threshold, being a foreground, being an area where interaction is expected to occur, and / or interacting. Is not an area to avoid the occurrence of.
  • the surface model acquisition unit 140 thins out points until the point group has a predetermined granularity (step S106).
  • the surface model acquisition unit 140 removes point cloud noise in frame units (step S108). In this way, the surface model acquisition unit 140 generates a surface model.
  • the content configuration information generation unit 150 generates content configuration information based on the captured image and the surface model (Step S110). After that, the transmitting unit 160 transmits the content configuration information to the playback device 20 (Step S112).
  • FIG. 7 is a block diagram illustrating an example of a functional configuration of the playback device 20 according to the present embodiment.
  • the playback device 20 includes a reception unit 210, a content configuration information analysis unit 220, a timing synchronization unit 230, a coordinate conversion unit 240, a virtual object control unit 250, an output control unit 260, and a selection unit 270. .
  • FIG. 7 also shows an example of a functional configuration of the HMD 21 and the controller 22.
  • the HMD 21 includes a display unit 201, a position / posture detection unit 202, a sound output unit 203, and a sound input unit 204
  • the controller 22 includes a position / posture detection unit 205 and a vibration output unit 206.
  • the display unit 201 has a function of displaying VR content.
  • the display unit 201 displays VR content based on control by the output control unit 260.
  • the display unit 201 can be realized by an LCD (Liquid Crystal Display) or an OLED (Organic Light-Emitting Diode).
  • the position and orientation detection unit 202 has a function of detecting the position and orientation of the HMD 21 (that is, the head of the user wearing the HMD 21).
  • the position and orientation detection unit 202 includes a gyro sensor and an acceleration sensor, detects an orientation based on the angular velocity, and detects a position by an INS (inertial navigation system) operation using the angular velocity and the acceleration.
  • the position and orientation detection unit 202 outputs information indicating the detected position and orientation of the HMD 21 to the output control unit 260 of the playback device 20.
  • the audio output unit 203 has a function of outputting audio relating to VR content.
  • the audio output unit 203 includes a speaker or an earphone, an amplifier, a DAC (Digital Analog Converter), and the like.
  • the sound output unit 203 reproduces four sounds based on the control of the output control unit 260.
  • the voice input unit 204 has a function of inputting a user's voice.
  • the audio input unit 204 includes a microphone, a microphone amplifier, an ADC (Analog Digital Converter), and the like, and generates a digital signal indicating a user's audio.
  • the voice input unit 204 outputs information indicating the input user's voice to the virtual object control unit 250.
  • the position and orientation detection unit 205 has a function of detecting the position and orientation of the controller 22.
  • the position and orientation detection unit 205 includes a gyro sensor and an acceleration sensor, detects an orientation based on the angular velocity, and detects a position by an INS (inertial navigation system) calculation using the angular velocity and the acceleration.
  • the position and orientation detection unit 205 outputs information indicating the detected position and orientation of the controller 22 to the virtual object control unit 250.
  • the vibration output unit 206 has a function of outputting vibration.
  • the vibration output unit 206 outputs a vibration based on the control by the output control unit 260.
  • the vibration output unit 206 can be realized by an eccentric motor, an LRA (Linear Resonant Actuator), a VCM (Voice Coil Motor), or the like.
  • the receiving unit 210 has a function of receiving information from another device. More specifically, the receiving unit 210 functions as an obtaining unit that obtains content configuration information from the recording device 10. The receiving unit 210 outputs the content configuration information corresponding to the selected viewpoint, that is, the content configuration information generated based on the sensing result by the first sensor device 11 or the second sensor device 12 corresponding to the selected viewpoint. Receive. The receiving unit 210 outputs the received content configuration information to the content configuration information analysis unit 220.
  • the content configuration information analysis unit 220 has a function of extracting various information from the content configuration information. For example, the content configuration information analysis unit 220 separates and extracts VR image information and spatial interaction configuration information from the content configuration information, and outputs them.
  • the timing synchronization section 230 has a function of establishing timing synchronization between the captured image included in the VR image information and the surface model included in the spatial interaction configuration information. More specifically, the timing synchronization unit 230 establishes timing synchronization between the captured image and the surface model by associating the captured image with a surface model whose detection time is the same as the imaging time of the captured image. At that time, the timing synchronization unit 230 establishes timing synchronization between the captured image and the surface model based on the frame number of the captured image and the frame number of the surface model. The timing synchronization unit 230 outputs the captured image and the surface model for which the timing synchronization has been established, that is, the captured image and the surface model whose detection time is the same as the imaging time of the captured image to the coordinate conversion unit 240. .
  • the coordinate conversion unit 240 has a function of establishing synchronization of a coordinate system between the captured image included in the VR image information and the surface model included in the spatial interaction configuration information.
  • the coordinate conversion unit 240 applies a coordinate conversion process to the surface model to correct a deviation between the coordinate system of the VR camera 101 and the coordinate system of the depth sensor 102 indicated by the sensor device position and orientation information.
  • the coordinate conversion unit 240 defines the three-dimensional position of the point group forming the surface model by the origin set based on the position of the VR camera 101 and the coordinate axes set based on the attitude of the VR camera 101. To a three-dimensional position in the coordinate system of the VR camera 101.
  • the coordinate conversion unit 240 outputs the captured image and the surface model for which the timing synchronization and the synchronization of the coordinate system have been established to the output control unit 260 and the virtual object control unit 250.
  • the virtual object control unit 250 has a function of performing various controls related to the virtual object.
  • the virtual object control unit 250 controls the position and orientation of the virtual object. Specifically, the virtual object control unit 250 calculates the position and the posture of the virtual object. Regarding the operating tool 41, the virtual object control unit 250 calculates the position and the attitude of the operating tool 41 based on the information indicating the position and the attitude of the controller 22 output from the position and attitude detecting unit 205.
  • the virtual object control unit 250 performs a physical operation on the virtual object. For example, when the virtual objects collide with each other or the virtual object is thrown, the virtual object control unit 250 calculates the movement of the virtual object in the virtual space, and calculates the position and orientation of the virtual object after the movement. Is calculated.
  • the physical operation involving the real object in the captured image arranged in the virtual space includes attribute information such as a physical coefficient associated with the real object.
  • the virtual object control unit 250 outputs the calculation result of the position and the posture of the virtual object to the output control unit 260.
  • the virtual object control unit 250 associates a collider with a virtual object.
  • the virtual object control unit 250 associates a collider with a real object in a captured image arranged in a virtual space. This makes it possible to detect a collision between the real object in the captured image arranged in the virtual space and another virtual object.
  • the association of the collider will be described in detail.
  • the virtual object control unit 250 associates a captured image arranged in the virtual space with a surface model for which timing synchronization with the captured image and synchronization of the coordinate system have been established. More simply, the virtual object control unit 250 associates the surface model of the real object with the real object in the captured image arranged in the virtual space.
  • the virtual object control unit 250 associates a collider with a surface model arranged in the virtual space, more specifically, each of the points constituting the surface model. Specifically, the virtual object control unit 250 uses the three-dimensional position information of the surface model as the three-dimensional position information of the collider. Thereby, it is possible to determine the hit of the real object in the captured image arranged in the virtual space.
  • the virtual object control unit 250 associates attribute information such as physical coefficients with the surface model arranged in the virtual space. This makes it possible to express the feeling and rebound of a collision between the real object and the virtual object in the captured image arranged in the virtual space.
  • the virtual object control unit 250 also has a function as a collision detection unit that detects a collision between virtual objects. For example, the virtual object control unit 250 detects a collision between virtual objects by determining a collision between colliders associated with the virtual objects.
  • the virtual object control unit 250 also detects a collision between a real object and a virtual object in a captured image arranged in a virtual space. In that case, the virtual object control unit 250 detects a collision between the real object in the captured image displayed in the virtual space and another virtual object based on the surface model and the three-dimensional position information of the other virtual objects. I do. More specifically, the virtual object control unit 250 associates a virtual object with a collider associated with a surface model associated with a real object in a captured image arranged in a virtual space. Colliders are detected.
  • the virtual object control unit 250 can acquire information on a collision situation such as a relative speed at the time of collision and a collision angle based on a time-series change in the position and orientation of the virtual object.
  • the virtual object control unit 250 outputs information on the presence or absence of a collision and the state of the collision to the output control unit 260.
  • the virtual object control unit 250 may control the virtual object based on a user's voice instruction input to the voice input unit 204. For example, the virtual object control unit 250 generates a virtual object including text information indicating a user's voice and moves the virtual object in the virtual space, or moves the mouth of the avatar virtual object corresponding to the user.
  • the output control unit 260 has a function of displaying a captured image in a virtual space based on the content configuration information. For example, the output control unit 260 displays the captured image in the virtual space by arranging the captured image in the virtual space.
  • the output control unit 260 moves the user position in the virtual space or rotates the field of view based on the information indicating the position and orientation of the HMD 21 output from the position and orientation detection unit 202.
  • the movement of the user position in the virtual space can be realized by zooming in / out of a captured image arranged in the virtual space. That is, the movement of the user position in the virtual space is realized by moving the captured image in the virtual space to a vector opposite to the movement vector of the user position.
  • the rotation of the field of view in the virtual space can be realized by moving an area to be displayed on the display unit 201 among the captured images arranged in the virtual space. As a result, the user can freely move around in the VR content and enjoy an experience of looking around 360 degrees.
  • the output control unit 260 has a function of controlling display of a virtual object. For example, the output control unit 260 displays the virtual object at the position and orientation calculated by the virtual object control unit 250.
  • the output control unit 260 has a function of controlling output of feedback corresponding to an interaction involving a real object included in a captured image displayed in the virtual space, based on the content configuration information. For example, when a collision between the real object included in the captured image displayed in the virtual space and another virtual object is detected, the output control unit 260 may visually, tactilely, audibly, and / or respond to the collision. Or, control the output of olfactory feedback to the user.
  • the output control unit 260 may cause the display unit 201 to output visual feedback when a collision between virtual objects is detected. For example, when the operating tool 41 collides with a real object in a captured image arranged in the virtual space, the output control unit 260 causes the display unit 201 to output information indicating the collision. The output control unit 260 may control the information to be output on the display unit 201 based on the information regarding the collision situation. When one of the colliding virtual objects is a real object in a captured image arranged in the virtual space, the information to be output on the display unit 201 includes physical coefficients and / or visual feedback setting information associated with the surface model. Is determined based on
  • the output control unit 260 may cause the vibration output unit 206 to output haptic feedback when a collision between virtual objects is detected. For example, when the operating tool 41 collides with the real object in the captured image arranged in the virtual space, the output control unit 260 causes the vibration output unit 206 to output a vibration indicating the collision.
  • the output control unit 260 may specify a parameter related to the vibration to be output to the vibration output unit 206 based on the information regarding the collision situation.
  • the parameters relating to the vibration include the frequency, amplitude, and vibration time of the vibration to be output.
  • the vibration parameter is determined based on physical coefficients and / or haptic feedback setting information associated with the surface model. You.
  • the output control unit 260 may cause the audio output unit 203 to output auditory feedback when a collision between virtual objects is detected. For example, when the operating tool 41 collides with a real object in a captured image arranged in a virtual space, the output control unit 260 causes the audio output unit 203 to output a sound indicating that the collision has occurred.
  • the output control unit 260 may specify a parameter related to a sound to be output to the sound output unit 203 based on information about a collision situation.
  • the parameters relating to the sound include the type of sound to be reproduced, the volume, and the like.
  • the parameter related to the sound is determined based on the physical coefficient and / or the auditory feedback setting information associated with the surface model. Is done.
  • the output control unit 260 may cause an olfactory output device (not shown) to output olfactory feedback when a collision between virtual objects is detected. For example, when the operating tool 41 collides with a real object in a captured image arranged in the virtual space, the output control unit 260 causes the odor output device to output an odor indicating the collision.
  • the output control unit 260 may specify a parameter related to an odor to be output to the olfactory output device based on information regarding a collision situation.
  • the parameters relating to the odor include the type of odor and the intensity of the odor.
  • the parameter relating to the odor is determined based on the physical coefficient and / or olfactory feedback setting information associated with the surface model. Is done.
  • the output control unit 260 may output visual / tactile / audible / olfactory feedback until a predetermined stop condition is satisfied after a collision between virtual objects is detected.
  • the predetermined stop condition is, for example, that a predetermined time has elapsed after the occurrence of the collision, or that the distance between the virtual objects exceeds a predetermined distance. Thereby, it is possible to give the user the lingering sound of the collision.
  • the selection unit 270 has a function of selecting a viewpoint (that is, switching VR content to be reproduced). More specifically, the selection unit 270 selects the content configuration information that is the source of the VR content to be reproduced, which is to be the content configuration information generated based on the sensing result by the sensor device. The viewpoint is selected, for example, by selecting a content ID.
  • the selection unit 270 may transmit information indicating the selection result (for example, a content ID) to the recording device 10 and switch the received content configuration information.
  • the first spatial interaction relates to the interaction between a user and a real object in a captured image arranged in a virtual space. This interaction is as described above with reference to FIG. Specifically, when the real object (the stage 16 or the performer 18) in the captured image arranged in the virtual space collides with the operation tool 41 operated by the user, the reproducing device 20 provides haptic feedback corresponding to the collision. It is output by the controller 22. The flow of processing related to such an interaction will be described with reference to FIG.
  • FIG. 8 is a flowchart illustrating an example of the flow of the first spatial interaction process executed by the playback device 20 according to the present embodiment.
  • the receiving unit 210 receives the content configuration information corresponding to the selected viewpoint (Step S202).
  • the content configuration information analysis unit 220 extracts VR image information and spatial interaction configuration information from the content configuration information (step S204).
  • the timing synchronization section 230 establishes timing synchronization between the captured image and the surface model
  • the coordinate conversion section 240 establishes synchronization of the coordinate system between the captured image and the surface model (step S206).
  • the output control unit 260 arranges the captured image in the virtual space (Step S208).
  • the virtual object control unit 250 superimposes and arranges the surface model in which the collider and the physical coefficient are associated with the captured image arranged in the virtual space (Step S210).
  • the virtual object control unit 250 controls the position and the posture of the operating tool 41 in the virtual space based on the position and the posture of the controller 22 (Step S212).
  • the virtual object control unit 250 determines whether or not the real object in the captured image arranged in the virtual space collides with the operating tool 41 (step S214). More specifically, the virtual object control unit 250 determines whether or not a collision has occurred between the collider associated with the surface model superimposed on the captured image arranged in the virtual space and the collider associated with the operating tool 41. I do.
  • step S216 / NO If it is determined that there is no collision (step S216 / NO), the process returns to step S202 again.
  • the output control unit 260 outputs feedback corresponding to the collision (step S218). Specifically, the output control unit 260 controls the output of visual / tactile / audible / smell feedback to the user based on the physical coefficient and feedback setting information associated with the surface model. Thereafter, the process returns to step S202 again.
  • the second space interaction relates to the interaction between a real object in a captured image arranged in a virtual space and a virtual object other than the operation tool 41. This interaction will be described in detail with reference to FIG.
  • FIG. 9 is a diagram for describing an example of the second spatial interaction according to the present embodiment.
  • a captured image including the performer 18 on the stage 16 illustrated in FIG. 2 is arranged in the virtual space, and each of the stage 16 and the performer 18 in the captured image has a front surface.
  • a model is associated.
  • the user can perform an operation of aligning and grasping the operating tool 41 with the position of the ball 43, which is a virtual object, in the virtual space, and then throwing.
  • the grasping operation is performed, the ball 43 becomes a child object of the operation body 41, and the operation body 41 becomes a parent object of the ball 43.
  • the child object moves in conjunction with the parent object.
  • the parent-child relationship is released, and the child object moves in the air according to the result of the physical operation.
  • the ball 43 collides with the performer 18 and rebounds.
  • an icon 44 indicating that a collision has occurred is displayed.
  • the output control unit 260 may display the shadow of the ball 43 on the stage 16 or output a rolling sound. A flow of a process regarding such an interaction will be described with reference to FIGS. 10A and 10B.
  • FIGS. 10A and 10B are flowcharts illustrating an example of the flow of the second spatial interaction process executed by the playback device 20 according to the present embodiment.
  • the processing of steps S302 to S312 shown in FIG. 10A is the same as the processing of steps S202 to S212 shown in FIG.
  • the virtual object control unit 250 determines whether there is a collision between the ball 43 and the operating tool 41, and whether there is an operation for grasping (step S314). More specifically, the virtual object control unit 250 determines whether or not a collision has occurred between the collider associated with the ball 43 and the collider associated with the operation tool 41, and determines whether or not a grasping operation has been input. If it is determined that there is no collision or no grasping operation has been performed (step S316 / NO), the process returns to step S302.
  • step S316 / YES When it is determined that the collision and the gripping operation have been performed (step S316 / YES), as illustrated in FIG. 10B, the virtual object control unit 250 sets the ball 43 as the child object of the operating tool 41 and sets the output control unit 260 Displays a state in which the ball 43 moves accompanying the operating body 41 (step S318). Next, the virtual object control unit 250 determines whether or not an operation of throwing the ball 43 has been performed (Step S320). If it is determined that the throwing operation has not been performed (step S320 / NO), the process returns to step S318 again.
  • step S320 If it is determined that the throwing operation has been performed (step S320 / YES), the output control unit 260 displays the mid-air movement of the thrown ball 43 based on the result of the physical operation by the virtual object control unit 250 (step S320). S322). Next, the virtual object control unit 250 determines whether there is a collision between the real object (the stage 16 or the performer 18) in the captured image arranged in the virtual space and the ball 43 (Step S324). If it is determined that there is no collision (step S326 / NO), the process returns to step S322.
  • the output control unit 260 displays a state in which the ball 43 rolls based on the result of the physical calculation by the virtual object control unit 250 (step S328). For example, the virtual object control unit 250 performs a physical operation based on the attribute information of the point corresponding to the collider determined to have collided, and the output control unit 260 causes the ball 43 to roll based on the result of the physical operation. Display the trajectory. At this time, the output control unit 260 may control the output of visual / tactile / audible / smell feedback to the user based on the physical coefficient and feedback setting information associated with the surface model. For example, the output control unit 260 displays an icon indicating that a collision has occurred, displays a shadow of the ball, and reproduces the sound of the ball rolling. Thereafter, the process returns to step S302 again.
  • the selection unit 270 selects the content configuration information corresponding to the user position in the virtual space as the content configuration information to be acquired by the reception unit 210. That is, the selection unit 270 switches the VR content to be reproduced according to the user position in the virtual space.
  • the selection unit 270 performs viewpoint switching based on the viewpoint switching object.
  • the virtual object control unit 250 sets the viewpoint switching object in the virtual space based on the viewpoint switching object information. Specifically, the virtual object control unit 250 arranges the viewpoint switching object at the three-dimensional position specified in the viewpoint switching object information, and associates the collider, the content ID, and the viewpoint switching position with the viewpoint switching object.
  • This content ID is the content ID of the VR content at the switching destination when the viewpoint is switched based on the viewpoint switching object.
  • the viewpoint switching position is a predetermined position in the virtual space, and can be set as viewpoint movement setting information. Note that the viewpoint switching object is typically not displayed.
  • the virtual object control unit 250 detects a collision between the user's line of sight and the viewpoint switching object. Specifically, the virtual object control unit 250 detects a collision based on the collider associated with the viewpoint switching object.
  • the user's line of sight may be the direction of the eye axis or the direction of the face. In the former case, the virtual object control unit 250 recognizes the user's line of sight based on the image recognition result of the captured image of the user's eye. In the latter case, the virtual object control unit 250 recognizes the user's line of sight based on the detection result by the position and orientation detection unit 202.
  • the output control unit 260 moves the user position when a collision between the user's line of sight and the viewpoint switching object is detected. Specifically, the output control unit 260 continuously moves the user position in the virtual space to the viewpoint switching position associated with the viewpoint switching object. This continuous movement of the user position is performed by zooming in / zooming out the captured image arranged in the virtual space until the magnification corresponding to the viewpoint switching position is reached. The movement of the user position to the viewpoint switching position may be performed based on a user operation such as a swing.
  • the selection unit 270 switches the content configuration information to be selected, triggered by the fact that the user position in the virtual space has reached the viewpoint switching position. More specifically, the selection unit 270 switches the content configuration information to be selected when the zoom-in / zoom-out magnification of the captured image arranged in the virtual space reaches a predetermined magnification.
  • the selection unit 270 selects the content ID associated with the viewpoint switching object corresponding to the reached viewpoint switching position as the content ID of the VR content to be switched. That is, the selection unit 270 selects the content configuration information of the content ID associated with the viewpoint switching object corresponding to the reached viewpoint switching position as the content configuration information from which the VR content to be reproduced is generated.
  • the viewpoint switching position is desirably a position in the virtual space corresponding to the position of the imaging device (that is, the VR camera 101) that has captured the captured image that is the source of the content configuration information at the switching destination. More specifically, the viewpoint switching position in the virtual space matches the position of the VR camera 101 that has captured the captured image that is the basis of the content configuration information of the switching destination when the virtual camera is mapped to the virtual space, or within a predetermined distance. Desirably. In this case, before and after the switching, the distance to the real object in the captured image arranged in the virtual space is the same, so that the scale of the real object before and after the switching is the same. Thus, it is possible to prevent the user from feeling uncomfortable as if the viewpoint moved instantaneously when switching the viewpoint.
  • FIG. 11 is a diagram for explaining viewpoint switching based on the viewpoint switching object according to the present embodiment.
  • VR content # 1 is the VR content of the selected viewpoint. That is, it is assumed that the playback device 20 is playing the VR content # 1.
  • a viewpoint switching object associated with each of the VR content # 2-1, # 2-2, and # 2-3 is arranged.
  • the number immediately after “#” attached to the VR content indicates the layer of the selected viewpoint, and the number after “-” is an index in the same layer.
  • the reproducing device 20 reproduces the VR content # 2-1.
  • the reproducing device 20 reproduces the VR content # 2-2.
  • the playback device 20 plays back the VR content # 2-3. Thereafter, the viewpoint is switched in the same manner.
  • FIG. 12 is a diagram illustrating an example of movement and switching of the user position according to the present embodiment.
  • FIG. 12 illustrates a state in which the movement locus of the user position and the viewpoint switching performed by the playback device 20 and a state in which the user's line of sight is mapped to the recording target space.
  • the first sensor device 11 is arranged on the stage 16 where the performer 18 is located
  • the second sensor device 12A is arranged near the stage 16 in the audience seats 17, and the furthest from the stage 16.
  • a second sensor device 12B is disposed.
  • FIG. 13 is a diagram illustrating an example of switching the viewpoint of VR content using a captured image captured by the sensor device having the arrangement illustrated in FIG.
  • the VR content 40B is a VR content in which a captured image captured by the second sensor device 12B is arranged in a virtual space.
  • the virtual object control unit 250 arranges the viewpoint switching object 45B of the three-dimensional position and size including the performer 18 in the VR content 40B, and associates the identification information of the second sensor device 12A as the content ID. I do.
  • the selection unit 270 selects a viewpoint based on the content ID associated with the viewpoint switching object 45B.
  • the selection unit 270 selects the content configuration information generated based on the sensing result by the second sensor device 12A as the content configuration information that is the source of the VR content to be reproduced. As a result, the output control unit 260 switches the display of the image captured by the second sensor device 12A to the VR content 40A arranged in the virtual space.
  • the viewpoint switching position in the virtual space coincides with a position corresponding to the position of the second sensor device 12A in the real space.
  • the selection unit 270 switches to the VR content 40A.
  • the distance to the performer 18 before and after the switching becomes the same, so that the scale feeling of the performer 18 before and after the switching becomes the same. Therefore, it is possible to prevent the user from feeling uncomfortable as if the viewpoint moved instantaneously when switching the viewpoint.
  • the virtual object control unit 250 arranges the viewpoint switching object 45A of the three-dimensional position and size including the performer 18 in the VR content 40A, and associates the identification information of the first sensor device 11 as the content ID. I do.
  • the selection unit 270 selects a viewpoint based on the content ID associated with the viewpoint switching object 45A. Specifically, the selection unit 270 selects the content configuration information generated based on the sensing result of the first sensor device 11 as the content configuration information that is the source of the VR content to be reproduced.
  • the output control unit 260 switches the display of the captured image captured by the first sensor device 11 to VR content arranged in the virtual space.
  • the viewpoint switching position in the virtual space coincides with a position corresponding to the position of the first sensor device 11 in the real space.
  • the selection unit 270 converts the image captured by the first sensor device 11 into a virtual image. Switching to VR content arranged in the space is performed. As a result, the distance to the performer 18 before and after the switching becomes the same, so that the scale feeling of the performer 18 before and after the switching becomes the same. Therefore, it is possible to prevent the user from feeling uncomfortable due to the viewpoint switching.
  • FIG. 14 is a diagram for describing an example of movement of the user position and switching of the viewpoint according to the present embodiment.
  • FIG. 14 illustrates a state in which the movement locus of the user position and the viewpoint switching performed by the playback device 20 and a state in which the user's line of sight is mapped to the recording target space.
  • the performer 18 is on the stage 16 and the second sensor devices 12A to 12D are arranged in the audience seat 17.
  • the viewpoint switching position is set to the position of the second sensor device 12C. Then, with the movement of the user to the position of the second sensor device 12C, which is the viewpoint switching position, switching to the VR content with the second sensor device 12C as the viewpoint is performed. Similarly, switching to VR content with the second sensor device 12B as a viewpoint and switching to VR content with the second sensor device 12A as a viewpoint are performed. It is desirable that the movement trajectory of the user position be a straight line between the viewpoints, but the movement trajectories between the plurality of viewpoints do not have to be linear as shown in FIG.
  • FIG. 15 is a diagram illustrating an example of movement of a user position and switching of a viewpoint according to the present embodiment.
  • FIG. 15 illustrates a state in which the movement locus of the user position and the viewpoint switching performed by the playback device 20 and a state in which the user's line of sight is mapped to the recording target space.
  • the performer 18 is on the stage 16, and the second sensor devices 12 ⁇ / b> A and 12 ⁇ / b> B are arranged in the audience seat 17.
  • the viewpoint switching object is arranged so as to include the performer 18, as in the example shown in FIG.
  • the playback device 20 has been playing back VR content from the viewpoint of the second sensor device 12A.
  • the user has moved backward while turning his or her gaze on the performer 18.
  • the backward movement of the user position is realized by zooming out a captured image arranged in the virtual space in the VR content from the viewpoint of the second sensor device 12A.
  • the user position moves to the viewpoint switching position 19
  • switching from VR content having the second sensor device 12A as a viewpoint to VR content having the second sensor device 12B as a viewpoint is performed.
  • the user may feel uncomfortable as if the viewpoint moved instantaneously from the viewpoint switching position 19 to the position of the second sensor device 12A.
  • the viewpoint switching position is such that the distance to a predetermined real object in the captured image displayed in the virtual space is determined by the imaging device (that is, the VR camera 101) that captured the captured image that is the source of the content configuration information of the switching destination Is desirably equivalent to a position in the virtual space corresponding to the position of.
  • the viewpoint switching position 19 and the position of the second sensor device 12B have the same distance to the performer 18.
  • “equal” means that the same or the difference is within a predetermined range. In this case, the scale feeling of the performer 18 before and after the switching is equal. Therefore, the sense of incongruity given to the user can be reduced.
  • the output control unit 260 captures an image in the virtual space such that a predetermined real object in the captured image displayed in the virtual space collides with the line of sight of the user. Images may be arranged. Specifically, the output control unit 260 rotates the field of view so that the performer 18 is positioned on the user's line of sight (for example, in front of the user's face) when switching the viewpoint. As a result, the angle at which the user looks at the performer 18 before and after the switching does not change, so that the user's uncomfortable feeling can be reduced. The amount of rotation of the field of view after the movement can be set as viewpoint movement setting information.
  • FIG. 16 is a flowchart illustrating an example of the flow of a viewpoint switching process performed by the playback device 20 according to the present embodiment. Note that, in the processing based on the flowchart illustrated in FIG. 16, processing other than processing related to viewpoint switching is omitted.
  • the receiving unit 210 receives the content configuration information corresponding to the selected viewpoint (step S402).
  • the content configuration information analysis unit 220 extracts VR image information and spatial interaction configuration information from the content configuration information (step S404).
  • the output control unit 260 arranges the captured image in the virtual space (Step S406).
  • the virtual object control unit 250 arranges the viewpoint switching object in the virtual space based on the viewpoint switching object information (Step S408).
  • the virtual object control unit 250 determines whether or not the user's line of sight collides with the viewpoint switching object (step S410). If it is determined that no collision occurs (step S410 / YES), the process returns to step S402. When it is determined that the collision occurs (step S410 / YES), the output control unit 260 zooms in / zooms out the captured image arranged in the virtual space according to the movement of the user position (step S412). Next, the virtual object control unit 250 determines whether or not the user position has moved to the viewpoint switching position (Step S414). If it is determined that the user has not moved (step S414 / NO), the process returns to step S402.
  • step S414 When it is determined that the user has moved (step S414 / YES), the selection unit 270 selects the content ID associated with the viewpoint switching object (step S416). As a result, the content configuration information received in step S402 is switched to the content configuration information of the newly selected content ID, and switching of the viewpoint is realized. Thereafter, the process returns to step S402 again.
  • the tracking target in the captured image arranged in the virtual space is associated with the tracking target in the captured image arranged in the virtual space by associating the tracking target with the three-dimensional position information of the tracking target.
  • This is a form of realizing a spatial interaction in which is involved.
  • the three-dimensional position information is associated with the entire surface of the real object.
  • the one corresponding to the three-dimensional position of the tracking target in the real object is used.
  • the points are associated with the three-dimensional position information.
  • the three-dimensional position information associated with one point corresponding to the three-dimensional position of the tracking target object among the real objects is a specific coordinate of a predetermined coordinate system corresponding to the three-dimensional position of the real object corresponding to the tracker. is there.
  • FIG. 17 is a diagram for explaining an outline of the recording apparatus of the recording apparatus 10 according to the present embodiment.
  • FIG. 17 shows an example of a space in which information is recorded by the recording device 10.
  • a performer 18 wearing a tracker 14 sings on a stage 16 in front of a large audience in an audience seat 17.
  • a third sensor device 13 is installed as a device involved in recording by the recording device 10.
  • a monitor 15 is also provided.
  • the third sensor device 13 is a device that senses a real space.
  • the third sensor device 13 includes an imaging device.
  • the imaging device is as described above for the first sensor device 11.
  • the third sensor device 13 includes a tracker sensor for detecting the position and orientation of the tracking target in the real space.
  • the tracker sensor detects the position and orientation of the tracker 14 using the tracker 14 worn by the performer 18 on the wrist as a tracking target.
  • any optical, laser or magnetic tracking technology can be used.
  • the monitor 15 is as described above in the first embodiment.
  • the recording device 10 generates content configuration information including various types of information for configuring the VR content on the reproduction device 20 side based on the sensing result by the third sensor device 13. Then, the recording device 10 transmits the generated content configuration information to the playback device 20.
  • FIG. 18 is a diagram for describing an outline of the reproducing device 20 according to the present embodiment.
  • FIG. 18 illustrates the HMD 21 and the controller 22 as devices involved in the playback of VR content by the playback device 20.
  • the HMD 21 and the controller 22 are as described above in the first embodiment.
  • the playback device 20 generates VR content based on the content configuration information received from the recording device 10.
  • a captured image of a real space is arranged in the virtual space as one of the virtual objects.
  • three-dimensional position information indicating the three-dimensional position of the tracker 14 is associated with the tracker 14 in the captured image arranged in the virtual space.
  • the HMD 21 displays the VR content 40 generated by the playback device 20.
  • the VR content 40 a captured image including the performer 18 wearing the tracker 14 on the stage 16 shown in FIG. 17 is arranged in the virtual space, and three-dimensional position information corresponds to the tracker 14 in the captured image. It is attached.
  • the position and orientation of the operating tool 41 in the virtual space change according to the position and orientation of the controller 22 in the real space.
  • the operation tool 41 is a virtual object indicating a user's operation position in the virtual space.
  • the playback device 20 determines a collision between the operating tool 41 and the tracker 14 in the virtual space based on the position of the operating tool 41 in the virtual space and the three-dimensional position information associated with the tracker 14. Then, when it is determined that the collision has occurred, the playback device 20 causes the controller 22 to output haptic feedback corresponding to the collision.
  • the content distribution system 1 it is possible to realize a spatial interaction in which a tracking target that is a real object in a captured image arranged in a virtual space is involved.
  • FIG. 19 is a block diagram illustrating an example of a functional configuration of the recording apparatus 10 according to the present embodiment.
  • the recording device 10 includes an image acquisition unit 110, a streaming processing unit 120, a tracker position acquisition unit 170, a content configuration information generation unit 150, and a transmission unit 160.
  • FIG. 19 also shows an example of a functional configuration of the third sensor device 13.
  • the third sensor device 13 includes a VR camera 101 and a tracker sensor 103.
  • the streaming processing unit 120 is as described above in the first embodiment.
  • the tracker position acquisition unit 170 has a function of acquiring three-dimensional position information indicating the position of the tracker 14 in the real space from the tracker sensor 103 included in the third sensor device 13.
  • the three-dimensional position information is information indicating the position of the tracker sensor 103 in a coordinate system defined by an origin set based on the position of the tracker sensor 103 and a coordinate axis set based on the attitude of the tracker sensor 103. It is.
  • the three-dimensional position information of the tracker 14 is three-dimensional position information of one point of the tracker 14 (corresponding to three-dimensional position information of a subject).
  • the tracker position acquisition unit 170 outputs the acquired three-dimensional position information of the tracker 14 to the content configuration information generation unit 150.
  • Content configuration information generation unit 150 Regarding the content configuration information generation unit 150, the surface model described above in the first embodiment may be replaced with the three-dimensional position information of the tracker 14.
  • Transmission unit 160 The transmission unit 160 is as described above in the first embodiment.
  • FIG. 20 is a diagram illustrating an example of a format of the content configuration information according to the present embodiment.
  • the content configuration information includes VR image information and spatial interaction configuration information.
  • FIG. 20 shows a format of content configuration information in which images of frames with frame numbers 1 to n and three-dimensional position information of the tracker 14 are containerized.
  • the VR image information is as described above in the first embodiment.
  • the spatial interaction configuration information includes three-dimensional position information of the tracker 14 for each frame, attribute information of the position and orientation information of the tracker 14, and a frame number.
  • the three-dimensional position information of the tracker 14 for each frame is information indicating the position of the tracker 14 in the image for each frame.
  • the attribute information is information including physical coefficients for spatial interaction, such as a coefficient of restitution, a coefficient of friction, and a normal direction.
  • the frame number is information corresponding to the detection time of the three-dimensional position information of the tracker 14, and corresponds to virtual space association information. It is desirable that the frame number of the image captured at a certain time coincide with the frame number of the three-dimensional position information of the tracker 14 detected at the same time. This makes it easy to establish timing synchronization between the captured image and the three-dimensional position information of the tracker 14.
  • the spatial interaction configuration information includes metadata.
  • the metadata includes a content ID, viewpoint switching object information, sensor device position and orientation information, and feedback setting information.
  • the content ID, viewpoint switching object information, and feedback setting information are as described above in the first embodiment.
  • the sensor device position and orientation information according to the present embodiment is information relating to the coordinate system of the imaging device that has captured the captured image and the coordinate system of the sensor that has detected the three-dimensional position information of the tracker 14, and corresponds to virtual space association information. . That is, the sensor device position and orientation information according to the present embodiment is information relating to the coordinate system of the VR camera 101 and the coordinate system of the tracker sensor 103.
  • the coordinate system of the tracker sensor 103 is defined by an origin set based on the position of the tracker sensor 103 and a coordinate axis set based on the attitude of the tracker sensor 103.
  • the sensor device position and orientation information may include information indicating the position and orientation of the VR camera 101 and the tracker sensor 103, which is information defining these coordinate systems. Further, the sensor device position / posture information may include information indicating a deviation of these coordinate systems, such as a difference between the positions of the VR camera 101 and the tracker sensor 103 and a difference between the postures.
  • the sensor device position and orientation information may be manually set based on, for example, the installation status of the VR camera 101 and the tracker sensor 103.
  • the sensor device position and orientation information includes the position and orientation of the tracker 14 in the captured image when the tracker 14 is imaged by the VR camera 101 and sensed by the tracker sensor 103, and the tracker 14 detected by the tracker sensor 103. It may be obtained by comparing the position and the posture.
  • the VR camera 101 and the tracker sensor 103 included in the same third sensor device 13 may have a difference in position and orientation. Due to this shift, the position and orientation of the tracker 14 in the captured image arranged in the virtual space and the three-dimensional position of the tracker 14 associated with the tracker 14 when configuring the VR content on the playback device 20 side A gap may occur with the information. In this regard, the inclusion of the sensor device position and orientation information in the content configuration information allows the reproduction device 20 to correct the displacement.
  • the spatial interaction configuration information may include a set of three-dimensional position information, attribute information, and metadata of one point of the tracker 14 for each tracker 14. Good. Further, the spatial interaction configuration information may include feedback setting information for each tracker 14. In this case, the identification information of the tracker 14 is associated with the information of each tracker 14.
  • the three-dimensional position information of the tracker 14 may be diverted between frames.
  • the spatial interaction information includes three-dimensional position information of the tracker 14 to be diverted and information for identifying a period in which the three-dimensional position information of the tracker 14 is diverted.
  • the content configuration information generation unit 150 records the three-dimensional position information of the tracker 14 in association with the start frame of the predetermined time, and the three-dimensional The time information for diverting the position information (for example, the end frame of the predetermined time) is recorded. As a result, the amount of transmission can be reduced, so that transmission delay can be reduced.
  • FIG. 21 is a flowchart illustrating an example of the flow of a recording process performed by the recording device 10 according to the present embodiment.
  • the image acquiring unit 110 acquires a captured image in the real space
  • the tracker position acquiring unit 170 acquires three-dimensional position information of the tracker 14 (Step S502).
  • the content configuration information generation unit 150 generates content configuration information based on the captured image and the three-dimensional position information of the tracker 14 (Step S504).
  • the transmitting unit 160 transmits the content configuration information to the playback device 20 (Step S506).
  • the playback device 20 similarly has the components shown in FIG. For each component, the first sensor device 11 and the second sensor device 12 described above in the first embodiment are used as the third sensor device 13, the depth sensor 102 is used as the tracker sensor 103, and the surface model is used. What is necessary is just to read the three-dimensional position information of the tracker 14 and the real object to the tracker 14, respectively. Other features that are characteristic of the present embodiment will be described below.
  • the output control unit 260 superimposes and displays the virtual object on the tracker 14 in the captured image displayed in the virtual space based on the three-dimensional position information of the tracker 14. Thereby, even if the performer 18 moves and the tracker 14 moves, it becomes possible to attach the virtual object to the movement of the tracker 14.
  • the output control unit 260 may control the size and / or sharpness of the virtual object to be superimposed on the tracker 14 based on the accuracy of the three-dimensional position information of the tracker 14. For example, when the accuracy of the three-dimensional position information of the tracker 14 is low, the output control unit 260 increases the size of the virtual object and / or blurs the virtual object. Accordingly, even when the accuracy of the three-dimensional position information of the tracker 14 is poor and a shift occurs between the tracker 14 in the VR content and the virtual object superimposed thereon, the shift can be made inconspicuous. On the other hand, when the accuracy of the three-dimensional position information of the tracker 14 is high, the output control unit 260 may reduce the size of the virtual object and / or emphasize the virtual object.
  • the selection unit 270 may select the third sensor device 13 as a viewpoint of a selection candidate. That is, the selection unit 270 can select the content configuration information generated based on the sensing result by the third sensor device 13 as the content configuration information that is the source of the VR content to be reproduced.
  • the first spatial interaction relates to the interaction between the user and the tracker 14 in the captured image arranged in the virtual space. This interaction is as described above with reference to FIG. More specifically, when the tracker 14 in the captured image arranged in the virtual space collides with the operation tool 41 operated by the user, the playback device 20 causes the controller 22 to output haptic feedback corresponding to the collision. The flow of processing related to such an interaction will be described with reference to FIG.
  • FIG. 22 is a flowchart illustrating an example of the flow of the first spatial interaction process executed by the playback device 20 according to the present embodiment.
  • the receiving unit 210 receives the content configuration information (Step S602).
  • the content configuration information analysis unit 220 extracts VR image information and spatial interaction configuration information from the content configuration information (step S604).
  • the timing synchronization unit 230 establishes timing synchronization between the captured image and the three-dimensional position information of the tracker 14, and the coordinate conversion unit 240 performs synchronization of the coordinate system between the captured image and the three-dimensional position information of the tracker 14. It is established (step S606).
  • the output control unit 260 arranges the captured image in the virtual space (Step S608).
  • the virtual object control unit 250 associates the physical coefficient and the collider with the tracker 14 in the captured image arranged in the virtual space (Step S610).
  • the virtual object control unit 250 controls the position and the posture of the operating tool 41 in the virtual space based on the position and the posture of the controller 22 (Step S612).
  • the virtual object control unit 250 determines whether there is a collision between the tracker 14 in the captured image arranged in the virtual space and the operating tool 41 (step S614). Specifically, the virtual object control unit 250 determines whether or not a collision occurs between the collider associated with the tracker 14 in the captured image arranged in the virtual space and the collider associated with the operation tool 41.
  • step S616 / NO If it is determined that there is no collision (step S616 / NO), the process returns to step S602 again.
  • the output control unit 260 outputs feedback corresponding to the collision (step S618). Specifically, the output control unit 260 controls the output of visual / tactile / audible / smell feedback to the user based on the physical coefficient and feedback setting information associated with the tracker 14. Thereafter, the process returns to step S602 again.
  • the second spatial interaction relates to the interaction between the user and the real object associated with the tracker 14 in the captured image arranged in the virtual space. This interaction will be described in detail with reference to FIG.
  • FIG. 23 is a diagram for describing an example of the second spatial interaction according to the present embodiment.
  • a captured image including the performer 18 wearing the tracker 14 on the stage 16 shown in FIG. 2 is arranged in the virtual space, and the third- Original position information is associated.
  • the output control unit 260 arranges the present 47 as a virtual object based on the three-dimensional position information of the tracker 14 so as to be superimposed on the three-dimensional position of the real object corresponding to the three-dimensional position of the tracker 14. For example, in the example shown in FIG. 23, the output control unit 260 arranges the present 47 at the position of the palm on the side where the tracker 14 is mounted.
  • the virtual object control unit 250 determines the three-dimensional position information of the real object corresponding to the tracker 14 by adding predetermined position offset information to the three-dimensional position information of the tracker 14. For example, the output control unit 260 uses the difference between the position and orientation of the wrist, which is the mounting position of the tracker 14, and the position and orientation of the palm with respect to the wrist as position offset information. Then, the virtual object control unit 250 associates the collider with the three-dimensional position of the real object corresponding to the tracker 14. Thereby, the arrangement of the virtual object with respect to the palm on the side on which the tracker 14 is mounted and the collision determination can be performed. Even if the performer 18 moves and the tracker 14 moves, the present 47 will accompany the movement of the tracker 14.
  • the user can perform an operation of receiving the operation tool 41 while adjusting the position of the present 47 via the controller 22.
  • the present 47 becomes a child object of the operating tool 41, and the operating tool 41 becomes a parent object of the ball 43. Therefore, the present 47 moves along with the operating tool 41 as shown in the VR content 40B. In this way, the interaction of the delivery of the present 47 between the performer 18 and the user in the captured image arranged in the virtual space is realized.
  • the flow of processing related to such an interaction will be described with reference to FIG.
  • FIG. 24 is a flowchart illustrating an example of the flow of the second spatial interaction process executed by the playback device 20 according to the present embodiment.
  • the processing according to steps S702 to S708 illustrated in FIG. 24 is the same as the processing according to steps S602 to S608 illustrated in FIG.
  • the virtual object control unit 250 associates the physical coefficient and the collider with the three-dimensional position of the real object (for example, the palm) corresponding to the tracker 14 using the position offset information as described above (Step S710).
  • the output control unit 260 arranges the present 47 at the three-dimensional position of the real object corresponding to the tracker 14 in the captured image arranged in the virtual space (Step S712).
  • the virtual object control unit 250 controls the position and the posture of the operating tool 41 in the virtual space based on the position and the posture of the controller 22 (Step S714).
  • the virtual object control unit 250 determines whether or not the real object corresponding to the tracker 14 collides with the operating tool 41 and whether or not there is an operation to be received (step S716). Specifically, the virtual object control unit 250 is associated with the collider associated with the real object (for example, a palm) corresponding to the tracker 14 in the captured image arranged in the virtual space, and with the operating tool 41. The presence or absence of a collision with the collider is determined, and whether or not an operation to receive is determined. If it is determined that there is no collision or the receiving operation has not been performed (step S718 / NO), the process returns to step S702 again.
  • the virtual object control unit 250 determines whether or not the real object corresponding to the tracker 14 collides with the operating tool 41 and whether or not there is an operation to be received (step S716). Specifically, the virtual object control unit 250 is associated with the collider associated with the real object (for example, a palm) corresponding to the tracker 14 in the captured image arranged in the virtual
  • step S718 / YES When it is determined that the collision and the receiving operation have been performed (step S718 / YES), the output control unit 260 moves the present 47 accompanying the operating body 41 with the present 47 as a child object of the operating body 41. The state is displayed (step S720). At that time, the output control unit 260 may control the output of the visual / tactile / audible / smell feedback to the user based on the physical coefficient and the feedback setting information associated with the tracker 14. Thereafter, the process returns to step S702 again.
  • the recording device 10 predicts the sensing result, or determines the immediately preceding sensing result. And may be used for interpolation. Further, the recording device 10 may generate the content configuration information by combining the depth sensor 102 and the tracker sensor 103. That is, the first embodiment and the second embodiment may be combined.
  • the content configuration information generated by the recording device 10 may include both the surface model data and the three-dimensional position information of the tracker.
  • the playback device 20 may adjust the operation amount of the operation tool 41 according to the user. For example, the playback device 20 adjusts the relationship between the amount of change in the position of the controller 22 in the real space and the amount of change in the position of the operating tool 41 in the virtual space according to the length of the user's hand. Specifically, for a user with a short hand, the playback device 20 moves the operation tool 41 largely by moving the controller 22 a little. Alternatively, the playback device 20 may cause the operation body 41 to approach the operation target without permission.
  • Offset processing As described in the second embodiment, when the real object corresponding to the tracker 14 is a target of the spatial interaction, the three-dimensional image of the real object corresponding to the tracker 14 is obtained by using the position offset information. Location information is obtained. Such processing is also referred to as offset processing.
  • the position offset information indicating the relationship between the position and the attitude of the tracker 14 and the real object corresponding to the tracker 14 used in the offset processing may be acquired on the recording device 10 side, or may be acquired on the reproduction device 20 side. Is also good.
  • the content configuration information generation unit 150 records the three-dimensional position information of the tracker 14 acquired by the tracker position acquisition unit 170 and the position offset information in the content configuration information. Is also good. That is, the content configuration information includes three-dimensional position information of the tracker 14 and position offset information. Then, the playback device 20 acquires the three-dimensional position information of the real object corresponding to the tracker 14 based on the three-dimensional position information and the position offset information of the tracker 14 included in the received content configuration information.
  • the present technology is not limited to such an example.
  • the offset process may be performed on the recording device 10 side, and the offset process may not be performed on the reproduction device 20 side.
  • the content configuration information generating unit 150 acquires the three-dimensional position information of the real object corresponding to the tracker 14 by adding the position offset information to the three-dimensional position information of the tracker 14 acquired by the tracker position acquiring unit 170. . Then, the content configuration information generation unit 150 records the three-dimensional position information while including the three-dimensional position information in the content configuration information.
  • the content configuration information includes three-dimensional position information of the real object corresponding to the tracker 14. Then, the reproducing device 20 associates the collider with the three-dimensional position of the real object corresponding to the tracker 14 based on the received content configuration information.
  • FIG. 25 is a block diagram illustrating an example of a hardware configuration of the information processing apparatus according to the present embodiment.
  • the information processing device 900 illustrated in FIG. 25 can realize, for example, the recording device 10 or the reproduction device 20 illustrated in FIGS. 4, 7, and 19, respectively.
  • Information processing by the recording device 10 or the reproducing device 20 according to the present embodiment is realized by cooperation of software and hardware described below.
  • the information processing apparatus 900 includes a CPU (Central Processing Unit) 901, a ROM (Read Only Memory) 902, a RAM (Random Access Memory) 903, and a host bus 904a.
  • the information processing device 900 includes a bridge 904, an external bus 904b, an interface 905, an input device 906, an output device 907, a storage device 908, a drive 909, a connection port 911, and a communication device 913.
  • the information processing device 900 may include a processing circuit such as an electric circuit, a DSP, or an ASIC, instead of or in addition to the CPU 901.
  • the CPU 901 functions as an arithmetic processing device and a control device, and controls overall operations in the information processing device 900 according to various programs. Further, the CPU 901 may be a microprocessor.
  • the ROM 902 stores programs used by the CPU 901 and operation parameters.
  • the RAM 903 temporarily stores a program used in the execution of the CPU 901 and parameters that change as appropriate in the execution.
  • the CPU 901 may form, for example, the image acquisition unit 110, the streaming processing unit 120, the depth information acquisition unit 130, the surface model acquisition unit 140, the content configuration information generation unit 150, and the tracker position acquisition unit 170 illustrated in FIG. 4 or FIG. .
  • the CPU 901 may form, for example, the content configuration information analysis unit 220, the timing synchronization unit 230, the coordinate conversion unit 240, the virtual object control unit 250, the output control unit 260, and the selection unit 270 illustrated in FIG.
  • the CPU 901, the ROM 902, and the RAM 903 are mutually connected by a host bus 904a including a CPU bus and the like.
  • the host bus 904a is connected via a bridge 904 to an external bus 904b such as a PCI (Peripheral Component Interconnect / Interface) bus.
  • PCI Peripheral Component Interconnect / Interface
  • the host bus 904a, the bridge 904, and the external bus 904b do not necessarily need to be separately configured, and these functions may be mounted on one bus.
  • the input device 906 is realized by a device to which information is input by a user, such as a mouse, a keyboard, a touch panel, a button, a microphone, a switch, and a lever. Further, the input device 906 may be, for example, a remote control device using infrared rays or other radio waves, or may be an externally connected device such as a mobile phone or a PDA corresponding to the operation of the information processing device 900. . Further, the input device 906 may include, for example, an input control circuit that generates an input signal based on information input by a user using the above-described input unit and outputs the input signal to the CPU 901. By operating the input device 906, the user of the information processing device 900 can input various data to the information processing device 900 or instruct a processing operation.
  • the output device 907 is formed of a device capable of visually or audibly notifying the user of the acquired information. Examples of such devices include CRT display devices, liquid crystal display devices, plasma display devices, EL display devices, display devices such as laser projectors, LED projectors and lamps, audio output devices such as speakers and headphones, and printer devices. .
  • the output device 907 outputs, for example, results obtained by various processes performed by the information processing device 900. Specifically, the display device visually displays the results obtained by various processes performed by the information processing device 900 in various formats such as text, images, tables, and graphs.
  • the audio output device converts an audio signal composed of reproduced audio data, acoustic data, and the like into an analog signal and outputs it audibly.
  • the storage device 908 is a data storage device formed as an example of a storage unit of the information processing device 900.
  • the storage device 908 is realized by, for example, a magnetic storage device such as an HDD, a semiconductor storage device, an optical storage device, or a magneto-optical storage device.
  • the storage device 908 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, a deletion device that deletes data recorded on the storage medium, and the like.
  • the storage device 908 stores programs executed by the CPU 901 and various data, various data acquired from the outside, and the like.
  • the drive 909 is a reader / writer for a storage medium, and is built in or external to the information processing apparatus 900.
  • the drive 909 reads information recorded on a removable storage medium such as a mounted magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 903.
  • the drive 909 can also write information on a removable storage medium.
  • connection port 911 is an interface connected to an external device, and is a connection port with an external device capable of transmitting data by USB (Universal Serial Bus), for example.
  • USB Universal Serial Bus
  • the communication device 913 is a communication interface formed of, for example, a communication device for connecting to the network 920.
  • the communication device 913 is, for example, a communication card for a wired or wireless LAN (Local Area Network), LTE (Long Term Evolution), Bluetooth (registered trademark), or WUSB (Wireless USB).
  • the communication device 913 may be a router for optical communication, a router for ADSL (Asymmetric Digital Subscriber Line), a modem for various communication, or the like.
  • the communication device 913 can transmit and receive signals and the like to and from the Internet and other communication devices in accordance with a predetermined protocol such as TCP / IP.
  • the communication device 913 may form, for example, the transmission unit 160 illustrated in FIG. 4 or FIG.
  • the communication device 913 may form, for example, the receiving unit 210 illustrated in FIG.
  • the network 920 is a wired or wireless transmission path for information transmitted from a device connected to the network 920.
  • the network 920 may include a public line network such as the Internet, a telephone line network, a satellite communication network, various LANs including Ethernet (registered trademark) (Local Area Network), a WAN (Wide Area Network), and the like.
  • the network 920 may include a dedicated line network such as an IP-VPN (Internet ⁇ Protocol-Virtual ⁇ Private ⁇ Network).
  • a computer program for realizing each function of the information processing apparatus 900 according to the present embodiment as described above can be created and mounted on a PC or the like. Further, a computer-readable recording medium in which such a computer program is stored can be provided.
  • the recording medium is, for example, a magnetic disk, an optical disk, a magneto-optical disk, a flash memory, or the like. Further, the above-described computer program may be distributed, for example, via a network without using a recording medium.
  • the recording device 10 stores the captured image, the three-dimensional position information of the real object, and the information used for the interaction involving the real object in the captured image displayed in the virtual space.
  • Content composition information including virtual space association information for associating the three-dimensional position information with the three-dimensional position information of the real object.
  • the playback device 20 can associate the three-dimensional position information with the real object in the captured image while arranging the captured image in the virtual space.
  • the reproducing device 20 can realize spatial interaction between the real object in the captured image displayed in the virtual space and another virtual object.
  • the playback device 20 detects these collisions based on the three-dimensional position information of the real object in the captured image displayed in the virtual space and the three-dimensional position information of the other virtual objects, and Can be output. In this way, it is possible to more appropriately realize the spatial interaction in the live-action VR content.
  • a content configuration information generation unit that generates content configuration information including virtual space association information that associates with the position information
  • An information processing apparatus comprising: (2) The information processing device according to (1), wherein the virtual space association information includes identification information for associating the captured image with the subject three-dimensional position information.
  • the virtual space association information includes information relating to a coordinate system of an imaging device that has captured the captured image and a coordinate system of a sensor that has detected the three-dimensional position information of the subject. apparatus.
  • the virtual space association information according to any one of (1) to (3), wherein the virtual space association information includes information corresponding to an imaging time of the captured image and information corresponding to a detection time of the subject three-dimensional position information.
  • Information processing device. (1) to (4), wherein the content configuration information further includes feedback setting information for setting feedback content when an interaction involving the subject in the captured image displayed in the virtual space is performed. The information processing device according to any one of the above.
  • the feedback setting information includes information for setting contents to be visually, tactilely, audibly, or olfactoryly fed back.
  • the feedback setting information includes information for setting content to be fed back when the viewpoint moves in the virtual space.
  • the content configuration information includes information indicating a physical coefficient of the subject.
  • the subject three-dimensional position information is three-dimensional position information of a plurality of points on the surface of the subject.
  • the information processing apparatus according to (9), wherein the subject three-dimensional position information is three-dimensional position information of a plurality of points on the surface of the subject satisfying a predetermined condition.
  • the subject three-dimensional position information is three-dimensional position information of a number of points according to a transmission speed of the content configuration information.
  • the subject three-dimensional position information is three-dimensional position information of one point of a tracking target.
  • a captured image including a subject, subject three-dimensional position information indicating a three-dimensional position of the subject, and information used for an interaction involving the subject in the captured image displayed in a virtual space
  • the captured image is Acquisition unit that acquires content configuration information including virtual space association information that associates the subject and the subject three-dimensional position information within the
  • An output control unit that displays the captured image in the virtual space based on the content configuration information, and controls output of feedback corresponding to an interaction involving the subject in the captured image displayed in the virtual space.
  • An information processing apparatus comprising: (14) The information processing apparatus according to (13), wherein the virtual space association information includes identification information for associating the captured image with the subject three-dimensional position information.
  • the virtual space association information includes information on a coordinate system of an imaging device that has captured the captured image and a coordinate system of a sensor that has detected the three-dimensional position information of the subject. apparatus.
  • the virtual space association information according to any one of (13) to (15), wherein the virtual space association information includes information corresponding to an imaging time of the captured image and information corresponding to a detection time of the subject three-dimensional position information.
  • Information processing device. (13) to (16), wherein the content configuration information further includes feedback setting information for setting feedback content when an interaction involving the subject in the captured image displayed in the virtual space is performed. The information processing device according to any one of the above.
  • the information processing apparatus according to any one of (13) to (17), wherein the content configuration information includes information indicating a physical coefficient of the subject.
  • the information processing device Coordinate transformation for applying a coordinate transformation process for correcting the displacement between the coordinate system of the imaging device that has taken the captured image and the coordinate system of the sensor that has detected the subject three-dimensional position information, with respect to the subject three-dimensional position information
  • the information processing apparatus according to any one of (13) to (18), further comprising a unit.
  • the output control unit controls an output of a feedback corresponding to a collision between the subject and another virtual object in the captured image displayed in the virtual space.
  • An information processing device according to claim 1.
  • the output control unit outputs a haptic feedback indicating that the subject in the captured image displayed in the virtual space collides with a virtual object indicating a user's operation position in the virtual space.
  • the information processing apparatus according to (21), wherein (23) The information processing device, based on the subject three-dimensional position information and the three-dimensional position information of the other virtual object, the subject and the other virtual object in the captured image displayed in the virtual space
  • the information processing device according to (21) or (22), further including a collision detection unit that detects a collision of the information.
  • the information processing device wherein the selection unit switches the content configuration information to be selected, triggered by a user position in the virtual space reaching a predetermined position.
  • the predetermined position is a position in the virtual space corresponding to a position of an imaging device that has captured the captured image that is a source of the content configuration information to be switched.
  • the predetermined position is a distance to a predetermined real object in the captured image displayed in the virtual space, the position of the imaging device that has captured the captured image that is the source of the content configuration information at the switching destination.
  • the information processing device according to (27), wherein the position is equivalent to a corresponding position in the virtual space.
  • the output control unit after switching by the selection unit, arranges the captured image in the virtual space such that a predetermined real object in the captured image displayed in the virtual space collides with a user's line of sight.
  • (32) Acquired image including the subject, to obtain subject three-dimensional position information indicating the three-dimensional position of the subject, The captured image, the subject three-dimensional position information, and information used for an interaction involving the subject in the captured image displayed in the virtual space, wherein the subject in the captured image and the subject three-dimensional Generating content configuration information including virtual space association information for associating with position information;
  • An information processing method executed by a processor comprising: (33) A captured image including a subject, subject three-dimensional position information indicating a three-dimensional position of the subject, and information used for an interaction involving the subject in the captured image displayed in a virtual space, wherein the captured image is Acquiring content configuration information including virtual space association information that associates the subject and the subject three-dimensional position information within the Based on the content configuration information, displaying the captured image in the virtual space, controlling the output of feedback corresponding to the interaction involving the subject in the captured image displayed in the virtual space,
  • An information processing method executed by a processor comprising: (34) Computer A captured image including a subject
  • Reference Signs List 1 content distribution system 10 recording device 110 image acquisition unit 120 streaming processing unit 130 depth information acquisition unit 140 surface model acquisition unit 150 content configuration information generation unit 160 transmission unit 170 tracker position acquisition unit 11 first sensor device 12 second sensor Device 13 Third sensor device 101 VR camera 102 Depth sensor 103 Tracker sensor 14 Tracker 15 Monitor 16 Stage 17 Audience seat 18 Performer 19 Viewpoint switching position 20 Playback device 210 Receiving unit 220 Content configuration information analyzing unit 230 Timing synchronizing unit 240 Coordinate converting unit 250 virtual object control unit 260 output control unit 270 selection unit 22 controller 201 display unit 202 position and orientation detection unit 203 audio output unit 204 sound The input unit 205 the position and orientation detection part 206 vibration output unit

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Graphics (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部(110、140)と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部(150)と、を備える情報処理装置。

Description

情報処理装置、情報処理方法及びプログラム
 本開示は、情報処理装置、情報処理方法及びプログラムに関する。
 近年、VR(Virtual Reality)技術が様々な場面で活用されている。例えば、異なる場所にいるユーザ同士のコミュニケーション支援のために、VR技術が活用されている。
 その一例として、下記特許文献1では、講師側の機器から生徒側の機器へ講義資料を配信しつつ、各々の機器において仮想空間内に講義資料に基づく仮想オブジェクトを表示する技術が開示されている。講義資料は、講師側の機器が備える映像入力手段により入力された、リアルタイムに又は即興的に作成又は引用された資料を含む。
特開2009-145883号公報
 上記特許文献1における講義資料は、実写VRコンテンツの一例である。実写VRコンテンツとは、実空間を撮像した撮像画像を仮想空間内に配置したVRコンテンツである。例えば、実空間の全天球画像(上下左右全方位の360度パノラマ画像)が仮想空間内に配置された実写VRコンテンツによれば、ユーザは、あたかも当該実空間にいるかのような感覚を得ることができる。
 実写VRコンテンツは、典型的には2次元的な撮像画像により構成されるので、触れる等の三次元的な空間インタラクションを実現することは困難である。そのため、例えばユーザが実写VRコンテンツ内の物体に触れたとしても、その触覚はユーザにフィードバックされない。このように、実写VRコンテンツにおいて実現されるインタラクションは、実空間におけるインタラクションとは異なる不自然なものであった。
 そこで、本開示では、実写VRコンテンツにおける空間インタラクションをより適切に実現することが可能な仕組みを提案する。
 本開示によれば、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、を備える情報処理装置が提供される。
 また、本開示によれば、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、を備える情報処理装置が提供される。
 また、本開示によれば、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、を備える、プロセッサにより実行される情報処理方法が提供される。
 また、本開示によれば、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、を備える、プロセッサにより実行される情報処理方法が提供される。
 また、本開示によれば、コンピュータを、被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、として機能させるためのプログラムが提供される。
 また、本開示によれば、コンピュータを、被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、として機能させるためのプログラムが提供される。
 以上説明したように本開示によれば、実写VRコンテンツにおける空間インタラクションをより適切に実現することが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るコンテンツ配信システムの構成の一例を示す図である。 第1の実施形態に係る記録装置の概要を説明するための図である。 同実施形態に係る再生装置の概要を説明するための図である。 同実施形態に係る記録装置の機能構成の一例を示すブロック図である。 同実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。 同実施形態に係る記録装置により実行される記録処理の流れの一例を示すフローチャートである。 同実施形態に係る再生装置の機能構成の一例を示すブロック図である。 同実施形態に係る再生装置により実行される第1の空間インタラクション処理の流れの一例を示すフローチャートである。 同実施形態に係る第2の空間インタラクションの一例を説明するための図である。 同実施形態に係る再生装置により実行される第2の空間インタラクション処理の流れの一例を示すフローチャートである。 同実施形態に係る再生装置により実行される第2の空間インタラクション処理の流れの一例を示すフローチャートである。 同実施形態に係る視点切り替えオブジェクトに基づく視点切り替えを説明するための図である。 同実施形態に係るユーザ位置の移動及び切り替えの一例を説明するための図である。 図12を示した配置のセンサ装置により撮像された撮像画像を用いたVRコンテンツの視点切り替えの一例を示す図である。 同実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。 同実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。 同実施形態に係る再生装置により実行される視点切り替え処理の流れの一例を示すフローチャートである。 第2の実施形態に係る記録装置の概要を説明するための図である。 同実施形態に係る再生装置の概要を説明するための図である。 同実施形態に係る記録装置の機能構成の一例を示すブロック図である。 同実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。 同実施形態に係る記録装置により実行される記録処理の流れの一例を示すフローチャートである。 同実施形態に係る再生装置により実行される第1の空間インタラクション処理の流れの一例を示すフローチャートである。 同実施形態に係る第2の空間インタラクションの一例を説明するための図である。 同実施形態に係る再生装置により実行される第2の空間インタラクション処理の流れの一例を示すフローチャートである。 本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
  1.システム構成例
  2.第1の実施形態
   2.1.概要
   2.2.記録装置側の技術的特徴
    2.2.1.記録装置の機能構成例
    2.2.2.コンテンツ構成情報のフォーマット
    2.2.3.記録処理の流れ
   2.3.再生装置側の技術的特徴
    2.3.1.再生装置の機能構成例
    2.3.2.空間インタラクション
    2.3.3.視点切り替え
  3.第2の実施形態
   3.1.概要
   3.2.記録装置側の技術的特徴
    3.2.1.記録装置の機能構成例
    3.2.2.コンテンツ構成情報のフォーマット
    3.2.3.記録処理の流れ
   3.3.再生装置側の技術的特徴
    3.3.1.再生装置の機能構成例
    3.3.2.空間インタラクション
  4.補足
  5.ハードウェア構成例
  6.まとめ
 <<1.システム構成例>>
 図1は、本開示の一実施形態に係るコンテンツ配信システム1の構成の一例を示す図である。図1に示すように、コンテンツ配信システム1は、記録装置10及び再生装置20を含み、記録装置10と再生装置20とはネットワーク30を介して接続される。
 記録装置10は、再生装置20において再生されるVRコンテンツのための情報を取得及び記録し、再生装置20へ送信する情報処理装置である。例えば、記録装置10は、実空間を撮像した撮像画像(動画/静止画)及び当該実空間の深度情報を、再生装置20へ送信する。記録装置10は、記録を省略して、取得した情報をリアルタイムに送信してもよい。
 動画とは、複数の静止画像(画像データ)及び各々の静止画の再生時刻を含むデータである。動画が再生される際には、再生時刻の順に静止画が連続的に再生される。動画を構成する静止画は、フレームとも称される。動画の表示速度は、フレームレートとも称され、1秒間当たりに表示されるフレームの数(FPS:Frame Per Second)で表される。動画は、画像データの再生と共に再生されるべき音声データを含んでいてもよい。
 記録装置10から再生装置20へ送信される撮像画像は、動画であるものとする。
 再生装置20は、記録装置10から受信した情報に基づいて、VRコンテンツの再生を制御する情報処理装置である。例えば、再生装置20は、記録装置10から受信した情報に基づいてVRコンテンツを生成し、VRコンテンツを視覚的に出力させると共に、VRコンテンツに対するユーザ操作に対応するフィードバックを出力装置により出力させる。
 VRコンテンツとは、仮想空間に各種仮想オブジェクトが配置されたコンテンツである。仮想オブジェクトとは、仮想空間内に配置される仮想的な物体である。仮想オブジェクトには、仮想オブジェクト同士の衝突判定に用いられる要素が付与される。この要素は、コライダーと称される場合がある。コライダーは、仮想オブジェクトに重ね合わせるように配置されて、コライダー同士の衝突判定により仮想オブジェクト同士の衝突判定が行われる。なお、仮想オブジェクトは表示されるが、コライダーは典型的には表示されない(即ち、不可視である)。これは、コライダーが衝突判定に用いられる要素であることに起因する。もちろん、コライダーを表示する設定がなされてもよく、その場合にはコライダーは表示される。
 ネットワーク30は、ネットワーク30に接続されている装置から送信される情報の有線又は無線の伝送路である。ネットワーク30は、例えば、インターネット、LAN(Local Area Network)、無線LAN、又はセルラー通信ネットワーク等により実現される。
 <<2.第1の実施形態>>
 第1の実施形態は、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの表面の三次元位置情報を対応付けることで、仮想空間における当該実オブジェクトの表面と仮想オブジェクトとの三次元的な空間インタラクションを実現する形態である。
 <2.1.概要>
 (1)記録装置の概要
 図2は、本実施形態に係る記録装置10の記録装置の概要を説明するための図である。図2では、記録装置10による情報の記録対象となる空間の一例が示されている。図2に示すように、本空間では、観客席17にいる大勢の観客の前で、ステージ16上で演者18がパフォーマンスしている。本空間には、記録装置10による記録に関与する装置として、第1のセンサ装置11、及び第2のセンサ装置12(12A及び12B)が設置されている。また、本空間には、モニタ15も配置されている。
 ・第1のセンサ装置11
 第1のセンサ装置11は、VRコンテンツにおいて空間インタラクションの対象となる実オブジェクトを含む、実空間をセンシングする装置である。実オブジェクトとは、実空間に存在する物体である。第1のセンサ装置11は、撮像装置及びデプスセンサを備える。撮像装置は、実空間の実オブジェクト(即ち、被写体)を撮像し、撮像画像を取得する装置である。撮像装置は、例えば単眼カメラ、ステレオカメラ又は赤外線カメラ等により実現される。撮像される画像は、2次元画像、全天球(360度)画像、半天球(180度)画像又はその他の任意の撮像範囲を有する画像である。以下では、撮像装置はステレオカメラにより実現され、立体視することが可能なステレオ全天球画像が撮像されるものとする。また、以下では撮像装置をVRカメラとも称する。デプスセンサは、実空間の実オブジェクトの深度情報を検出する装置である。深度情報とは、センサの光軸方向(奥行き)の測定値である。デプスセンサとしては、例えば、Light Coding、Time of Flight、又はInfrared Depth等の任意の方式のセンサが採用され得る。
 第1のセンサ装置11は、例えば、モニタ15の中央に設置されて、比較的近距離から演者18を含むステージ16上をセンシングする。ステージ16及び演者18は、VRコンテンツにおいて空間インタラクションの対象となる実オブジェクトである。
 ・第2のセンサ装置12
 第2のセンサ装置12は、実空間をセンシングする装置である。第2のセンサ装置12は、撮像装置を備える。撮像装置については、第1のセンサ装置11に関し上記説明した通りである。第2のセンサ装置12は、観客席に設置されて、比較的遠距離から演者18を含むステージ16上をセンシングする。
 ・モニタ15
 モニタ15は、再生装置20によるVRコンテンツの提供を受けているユーザの様子を表示する表示装置である。このため、演者18は、実際に目の前にいる観客とネットワーク30越しに自身を鑑賞している観客とを視認しながら、パフォーマンスすることができる。
 以上、記録対象の空間に設置される装置について説明した。
 記録装置10は、第1のセンサ装置11及び第2のセンサ装置12によるセンシング結果に基づいて、再生装置20側でVRコンテンツを構成するための各種情報を含むコンテンツ構成情報を生成する。そして、記録装置10は、生成したコンテンツ構成情報を再生装置20へ送信する。
 なお、第1のセンサ装置11によるセンシング結果は、後述する空間インタラクションが可能なVRコンテンツの生成、及び後述する視点切り替えのために用いられる。第2のセンサ装置12によるセンシング結果は、後述する視点切り替えのために用いられる。
 (2)再生装置の概要
 図3は、本実施形態に係る再生装置20の概要を説明するための図である。図3では、再生装置20によるVRコンテンツの再生に関与する装置として、HMD(Head Mounted Display)21及びコントローラ22が図示されている。
 HMD21は、VRコンテンツを出力する出力装置である。HMD21は、画像を表示可能な表示部がユーザの眼の前に位置するようにして、ユーザの頭部に装着される。そして、HMD21は、VRコンテンツを表示しつつ、ユーザの頭の動きに合わせてVRコンテンツを回転又はズーム等させる。また、HMD21は、VRコンテンツへのユーザ操作に対応する視覚的/聴覚的/嗅覚的なフィードバックを出力する。出力装置は、HMD21の他にも、例えばスマートフォン又はタブレット端末等により実現されてもよい。
 コントローラ22は、VRコンテンツに対するユーザ操作を受け付けつつ、ユーザ操作に対応する触覚フィードバックを出力する入出力装置である。図3に示した例では、コントローラ22は、スティック型装置であり、ユーザに把持され操作される。コントローラ22は、スティック型以外にも、例えばグローブ型等の任意の形状で実現され得る。コントローラ22の位置及び姿勢に基づいて、VRコンテンツが操作される。出力され得る触覚フィードバックとしては、例えば振動、電気刺激、又は力覚等が挙げられる。以下では、触覚フィードバックは、振動により実現されるものとする。
 なお、本明細書において、位置とは、特に言及しない限り三次元位置であるものとする。また、姿勢とは、特に言及しない限り6自由度(6DoF)の姿勢であるものとする。
 以上、再生装置20によるVRコンテンツの再生に関与する装置について説明した。
 再生装置20は、記録装置10から受信したコンテンツ構成情報に基づいて、VRコンテンツを生成する。ここで、図2に示した第1のセンサ装置11及び第2のセンサ装置12は、記録対象の空間における視点に対応する。ユーザは、記録対象の空間における視点を自由に選択して、任意の視点から記録対象の空間を見たVRコンテンツの提供を受けることができる。視点の切り替えは、再生するVRコンテンツを切り替えることにより行われる。詳しくは、視点の切り替えは、再生するVRコンテンツの元となるコンテンツ構成情報がどのセンサ装置(第1のセンサ装置11又は第2のセンサ装置12)のセンシング結果に基づいて生成されるか、を切り替えることにより実現される。
 本実施形態に係るVRコンテンツでは、仮想オブジェクトのひとつとして、実空間を撮像した撮像画像が仮想空間内に配置され、表示される。さらに、本実施形態に係るVRコンテンツでは、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの三次元位置を示す三次元位置情報が対応付けられる。これにより、仮想空間内に配置された撮像画像に含まれる実オブジェクトが関与する空間インタラクションを実現することが可能となる。以下、この点について詳しく説明する。
 図3に示すように、HMD21は、再生装置20により生成されたVRコンテンツ40を表示する。VRコンテンツ40では、仮想空間に、図2に示したステージ16上の演者18を含む撮像画像が配置され表示されており、且つ、撮像画像内のステージ16及び演者18の各々に三次元位置情報が対応付けられている。
 ユーザがコントローラ22を操作すると、実空間におけるコントローラ22の位置及び姿勢に応じて、仮想空間における操作体41の位置及び姿勢が変化する。操作体41は、仮想空間におけるユーザの操作位置を示す仮想オブジェクトである。再生装置20は、仮想空間における操作体41の位置とステージ16又は演者18に対応付けられた三次元位置情報とに基づいて、仮想空間における操作体41とステージ16又は演者18との衝突を判定する。そして、再生装置20は、衝突したと判定した場合には、衝突に対応する視覚的/聴覚的/嗅覚的なフィードバックをHMD21に出力させ、衝突に対応する触覚フィードバックをコントローラ22に出力させる。
 このように、本実施形態に係るコンテンツ配信システム1によれば、仮想空間内に配置された撮像画像内の実オブジェクトが関与する空間インタラクションを実現することが可能となる。
 <2.2.記録装置側の技術的特徴>
 <2.2.1.記録装置の機能構成例>
 図4は、本実施形態に係る記録装置10の機能構成の一例を示すブロック図である。図4に示すように、記録装置10は、画像取得部110、ストリーミング処理部120、深度情報取得部130、表面モデル取得部140、コンテンツ構成情報生成部150及び送信部160を含む。
 また、図4では第1のセンサ装置11及び第2のセンサ装置12の機能構成の一例も図示されている。図4に示すように、第1のセンサ装置11は、VRカメラ101及びデプスセンサ102を含み、第2のセンサ装置12はVRカメラ101を含む。記録装置10は、ひとつ以上の第1のセンサ装置11、及びひとつ以上の第2のセンサ装置12に接続され得る。
 以下、これらの機能構成について説明する。
 (1)第1のセンサ装置11
 VRカメラ101及びデプスセンサ102に関しては、図2を参照しながら上記説明した通りであるので、説明を省略する。
 (2)第2のセンサ装置12
 VRカメラ101に関しては、図2を参照しながら上記説明した通りであるので、説明を省略する。
 (3)記録装置10
 (画像取得部110)
 画像取得部110は、第1のセンサ装置11又は第2のセンサ装置12に含まれるVRカメラ101から、実空間の実オブジェクトを含む撮像画像を取得する機能を有する。ここで、撮像画像を取得するとは、撮像画像のデータを受信すること、又はメモリ等の所定の記録媒体に記録された撮像画像データを読み出すこと等を指す。VRカメラ101がステレオカメラである場合、画像取得部110は、左右2枚の撮像画像(左側の撮像画像であるL画像及び右側の撮像画像であるR画像)から成るステレオ画像(ステレオの全天球画像)を、撮像画像として取得する。画像取得部110は、取得した撮像画像をストリーミング処理部120に出力する。
 (ストリーミング処理部120)
 ストリーミング処理部120は、画像取得部110により取得された撮像画像のストリーミング処理を行う機能を有する。例えば、ストリーミング処理部120は、撮像時刻時順に撮像画像をコンテンツ構成情報生成部150に出力する。
 (深度情報取得部130)
 深度情報取得部130は、第1のセンサ装置11に含まれるデプスセンサ102から、実空間の実オブジェクトの深度情報を取得する機能を有する。ここでの深度情報とは、例えばデプス画像である。深度情報取得部130は、取得した深度情報を表面モデル取得部140に出力する。
 (表面モデル取得部140)
 表面モデル取得部140は、深度情報取得部130により取得された深度情報に基づいて、実オブジェクトの表面モデルを取得する機能を有する。実オブジェクトの表面モデルとは、実オブジェクトの表面の点であって、三次元位置情報が対応付けられた点を、複数含む点群の情報を含む三次元モデルデータである。ここでの三次元位置情報とは、デプスセンサ102の位置に基づき設定される原点とデプスセンサ102の姿勢に基づき設定される座標軸とにより定義される、デプスセンサ102の座標系における位置を示す情報である。表面モデルは、実オブジェクトの表面の点群の三次元位置情報(被写体三次元位置情報に相当)であるとも捉えることができる。ここでの点群とは、例えば、深度情報取得部130により取得されたデプス画像における画素を複数含む画素群である。なお、点群の解像度は任意である。撮像画像内の実オブジェクトの解像度よりも、当該実オブジェクトに対応する点群の解像度が低くてもよい。その場合、撮像画像全体を点群で構成する(即ち、撮像画像をポイントクラウドで表現する)場合よりも、伝送データ量を削減することが可能になると共に、ユーザが視認する実オブジェクトの解像度を高くすることが可能となる。もちろん、本技術において、撮像画像がポイントクラウドとして表現されてもよい。
 表面モデルは、所定の条件を満たす実オブジェクトの、表面の点群の三次元位置情報であってもよい。所定の条件を満たす実オブジェクトとは、例えば、VRコンテンツにおいて空間インタラクションに関与させる実オブジェクトであり、図2に示した例におけるステージ16及び演者18である。この場合、所定の条件とは、空間インタラクションに関与させる実オブジェクトであることであり、具体的には、動体であること、所定の閾値を超える大きさの面を有すること、又は前景であること等である。例えば、表面モデル取得部140は、デプス画像に画像認識等を適用することで、所定の条件を満たす実オブジェクトを特定する。そして、表面モデル取得部140は、デプス画像から、所定の条件を満たす実オブジェクトの表面の点群を抽出し他を削除することで、所定の条件を満たす実オブジェクトの表面の点群の三次元位置情報から成る表面モデルを取得する。これにより、表面モデルを形成する点の数を、空間インタラクションに関与する実オブジェクトに対応する点に限定して削減することが可能となるので、コンテンツ構成情報の記録装置10から再生装置20への伝送遅延を防止することが可能となる。
 表面モデル取得部140は、演者18の手等の、インタラクションの発生が想定される領域を事前に画像認識処理により検出し、伝送遅延の軽減に用いてもよい。例えば、表面モデル取得部140は、インタラクションの発生が想定される領域のみを対象に、表面モデルを生成し、コンテンツ構成情報に記録してもよい。
 表面モデル取得部140は、演者18の手以外の体の所定部位等の、インタラクションの発生を避けるべき領域を画像認識処理により事前に検出し、伝送遅延の軽減に用いてもよい。例えば、表面モデル取得部140は、インタラクションの発生を避けるべき領域については、表面モデルの生成対象外としてコンテンツ構成情報に当該部位の表面モデル情報を記録することを禁止してもよい。
 表面モデルは、コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報であってもよい。その場合、表面モデル取得部140は、表面モデルを形成する点群が、伝送速度に応じた所定の粒度になるまで間引く。例えば、表面モデル取得部140は、伝送速度が遅ければ点群から多くの点を間引き、伝送速度が早ければ点群から少ない数の点を間引く。これにより、コンテンツ構成情報の記録装置10から再生装置20への伝送遅延を過不足なく防止することが可能となる。
 また、表面モデル取得部140は、点群のノイズを除去してもよい。ここで、ノイズとは、例えば他と著しく離れた点である。点群に含まれる点の数を削減することで、記録装置10から再生装置20への伝送における遅延を軽減することが可能となる。このようにして、実オブジェクトの表面モデルが生成される。
 (コンテンツ構成情報生成部150)
 コンテンツ構成情報生成部150は、ストリーミング処理部120及び表面モデル取得部140からの出力に基づいて、コンテンツ構成情報を生成する機能を有する。コンテンツ構成情報生成部150は、生成したコンテンツ構成情報を送信部160に出力する。
 コンテンツ構成情報は、再生装置20側でVRコンテンツを構成するための各種情報を含む情報である。コンテンツ構成情報生成部150は、撮像画像、及び表面モデル、並びにこれらの情報に基づいて再生装置20側でVRコンテンツを構成するための各種情報をコンテナ化することで、コンテンツ構成情報を生成する。コンテンツ構成情報は、撮像画像、表面モデル、及び撮像画像内の実オブジェクトと表面モデルとを関連付ける仮想空間関連付け情報を含む。仮想空間関連付け情報は、仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションに用いられる情報である。コンテンツ構成情報のフォーマットについては後述する。
 コンテンツ構成情報生成部150は、再生装置20側で選択された視点に対応するコンテンツ構成情報を生成する。詳しくは、コンテンツ構成情報生成部150は、再生装置20側で選択された視点に対応するセンサ装置(第1のセンサ装置11又は第2のセンサ装置12)によるセンシング結果に基づいて、コンテンツ構成情報を生成する。
 (送信部160)
 送信部160は、他の装置に情報を送信する機能を有する。具体的には、送信部160は、コンテンツ構成情報生成部150により生成されたコンテンツ構成情報を、再生装置20に送信する。
 <2.2.2.コンテンツ構成情報のフォーマット>
 図5は、本実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。図5に示すように、コンテンツ構成情報は、VR用画像情報及び空間インタラクション構成情報を含む。図5では、フレーム番号が1からnのフレームの画像及び表面モデルをコンテナ化した、コンテンツ構成情報のフォーマットが示されている。以下、フォーマットについて詳しく説明する。
 ・VR用画像情報
 VR用画像情報は、ストリーミング処理部120から出力される画像とそれに関連する情報とを含む。
 VR用画像情報は、フレームごとのL画像(ステレオ画像における左側の画像)とそのフレーム番号、及びフレームごとのR画像(ステレオ画像における右側の画像)とそのフレーム番号を含む。フレーム番号は、画像の撮像時刻に対応する情報であり、仮想空間関連付け情報に相当する。
 VR用画像情報は、画像のメタデータを含む。メタデータは、コンテンツIDを含む。コンテンツIDは、VRコンテンツの識別情報である。コンテンツIDは、記録対象の空間における視点を示す情報とも捉えられてもよい。換言すると、コンテンツIDは、撮像画像がどのセンサ装置(VRカメラ101)により撮像されたかを示す情報、即ち撮像画像を撮像したセンサ装置の識別情報であってもよい。このコンテンツIDは、撮像画像と表面モデルとを関連付ける識別情報であり、仮想空間関連付け情報に相当する。
 ・空間インタラクション構成情報
 空間インタラクション構成情報は、フレームごとの表面モデル、表面モデルの属性情報及びフレーム番号を含む。フレームごとの表面モデルとは、フレームごとの画像に含まれる実オブジェクトの表面モデルである。即ち、空間インタラクション構成情報は、フレームごとの画像に含まれる実オブジェクトの表面の複数の点の三次元位置情報を含む。属性情報とは、反発係数、摩擦係数及び法線方向等の、フレームごとの画像に含まれる実オブジェクトの物理係数を示す情報である。属性情報は、表面モデルに含まれる点ごとに設定され得る。フレーム番号は、表面モデルの検出時刻(即ち、深度情報の検出時刻)に対応する情報であり、仮想空間関連付け情報に相当する。ある時刻に撮像された撮像画像のフレーム番号と同一時刻に検出された表面モデルのフレーム番号とは、一致することが望ましい。これにより、撮像画像と表面モデルとの時系列的な同期(以下、タイミング同期とも称する)を確立することが容易になる。
 空間インタラクション構成情報は、メタデータを含む。メタデータは、コンテンツID、視点切り替えオブジェクト情報、センサ装置位置姿勢情報、及びフィードバック設定情報を含む。
 コンテンツIDは、VRコンテンツの識別情報である。コンテンツIDは、記録対象の空間における視点を示す情報とも捉えられてもよい。換言すると、コンテンツIDは、表面モデルがどのセンサ装置(デプスセンサ102)により検出された深度情報に基づいて生成されたかを示す情報、即ち深度情報を検出したセンサ装置の識別情報であってもよい。このコンテンツIDは、撮像画像と表面モデルとを関連付ける識別情報であり、仮想空間関連付け情報に相当する。
 視点切り替えオブジェクト情報は、視点切り替えオブジェクトに関する情報であり、視点切り替えのために用いられる。視点切り替えオブジェクトとは、視点切り替えのためのコライダーが対応付けられる仮想オブジェクトである。視点切り替えオブジェクト情報は、視点切り替えオブジェクトのID、視点切り替えオブジェクトの三次元位置情報、及び視点切り替えオブジェクトに対応付けられるコンテンツIDを含む。このコンテンツIDは、当該視点切り替えオブジェクトに基づく視点の切り替えが行われる場合の、切り替え先のVRコンテンツのコンテンツIDである。
 センサ装置位置姿勢情報とは、撮像画像を撮像した撮像装置の座標系及び表面モデル(即ち、深度情報)を検出したセンサの座標系に関する情報であり、仮想空間関連付け情報に相当する。即ち、本実施形態に係るセンサ装置位置姿勢情報とは、VRカメラ101の座標系及びデプスセンサ102の座標系に関する情報である。VRカメラ101の座標系は、VRカメラ101の位置に基づき設定される原点とVRカメラ101の姿勢に基づき設定される座標軸とにより定義される。デプスセンサ102の座標系は、デプスセンサ102の位置に基づき設定される原点とデプスセンサ102の姿勢に基づき設定される座標軸とにより定義される。
 センサ装置位置姿勢情報は、これらの座標系を定義する情報である、VRカメラ101及びデプスセンサ102の位置及び姿勢を示す情報を含んでいてもよい。また、センサ装置位置姿勢情報は、VRカメラ101及びデプスセンサ102の位置の差分及び姿勢の差分等の、これらの座標系のずれを示す情報を含んでいてもよい。センサ装置位置姿勢情報は、例えば、VRカメラ101及びデプスセンサ102の設置状況に基づいて、手動で設定されてもよい。また、センサ装置位置姿勢情報は、認識対象物をVRカメラ101で撮像し且つデプスセンサ102でセンシングしたときの、撮像画像における認識対象物の位置及び姿勢と、デプス画像における認識対象物の位置及び姿勢とを比較することで、取得されてもよい。なお、認識対象物としては、所定のチェッカーパターンが付されたパネル又は立方体器具等が挙げられる。
 同一の第1のセンサ装置11に含まれるVRカメラ101及びデプスセンサ102であっても、位置及び姿勢にずれが生じ得る。このずれに起因して、再生装置20側でのVRコンテンツの構成時に、仮想空間内に配置された撮像画像内の実オブジェクトと当該実オブジェクトに対応付けられる表面モデルとにずれが生じ得る。この点、センサ装置位置姿勢情報がコンテンツ構成情報に含まれることにより、再生装置20側でずれを補正することが可能となる。
 フィードバック設定情報とは、仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションが行われる場合のフィードバック内容を設定する情報である。フィードバック設定情報は、視覚的、触覚的、聴覚的、又は嗅覚的にフィードバックされる内容を設定する情報を含む。詳しくは、フィードバック設定情報は、視覚的にフィードバックされる内容を設定する視覚フィードバック設定情報を含み得る。視覚フィードバック設定情報は、例えば、衝突したときに表示されるべき、衝突したことを示すアイコンを示す情報等を含む。フィードバック設定情報は、触覚的にフィードバックされる内容を設定する触覚フィードバック設定情報を含む。触覚フィードバック設定情報は、例えば、衝突したときに出力されるべき、振動の周波数、振幅及び振動時間を示す情報等を含み得る。フィードバック設定情報は、聴覚的にフィードバックされる内容を設定する聴覚フィードバック設定情報を含み得る。聴覚フィードバック設定情報は、例えば、衝突したときに出力されるべき音を示す情報等を含む。フィードバック設定情報は、嗅覚的にフィードバックされる内容を設定する嗅覚フィードバック設定情報を含み得る。嗅覚フィードバック設定情報は、例えば、衝突したときに出力されるべき、火薬又は香水等の匂いを示す情報を含む。フィードバック設定情報は、仮想空間における視点移動の際にフィードバックされる内容を設定する視点移動設定情報を含む。視点移動設定情報は、例えば、視点切り替え位置を指定する情報、及び視点移動後の視界の回転量を指定する情報を含む。フィードバック設定情報がコンテンツ構成情報に含まれることにより、VRコンテンツの制作者が意図するフィードバックをユーザに提供することが可能となる。
 ここで、撮像画像内に空間インタラクションに関与する実オブジェクトが複数含まれる場合、空間インタラクション構成情報は、表面モデル、表面モデルの属性情報、及びメタデータのセットを、実オブジェクト毎に含んでいてもよい。また、空間インタラクション構成情報は、実オブジェクト毎に、フィードバック設定情報を含んでいてもよい。その場合、これらの実オブジェクト毎の情報に対しては、実オブジェクトの識別情報が対応付けられる。
 また、フレーム間で表面モデルが流用されてもよい。その場合、空間インタラクション情報は、流用される表面モデル、及び当該表面モデルを流用する期間を識別するための情報を含む。例えば、所定時間の間動かない実オブジェクトがある場合、コンテンツ構成情報生成部150は、当該所定時間の開始フレームに対応付けて表面モデルを記録すると共に、その表面モデルを流用する時間情報(例えば、当該所定時間の終了フレーム)を記録する。これにより、伝送量を削減することができるので、伝送遅延を軽減することが可能となる。
 <2.2.3.記録処理の流れ>
 図6は、本実施形態に係る記録装置10により実行される記録処理の流れの一例を示すフローチャートである。図6に示すように、まず、画像取得部110は実空間の撮像画像を取得し、深度情報取得部130は深度情報を取得する(ステップS102)。
 その後、表面モデル取得部140は、深度情報に基づいて表面モデルを生成する。詳しくは、表面モデル取得部140は、深度情報に基づいて、所定の条件を満たす実オブジェクトの表面を形成する点群(例えば、画素群)を抽出する(ステップS104)。ここでの所定の条件とは、例えば、動体であること、所定の閾値を超える大きさの面を有すること、前景であること、インタラクションの発生が想定される領域であること、及び/又はインタラクションの発生を避けるべき領域でないこと等である。次に、表面モデル取得部140は、点群が所定の粒度になるまで点を間引く(ステップS106)。次いで、表面モデル取得部140は、フレーム単位で点群のノイズを除去する(ステップS108)。このようにして、表面モデル取得部140は、表面モデルを生成する。
 そして、コンテンツ構成情報生成部150は、撮像画像と表面モデルとに基づいてコンテンツ構成情報を生成する(ステップS110)。その後、送信部160は、コンテンツ構成情報を再生装置20へ送信する(ステップS112)。
 <2.3.再生装置側の技術的特徴>
 <2.3.1.再生装置の機能構成例>
 図7は、本実施形態に係る再生装置20の機能構成の一例を示すブロック図である。図7に示すように、再生装置20は、受信部210、コンテンツ構成情報解析部220、タイミング同期部230、座標変換部240、仮想オブジェクト制御部250、出力制御部260、及び選択部270を含む。
 また、図7では、HMD21及びコントローラ22の機能構成の一例も図示されている。図7に示すように、HMD21は、表示部201、位置姿勢検出部202、音声出力部203及び音声入力部204を含み、コントローラ22は、位置姿勢検出部205及び振動出力部206を含む。
 以下、これらの機能構成について説明する。
 (1)HMD21
 (表示部201)
 表示部201は、VRコンテンツを表示する機能を有する。表示部201は、出力制御部260による制御に基づき、VRコンテンツを表示する。例えば、表示部201は、LCD(Liquid Crystal Display)またはOLED(Organic Light-Emitting Diode)等により実現され得る。
 (位置姿勢検出部202)
 位置姿勢検出部202は、HMD21(即ち、HMD21を装着したユーザの頭部)の位置及び姿勢を検出する機能を有する。例えば、位置姿勢検出部202は、ジャイロセンサ及び加速度センサを含み、角速度に基づいて姿勢を検出し、角速度及び加速度を用いたINS(inertial navigation system)演算により位置を検出する。位置姿勢検出部202は、検出したHMD21の位置及び姿勢を示す情報を、再生装置20の出力制御部260に出力する。
 (音声出力部203)
 音声出力部203は、VRコンテンツに関する音声を出力する機能を有する。例えば、音声出力部203は、スピーカ又はイヤホン、アンプ及びDAC(Digital Analog Converter)等を含む。音声出力部203は、出力制御部260による制御に基づいて4音声を再生する。
 (音声入力部204)
 音声入力部204は、ユーザの音声を入力する機能を有する。例えば、音声入力部204は、マイク、マイクアンプ及びADC(Analog Digital Converter)等を含み、ユーザの音声を示すデジタル信号を生成する。音声入力部204は、入力されたユーザの音声を示す情報を、仮想オブジェクト制御部250に出力する。
 (2)コントローラ22
 (位置姿勢検出部205)
 位置姿勢検出部205は、コントローラ22の位置及び姿勢を検出する機能を有する。例えば、位置姿勢検出部205は、ジャイロセンサ及び加速度センサを含み、角速度に基づいて姿勢を検出し、角速度及び加速度を用いたINS(inertial navigation system)演算により位置を検出する。位置姿勢検出部205は、検出したコントローラ22の位置及び姿勢を示す情報を、仮想オブジェクト制御部250に出力する。
 (振動出力部206)
 振動出力部206は、振動を出力する機能を有する。振動出力部206は、出力制御部260による制御に基づいて振動を出力する。例えば、振動出力部206は、偏心モータ、LRA(Linear Resonant Actuator)又はVCM(Voice Coil Motor)等により実現され得る。
 (3)再生装置20
 (受信部210)
 受信部210は、他の装置から情報を受信する機能を有する。より詳しくは、受信部210は、記録装置10から、コンテンツ構成情報を取得する取得部として機能する。受信部210は、選択中の視点に対応するコンテンツ構成情報、即ち選択中の視点に対応する第1のセンサ装置11又は第2のセンサ装置12によるセンシング結果に基づいて生成されたコンテンツ構成情報を受信する。受信部210は、受信したコンテンツ構成情報を、コンテンツ構成情報解析部220に出力する。
 (コンテンツ構成情報解析部220)
 コンテンツ構成情報解析部220は、コンテンツ構成情報から各種情報を抽出する機能を有する。例えば、コンテンツ構成情報解析部220は、コンテンツ構成情報からVR用画像情報及び空間インタラクション構成情報を分離及び抽出して、それぞれ出力する。
 (タイミング同期部230)
 タイミング同期部230は、VR用画像情報に含まれる撮像画像と空間インタラクション構成情報に含まれる表面モデルとのタイミング同期を確立する機能を有する。詳しくは、タイミング同期部230は、撮像画像と、当該撮像画像の撮像時刻と同一時刻を検出時刻とする表面モデルと、を対応付けることで、撮像画像と表面モデルとのタイミング同期を確立する。その際、タイミング同期部230は、撮像画像のフレーム番号と表面モデルのフレーム番号に基づいて、撮像画像と表面モデルとのタイミング同期を確立する。タイミング同期部230は、タイミング同期が確立された撮像画像と表面モデルとを、即ち撮像画像と当該撮像画像の撮像時刻と同一時刻を検出時刻とする表面モデルとを、座標変換部240に出力する。
 (座標変換部240)
 座標変換部240は、VR用画像情報に含まれる撮像画像と空間インタラクション構成情報に含まれる表面モデルとの座標系の同期を確立する機能を有する。座標変換部240は、表面モデルに対し、センサ装置位置姿勢情報が示すVRカメラ101の座標系とデプスセンサ102の座標系とのずれを補正するための、座標変換処理を適用する。具体的には、座標変換部240は、表面モデルを形成する点群の三次元位置を、VRカメラ101の位置に基づき設定される原点とVRカメラ101の姿勢に基づき設定される座標軸とにより定義される、VRカメラ101の座標系における三次元位置に変換する。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと当該実オブジェクトの表面モデルとの三次元位置を合わせることが可能となる。座標変換部240は、タイミング同期及び座標系の同期が確立された撮像画像と表面モデルとを、出力制御部260及び仮想オブジェクト制御部250に出力する。
 (仮想オブジェクト制御部250)
 仮想オブジェクト制御部250は、仮想オブジェクトに関する各種制御を行う機能を有する。
 ・位置及び姿勢の制御
 仮想オブジェクト制御部250は、仮想オブジェクトの位置及び姿勢を制御する。詳しくは、仮想オブジェクト制御部250は、仮想オブジェクトの位置及び姿勢を演算する。操作体41に関しては、仮想オブジェクト制御部250は、位置姿勢検出部205から出力されたコントローラ22の位置及び姿勢を示す情報に基づいて、操作体41の位置及び姿勢を演算する。
 仮想オブジェクト制御部250は、仮想オブジェクトに関する物理演算を行う。例えば、仮想オブジェクト制御部250は、仮想オブジェクト同士が衝突したり、仮想オブジェクトが投げられたりした場合に、当該仮想オブジェクトの仮想空間での移動を演算して、移動後の仮想オブジェクトの位置及び姿勢を演算する。なお、仮想空間内に配置された撮像画像内の実オブジェクトが関与する物理演算には、当該実オブジェクトに対応付けられた物理係数等の属性情報が加味される。
 仮想オブジェクト制御部250は、仮想オブジェクトの位置及び姿勢の演算結果を出力制御部260に出力する。
 ・コライダーの対応付け
 仮想オブジェクト制御部250は、仮想オブジェクトにコライダーを対応付ける。とりわけ、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクトにコライダーを対応付ける。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと他の仮想オブジェクトとの衝突の検出が可能となる。以下、コライダーの対応付けについて詳しく説明する。
 仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像に対し、当該撮像画像とのタイミング同期及び座標系の同期が確立された表面モデルを、対応付ける。より簡易には、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクトに、当該実オブジェクトの表面モデルを対応付ける。
 仮想オブジェクト制御部250は、仮想空間内に配置された表面モデルに、より詳しくは表面モデルを構成する点の各々に、コライダーを対応付ける。詳しくは、仮想オブジェクト制御部250は、コライダーの三次元位置情報として、表面モデルの三次元位置情報を用いる。これにより、仮想空間内に配置された撮像画像内の実オブジェクトの当たり判定が可能となる。
 さらに、仮想オブジェクト制御部250は、仮想空間内に配置された表面モデルに、物理係数等の属性情報を対応付ける。これにより、仮想空間内に配置された撮像画像内の実オブジェクトと仮想オブジェクトとの衝突時の感触及び跳ね返り等の表現が可能となる。
 ・衝突検出
 仮想オブジェクト制御部250は、仮想オブジェクト同士の衝突を検出する衝突検出部としての機能も有する。例えば、仮想オブジェクト制御部250は、仮想オブジェクトに対応付けられたコライダー同士の衝突判定により、仮想オブジェクト同士の衝突を検出する。
 仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクトと仮想オブジェクトとの衝突も検出する。その場合、仮想オブジェクト制御部250は、表面モデルと他の仮想オブジェクトの三次元位置情報とに基づいて、仮想空間内に表示された撮像画像内の実オブジェクトと他の仮想オブジェクトとの衝突を検出する。詳しくは、仮想オブジェクト制御部250は、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクトに対応付けられた表面モデルに対応付けられたコライダーと仮想オブジェクトに対応付けられたコライダーとの衝突を検出する。
 仮想オブジェクト制御部250は、仮想オブジェクトの位置及び姿勢の時系列変化に基づいて、衝突時の相対速度、及び衝突角度等の衝突状況に関する情報を取得し得る。
 仮想オブジェクト制御部250は、衝突の有無及び衝突状況に関する情報を、出力制御部260に出力する。
 ・その他
 仮想オブジェクト制御部250は、音声入力部204に入力されたユーザの音声指示に基づいて、仮想オブジェクトを制御してもよい。例えば、仮想オブジェクト制御部250は、ユーザの音声を示すテキスト情報から成る仮想オブジェクトを生成して仮想空間内で移動させたり、ユーザに対応するアバターの仮想オブジェクトの口を動かしたりする。
 (出力制御部260)
 出力制御部260は、コンテンツ構成情報に基づき、仮想空間内に撮像画像を表示する機能を有する。例えば、出力制御部260は、仮想空間内に撮像画像を配置することで、仮想空間内に撮像画像を表示する。
 出力制御部260は、位置姿勢検出部202から出力されたHMD21の位置及び姿勢を示す情報に基づいて、仮想空間におけるユーザ位置を移動させたり、視界を回転させたりする。仮想空間におけるユーザ位置の移動は、仮想空間内に配置された撮像画像のズームイン/ズームアウトにより実現され得る。即ち、仮想空間におけるユーザ位置の移動は、ユーザ位置の移動ベクトルとは逆のベクトルに、仮想空間内で撮像画像を移動させることにより実現される。仮想空間における視界の回転は、仮想空間内に配置した撮像画像のうち表示部201に表示させる領域を移動させることにより実現され得る。これらにより、ユーザは、VRコンテンツ内で自由に動き回り、360度ぐるりと回りを見渡す体験を享受することができる。
 出力制御部260は、仮想オブジェクトの表示を制御する機能を有する。例えば、出力制御部260は、仮想オブジェクト制御部250により演算された位置及び姿勢で、仮想オブジェクトを表示する。
 出力制御部260は、コンテンツ構成情報に基づき、仮想空間内に表示された撮像画像に含まれる実オブジェクトが関与するインタラクションに対応するフィードバックの出力を制御する機能を有する。例えば、出力制御部260は、仮想空間内に表示された撮像画像に含まれる実オブジェクトと他の仮想オブジェクトとの衝突が検出された場合、衝突に対応する視覚的、触覚的、聴覚的及び/又は嗅覚的なフィードバックのユーザに対する出力を制御する。
  -視覚フィードバック
 出力制御部260は、仮想オブジェクト同士の衝突が検出された場合、表示部201に視覚的なフィードバックを出力させてもよい。例えば、出力制御部260は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体41が衝突した場合に、衝突したことを示す情報を表示部201により出力させる。出力制御部260は、表示部201に出力させる情報を、衝突状況に関する情報に基づいて制御してもよい。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、表示部201に出力させる情報は、表面モデルに対応付けられた物理係数及び/又は視覚フィードバック設定情報に基づいて決定される。
  -触覚フィードバック
 出力制御部260は、仮想オブジェクト同士の衝突が検出された場合、振動出力部206に触覚フィードバックを出力させてもよい。例えば、出力制御部260は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体41が衝突した場合に、衝突したことを示す振動を振動出力部206により出力させる。出力制御部260は、振動出力部206に出力させる振動に関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。振動に関するパラメータとしては、出力させる振動の周波数、振幅及び振動時間等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、振動パラメータは、表面モデルに対応付けられた物理係数及び/又は触覚フィードバック設定情報に基づいて決定される。
  -聴覚フィードバック
 出力制御部260は、仮想オブジェクト同士の衝突が検出された場合、音声出力部203に聴覚フィードバックを出力させてもよい。例えば、出力制御部260は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体41が衝突した場合に、衝突したことを示す音声を音声出力部203により出力させる。出力制御部260は、音声出力部203に出力させる音声に関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。音声に関するパラメータとしては、再生させる音声の種類、及び音量等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、音声に関するパラメータは、表面モデルに対応付けられた物理係数及び/又は聴覚フィードバック設定情報に基づいて決定される。
  -嗅覚フィードバック
 出力制御部260は、仮想オブジェクト同士の衝突が検出された場合、図示しない嗅覚出力デバイスに嗅覚フィードバックを出力させてもよい。例えば、出力制御部260は、仮想空間内に配置された撮像画像内の実オブジェクトに操作体41が衝突した場合に、衝突したことを示す匂いを嗅覚出力デバイスにより出力させる。出力制御部260は、嗅覚出力デバイスに出力させる匂いに関するパラメータを、衝突状況に関する情報に基づいて指定してもよい。匂いに関するパラメータとしては、匂いの種類、及び匂いの強さ等が挙げられる。衝突した仮想オブジェクトの一方が、仮想空間内に配置された撮像画像内の実オブジェクトである場合、匂いに関するパラメータは、表面モデルに対応付けられた物理係数及び/又は嗅覚フィードバック設定情報に基づいて決定される。
  -補足
 出力制御部260は、仮想オブジェクト同士の衝突が検出された後、所定の停止条件が成立するまでの間、視覚/触覚/聴覚/嗅覚フィードバックを出力させてもよい。所定の停止条件とは、例えば、衝突発生後に所定時間が経過すること、又は仮想オブジェクト同士の距離が所定距離を超えること等である。これにより、衝突の余韻をユーザに与えることが可能となる。
 このようにして、仮想空間内に配置された撮像画像内の実オブジェクトが関与する視覚的、触覚的、聴覚的又は嗅覚的なインタラクションが実現される。
 (選択部270)
 選択部270は、視点を選択する(即ち、再生されるVRコンテンツを切り替える)機能を有する。より詳しくは、選択部270は、再生されるVRコンテンツの元となるコンテンツ構成情報を、どのセンサ装置によるセンシング結果に基づいて生成されたコンテンツ構成情報にするかを選択する。視点の選択は、例えばコンテンツIDの選択により行われる。選択部270は、選択結果を示す情報(例えば、コンテンツID)を記録装置10に送信し、受信するコンテンツ構成情報を切り替えてもよい。
 <2.3.2.空間インタラクション>
 (1)第1の空間インタラクション
 第1の空間インタラクションは、仮想空間内に配置された撮像画像内の実オブジェクトとユーザとのインタラクションに関する。本インタラクションについては、図3を参照して上記説明した通りである。詳しくは、再生装置20は、仮想空間内に配置された撮像画像内の実オブジェクト(ステージ16又は演者18)とユーザが操作する操作体41とが衝突した場合に、衝突に対応する触覚フィードバックをコントローラ22により出力させる。このようなインタラクションに関する処理の流れを、図8を参照して説明する。
 図8は、本実施形態に係る再生装置20により実行される第1の空間インタラクション処理の流れの一例を示すフローチャートである。図8に示すように、まず、受信部210は、選択中の視点に対応するコンテンツ構成情報を受信する(ステップS202)。次いで、コンテンツ構成情報解析部220は、コンテンツ構成情報からVR用画像情報及び空間インタラクション構成情報を抽出する(ステップS204)。次に、タイミング同期部230は、撮像画像と表面モデルとのタイミング同期を確立し、座標変換部240は、撮像画像と表面モデルとの座標系の同期を確立する(ステップS206)。次いで、出力制御部260は、仮想空間に撮像画像を配置する(ステップS208)。
 次に、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像に対し、コライダー及び物理係数を対応付けた表面モデルを重ね合わせて配置する(ステップS210)。次いで、仮想オブジェクト制御部250は、コントローラ22の位置及び姿勢に基づいて、仮想空間における操作体41の位置及び姿勢を制御する(ステップS212)。次に、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクトと操作体41との衝突有無を判定する(ステップS214)。詳しくは、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像に重ね合わされた表面モデルに対応付けられたコライダーと、操作体41に対応付けられたコライダーとの衝突有無を判定する。衝突していないと判定された場合(ステップS216/NO)、処理は再度ステップS202に戻る。衝突したと判定された場合(ステップS216/YES)、出力制御部260は、衝突に応じたフィードバックを出力する(ステップS218)。詳しくは、出力制御部260は、表面モデルに対応付けられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚/触覚/聴覚/嗅覚フィードバックの出力を制御する。その後、処理は再度ステップS202に戻る。
 (2)第2の空間インタラクション
 第2の空間インタラクションは、仮想空間内に配置された撮像画像内の実オブジェクトと操作体41以外の仮想オブジェクトとのインタラクションに関する。本インタラクションに関して、図9を参照して詳しく説明する。
 図9は、本実施形態に係る第2の空間インタラクションの一例を説明するための図である。図9に示したVRコンテンツ40では、仮想空間に、図2に示したステージ16上の演者18を含む撮像画像が配置されており、且つ、撮像画像内のステージ16及び演者18の各々に表面モデルが対応付けられている。ユーザは、コントローラ22を介して、仮想空間において仮想オブジェクトであるボール43の位置に操作体41を合わせて掴み、その後投げる操作を行うことができる。掴む操作が行われると、ボール43が操作体41の子オブジェクトとなり、操作体41がボール43の親オブジェクトとなる。子オブジェクトは、親オブジェクトに連動して動く。投げる操作が行われると、親子関係が解除されて、子オブジェクトは物理演算の結果に従って空中を移動する。ユーザがボール43を掴んで演者18に投げると、ボール43が演者18に衝突して跳ね返る。その際の視覚フィードバックとして、衝突したことを示すアイコン44が表示される。さらに、演者18から跳ね返ったボール43がステージ16に衝突して転がる。その際、出力制御部260は、ステージ16上にボール43の影を表示したり、転がる音を出力したりしてもよい。このようなインタラクションに関する処理の流れを、図10A及び図10Bを参照して説明する。
 図10A及び図10Bは、本実施形態に係る再生装置20により実行される第2の空間インタラクション処理の流れの一例を示すフローチャートである。図10Aに示したステップS302~S312に係る処理は、図8に示したステップS202~S212に係る処理と同様である。その後、仮想オブジェクト制御部250は、ボール43と操作体41との衝突有無、及び掴む操作の有無を判定する(ステップS314)。詳しくは、仮想オブジェクト制御部250は、ボール43に対応付けられたコライダーと操作体41に対応付けられたコライダーとの衝突有無を判定し、掴む操作が入力されたか否かを判定する。衝突していない又は掴む操作が行われていないと判定された場合(ステップS316/NO)、処理は再度ステップS302に戻る。
 衝突し、且つ掴む操作が行われたと判定された場合(ステップS316/YES)、図10Bに示すように、仮想オブジェクト制御部250は、ボール43を操作体41の子オブジェクトとし、出力制御部260は、ボール43が操作体41に付随して移動する様子を表示する(ステップS318)。次に、仮想オブジェクト制御部250は、ボール43を投げる操作が行われたか否かを判定する(ステップS320)。投げる操作が行われていないと判定された場合(ステップS320/NO)、処理は再度ステップS318に戻る。投げる操作が行われたと判定された場合(ステップS320/YES)、出力制御部260は、仮想オブジェクト制御部250による物理演算の結果に基づいて、投げられたボール43の空中移動を表示する(ステップS322)。次いで、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内の実オブジェクト(ステージ16又は演者18)とボール43との衝突有無を判定する(ステップS324)。衝突していないと判定された場合(ステップS326/NO)、処理は再度ステップS322に戻る。
 衝突したと判定された場合(ステップS326/YES)、出力制御部260は、仮想オブジェクト制御部250による物理演算の結果に基づいて、ボール43が転がる様子を表示する(ステップS328)。例えば、仮想オブジェクト制御部250は、衝突したと判定されたコライダーに対応する点の属性情報に基づいて物理演算を行い、出力制御部260は、物理演算の結果に基づいて、ボール43が転がる軌跡を表示する。その際、出力制御部260は、表面モデルに対応づけられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚/触覚/聴覚/嗅覚フィードバックの出力を制御してもよい。例えば、出力制御部260は、衝突したことを示すアイコンを表示し、ボールの影を表示し、ボールが転がる音を再生する。その後、処理は再度ステップS302に戻る。
 <2.3.3.視点切り替え>
 選択部270は、仮想空間におけるユーザ位置に対応するコンテンツ構成情報を、受信部210が取得すべきコンテンツ構成情報として選択する。つまり、選択部270は、仮想空間におけるユーザ位置に応じて、再生されるVRコンテンツを切り替える。選択部270は、視点切り替えオブジェクトに基づいて視点切り替えを実施する。以下、この点について詳しく説明する。
 仮想オブジェクト制御部250は、視点切り替えオブジェクト情報に基づいて、仮想空間に視点切り替えオブジェクトを設定する。詳しくは、仮想オブジェクト制御部250は、視点切り替えオブジェクト情報において指定された三次元位置に視点切り替えオブジェクトを配置し、当該視点切り替えオブジェクトにコライダー、コンテンツID及び視点切り替え位置を対応付ける。このコンテンツIDは、当該視点切り替えオブジェクトに基づく視点の切り替えが行われる場合の、切り替え先のVRコンテンツのコンテンツIDである。視点切り替え位置は、仮想空間における所定の位置であり、視点移動設定情報として設定され得る。なお、視点切り替えオブジェクトは、典型的には非表示である。
 仮想オブジェクト制御部250は、ユーザの視線と視点切り替えオブジェクトとの衝突を検出する。詳しくは、仮想オブジェクト制御部250は、視点切り替えオブジェクトに対応付けられたコライダーに基づいて、衝突を検出する。ここでのユーザの視線は、眼軸方向であってもよいし、顔の向きであってもよい。前者の場合、仮想オブジェクト制御部250は、ユーザの眼の撮像画像の画像認識結果に基づいて、ユーザの視線を認識する。後者の場合、仮想オブジェクト制御部250は、位置姿勢検出部202による検出結果に基づいて、ユーザの視線を認識する。
 出力制御部260は、ユーザの視線と視点切り替えオブジェクトとの衝突が検出された場合、ユーザ位置を移動させる。詳しくは、出力制御部260は、仮想空間におけるユーザ位置を、当該視点切り替えオブジェクトに対応付けられた視点切り替え位置まで連続的に移動させる。この連続的なユーザ位置の移動は、視点切り替え位置に対応する倍率になるまで、仮想空間内に配置された撮像画像をズームイン/ズームアウトすることにより、行われる。なお、視点切り替え位置までのユーザ位置の移動は、首振り等のユーザ操作に基づいて行われてもよい。
 そして、選択部270は、仮想空間におけるユーザ位置が視点切り替え位置に到達したことをトリガとして、選択するコンテンツ構成情報を切り替える。詳しくは、選択部270は、仮想空間内に配置された撮像画像のズームイン/ズームアウトの倍率が所定の倍率になった場合に、選択するコンテンツ構成情報を切り替える。選択部270は、到達した視点切り替え位置に対応する視点切り替えオブジェクトに対応付けられたコンテンツIDを、切り替え先のVRコンテンツのコンテンツIDとして選択する。即ち、選択部270は、到達した視点切り替え位置に対応する視点切り替えオブジェクトに対応付けられたコンテンツIDのコンテンツ構成情報を、再生するVRコンテンツを生成する元となるコンテンツ構成情報として選択する。
 視点切り替え位置は、切り替え先のコンテンツ構成情報の元となる撮像画像を撮像した撮像装置(即ち、VRカメラ101)の位置に相当する仮想空間内の位置であることが望ましい。詳しくは、仮想空間における視点切り替え位置が、切り替え先のコンテンツ構成情報の元となった撮像画像を撮像したVRカメラ101の位置を仮想空間にマッピングしたときの位置と、一致する又は所定距離以内であることが望ましい。この場合、切り替え前後で、仮想空間に配置された撮像画像内の実オブジェクトまでの距離が同一となるので、切り替え前後で当該実オブジェクトのスケール感は同一となる。これにより、視点切り替えの際に、瞬間的に視点が移動したかのような違和感をユーザに与えることを防止することができる。
 視点切り替えオブジェクトに基づく視点切り替えについて、図11を参照して詳しく説明する。
 図11は、本実施形態に係る視点切り替えオブジェクトに基づく視点切り替えを説明するための図である。図11に示すように、VRコンテンツ#1が選択中の視点のVRコンテンツであるものとする。即ち、再生装置20は、VRコンテンツ#1を再生しているものとする。VRコンテンツ#1には、VRコンテンツ#2-1、#2-2、#2-3の各々が対応付けられた視点切り替えオブジェクトが配置されている。なお、VRコンテンツに付された「#」の直後の数字は選択された視点のレイヤーを示し、「-」の後の数字は同レイヤーにおけるインデックスである。VRコンテンツ#2-1に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置20は、VRコンテンツ#2-1を再生する。VRコンテンツ#2-2に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置20は、VRコンテンツ#2-2を再生する。VRコンテンツ#2-3に対応付けられた視点切り替えオブジェクトに基づく視点切り替えが行われると、再生装置20は、VRコンテンツ#2-3を再生する。その後も、同様にして視点の切り替えが行われる。
 ・具体例
 以下、視点の切り替えの具体例について図12~図15を参照して具体的に説明する。
 図12は、本実施形態に係るユーザ位置の移動及び切り替えの一例を説明するための図である。図12では、再生装置20により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図12に示すように、演者18がいるステージ16上に第1のセンサ装置11が配置され、観客席17のうちステージ16の近くに第2のセンサ装置12Aが配置され、ステージ16から最も遠くに第2のセンサ装置12Bが配置されている。
 図13は、図12を示した配置のセンサ装置により撮像された撮像画像を用いたVRコンテンツの視点切り替えの一例を示す図である。VRコンテンツ40Bは、第2のセンサ装置12Bにより撮像された撮像画像が仮想空間内に配置されたVRコンテンツである。仮想オブジェクト制御部250は、VRコンテンツ40Bにおいて、演者18を包含する三次元位置及び大きさの視点切り替えオブジェクト45Bを配置し、第2のセンサ装置12Aの識別情報をコンテンツIDとして対応付けたものとする。ユーザの視線が視点切り替えオブジェクト45Bに衝突し、且つユーザ位置が視点切り替え位置まで移動した場合、選択部270は、視点切り替えオブジェクト45Bに対応付けられたコンテンツIDに基づく視点の選択を行う。詳しくは、選択部270は、第2のセンサ装置12Aによるセンシング結果に基づいて生成されたコンテンツ構成情報を、再生されるVRコンテンツの元となるコンテンツ構成情報として選択する。その結果、出力制御部260は、第2のセンサ装置12Aにより撮像された撮像画像が仮想空間内に配置されたVRコンテンツ40Aに表示を切り替える。
 ここで、仮想空間における視点切り替え位置は、実空間における第2のセンサ装置12Aの位置に相当する位置と一致することが望ましい。この場合、選択部270は、仮想空間におけるユーザ位置が、実空間における第2のセンサ装置12Aの位置に相当する位置に到達したときに、VRコンテンツ40Aへの切り替えを行う。これにより、切り替え前後で、演者18までの距離が同一となるので、切り替え前後で演者18のスケール感は同一となる。従って、視点切り替えの際に、瞬間的に視点が移動したかのような違和感をユーザに与えることを防止することができる。
 仮想オブジェクト制御部250は、VRコンテンツ40Aにおいて、演者18を包含する三次元位置及び大きさの視点切り替えオブジェクト45Aを配置し、第1のセンサ装置11の識別情報をコンテンツIDとして対応付けたものとする。ユーザの視線が視点切り替えオブジェクト45Aに衝突し、且つユーザ位置が視点切り替え位置まで移動した場合、選択部270は、視点切り替えオブジェクト45Aに対応付けられたコンテンツIDに基づく視点の選択を行う。詳しくは、選択部270は、第1のセンサ装置11によるセンシング結果に基づいて生成されたコンテンツ構成情報を、再生されるVRコンテンツの元となるコンテンツ構成情報として選択する。その結果、出力制御部260は、第1のセンサ装置11により撮像された撮像画像が仮想空間内に配置されたVRコンテンツに表示を切り替える。
 ここで、仮想空間における視点切り替え位置は、実空間における第1のセンサ装置11の位置に相当する位置と一致することが望ましい。この場合、選択部270は、仮想空間におけるユーザ位置が、実空間における第1のセンサ装置11の位置に相当する位置に到達したときに、第1のセンサ装置11により撮像された撮像画像が仮想空間内に配置されたVRコンテンツへの切り替えを行う。これにより、切り替え前後で、演者18までの距離が同一となるので、切り替え前後で演者18のスケール感は同一となる。従って、視点切り替えに起因する違和感をユーザに与えることを防止することができる。
 このように、ユーザ位置の移動に伴い視点の切り替えを繰り返すことで、記録対象の空間内を連続的に移動しているかのような体験をユーザに提供することが可能となる。また、視点切り替え位置とVRカメラ101の位置とを一致させることで、視点切り替えに起因する違和感をユーザに与えることを防止して、ユーザ体験の劣化を防止することが可能となる。
 ・補足
 図14は、本実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。図14では、再生装置20により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図14に示すように、演者18がステージ16上にいて、観客席17に第2のセンサ装置12A~12Dが配置されている。
 図14に示した例では、第2のセンサ装置12Dを視点とするVRコンテンツにおいて、視点切り替え位置が第2のセンサ装置12Cの位置に設定される。そして、視点切り替え位置である第2のセンサ装置12Cの位置へのユーザの移動に伴い、第2のセンサ装置12Cを視点とするVRコンテンツへの切り替えが行われる。同様にして、第2のセンサ装置12Bを視点とするVRコンテンツへの切り替え、第2のセンサ装置12Aを視点とするVRコンテンツへの切り替えが行われる。ユーザ位置の移動軌跡は、各々の視点間で直線であることが望ましい一方で、図14に示すように、複数の視点間の移動軌跡同士は直線的でなくてもよい。
 図15は、本実施形態に係るユーザ位置の移動及び視点の切り替えの一例を説明するための図である。図15では、再生装置20により実行されるユーザ位置の移動軌跡及び視点の切り替えの様子並びにユーザの視線を、記録対象の空間にマッピングした様子が図示されている。図15に示すように、演者18がステージ16上にいて、観客席17に第2のセンサ装置12A及び12Bが配置されている。図15では、図13に示した例と同様に、演者18を包含するように視点切り替えオブジェクトが配置されるものとする。
 再生装置20は、第2のセンサ装置12Aを視点とするVRコンテンツを再生していたものとする。そして、図15に示すように、ユーザが演者18に視線を向けながらユーザ位置が後方に移動したものとする。なお、ユーザ位置の後方への移動は、第2のセンサ装置12Aを視点とするVRコンテンツにおいて、仮想空間内に配置された撮像画像をズームアウトすることにより、実現される。ユーザ位置が視点切り替え位置19に移動すると、第2のセンサ装置12Aを視点とするVRコンテンツから第2のセンサ装置12Bを視点とするVRコンテンツへの切り替えが実施される。この場合、視点切り替え位置19から第2のセンサ装置12Aの位置まで、視点が瞬間的に移動したような違和感をユーザに与えかねない。
 そこで、視点切り替え位置は、仮想空間に表示された撮像画像内の所定の実オブジェクトまでの距離が、切り替え先のコンテンツ構成情報の元となる撮像画像を撮像した撮像装置(即ち、VRカメラ101)の位置に相当する仮想空間内の位置と同等であることが望ましい。図15に示した例では、視点切り替え位置19と第2のセンサ装置12Bの位置とは、演者18までの距離が同等であることが望ましい。なお、同等とは、同一又はその差が所定範囲内であることを意味する。この場合、切り替え前後で演者18のスケール感は同等となる。そのため、ユーザに与える違和感を軽減することができる。
 また、視点切り替え位置19と第2のセンサ装置12Bの位置とは、演者18との角度が異なるので、移動前後で演者18を見る角度が変わってしまい、ユーザに違和感を与えかねない。そこで、出力制御部260は、仮想オブジェクト制御部250によるVRコンテンツの切り替え後、仮想空間内に表示された撮像画像内の所定の実オブジェクトが前記ユーザの視線と衝突するように、仮想空間に撮像画像を配置してもよい。具体的には、出力制御部260は、視点切り替えの際に、ユーザの視線上に(例えば、ユーザの顔の正面に)演者18が位置するように視界を回転させる。これにより、切り替え前後でユーザが演者18を見る角度が変わらなくなるので、ユーザに与える違和感を軽減することができる。なお、移動後の視界の回転量は、視点移動設定情報として設定され得る。
 ・処理の流れ
 続いて、図16を参照して、視点切り替え処理の流れの一例を説明する。
 図16は、本実施形態に係る再生装置20により実行される視点切り替え処理の流れの一例を示すフローチャートである。なお、図16に示したフローチャートに基づく処理では、視点切り替えに関与する処理以外については省略されている。
 図16に示すように、まず、受信部210は、選択中の視点に対応するコンテンツ構成情報を受信する(ステップS402)。次いで、コンテンツ構成情報解析部220は、コンテンツ構成情報からVR用画像情報及び空間インタラクション構成情報を抽出する(ステップS404)。次いで、出力制御部260は、仮想空間に撮像画像を配置する(ステップS406)。次に、仮想オブジェクト制御部250は、視点切り替えオブジェクト情報に基づいて、仮想空間に視点切り替えオブジェクトを配置する(ステップS408)。
 次いで、仮想オブジェクト制御部250は、ユーザの視線が視点切り替えオブジェクトに衝突するか否かを判定する(ステップS410)。衝突しないと判定された場合(ステップS410/YES)、処理は再度ステップS402に戻る。衝突すると判定された場合(ステップS410/YES)、出力制御部260は、ユーザ位置の移動に応じて仮想空間内に配置された撮像画像をズームイン/ズームアウトする(ステップS412)。次に、仮想オブジェクト制御部250は、視点切り替え位置までユーザ位置が移動したか否かを判定する(ステップS414)。移動していないと判定された場合(ステップS414/NO)、処理は再度ステップS402に戻る。移動したと判定された場合(ステップS414/YES)、選択部270は、視点切り替えオブジェクトに対応付けられたコンテンツIDを選択する(ステップS416)。これにより、ステップS402において受信されるコンテンツ構成情報が、新たに選択されたコンテンツIDのコンテンツ構成情報に切り替えられ、視点の切り替えが実現される。その後、処理は再度ステップS402に戻る。
 <<3.第2の実施形態>>
 第2の実施形態は、仮想空間内に配置された撮像画像内のトラッキング対象物に当該トラッキング対象物の三次元位置情報を対応付けることで、仮想空間内に配置された撮像画像内のトラッキング対象物が関与する空間インタラクションを実現する形態である。第1の実施形態では、実オブジェクトの表面全体に対し三次元位置情報が対応付けられていたのに対し、第2の実施形態では、実オブジェクトのうちトラッキング対象物の三次元位置に対応する1点に三次元位置情報が対応付けられる。例えば、実オブジェクトのうちトラッキング対象物の三次元位置に対応する1点に対応付けられる三次元位置情報は、トラッカーに対応する実オブジェクトの三次元位置に対応する所定の座標系の特定の座標である。
 <3.1.概要>
 (1)記録装置の概要
 図17は、本実施形態に係る記録装置10の記録装置の概要を説明するための図である。図17では、記録装置10による情報の記録対象となる空間の一例が示されている。図17に示すように、本空間では、観客席17にいる大勢の観客の前で、ステージ16上でトラッカー14を装着した演者18が歌っている。本空間には、記録装置10による記録に関与する装置として、第3のセンサ装置13が設置されている。また、本空間には、モニタ15も配置されている。
 ・第3のセンサ装置13
 第3のセンサ装置13は、実空間をセンシングする装置である。第3のセンサ装置13は、撮像装置を備える。撮像装置については、第1のセンサ装置11に関し上記説明した通りである。
 さらに、第3のセンサ装置13は、実空間におけるトラッキング対象物の位置及び姿勢を検出するトラッカーセンサを備える。例えば、トラッカーセンサは、演者18が手首に装着しているトラッカー14をトラッキング対象物として、トラッカー14の位置及び姿勢を検出する。トラッカーセンサによるトラッキングには、光学式、レーザー式又は磁気式の任意のトラッキング技術が用いられ得る。
 ・モニタ15
 モニタ15については、第1の実施形態において上記説明した通りである。
 以上、記録対象の空間に設置される装置について説明した。
 記録装置10は、第3のセンサ装置13によるセンシング結果に基づいて、再生装置20側でVRコンテンツを構成するための各種情報を含むコンテンツ構成情報を生成する。そして、記録装置10は、生成したコンテンツ構成情報を再生装置20へ送信する。
 (2)再生装置の概要
 図18は、本実施形態に係る再生装置20の概要を説明するための図である。図18では、再生装置20によるVRコンテンツの再生に関与する装置として、HMD21及びコントローラ22が図示されている。HMD21及びコントローラ22については、第1の実施形態において上記説明した通りである。
 再生装置20は、記録装置10から受信したコンテンツ構成情報に基づいて、VRコンテンツを生成する。本実施形態に係るVRコンテンツでは、仮想オブジェクトのひとつとして、実空間を撮像した撮像画像が仮想空間内に配置される。さらに、本実施形態に係るVRコンテンツでは、仮想空間内に配置された撮像画像内のトラッカー14に、当該トラッカー14の三次元位置を示す三次元位置情報が対応付けられる。これにより、仮想空間内に配置された撮像画像内の実オブジェクトであるトラッカー14の空間インタラクションを実現することが可能となる。以下、この点について詳しく説明する。
 図18に示すように、HMD21は、再生装置20により生成されたVRコンテンツ40を表示する。VRコンテンツ40では、仮想空間に、図17に示したステージ16上でトラッカー14を装着した演者18を含む撮像画像が配置されており、且つ、撮像画像内のトラッカー14に三次元位置情報が対応付けられている。
 ユーザがコントローラ22を操作すると、実空間におけるコントローラ22の位置及び姿勢に応じて、仮想空間における操作体41の位置及び姿勢が変化する。操作体41は、仮想空間におけるユーザの操作位置を示す仮想オブジェクトである。再生装置20は、仮想空間における操作体41の位置とトラッカー14に対応付けられた三次元位置情報とに基づいて、仮想空間における操作体41とトラッカー14との衝突を判定する。そして、再生装置20は、衝突したと判定した場合には、衝突に対応する触覚フィードバックをコントローラ22に出力させる。
 このように、本実施形態に係るコンテンツ配信システム1によれば、仮想空間内に配置された撮像画像内の実オブジェクトであるトラッキング対象物が関与する空間インタラクションを実現することが可能となる。
 <3.2.記録装置側の技術的特徴>
 <3.2.1.記録装置の機能構成例>
 図19は、本実施形態に係る記録装置10の機能構成の一例を示すブロック図である。図19に示すように、記録装置10は、画像取得部110、ストリーミング処理部120、トラッカー位置取得部170、コンテンツ構成情報生成部150及び送信部160を含む。
 また、図19では第3のセンサ装置13の機能構成の一例も図示されている。図19に示すように、第3のセンサ装置13は、VRカメラ101及びトラッカーセンサ103を含む。
 以下、これらの構成要素について説明する。ただし、第1の実施形態において説明した構成要素については、第1の実施形態と同様の点については説明を省略し、第1の実施形態と異なる点について説明する。
 (1)第3のセンサ装置13
 VRカメラ101については第1の実施形態において、トラッカーセンサ103については図17を参照しながら、上記説明した通りである。
 (2)記録装置10
 (画像取得部110)
 画像取得部110については、第1の実施形態において上記説明した通りである。
 (ストリーミング処理部120)
 ストリーミング処理部120については、第1の実施形態において上記説明した通りである。
 (トラッカー位置取得部170)
 トラッカー位置取得部170は、第3のセンサ装置13に含まれるトラッカーセンサ103から、実空間のトラッカー14の位置を示す三次元位置情報を取得する機能を有する。ここでの三次元位置情報とは、トラッカーセンサ103の位置に基づき設定される原点とトラッカーセンサ103の姿勢に基づき設定される座標軸とにより定義される、トラッカーセンサ103の座標系における位置を示す情報である。トラッカー14の三次元位置情報は、トラッカー14の1点の三次元位置情報(被写体三次元位置情報に相当)である。トラッカー位置取得部170は、取得したトラッカー14の三次元位置情報をコンテンツ構成情報生成部150に出力する。
 (コンテンツ構成情報生成部150)
 コンテンツ構成情報生成部150については、第1の実施形態においてした上記説明の、表面モデルをトラッカー14の三次元位置情報に読み替えればよい。
 (送信部160)
 送信部160については、第1の実施形態において上記説明した通りである。
 <3.2.2.コンテンツ構成情報のフォーマット>
 図20は、本実施形態に係るコンテンツ構成情報のフォーマットの一例を示す図である。図20に示すように、コンテンツ構成情報は、VR用画像情報及び空間インタラクション構成情報を含む。図20では、フレーム番号が1からnのフレームの画像及びトラッカー14の三次元位置情報をコンテナ化した、コンテンツ構成情報のフォーマットが示されている。
 ・VR用画像情報
 VR用画像情報については、第1の実施形態において上記説明した通りである。
 ・空間インタラクション構成情報
 空間インタラクション構成情報は、フレームごとのトラッカー14の三次元位置情報、トラッカー14の位置姿勢情報の属性情報及びフレーム番号を含む。フレームごとのトラッカー14の三次元位置情報は、フレームごとの画像におけるトラッカー14の位置を示す情報である。属性情報とは、反発係数、摩擦係数及び法線方向等の、空間インタラクションのための物理係数を含む情報である。フレーム番号は、トラッカー14の三次元位置情報の検出時刻に対応する情報であり、仮想空間関連付け情報に相当する。ある時刻に撮像された撮像画像のフレーム番号と同一時刻に検出されたトラッカー14の三次元位置情報のフレーム番号とは、一致することが望ましい。これにより、撮像画像とトラッカー14の三次元位置情報とのタイミング同期を確立することが容易になる。
 空間インタラクション構成情報は、メタデータを含む。メタデータは、コンテンツID、視点切り替えオブジェクト情報、センサ装置位置姿勢情報、及びフィードバック設定情報を含む。コンテンツID、視点切り替えオブジェクト情報、及びフィードバック設定情報については、第1の実施形態において上記説明した通りである。
 本実施形態に係るセンサ装置位置姿勢情報とは、撮像画像を撮像した撮像装置の座標系及びトラッカー14の三次元位置情報を検出したセンサの座標系に関する情報であり、仮想空間関連付け情報に相当する。即ち、本実施形態に係るセンサ装置位置姿勢情報とは、VRカメラ101の座標系及びトラッカーセンサ103の座標系に関する情報である。トラッカーセンサ103の座標系は、トラッカーセンサ103の位置に基づき設定される原点とトラッカーセンサ103の姿勢に基づき設定される座標軸とにより定義される。
 センサ装置位置姿勢情報は、これらの座標系を定義する情報である、VRカメラ101及びトラッカーセンサ103の位置及び姿勢を示す情報を含んでいてもよい。また、センサ装置位置姿勢情報は、VRカメラ101及びトラッカーセンサ103の位置の差分及び姿勢の差分等の、これらの座標系のずれを示す情報を含んでいてもよい。センサ装置位置姿勢情報は、例えば、VRカメラ101及びトラッカーセンサ103の設置状況に基づいて、手動で設定されてもよい。また、センサ装置位置姿勢情報は、トラッカー14をVRカメラ101で撮像し且つトラッカーセンサ103でセンシングしたときの、撮像画像内のトラッカー14の位置及び姿勢と、トラッカーセンサ103により検出されるトラッカー14の位置及び姿勢とを比較することで、取得されてもよい。
 同一の第3のセンサ装置13に含まれるVRカメラ101及びトラッカーセンサ103であっても、位置及び姿勢にずれが生じ得る。このずれに起因して、再生装置20側でのVRコンテンツの構成時に、仮想空間内に配置された撮像画像内のトラッカー14の位置及び姿勢と当該トラッカー14に対応付けられるトラッカー14の三次元位置情報とにずれが生じ得る。この点、センサ装置位置姿勢情報がコンテンツ構成情報に含まれることにより、再生装置20側でずれを補正することが可能となる。
 ここで、撮像画像内にトラッカー14が複数含まれる場合、空間インタラクション構成情報は、トラッカー14の1点の三次元位置情報、属性情報、及びメタデータのセットを、トラッカー14毎に含んでいてもよい。また、空間インタラクション構成情報は、トラッカー14毎に、フィードバック設定情報を含んでいてもよい。その場合、これらのトラッカー14毎の情報に対しては、トラッカー14の識別情報が対応付けられる。
 また、フレーム間でトラッカー14の三次元位置情報が流用されてもよい。その場合、空間インタラクション情報は、流用されるトラッカー14の三次元位置情報、及び当該トラッカー14の三次元位置情報を流用する期間を識別するための情報を含む。例えば、所定時間の間動かないトラッカー14がある場合、コンテンツ構成情報生成部150は、当該所定時間の開始フレームに対応付けてトラッカー14の三次元位置情報を記録すると共に、そのトラッカー14の三次元位置情報を流用する時間情報(例えば、当該所定時間の終了フレーム)を記録する。これにより、伝送量を削減することができるので、伝送遅延を軽減することが可能となる。
 <3.2.3.記録処理の流れ>
 図21は、本実施形態に係る記録装置10により実行される記録処理の流れの一例を示すフローチャートである。図21に示すように、まず、画像取得部110は実空間の撮像画像を取得し、トラッカー位置取得部170はトラッカー14の三次元位置情報を取得する(ステップS502)。次いで、コンテンツ構成情報生成部150は、撮像画像とトラッカー14の三次元位置情報とに基づいてコンテンツ構成情報を生成する(ステップS504)。その後、送信部160は、コンテンツ構成情報を再生装置20へ送信する(ステップS506)。
 <3.3.再生装置側の技術的特徴>
 <3.3.1.再生装置の機能構成例>
 本実施形態に係る再生装置20は、図7に示した構成要素を同様に有する。各構成要素については、第1の実施形態においてした上記説明の、第1のセンサ装置11及び第2のセンサ装置12を第3のセンサ装置13に、デプスセンサ102をトラッカーセンサ103に、表面モデルをトラッカー14の三次元位置情報に、実オブジェクトをトラッカー14に、それぞれ読み替えればよい。その他、本実施形態に特徴的な点について以下に説明する。
 (出力制御部260)
 出力制御部260は、トラッカー14の三次元位置情報に基づいて、仮想空間内に表示される撮像画像内のトラッカー14に仮想オブジェクトを重畳して表示する。これにより、演者18が動いてトラッカー14が動いたとしても、トラッカー14の動きに仮想オブジェクトを付随させることが可能となる。
 また、出力制御部260は、トラッカー14の三次元位置情報の精度に基づいて、トラッカー14に重畳させる仮想オブジェクトの大きさ及び/又は鮮明度を制御してもよい。例えば、出力制御部260は、トラッカー14の三次元位置情報の精度が悪い場合、仮想オブジェクトのサイズを大きくし、及び/又は仮想オブジェクトをぼかす。これにより、トラッカー14の三次元位置情報の精度が悪く、VRコンテンツにおけるトラッカー14とそれに重畳される仮想オブジェクトとにずれが生じる場合であっても、そのずれを目立たなくすることができる。他方、出力制御部260は、トラッカー14の三次元位置情報の精度が良い場合、仮想オブジェクトのサイズを小さくし、及び/又は仮想オブジェクトを強調してもよい。
 (選択部270)
 選択部270は、選択候補の視点として、第3のセンサ装置13を選択し得る。即ち、選択部270は、再生されるVRコンテンツの元となるコンテンツ構成情報として、第3のセンサ装置13によるセンシング結果に基づいて生成されたコンテンツ構成情報を選択し得る。
 <3.3.2.空間インタラクション>
 (1)第1の空間インタラクション
 第1の空間インタラクションは、仮想空間内に配置された撮像画像内のトラッカー14とユーザとのインタラクションに関する。本インタラクションについては、図18を参照して上記説明した通りである。詳しくは、再生装置20は、仮想空間内に配置された撮像画像内のトラッカー14とユーザが操作する操作体41とが衝突した場合に、衝突に対応する触覚フィードバックをコントローラ22により出力させる。このようなインタラクションに関する処理の流れを、図22を参照して説明する。
 図22は、本実施形態に係る再生装置20により実行される第1の空間インタラクション処理の流れの一例を示すフローチャートである。図22に示すように、まず、受信部210は、コンテンツ構成情報を受信する(ステップS602)。次いで、コンテンツ構成情報解析部220は、コンテンツ構成情報からVR用画像情報及び空間インタラクション構成情報を抽出する(ステップS604)。次に、タイミング同期部230は、撮像画像とトラッカー14の三次元位置情報とのタイミング同期を確立し、座標変換部240は、撮像画像とトラッカー14の三次元位置情報との座標系の同期を確立する(ステップS606)。次いで、出力制御部260は、仮想空間に撮像画像を配置する(ステップS608)。
 次に、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内のトラッカー14に、物理係数及びコライダーを対応付ける(ステップS610)。次いで、仮想オブジェクト制御部250は、コントローラ22の位置及び姿勢に基づいて、仮想空間における操作体41の位置及び姿勢を制御する(ステップS612)。次に、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内のトラッカー14と操作体41との衝突有無を判定する(ステップS614)。詳しくは、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内のトラッカー14に対応付けられたコライダーと、操作体41に対応付けられたコライダーとの衝突有無を判定する。衝突していないと判定された場合(ステップS616/NO)、処理は再度ステップS602に戻る。衝突したと判定された場合(ステップS616/YES)、出力制御部260は、衝突に応じたフィードバックを出力する(ステップS618)。詳しくは、出力制御部260は、トラッカー14に対応づけられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚/触覚/聴覚/嗅覚フィードバックの出力を制御する。その後、処理は再度ステップS602に戻る。
 (2)第2の空間インタラクション
 第2の空間インタラクションは、仮想空間内に配置された撮像画像内のトラッカー14に対応付けられた実オブジェクトとユーザとのインタラクションに関する。本インタラクションに関して、図23を参照して詳しく説明する。
 図23は、本実施形態に係る第2の空間インタラクションの一例を説明するための図である。図23に示したVRコンテンツ40Aでは、仮想空間に、図2に示したステージ16上でトラッカー14を装着した演者18を含む撮像画像が配置されており、且つ、撮像画像内のトラッカー14に三次元位置情報が対応付けられている。出力制御部260は、トラッカー14の三次元位置情報に基づいて、トラッカー14の三次元位置に対応する実オブジェクトの三次元位置に重畳するように仮想オブジェクトであるプレゼント47を配置する。例えば、図23に示した例では、出力制御部260は、トラッカー14を装着した側の手のひらの位置にプレゼント47を配置する。そのために、まず、仮想オブジェクト制御部250は、トラッカー14に対応する実オブジェクトの三次元位置情報を、トラッカー14の三次元位置情報に所定の位置オフセット情報を加えることで決定する。例えば、出力制御部260は、トラッカー14の装着位置である手首の位置姿勢と、手首に対する手のひらの位置姿勢との差分を、位置オフセット情報として用いる。そして、仮想オブジェクト制御部250は、トラッカー14に対応する実オブジェクトの三次元位置に、コライダーを対応付ける。これにより、トラッカー14を装着した側の手のひらに対する仮想オブジェクトの配置、及び衝突判定が可能となる。演者18が動いてトラッカー14が動いたとしても、トラッカー14の動きにプレゼント47が付随することとなる。ユーザは、コントローラ22を介して、プレゼント47の位置に操作体41を合わせて受け取る操作を行うことができる。受け取る操作が行われると、プレゼント47が操作体41の子オブジェクトとなり、操作体41がボール43の親オブジェクトとなる。そのため、VRコンテンツ40Bに示すように、プレゼント47が操作体41に付随して動くようになる。このようにして、仮想空間内に配置された撮像画像内の演者18とユーザとのプレゼント47の受け渡しのインタラクションが実現される。このようなインタラクションに関する処理の流れを、図24を参照して説明する。
 図24は、本実施形態に係る再生装置20により実行される第2の空間インタラクション処理の流れの一例を示すフローチャートである。図24に示したステップS702~S708に係る処理は、図22に示したステップS602~S608に係る処理と同様である。その後、仮想オブジェクト制御部250は、上述した通り位置オフセット情報を用いて、トラッカー14に対応する実オブジェクト(例えば、手のひら)の三次元位置に、物理係数及びコライダーを対応付ける(ステップS710)。次いで、出力制御部260は、仮想空間内に配置された撮像画像内のトラッカー14に対応する実オブジェクトの三次元位置に、プレゼント47を配置する(ステップS712)。次いで、仮想オブジェクト制御部250は、コントローラ22の位置及び姿勢に基づいて、仮想空間における操作体41の位置及び姿勢を制御する(ステップS714)。
 その後、仮想オブジェクト制御部250は、トラッカー14に対応する実オブジェクトと操作体41と衝突有無、及び受け取る操作の有無を判定する(ステップS716)。詳しくは、仮想オブジェクト制御部250は、仮想空間内に配置された撮像画像内のトラッカー14に対応する実オブジェクト(例えば、手のひら)に対応付けられたコライダーと、操作体41に対応付けられたコライダーとの衝突有無を判定し、受け取る操作が入力されたか否かを判定する。衝突していない又は受け取る操作が行われていないと判定された場合(ステップS718/NO)、処理は再度ステップS702に戻る。衝突し、且つ受け取る操作が行われたと判定された場合(ステップS718/YES)、出力制御部260は、プレゼント47を操作体41の子オブジェクトとして、プレゼント47が操作体41に付随して移動する様子を表示する(ステップS720)。その際、出力制御部260は、トラッカー14に対応付けられた物理係数及びフィードバック設定情報に基づいて、ユーザへの視覚/触覚/聴覚/嗅覚フィードバックの出力を制御してもよい。その後、処理は再度ステップS702に戻る。
 <<4.補足>>
 (1)記録側
 記録装置10は、第1のセンサ装置11又は第2のセンサ装置12がセンシングに失敗した場合、又はセンシングが途切れる場合には、センシング結果を予測したり、直前のセンシング結果を用いて補間したりしてもよい。また、記録装置10は、デプスセンサ102とトラッカーセンサ103とを組み合わせてコンテンツ構成情報を生成してもよい。即ち、第1の実施形態と第2の実施形態とは、組み合わされてもよい。例えば、記録装置10が生成するコンテンツ構成情報は、表面モデルデータとトラッカーの三次元位置情報の両方を含んでも良い。
 (2)再生側
 再生装置20は、操作体41による操作量を、ユーザに合わせて調整してもよい。例えば、再生装置20は、実空間におけるコントローラ22の位置の変化量と仮想空間における操作体41の位置の変化量との関係を、ユーザの手の長さに応じて調整する。詳しくは、再生装置20は、手の短いユーザについては、少しのコントローラ22の移動で操作体41を大きく移動させる。他にも、再生装置20は、操作体41が勝手に操作対象に近づくようにしてもよい。
 (3)オフセット処理について
 上記第2の実施形態において説明したように、トラッカー14に対応する実オブジェクトが空間インタラクションの対象となる場合、位置オフセット情報を用いてトラッカー14に対応する実オブジェクトの三次元位置情報が取得される。かかる処理を、オフセット処理とも称する。
 オフセット処理において用いられる、トラッカー14とトラッカー14に対応する実オブジェクトとの位置及び姿勢の関係を示す位置オフセット情報は、記録装置10側で取得されてもよいし、再生装置20側で取得されてもよい。記録装置10側で取得される場合、コンテンツ構成情報生成部150は、トラッカー位置取得部170が取得したトラッカー14の三次元位置情報と、位置オフセット情報とを、コンテンツ構成情報に含めて記録してもよい。即ち、コンテンツ構成情報は、トラッカー14の三次元位置情報、及び位置オフセット情報を含む。そして、再生装置20は、受信したコンテンツ構成情報に含まれるトラッカー14の三次元位置情報及び位置オフセット情報に基づいて、トラッカー14に対応する実オブジェクトの三次元位置情報を取得する。
 第2の実施形態においては、記録装置10側ではオフセット処理が行われず、再生装置20側でオフセット処理が行われる例を説明した。しかし、本技術は、かかる例に限定されない。例えば、記録装置10側でオフセット処理が行われ、再生装置20側ではオフセット処理が行われなくてもよい。その場合、コンテンツ構成情報生成部150は、トラッカー位置取得部170が取得したトラッカー14の三次元位置情報に位置オフセット情報を加えることで、トラッカー14に対応する実オブジェクトの三次元位置情報を取得する。そして、コンテンツ構成情報生成部150は、かかる三次元位置情報を、コンテンツ構成情報に含めて記録する。即ち、コンテンツ構成情報は、トラッカー14に対応する実オブジェクトの三次元位置情報を含む。そして、再生装置20は、受信したコンテンツ構成情報に基づいて、トラッカー14に対応する実オブジェクトの三次元位置に、コライダーを対応付ける。
 <<5.ハードウェア構成例>>
 最後に、図25を参照して、本実施形態に係る情報処理装置のハードウェア構成について説明する。図25は、本実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。なお、図25に示す情報処理装置900は、例えば、図4、図7及び図19にそれぞれ示した記録装置10又は再生装置20を実現し得る。本実施形態に係る記録装置10又は再生装置20による情報処理は、ソフトウェアと、以下に説明するハードウェアとの協働により実現される。
 図25に示すように、情報処理装置900は、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903及びホストバス904aを備える。また、情報処理装置900は、ブリッジ904、外部バス904b、インタフェース905、入力装置906、出力装置907、ストレージ装置908、ドライブ909、接続ポート911及び通信装置913を備える。情報処理装置900は、CPU901に代えて、又はこれとともに、電気回路、DSP若しくはASIC等の処理回路を有してもよい。
 CPU901は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置900内の動作全般を制御する。また、CPU901は、マイクロプロセッサであってもよい。ROM902は、CPU901が使用するプログラムや演算パラメータ等を記憶する。RAM903は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。CPU901は、例えば、図4又は図19に示す画像取得部110、ストリーミング処理部120、深度情報取得部130、表面モデル取得部140、コンテンツ構成情報生成部150及びトラッカー位置取得部170を形成し得る。また、CPU901は、例えば、図7に示すコンテンツ構成情報解析部220、タイミング同期部230、座標変換部240、仮想オブジェクト制御部250、出力制御部260及び選択部270を形成し得る。
 CPU901、ROM902及びRAM903は、CPUバスなどを含むホストバス904aにより相互に接続されている。ホストバス904aは、ブリッジ904を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス904bに接続されている。なお、必ずしもホストバス904a、ブリッジ904および外部バス904bを分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
 入力装置906は、例えば、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチ及びレバー等、ユーザによって情報が入力される装置によって実現される。また、入力装置906は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置900の操作に対応した携帯電話やPDA等の外部接続機器であってもよい。さらに、入力装置906は、例えば、上記の入力手段を用いてユーザにより入力された情報に基づいて入力信号を生成し、CPU901に出力する入力制御回路などを含んでいてもよい。情報処理装置900のユーザは、この入力装置906を操作することにより、情報処理装置900に対して各種のデータを入力したり処理動作を指示したりすることができる。
 出力装置907は、取得した情報をユーザに対して視覚的又は聴覚的に通知することが可能な装置で形成される。このような装置として、CRTディスプレイ装置、液晶ディスプレイ装置、プラズマディスプレイ装置、ELディスプレイ装置、レーザープロジェクタ、LEDプロジェクタ及びランプ等の表示装置や、スピーカ及びヘッドホン等の音声出力装置や、プリンタ装置等がある。出力装置907は、例えば、情報処理装置900が行った各種処理により得られた結果を出力する。具体的には、表示装置は、情報処理装置900が行った各種処理により得られた結果を、テキスト、イメージ、表、グラフ等、様々な形式で視覚的に表示する。他方、音声出力装置は、再生された音声データや音響データ等からなるオーディオ信号をアナログ信号に変換して聴覚的に出力する。
 ストレージ装置908は、情報処理装置900の記憶部の一例として形成されたデータ格納用の装置である。ストレージ装置908は、例えば、HDD等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス又は光磁気記憶デバイス等により実現される。ストレージ装置908は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置908は、CPU901が実行するプログラムや各種データ及び外部から取得した各種のデータ等を格納する。
 ドライブ909は、記憶媒体用リーダライタであり、情報処理装置900に内蔵、あるいは外付けされる。ドライブ909は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記録されている情報を読み出して、RAM903に出力する。また、ドライブ909は、リムーバブル記憶媒体に情報を書き込むこともできる。
 接続ポート911は、外部機器と接続されるインタフェースであって、例えばUSB(Universal Serial Bus)などによりデータ伝送可能な外部機器との接続口である。
 通信装置913は、例えば、ネットワーク920に接続するための通信デバイス等で形成された通信インタフェースである。通信装置913は、例えば、有線若しくは無線LAN(Local Area Network)、LTE(Long Term Evolution)、Bluetooth(登録商標)又はWUSB(Wireless USB)用の通信カード等である。また、通信装置913は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ又は各種通信用のモデム等であってもよい。この通信装置913は、例えば、インターネットや他の通信機器との間で、例えばTCP/IP等の所定のプロトコルに則して信号等を送受信することができる。通信装置913は、例えば、図4又は図19に示す送信部160を形成し得る。また、通信装置913は、例えば、図7に示す受信部210を形成し得る。
 なお、ネットワーク920は、ネットワーク920に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク920は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク920は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。
 以上、本実施形態に係る情報処理装置900の機能を実現可能なハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて実現されていてもよいし、各構成要素の機能に特化したハードウェアにより実現されていてもよい。従って、本実施形態を実施する時々の技術レベルに応じて、適宜、利用するハードウェア構成を変更することが可能である。
 なお、上述のような本実施形態に係る情報処理装置900の各機能を実現するためのコンピュータプログラムを作製し、PC等に実装することが可能である。また、このようなコンピュータプログラムが格納された、コンピュータで読み取り可能な記録媒体も提供することができる。記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、フラッシュメモリ等である。また、上記のコンピュータプログラムは、記録媒体を用いずに、例えばネットワークを介して配信されてもよい。
 <<6.まとめ>>
 以上、図1~図25を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る記録装置10は、実オブジェクトを含む撮像画像と、実オブジェクトの三次元位置情報を取得する。そして、記録装置10は、撮像画像、実オブジェクトの三次元位置情報、及び仮想空間内に表示される撮像画像内の実オブジェクトが関与するインタラクションに用いられる情報であって、撮像画像内の実オブジェクトと当該実オブジェクトの三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成する。これにより、再生装置20側で、仮想空間内に撮像画像を配置しつつ、当該撮像画像内の実オブジェクトに三次元位置情報を対応付けることができる。再生装置20は、かかる三次元位置情報を参照することで、仮想空間内に表示された撮像画像内の実オブジェクトと他の仮想オブジェクトとの空間インタラクションを実現することが可能となる。詳しくは、再生装置20は、仮想空間内に表示された撮像画像内の実オブジェクトの三次元位置情報と、他の仮想オブジェクトの三次元位置情報とに基づいて、これらの衝突を検出し、衝突に伴うフィードバックを出力することが可能となる。このようにして、実写VRコンテンツにおける空間インタラクションをより適切に実現することが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1)
 被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
 前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、
を備える情報処理装置。
(2)
 前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、前記(1)に記載の情報処理装置。
(3)
 前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、前記(1)又は(2)に記載の情報処理装置。
(4)
 前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、前記(1)~(3)のいずれか一項に記載の情報処理装置。
(5)
 前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、前記(1)~(4)のいずれか一項に記載の情報処理装置。
(6)
 前記フィードバック設定情報は、視覚的、触覚的、聴覚的又は嗅覚的にフィードバックされる内容を設定する情報を含む、前記(5)に記載の情報処理装置。
(7)
 前記フィードバック設定情報は、前記仮想空間内における視点移動の際にフィードバックされる内容を設定する情報を含む、前記(5)又は(6)に記載の情報処理装置。
(8)
 前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、前記(1)~(7)のいずれか一項に記載の情報処理装置。
(9)
 前記被写体三次元位置情報は、前記被写体の表面の複数の点の三次元位置情報である、前記(1)~(8)のいずれか一項に記載の情報処理装置。
(10)
 前記被写体三次元位置情報は、所定の条件を満たす前記被写体の、表面の複数の点の三次元位置情報である、前記(9)に記載の情報処理装置。
(11)
 前記被写体三次元位置情報は、前記コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報である、前記(9)又は(10)に記載の情報処理装置。
(12)
 前記被写体三次元位置情報は、トラッキング対象物の1点の三次元位置情報である、前記(1)~(11)のいずれか一項に記載の情報処理装置。
(13)
 被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
 前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
を備える情報処理装置。
(14)
 前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、前記(13)に記載の情報処理装置。
(15)
 前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、前記(13)又は(14)に記載の情報処理装置。
(16)
 前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、前記(13)~(15)のいずれか一項に記載の情報処理装置。
(17)
 前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、前記(13)~(16)のいずれか一項に記載の情報処理装置。
(18)
 前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、前記(13)~(17)のいずれか一項に記載の情報処理装置。
(19)
 前記情報処理装置は、
 前記被写体三次元位置情報に対し、前記撮像画像を撮像した撮像装置の座標系と前記被写体三次元位置情報を検出したセンサの座標系とのずれを補正するための座標変換処理を適用する座標変換部をさらに備える、前記(13)~(18)のいずれか一項に記載の情報処理装置。
(20)
 前記情報処理装置は、
 前記撮像画像と前記被写体三次元位置情報とのタイミング同期を確立するタイミング同期部をさらに備える、前記(13)~(19)のいずれか一項に記載の情報処理装置。
(21)
 前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と他の仮想オブジェクトとの衝突に対応するフィードバックの出力を制御する、前記(13)~(20)のいずれか一項に記載の情報処理装置。
(22)
 前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記仮想空間におけるユーザの操作位置を示す仮想オブジェクトとが衝突した場合に、衝突したことを示す触覚フィードバックの出力を制御する、前記(21)に記載の情報処理装置。
(23)
 前記情報処理装置は、前記被写体三次元位置情報と前記他の仮想オブジェクトの三次元位置情報とに基づいて、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記他の仮想オブジェクトとの衝突を検出する衝突検出部をさらに備える、前記(21)又は(22)に記載の情報処理装置。
(24)
 前記出力制御部は、前記被写体三次元位置情報に基づいて、前記仮想空間内に表示される前記撮像画像内の前記被写体に仮想オブジェクトを重畳する、前記(13)~(23)のいずれか一項に記載の情報処理装置。
(25)
 前記出力制御部は、前記被写体三次元位置情報の精度に基づいて、前記被写体に重畳させる仮想オブジェクトの大きさ及び/又は鮮明度を制御する、前記(24)に記載の情報処理装置。
(26)
 前記情報処理装置は、前記仮想空間におけるユーザ位置に対応する前記コンテンツ構成情報を、前記取得部が取得すべき前記コンテンツ構成情報として選択する選択部をさらに備える、前記(13)~(25)のいずれか一項に記載の情報処理装置。
(27)
 前記選択部は、前記仮想空間におけるユーザ位置が所定の位置に到達したことをトリガとして、選択する前記コンテンツ構成情報を切り替える、前記(26)に記載の情報処理装置。
(28)
 前記所定の位置は、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置である、前記(27)に記載の情報処理装置。
(29)
 前記所定の位置は、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトまでの距離が、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置と同等である、前記(27)に記載の情報処理装置。
(30)
 前記出力制御部は、前記選択部による切り替え後、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトがユーザの視線と衝突するように、前記仮想空間に前記撮像画像を配置する、前記(27)又は(29)に記載の情報処理装置。
(31)
 前記出力制御部は、前記仮想空間におけるユーザの視線が所定の仮想オブジェクトに衝突した場合に、前記ユーザ位置を移動させる、前記(27)~(30)のいずれか一項に記載の情報処理装置。
(32)
 被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、
 前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、
を備える、プロセッサにより実行される情報処理方法。
(33)
 被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、
 前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、
を備える、プロセッサにより実行される情報処理方法。
(34)
 コンピュータを、
 被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
 前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、
として機能させるためのプログラム。
(35)
 コンピュータを、
 被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
 前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
として機能させるためのプログラム。
 1  コンテンツ配信システム
 10  記録装置
 110  画像取得部
 120  ストリーミング処理部
 130  深度情報取得部
 140  表面モデル取得部
 150  コンテンツ構成情報生成部
 160  送信部
 170  トラッカー位置取得部
 11  第1のセンサ装置
 12  第2のセンサ装置
 13  第3のセンサ装置
 101  VRカメラ
 102  デプスセンサ
 103  トラッカーセンサ
 14  トラッカー
 15  モニタ
 16  ステージ
 17  観客席
 18  演者
 19  視点切り替え位置
 20  再生装置
 210  受信部
 220  コンテンツ構成情報解析部
 230  タイミング同期部
 240  座標変換部
 250  仮想オブジェクト制御部
 260  出力制御部
 270  選択部
 22  コントローラ
 201  表示部
 202  位置姿勢検出部
 203  音声出力部
 204  音声入力部
 205  位置姿勢検出部
 206  振動出力部

Claims (35)

  1.  被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
     前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部と、
    を備える情報処理装置。
  2.  前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、請求項1に記載の情報処理装置。
  3.  前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、請求項1に記載の情報処理装置。
  4.  前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、請求項1に記載の情報処理装置。
  5.  前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、請求項1に記載の情報処理装置。
  6.  前記フィードバック設定情報は、視覚的、触覚的、聴覚的又は嗅覚的にフィードバックされる内容を設定する情報を含む、請求項5に記載の情報処理装置。
  7.  前記フィードバック設定情報は、前記仮想空間内における視点移動の際にフィードバックされる内容を設定する情報を含む、請求項5に記載の情報処理装置。
  8.  前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、請求項1に記載の情報処理装置。
  9.  前記被写体三次元位置情報は、前記被写体の表面の複数の点の三次元位置情報である、請求項1に記載の情報処理装置。
  10.  前記被写体三次元位置情報は、所定の条件を満たす前記被写体の、表面の複数の点の三次元位置情報である、請求項9に記載の情報処理装置。
  11.  前記被写体三次元位置情報は、前記コンテンツ構成情報の伝送速度に応じた数の点の三次元位置情報である、請求項9に記載の情報処理装置。
  12.  前記被写体三次元位置情報は、トラッキング対象物の1点の三次元位置情報である、請求項1に記載の情報処理装置。
  13.  被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
     前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
    を備える情報処理装置。
  14.  前記仮想空間関連付け情報は、前記撮像画像と前記被写体三次元位置情報とを関連付ける識別情報を含む、請求項13に記載の情報処理装置。
  15.  前記仮想空間関連付け情報は、前記撮像画像を撮像した撮像装置の座標系及び前記被写体三次元位置情報を検出したセンサの座標系に関する情報を含む、請求項13に記載の情報処理装置。
  16.  前記仮想空間関連付け情報は、前記撮像画像の撮像時刻に対応する情報及び前記被写体三次元位置情報の検出時刻に対応する情報を含む、請求項13に記載の情報処理装置。
  17.  前記コンテンツ構成情報は、前記仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションが行われる場合のフィードバック内容を設定するフィードバック設定情報をさらに含む、請求項13に記載の情報処理装置。
  18.  前記コンテンツ構成情報は、前記被写体の物理係数を示す情報を含む、請求項13に記載の情報処理装置。
  19.  前記情報処理装置は、
     前記被写体三次元位置情報に対し、前記撮像画像を撮像した撮像装置の座標系と前記被写体三次元位置情報を検出したセンサの座標系とのずれを補正するための座標変換処理を適用する座標変換部をさらに備える、請求項13に記載の情報処理装置。
  20.  前記情報処理装置は、
     前記撮像画像と前記被写体三次元位置情報とのタイミング同期を確立するタイミング同期部をさらに備える、請求項13に記載の情報処理装置。
  21.  前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と他の仮想オブジェクトとの衝突に対応するフィードバックの出力を制御する、請求項13に記載の情報処理装置。
  22.  前記出力制御部は、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記仮想空間におけるユーザの操作位置を示す仮想オブジェクトとが衝突した場合に、衝突したことを示す触覚フィードバックの出力を制御する、請求項21に記載の情報処理装置。
  23.  前記情報処理装置は、前記被写体三次元位置情報と前記他の仮想オブジェクトの三次元位置情報とに基づいて、前記仮想空間内に表示された前記撮像画像内の前記被写体と前記他の仮想オブジェクトとの衝突を検出する衝突検出部をさらに備える、請求項21に記載の情報処理装置。
  24.  前記出力制御部は、前記被写体三次元位置情報に基づいて、前記仮想空間内に表示される前記撮像画像内の前記被写体に仮想オブジェクトを重畳する、請求項13に記載の情報処理装置。
  25.  前記出力制御部は、前記被写体三次元位置情報の精度に基づいて、前記被写体に重畳させる仮想オブジェクトの大きさ及び/又は鮮明度を制御する、請求項24に記載の情報処理装置。
  26.  前記情報処理装置は、前記仮想空間におけるユーザ位置に対応する前記コンテンツ構成情報を、前記取得部が取得すべき前記コンテンツ構成情報として選択する選択部をさらに備える、請求項13に記載の情報処理装置。
  27.  前記選択部は、前記仮想空間におけるユーザ位置が所定の位置に到達したことをトリガとして、選択する前記コンテンツ構成情報を切り替える、請求項26に記載の情報処理装置。
  28.  前記所定の位置は、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置である、請求項27に記載の情報処理装置。
  29.  前記所定の位置は、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトまでの距離が、切り替え先の前記コンテンツ構成情報の元となる前記撮像画像を撮像した撮像装置の位置に相当する前記仮想空間内の位置と同等である、請求項27に記載の情報処理装置。
  30.  前記出力制御部は、前記選択部による切り替え後、前記仮想空間内に表示された前記撮像画像内の所定の実オブジェクトがユーザの視線と衝突するように、前記仮想空間に前記撮像画像を配置する、請求項27に記載の情報処理装置。
  31.  前記出力制御部は、前記仮想空間におけるユーザの視線が所定の仮想オブジェクトに衝突した場合に、前記ユーザ位置を移動させる、請求項27に記載の情報処理装置。
  32.  被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得することと、
     前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成することと、
    を備える、プロセッサにより実行される情報処理方法。
  33.  被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得することと、
     前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御することと、
    を備える、プロセッサにより実行される情報処理方法。
  34.  コンピュータを、
     被写体を含む撮像画像と、前記被写体の三次元位置を示す被写体三次元位置情報を取得する取得部と、
     前記撮像画像、前記被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を生成するコンテンツ構成情報生成部、
    として機能させるためのプログラム。
  35.  コンピュータを、
     被写体を含む撮像画像、前記被写体の三次元位置を示す被写体三次元位置情報、及び仮想空間内に表示される前記撮像画像内の前記被写体が関与するインタラクションに用いられる情報であって、前記撮像画像内の前記被写体と前記被写体三次元位置情報とを関連付ける仮想空間関連付け情報、を含むコンテンツ構成情報を取得する取得部と、
     前記コンテンツ構成情報に基づき、前記仮想空間内に前記撮像画像を表示し、前記仮想空間内に表示された前記撮像画像内の前記被写体が関与するインタラクションに対応するフィードバックの出力を制御する出力制御部と、
    として機能させるためのプログラム。
PCT/JP2019/025255 2018-07-20 2019-06-25 情報処理装置、情報処理方法及びプログラム WO2020017261A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/254,305 US11250636B2 (en) 2018-07-20 2019-06-25 Information processing device, information processing method, and program
EP19837662.6A EP3825817A4 (en) 2018-07-20 2019-06-25 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
CN201980046227.0A CN112424728B (zh) 2018-07-20 2019-06-25 信息处理装置、信息处理方法和存储介质
KR1020217000351A KR20210031894A (ko) 2018-07-20 2019-06-25 정보 처리 장치, 정보 처리 방법 및 프로그램
JP2020531203A JP7338626B2 (ja) 2018-07-20 2019-06-25 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018136547 2018-07-20
JP2018-136547 2018-07-20

Publications (1)

Publication Number Publication Date
WO2020017261A1 true WO2020017261A1 (ja) 2020-01-23

Family

ID=69164014

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/025255 WO2020017261A1 (ja) 2018-07-20 2019-06-25 情報処理装置、情報処理方法及びプログラム

Country Status (6)

Country Link
US (1) US11250636B2 (ja)
EP (1) EP3825817A4 (ja)
JP (1) JP7338626B2 (ja)
KR (1) KR20210031894A (ja)
CN (1) CN112424728B (ja)
WO (1) WO2020017261A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021199913A1 (ja) * 2020-03-31 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP6959682B1 (ja) * 2020-12-28 2021-11-05 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
JP7044426B1 (ja) 2021-10-14 2022-03-30 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
WO2022118747A1 (ja) * 2020-12-04 2022-06-09 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
WO2022145414A1 (ja) * 2020-12-28 2022-07-07 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
WO2023276252A1 (ja) * 2021-06-30 2023-01-05 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
WO2024048195A1 (ja) * 2022-09-02 2024-03-07 株式会社Nttドコモ 表示制御装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12002154B1 (en) * 2024-01-22 2024-06-04 Illuscio, Inc. Systems and methods for automatic and dynamic generation of shape-conforming and computationally efficient colliders for point clouds

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293605A (ja) * 2005-04-08 2006-10-26 Canon Inc 情報処理方法およびシステム
JP2009145883A (ja) 2007-11-20 2009-07-02 Rissho Univ 学習システム、記憶媒体及び学習方法
JP2018014090A (ja) * 2016-06-15 2018-01-25 イマージョン コーポレーションImmersion Corporation ケースを介して触覚フィードバックを提供するためのシステム及び方法
JP2018112894A (ja) * 2017-01-11 2018-07-19 キヤノン株式会社 システムおよび制御方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7843470B2 (en) 2005-01-31 2010-11-30 Canon Kabushiki Kaisha System, image processing apparatus, and information processing method
JP5799521B2 (ja) * 2011-02-15 2015-10-28 ソニー株式会社 情報処理装置、オーサリング方法及びプログラム
JP2014149712A (ja) * 2013-02-01 2014-08-21 Sony Corp 情報処理装置、端末装置、情報処理方法及びプログラム
BR112015024910A2 (pt) * 2013-03-26 2017-07-18 Seiko Epson Corp dispositivo de exibição montado na cabeça, método de controle de dispositivo de exibição montado na cabeça e sistema de exibição
US9754167B1 (en) * 2014-04-17 2017-09-05 Leap Motion, Inc. Safety for wearable virtual reality devices via object detection and tracking
US9746984B2 (en) * 2014-08-19 2017-08-29 Sony Interactive Entertainment Inc. Systems and methods for providing feedback to a user while interacting with content
CN105094335B (zh) * 2015-08-04 2019-05-10 天津锋时互动科技有限公司 场景提取方法、物体定位方法及其系统
US10212428B2 (en) * 2017-01-11 2019-02-19 Microsoft Technology Licensing, Llc Reprojecting holographic video to enhance streaming bandwidth/quality
CN107015655A (zh) * 2017-04-11 2017-08-04 苏州和云观博数字科技有限公司 博物馆虚拟场景ar体验眼镜装置及其实现方法
JP6298557B1 (ja) * 2017-04-14 2018-03-20 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム
US20190066385A1 (en) * 2017-08-31 2019-02-28 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and non-transitory computer-readable storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006293605A (ja) * 2005-04-08 2006-10-26 Canon Inc 情報処理方法およびシステム
JP2009145883A (ja) 2007-11-20 2009-07-02 Rissho Univ 学習システム、記憶媒体及び学習方法
JP2018014090A (ja) * 2016-06-15 2018-01-25 イマージョン コーポレーションImmersion Corporation ケースを介して触覚フィードバックを提供するためのシステム及び方法
JP2018112894A (ja) * 2017-01-11 2018-07-19 キヤノン株式会社 システムおよび制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3825817A4

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021199913A1 (ja) * 2020-03-31 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理方法および情報処理プログラム
WO2022118747A1 (ja) * 2020-12-04 2022-06-09 ソニーグループ株式会社 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP6959682B1 (ja) * 2020-12-28 2021-11-05 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
WO2022145414A1 (ja) * 2020-12-28 2022-07-07 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
JP2022103572A (ja) * 2020-12-28 2022-07-08 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
WO2023276252A1 (ja) * 2021-06-30 2023-01-05 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
JP7044426B1 (ja) 2021-10-14 2022-03-30 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
JP2023059137A (ja) * 2021-10-14 2023-04-26 株式会社計数技研 画像合成装置、画像合成方法、及びプログラム
WO2024048195A1 (ja) * 2022-09-02 2024-03-07 株式会社Nttドコモ 表示制御装置

Also Published As

Publication number Publication date
JPWO2020017261A1 (ja) 2021-08-26
US11250636B2 (en) 2022-02-15
CN112424728A (zh) 2021-02-26
EP3825817A4 (en) 2021-09-08
KR20210031894A (ko) 2021-03-23
US20210217248A1 (en) 2021-07-15
EP3825817A1 (en) 2021-05-26
JP7338626B2 (ja) 2023-09-05
CN112424728B (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
JP7338626B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN109582135B (zh) 群体事件期间的触觉效果广播
US20200258314A1 (en) Information processing device, information processing method, and recording medium
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
JP5857946B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN107943275B (zh) 模拟环境显示系统及方法
CN110637274B (zh) 信息处理设备、信息处理方法以及程序
CN111045511B (zh) 基于手势的操控方法及终端设备
CN111373347B (zh) 用于虚拟现实内容的提供的装置、方法和计算机程序
US11354871B2 (en) Head-mountable apparatus and methods
WO2019187862A1 (ja) 情報処理装置、情報処理方法、および記録媒体
US20210191504A1 (en) Information processing device, information processing method, and program
KR20180017736A (ko) Hmd 및 그 hmd의 제어 방법
US20230179756A1 (en) Information processing device, information processing method, and program
JPWO2014073384A1 (ja) 情報処理装置
CN112272817A (zh) 用于在沉浸式现实中提供音频内容的方法和装置
CN109791436B (zh) 用于提供虚拟场景的装置及方法
US11314082B2 (en) Motion signal generation
WO2022075152A1 (ja) 情報処理装置、情報処理方法及び情報配信システム
JP6921204B2 (ja) 情報処理装置および画像出力方法
WO2018216327A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112752190A (zh) 音频调整方法以及音频调整装置
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム
GB2569576A (en) Audio generation system
WO2022209129A1 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19837662

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020531203

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019837662

Country of ref document: EP

Effective date: 20210222