WO2020059327A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2020059327A1
WO2020059327A1 PCT/JP2019/030670 JP2019030670W WO2020059327A1 WO 2020059327 A1 WO2020059327 A1 WO 2020059327A1 JP 2019030670 W JP2019030670 W JP 2019030670W WO 2020059327 A1 WO2020059327 A1 WO 2020059327A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
real space
space image
information processing
display
Prior art date
Application number
PCT/JP2019/030670
Other languages
English (en)
French (fr)
Inventor
啓生 郷原
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/274,378 priority Critical patent/US20220053179A1/en
Publication of WO2020059327A1 publication Critical patent/WO2020059327A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/158Switching image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/66Transforming electric information into light information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking

Definitions

  • the present technology relates to an information processing apparatus, an information processing method, and a program that can be applied to display of a spherical image or the like.
  • an object of the present technology is to provide an information processing device, an information processing method, and a program capable of providing a high-quality viewing experience.
  • an information processing device includes a processing unit.
  • the processing unit includes: a first real space image displayed in a virtual space; and an area in which the first real space image in the virtual space is displayed, the first real space image being displayed.
  • a switching process corresponding to the angle of view of the first real space image is executed based on the metadata regarding the switching of the display, and the switching between the first real space image and the second real space image is performed.
  • the display is switched with. This makes it possible to provide a high quality viewing experience.
  • the processing unit may determine whether or not it is the execution timing of the switching process based on the metadata, and execute the switching process if it is the execution timing of the switching process.
  • the processing unit determines whether a switching condition for executing the switching process is satisfied based on the metadata, and executes the switching process when the switching condition is satisfied. Good.
  • the switching condition may include a condition that a difference between a shooting position of the first real space image and a shooting position of the second real space image is equal to or less than a predetermined threshold.
  • the switching condition may include a condition that a difference between a shooting time of the first real space image and a shooting time of the second real space image is equal to or less than a predetermined threshold.
  • the switching process generates a restricted image in which display of a range other than a corresponding range corresponding to an angle of view of the first real space image of the second real space image is restricted, and generates the first real space image. And switching the display between the restricted image and the restricted image.
  • the switching process may include switching a display between the first real space image and the limited image after changing the size of the first real space image to be the size of the corresponding range of the second real space image.
  • the switching process may include generating the restricted image such that the display content displayed in the corresponding range of the restricted image is the same as the display content of the first real space image.
  • the first real space image may be an image photographed from a predetermined photographing position in the real space.
  • the second real space image may be an image obtained by combining a plurality of images photographed from a predetermined photographing position in the real space.
  • the second real space image may be a spherical image.
  • the first real space image may be a moving image including a plurality of frame images.
  • the processing unit may switch display between a predetermined frame image of the first real space image and the second real space image.
  • the second real space image may be a moving image including a plurality of frame images.
  • the processing unit may switch display between a predetermined frame image of the first real space image and a predetermined frame image of the second real space image.
  • the metadata may include information on an angle of view of the first real space image.
  • the metadata may include first shooting information including a shooting position of the first real space image, and second shooting information including a shooting position of the second real space image.
  • the first shooting information may include a shooting direction and a shooting time of the first real space image.
  • the second shooting information may include a shooting time of the second real space image.
  • the metadata may include information on an execution timing of the switching process.
  • the processing unit may control display of the first real space image and the second real space image on an HMD (Head Mounted Display).
  • HMD Head Mounted Display
  • An information processing method is an information processing method executed by a computer system, and includes a first real space image displayed in a virtual space, and a first real space image of the virtual space.
  • the first real space image is displayed on a larger area than the area where the first real space image is displayed, including the area where the first real space image is displayed.
  • Executing a switching process corresponding to the angle of view of the aerial image includes switching display between the first real space image and the second real space image.
  • a program causes a computer system to execute the following steps.
  • the first real space image and the second real space image are displayed. Switching the display between the second real space image and the second real space image.
  • FIG. 1 is a schematic diagram illustrating a configuration example of a VR providing system according to an embodiment of the present technology. It is a figure showing the example of composition of HMD.
  • FIG. 2 is a block diagram illustrating a functional configuration example of an HMD.
  • FIG. 3 is a block diagram illustrating a functional configuration example of a server device. It is a schematic diagram for explaining plane image data.
  • FIG. 3 is a diagram schematically illustrating display of a two-dimensional image by an HMD. It is a schematic diagram for demonstrating spherical image data. It is a figure which shows the display of the whole spherical image by HMD typically.
  • FIG. 4 is a diagram illustrating an example of metadata.
  • FIG. 4 is a diagram illustrating an example of metadata.
  • FIG. 4 is a diagram illustrating an example of metadata.
  • FIG. 4 is a diagram illustrating an example of metadata.
  • FIG. 4 is a diagram illustrating an example of metadata. It is a flowchart which shows an example of the display switching processing from a spherical image to a plane image. It is a flowchart which shows an example of the display switching process from a plane image to a spherical image.
  • FIG. 4 is a schematic diagram for explaining an example of control of a spherical image. It is a schematic diagram for explaining an example of control of a plane image. It is a schematic diagram which shows an example of how the user sees the video when the display switching process is executed. It is a schematic diagram which shows an example of a transition image. It is a schematic diagram which shows an example of how the user sees the video when the display switching process is executed.
  • FIG. 3 is a block diagram illustrating a hardware configuration example of a server device.
  • FIG. 1 is a schematic diagram illustrating a configuration example of a VR providing system according to an embodiment of the present technology.
  • the VR providing system 100 corresponds to an embodiment of an information processing system according to the present technology.
  • the VR provision system 100 includes the HMD 10 and the server device 50.
  • the HMD 10 is used by being worn on the head of the user 1. Although one HMD 10 is illustrated in FIG. 1, the number of HMDs 10 included in the VR providing system 100 is not limited. That is, the number of users 1 who can participate in the VR providing system 100 at that time is not limited.
  • the server device 50 is communicably connected to the HMD 10 via the network 3.
  • the server device 50 can receive various information from the HMD 10 via the network 3. Further, the server device 50 can store various information in the database 60, read out various information stored in the database 60, and transmit the information to the HMD 10.
  • the omnidirectional video data 61, the planar video data 62, and the metadata 63 are stored in the database 60 (both refer to FIG. 4).
  • the content including the display of both the spherical image and the planar image is transmitted from the server device 50 to the HMD 10.
  • the server device 50 controls the display of the spherical image and the planar image on the HMD 10.
  • the server device 50 functions as an embodiment of an information processing device according to the present technology.
  • image includes both a still image and a moving image.
  • a video is a concept included in a moving image. Therefore, “image” includes a video.
  • the network 3 is constructed by, for example, the Internet or a wide area communication network.
  • any WAN (Wide Area Network), LAN (Local Area Network), or the like may be used, and the protocol for constructing the network 3 is not limited.
  • a so-called cloud service is provided by the network 3, the server device 50, and the database 60. Therefore, it can be said that the HMD 10 is connected to the cloud network.
  • the method for communicatively connecting the server device 50 and the HMD 10 is not limited.
  • both may be connected by short-range wireless communication such as Bluetooth (registered trademark) without building a cloud network.
  • FIG. 2 is a diagram illustrating a configuration example of the HMD 10.
  • FIG. 2A is a perspective view schematically illustrating the appearance of the HMD 10
  • FIG. 2B is a perspective view schematically illustrating the state where the HMD 10 is disassembled.
  • the HMD 10 includes a base unit 11, a wearing band unit 12, a headphone unit 13, a display unit 14, an inward camera 15 (15a, 15b), an outward camera 16, and a cover unit 17.
  • the base 11 is a member disposed in front of the left and right eyes of the user 1, and is provided with a forehead support 18 that is in contact with the forehead of the user 1.
  • the wearing band unit 12 is worn on the head of the user 1. As shown in FIG. 2, the wearing band section 12 has a temporal band 19 and a parietal band 20.
  • the temporal band 19 is connected to the base 11 and is worn so as to surround the user 1's head from the temporal to the occipital region.
  • the crown band 20 is connected to the temporal band 19 and is worn so as to surround the head of the user 1 from the temporal region to the crown.
  • the headphone unit 13 is connected to the base unit 11 and is arranged so as to cover the left and right ears of the user 1.
  • the headphone section 13 is provided with left and right speakers.
  • the position of the headphone unit 13 can be controlled manually or automatically.
  • the configuration for that purpose is not limited, and any configuration may be adopted.
  • the display unit 14 is inserted into the base unit 11 and arranged in front of the eyes of the user 1.
  • a display 22 (see FIG. 3) is arranged inside the display unit 14.
  • the display unit 14 is provided with a lens system (not shown) for guiding an image displayed on the display 22 to the left and right eyes of the user 1.
  • the inward-facing camera 15 includes a left-eye camera 15a and a right-eye camera 15b that can photograph the left and right eyes of the user 1.
  • the left-eye camera 15a and the right-eye camera 15b are respectively installed at predetermined positions of the HMD 10, specifically, at predetermined positions of the base unit 11. For example, it is possible to detect line-of-sight information and the like regarding the line of sight of the user 1 based on left-eye and right-eye images captured by the left-eye and right-eye cameras 15a and 15b.
  • CMOS Complementary Metal-Oxide Semiconductor
  • CCD Charge Coupled Device
  • an infrared camera equipped with infrared illumination such as an infrared LED may be used.
  • the outward camera 16 is arranged at the center of the cover 17 toward the outside (the side opposite to the user 1).
  • the outward camera 16 can capture a real space in front of the user 1.
  • a digital camera having an image sensor such as a CMOS sensor or a CCD sensor is used.
  • the cover 17 is attached to the base 11 and is configured to cover the display unit 14.
  • the HMD 10 configured as described above functions as an immersive head-mounted display configured to cover the field of view of the user 1.
  • the HMD 10 displays a three-dimensional virtual space.
  • the user 1 can experience a virtual reality (VR) or the like by wearing the HMD 10.
  • VR virtual reality
  • FIG. 3 is a block diagram showing a functional configuration example of the HMD 10. As shown in FIG.
  • the HMD 10 further includes a connector 23, operation buttons 24, a communication unit 25, a sensor unit 26, a storage unit 27, and a controller 28.
  • the connector 23 is a terminal for connection with another device.
  • terminals such as USB (Universal Serial Bus) and HDMI (registered trademark) (High-Definition Multimedia Interface) are provided.
  • USB Universal Serial Bus
  • HDMI registered trademark
  • the operation button 24 is provided, for example, at a predetermined position on the base unit 11. With the operation button 24, it is possible to execute operations related to various functions of the HMD 10, such as a power ON / OFF operation, a function relating to image display and audio output, and a network communication function.
  • the communication unit 25 is a module for executing network communication, short-range wireless communication, and the like with other devices.
  • a wireless LAN module such as WiFi or a communication module such as Bluetooth is provided.
  • the operation of the communication unit 25 enables wireless communication with the server device 50.
  • the sensor unit 26 has a nine-axis sensor 29, a GPS 30, a living body sensor 31, and a microphone 32.
  • the # 9-axis sensor 29 includes a 3-axis acceleration sensor, a 3-axis gyro sensor, and a 3-axis compass sensor.
  • the nine-axis sensor 29 can detect acceleration, angular velocity, and azimuth of the HMD 10 in three axes.
  • the GPS 30 acquires information on the current position of the HMD 10.
  • the detection results of the 9-axis sensor 29 and the GPS 30 are used to detect, for example, the posture and position of the user 1 (HMD 10), the movement (movement) of the user 1, and the like. These sensors are provided, for example, at predetermined positions of the base unit 11.
  • the biological sensor 31 can detect biological information of the user 1.
  • an electroencephalogram sensor for example, an electroencephalogram sensor, a myoelectric sensor, a pulse sensor, a perspiration sensor, a temperature sensor, a blood flow sensor, a body movement sensor, and the like are provided.
  • the microphone 32 detects sound information around the user 1. For example, a voice or the like spoken by the user is appropriately detected. Thus, for example, the user 1 can enjoy a VR experience while making a voice call, and can perform an operation input of the HMD 10 using a voice input.
  • the type of sensor provided as the sensor unit 26 is not limited, and an arbitrary sensor may be provided.
  • a temperature sensor, a humidity sensor, or the like that can measure the temperature and humidity of the environment in which the HMD 10 is used may be provided.
  • the inward camera 15 and the outward camera 16 can be regarded as a part of the sensor unit 26.
  • the storage unit 27 is a non-volatile storage device, for example, an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • any non-transitory computer-readable storage medium may be used.
  • the control program 33 for controlling the entire operation of the HMD 10 is stored in the storage unit 27.
  • the method for installing the control program 33 in the HMD 10 is not limited.
  • the controller 28 controls the operation of each block of the HMD 10.
  • the controller 28 has a hardware configuration necessary for a computer, such as a CPU and a memory (RAM, ROM).
  • a computer such as a CPU and a memory (RAM, ROM).
  • RAM random access memory
  • ROM read-only memory
  • a PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • the tracking unit 35, the display control unit 36, and the instruction determining unit 37 are realized as functional blocks by the CPU of the controller 28 executing the program (for example, an application program) according to the present embodiment. Then, the information processing method according to the present embodiment is executed by these functional blocks. Note that dedicated hardware such as an IC (integrated circuit) may be appropriately used to realize each functional block.
  • the tracking unit 35 performs head tracking for detecting the movement of the head of the user 1 and eye tracking for detecting the movement of the user's left and right eyes. That is, the tracking unit 35 can detect which direction the HMD 10 is facing and which direction the line of sight of the user 1 is facing.
  • the tracking data detected by the tracking unit 35 is included in the posture information and the line-of-sight information of the user 1 (HMD 10).
  • Head tracking and eye tracking are calculated based on detection results from the sensor unit 26 and images captured by the inward camera 15 and the outward camera 16.
  • the algorithm for executing head tracking and eye tracking is not limited, and an arbitrary algorithm may be used.
  • an arbitrary machine learning algorithm using DNN (Deep Neural Network) may be used.
  • AI artificial intelligence
  • deep learning deep learning
  • the display control unit 36 controls image display by the display unit 14 (display 22).
  • the display control unit 36 appropriately executes, for example, image processing and display control.
  • drawing data for displaying an image on the display 22 is transmitted to the HMD 10 by the server device 50.
  • the display control unit 36 performs image processing and display control based on the drawing data transmitted from the server device 50, and causes the display 22 to display an image.
  • the instruction determination unit 37 determines an instruction input by the user 1. For example, the instruction determination unit 37 determines an instruction of the user 1 based on an operation signal generated in response to an operation on the operation button 24. The instruction determining unit 37 determines the instruction of the user 1 based on the voice of the user 1 input via the microphone 32.
  • the instruction determining unit 37 determines an instruction of the user 1 based on a gesture using the hand or the like of the user 1 captured by the outward camera 16. It is also possible to determine the instruction of the user 1 based on the movement of the line of sight of the user 1.
  • the present invention is not limited to the case where all of the voice input, the gesture input, and the input based on the movement of the line of sight are possible. Other instruction input methods may be possible.
  • a specific algorithm for determining an instruction input by the user 1 is not limited, and an arbitrary technique may be used. Also, any machine learning algorithm may be used.
  • FIG. 4 is a block diagram illustrating a functional configuration example of the server device 50.
  • the server device 50 has hardware necessary for the configuration of the computer, such as a CPU, a ROM, a RAM, and an HDD (see FIG. 19).
  • the CPU loads a program according to the present technology pre-recorded in a ROM or the like into the RAM and executes the program, so that the decoding unit 51, the meta parser unit 52, the user interface unit 53, the switching timing determination unit 54, the parallax determination
  • the unit 55, the switching determination unit 56, the spherical image control unit 57, the plane image control unit 58, and the rendering unit 59 are realized, and the information processing method according to the present technology is executed.
  • the server device 50 can be realized by an arbitrary computer such as a PC (Personal Computer).
  • a PC Personal Computer
  • hardware such as an FPGA and an ASIC may be used.
  • dedicated hardware such as an IC (integrated circuit) may be used to realize each block shown in FIG.
  • the program is installed in the server device 50 via various recording media, for example.
  • the installation of the program may be executed via the Internet or the like.
  • the decoding unit 51 decodes the spherical image data 61 and the plane image data 62 read from the database 60.
  • the decoded spherical image data 61 is output to the spherical image controller 57.
  • the decoded plane image data 62 is output to the plane image control unit 58.
  • the encoding / decoding format of the image data is not limited.
  • the meta parser unit 52 reads the metadata 63 from the database 60 and outputs the metadata 63 to the switching timing determination unit 54 and the parallax determination unit 55.
  • the metadata 63 is metadata relating to switching of the display between the spherical image and the plane image, and will be described in detail later.
  • the user interface unit 53 receives the tracking data transmitted from the HMD 10 and an instruction input by the user 1.
  • the received tracking data and input instruction are output to the switching determination unit 56 and the planar image control unit 58 as appropriate.
  • the switching timing determining unit 54 includes a parallax determining unit 55, a switching determining unit 56, an omnidirectional video control unit 57, a planar video control unit 58, and a rendering unit 59, which execute a display switching process according to the present technology. It is.
  • the display switching process according to the present technology is a process for switching a display between a whole celestial sphere image (a whole celestial sphere image) and a planar image (a flat image), and corresponds to a switching process.
  • the switching timing determination unit 54 includes a processing unit according to the present technology by the functions of the parallax determination unit 55, the switching determination unit 56, the spherical image control unit 57, the planar image control unit 58, and the rendering unit 59.
  • One embodiment is realized. Therefore, it can be said that an embodiment of the processing unit according to the present technology is realized by hardware constituting a computer such as a CPU.
  • the server device 50 includes a communication unit (see FIG. 19) for executing network communication, short-range wireless communication, and the like with other devices.
  • the operation of the communication unit enables wireless communication with the HMD 10.
  • FIG. 5 is a schematic diagram for explaining plane image data.
  • the plane image data 62 is data of a moving image including a plurality of frame images 64.
  • an image and an image data (video data) may be described without distinction.
  • the same reference numerals as the plane image data 62 may be used to describe the plane image 62 in some cases.
  • a moving image is shot from a predetermined shooting position in a predetermined real space. That is, in the present embodiment, the plane image 62 is generated from a real space image that is an image of the real space. Further, in the present embodiment, the planar image 62 corresponds to an image in which a real space is rectangularly photographed by perspective projection.
  • the predetermined real space is a real space selected to realize a virtual space, and may be any location such as indoors such as a stadium or a concert hall, or outdoors such as a mountain or a river.
  • the shooting position is also appropriately selected. For example, an arbitrary photographing position such as an entrance of a stadium, a predetermined audience seat, an entrance of a mountain trail, a top of a mountain, or the like may be selected.
  • a rectangular frame image 64 photographed with a predetermined aspect ratio and a predetermined resolution is generated.
  • the plurality of frame images 64 are photographed at a predetermined frame rate, so that the plane image 62 is generated.
  • the frame image 64 of the plane image 62 is referred to as a plane frame image 64.
  • a full HD image of 1920 pixels in width ⁇ 1080 pixels in height having an aspect ratio of 16: 9 is photographed at 60 frames / sec.
  • the present invention is not limited to this, and the aspect ratio, resolution, frame rate, and the like of the planar frame image 64 may be arbitrarily set.
  • the shape of the planar image 62 (the planar frame image 64) is not limited to a rectangular shape. The present technology is applicable to images of other shapes such as a circle and a triangle.
  • FIG. 6 is a diagram schematically showing the display of the planar image 62 by the HMD 10. As shown in FIG. FIG. 6A is a diagram of the user 1 viewing the planar image 62 viewed from the front (from the planar image 62 side). FIG. 6B is a diagram in which the user 1 who is viewing the planar image 62 is viewed obliquely from behind.
  • a space that covers the entire front and rear, left and right, and up and down 360 degrees of the user 1 wearing the HMD 10 is a virtual space S represented by VR content. That is, the user 1 sees the area in the virtual space S regardless of the surrounding direction.
  • a flat image 62 (flat frame image 64) is displayed on the display 22 of the HMD 10.
  • the plane image 62 is displayed in a partial area in the virtual space S.
  • an area in the virtual space S where the planar image 62 is displayed is referred to as a first display area R1.
  • the plane image 62 is displayed, for example, in front of the user 1. Therefore, the position of the first display region R1 where the planar image 62 is displayed can be changed according to the movement of the head of the user 1 or the like.
  • a display method is also possible in which the planar image 62 is displayed fixed at a predetermined position and the user 1 cannot view the planar image 62 unless the user 1 looks in that direction.
  • the size and the like of the plane image 62 can be changed by an instruction of the user 1 or the like.
  • the size of the first display region R1 is also changed.
  • a background image or the like is displayed in an area other than the first display area R1 in the virtual space S where the planar image 62 is displayed.
  • the background image may be a single-color image such as black or green, or may be an image related to content.
  • the background image may be generated by three-dimensional or two-dimensional CG or the like.
  • the plane image 62 corresponds to a first real space image displayed in a virtual space.
  • the plane image 62 corresponds to an image photographed from a predetermined photographing position in the real space.
  • the planar image 62 can also be referred to as a predetermined shape image.
  • a rectangular shape is adopted as the predetermined shape, but another shape such as a circular shape may be adopted as the predetermined shape.
  • FIG. 7 is a schematic diagram for explaining spherical image data.
  • a plurality of real space images 66 are photographed from a predetermined photographing position in a predetermined real space.
  • the plurality of real space images 66 are photographed in different photographing directions from the same photographing position so as to cover the real space of 360 degrees around the front, rear, left, right, and up and down. Further, the plurality of real space images 66 are photographed so that the angles of view (imaging ranges) of the photographed images adjacent to each other overlap.
  • the omnidirectional video data 61 shown in FIG. 7 is generated by combining the plurality of real space images 66 based on a predetermined format.
  • a plurality of real space images 66 photographed by perspective projection are synthesized based on a predetermined format.
  • Examples of a format for generating the spherical image data 61 include an equirectangular projection (Equirectangular) projection and a cube map (CubeMap).
  • the present invention is not limited to these, and any projection method or the like may be used.
  • the illustration of the spherical image data 61 shown in FIG. 7 is only a schematic diagram.
  • FIG. 8 is a diagram schematically showing the display of the spherical image 61 by the HMD 10. As shown in FIG. 8A is a diagram of the user 1 viewing the omnidirectional video 61 as viewed from the front. FIG. 8B is a diagram of the user 1 viewing the omnidirectional video 61 as viewed obliquely from behind.
  • the spherical image data 61 is pasted on a sphere virtually arranged around the HMD 10 (user 1). Therefore, for the user 1 wearing the HMD 10, the omnidirectional video 61 is displayed in the entire 360-degree area around the virtual space S in front, rear, left and right, and up and down. As a result, it is possible to realize a very high feeling of immersion in the content, and to provide the user 1 with an excellent viewing experience.
  • a region in the virtual space S where the spherical image 61 is displayed is defined as a second display region R2.
  • the second display area R2 is all areas in the virtual space S around the user 1.
  • the second display region R2 is wider than the first display region R1 including the first display region R1, as compared with the first display region R1 in which the planar image 62 shown in FIG. 6 is displayed.
  • FIG. 8 illustrates a display area 67 of the display 22.
  • the range in which the user 1 can view the omnidirectional video 61 is a range corresponding to the display area 67 of the display 22.
  • the position of the display area 67 of the display 22 is changed according to the movement of the head of the user 1 and the like, and the viewable range of the spherical image 61 is changed.
  • the user 1 can view the omnidirectional video 61 in all directions.
  • the display area 67 of the display 22 is shown in a shape along the inner peripheral surface of the sphere. Actually, a rectangular image is displayed on the display 22, similarly to the planar image 62 shown in FIG. For the user 1, a visual effect that covers the periphery of the user 1 is obtained.
  • the image display area in the virtual space S does not mean an area corresponding to a range actually displayed by the display 22, but means an area in the virtual space S where an image is displayed.
  • the first display region R1 is a rectangular region corresponding to the planar image 62 in the virtual space S.
  • the second display region R2 is an entire region of the virtual space S, which corresponds to the whole celestial sphere image 61, and has a 360 ° perimeter in all directions including front and rear, left and right, and up and down.
  • a moving image having a plurality of frame images is captured as the plurality of real space images 66 shown in FIG.
  • the images are combined with each frame image, and the spherical image 61 is generated. Therefore, in the present embodiment, it is possible to view the omnidirectional video 61 configured as a moving image.
  • a plurality of real space images 66 are simultaneously captured in all directions. Then, the frame images corresponding to each other are combined, and the omnidirectional video 61 is generated.
  • the method is not limited to this, and another method may be used.
  • the omnidirectional image (still image) sequentially displayed along the time axis included in the omnidirectional image 61 configured as a moving image is a frame image of the omnidirectional image 61.
  • the frame rate of the frame image of the spherical image is not limited, and may be set arbitrarily. As shown in FIG. 7, the frame image of the spherical image 61 is described as a spherical frame image 68.
  • the size of the spherical image 61 (the spherical frame image 68) viewed from the user 1 is constant.
  • the scale of the celestial sphere image 61 (virtual scale of the sphere) is changed around the user 1.
  • the distance between the user 1 and the spherical image 61 (the inner peripheral surface of the virtual sphere) also changes according to the change in the scale, and the size of the spherical image 61 does not change after all.
  • the omnidirectional image 61 includes a region in which the first real space image in the virtual space is displayed and a second region displayed in a wider region than the region in which the first real space image is displayed. It corresponds to a real space image.
  • the omnidirectional video 61 corresponds to an image obtained by combining a plurality of images captured from a predetermined capturing position in the real space.
  • the spherical image 61 can also be called a virtual reality image.
  • FIGS. 9 to 11 are diagrams showing an example of the metadata 63.
  • the metadata 63 is metadata relating to switching of the display between the plane image 62 and the omnidirectional image 61.
  • metadata 63a relating to the planar image 62 is stored.
  • the following information is stored as metadata 63a.
  • the angle of view of the plane frame image 64 is determined by, for example, the angle of view, the focal length, and the like of the lens of the imaging device that has captured the plane frame image 64.
  • the angle of view of the plane frame image 64 can be said to be a parameter corresponding to the shooting range of the plane frame image 64. Therefore, information on the shooting range of the plane frame image 64 may be stored as the metadata 63a.
  • the angle of view of the plane frame image 64 corresponds to information on the angle of view of the first real space image.
  • the shooting position, the shooting direction, and the rotation position of the plane frame image 64 are determined by, for example, a predetermined XYZ coordinate system defined in advance.
  • XYZ coordinate values are stored as the shooting position.
  • the direction of the photographing optical axis of the image pickup apparatus that has photographed the plane frame image 64 as the photographing direction is stored using XYZ coordinate values based on the photographing position.
  • the rotation position for example, a pitch angle, a roll angle, and a yaw angle with the X axis as the pitch axis, the Y axis as the roll axis, and the Z axis as the yaw axis are stored.
  • the shooting time for example, the date and time when the plane frame image 64 was shot are stored.
  • Examples of the shooting environment include the weather when the plane frame image 64 is shot.
  • the type of the metadata 63a regarding the plane image 62 is not limited. In addition, what kind of data each information is stored is not limited.
  • the metadata 63a related to the planar image 62 corresponds to first shooting information.
  • other information may be stored as the first shooting information.
  • metadata 63b relating to the spherical image 61 is stored.
  • the following information is stored as metadata 63b.
  • ID identification information assigned to each celestial sphere frame image 68; photographing position: photographic position of the celestial sphere frame image 68; photographing time: date and time of photographing the celestial sphere frame image 68; Shooting environment when shooting Format: Format of spherical image 61
  • the shooting position of the omnidirectional frame image 68 is created based on the shooting positions of the plurality of real space images 66 shown in FIG.
  • a plurality of real space images 66 are photographed at the same photographing position, and the photographing positions are stored.
  • an average value of each photographing position is stored.
  • the shooting time of the celestial sphere frame image 68 is created based on the shooting time of each of the plurality of real space images 66 shown in FIG.
  • the photographing time is stored.
  • an intermediate time among the photographing times is stored.
  • the shooting environment includes the weather when the plurality of real space images 66 are shot.
  • the format is a format when generating the omnidirectional video data 61 from the plurality of real space images 66.
  • the type of the metadata 63b relating to the omnidirectional video 61 is not limited. In addition, what kind of data each information is stored is not limited.
  • the metadata 63b related to the omnidirectional video 61 corresponds to the second shooting information.
  • other information may be stored as the second shooting information.
  • FIG. 11 shows an example of the metadata 63c used in the display switching process in the present embodiment.
  • the following information is stored as metadata 63c.
  • Time series of movement amount time series of movement amount of planar image 62 with respect to spherical image 61
  • Time series of angle angle of view of planar image 62 with respect to spherical image 61
  • Time series of the photographing direction time series of the photographing direction of the plane image 62 with respect to the spherical image 61
  • Rotation time series the time series of the rotational position (rotation angle) of the plane image 62 with respect to the spherical image 61
  • the switching timing is determined by, for example, the creator of the VR content. For example, the timing when the user 1 moves to a predetermined position in the virtual space and looks in a predetermined direction is stored. Alternatively, a timing at which a predetermined time has elapsed from the start of the VR content is stored. In addition, various timings may be stored as the switching timing. In the present embodiment, the switching timing corresponds to information on the execution timing of the switching process.
  • the time series of the movement amount corresponds to the time series information of the difference (distance) between the shooting position of the plane frame image 64 and the shooting position of the omnidirectional frame image 68. Based on the time series of the movement amount, it is possible to calculate the difference between the photographing positions of the plane frame image 64 photographed at a certain photographing time and the omnidirectional frame image 68.
  • the difference between the shooting positions may be referred to as parallax.
  • the time series of the angle of view / shooting direction / rotation position of the plane image 62 with respect to the omnidirectional image 61 corresponds to the time series information of the display area size and the position of the plane image 62 with respect to the omnidirectional image 61. That is, it can be said that the position and size of the position and size of the first display region R1 where the planar image 62 is displayed with respect to the second display region R2 where the omnidirectional image 61 is displayed. With this time-series information, it is possible to calculate the positional relationship (including the size) between the second display area R2 and the first display area R1 at a certain time.
  • the method of generating and storing each time-series information included in the metadata 63c is not limited.
  • the time series information may be manually generated by a VR content creator and manually input.
  • each time series information may be generated based on the metadata 63a and 63b shown in FIGS. 9 and 10, and may be stored as the metadata 63c.
  • the time series of the angle of view can also be said to be information on the angle of view of the first real space image.
  • a time series of the moving amount, a time series of the photographing direction, and a time series of the rotation can be used as the first and second photographing information.
  • the type of the pet data 63c is not limited.
  • what kind of data each information is stored is not limited. It is also possible to generate each time-series information in real time during the reproduction of the VR content without using it as the metadata 63c, and to use it for the display switching process.
  • FIG. 12 is a flowchart illustrating an example of the display switching process from the spherical image 61 to the planar image 62.
  • FIG. 13 is a flowchart illustrating an example of a display switching process from the planar image 62 to the spherical image 61.
  • the spherical image 61 is reproduced by the HMD 10 (step 101).
  • the spherical image data 61 is read by the server device 50.
  • Rendering processing is executed by the rendering unit 59 based on the read omnidirectional video data 61, and rendering data for displaying each frame image 68 of the omnidirectional video 61 on the display 22 of the HMD 10 is generated. You.
  • the generated drawing data of the spherical image 61 is transmitted to the HMD 10.
  • the display control unit 36 of the HMD 10 causes the display 22 to display the omnidirectional frame image 68 at a predetermined frame rate based on the drawing data transmitted from the server device 50.
  • the user 1 wearing the HMD 10 can view the omnidirectional video 61.
  • the position of the display area 67 displayed on the HMD 10 is moved according to the head movement of the user 1 (change in the direction of the HMD 10).
  • the tracking data transmitted from the HMD 10 is received by the user interface unit 53 of the server device 50. Then, the range (angle of view) corresponding to the display area 67 of the display 22 of the HMD 10 is calculated by the spherical image controller 57.
  • the rendering unit 59 generates drawing data in the calculated range and transmits the drawing data to the HMD 10.
  • the display control unit 36 of the HMD 10 displays the spherical image 61 on the display 22 based on the transmitted drawing data.
  • the range (angle of view) to be displayed on the display 22 may be determined by the display control unit 36 of the HMD 10 based on the tracking data.
  • the switching timing determination unit 54 determines whether or not it is time to execute the display switching process (step 102). This determination is performed based on the metadata 63 output from the meta parser unit 52. Specifically, it is determined based on the switching timing included in the metadata 63c shown in FIG. 11 whether or not it is the execution timing of the display switching process.
  • the switching determination unit 56 determines whether a display switching instruction has been input (step 103). This determination is performed based on the input instruction of the user 1 received by the user interface unit 53.
  • Step 104 If there is no input of the display switching instruction (No in step 103), the process returns to step 101, and the reproduction of the omnidirectional video 61 is continued.
  • the parallax determining unit 55 and the switching determining unit 56 determine whether a display switching condition for executing a display switching process is satisfied ( Step 104).
  • the display switching condition it is determined whether or not the difference (parallax) between the shooting position of the spherical image 61 and the shooting position of the plane image 62 is equal to or smaller than a predetermined threshold.
  • the parallax determination unit 55 refers to the time series of the moving amount in the metadata 63c illustrated in FIG. Then, it is determined whether or not the difference between the shooting position of the omnidirectional frame image 68 displayed on the HMD 10 and the shooting position of the planar frame image 64 shot at the same shooting time is equal to or smaller than a predetermined threshold. The plane frame image 64 photographed at the same photographing time is the image to be switched. The determination result by the parallax determination unit 55 is output to the switching determination unit 56.
  • the switching determination unit 56 determines whether the display switching condition is satisfied based on the determination result by the parallax determination unit 55. When the parallax between the omnidirectional frame image 68 and the plane frame image 64 to be switched is equal to or smaller than a predetermined threshold, it is determined that the display switching condition is satisfied. When the parallax between the omnidirectional frame image 68 and the plane frame image 64 to be switched is larger than a predetermined threshold, it is determined that the display switching condition is not satisfied.
  • Step 104 If the display switching condition is not satisfied (No in Step 104), the process returns to Step 101, and the reproduction of the omnidirectional video 61 is continued. At this time, an error or the like indicating that the display switching process cannot be executed may be notified to the user 1. If the display switching condition is satisfied (Yes in step 104), the display switching process is performed.
  • the display switching condition according to the present embodiment includes a condition that the difference between the shooting position of the first real space image and the shooting position of the second real space image is equal to or less than a predetermined threshold.
  • a plane frame image 64 having the same shooting time as the omnidirectional frame image 68 is set as an image to be switched. Therefore, in the present embodiment, it can be considered that the display switching condition includes a condition that the shooting time of the first real space image is the same as the shooting time of the second real space image. It is.
  • the display switching condition may be considered to include a condition that the difference between the shooting time of the first real space image and the shooting time of the second real space image is equal to or less than a predetermined threshold. It is possible.
  • the omnidirectional image 61 is controlled by the omnidirectional image controller 57 (step 105). Further, the plane image 62 is controlled by the plane image control unit 58 (step 106). Steps 105 and 106 may each be performed in parallel.
  • FIG. 14 is a schematic diagram for explaining an example of control of the spherical image 61.
  • a corresponding range 70 corresponding to the angle of view of the planar frame image 64 to be switched is calculated for the omnidirectional frame image 68.
  • the corresponding range 70 can be calculated, for example, based on the time series of the angle of view, the time series of the shooting direction, and the time series of the rotation of the metadata 63c shown in FIG.
  • the range other than the corresponding range 70 is masked by the spherical image controller 57, and the restricted image 71 in which the display of the range other than the corresponding range 70 (hereinafter, referred to as a mask range 72) is restricted is generated.
  • a transition image 73 in which the mask is gradually executed from the outside of the corresponding range 70 is also generated in accordance with the generation of the restriction image 71.
  • a background image is selected as the mask image displayed in the mask range 72. That is, the mask area 72 other than the corresponding area 70 of the omnidirectional image 61 is masked by the background image displayed in the area other than the first display area R1 of the planar image 62.
  • the method of generating the transition image 73 in which the mask is continuously extended is not limited.
  • the restricted image 71 is generated such that the display content displayed in the corresponding range 70 of the omnidirectional frame image 68 is the same as the display content of the planar frame image 64 to be switched. .
  • the spherical image control unit 57 can generate an image with an arbitrary angle of view based on the spherical image data 61. Therefore, it is possible to generate the restricted image 71 in which the same display content as the plane frame image 64 is displayed in the corresponding range 70.
  • the image in the corresponding range 70 becomes a rectangular image of perspective projection similarly to the plane frame image 64.
  • the image in the corresponding range 70 becomes a rectangular image of perspective projection similarly to the plane frame image 64.
  • FIG. 15 is a schematic diagram for explaining an example of control of the planar image 62.
  • the plane image control unit 58 controls the size of the plane frame image 64 to be switched. Specifically, the size of the plane frame image 64 is controlled so as to be the size of the corresponding range 70 of the restricted image 71 shown in FIG.
  • the size of the plane frame image 64 is changed to be smaller.
  • the present invention is not limited to this, and may be changed so that the size of the plane frame image 64 is increased. In some cases, it is not necessary to change the size.
  • the rendering unit 59 generates drawing data of the transition image 73, the restriction image 71, and the plane frame image 64 whose size is controlled, and transmits the drawing data to the HMD 10.
  • the display control unit 36 of the HMD 10 displays an image (transition image 73) in which the mask range 72 other than the corresponding range 70 of the omnidirectional frame image 68 is gradually masked, and finally displays the restricted image 71.
  • the plane frame image 64 whose size is controlled is displayed. That is, in the present embodiment, the display is switched between the restricted image 71 and the plane frame image 64 whose size is controlled by the display switching process. Thus, the display is switched between the spherical image 61 and the plane image 62.
  • FIG. 16 is a schematic diagram illustrating an example of how a video image is viewed by the user 1 when the display switching process is performed.
  • the spherical image 61 is displayed in the virtual space S.
  • a rectangular image is schematically displayed, but a viewing experience that covers the user 1 is provided.
  • the mask is gradually executed from the outside toward a part of the rectangular range 75 of the celestial sphere image 61. Finally, all of the other range 76 is masked, leaving a part of the rectangle 75.
  • the rectangular range 75 corresponds to the corresponding range 70 shown in FIG.
  • the image in which the mask is gradually expanded corresponds to the transition image 73.
  • the image in which the area other than the rectangular area 70 is masked corresponds to the restricted image 71.
  • the rectangular range 75 (corresponding range 70) is located at the center of the viewing range of the user 1.
  • the corresponding range 70 may be a position offset from the center of the user 1 viewing range, or the corresponding range 70 may be a position outside the user viewing range.
  • the entire spherical image 61 may be moved so that the corresponding range 70 is included in the viewing range of the user 1 (for example, to move to the center of the viewing range).
  • the line of sight of the user 1 (the direction of the HMD 10) may be guided such that the corresponding range 70 is included in the viewing range (for example, positioned at the center of the viewing range).
  • an arbitrary process may be executed.
  • the plane frame image 64 whose size is controlled is displayed in the corresponding range 70.
  • the display content of the corresponding range 70 of the restricted image 71 and the display content of the plane frame image 64 whose size is controlled are the same.
  • the mask of the restriction image 71 is configured by a background image when the plane frame image 64 is displayed.
  • step 102 if it is determined in step 102 that it is time to execute the display switching process, the display switching process is executed.
  • the display switching process is performed at a timing determined by the creator of the VR content. Therefore, the spherical image 61 and the plane image 62 satisfying the switching condition are prepared in advance, and a natural display switching process is executed.
  • the planar image 62 is reproduced by the HMD 10 (Step 201).
  • the plane video data 62 is read by the server device 50.
  • the rendering unit 59 Based on the read planar video data 62, the rendering unit 59 generates drawing data of each frame image 64 of the planar video 62.
  • the display control unit 36 of the HMD 10 causes the display 22 to display the planar frame image 64 at a predetermined frame rate based on the drawing data transmitted from the server device 50.
  • the user 1 wearing the HMD 10 can view the two-dimensional image 62.
  • the switching timing determination unit 54 determines whether it is time to execute the display switching process (step 202). When it is determined that it is not time to execute the display switching process (No in Step 202), the switching determination unit 56 determines whether or not a display switching instruction has been input (Step 203).
  • step 203 If there is no input of the display switching instruction (No in step 203), the process returns to step 201, and the reproduction of the planar image 62 is continued.
  • the parallax determining unit 55 and the switching determining unit 56 determine whether a display switching condition for executing the display switching process is satisfied ( Step 204).
  • Step 204 If the display switching condition is not satisfied (No in Step 204), the process returns to Step 201, and the reproduction of the planar image 62 is continued. If the display switching condition is satisfied (Yes in step 204), the display switching process is performed.
  • the display switching condition is the same as the condition determined when the display is switched from the spherical image 61 to the planar image 62.
  • the omnidirectional image 61 is controlled by the omnidirectional image controller 57 (step 205). Further, the plane image 62 is controlled by the plane image control unit 58 (step 206). Steps 205 and 206 may each be performed in parallel.
  • the spherical image control unit 57 generates the restricted image 71 shown in FIG.
  • a transition image 74 is generated in which the masks in the mask area 72 other than the corresponding area 70 are gradually reduced toward the outside.
  • the transition image 74 can be said to be an image in which the display range of the omnidirectional video 61 gradually widens.
  • the method of generating the transition image 74 for continuously removing the mask and finally displaying the spherical image 61 is not limited. For example, for an angle of view of 180 ° or more, if the angle of view subtracted from 360 ° on the opposite side is not displayed, it is possible to continuously expand the angle of view. It becomes celestial sphere display.
  • the size of the plane frame image 64 is controlled by the plane image control unit 58 so as to be the size of the corresponding range 70 of the restricted image 71 to be switched (see FIG. 15).
  • the planar image 62 is deleted and the spherical image 61 is displayed (step 207).
  • FIG. 18 is a schematic diagram illustrating an example of how a video image is viewed by the user 1 when the display switching process is performed. First, the size of the plane frame image 64 displayed in the virtual space S is controlled. Then, at the same time when the plane frame image 64 is deleted, the restriction image 71 is displayed.
  • the display content of the plane frame image 64 whose size is controlled is the same as the display content of the rectangular range 75 (corresponding range 70) of the restricted image 71.
  • the mask of the restriction image 71 is configured by a background image when the plane frame image 64 is displayed.
  • the display is switched from the plane frame image 64 to the restricted image 71, there is no change in the appearance to the user 1, and the appearance is the same. Therefore, the user 1 does not recognize the switching from the plane image 62 to the omnidirectional image 61, and the plane frame image 64 is displayed.
  • the display switching process is executed.
  • the display switching process is performed at a timing determined by the creator of the VR content. Therefore, the spherical image 61 and the plane image 62 satisfying the switching condition are prepared in advance, and a natural display switching process is executed.
  • the display switching process corresponding to the angle of view of the plane image 62 is executed based on the metadata 63 regarding the display switching, and the plane image 62 and the omnidirectional image 61 The display is switched between. This makes it possible to continuously transition the display of the omnidirectional image 61 and the display of the planar image 62. As a result, it is possible to provide the user 1 with a high-quality viewing experience.
  • the spherical image 61 viewed by the HMD 10 spreads over the entire visual field and is directly connected to the visual field, it seems that the spherical image 61 has been used in a rectangular image (plane image 62) photographed by perspective projection broadcast on a conventional television or the like. If the editing is performed incorrectly, it may adversely affect the user 1 such as sickness, and often limits the method of creating the content.
  • the present inventor has newly devised to partially use the plane image 62 even for the content of the spherical image 61.
  • the user 1 does not feel the continuity of space and time, and the user 1 is recognized as a separate and independent content.
  • the user 1 who views the omnidirectional video 61 is very sick.
  • the movement in the spherical image 61 tends to deviate from the visual information and the sense of the semicircular canal, and from this viewpoint, the user 1 tends to get drunk.
  • the spherical image 61 is switched to the plane image 62. Then, a moving image in which the viewpoint moves along the moving route is displayed.
  • the planar image 62 it is possible to sufficiently suppress the influence of camera shake during shooting.
  • the moving image is a familiar moving image, it is possible to sufficiently prevent a difference between the visual information and the sense of the semicircular canal. As a result, it is possible to sufficiently prevent the user 1 who is watching the VR content from getting drunk, and to realize a smooth viewpoint movement.
  • the image is switched to the plane image 62 and then the image of the other place or the like is displayed.
  • a scene switching effect that has been used in the two-dimensional image 62 can be applied, and various expressions can be achieved. Further, the burden on the user 1 can be suppressed.
  • the present invention is also applicable to switching from the plane image 62 to another source image such as another CG image.
  • the technique for generating the spherical image 61 is relatively recently developed. Therefore, the accumulation of assets such as past images is often smaller in the spherical image 61 than in the planar image 62.
  • the omnidirectional video 61 is appropriately switched to the planar video 62. This makes it possible to make full use of assets such as past images of the plane image 62. As a result, it is possible to improve the quality of the VR content, and to provide the user 1 with a high-quality viewing experience.
  • ⁇ ⁇ Viewing VR content such as watching sports or watching concerts.
  • a thumbnail for content selection is displayed by the plane image 62.
  • the planar image 62 it is possible to easily generate a plurality of thumbnails having the same size and the same shape.
  • the highlight of the game is displayed on the plane image 62. Also, a moving image in which the viewpoint moves from the entrance of the stadium to the seat of the stand is displayed.
  • the plane image 62 it is possible to easily display images of past games, images of players, and the like. In addition, it is possible to realize a smooth viewpoint movement.
  • the display switching process is executed, and the omnidirectional video 61 that allows the entire stadium to be viewed is displayed.
  • the timing of sitting on a seat and the like are stored in the switching timing of the metadata 63c shown in FIG.
  • the user 1 it is also possible for the user 1 to input a display switching process instruction while the plane image 62 is being reproduced.
  • the omnidirectional video 61 that allows the entire stadium to be viewed from the point where the instruction is input is displayed. This makes it possible to obtain a viewing experience that is extremely immersive and gives a sense of realism.
  • the introduction video of the artist and the video of the past concert are displayed on the plane video 62. Also, a moving image in which the viewpoint moves from the entrance of the concert venue to the seating of the audience seats is displayed.
  • the display switching process is executed, and the celestial sphere image 61 that allows the entire concert hall to be viewed is displayed.
  • the omnidirectional video 61 may be displayed according to a display switching process instruction input by the user 1. The user 1 can fully enjoy the concert, and can obtain a high-quality viewing experience.
  • ⁇ ⁇ Another use case is viewing travel content.
  • a spherical image 61 is displayed at the entrance of the mountain climbing entrance.
  • the user 1 can enjoy nature while watching the entire 360 ° circumference.
  • the display is switched to the plane image 62 and the viewpoint is moved.
  • the switching timing of the metadata 63c shown in FIG. 11 may store the time after a predetermined time has elapsed after arrival at the entrance.
  • the intention of departure by the user 1 may be input, and the display switching process may be executed according to the input.
  • the plane image 62 By using the plane image 62, a smooth viewpoint movement along the mountain road is realized. Thereafter, at the timing of arriving at a relay point or a mountaintop on the way, the omnidirectional video 61 is automatically displayed. The user 1 can enjoy nature while viewing the entire 360 ° circumference at a relay point or the top of a mountain.
  • the user 1 can input an instruction for a display switching process in the middle of a mountain path.
  • the display switching condition is satisfied, the spherical image 61 at the point where the instruction is input is displayed.
  • the present technology can be applied to viewing of various VR contents.
  • FIG. 19 is a block diagram illustrating a hardware configuration example of the server device 50.
  • the server device 50 includes a CPU 501, a ROM 502, a RAM 503, an input / output interface 505, and a bus 504 connecting these components to each other.
  • the display unit 506, the operation unit 507, the storage unit 508, the communication unit 509, the drive unit 510, and the like are connected to the input / output interface 505.
  • the display unit 506 is a display device using, for example, liquid crystal, EL (Electro-Luminescence), or the like.
  • the operation unit 507 is, for example, a keyboard, a pointing device, a touch panel, or another operation device. When the operation unit 507 includes a touch panel, the touch panel can be integrated with the display unit 506.
  • the storage unit 508 is a nonvolatile storage device, and is, for example, an HDD (Hard Disk Drive), a flash memory, or another solid-state memory.
  • the drive unit 510 is a device that can drive a removable recording medium 511, such as an optical recording medium or a magnetic recording tape.
  • a removable recording medium 511 such as an optical recording medium or a magnetic recording tape.
  • any non-transitory computer-readable storage medium may be used as the recording medium 511.
  • the communication unit 509 is a communication module for communicating with other devices via a network such as a LAN (Local Area Network) or a WAN (Wide Area Network).
  • a communication module for short-range wireless communication such as Bluetooth may be provided.
  • Communication equipment such as a modem and a router may be used.
  • the information processing by the server device 50 having the above-described hardware configuration is realized by cooperation of software stored in the storage unit 508 or the ROM 502 and the hardware resources of the server device 50. More specifically, this is realized by the CPU 501 loading a program constituting software stored in the storage unit 508 or the ROM 502 or the like into the RAM 503 and executing the program.
  • the display of the omnidirectional frame image and the display of the plane frame image are switched is described as an example.
  • the display is not limited to this, and the display may be switched between an omnidirectional image composed of still images and a planar image composed of moving images.
  • a display switching process of switching between displaying a final frame image of a predetermined planar image and displaying a celestial sphere image is also possible.
  • the present technology can be applied to switching of display between a spherical image composed of moving images and a flat image which is a still image, and switching of display between still images.
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2018-11302
  • Patent Document 1 Japanese Patent Application Laid-Open No. 2018-11302
  • a spherical image is taken as an example of the second real space image.
  • the present invention is not limited to this, and a panoramic video or the like that can display a part of the entire 360 ° circumference may be generated as the second real space image.
  • the present technology can be applied to switching between a display of a plane image as a first real space image and a display of a panoramic image.
  • an arbitrary image including an area where the first real space image of the virtual space is displayed and displayed in a larger area than the area where the first real space image is displayed is defined as the second real space image as the second real space image.
  • Technology can be applied. For example, if the image is displayed in a wide area where an immersive feeling can be obtained compared to a plane image, an image in an arbitrary viewing range such as 180 ° instead of 360 ° can be adopted as the second real space image.
  • the first real space image is not limited to the planar image.
  • any image included in the display area of the second real space image and displayed in an area smaller than the display area can be adopted as the first real space image.
  • a panoramic video having a narrow display area may be used as the first real space image with respect to the spherical image which is the second real space image.
  • the restricted image is generated such that the display content of the corresponding range of the spherical image and the display content of the planar image are the same.
  • the expression such as “same contents” may include not only concepts such as “completely same contents” but also concepts such as “substantially the same contents”. Images photographed at substantially the same timing from substantially the same photographing position are included in images having the same display content.
  • the function of the server device shown in FIG. 4 may be mounted on the HMD.
  • the HMD functions as an embodiment of the information processing device according to the present technology.
  • the display device for displaying the VR content is not limited to the immersive HMD shown in FIG. Any other display device capable of expressing VR may be used.
  • a server device has been described as an example of an information processing device according to an embodiment of the present disclosure.
  • the information processing device according to the present technology may be realized by an arbitrary computer configured separately from the server device and connected to the server device via a cable or wirelessly.
  • the information processing method according to the present technology may be executed in cooperation with a server device and another computer.
  • a system refers to a set of a plurality of components (devices, modules (parts), and the like), and it does not matter whether all components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and one device housing a plurality of modules in one housing are all systems.
  • the computer system executes the information processing method and the program according to the present technology, for example, acquisition of the first and second real space images, acquisition of metadata, execution of display switching processing, and the like are executed by a single computer. And each case is executed by a different computer.
  • the execution of each process by a predetermined computer includes causing another computer to execute a part or all of the process and acquiring the result.
  • the information processing method and the program according to the present technology can also be applied to a configuration of cloud computing in which one function is shared by a plurality of devices via a network and processed jointly.
  • “same”, “equal” and the like may include concepts such as “substantially the same” and “substantially equal” as well as concepts such as “exactly the same” and “exactly equal”.
  • the concept includes a concept that means a predetermined range based on “completely equal”, “completely equal”, or the like.
  • a first real space image displayed in a virtual space and a region including the region where the first real space image of the virtual space is displayed is wider than the region where the first real space image is displayed.
  • An information processing apparatus comprising: a processing unit that switches display between an image and the second real space image.
  • the processing unit determines whether a switching condition for executing the switching process is satisfied based on the metadata, and executes the switching process when the switching condition is satisfied. apparatus.
  • the information processing apparatus according to (3) The information processing apparatus, wherein the switching condition includes a condition that a difference between a shooting position of the first real space image and a shooting position of the second real space image is equal to or less than a predetermined threshold.
  • the information processing apparatus according to (3) or (4) The information processing apparatus, wherein the switching condition includes a condition that a difference between a shooting time of the first real space image and a shooting time of the second real space image is equal to or less than a predetermined threshold.
  • the information processing apparatus generates a restricted image in which display of a range other than a corresponding range corresponding to an angle of view of the first real space image of the second real space image is restricted, and generates the first real space image.
  • An information processing apparatus including switching a display between the display and the restricted image.
  • the switching process includes, after changing the size of the first real space image to be the size of the corresponding range of the second real space image, switching the display between the first real space image and the limited image. apparatus.
  • the switching process includes generating the restricted image such that display content displayed in the corresponding range of the restricted image has the same content as display content of the first real space image. .
  • the information processing apparatus according to any one of (1) to (11),
  • the first real space image is a moving image including a plurality of frame images,
  • the information processing device wherein the processing unit switches display between a predetermined frame image of the first real space image and the second real space image.
  • the information processing apparatus according to (12),
  • the second real space image is a moving image including a plurality of frame images,
  • the information processing device wherein the processing unit switches display between a predetermined frame image of the first real space image and a predetermined frame image of the second real space image.
  • the information processing apparatus according to any one of (1) to (13),
  • the information processing apparatus includes first shooting information including a shooting position of the first real space image, and second shooting information including a shooting position of the second real space image.
  • the information processing apparatus includes a shooting direction and a shooting time of the first real space image
  • the information processing apparatus includes a shooting time of the second real space image.
  • the information processing apparatus includes information on an execution timing of the switching process.
  • the information processing apparatus controls display of the first real space image and the second real space image on an HMD (Head Mounted Display).
  • HMD Head Mounted Display
  • a first real space image displayed in the virtual space and an area of the virtual space in which the first real space image is displayed is wider than an area in which the first real space image is displayed.
  • a region including a first real space image displayed in the virtual space and a region of the virtual space where the first real space image is displayed is wider than a region where the first real space image is displayed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Computer Hardware Design (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本技術の一形態に係る情報処理装置は、処理部を具備する。前記処理部は、仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える。

Description

情報処理装置、情報処理方法、及びプログラム
 本技術は、全天球映像等の表示に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。
 特許文献1に記載の画像処理装置では、パノラマ撮影画像を実現するにあたって、動画や高解像度画像等の他の撮影画像が、パノラマ撮影画像に貼り付けられ統合される。これにより、ユーザに過度な負担を強いることなく、臨場感・没入感のより高いパノラマ画像を実現することが可能となっている(特許文献1の明細書段落[0075]等)。
特開2018-11302号公報
 HMD(Head Mounted Display)等を用いてパノラマ映像や全天球映像等を視聴可能とするシステム等において、高品質な視聴体験を提供することが可能な技術が求められている。
 以上のような事情に鑑み、本技術の目的は、高品質な視聴体験を提供することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。
 上記目的を達成するため、本技術の一形態に係る情報処理装置は、処理部を具備する。
 前記処理部は、仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える。
 この情報処理装置では、表示の切替えに関するメタデータに基づいて、第1の実空間画像の画角に対応した切替処理が実行され、第1の実空間画像と第2の実空間画像との間で表示が切替えられる。これにより高品質な視聴体験を提供することが可能となる。
 前記処理部は、前記メタデータに基づいて前記切替処理の実行タイミングであるか否かを判定し、前記切替処理の実行タイミングである場合に前記切替処理を実行してもよい。
 前記処理部は、前記メタデータに基づいて前記切替処理を実行するための切替条件が満たされているか否かを判定し、前記切替条件が満たされている場合に前記切替処理を実行してもよい。
 前記切替条件は、前記第1の実空間画像の撮影位置と前記第2の実空間画像の撮影位置との差が所定の閾値以下であるという条件を含んでもよい。
 前記切替条件は、前記第1の実空間画像の撮影時間と前記第2の実空間画像の撮影時間との差が所定の閾値以下であるという条件を含んでもよい。
 前記切替処理は、前記第2の実空間画像の前記第1の実空間画像の画角に対応する対応範囲以外の範囲の表示が制限された制限画像を生成し、前記第1の実空間画像と前記制限画像との間で表示を切替えることを含んでもよい。
 前記切替処理は、前記第1の実空間画像のサイズを前記第2の実空間画像の前記対応範囲のサイズとなるように変更後、前記制限画像との間で表示を切替えることを含んでもよい。
 前記切替処理は、前記制限画像の前記対応範囲に表示される表示内容が、前記第1の実空間画像の表示内容と同じ内容となるように、前記制限画像を生成することを含んでもよい。
 前記第1の実空間画像は、実空間の所定の撮影位置から撮影された画像であってもよい。
 前記第2の実空間画像は、実空間の所定の撮影位置から撮影された複数の画像が合成された画像であってもよい。
 前記第2の実空間画像は、全天球画像であってもよい。
 前記第1の実空間画像は、複数のフレーム画像を含む動画像であってもよい。この場合、前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像との間で表示を切替えてもよい。
 前記第2の実空間画像は、複数のフレーム画像を含む動画像であってもよい。この場合、前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像の所定のフレーム画像との間で表示を切替えてもよい。
 前記メタデータは、前記第1の実空間画像の画角に関する情報を含んでもよい。
 前記メタデータは、前記第1の実空間画像の撮影位置を含む第1の撮影情報と、前記第2の実空間画像の撮影位置を含む第2の撮影情報とを含んでもよい。
 前記第1の撮影情報は、前記第1の実空間画像の撮影方向及び撮影時間を含んでもよい。この場合、前記第2の撮影情報は、前記第2の実空間画像の撮影時間を含んでもよい。
 前記メタデータは、前記切替処理の実行タイミングに関する情報を含んでもよい。
 前記処理部は、前記第1の実空間画像及び前記第2の実空間画像のHMD(Head Mounted Display)への表示を制御してもよい。
 本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替えることを含む。
 本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行さ
せる。仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替えるステップ。
 以上のように、本技術によれば、高品質な視聴体験を提供することが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の一実施形態に係るVR提供システムの構成例を示す模式図である。 HMDの構成例を示す図である。 HMDの機能的な構成例を示すブロック図である。 サーバ装置の機能的な構成例を示すブロック図である。 平面映像データを説明するための模式図である。 HMDによる平面映像の表示を模式的に示す図である。 全天球映像データを説明するための模式図である。 HMDによる全天球映像の表示を模式的に示す図である。 メタデータの一例を示す図である。 メタデータの一例を示す図である。 メタデータの一例を示す図である。 全天球映像から平面映像への表示切替処理の一例を示すフローチャートである。 平面映像から全天球映像への表示切替処理の一例を示すフローチャートである。 全天球映像の制御の一例を説明するための模式図である。 平面映像の制御の一例を説明するための模式図である。 表示切替処理が実行される際の、ユーザによる映像の見え方の一例を示す模式図である。 遷移画像の一例を示す模式図である。 表示切替処理が実行される際の、ユーザによる映像の見え方の一例を示す模式図である。 サーバ装置のハードウェア構成例を示すブロック図である。
 以下、本技術に係る実施形態を、図面を参照しながら説明する。
 [仮想現実(VR:Virtual Reality)提供システム]
 図1は、本技術の一実施形態に係るVR提供システムの構成例を示す模式図である。VR提供システム100は、本技術に係る情報処理システムの一実施形態に相当する。
 VR提供システム100は、HMD10と、サーバ装置50とを含む。
 HMD10は、ユーザ1の頭部に装着されて使用される。図1では、1つのHMD10が図示されているが、VR提供システム100に含まれるHMD10の数は限定されない。すなわちVR提供システム100に当時に参加可能なユーザ1の数は限定されない。
 サーバ装置50は、ネットワーク3を介して、HMD10と通信可能に接続される。サーバ装置50は、ネットワーク3を介して、HMD10から種々の情報を受信することが可能である。またサーバ装置50は、種々の情報をデータベース60に記憶させることや、データベース60に記憶された種々の情報を読み出して、HMD10に送信することが可能である。
 本実施形態では、データベース60に、全天球映像データ61と、平面映像データ62と、メタデータ63とが記憶される(ともに図4参照)。本実施形態では、サーバ装置50から全天球映像及び平面映像の両方の表示を含むコンテンツがHMD10に送信される。またサーバ装置50により、全天球映像及び平面映像のHMD10への表示が制御される。サーバ装置50は、本技術に係る情報処理装置の一実施形態として機能する。
 なお本開示において、「画像」は、静止画像及び動画像の両方を含む。また映像は、動画像に含まれる概念である。従って、「画像」は、映像を含む。
 ネットワーク3は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク3を構築するためのプロトコルは限定されない。
 本実施形態では、ネットワーク3、及びサーバ装置50、及びデータベース60により、いわゆるクラウドサービスが提供される。従ってHMD10は、クラウドネットワークに接続されているとも言える。
 なお、サーバ装置50とHMD10とを通信可能に接続するための方法は限定されない。例えば、クラウドネットワークを構築することなく、Bluetooth(登録商標)等の近距離無線通信により両者が接続されてもよい。
 [HMD]
 図2は、HMD10の構成例を示す図である。図2AはHMD10の外観を模式的に示す斜視図であり、図2BはHMD10を分解した様子を模式的に示す斜視図である。
 HMD10は、基体部11と、装着バンド部12と、ヘッドフォン部13と、ディスプレイユニット14と、内向きカメラ15(15a、15b)と、外向きカメラ16と、カバー部17とを有する。
 基体部11は、ユーザ1の左右の眼の前方に配置される部材であり、ユーザ1の前頭部と当接される前頭支持部18が設けられる。
 装着バンド部12は、ユーザ1の頭部に装着される。図2に示すように、装着バンド部12は、側頭バンド19と、頭頂バンド20とを有する。側頭バンド19は、基体部11に接続され、側頭部から後頭部にかけてユーザ1の頭部を囲むように装着される。頭頂バンド20は、側頭バンド19に接続され、側頭部から頭頂部にかけてユーザ1の頭部を囲むように装着される。
 ヘッドフォン部13は、基体部11に接続され、ユーザ1の左右の耳を覆うように配置される。ヘッドフォン部13には、左用及び右用のスピーカが設けられる。ヘッドフォン部13の位置は、手動又は自動により制御可能となっている。そのための構成は限定されず、任意の構成が採用されてよい。
 ディスプレイユニット14は、基体部11に挿入され、ユーザ1の眼の前方に配置される。ディスプレイユニット14の内部には、ディスプレイ22(図3参照)が配置される。ディスプレイ22としては、例えば液晶、EL(Electro-Luminescence)等を用いた任意の表示デバイスが用いられてよい。またディスプレイユニット14には、ディスプレイ22により表示された画像をユーザ1の左右の眼に導くレンズ系(図示は省略)が配置される。
 内向きカメラ15は、ユーザ1の左眼及び右眼を撮影可能な左眼用カメラ15a及び右眼用カメラ15bからなる。左眼用カメラ15a及び右眼用カメラ15bは、HMD10の所定の位置、具体的には基体部11の所定の位置にそれぞれ設置される。例えば、左眼用及び右眼用カメラ15a及び15bにより撮影された左眼及び右眼の画像に基づいて、ユーザ1の視線に関する視線情報等を検出することが可能である。
 左眼用及び右眼用カメラ15a及び15bとしては、例えばCMOS(Complementary Metal-Oxide Semiconductor)センサやCCD(Charge Coupled Device)センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線LED等の赤外線照明を搭載した赤外線カメラが用いられてもよい。
 外向きカメラ16は、カバー部17の中央に、外側(ユーザ1とは反対側)に向けて配置される。外向きカメラ16は、ユーザ1の前方側の実空間を撮影することが可能である。外向きカメラ16としては、例えばCMOSセンサやCCDセンサ等のイメージセンサを備えるデジタルカメラが用いられる。
 カバー部17は、基体部11に取付けられ、ディスプレイユニット14を覆うように構成される。このように構成されたHMD10は、ユーザ1の視野を覆うように構成された没入型のヘッドマウントディスプレイとして機能する。例えばHMD10により、3次元的な仮想空間が表示される。ユーザ1はHMD10を装着することで、仮想現実(VR)等を体験することが可能となる。
 図3は、HMD10の機能的な構成例を示すブロック図である。HMD10は、さらに、コネクタ23と、操作ボタン24と、通信部25と、センサ部26と、記憶部27と、コントローラ28とを有する。
 コネクタ23は、他のデバイスとの接続のための端子である。例えばUSB(Universal Serial Bus)、HDMI(登録商標)(High-Definition Multimedia Interface)等の端子が設けられる。また充電時には、充電用のドッグ(クレードル)の充電端子とコネクタ23とが接続されて充電が行われる。
 操作ボタン24は、例えば基体部11の所定の位置に設けられる。操作ボタン24により、電源のON/OFFの操作、画像表示や音声出力に関する機能やネットワーク通信機能等のHMD10が有する種々の機能に関する操作を実行することができる。
 通信部25は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth等の通信モジュールが設けられる。通信部25が動作することで、サーバ装置50との間で無線通信が可能となる。
 センサ部26は、9軸センサ29と、GPS30と、生体センサ31と、マイク32とを有する。
 9軸センサ29は、3軸加速度センサ、3軸ジャイロセンサ、及び3軸コンパスセンサを含む。9軸センサ29により、HMD10の、3軸における加速度、角速度、及び方位を検出することが可能である。GPS30は、HMD10の現在位置の情報を取得する。9軸センサ29及びGPS30の検出結果は、例えばユーザ1(HMD10)の姿勢や位置、ユーザ1の移動(動き)等の検出に用いられる。これらのセンサは、例えば基体部11の所定の位置に設けられる。
 生体センサ31は、ユーザ1の生体情報を検出することが可能である。例えば生体センサ31として、脳波センサ、筋電センサ、脈拍センサ、発汗センサ、温度センサ、血流センサ、体動センサ等が設けられる。
 マイク32は、ユーザ1の周辺の音情報を検出する。例えばユーザが発話した音声等が適宜検出される。これにより、例えばユーザ1は、音声通話をしながらVR体験を楽しむことや、音声入力を用いたHMD10の操作入力を行うことが可能である。
 センサ部26として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばHMD10を使用する環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。内向きカメラ15及び外向きカメラ16を、センサ部26の一部として見做すことも可能である。
 記憶部27は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)やSSD(Solid State Drive)等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 記憶部27には、HMD10の全体の動作を制御するための制御プログラム33が記憶される。制御プログラム33を、HMD10にインストールする方法は限定されない。
 コントローラ28は、HMD10が有する各ブロックの動作を制御する。コントローラ28は、例えばCPUやメモリ(RAM、ROM)等のコンピュータに必要なハードウェア構成を有する。CPUが記憶部27に記憶されている制御プログラム33をRAMにロードして実行することにより、種々の処理が実行される。
 コントローラ28として、例えばFPGA(Field Programmable Gate Array)等のPLD(Programmable Logic Device)、その他ASIC(Application Specific IntegratedCircuit)等のデバイスが用いられてもよい。
 本実施形態では、コントローラ28のCPUが本実施形態に係るプログラム(例えばアプリケーションプログラム)を実行することで、機能ブロックとして、トラッキング部35、表示制御部36、及び指示判定部37が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
 トラッキング部35は、ユーザ1の頭の動きを検出するヘッドトラッキング、ユーザ1の左右の視線の動きを検出するアイトラッキングを実行する。すなわちトラッキング部35により、HMD10がどの方向を向いているか、ユーザ1の視線がどの方向を向いているかを検出することが可能となる。トラッキング部35により検出されるトラッキングデータは、ユーザ1(HMD10)の姿勢情報及び視線情報に含まれる。
 ヘッドトラッキング及びアイトラッキングは、センサ部26からの検出結果、内向きカメラ15及び外向きカメラ16による撮影画像に基づいて算出される。ヘッドトラッキング及びアイトラッキングを実行するためのアルゴリズムは限定されず、任意のアルゴリズムが用いられてもよい。例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、トラッキングの精度を向上させることが可能となる。
 表示制御部36は、ディスプレイユニット14(ディスプレイ22)による画像表示を制御する。表示制御部36により、例えば画像処理や表示制御等が適宜実行される。本実施形態では、サーバ装置50により、ディスプレイ22に画像を表示するための描画データが、HMD10に送信される。表示制御部36は、サーバ装置50から送信された描画データに基づいて画像処理及び表示制御を実行し、ディスプレイ22に画像を表示させる。
 指示判定部37は、ユーザ1により入力された指示を判定する。例えば指示判定部37は、操作ボタン24への操作に応じて生成される操作信号に基づいて、ユーザ1の指示を判定する。また指示判定部37は、マイク32を介して入力されたユーザ1の音声に基づいて、ユーザ1の指示を判定する。
 また例えば指示判定部37は、外向きカメラ16により撮影された、ユーザ1の手等を使ったジェスチャーに基づいて、ユーザ1の指示を判定する。またユーザ1の視線の動きに基づいて、ユーザ1の指示を判定することも可能である。もちろん、音声入力、ジェスチャー入力、視線の動きによる入力の全てが可能である場合に限定される訳ではない。また他の指示入力方法が可能であってもよい。
 ユーザ1により入力される指示を判定するための具体的なアルゴリズムは限定されず、任意の技術が用いられてよい。また任意の機械学習アルゴリズムが用いられてもよい。
 [サーバ装置]
 図4は、サーバ装置50の機能的な構成例を示すブロック図である。
 サーバ装置50は、例えばCPU、ROM、RAM、及びHDD等のコンピュータの構成に必要なハードウェアを有する(図19参照)。CPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、機能ブロックとしてデコード部51、メタパーサ部52、ユーザインタフェース部53、切替タイミング判定部54、視差判定部55、切替判定部56、全天球映像制御部57、平面映像制御部58、及びレンダリング部59が実現され、本技術に係る情報処理方法が実行される。
 例えばPC(Personal Computer)等の任意のコンピュータにより、サーバ装置50を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。また図4に示す各ブロックを実現するために、IC(集積回路)等の専用のハードウェアが用いられてもよい。
 プログラムは、例えば種々の記録媒体を介してサーバ装置50にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
 デコード部51は、データベース60から読み出した全天球映像データ61及び平面映像データ62をデコードする。デコードされた全天球映像データ61は、全天球映像制御部57に出力される。デコードされた平面映像データ62は、平面映像制御部58に出力される。なお、画像データのエンコード/デコード形式等は限定されない。
 メタパーサ部52は、データベース60からメタデータ63を読み出し、切替タイミング判定部54、及び視差判定部55に出力する。メタデータ63は、全天球映像と、平面映像との表示の切替えに関するメタデータであり、詳しくは後述する。
 ユーザインタフェース部53は、HMD10から送信されるトラッキングデータ、及びユーザ1により入力された指示を受信する。受信されたトラッキングデータ及び入力指示は、切替判定部56及び平面映像制御部58に適宜出力される。
 切替タイミング判定部54は、視差判定部55、切替判定部56、全天球映像制御部57、平面映像制御部58、及びレンダリング部59は、本技術に係る表示切替処理を実行するためのブロックである。本技術に係る表示切替処理は、全天球映像(全天球画像)と、平面映像(平面画像)との間で表示を切替えるための処理であり、切替処理に相当する。
 本実施形態において、切替タイミング判定部54は、視差判定部55、切替判定部56、全天球映像制御部57、平面映像制御部58、及びレンダリング部59の機能により、本技術に係る処理部の一実施形態が実現される。従って、CPU等のコンピュータを構成するハードウェアにより、本技術に係る処理部の一実施形態が実現されるとも言える。切替タイミング判定部54等の各ブロックについては、後述する表示切替処理と合わせて説明する。
 なお、サーバ装置50は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するための通信部(図19参照)を備えている。通信部が動作することで、HMD10との間で無線通信が可能となる。
 [平面映像]
 図5は、平面映像データを説明するための模式図である。平面映像データ62は、複数のフレーム画像64を含む動画像のデータである。
 以下、画像(映像)と、画像データ(映像データ)とを区別なく記載する場合がある。例えば符号を付して説明する場合、平面映像データ62と同じ符号を用いて、平面映像62と記載する場合がある。
 本実施形態では、所望のVRコンテンツを作成するために、所定の実空間の所定の撮影位置から動画像が撮影される。すなわち本実施形態では、実空間を撮影した画像である実空間画像により、平面映像62が生成される。また本実施形態では、平面映像62は、実空間が透視投影で矩形に撮影された映像に相当する。
 所定の実空間は、仮想空間を実現するために選択される実空間であり、例えばスタジアムやコンサートホール等の屋内、山や川等の野外等、任意の場所が選択されてよい。撮影位置も適宜選択される。例えばスタジアムの入口、所定の観客席や、登山道の入口、山の頂上等、任意の撮影位置が選択されてよい。
 本実施形態では、所定のアスペクト比及び所定の解像度にて撮影された矩形のフレーム画像64が生成される。これら複数のフレーム画像64が、所定のフレームレートで撮影されることで、平面映像62が生成される。以下、平面映像62のフレーム画像64を、平面フレーム画像64と記載する。
 例えばアスペクト比が16:9であり、横1920画素×縦1080画素のフルHD画像が、60フレーム/秒により撮影される。もちろんこれに限定されず、平面フレーム画像64のアスペクト比、解像度、及びフレームレート等は、任意に設定されてよい。また平面映像62(平面フレーム画像64)の形状も矩形状に限定されない。円形や三角形等の他の形状の画像に対しても、本技術は適用可能である。
 図6は、HMD10による平面映像62の表示を模式的に示す図である。図6Aは、平面映像62を見ているユーザ1を正面から(平面映像62側から)見た図である。図6Bは、平面映像62を見ているユーザ1を斜め後方から見た図である。
 本実施形態では、HMD10を装着するユーザ1の前後、左右、及び上下の全周囲360°を覆う空間が、VRコンテンツにより表現される仮想空間Sとなる。すなわち、ユーザ1にとって、周囲のどの方向を見ても、仮想空間S内の領域を見ていることになる。
 図6に示すように、HMD10のディスプレイ22に、平面映像62(平面フレーム画像64)が表示される。HMD10を装着しているユーザ1にとって、平面映像62は、仮想空間S内の一部の領域に表示される。以下、仮想空間S内の平面映像62が表示される領域を、第1の表示領域R1とする。
 平面映像62は、例えばユーザ1の正面に表示される。従って、ユーザ1の頭の動き等に応じて、平面映像62が表示される第1の表示領域R1の位置は変更され得る。もちろん、所定の位置に固定して平面映像62が表示され、ユーザ1がその方向を見ないと平面映像62を視聴できないといった表示方法も可能である。
 また、平面映像62のサイズ等は、ユーザ1の指示等により変更可能である。平面映像62のサイズが変更される場合は、第1の表示領域R1のサイズも変更されることになる。なお、仮想空間S内の平面映像62が表示される第1の表示領域R1以外の領域には、例えば背景画像等が表示される。背景画像は、黒や緑等の一色の画像であってもよいし、コンテンツに関する画像でもよい。3次元や2次元のCG等により背景画像が生成されてもよい。
 本実施形態において、平面映像62(平面フレーム画像64)は、仮想空間に表示される第1の実空間画像に相当する。また平面映像62(平面フレーム画像64)は、実空間の所定の撮影位置から撮影された画像に相当する。なお平面映像62を、所定形状映像と言うことも可能である。本実施形態では、所定形状として矩形状が採用されているが、円形状等の他の形状が所定形状として採用されてもよい。
 [全天球映像]
 図7は、全天球映像データを説明するための模式図である。本実施形態では、所定の実空間の所定の撮影位置から、複数の実空間画像66が撮影される。複数の実空間画像66は、同じ撮影位置から、前後、左右、及び上下の全周囲360°の実空間をカバーするように、互いに異なる撮影方向にて撮影される。また複数の実空間画像66は、互いに隣接する撮影画像にて、画角(撮影範囲)が重複するように撮影される。
 複数の実空間画像66が、所定のフォーマットに基づいて合成されることで、図7に示す全天球映像データ61が生成される。本実施形態では、透視投影で撮影された複数の実空間画像66が、所定のフォーマットに基づいて合成される。全天球映像データ61を生成するためのフォーマットとしては、例えば正距円筒(Equirectangular)投影やキューブ・マップ(CubeMap)等が挙げられる。もちろんこれらに限定されず、任意の投影法等が用いられてよい。なお図7に示す全天球映像データ61の図示は、あくまで模式図である。
 図8は、HMD10による全天球映像61の表示を模式的に示す図である。図8Aは、全天球映像61を見ているユーザ1を正面から見た図である。図8Bは、全天球映像61を見ているユーザ1を斜め後方から見た図である。
 本実施形態では、HMD10(ユーザ1)の周りに仮想的に配置された球に、全天球映像データ61が貼り付けられる。従って、HMD10を装着するユーザ1にとって、仮想空間Sの前後、左右、及び上下の全周囲360°の全領域に、全天球映像61が表示される。これにより、非常に高いコンテンツへの没入感を実現することが可能となり、優れた視聴体験をユーザ1に提供することが可能となる。
 仮想空間S内の全天球映像61が表示される領域を第2の表示領域R2とする。第2の表示領域R2は、ユーザ1の周囲の仮想空間S内の全ての領域となる。図6に示す平面映像62が表示される第1の表示領域R1と比べると、第2の表示領域R2は、第1の表示領域R1を含む第1の表示領域R1よりも広い領域となる。
 図8には、ディスプレイ22の表示領域67が図示されている。全天球映像61のうちユーザ1が視聴可能な範囲は、ディスプレイ22の表示領域67に対応する範囲である。ユーザ1の頭の動き等に応じて、ディスプレイ22の表示領域67の位置が変更され、全天球映像61の視聴可能な範囲が変更される。これにより、ユーザ1はすべての方向において、全天球映像61を視聴することが可能となる。
 なお図8では、ディスプレイ22の表示領域67が、球の内周面に沿った形状で図示さされている。実際には、ディスプレイ22には、図6に示す平面映像62と同様に、矩形状の画像が表示されている。ユーザ1にとっては、ユーザ1の周囲を覆うような視覚効果が得られる。
 本開示では、仮想空間S内における画像の表示領域とは、ディスプレイ22により実際に表示される範囲に対応する領域ではなく、仮想空間S内の画像が表示される対象となる領域を意味するものとする。従って、第1の表示領域R1は、仮想空間内Sの平面映像62に対応した矩形状の領域となる。第2の表示領域R2は、仮想空間内Sの、全天球映像61に対応する前後、左右、及び上下の全周囲360°の全領域となる。
 また本実施形態では、図7に示す複数の実空間画像66として、複数のフレーム画像を有する動画像がそれぞれ撮影される。例えばそして各々のフレーム画像にて画像が合成され、全天球映像61が生成される。従って、本実施形態では、動画像として構成された全天球映像61を視聴することが可能である。
 例えば、全方位にわたって同時に複数の実空間画像66(動画像)が撮影される。そして互いに対応するフレーム画像同士が合成され、全天球映像61が生成される。これに限定されず、他の方法が用いられてもよい。
 動画像として構成された全天球映像61に含まれる、時間軸に沿って順に表示される全天球画像(静止画像)は、全天球映像61のフレーム画像となる。全天球映像のフレーム画像のフレームレート等は限定されず、任意に設定されてよい。図7に示すように、全天球映像61のフレーム画像を、全天球フレーム画像68と記載する。
 なお、ユーザ1から見た全天球映像61(全天球フレーム画像68)のサイズは一定となる。例えばユーザ1を中心として、全天球映像61のスケール(仮想的に設定された球のスケール)を変化させる。この場合、スケールの変化に応じて、ユーザ1と全天球映像61(仮想的な球の内周面)との距離も変化し、結局全天球映像61のサイズは変わらない。
 本実施形態において、全天球映像61は、仮想空間の第1の実空間画像が表示される領域を含み第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像に相当する。また全天球映像61は、実空間の所定の撮影位置から撮影された複数の画像が合成された画像に相当する。なお全天球映像61を、仮想現実映像と言うことも可能である。
 図9~図11は、メタデータ63の一例を示す図である。メタデータ63は、平面映像62と全天球映像61との表示の切替えに関するメタデータである。例えば図9に示すように、平面映像62に関するメタデータ63aが記憶される。図9に示す例では、以下に示す情報がメタデータ63aとして記憶される。
 ID…平面フレーム画像64ごとに付される識別情報
 画角…平面フレーム画像64の画角
 撮影位置…平面フレーム画像64の撮影位置
 撮影方向…平面フレーム画像64の撮影方向
 回転(ロール、ピッチ、ヨー)…平面フレーム画像64の回転位置(回転角度)
 撮影時間…平面フレーム画像64を撮影した日時
 撮影環境…平面フレーム画像64の撮影した際の撮影環境
 平面フレーム画像64の画角は、例えば平面フレーム画像64を撮影した撮像装置のレンズの画角や焦点距離等により定められる。平面フレーム画像64の画角は、平面フレーム画像64の撮影範囲に対応するパラメータとも言える。従って、平面フレーム画像64の撮影範囲に関する情報が、メタデータ63aとして記憶されてもよい。本実施形態において、平面フレーム画像64の画角は、第1の実空間画像の画角に関する情報に相当する。
 平面フレーム画像64の撮影位置、撮影方向、回転位置は、例えば予め規定された所定のXYZ座標系により定められる。例えば撮影位置としてXYZ座標値が記憶される。撮影方向として平面フレーム画像64を撮影した撮像装置の撮影光軸の方向が、撮影位置を基準としてXYZ座標値を用いて記憶される。回転位置として、例えばX軸をピッチ軸、Y軸をロール軸、Z軸をヨー軸とした、ピッチ角度、ロール角度、及びヨー角度が記憶される。もちろんこのようなデータが生成される場合に限定される訳ではない。
 撮影時間としては、例えば平面フレーム画像64が撮影された日付及び時間が記憶される。撮影環境としては、平面フレーム画像64を撮影した際の天候等が挙げられる。平面映像62に関するメタデータ63aの種類は限定されない。また各情報をどのようなデータで記憶するかといったことも限定されない。
 本実施形態において、平面映像62に関するメタデータ63aは、第1の撮影情報に相当する。もちろん第1の撮影情報として、他の情報が記憶されてもよい。
 また図10に示すように、全天球映像61に関するメタデータ63bが記憶される。図10に示す例では、以下に示す情報がメタデータ63bとして記憶される。
 ID…全天球フレーム画像68ごとに付される識別情報
 撮影位置…全天球フレーム画像68の撮影位置
 撮影時間…全天球フレーム画像68を撮影した日時
 撮影環境…全天球フレーム画像68の撮影した際の撮影環境
 フォーマット…全天球映像61のフォーマット
 全天球フレーム画像68の撮影位置は、図7に示す複数の実空間画像66の各々の撮影位置に基づいて作成される。典型的には、同じ撮影位置にて複数の実空間画像66が撮影されるので、その撮影位置が記憶される。複数の実空間画像66が若干位置をずれて撮影されている場合には、例えば各撮影位置の平均値等が記憶される。
 全天球フレーム画像68の撮影時間は、図7に示す複数の実空間画像66の各々の撮影時間に基づいて作成される。複数の実空間画像66が同時に撮影される場合は、その撮影時間が記憶される。複数の実空間画像66が異なるタイミングで撮影される場合は、各撮影時間のうち中間の時間が記憶される。
 撮影環境としては、複数の実空間画像66を撮影した際の天候等が挙げられる。フォーマットは、複数の実空間画像66から全天球映像データ61を生成する際のフォーマットである。全天球映像61に関するメタデータ63bの種類は限定されない。また各情報をどのようなデータで記憶するかといったことも限定されない。
 本実施形態において、全天球映像61に関するメタデータ63bは、第2の撮影情報に相当する。もちろん第2の撮影情報として、他の情報が記憶されてもよい。
 図11は、本実施形態において表示切替処理に用いられるメタデータ63cの一例である。図11に示す例では、以下に示す情報がメタデータ63cとして記憶される。
 切替タイミング…表示切替処理を実行すべきタイミング
 移動量の時系列…全天球映像61に対する平面映像62の移動量の時系列
 画角の時系列…全天球映像61に対する平面映像62の画角の時系列
 撮影方向の時系列…全天球映像61に対する平面映像62の撮影方向の時系列
 回転の時系列…全天球映像61に対する平面映像62の回転位置(回転角度)の時系列
 切替タイミングは、例えばVRコンテンツの制作者により定められる。例えば仮想空間内においてユーザ1が所定の位置に移動し、所定の方向を見たタイミング等が記憶される。あるいは、VRコンテンツの開始から所定の時間経過したタイミング等が記憶される。その他、種々のタイミングが切替タイミングとして記憶されてよい。本実施形態において、切替タイミングは、切替処理の実行タイミングに関する情報に相当する。
 移動量の時系列は、平面フレーム画像64の撮影位置と、全天球フレーム画像68の撮影位置との差(距離)の時系列情報に相当する。移動量の時系列により、ある撮影時間にて撮影された平面フレーム画像64と、全天球フレーム画像68とについて、撮影位置の差を算出することが可能となる。以下、撮影位置の差を視差という場合がある。
 全天球映像61に対する平面映像62の画角/撮影方向/回転位置の時系列は、全天球映像61に対する、平面映像62の表示領域サイズ、及び位置の時系列情報に相当する。すなわち全天球映像61が表示される第2の表示領域R2に対する、平面映像62が表示される第1の表示領域R1の位置及びサイズの時系列情報とも言える。本時系列情報により、ある時間における第2の表示領域R2と第1の表示領域R1の位置関係(サイズも含む)を算出することが可能である。
 メタデータ63cに含まれる各時系列情報を生成して記憶させる方法は限定されない。例えば、VRコンテンツの制作者により適宜生成され、手動にて各時系列情報が入力されてもよい。あるいは図9及び図10に示すメタデータ63a及び63bに基づいて、各時系列情報を生成し、メタデータ63cとして記憶させてもよい。また上記した特許文献1(特開2018-11302号公報)に記載されている技術を用いることで、各時系列情報を生成することも可能である。
 本実施形態において、画角の時系列は、第1の実空間画像の画角に関する情報とも言える。また移動量の時系列、撮影方向の時系列、回転の時系列を、第1及び第2の撮影情報として用いることも可能である。
 タデータ63cの種類は限定されない。また各情報をどのようなデータで記憶するかといったことも限定されない。なお各時系列情報をメタデータ63cとして記憶させることなく、VRコンテンツの再生中にリアルタイムで生成し、表示切替処理に用いる、といったことも可能である。
 [全天球映像と平面映像との表示切替]
 図12は、全天球映像61から平面映像62への表示切替処理の一例を示すフローチャートである。図13は、平面映像62から全天球映像61への表示切替処理の一例を示すフローチャートである。
 図12に示すように、HMD10により全天球映像61が再生される(ステップ101)。図4に示すように本実施形態では、サーバ装置50により全天球映像データ61が読み出される。読み出された全天球映像データ61に基づいて、レンダリング部59により描画処理が実行され、全天球映像61の各フレーム画像68をHMD10のディスプレイ22に表示するための、描画データが生成される。
 生成された全天球映像61の描画データは、HMD10に送信される。HMD10の表示制御部36は、サーバ装置50から送信された描画データに基づいて、ディスプレイ22に全天球フレーム画像68を、所定のフレームレートで表示させる。これにより、HMD10を装着したユーザ1は、全天球映像61を視聴することが可能となる。
 なおトラッキング部35により検出されたトラッキングデータに基づいて、ユーザ1の頭の動き(HMD10の向きの変化)に応じて、HMD10に表示される表示領域67の位置が移動される。
 例えば、サーバ装置50のユーザインタフェース部53により、HMD10から送信されたトラッキングデータが受信される。そして全天球映像制御部57により、HMD10のディスプレイ22の表示領域67に対応した範囲(画角)が算出される。レンダリング部59により、算出された範囲の描画データが生成され、HMD10に送信される。HMD10の表示制御部36は、送信された描画データに基づいて、ディスプレイ22に全天球映像61を表示する。
 あるいは、HMD10の表示制御部36により、トラッキングデータに基づいて、ディスプレイ22に表示させる範囲(画角)が決定されてもよい。
 切替タイミング判定部54により、表示切替処理の実行タイミングであるか否か判定される(ステップ102)。本判定は、メタパーサ部52から出力されるメタデータ63に基づいて実行される。具体的には、図11に示すメタデータ63cに含まれる切替タイミングに基づいて、表示切替処理の実行タイミングであるか否か判定される。
 表示切替処理の実行タイミングではないと判定された場合(ステップ102のNo)、切替判定部56により、表示切替指示の入力があるか否か判定される(ステップ103)。本判定は、ユーザインタフェース部53により受信されるユーザ1の入力指示に基づいて実行される。
 表示切替指示の入力がない場合には(ステップ103のNo)、ステップ101に戻り、全天球映像61の再生が継続される。表示切替指示の入力がある場合には(ステップ103のYes)、視差判定部55及び切替判定部56により、表示切替処理を実行するための表示切替条件が満たされているか否か判定される(ステップ104)。
 本実施形態では、表示切替条件として、全天球映像61の撮影位置と、平面映像62の撮影位置との差(視差)が所定の閾値以下であるか否か判定される。
 視差判定部55は、図11に示すメタデータ63c内の移動量の時系列を参照する。そしてHMD10に表示されている全天球フレーム画像68の撮影位置と、同じ撮影時間に撮影された平面フレーム画像64の撮影位置との差が、所定の閾値以下であるか否かを判定する。なお同じ撮影時間に撮影された平面フレーム画像64が、切替対象の画像となる。視差判定部55による判定結果は、切替判定部56に出力される。
 切替判定部56は、視差判定部55による判定結果に基づいて、表示切替条件を満たすか否か判定する。全天球フレーム画像68と、切替対象となる平面フレーム画像64との視差が所定の閾値以下の場合は、表示切替条件を満たすと判定される。全天球フレーム画像68と、切替対象となる平面フレーム画像64との視差が所定の閾値よりも大きい場合は、表示切替条件は満たされないと判定される。
 表示切替条件が満たされない場合は(ステップ104のNo)、ステップ101に戻り、全天球映像61の再生が継続される。この際に、表示切替処理が実行不可である旨のエラー等がユーザ1に通知されてもよい。表示切替条件が満たされる場合は(ステップ104のYes)、表示切替処理が実行される。
 本実施形態に係る表示切替条件は、第1の実空間画像の撮影位置と第2の実空間画像の撮影位置との差が所定の閾値以下であるという条件を含む。また全天球フレーム画像68と同じ撮影時間の平面フレーム画像64が、切替対象の画像として設定されている。従って、本実施形態では、表示切替条件として、第1の実空間画像の撮影時間と第2の実空間画像の撮影時間とが同じであるという条件が含まれていると見做すことも可能である。
 なお、時系列情報を作成する際に、撮影時間の差が所定の閾値以下であるフレーム画像同士を、互いに切替対象となるフレーム画像として設定することも可能である。この場合、表示切替条件として、第1の実空間画像の撮影時間と第2の実空間画像の撮影時間との差が所定の閾値以下であるという条件を含まれていると見做すことも可能である。
 表示切替処理として、全天球映像制御部57により、全天球映像61が制御される(ステップ105)。また平面映像制御部58により、平面映像62が制御される(ステップ106)。ステップ105及び106は、それぞれ並列に実行されてよい。
 図14は、全天球映像61の制御の一例を説明するための模式図である。まず全天球フレーム画像68に対して、切替対象となる平面フレーム画像64の画角に対応する対応範囲70が算出される。対応範囲70は、例えば、図11に示すメタデータ63cの、画角の時系列、撮影方向の時系列、及び回転の時系列に基づいて算出することが可能である。
 全天球映像制御部57により、対応範囲70以外の範囲がマスクされ、対応範囲70以外の範囲(以下、マスク範囲72と記載する)の表示が制限された制限画像71が生成される。図14に示すように、本実施形態では、制限画像71の生成に合わせて、対応範囲70に対して外側から徐々にマスクが実行される遷移画像73も生成される。
 マスク範囲72に表示されるマスク画像としては、典型的には、背景画像が選択される。すなわち平面映像62の第1の表示領域R1以外の領域に表示される背景画像により、全天球映像61の対応範囲70以外のマスク範囲72がマスクされる。なお、連続的にマスクが拡張される遷移画像73の生成方法は限定されない。
 また本実施形態では、全天球フレーム画像68の対応範囲70に表示される表示内容が、切替対象となる平面フレーム画像64の表示内容と同じ内容となるように、制限画像71が生成される。
 全天球映像制御部57は、全天球映像データ61に基づいて、任意の画角の画像を生成することが可能である。従って、平面フレーム画像64と同じ表示内容が対応範囲70に表示された制限画像71を生成することが可能である。
 その際に、例えば対応範囲70内の画像が、平面フレーム画像64と同様に透視投影の矩形の画像となるように、投影方法の変換を実行することも可能である。なお全天球映像61のフォーマットによっては、対応範囲70以外のマスク範囲72をマスクするだけで、平面フレーム画像64と同じ透視投影の矩形の画像を生成することが可能な場合もあり得る。
 図15は、平面映像62の制御の一例を説明するための模式図である。平面映像制御部58により、切替対象となる平面フレーム画像64のサイズが制御される。具体的には、図14に示す制限画像71の対応範囲70のサイズとるように、平面フレーム画像64のサイズが制御される。
 図15に示す例では、平面フレーム画像64のサイズが小さくなるように変更されている。もちろんこれに限定されず、平面フレーム画像64のサイズが大きくなるように変更される場合もあり得る。またサイズの変更が不要の場合もあり得る。
 図12に戻り、全天球映像61の制御、及び平面映像62の制御の実行後、全天球映像61が消去され、平面映像62が表示される(ステップ107)。
 本実施形態では、レンダリング部59により、遷移画像73、制限画像71、及びサイズが制御された平面フレーム画像64の描画データが生成され、HMD10に送信される。HMD10の表示制御部36により、全天球フレーム画像68の対応範囲70以外のマスク範囲72が徐々にマスクされる画像(遷移画像73)が表示され、最終的に制限画像71が表示される。
 その制限画像71が消去されるのと同時に、サイズが制御された平面フレーム画像64が表示される。すなわち本実施形態では、表示切替処理により、制限画像71と、サイズが制御された平面フレーム画像64との間で表示が切替えられる。これにより全天球映像61と、平面映像62との間で、表示が切替えられる。
 図16は、表示切替処理が実行される際の、ユーザ1による映像の見え方の一例を示す模式図である。まず仮想空間S内に全天球映像61が表示されている。図16では、矩形の画像が模式的に表示されているが、ユーザ1自身を覆うような視聴体験が提供されている。
 次に、全天球映像61の一部の矩形の範囲75に向かって、外側から徐々にマスクが実行される。そして最終的に、一部の矩形75の範囲を残し、他の範囲76の全てがマスクされる。矩形の範囲75は、図14に示す対応範囲70に対応する。また徐々にマスクが拡張される画像は、遷移画像73に相当する。矩形の範囲70以外の範囲がマスクされた画像は、制限画像71に対応する。
 なお図16に示す例では、矩形の範囲75(対応範囲70)が、ユーザ1の視聴範囲の中心に位置している。しかしながら、対応範囲70が、ユーザ1の視聴範囲の中心からオフセットされた位置となる場合や、対応範囲70がユーザの視聴範囲から外れた位置となる場合もあり得る。
 このような場合、例えば対応範囲70がユーザ1の視聴範囲に含まれるように(例えば視聴範囲の中央に移動するように)、全天球映像61の全体が移動されてもよい。あるいは、ユーザ1の視線(HMD10の向き)が、対応範囲70が視聴範囲に含まれるように(例えば視聴範囲の中央に位置するように)、誘導されてもよい。その他、任意の処理が実行されてよい。
 最後に、制限画像71が消去されるのと同時に、対応範囲70にサイズが制御された平面フレーム画像64が表示される。制限画像71の対応範囲70の表示内容と、サイズが制御された平面フレーム画像64の表示内容は同じ内容である。また制限画像71のマスクは、平面フレーム画像64が表示される際の背景画像により構成される。
 従って制限画像71から平面フレーム画像64への表示の切替えに対して、ユーザ1にとって見え方に変化はなく、同じ見え方となる。すなわち全天球映像61から平面映像62へ切替えタイミングを意識することなく、コンテンツの視聴を楽しむことが可能となる。
 図12に戻り、ステップ102にて、表示切替処理の実行タイミングであると判定された場合、表示切替処理が実行される。典型的には、VRコンテンツの制作者により定められたタイミングにおける表示切替処理となる。従って切替条件を満たす全天球映像61と平面映像62とが、予め準備されており、自然な表示切替処理が実行される。
 平面映像62から全天球映像61への表示切替処理について説明する。図13に示すように、HMD10により平面映像62が再生される(ステップ201)。本実施形態では、サーバ装置50により平面映像データ62が読み出される。読み出された平面映像データ62に基づいて、レンダリング部59により、平面映像62の各フレーム画像64の描画データが生成される。
 HMD10の表示制御部36は、サーバ装置50から送信された描画データに基づいて、ディスプレイ22に平面フレーム画像64を、所定のフレームレートで表示させる。これにより、HMD10を装着したユーザ1は、平面映像62を視聴することが可能となる。
 切替タイミング判定部54により、表示切替処理の実行タイミングであるか否か判定される(ステップ202)。表示切替処理の実行タイミングではないと判定された場合(ステップ202のNo)、切替判定部56により、表示切替指示の入力があるか否か判定される(ステップ203)。
 表示切替指示の入力がない場合には(ステップ203のNo)、ステップ201に戻り、平面映像62の再生が継続される。表示切替指示の入力がある場合には(ステップ203のYes)、視差判定部55及び切替判定部56により、表示切替処理を実行するための表示切替条件が満たされているか否か判定される(ステップ204)。
 表示切替条件が満たされない場合は(ステップ204のNo)、ステップ201に戻り、平面映像62の再生が継続される。表示切替条件が満たされる場合は(ステップ204のYes)、表示切替処理が実行される。表示切替条件は、全天球映像61から平面映像62への表示切替の際に判定される条件と同様である。
 表示切替処理として、全天球映像制御部57により、全天球映像61が制御される(ステップ205)。また平面映像制御部58により、平面映像62が制御される(ステップ206)。ステップ205及び206は、それぞれ並列に実行されてよい。
 全天球映像制御部57により、図14に示す制限画像71が生成される。また図17に示すように、対応範囲70以外のマスク範囲72のマスクが、外側に向かって徐々に縮小する遷移画像74が生成される。遷移画像74は、全天球映像61の表示範囲が徐々に広がっていく画像とも言える。
 なお連続的にマスクを外していき、最終的に全天球映像61を表示させるための遷移画像74の生成方法は限定されない。例えば180°以上の画角に対しては、反対側で360°から引いた分の画角を表示しないということにすれば、連続的に画角を拡張することが可能となり、360°で全天球表示となる。
 平面映像制御部58により、切替対象となる制限画像71の対応範囲70のサイズとなるように、平面フレーム画像64のサイズが制御される(図15参照)。全天球映像61の制御、及び平面映像62の制御の実行後、平面映像62が消去され、全天球映像61が表示される(ステップ207)。
 図18は、表示切替処理が実行される際の、ユーザ1による映像の見え方の一例を示す模式図である。まず仮想空間S内に表示される平面フレーム画像64のサイズが制御される。そして平面フレーム画像64が消去されるのと同時に、制限画像71が表示される。
 サイズが制御された平面フレーム画像64の表示内容と、制限画像71の矩形の範囲75(対応範囲70)の表示内容とは同じ内容である。また制限画像71のマスクは、平面フレーム画像64が表示される際の背景画像により構成される。
 従って平面フレーム画像64から制限画像71への表示の切替えに対して、ユーザ1にとって見え方に変化はなく、同じ見え方となる。従ってユーザ1にとっては、平面映像62から全天球映像61への切替えは認識されず、平面フレーム画像64が表示されていることになる。
 画像が表示されている範囲77が、外側に向かって徐々に広がっていき(マスクが徐々に小さくなっていき)、最終的に全天球映像61が表示される。これは図17に示す遷移画像74の表示、及び全天球映像61の表示に相当する。このように本実施形態では、ユーザ1にとって、平面映像62から全天球映像61への切替タイミングを意識することなく、コンテンツの視聴を楽しむことが可能となる。
 図13に戻り、ステップ202にて、表示切替処理の実行タイミングであると判定された場合、表示切替処理が実行される。典型的には、VRコンテンツの制作者により定められたタイミングにおける表示切替処理となる。従って切替条件を満たす全天球映像61と平面映像62とが、予め準備されており、自然な表示切替処理が実行される。
 以上、本実施形態に係るVR提供システム100では、表示の切替えに関するメタデータ63に基づいて、平面映像62の画角に対応した表示切替処理が実行され、平面映像62と全天球映像61との間で表示が切替えられる。これにより全天球映像61の表示と平面映像62の表示とを連続的に遷移させることが可能となる。この結果、ユーザ1に高品質な視聴体験を提供することが可能となる。
 HMD10で見る全天球映像61は視野全体に広がり、視覚と直結することから、従来のテレビなどで放送されてきた透視投影で矩形に撮影された映像(平面映像62)で活用されてきたような編集をしてしまうと、酔いなどユーザ1に悪影響を及ぼす恐れがあり、コンテンツの作成方法に制限が発生してしまうことが多い。
 そのため本発明者は、全天球映像61のコンテンツであっても部分的に平面映像62を使用することを新たに考案した。しかしながら急に表示を切替えると、ユーザ1にとって空間や時間の連続性が感じられず、別々の独立したコンテンツとして認識されてしまうといった問題点も見出し、その点についても検討を行った。
 検討の結果、本技術に係る表示切替処理を新たに考案した。すなわち平面映像62と全天球映像61とを、対応範囲70の表示内容と平面映像62の表示内容とが同じ見え方になるように連続的に変更する。そして同じ見え方になった時に平面映像62と全天球映像61とを切り替える。これにより、ユーザ1にとって空間や時間の連続性が失われることなく、1つのコンテンツとして認識することが可能となった。
 また本技術では、全天球映像61の制約を解消するために、一時的に平面映像62を利用することが可能である。これにより、全天球映像61の没入感と、平面映像62の多様な表現とを、同時に体験することが可能となるVRコンテンツを提供することが可能となった。
 例えば全天球映像61を表示する際の制限としては、以下のような点が挙げられる。
 (撮影位置の制約)
 仮想空間S内の視点移動を、全天球映像61を用いて表現しようとする場合、撮影位置を移動させながら図7に示す複数の実空間画像66を撮影し、撮影位置が連続的に移動する全天球映像データ61を作成する必要がある。この場合、手ブレの影響が抑制された全天球映像61を作成するのが非常に難しい。
 現状、回転3軸の手ブレ補正はソフトウェアで可能であるため、その機能が搭載されている全天球カメラがあるが、並進3軸を補正するためには外部の装置を使用してキャンセルする必要がある。
 従って、手ブレの影響を抑制することが難しく、全天球映像61を視聴するユーザ1にとって、非常に酔い易い状況となってしまう。また全天球映像61での移動は、視覚情報と三半規管の感覚とがずれ易く、その観点から見ても、ユーザ1は酔い易くなってしまう。
 このような制約を解消するために、仮想空間S内の移動を表現する際には、全天球映像61から平面映像62に切り替える。そして、移動経路に沿って視点が移動する動画を表示させる。平面映像62を用いることで、撮影時の手ブレの影響を十分に抑えることが可能となる。また従来から見慣れている動画像となるので、視覚情報と三半規管の感覚とのずれを十分に防止することが可能となる。この結果、VRコンテンツを視聴しているユーザ1が酔ってしまうことを十分に防止することが可能となり、スムーズな視点移動を実現することが可能となる。
 (編集の制約)
 パン、カット、ドリー等の通常の表現適用が難しい。
 例えばパン等を全天球映像61で実行すると、視覚情報と三半規管の感覚とのずれによる酔いが発生しやすくなる。
 画角の制御による映像表現が難しい。
 全天球映像61のどこを見て、どのくらいの領域を注視するかはユーザ1次第である。従って画角を制御して、ユーザ1に注目してほしい領域等を強調して表示するといった表現は難しい。
 字幕等の付加情報の表示が難しい。
 全天球映像61のどの位置に付加情報を表示させるかを明確に把握することが難しい。
 特殊効果の表現が難しい。
 例えば明滅等の激しい効果を全天球映像61で行った場合は、ユーザ1への負担になり得る。
 このような制約に対して、全天球映像61から平面映像62に適宜切替えることで、カット等の切替え、画像サイズの変更、画角の変更、付加情報の表示、特殊効果の表現の実行等、自由な編集が可能となる。これにより、ユーザ1に高品質な視聴体験を提供することが可能となる。
 例えば、VRコンテンツにおいて、他の場所等へのシーンチェンジを行う場合には、平面映像62に切替えてから、他の場所等の映像を表示する。平面映像62で実績のある(慣れている)シーン切替効果が適用でき、多彩な表現が可能になる。またユーザ1への負担を抑制することができる。もちろん、平面映像62から他のCG映像等の別ソースの映像への切替にも適用可能である。
 (資産活用の制約)
 平面映像62と比べて、全天球映像61の生成技術は比較的最近開発されたものである。従って過去の映像等の資産の蓄積は、平面映像62と比べて、全天球映像61の方が少ない場合が多い。VRコンテンツ内において、全天球映像61を適宜平面映像62に切替える。これにより平面映像62の過去の映像等の資産を十分に活用することが可能となる。この結果、VRコンテンツの品質を向上させることが可能となり、ユーザ1に高品質な視聴体験を提供することが可能となる。
 以下、本実施形態に係るVR提供システム100のユースケースの一例を説明する。
 スポーツ観戦やコンサート観戦等のVRコンテンツの視聴が挙げられる。例えば平面映像62により、コンテンツ選択用のサムネイルが表示される。平面映像62を用いることで、互いに等しいサイズであり、互いに等しい形状の複数のサムネイルを容易に生成することが可能である。
 ユーザ1によりスポーツ観戦のコンテンツが選択されると、平面映像62により試合のハイライト等が表示される。またスタジアムの入口からスタンドの席に座るまで、視点が移動する動画像が表示される。平面映像62を用いることで、過去の試合の映像や選手に関する映像等を容易に表示することが可能となる。またスムーズな視点移動を実現することが可能となる。
 ユーザ1が席に座るタイミングにて、表示切替処理が実行され、スタジアムの全体を視聴可能な全天球映像61が表示される。例えば、図11に示すメタデータ63cの切替タイミングに、席に座るタイミング等が記憶される。もちろん、平面映像62が再生されている途中で、ユーザ1により、表示切替処理の指示を入力することも可能である。表示切替条件が満たされる場合には、指示を入力した地点からスタジアムの全体を視聴可能な全天球映像61が表示される。これにより非常に没入感が高く、臨場感を感じることが可能な視聴体験を得ることが可能となる。
 ユーザ1によりコンサート観戦のコンテンツが選択されると、平面映像62により、アーティストの紹介映像や、過去のコンサートの映像が表示される。またコンサート会場の入口から観客席に座るまで、視点が移動する動画像が表示される。
 ユーザ1が席に座るタイミングにて、表示切替処理が実行され、コンサート会場の全体を視聴可能な全天球映像61が表示される。もちろんユーザ1により入力された表示切替処理の指示により、全天球映像61が表示されてもよい。ユーザ1は、コンサートを十分に楽しむことが可能となり、高品質な視聴体験を得ることが可能となる。
 他のユースケースとして、旅行コンテンツの視聴も挙げられる。例えば登山口の入口にて、全天球映像61が表示される。ユーザ1は、360°全周囲を視聴しながら自然を楽しむことが可能である。そして山頂までの山道を進むタイミングにて、平面映像62に切替えられ、視点移動が行われる。例えば、図11に示すメタデータ63cの切替タイミングに、入口到着後の所定の時間の経過後が記憶されてもよい。あるいは、ユーザ1による出発の意図が入力され、その入力に応じて表示切替処理が実行されてもよい。
 平面映像62が用いられることで、山道に沿ったスムーズな視点移動が実現される。その後、途中の中継点や山の頂上に到着するタイミングで、自動的に全天球映像61が表示される。ユーザ1は、中継点や山の頂上において、360°全周囲を視聴しながら自然を楽しむことが可能である。
 もちろん山道の途中で、ユーザ1により、表示切替処理の指示を入力することも可能である。表示切替条件が満たされる場合には、指示を入力した地点における全天球映像61が表示される。これにより非常に没入感が高く、本当に山の中にいるような視聴体験を得ることが可能となる。その他、様々なVRコンテンツの視聴に、本技術を適用することが可能である。
 図19は、サーバ装置50のハードウェア構成例を示すブロック図である。
 サーバ装置50は、CPU501、ROM502、RAM503、入出力インタフェース505、及びこれらを互いに接続するバス504を備える。入出力インタフェース505には、表示部506、操作部507、記憶部508、通信部509、及びドライブ部510等が接続される。
 表示部506は、例えば液晶、EL(Electro-Luminescence)等を用いた表示デバイスである。操作部507は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。操作部507がタッチパネルを含む場合、そのタッチパネルは表示部506と一体となり得る。
 記憶部508は、不揮発性の記憶デバイスであり、例えばHDD(Hard Disk Drive)、フラッシュメモリ、その他の固体メモリである。ドライブ部510は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体511を駆動することが可能なデバイスである。記録媒体511として、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
 通信部509は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して他のデバイスと通信するための通信モジュールである。Bluetooth等の近距離無線通信用の通信モジュールが備えられてもよい。またモデムやルータ等の通信機器が用いられてもよい。
 上記のようなハードウェア構成を有するサーバ装置50による情報処理は、記憶部508またはROM502等に記憶されたソフトウェアと、サーバ装置50のハードウェア資源との協働により実現される。具体的には、CPU501が記憶部508またはROM502等に記憶された、ソフトウェアを構成するプログラムをRAM503にロードして実行することにより実現される。
 <その他の実施形態>
 本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
 上記では、全天球フレーム画像の表示と、平面フレーム画像の表示とを切替える場合を例に挙げた。これに限定されず、静止画像で構成された全天球画像と、動画像で構成された平面映像との間で、表示が切替えられてもよい。例えば所定の平面映像の最終フレーム画像の表示と、全天球画像の表示とを切替える、といった表示切替処理も可能である。なお動画像で構成された全天球映像と、静止画像である平面画像との間の表示の切替えや、静止画像同士の表示の切替えに本技術を適用することも可能である。
 上記では、メタデータ63cの算出に特許文献1(特開2018-11302号公報)に記載されている技術を用いることが可能な旨を記載した。その他、特許文献1(特開2018-11302号公報)に記載されている技術を用いて、全天球映像と平面映像との位置合わせが可能であり、対応範囲を算出することも可能である。
 上記では、第2の実空間画像の一例として、全天球映像を例に挙げた。これに限定されず、360°全周囲のうち、一部の範囲を表示可能なパノラマ映像等が、第2の実空間画像として生成されてもよい。例えば第1の実空間画像である平面映像と、パノラマ映像との表示の切替に、本技術を適用することが可能である。
 すなわち仮想空間の第1の実空間画像が表示される領域を含み第1の実空間画像が表示される領域よりも広い領域に表示される任意の画像を、第2の実空間画として、本技術を適用することが可能である。例えば、平面映像よりも没入感が得られる広い領域に表示されれば、360°ではない180°等の任意の視野範囲の映像を、第2の実空間画像として採用することが可能である。
 第1の実空間画像も平面映像に限定される訳ではない。例えば第2の実空間画像の表示領域に含まれ、その表示領域よりも狭い領域に表示される画像であれば、第1の実空間画像として採用可能である。例えば第2の実空間画像である全天球映像に対して、表示領域が狭いパノラマ映像が、第1の実空間画像として用いられる場合もあり得る。
 上記では、全天球映像の対応範囲の表示内容と、平面映像の表示内容とが同じ内容となるように、制限画像を生成する場合を例に挙げた。ここで「同じ内容」等の表現は、「完全に同じ内容」等の概念のみならず、「実質的に同じ内容」等の概念も含み得る。実質的に同じ撮影位置から実質的に同じタイミングで撮影された画像同士は、表示内容が同じ内容となる画像同士に含まれる。
 図4に示すサーバ装置の機能が、HMDに搭載されてもよい。この場合、HMDは、本技術に係る情報処理装置の一実施形態として機能する。またVRコンテンツを表示する表示装置は、図1に示す没入型のHMDに限定されない。VRを表現可能な他の任意の表示装置が用いられてもよい。
 上記では、本技術に係る情報処理装置の一実施形態として、サーバ装置を例に挙げた。しかしながら、サーバ装置とは別に構成され、有線又は無線を介してサーバ装置に接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えばサーバ装置と他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。
 すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
 コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば第1及び第2の実空間画像の取得、メタデータの取得、表示切替処理の実行等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
 すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
 各図面を参照して説明したHMD、サーバ装置等の各構成、表示切替処理のフロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。
 本開示において、「同じ」「等しい」等は、「完全に同じ」「完全に等しい」等の概念のみならず、「実質的に同じ」「実質的に等しい」等の概念を含み得る。例えば「完全に同じ」「完全に等しい」等を基準とした所定の範囲を意味する概念も含まれる。
 以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。
 なお、本技術は以下のような構成も採ることができる。
(1)仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える処理部
 を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
 前記処理部は、前記メタデータに基づいて前記切替処理の実行タイミングであるか否かを判定し、前記切替処理の実行タイミングである場合に前記切替処理を実行する
 情報処理装置。
(3)(1)又は(2)に記載の情報処理装置であって、
 前記処理部は、前記メタデータに基づいて前記切替処理を実行するための切替条件が満たされているか否かを判定し、前記切替条件が満たされている場合に前記切替処理を実行する
 情報処理装置。
(4)(3)に記載の情報処理装置であって、
 前記切替条件は、前記第1の実空間画像の撮影位置と前記第2の実空間画像の撮影位置との差が所定の閾値以下であるという条件を含む
 情報処理装置。
(5)(3)又は(4)に記載の情報処理装置であって、
 前記切替条件は、前記第1の実空間画像の撮影時間と前記第2の実空間画像の撮影時間との差が所定の閾値以下であるという条件を含む
 情報処理装置。
(6)(1)から(5)のうちいずれか1つに記載の情報処理装置であって、
 前記切替処理は、前記第2の実空間画像の前記第1の実空間画像の画角に対応する対応範囲以外の範囲の表示が制限された制限画像を生成し、前記第1の実空間画像と前記制限画像との間で表示を切替えることを含む
 情報処理装置。
(7)(6)に記載の情報処理装置であって、
 前記切替処理は、前記第1の実空間画像のサイズを前記第2の実空間画像の前記対応範囲のサイズとなるように変更後、前記制限画像との間で表示を切替えることを含む
 情報処理装置。
(8)(6)又は(7)に記載の情報処理装置であって、
 前記切替処理は、前記制限画像の前記対応範囲に表示される表示内容が、前記第1の実空間画像の表示内容と同じ内容となるように、前記制限画像を生成することを含む
 情報処理装置。
(9)(1)から(8)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の実空間画像は、実空間の所定の撮影位置から撮影された画像である
 情報処理装置。
(10)(1)から(9)のうちいずれか1つに記載の情報処理装置であって、
 前記第2の実空間画像は、実空間の所定の撮影位置から撮影された複数の画像が合成された画像である
 情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
 前記第2の実空間画像は、全天球画像である
 情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、
 前記第1の実空間画像は、複数のフレーム画像を含む動画像であり、
 前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像との間で表示を切替える
 情報処理装置。
(13)(12)に記載の情報処理装置であって、
 前記第2の実空間画像は、複数のフレーム画像を含む動画像であり、
 前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像の所定のフレーム画像との間で表示を切替える
 情報処理装置。
(14)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
 前記メタデータは、前記第1の実空間画像の画角に関する情報を含む
 情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、
 前記メタデータは、前記第1の実空間画像の撮影位置を含む第1の撮影情報と、前記第2の実空間画像の撮影位置を含む第2の撮影情報とを含む
 情報処理装置。
(16)(15)に記載の情報処理装置であって、
 前記第1の撮影情報は、前記第1の実空間画像の撮影方向及び撮影時間を含み、
 前記第2の撮影情報は、前記第2の実空間画像の撮影時間を含む
 情報処理装置。
(17)(1)から(16)のうちいずれか1つに記載の情報処理装置であって、
 前記メタデータは、前記切替処理の実行タイミングに関する情報を含む
 情報処理装置。
(18)(1)から(17)のうちいずれか1つに記載の情報処理装置であって、
 前記処理部は、前記第1の実空間画像及び前記第2の実空間画像のHMD(Head Mounted Display)への表示を制御する
 情報処理装置。
(19)仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える
 ことをコンピュータシステムが実行する情報処理方法。
(20)仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替えるステップ
 をコンピュータシステムに実行させるプログラム。
 R1…第1の表示領域
 R2…第2の表示領域
 10…HMD
 22…ディスプレイ
 24…操作ボタン
 25…通信部
 28…コントローラ
 50…サーバ装置
 53…ユーザインタフェース部
 54…切替タイミング判定部
 55…視差判定部
 56…切替判定部
 57…全天球映像制御部
 58…平面映像制御部
 59…レンダリング部
 60…データベース
 61…全天球映像データ(全天球映像)
 62…平面映像データ(平面映像)
 63…メタデータ
 64…平面フレーム画像
 66…実空間画像
 68…全天球フレーム画像
 70…対応範囲
 71…制限画像
 100…VR提供システム

Claims (20)

  1.  仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える処理部
     を具備する情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記処理部は、前記メタデータに基づいて前記切替処理の実行タイミングであるか否かを判定し、前記切替処理の実行タイミングである場合に前記切替処理を実行する
     情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記処理部は、前記メタデータに基づいて前記切替処理を実行するための切替条件が満たされているか否かを判定し、前記切替条件が満たされている場合に前記切替処理を実行する
     情報処理装置。
  4.  請求項3に記載の情報処理装置であって、
     前記切替条件は、前記第1の実空間画像の撮影位置と前記第2の実空間画像の撮影位置との差が所定の閾値以下であるという条件を含む
     情報処理装置。
  5.  請求項3に記載の情報処理装置であって、
     前記切替条件は、前記第1の実空間画像の撮影時間と前記第2の実空間画像の撮影時間との差が所定の閾値以下であるという条件を含む
     情報処理装置。
  6.  請求項1に記載の情報処理装置であって、
     前記切替処理は、前記第2の実空間画像の前記第1の実空間画像の画角に対応する対応範囲以外の範囲の表示が制限された制限画像を生成し、前記第1の実空間画像と前記制限画像との間で表示を切替えることを含む
     情報処理装置。
  7.  請求項6に記載の情報処理装置であって、
     前記切替処理は、前記第1の実空間画像のサイズを前記第2の実空間画像の前記対応範囲のサイズとなるように変更後、前記制限画像との間で表示を切替えることを含む
     情報処理装置。
  8.  請求項6に記載の情報処理装置であって、
     前記切替処理は、前記制限画像の前記対応範囲に表示される表示内容が、前記第1の実空間画像の表示内容と同じ内容となるように、前記制限画像を生成することを含む
     情報処理装置。
  9.  請求項1に記載の情報処理装置であって、
     前記第1の実空間画像は、実空間の所定の撮影位置から撮影された画像である
     情報処理装置。
  10.  請求項1に記載の情報処理装置であって、
     前記第2の実空間画像は、実空間の所定の撮影位置から撮影された複数の画像が合成された画像である
     情報処理装置。
  11.  請求項1に記載の情報処理装置であって、
     前記第2の実空間画像は、全天球画像である
     情報処理装置。
  12.  請求項1に記載の情報処理装置であって、
     前記第1の実空間画像は、複数のフレーム画像を含む動画像であり、
     前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像との間で表示を切替える
     情報処理装置。
  13.  請求項12に記載の情報処理装置であって、
     前記第2の実空間画像は、複数のフレーム画像を含む動画像であり、
     前記処理部は、前記第1の実空間画像の所定のフレーム画像と、前記第2の実空間画像の所定のフレーム画像との間で表示を切替える
     情報処理装置。
  14.  請求項1に記載の情報処理装置であって、
     前記メタデータは、前記第1の実空間画像の画角に関する情報を含む
     情報処理装置。
  15.  請求項1に記載の情報処理装置であって、
     前記メタデータは、前記第1の実空間画像の撮影位置を含む第1の撮影情報と、前記第2の実空間画像の撮影位置を含む第2の撮影情報とを含む
     情報処理装置。
  16.  請求項15に記載の情報処理装置であって、
     前記第1の撮影情報は、前記第1の実空間画像の撮影方向及び撮影時間を含み、
     前記第2の撮影情報は、前記第2の実空間画像の撮影時間を含む
     情報処理装置。
  17.  請求項1に記載の情報処理装置であって、
     前記メタデータは、前記切替処理の実行タイミングに関する情報を含む
     情報処理装置。
  18.  請求項1に記載の情報処理装置であって、
     前記処理部は、前記第1の実空間画像及び前記第2の実空間画像のHMD(Head Mounted Display)への表示を制御する
     情報処理装置。
  19.  仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替える
     ことをコンピュータシステムが実行する情報処理方法。
  20.  仮想空間に表示される第1の実空間画像と、前記仮想空間の前記第1の実空間画像が表示される領域を含み前記第1の実空間画像が表示される領域よりも広い領域に表示される第2の実空間画像との表示の切替えに関するメタデータに基づいて、前記第1の実空間画像の画角に対応した切替処理を実行することで、前記第1の実空間画像と前記第2の実空間画像との間で表示を切替えるステップ
     をコンピュータシステムに実行させるプログラム。
PCT/JP2019/030670 2018-09-18 2019-08-05 情報処理装置、情報処理方法、及びプログラム WO2020059327A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/274,378 US20220053179A1 (en) 2018-09-18 2019-08-05 Information processing apparatus, information processing method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-173767 2018-09-18
JP2018173767 2018-09-18

Publications (1)

Publication Number Publication Date
WO2020059327A1 true WO2020059327A1 (ja) 2020-03-26

Family

ID=69887103

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/030670 WO2020059327A1 (ja) 2018-09-18 2019-08-05 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US20220053179A1 (ja)
WO (1) WO2020059327A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190735A1 (ja) * 2021-03-11 2022-09-15 株式会社Nttドコモ 表示制御装置
WO2023095642A1 (ja) * 2021-11-26 2023-06-01 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089382A (ja) * 2019-12-05 2021-06-10 キヤノン株式会社 電子機器、電子機器の制御方法、プログラム、記憶媒体

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319351A (ja) * 2002-04-23 2003-11-07 Sony Corp サービス提供システム、放送装置および方法、受信装置および方法、記録媒体、並びにプログラム
JP2005012619A (ja) * 2003-06-20 2005-01-13 Mitsubishi Electric Corp パノラマ画像生成装置
JP2013258614A (ja) * 2012-06-13 2013-12-26 Sony Computer Entertainment Inc 画像生成装置および画像生成方法
JP2016177748A (ja) * 2015-03-23 2016-10-06 株式会社コロプラ コンピュータ・プログラム
JP2017126868A (ja) * 2016-01-13 2017-07-20 株式会社リコー 画像表示システム、情報処理装置、画像表示方法及び画像表示プログラム
JP2017175319A (ja) * 2016-03-23 2017-09-28 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP2018110375A (ja) * 2016-12-28 2018-07-12 株式会社リコー 表示装置、プログラム、表示方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319351A (ja) * 2002-04-23 2003-11-07 Sony Corp サービス提供システム、放送装置および方法、受信装置および方法、記録媒体、並びにプログラム
JP2005012619A (ja) * 2003-06-20 2005-01-13 Mitsubishi Electric Corp パノラマ画像生成装置
JP2013258614A (ja) * 2012-06-13 2013-12-26 Sony Computer Entertainment Inc 画像生成装置および画像生成方法
JP2016177748A (ja) * 2015-03-23 2016-10-06 株式会社コロプラ コンピュータ・プログラム
JP2017126868A (ja) * 2016-01-13 2017-07-20 株式会社リコー 画像表示システム、情報処理装置、画像表示方法及び画像表示プログラム
JP2017175319A (ja) * 2016-03-23 2017-09-28 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
JP2018110375A (ja) * 2016-12-28 2018-07-12 株式会社リコー 表示装置、プログラム、表示方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190735A1 (ja) * 2021-03-11 2022-09-15 株式会社Nttドコモ 表示制御装置
WO2023095642A1 (ja) * 2021-11-26 2023-06-01 ソニーグループ株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
US20220053179A1 (en) 2022-02-17

Similar Documents

Publication Publication Date Title
US10574889B2 (en) Information processing device, information processing method, and program
US9927948B2 (en) Image display apparatus and image display method
JP7043255B2 (ja) 電子機器及びその制御方法
US10686985B2 (en) Moving picture reproducing device, moving picture reproducing method, moving picture reproducing program, moving picture reproducing system, and moving picture transmission device
WO2016009864A1 (ja) 情報処理装置、表示装置、情報処理方法、プログラム、および情報処理システム
US10681276B2 (en) Virtual reality video processing to compensate for movement of a camera during capture
JP6787394B2 (ja) 情報処理装置、情報処理方法、プログラム
JP2016025633A (ja) 情報処理装置、管理装置、情報処理方法、およびプログラム
US9939843B2 (en) Apparel-mountable panoramic camera systems
JP6576536B2 (ja) 情報処理装置
WO2020059327A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN105939497B (zh) 媒体串流系统及媒体串流方法
US10390007B1 (en) Method and system for panoramic 3D video capture and display
US20230018560A1 (en) Virtual Reality Systems and Methods
CN114651448A (zh) 信息处理系统、信息处理方法和程序
US20210058611A1 (en) Multiviewing virtual reality user interface
US10045000B1 (en) Method and system for omni-directional audio signal acquisition and playback
JP2012244245A (ja) 撮影装置、撮影装置の制御方法、画像表示装置、画像表示方法、およびプログラム
JP2021069045A (ja) 表示制御装置、表示制御方法、プログラムおよび記憶媒体
WO2022220306A1 (ja) 映像表示システム、情報処理装置、情報処理方法、及び、プログラム
JP7403256B2 (ja) 映像提示装置およびプログラム
DeHart Directing audience attention: cinematic composition in 360 natural history films
US20220337805A1 (en) Reproduction device, reproduction method, and recording medium
KR101923640B1 (ko) 가상 현실 방송을 제공하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19863563

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19863563

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP