WO2020184188A1 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
WO2020184188A1
WO2020184188A1 PCT/JP2020/007850 JP2020007850W WO2020184188A1 WO 2020184188 A1 WO2020184188 A1 WO 2020184188A1 JP 2020007850 W JP2020007850 W JP 2020007850W WO 2020184188 A1 WO2020184188 A1 WO 2020184188A1
Authority
WO
WIPO (PCT)
Prior art keywords
visual field
information
view
image processing
image
Prior art date
Application number
PCT/JP2020/007850
Other languages
English (en)
French (fr)
Inventor
尚尊 小代
遼平 高橋
俊也 浜田
平林 光浩
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US17/434,182 priority Critical patent/US20220150464A1/en
Priority to JP2021504909A priority patent/JPWO2020184188A1/ja
Publication of WO2020184188A1 publication Critical patent/WO2020184188A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/36Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators characterised by the display of a graphic pattern, e.g. using an all-points-addressable [APA] memory
    • G09G5/39Control of the bit-mapped memory
    • G09G5/391Resolution modifying circuits, e.g. variable screen formats
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/139Format conversion, e.g. of frame-rate or size
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking

Definitions

  • the present disclosure relates to an image processing apparatus, an image processing method, and an image processing program. More specifically, the present invention relates to image processing for providing seamless screen transitions with less discomfort in a wide angle of view image.
  • the user can view the wide angle-of-view image as if he / she is moving his / her line of sight according to the recommended field of view information provided together with the content without requiring any operation.
  • the above-mentioned conventional technology cannot always improve the user experience regarding wide-angle images.
  • active viewing in addition to passive viewing in which the image is displayed according to the recommended field of view information, active viewing in which the user selects the position (field of view) of the image to be viewed is assumed. ..
  • these two types of viewing styles can be switched at any time, there is a time-series discontinuity of the visual field image between the visual field image in active viewing and the visual field information in passive viewing. appear. For this reason, the user may lose a sense of direction in viewing and may feel a sense of discomfort. As a result, the immersive feeling in the wide angle of view image may be impaired.
  • the present disclosure proposes an image processing device, an image processing method, and an image processing program that can improve the user experience regarding wide-angle images.
  • the image processing apparatus of one form according to the present disclosure is based on the first field of view information, which is information for specifying the user's first field of view in a wide-angle image, and the first field of view.
  • the first visual field based on the acquisition unit that acquires the second visual field information that is the information for specifying the second visual field that is the transition destination visual field, and the first visual field information and the second visual field information. It includes a generation unit that generates transition visual field information, which is information indicating the transition of the visual field from the second visual field to the second visual field.
  • FIG (2) which shows an example of the image processing which concerns on the modification of the 1st Embodiment. It is a figure which shows an example of the generation process of a complementary image. It is a figure which shows an example of the image processing which concerns on 2nd Embodiment. It is a figure explaining an example of image processing which concerns on 2nd Embodiment. It is a flowchart which shows the flow
  • First Embodiment 1-1 Image processing for wide-angle images 1-2. Configuration of the image processing apparatus according to the first embodiment 1-3. Information processing procedure according to the first embodiment 1-4. Modification example according to the first embodiment 2. Second embodiment 3. Other embodiments 4. Effect of image processing device according to the present disclosure 5. Hardware configuration
  • the wide angle of view image according to the present disclosure is an image having an angle of view wider than the angle of view displayed on the display, such as spherical contents and panoramic images.
  • spherical content will be described as an example.
  • the omnidirectional content is generated by being photographed by, for example, an omnidirectional camera capable of photographing 360 degrees in all directions. Since the spherical content has a wider angle of view than a general display (for example, a liquid crystal display or an HMD (Head Mounted Display) worn by a user), the size of the display (for example, when played back) In other words, only a part of the area cut out according to the viewing angle of view of the user) is displayed. For example, the user operates the touch display to change the display location, or changes the line of sight or the posture via the attached HMD to view the spherical content while changing the display position.
  • a general display for example, a liquid crystal display or an HMD (Head Mounted Display) worn by a user
  • the size of the display for example, when played back
  • only a part of the area cut out according to the viewing angle of view of the user is displayed.
  • the user operates the touch display to change the display location, or changes the line of sight or the posture
  • FIG. 1 is a diagram illustrating spherical content.
  • FIG. 1 shows spherical content 10 which is an example of a wide angle-of-view image.
  • FIG. 1 conceptually shows the positional relationship when the user views the spherical content 10.
  • the user is located at the center 20 of the spherical content 10 and views a part of the spherical content 10.
  • the user When the user actively views the spherical content 10, the user performs an operation of changing the orientation of the attached HMD or moving the image displayed on the display, for example, to perform the spherical content. Change the field of view for 10.
  • the field of view in the present disclosure indicates the range that the user is viewing in the wide angle of view image.
  • the user's visual field is specified by visual field information, which is information for specifying the visual field.
  • the visual field information may be in any form as long as it can identify the visual field of the user.
  • the visual field information is the user's line-of-sight direction in the wide angle-of-view image and the display angle of view (that is, the visual field area) in the wide-angle image.
  • the field of view information may be indicated by coordinates or vectors from the center of the wide angle of view image.
  • the user By directing the line of sight from the center 20 in a predetermined direction, the user views, for example, an image corresponding to the visual field area 22 which is a part of the spherical content 10.
  • the user views the image corresponding to the visual field region 26 by moving the line of sight to the movement path shown by the curve 24. In this way, in the spherical content 10, the user can view images corresponding to various angles by actively shifting the line of sight.
  • FIG. 2 is a diagram illustrating the movement of the line of sight in the spherical content 10.
  • FIG. 2 shows the line of sight of the user when the spherical content 10 shown in FIG. 1 is looked down from the zenith.
  • the user wants to view the image corresponding to the visual field area 26 after viewing the image corresponding to the visual field area 22, the user views the image corresponding to the visual field area 26 by turning in the direction of the vector 28. be able to.
  • FIG. 3 is a diagram illustrating a visual field region in spherical content.
  • the visual field regions 26 shown in FIGS. 1 and 2 are conceptually shown using the x-axis, y-axis, and z-axis.
  • the visual field region 26 has an angle from the y-axis to the x-axis (generally referred to as an elevation angle (elevation)) and an angle from the z-axis to the y-axis (generally referred to as an azimuth). Specified based on).
  • the visual field region 26 is specified based on the angle of view (azimuth_range) on the azimuth side, the angle of view (elevation_range) on the elevation angle side, and the like.
  • the information that identifies the visual field region 26 is referred to as the visual field information corresponding to the visual field region 26.
  • the information for specifying the visual field region is not limited to the example shown in FIG. 3, and may be any information as long as it can specify the line-of-sight direction and the range (angle of view) of the region.
  • the variable (parameter) indicating the visual field information may indicate the direction of the line of sight when the center is used as a numerical value of yaw, pitch, and roll.
  • a wide angle-of-view image such as the spherical content 10
  • the user shakes his or her head to change the direction of the head, or when viewing a flat display, the cursor on the remote control
  • the line-of-sight direction is changed by an operation or the like, and an image in an arbitrary direction is cut out. That is, the spherical content 10 can express an image as if the line of sight shifts in the vertical direction or the horizontal direction (pan or tilt) according to the user's operation.
  • FIGS. 1 to 3 show an example in which the user actively changes the line of sight.
  • the line-of-sight direction recommended in advance by the content creator is registered in the content.
  • Such information is referred to as recommended visual field information (ROI (Region of Interest)).
  • the recommended visual field information embedded in the content is referred to as recommended visual field metadata.
  • recommended visual field metadata for specifying a visual field region to be viewed by a user may be registered in the content along the time axis.
  • the user can experience a video expression in which the line of sight automatically moves according to the intention of the content creator without changing the line of sight.
  • FIG. 4 is a diagram illustrating recommended visual field information in the spherical content 10.
  • FIG. 4 shows an image showing the spherical content 10 in equirectangular projection, an angle of view 42 corresponding to the image, and a video set 44 actually viewed by the user in chronological order.
  • the spherical content 10 has an area in which the object 31, the object 32, the object 33, the object 34, the object 35, and the object 36 are displayed. Since all the angles of view of the spherical content 10 are not displayed at once, some of these objects are displayed according to the angles of view. For example, as shown in FIG. 4, in the visual field area 40 whose azimuth angle corresponds to 0 °, objects 32 to 35 are displayed.
  • the spherical content 10 shown in FIG. 4 includes recommended visual field metadata that displays objects 31 to 36 in order in chronological order.
  • the user can watch the moving image according to the recommended visual field metadata without moving his / her line of sight.
  • the user views the azimuth angle of ⁇ 30 ° to the azimuth angle of 30 ° as a continuous video (moving image).
  • the user watches the video 51 in which the object 31 and the object 32 are displayed at an azimuth angle of ⁇ 30 °. Subsequently, the user watches the image 52 in which the object 31, the object 32, and the object 33 are displayed at an azimuth angle of ⁇ 15 °. Subsequently, the user watches the video 53 in which the object 35 is displayed from the object 32 at an azimuth angle of 0 °. Subsequently, the user views the image 55 in which the object 34, the object 35, and the object 36 are displayed at an azimuth angle of 15 °. Finally, at an azimuth angle of 30 °, the user views the image 55 in which the object 35 and the object 36 are displayed.
  • the user can view the spherical content 10 in chronological order and in line with the intention of the content creator.
  • the spherical content 10 there are active viewing in which the user actively changes the line of sight and passive viewing in accordance with the recommended visual field information. ..
  • a time-series discontinuity of the visual field image occurs between the visual field image in active viewing and the visual field information in passive viewing. For this reason, the user may lose a sense of direction in viewing and may feel a sense of discomfort. That is, the technology related to wide-angle images has a problem of seamlessly transitioning video display between different viewing styles.
  • the image processing according to the present disclosure makes it possible to seamlessly transition the video display between different viewing styles by the means described below.
  • the image processing device 100 includes first field of view information, which is information for specifying the user's first field of view in a wide angle of view image, and the field of view of the transition destination transitioned from the first viewing field of view.
  • the second visual field information which is the information for specifying the second visual field, is acquired.
  • the image processing device 100 generates transition visual field information which is information indicating the transition of the visual field from the first visual field to the second visual field based on the acquired first visual field information and the second visual field information.
  • the image processing device 100 has a visual field (second visual field) that will be displayed after a predetermined time based on the visual field information of the visual field (first visual field) that the user is actively viewing and the recommended visual field information.
  • the field of view information of the field of view is acquired, and information for smooth transition between them (in other words, a movement path for moving the field of view) is generated.
  • the user does not have to experience the switching of the visual field due to the sudden movement of the line of sight, and thus can accept the switching of the line of sight without feeling any discomfort. That is, the image processing device 100 can improve the user experience regarding the wide angle of view image.
  • the image processing according to the present disclosure will be described in detail.
  • the image processing device 100 is a so-called client that acquires a wide angle of view image from an external data server or the like and reproduces it. That is, the image processing device 100 is a reproduction device for reproducing a wide angle of view image.
  • the image processing device 100 may be an HMD or an information processing terminal such as a personal computer, a tablet terminal, or a smartphone.
  • FIG. 5 is a diagram showing a configuration example of the image processing device 100 according to the first embodiment.
  • the image processing device 100 includes a communication unit 110, a storage unit 120, a control unit 130, and an output unit 140.
  • the image processing device 100 may have an input unit (for example, a keyboard, a mouse, etc.) that receives various operations from a user or the like who operates the image processing device 100.
  • the communication unit 110 is realized by, for example, a NIC (Network Interface Card) or the like.
  • the communication unit 110 is connected to the network N (Internet or the like) by wire or wirelessly, and transmits / receives information to / from an external data server or the like that provides a wide angle of view image or the like via the network N.
  • the storage unit 120 is realized by, for example, a semiconductor memory element such as a RAM (Random Access Memory) or a flash memory (Flash Memory), or a storage device such as a hard disk or an optical disk.
  • the storage unit 120 stores content data such as an acquired wide angle-of-view image.
  • the control unit 130 is a program stored inside the image processing device 100 by, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), or the like (for example, an image processing program according to the present disclosure). ) Is realized by executing RAM (Random Access Memory) etc. as a work area. Further, the control unit 130 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 130 has an image acquisition unit 131 and a display control unit 132, and realizes or executes an information processing function or operation described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 5, and may be another configuration as long as it is a configuration for performing information processing described later.
  • the image acquisition unit 131 acquires various information via a wired or wireless network or the like. For example, the image acquisition unit 131 acquires a wide angle of view image from an external data server or the like.
  • the display control unit 132 controls the display of the wide angle-of-view image acquired by the image acquisition unit 131 on the output unit 140 (that is, the image display screen). For example, the display control unit 132 expands the data of the wide angle-of-view image, and extracts the video data and the audio data that are timely taken out and reproduced. Further, the display control unit 132 extracts the recommended field of view (ROI) metadata registered in advance in the wide angle of view image and supplies it to the processing unit in the subsequent stage.
  • ROI recommended field of view
  • the display control unit 132 includes a visual field determination unit 133, a reproduction unit 134, a visual field information acquisition unit 135, and a generation unit 136.
  • the field of view determination unit 133 determines the field of view for displaying a wide angle of view image. That is, the field of view determination unit 133 specifies the line-of-sight direction of the user in the wide angle-of-view image. For example, the field of view determination unit 133 is actually displayed on the output unit 140 of the wide angle of view image based on the viewing angle initially set for the wide angle of view image, the recommended field of view metadata, the user's operation, and the like. Determine the position (field of view).
  • the field of view determination unit 133 detects the operation information of the user wearing the HMD, that is, the so-called head tracking information. Specifically, the visual field determination unit 133 detects various information related to the user's movements such as the orientation, inclination, movement and movement speed of the user's body by controlling the sensor included in the HMD. More specifically, the visual field determination unit 133 includes information on the user's head and posture, movements of the user's head and body (acceleration and angular velocity), visual field direction and viewpoint movement speed as information on the user's movement. Etc. are detected.
  • the visual field determination unit 133 controls various motion sensors such as a 3-axis acceleration sensor, a gyro sensor, and a speed sensor as sensors, and detects information related to the user's movement.
  • the sensor does not necessarily have to be provided inside the HMD, and may be, for example, an external sensor connected to the HMD by wire or wirelessly.
  • the visual field determination unit 133 detects the position of the viewpoint that the user gazes at on the HMD display.
  • the visual field determination unit 133 may detect the viewpoint position by using various known methods. For example, the visual field determination unit 133 may detect the user's viewpoint position by estimating the orientation of the user's head using the above-mentioned three-axis acceleration sensor, gyro sensor, or the like. Further, the visual field determination unit 133 may detect the viewpoint position of the user by using a camera that captures the user's eyes as a sensor. For example, the sensor is installed at a position where the user's eyeball is located within the imaging range when the user wears the HMD on the head (for example, a position close to the display and the lens faces the user side).
  • the sensor recognizes the direction in which the line of sight of the right eye is directed based on the image of the eyeball of the user's right eye and the positional relationship between the image and the right eye.
  • the sensor recognizes the direction in which the line of sight of the left eye is directed based on the image of the eyeball of the user's left eye captured and the positional relationship between the left eye and the left eye.
  • the visual field determination unit 133 may detect which position on the display the user is gazing at based on the position of the eyeball.
  • the field of view determination unit 133 acquires information on the area (field of view in the wide angle of view image) displayed on the display in the wide angle of view image. That is, the field of view determination unit 133 acquires information indicating an area designated by the user's head or posture information or an area designated by the user by a touch operation or the like in the wide angle of view image. Further, the field of view determination unit 133 may detect the setting of the angle of view of a partial image of the wide angle of view image displayed in the area.
  • the setting of the angle of view is, for example, the setting of the zoom magnification and the like.
  • the playback unit 134 reproduces a wide angle of view image as video data. Specifically, the reproduction unit 134 processes a wide angle-of-view image for display based on the field of view determined by the field-of-view determination unit 133 (for example, it is cut out by specifying the line-of-sight direction and the angle of view and processed into a plane projection image). To do. Then, the reproduction unit 134 renders the processed video data and displays it on the output unit 140.
  • the reproduction unit 134 acquires the recommended field of view metadata registered in the wide angle of view image, extracts the recommended field of view information supplied in chronological order, and uses it for rendering in a timely manner. That is, the reproduction unit 134 functions as a renderer that determines the display area based on the field of view determined by the field of view determination unit 133 and renders (image generation). Specifically, the playback unit 134 renders based on a predetermined frame rate (for example, fps (frame per second)), and reproduces a video corresponding to a wide angle of view image.
  • a predetermined frame rate for example, fps (frame per second)
  • the field of view information acquisition unit 135 acquires the field of view information in the wide angle of view image reproduced by the reproduction unit 134.
  • the visual field information acquisition unit 135 acquires the first visual field information which is the information for specifying the user's first visual field in the wide angle-of-view image.
  • the field of view information acquisition unit 135 identifies the field of view that the user is currently viewing based on the user's operation during wide-angle image reproduction, the position of the user's head, the line of sight, and the like. To get.
  • the field of view information acquisition unit 135 acquires information on the user's field of view in the spherical content 10, which is an example of a wide angle of view image. That is, the visual field information acquisition unit 135 acquires the visual field information corresponding to the region in which the user views the spherical content 10 from the center of the spherical content 10 as the first visual field information.
  • the visual field information acquisition unit 135 acquires the second visual field information which is the information for specifying the second visual field, which is the visual field of the transition destination transitioned from the first visual field.
  • the visual field information acquisition unit 135 is a second visual field that is predicted to transition from the first visual field after a predetermined time based on the recommended visual field information that is information indicating the movement of the line of sight registered in advance in the wide angle of view image. Acquire the second field of view information.
  • FIG. 6 is a diagram illustrating a visual field information acquisition process according to the first embodiment.
  • the user is located at the center 20 and views the spherical content 10.
  • information on the line of sight information such as the movement path and the viewing angle
  • the moving path 60 is registered as the recommended visual field metadata in the spherical content 10.
  • the reproduction unit 134 displays the video data in order along the movement path 60 which is the recommended visual field metadata.
  • the reproduction of the spherical content 10 is switched from passive viewing (viewing along the movement path 60) to active viewing. ..
  • the user moves his / her line of sight as shown in the movement path 63 to view the spherical content 10.
  • VP_d (t) the field of view that the user is viewing (displayed on the screen) at an arbitrary time t
  • VP_m (t) the field of view based on the recommended field of view metadata
  • VP_d (t) VP_m (t) until the time (Td) at the branch point 62.
  • Tc the current time when shifting to the visual field display that prioritizes the user's intention after the time Td
  • the movement of the line of sight is performed along the movement path 61, so that the user can move to the visual field region 65 at a predetermined time t. It is assumed that the corresponding video data was being viewed.
  • the visual field information acquisition unit 135 displays the video data corresponding to the visual field region 65 based on the recommended visual field metadata (for example, the information in which the time series information and the movement path 61 are associated with each other). It is possible to specify the time t to be set and the visual field information corresponding to the visual field region 65.
  • the visual field information acquisition unit 135 obtains information for identifying the first visual field displayed on the display unit based on the active operation of the user (in the example of FIG. 6, the visual field information corresponding to the visual field region 64). Information that is acquired as one visual field information and identifies a second visual field that is predicted to be displayed after a predetermined time when the first visual field is displayed on the display unit based on the recommended visual field information (in the example of FIG. 6). , The visual field information corresponding to the visual field region 65) can be acquired as the second visual field information.
  • the generation unit 136 generates transition visual field information which is information indicating the transition of the visual field from the first visual field to the second visual field based on the first visual field information and the second visual field information.
  • the generation unit 136 generates transition visual field information when, for example, a movement path of a line of sight different from the recommended visual field information is detected by an active operation of the user.
  • the generation unit 136 generates transition visual field information including a movement path of the line of sight from the first visual field to the second visual field based on the first visual field information and the recommended visual field information.
  • the generation unit 136 moves the user's line of sight until the first visual field information is acquired. Based on the path and the recommended visual field information, transition visual field information including the movement path of the line of sight from the first visual field to the second visual field is generated.
  • the generation unit 136 is the user until the first visual field information is acquired.
  • Transition visual field information including the movement path of the visual field from the first visual field to the second visual field based on the speed and acceleration in the movement of the visual field and the speed and acceleration in the movement of the visual field registered as the recommended visual field information.
  • FIG. 7 is a diagram illustrating a generation process according to the first embodiment.
  • Optimal transition visual field information is generated in consideration of the velocity and acceleration in.
  • the generation unit 136 generates transition visual field information as a movement path from the user's current visual field to the time Tr when reaching the visual field along the recommended visual field information.
  • the transition visual field information is a moving path and is also visual field information that specifies a line-of-sight position (field of view) such as which position of a wide angle-of-view image is to be displayed.
  • the generation unit 136 generates the movement path 68 shown in FIG. 7 as the transition visual field information.
  • the generation unit 136 sets the initial direction of the line of sight movement.
  • a path that is shared with the movement path 63 and then smoothly merges with the recommended visual field information may be generated.
  • the generation unit 136 generates the movement path 67 shown in FIG. 7 as the transition visual field information.
  • the generation unit 136 looks in a direction in which the VP_m (Tr)> VP_d (Tr + 1) is smoothly connected in the moving direction.
  • the transition visual field information may be generated so as to move. Then, the generation unit 136 displays the visual field region 66 which is the confluence destination with the recommended visual field information while displaying the images in order from the visual field region 64 along the movement path 67 which is the generated transition visual field information. As a result, the generation unit 136 can switch the line of sight without giving the user a sense of discomfort.
  • FIG. 8 is a diagram conceptually showing the transition visual field information according to the first embodiment.
  • FIG. 8 shows the relationship between the time axis and the axis showing the movement in the line-of-sight direction at an angle corresponding to the spherical content 10. Specifically, FIG. 8 shows the relationship between the time and the direction of the line of sight when it is assumed that the line of sight moves horizontally and clockwise on the central surface of the sphere at a constant speed in viewing according to the recommended visual field information.
  • the dotted line 70 indicates the relationship between the speeds in the line-of-sight direction when the recommended visual field information is followed. As shown in FIG. 8, the dotted line 70 indicates that the line of sight moves horizontally and clockwise at a constant velocity over time.
  • the time when the branch point 71 is reached is set as the time Td.
  • the dotted line 72 shows the relationship of the speed in the line-of-sight direction when it is assumed that the viewing according to the recommended visual field information is continued.
  • the sphere 81 schematically shows a situation in which the line of sight moves to the front at a constant velocity according to the recommended visual field information.
  • the dotted line 74 indicates that the viewpoint has stopped at a certain angle due to the active movement of the user.
  • the dotted line 74 indicates that the user stopped moving his / her line of sight at time Td and gazed at a specific direction (front in the example of FIG. 8) for a certain period of time.
  • the generation unit 136 outputs the transition visual field information 76 that directly joins the line 73 from the branch point 75. Will be generated.
  • the video is switched instantaneously (for example, between one frame), the user experience may be deteriorated.
  • the sphere 82 schematically shows a situation in which the display is switched from the front line-of-sight direction to the line-of-sight direction indicated by the recommended visual field information according to the time series.
  • the generation unit 136 arbitrarily sets the time Tr after a predetermined time from the time Tc, and generates the transition visual field information that merges with the recommended visual field information at the time Tr.
  • the generation unit 136 generates the transition visual field information 77 for smoothly switching the line of sight over the time of Tc ⁇ t ⁇ Tr.
  • the speed and acceleration of the transition visual field information 77 are indicated by the inclination of the transition visual field information 77 shown in FIG. That is, the inclination of the transition visual field information 77 in FIG. 8 is the velocity, and the change in the inclination of the transition visual field information 77 is the acceleration.
  • the sphere 83 schematically shows a situation in which the display is smoothly switched from the front line-of-sight direction to the line-of-sight direction indicated by the recommended visual field information according to the time series.
  • the generation unit 136 does not set the transition visual field information 77 at a constant inclination (velocity), but instead sets a portion where the line of sight moves smoothly and a place where the line of sight moves rapidly. It may be provided.
  • a place where the line of sight moves smoothly means a place where the movement of the line of sight (in other words, the rotation speed in the sphere) is slower than the recommended visual field information.
  • the place where the line of sight moves rapidly means a place where the line of sight moves faster than the recommended visual field information.
  • the generation unit 136 may calculate the optimum values for the speed and acceleration of the transition visual field information based on various factors. For example, the generation unit 136 may calculate the speed and acceleration of the transition visual field information based on a predetermined ratio to the speed set in the recommended visual field information. Further, the generation unit 136 may receive registration of a speed or acceleration that is considered appropriate for human experience from an administrator or a user, and calculate the speed or acceleration of the transition visual field information based on the received value. ..
  • the velocity or acceleration according to the present disclosure may be a linear velocity at which the center point of the field of view passing on the spherical surface moves, or an angular velocity that rotates in the line-of-sight direction of the user when viewed from the center point of the sphere. May be good.
  • the generation unit 136 can generate transition visual field information in which a speed higher than the speed set in the recommended visual field information is set. As a result, the generation unit 136 can quickly return to the recommended visual field information from the active operation of the user, so that even if the line of sight is switched in the middle, the display is in line with the intention of the content creator. You can return quickly.
  • the generation unit 136 traces the transition visual field information that traces the visual field path that the recommended visual field should have originally passed during the period from the time Td at which the line-of-sight movement is paused to the time Tr that catches up with the recommended visual field information VP_m (t). Generate. At this time, the generation unit 136 generates transition visual field information for faster line-of-sight movement with respect to the recommended visual field information. As a result, the generation unit 136 can catch the line of sight that deviates from the recommended visual field on the way to the movement path indicated by the recommended visual field information over a predetermined time.
  • the user experiences the viewing experience as if he / she is watching the video while skipping one sample at a time (in other words, the line of sight is moving at double speed), but with a sudden change of line of sight. Since there is no such thing, it does not impair the user experience.
  • the generation unit 136 only needs to generate the information whose speed is changed as the transition visual field information, and can omit the process of calculating the movement path, so that the processing load can be reduced.
  • the generation unit 136 may generate the transition visual field information by a method different from the above. For example, the generation unit 136 sets a movement path that does not deteriorate the user experience according to the current visual field (first visual field), the transition destination visual field (second visual field), and the status of the recommended visual field information.
  • the transition visual field information including the transition visual field information may be newly generated.
  • FIG. 9 is a diagram (1) showing an example of video display according to the first embodiment.
  • FIG. 9 shows an example of video display when transition visual field information is not generated.
  • FIG. 9 shows an example in which the user views a video including objects 31 to 36 as in FIG. 4.
  • the user views the images 91 to 95 included in the image set 85 in chronological order.
  • the user watches the video from the video 91 to the video 95 excluding the video 93 in chronological order, for example, as shown in the video set 90.
  • the image 92 to the image 94 are switched in one frame, it is difficult for the user to recognize that the line of sight has moved in terms of viewing experience. That is, the user does not know whether or not the content he / she is viewing has shifted to the recommended visual field information, which may impair the viewing experience.
  • FIG. 10 is a diagram (2) showing an example of video display according to the first embodiment.
  • FIG. 10 shows an example of video display when transition visual field information is generated in the same example as the video shown in FIG.
  • the user in the movement from the video 91 to the video 95, displays the video including the video 96 displayed based on the transition visual field information in chronological order.
  • the user views the video 96 corresponding to the visual field information that fills the space between the video 92 and the video 94, instead of the video 94 that is switched instantly, and then the video 95.
  • the user can watch the video that smoothly transitions in chronological order instead of the video that is instantly switched from the video that he / she gazes at, so that he / she can watch the video without any discomfort.
  • the generation unit 136 may generate transition visual field information so as to smoothly switch between the recommended visual fields by applying, for example, the processes shown in FIGS. 7 and 8. That is, the transition visual field information is not only applied to the active operation of the user and the switching between the recommended visual field information, but is information that can be used in switching various lines of sight.
  • the output unit 140 outputs various signals.
  • the output unit 140 is a display unit that displays an image in the image processing device 100, and is realized by, for example, an organic EL (Electro-Luminescence) display, a liquid crystal display, or the like. Further, when the wide angle-of-view image includes audio data, the output unit 140 outputs audio based on the audio data.
  • an organic EL Electro-Luminescence
  • the output unit 140 outputs audio based on the audio data.
  • FIG. 11 is a flowchart (1) showing a flow of processing according to the first embodiment.
  • the image processing device 100 acquires moving image data related to a wide angle of view image (step S101). Then, the image processing device 100 extracts the reproduction data from the acquired moving image data (step S102).
  • the image processing device 100 updates the frame to be reproduced next (step S103). At this time, the image processing device 100 determines whether or not the line-of-sight switching request has been accepted (step S104).
  • step S104 When the line-of-sight switching request is received (step S104; Yes), the image processing device 100 performs a visual field determination process for determining the visual field information to be displayed (step S105). On the other hand, when the line-of-sight switching request is not accepted (step S104; No), the image processing apparatus 100 is based on the visual field information (for example, the visual field information determined based on the recommended visual field metadata) continuing from the previous frame. Then, the frame (video) is displayed (step S106).
  • the visual field information for example, the visual field information determined based on the recommended visual field metadata
  • the image processing device 100 determines whether or not the end of playback has been accepted or whether or not the moving image has ended. If the end of playback has not been accepted or the moving image has not ended (step S107; No), the image processing device 100 continues the process of updating the next frame (step S103). When the end of playback is accepted or the moving image is finished (step S107; Yes), the image processing device 100 ends the playback of the moving image (step S108).
  • FIG. 12 is a flowchart (2) showing a flow of processing according to the first embodiment.
  • the image processing device 100 determines the field of view in the wide angle of view image based on the operation of the user (step S201).
  • the user's operation in this case includes both an operation in which the user tries to perform active viewing and an operation in which the user requests to switch to passive viewing.
  • the image processing device 100 determines whether or not a line-of-sight switching request has occurred in the user's operation (step S202).
  • the image processing apparatus 100 executes the transition visual field information generation process (step S203).
  • the image processing device 100 sets the visual field (more specifically, the visual field information for specifying the visual field) determined based on the user's operation. Based on this, the process of displaying the frame is executed (step S106).
  • FIG. 13 is a flowchart (3) showing a flow of processing according to the first embodiment.
  • the image processing device 100 determines the time Tr for switching to the recommended visual field information (step S301). Subsequently, the image processing apparatus 100 detects the visual field information (second visual field information) at the time Tr and acquires the information related to the second visual field information (step S302).
  • the image processing apparatus 100 detects the visual field information (second visual field information) at the time Tr and acquires the information related to the second visual field information (step S302).
  • the image processing device 100 determines a path (that is, a line-of-sight movement path) connecting the current time and the time Tr based on the first visual field information and the second visual field information (step S303). Based on the determined information, the image processing apparatus 100 generates transition visual field information (step S304). Subsequently, the image processing apparatus 100 determines the field of view of the frame to be displayed at the present time based on the generated transition field of view information (step S305), and executes the process of displaying the frame (step S106).
  • a path that is, a line-of-sight movement path
  • the recommended field of view is based on a technique called “Initial Viewing Orientation” in addition to “Recommended Viewport” in the prior art document.
  • “Initial Viewing Orientation” is a mechanism to reset the field of view at any time. When the field of view is reset at an arbitrary timing, discontinuity of the line of sight is likely to occur. Therefore, even when this technique is used, the image processing apparatus 100 can be smoothed by using the above-mentioned transition field of view information. Screen display can be realized.
  • the visual field information acquisition unit 135 may acquire the visual field information corresponding to the region in which the user views the spherical content 10 from a point other than the center of the spherical content 10 as the first visual field information.
  • the image processing device 100 when the display angle of view and the amount of deviation of the viewing position are different at the time Tc and the time Tr, the image processing device 100 gradually changes the value between the time Tc and the time Tr to smoothly connect the images. Just do it. Further, the image processing device 100 changes the viewing position coordinates in chronological order in parallel with the line-of-sight direction, the viewing angle of view, and the like based on the dynamic information of the viewpoint position (user position), so that the viewing position is smooth. Movement can also be realized. When the viewpoint position is deviated from the center based on the user's intention, the image processing device 100 acquires a coordinate position indicating the deviated position and executes the above image processing based on the acquired information. Just do it.
  • the visual field metadata defined in the current MPEG-I OMAF can be expanded as shown in the following number 1 so that it can be applied to 3DoF + viewing.
  • a ViewingPosStruct that indicates the viewpoint position information for recommended visual field reproduction is newly defined, and a signal is given (signaled) by the SphereRegionSample, which is the ROI sample specified in OMAF ed.1.
  • RvcpInfoBox signals information on whether or not the viewpoint position changes dynamically. If it does not change dynamically, signal the static viewpoint position with RvcpInfoBox. There is an effect that the amount of information of the above-mentioned Sphere Region Sample can be reduced when it does not change dynamically. Further, for example, as shown in Equation 2 below, a signal may be given in another Box.
  • the viewing position coordinates (pos x, pos y, pos z) are changed in chronological order in parallel with the line-of-sight direction, field angle of view, etc., the viewing position will be smooth. Can also be moved. If there is no extension, the coordinates that the client (image processing device 100 in the embodiment) holds locally and are shifted by the intention of the viewer (user) may be used as they are.
  • the image processing device 100 has acquired moving image data such as spherical content 10.
  • the correspondence between the recommended field of view metadata embedded in the moving image data and the moving image data is not lost.
  • the supply of recommended visual field metadata may be temporarily interrupted for some reason. For example, if a packet is lost on a transmission line during video data distribution, or if an authoring problem occurs during live distribution, the supply of recommended field metadata may be temporarily interrupted. Further, in some cases, in order to secure the bandwidth of the transmission line on the image processing apparatus 100 side, it is conceivable to give priority to video and audio and intentionally drop the acquisition of recommended field metadata.
  • FIG. 14 conceptually shows the situation where data is missing.
  • FIG. 14 is a diagram conceptually showing the lack of recommended field metadata.
  • the data 201 of the moving image data 200 shows a situation in which the reproduction has already ended and is discarded.
  • the data 202 indicates a situation in which the cache has been completed and is being regenerated at the present time.
  • data 203 indicates a situation in which the data is missing for some reason.
  • Data 204 also indicates that the cache has been completed.
  • the data 205 indicates a situation in which the data is being downloaded and the cache is being performed.
  • the cache unit is defined by, for example, a segment of MPEG DASH distribution.
  • the image processing device 100 processes it so as not to impair the viewing experience by successfully connecting the discontinuities of the visual fields before and after the omission.
  • FIG. 15 is a diagram (1) showing an example of image processing according to a modified example of the first embodiment.
  • the recommended visual field metadata between the visual field region 211 and the visual field region 213 is missing.
  • the image processing apparatus 100 uses the field of view data of the missing time zone as the transition field of view information based on the recommended field of view metadata of the time after the loss (for example, data 204 and data 205 shown in FIG. 14). Generate. For example, the image processing apparatus 100 generates the movement path 214 shown in FIG. 15 as transition visual field information based on the recommended visual field metadata before and after.
  • the image processing device 100 connects the generated movement path 214 and the movement path 210 which is the recommended visual field metadata cached after the loss.
  • the image processing apparatus 100 can reproduce the visual field region 212 and the like in the time zone in which the recommended visual field metadata is missing without any trouble.
  • the image processing device 100 sets the time t immediately before the omission as the time Td at the branch point shown in the first embodiment or the time Tc at which the user actively changes the viewpoint.
  • the start time of the cached data after the loss is regarded as the time Tr, the same processing as that of the first embodiment can be performed.
  • the image processing device 100 may, for example, fix the visual field to the state immediately before the recommended visual field metadata is interrupted, continue viewing, and wait for the recommended visual field metadata to be reacquired.
  • the image processing device 100 regards the situation where the data is missing as the same as the situation where the user actively stops the movement of the line of sight.
  • the image processing device 100 regards the time when the VP_m (t) is interrupted as the time Td and the time when the data can be reacquired as the time Tc, so that the transition field information returns to the recommended field metadata. To generate.
  • the image processing device 100 can provide the user with a comfortable image display even when the data is missing.
  • FIG. 16 is a diagram (2) showing an example of image processing according to a modified example of the first embodiment.
  • the image processing device 100 calculates the movement path 223 based on the inclination, speed, and the like of the movement path 221.
  • the image processing device 100 calculates the movement path 223 on the assumption that if the movement path 221 is a horizontal constant velocity movement, the movement is continued.
  • the image processing device 100 tracks the past recommended visual field metadata by using image analysis or the like, for example, when the metadata is chasing so as to place a specific person on the screen in the center.
  • the line of sight may be derived.
  • the image processing apparatus 100 uses the transition visual field information from the current visual field where the line of sight has been moved by prediction, and the recommended visual field metadata (shown in FIG. 16). You may return to the movement path 210).
  • the image processing apparatus 100 shows a process of realizing a smooth screen display transition by generating a movement path between the first field of view and the second field of view.
  • the image processing apparatus 100 realizes a smoother screen display transition by further generating a complementary image based on the transition visual field information.
  • the image processing device 100 generates a complementary image which is an image that complements the display in the movement path of the line of sight from the first visual field to the second visual field based on the transition visual field information.
  • the image processing device 100 generates a complementary image when the frame rate of the image drawing process by the display unit (output unit 140) is higher than the frame rate of the image corresponding to the wide angle of view image.
  • FIG. 17 is a diagram showing an example of a complementary image generation process.
  • the drawing frame rate (for example, 120 fps) of the display device that is, the image processing device 100
  • the frame rate (for example, 60 fps) of the wide angle of view image it is assumed that the drawing frame rate (for example, 120 fps) of the display device (that is, the image processing device 100) is higher than the frame rate (for example, 60 fps) of the wide angle of view image.
  • the image processing device 100 acquires wide angle-of-view image data from the external data server 230. After that, the image processing device 100 separates the signal of the wide angle-of-view image data, and separates the moving image data 240 including the moving image and the sound into the recommended visual field metadata 250.
  • the image processing device 100 decodes both data and combines the signals at the coupling unit 260. Then, when the image is output, the image processing device 100 interpolates the image at a high frame rate (120 fps in the example of FIG. 17) and outputs the image to the display device. Alternatively, the image processing device 100 outputs the image to the display device at a low frame rate (60 fps in the example of FIG. 17), interpolates the image to 120 fps on the display device side, and displays the image.
  • a high frame rate 120 fps in the example of FIG. 17
  • the image processing device 100 outputs the image to the display device at a low frame rate (60 fps in the example of FIG. 17), interpolates the image to 120 fps on the display device side, and displays the image.
  • the recommended visual field metadata itself is interpolated and generated before the plane projection image is generated, so that a smooth image is generated while reducing the processing load.
  • FIG. 18 is a diagram showing an example of image processing according to the second embodiment.
  • the image processing apparatus 100 complements (upscales) the recommended visual field metadata via the separated recommended visual field metadata generation processing unit 270 as compared with FIG. As a result, the image processing apparatus 100 can obtain the recommended field of view metadata corresponding to the high frame rate (120 fps in the example of FIG. 18) according to the drawing. This also allows the image processing apparatus 100 to generate a complementary image corresponding to the complemented recommended visual field metadata.
  • FIG. 19 shows an example of video display when the complementary image is generated in this way.
  • FIG. 19 is a diagram illustrating an example of image processing according to the second embodiment.
  • the video set 300 shown in FIG. 19 includes a complementary image corresponding to the complemented recommended visual field metadata.
  • the video set 300 is a recommended complement in addition to the video 301, video 302, video 303, video 304, and video 305 generated at a normal frame rate (frame rate of the wide angle of view image itself).
  • the complementary image based on the complemented recommended field metadata is basically generated immediately after the frame of the normal wide angle of view image.
  • the load is lower than that of generating a complementary image from the image after plane projection, and the wide angle of view image is used as it is. Since it can be used and used, the accuracy of the generated image can be maintained high.
  • the person or object in the video in viewing, does not move between two consecutive frames of the video, and only the visual field moves.
  • FIG. 20 is a flowchart showing the flow of processing according to the second embodiment.
  • the image processing device 100 determines whether or not the frame rate in the drawing process is higher than the frame rate of the displayed video (step S401).
  • the image processing device 100 determines whether or not to generate complementary visual field information (step S402).
  • the setting of whether or not to generate the field of view information to be complemented may be arbitrarily set by, for example, the provider or the user of the wide angle-of-view image.
  • the image processing apparatus 100 sets a parameter indicating the generation timing of the visual field information to N (N is an arbitrary integer) (step S403).
  • a parameter is a parameter that controls the timing of generating the visual field information for the complementary frame, and is determined by the ratio of the video frame rate and the drawing frame rate. For example, when the video frame rate is 60 fps and the drawing frame rate of the display device is 120 fps, the parameter is "2". If the video frame rate is 60 fps and the drawing frame rate of the display device is 240 fps, the parameter is "4". If the parameter does not have an integer value, conversion processing may be used as appropriate.
  • the image processing apparatus 100 determines the visual field information generation timing.
  • the parameter indicating the above is set to 1 (step S404). This means that no complementary frames are generated and normal rendering (rendering at a frame rate corresponding to a wide angle of view image) is performed.
  • the image processing device 100 After the parameters are determined, the image processing device 100 performs a process of updating the frame and the parameters (step S405). Then, the image processing apparatus 100 determines whether or not it is time to generate a normal frame (frame corresponding to a wide angle of view image) based on the value of the parameter (step S406). The image processing apparatus 100 generates normal visual field information at the timing of generating a normal frame (step S407). On the other hand, the image processing apparatus 100 generates the visual field information for complementation if it is not the timing to generate a normal frame (step S408). That is, the larger the parameter value, the more visual field information for complementation is generated.
  • the image processing device 100 cuts out a wide angle of view image based on the generated visual field information, renders the image, and displays the image on the display unit (step S409). After that, the image processing device 100 determines whether or not the end of reproduction has been accepted (step S410). When the end of reproduction is not accepted (step S410; No), the image processing apparatus 100 renders the next frame. On the other hand, when the end of the reproduction is accepted (step S410; Yes), the image processing apparatus 100 ends the reproduction (step S411).
  • the image processing device 100 which is a playback device, executes the image processing according to the present disclosure.
  • the image processing according to the present disclosure may be executed by, for example, an external server on the cloud.
  • the external server transmits the generated transition visual field information to the reproduction device to execute the reproduction process.
  • the image processing device according to the present disclosure is not necessarily a playback device, but may be realized by a server, or may be realized by a system composed of a server and a client (reproduction device).
  • spherical content is shown as an example of a wide angle of view image.
  • the image processing according to the present disclosure can be applied to other than spherical contents.
  • the image processing according to the present disclosure can be applied to a so-called panoramic image or panoramic moving image having an area wider than the area that can be displayed on the display. It can also be applied to VR images and VR moving images (so-called hemispherical contents) configured in a range of 180 degrees.
  • the wide angle-of-view image is not limited to a still image or a moving image, and may be, for example, game content created by CG (Computer Graphics).
  • each component of each device shown in the figure is a functional concept, and does not necessarily have to be physically configured as shown in the figure. That is, the specific form of distribution / integration of each device is not limited to the one shown in the figure, and all or part of the device is functionally or physically distributed / physically in arbitrary units according to various loads and usage conditions. It can be integrated and configured.
  • the visual field determination unit 133 and the reproduction unit 134 shown in FIG. 5 may be integrated.
  • the image processing apparatus (image processing apparatus 100 in the embodiment) according to the present disclosure includes an acquisition unit (visual field information acquisition unit 135 in the embodiment) and a generation unit (generation unit 136 in the embodiment). ..
  • the acquisition unit is information for specifying the first field of view information which is information for specifying the user's first field of view in the wide angle-of-view image and information for specifying the second field of view which is the transition destination field of view transitioned from the first field of view. Acquire the second field of view information.
  • the generation unit generates transition visual field information which is information indicating the transition of the visual field from the first visual field to the second visual field based on the first visual field information and the second visual field information.
  • the image processing apparatus smoothly transitions between the first visual field and the second visual field by generating information indicating the transition from the first visual field to the second visual field.
  • the user does not have to experience the switching of the visual field due to the sudden movement of the line of sight, and thus can accept the switching of the line of sight without feeling any discomfort. That is, the image processing device can improve the user experience regarding the wide angle of view image.
  • the acquisition unit uses the recommended visual field information, which is information indicating the movement of the line of sight registered in advance in the wide angle-of-view image, to make a transition from the first visual field to the second visual field of the second visual field after a predetermined time. Get information.
  • the image processing apparatus can accurately identify the second visual field information.
  • the generation unit generates transition visual field information when a movement path of the line of sight different from the recommended visual field information is detected by the active operation of the user.
  • the image processing device can realize a smooth image transition without causing a sudden movement of the line of sight when the line of sight is switched based on the operation of the user.
  • the acquisition unit acquires the information for identifying the first visual field displayed on the display unit as the first visual field information based on the active operation of the user, and the first visual field based on the recommended visual field information. Acquires information for specifying the second visual field, which is predicted to be displayed after a predetermined time displayed on the display unit, as the second visual field information. As a result, the image processing device can accurately identify the second visual field to which the user's line of sight is moved.
  • the generation unit generates transition visual field information including the movement path of the line of sight from the first visual field to the second visual field based on the first visual field information and the recommended visual field information.
  • the image processing device can switch the line of sight with a natural movement path that does not give a sense of discomfort.
  • the acquisition unit acquires the movement path of the user's line of sight until the first visual field information is acquired.
  • the generation unit includes transition visual field information including the movement path of the user's line of sight until the first visual field information is acquired and the movement path of the line of sight from the first visual field to the second visual field based on the recommended visual field information. To generate.
  • the image processing device can switch the line of sight with a natural movement path that does not give a sense of discomfort.
  • the acquisition unit acquires the speed and acceleration in the movement of the user's line of sight until the first visual field information is acquired.
  • the generation unit starts from the first visual field based on the speed and acceleration of the movement of the user's line of sight until the first visual field information is acquired, and the speed and acceleration of the movement of the line of sight registered as recommended visual field information.
  • the transition visual field information including the movement path of the line of sight to the second visual field is generated.
  • the generation unit generates transition visual field information in which a speed higher than the speed set in the recommended visual field information is set.
  • the generation unit generates a complementary image which is an image that complements the display in the movement path of the line of sight from the first visual field to the second visual field based on the transition visual field information.
  • the image processing apparatus can realize smooth image transition from the viewpoint of screen display in addition to the movement path.
  • the generation unit generates a complementary image when the frame rate of the image drawing process by the display unit is higher than the frame rate of the image corresponding to the wide angle of view image.
  • the image processing device can allow the user to experience a more natural screen transition.
  • the acquisition unit acquires the visual field information corresponding to the area where the user views the spherical content from the center of the spherical content as the first visual field information.
  • the image processing device can realize a smooth screen transition in the screen display for the spherical contents.
  • the acquisition unit acquires the visual field information corresponding to the area where the user views the spherical content from a point other than the center of the spherical content as the first visual field information.
  • the image processing apparatus can realize smooth screen transitions even in the technology related to 3DoF +.
  • FIG. 21 is a hardware configuration diagram showing an example of a computer 1000 that realizes the functions of the image processing device 100.
  • the computer 1000 has a CPU 1100, a RAM 1200, a ROM (Read Only Memory) 1300, an HDD (Hard Disk Drive) 1400, a communication interface 1500, and an input / output interface 1600.
  • Each part of the computer 1000 is connected by a bus 1050.
  • the CPU 1100 operates based on the program stored in the ROM 1300 or the HDD 1400, and controls each part. For example, the CPU 1100 expands the program stored in the ROM 1300 or the HDD 1400 into the RAM 1200 and executes processing corresponding to various programs.
  • the ROM 1300 stores a boot program such as a BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, a program that depends on the hardware of the computer 1000, and the like.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records a program executed by the CPU 1100 and data used by the program.
  • the HDD 1400 is a recording medium for recording an image processing program according to the present disclosure, which is an example of program data 1450.
  • the communication interface 1500 is an interface for the computer 1000 to connect to an external network 1550 (for example, the Internet).
  • the CPU 1100 receives data from another device or transmits data generated by the CPU 1100 to another device via the communication interface 1500.
  • the input / output interface 1600 is an interface for connecting the input / output device 1650 and the computer 1000.
  • the CPU 1100 receives data from an input device such as a keyboard or mouse via the input / output interface 1600. Further, the CPU 1100 transmits data to an output device such as a display, a speaker, or a printer via the input / output interface 1600. Further, the input / output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium (media).
  • the media is, for example, an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk), a magneto-optical recording medium such as MO (Magneto-Optical disk), a tape medium, a magnetic recording medium, or a semiconductor memory.
  • an optical recording medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • a magneto-optical recording medium such as MO (Magneto-Optical disk)
  • tape medium such as DVD (Digital Versatile Disc) or PD (Phase change rewritable Disk)
  • MO Magneto-optical disk
  • the CPU 1100 of the computer 1000 realizes the function of the control unit 130 by executing the image processing program loaded on the RAM 1200. ..
  • the HDD 1400 stores the image processing program according to the present disclosure and the data in the storage unit 120.
  • the CPU 1100 reads the program data 1450 from the HDD 1400 and executes the program, but as another example, these programs may be acquired from another device via the external network 1550.
  • the present technology can also have the following configurations.
  • the first field of view information which is information for specifying the user's first field of view in the wide angle-of-view image
  • the second field of view which is information for specifying the second field of view, which is the transition destination field of view transitioned from the first field of view.
  • the acquisition department that acquires information and
  • An image processing device including a generation unit that generates transition visual field information that is information indicating the transition of the visual field from the first visual field to the second visual field based on the first visual field information and the second visual field information. ..
  • the acquisition unit Based on the recommended visual field information which is information indicating the movement of the line of sight registered in advance in the wide angle-of-view image, the second visual field information of the second visual field which is predicted to transition from the first visual field after a predetermined time is acquired.
  • the image processing apparatus according to (1) above.
  • the generator which generates the transition visual field information when a movement path of a line of sight different from the recommended visual field information is detected by the active operation of the user.
  • the acquisition unit Information for identifying the first visual field displayed on the display unit based on the active operation of the user is acquired as the first visual field information, and the first visual field is displayed based on the recommended visual field information.
  • the image processing apparatus wherein the information for specifying the second visual field, which is expected to be displayed after a predetermined time displayed on the unit, is acquired as the second visual field information.
  • the generator The transition visual field information including the movement path of the line of sight from the first visual field to the second visual field is generated based on the first visual field information and the recommended visual field information according to (3) or (4). Image processing equipment.
  • the acquisition unit Acquire the movement path of the user's line of sight until the first visual field information is acquired, The generator The transition including the movement path of the line of sight of the user until the first visual field information is acquired, and the movement path of the line of sight from the first visual field to the second visual field based on the recommended visual field information.
  • the image processing apparatus which generates visual field information.
  • the acquisition unit The speed and acceleration in the movement of the line of sight of the user until the first visual field information is acquired are acquired.
  • the generator From the first visual field, based on the speed and acceleration in the movement of the line of sight of the user until the first visual field information is acquired, and the speed and acceleration in the movement of the line of sight registered as the recommended visual field information.
  • the image processing apparatus which generates the transition visual field information including the movement path of the line of sight to the second visual field.
  • the generator The image processing apparatus according to (7) above, which generates the transition visual field information in which a speed higher than the speed set in the recommended visual field information is set.
  • the image processing apparatus according to 1. (10) The generator The image processing apparatus according to (9), wherein the complementary image is generated when the frame rate of the image drawing process by the display unit is higher than the frame rate of the image corresponding to the wide angle-of-view image. (11) The acquisition unit As the first visual field information, the image according to any one of (1) to (10) above, which acquires the visual field information corresponding to the region where the user views the spherical content from the center of the spherical content. Processing equipment.
  • the acquisition unit As the first visual field information, the visual field information corresponding to the region where the user views the spherical content is acquired from a point other than the center of the spherical content.
  • the image processing device described.
  • the computer The first field of view information, which is information for specifying the user's first field of view in the wide angle-of-view image, and the second field of view, which is information for specifying the second field of view, which is the transition destination field of view transitioned from the first field of view.
  • Get information and An image processing method for generating transition visual field information which is information indicating a transition of a visual field from the first visual field to the second visual field based on the first visual field information and the second visual field information.
  • the first field of view information which is information for specifying the user's first field of view in the wide angle-of-view image
  • the second field of view which is information for specifying the second field of view, which is the transition destination field of view transitioned from the first field of view.
  • the acquisition department that acquires information
  • a generator that generates transition visual field information, which is information indicating the transition of the visual field from the first visual field to the second visual field, based on the first visual field information and the second visual field information.
  • An image processing program to function as.
  • Image processing device 110 Communication unit 120 Storage unit 130 Control unit 131 Image acquisition unit 132 Display control unit 133 Field of view determination unit 134 Reproduction unit 135 Field of view information acquisition unit 136 Generation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本開示に係る画像処理装置は、広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、第1視野情報及び第2視野情報に基づいて、第1の視野から第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と、を備える。

Description

画像処理装置、画像処理方法及び画像処理プログラム
 本開示は、画像処理装置、画像処理方法及び画像処理プログラムに関する。詳しくは、広画角映像において、違和感の少ないシームレスな画面遷移を提供するための画像処理に関する。
 全天球コンテンツやパノラマ画像等、ディスプレイに表示される画角よりも広い画角を有する画像(以下、「広画角画像」と総称する)が普及している。広画角画像は、通常、表示機器に全画角を同時に表示することができないため、映像の一部が切り出されて表示される。
 このような広画角画像の表示に関して、種々の技術が提案されている。例えば、コンテンツ制作者によって提供される推奨視野情報(ROI(Region of Interest))に基づき、再生表示される映像の視野が時系列に沿って自動的に変わりながら視聴するような、受動的な視聴手法が提案されている。
ISO/IEC FDIS 23090-2 (2018.4.26, w17563) [MPEG-I Part-2: OMAF]
 従来技術によれば、ユーザは、何ら操作を必要とせずに、コンテンツとともに提供されている推奨視野情報に従い、あたかも視線を動かしているかのように広画角画像を視聴することができる。
 しかしながら、上記の従来技術では、広画角画像に関するユーザ体験を向上させることができるとは限らない。例えば、広画角画像の動画再生時には、推奨視野情報に従って画像が表示される受動的な視聴の他に、画像のうちユーザが視聴したい位置(視野)を選択する能動的な視聴が想定される。この2種類の視聴スタイルを任意のタイミングで切り替え可能とする場合、能動的な視聴における視野の映像と、受動的な視聴における視野の情報との間で、視野の映像の時系列的不連続が発生する。このため、ユーザは、視聴における方向感が失われ、違和感を覚えるおそれがある。結果として、広画角画像への没入感が損なわれる可能性がある。
 そこで、本開示では、広画角画像に関するユーザ体験を向上させることができる画像処理装置、画像処理方法及び画像処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の画像処理装置は、広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と、を備える。
全天球コンテンツを説明する図である。 全天球コンテンツにおける視線移動を説明する図である。 全天球コンテンツにおける視野領域を説明する図である。 全天球コンテンツにおける推奨視野情報を説明する図である。 第1の実施形態に係る画像処理装置の構成例を示す図である。 第1の実施形態に係る視野情報取得処理を説明する図である。 第1の実施形態に係る生成処理を説明する図である。 第1の実施形態に係る遷移視野情報を概念的に示す図である。 第1の実施形態に係る映像表示の例を示す図(1)である。 第1の実施形態に係る映像表示の例を示す図(2)である。 第1の実施形態に係る処理の流れを示すフローチャート(1)である。 第1の実施形態に係る処理の流れを示すフローチャート(2)である。 第1の実施形態に係る処理の流れを示すフローチャート(3)である。 推奨視野メタデータの欠落を概念的に示す図である。 第1の実施形態の変形例に係る画像処理の一例を示す図(1)である。 第1の実施形態の変形例に係る画像処理の一例を示す図(2)である。 補完画像の生成処理の一例を示す図である。 第2の実施形態に係る画像処理の一例を示す図である。 第2の実施形態に係る画像処理の一例を説明する図である。 第2の実施形態に係る処理の流れを示すフローチャートである。 画像処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.第1の実施形態
   1-1.広画角画像に関する画像処理について
   1-2.第1の実施形態に係る画像処理装置の構成
   1-3.第1の実施形態に係る情報処理の手順
   1-4.第1の実施形態に係る変形例
  2.第2の実施形態
  3.その他の実施形態
  4.本開示に係る画像処理装置の効果
  5.ハードウェア構成
(1.第1の実施形態)
[1-1.広画角画像に関する画像処理について]
 本開示に係る画像処理の説明に先立って、本開示の画像処理の前提となる、広画角画像の表示処理の方式について説明する。
 なお、本開示に係る広画角画像とは、全天球コンテンツやパノラマ画像等、ディスプレイに表示される画角よりも広い画角を有する画像である。本開示では、広画角画像の一例として、全天球コンテンツを例に挙げて説明する。
 全天球コンテンツは、例えば360度全方位を撮影できる全天球カメラで撮影されることにより生成される。全天球コンテンツは、一般的なディスプレイ(例えば、液晶ディスプレイや、ユーザが装着するHMD(Head Mounted Display)等)よりも広い画角を有するため、再生される際には、ディスプレイの大きさ(言い換えれば、ユーザの視野画角)に応じて切り取られた一部領域のみが表示される。例えば、ユーザは、タッチディスプレイを操作して表示箇所を変更したり、装着したHMDを介して視線や姿勢の変化を与えたりして、表示位置を変えながら全天球コンテンツを視聴する。
 図1を用いて、全天球コンテンツの視聴について具体的に説明する。図1は、全天球コンテンツを説明する図である。図1には、広画角画像の一例である全天球コンテンツ10を示す。
 具体的には、図1では、ユーザが全天球コンテンツ10を視聴する際の位置関係を概念的に示している。図1に示す例において、ユーザは、全天球コンテンツ10の中心20に所在し、全天球コンテンツ10の一部を視聴する。
 ユーザが能動的に全天球コンテンツ10を視聴する場合、ユーザは、例えば装着したHMDの向きを変化させたり、ディスプレイに表示された映像を移動させる操作を実行したりして、全天球コンテンツ10に対する視野を変更する。
 なお、本開示における視野とは、広画角画像においてユーザが視聴している範囲を示す。ユーザの視野は、視野を特定するための情報である視野情報により特定される。視野情報は、ユーザの視野を特定することができる情報であれば、どのような態様であってもよい。例えば、視野情報は、広画角画像におけるユーザの視線方向や、広画角画像における表示画角(すなわち視野領域)である。また、視野情報は、広画角画像の中心からの座標やベクトルによって示されてもよい。
 ユーザは、中心20から所定の方向に視線を向けることにより、例えば、全天球コンテンツ10の一部である視野領域22に対応する映像を視聴する。また、ユーザは、曲線24に示された移動経路に視線を移動させることで、視野領域26に対応する映像を視聴する。このように、全天球コンテンツ10において、ユーザは、能動的に視線を移すことで、様々な角度に対応した映像を視聴することができる。
 次に、図2を用いて、図1において示した例を別の角度から説明する。図2は、全天球コンテンツ10における視線移動を説明する図である。
 図2には、図1で示した全天球コンテンツ10を天頂から見下ろした場合のユーザの視線を示す。例えば、ユーザは、視野領域22に対応する映像を視聴したのち、視野領域26に対応する映像を視聴しようとする場合、ベクトル28の方向に向き直ることで、視野領域26に対応する映像を視聴することができる。
 また、図3を用いて、全天球コンテンツ10における視野領域について説明する。図3は、全天球コンテンツにおける視野領域を説明する図である。
 図3では、図1及び図2で示した視野領域26をx軸、y軸、z軸を用いて概念的に示している。図3に示すように、視野領域26は、y軸からx軸へ向かう角度(一般に仰角(elevation)と称される)や、z軸からy軸へ向かう角度(一般に方位角(azimuth)と称される)に基づいて特定される。また、図3に示すように、視野領域26は、方位角側の画角(azimuth_range)や、仰角側の画角(elevation_range)等に基づいて特定される。本開示では、これら視野領域26を特定する情報を、視野領域26に対応する視野情報と称する。なお、視野領域を特定するための情報は、図3で示した例に限られず、視線方向及び領域の範囲(画角)を特定可能な情報であれば、いずれであってもよい。例えば、視野情報を示す変数(パラメータ)は、中心を基準とした場合の視線方向をヨー、ピッチ、ロールの数値で示すものであってもよい。
 上述してきたように、全天球コンテンツ10のような広画角画像では、例えばHMDでの視聴ではユーザが首を振って頭の向きを変えることによって、あるいは、平面ディスプレイの視聴ではリモコンのカーソル操作等によって視線方向の変更が行われ、任意の方向の映像が切り出される。すなわち、全天球コンテンツ10は、ユーザの操作に応じて、上下方向や左右方向(パンもしくはチルト)に視線が遷移するかのような映像表現を行うことができる。
 図1乃至図3では、ユーザが能動的に視線を変化させる例を示した。しかし、コンテンツには、コンテンツ制作者によって予め推奨する視線方向が登録されている場合もある。このような情報は、推奨視野情報(ROI(Region of Interest))と称される。なお、本開示では、コンテンツに埋め込まれた推奨視野情報を推奨視野メタデータと称する。
 例えば、全天球コンテンツ10が動画コンテンツである場合、時間軸に沿って、ユーザが視聴する視野領域を特定するための推奨視野メタデータがコンテンツ内に登録される場合がある。この場合、ユーザは、自らが視線を変化させなくても、コンテンツ制作者の意図に沿って自動的に視線が移動するような映像表現を体験することができる。
 この点について、図4を用いて説明する。図4は、全天球コンテンツ10における推奨視野情報を説明する図である。
 図4には、時系列に沿って、全天球コンテンツ10を正距円筒図法で示した画像と、当該画像に対応する画角42と、ユーザが実際に視聴する映像セット44を示す。
 図4の例では、全天球コンテンツ10に、オブジェクト31、オブジェクト32、オブジェクト33、オブジェクト34、オブジェクト35及びオブジェクト36が表示される領域が存在するものとする。全天球コンテンツ10は、一度に全ての画角が表示されることはないため、これらのオブジェクトは画角に応じて一部が表示される。例えば、図4に示すように、方位角が0°に対応する視野領域40では、オブジェクト32からオブジェクト35までが表示される。
 また、図4に示す全天球コンテンツ10には、オブジェクト31からオブジェクト36までを時系列に沿って順に表示するような推奨視野メタデータが含まれるものとする。
 この場合、ユーザは、全天球コンテンツ10を再生した場合、自身が視線を移動させなくても、推奨視野メタデータに応じて動画を視聴することができる。例えば、図4の例では、ユーザは、方位角-30°から方位角30°までを連続した映像(動画)として視聴する。
 具体的には、ユーザは、方位角-30°では、オブジェクト31とオブジェクト32とが表示される映像51を視聴する。続けて、ユーザは、方位角-15°では、オブジェクト31、オブジェクト32及びオブジェクト33が表示される映像52を視聴する。続けて、ユーザは、方位角0°では、オブジェクト32からオブジェクト35が表示される映像53を視聴する。続けて、ユーザは、方位角15°では、オブジェクト34、オブジェクト35及びオブジェクト36が表示される映像55を視聴する。最後に、ユーザは、方位角30°では、オブジェクト35とオブジェクト36とが表示される映像55を視聴する。
 このように、ユーザは、時系列に沿って、コンテンツ制作者の意図に沿って全天球コンテンツ10を視聴することができる。図1乃至図4を用いて説明したように、全天球コンテンツ10においては、ユーザが能動的に視線を変化させる能動的な視聴と、推奨視野情報に従った受動的な視聴とが存在する。そして、コンテンツには、この2種類の視聴スタイルを任意のタイミングで切り替え可能とするものがある。例えば、動画の再生中はユーザが任意に視線を動かすことが可能であっても、ある時間には特定の角度を視聴するよう設定されているコンテンツや、ユーザが能動的な操作を止めてから所定時間後には推奨視野情報に遷移する(予め登録されていたメタデータ通りの視点に戻る)コンテンツ等がある。
 このようなコンテンツにおいては、能動的な視聴における視野の映像と、受動的な視聴における視野の情報との間で、視野の映像の時系列的不連続が発生する。このため、ユーザは、視聴における方向感が失われ、違和感を覚えるおそれがある。すなわち、広画角画像に係る技術には、異なる視聴スタイル間の映像表示をシームレスに遷移させるという課題がある。
 そこで、本開示に係る画像処理は、以下に説明する手段により、異なる視聴スタイル間の映像表示をシームレスに遷移させることを可能とする。具体的には、本開示に係る画像処理装置100は、広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、第1の視聴視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する。そして、画像処理装置100は、取得した第1視野情報及び第2視野情報に基づいて、第1の視野から第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する。
 具体的には、画像処理装置100は、ユーザが能動的に視聴していた視野(第1の視野)の視野情報と、推奨視野情報に基づき所定時間後に表示されるであろう視野(第2の視野)の視野情報とを取得し、その間を滑らかに遷移するための情報(言い換えれば、視野を移動させる移動経路)を生成する。これにより、ユーザは、急激な視線の移動による視野の切り替えを体験せずに済むため、違和感を覚えることなく、視線の切り替えを受け入れることができる。すなわち、画像処理装置100は、広画角画像に関するユーザ体験を向上させることができる。以下、本開示に係る画像処理について詳細に説明する。
[1-2.第1の実施形態に係る画像処理装置の構成]
 本開示に係る画像処理装置100は、広画角画像を外部データサーバ等から取得して再生する、いわゆるクライアントである。すなわち、画像処理装置100は、広画角画像を再生するための再生装置である。画像処理装置100は、HMDであってもよいし、パソコンやタブレット端末、スマートフォン等の情報処理端末であってもよい。
 図5を用いて、本開示に係る画像処理を実現する画像処理装置100の構成について説明する。図5は、第1の実施形態に係る画像処理装置100の構成例を示す図である。
 図5に示すように、画像処理装置100は、通信部110と、記憶部120と、制御部130と、出力部140とを有する。なお、画像処理装置100は、画像処理装置100を操作するユーザ等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)を有してもよい。
 通信部110は、例えば、NIC(Network Interface Card)等によって実現される。通信部110は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、広画角画像等を提供する外部データサーバ等との間で情報の送受信を行う。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、例えば、取得した広画角画像等のコンテンツデータを記憶する。
 制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、画像処理装置100内部に記憶されたプログラム(例えば、本開示に係る画像処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図5に示すように、制御部130は、画像取得部131と、表示制御部132とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図5に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 画像取得部131は、有線又は無線ネットワーク等を介して各種情報を取得する。例えば、画像取得部131は、外部データサーバ等から広画角画像を取得する。
 表示制御部132は、画像取得部131によって取得された広画角画像の出力部140(すなわち映像の表示画面)への表示を制御する。例えば、表示制御部132は、広画角画像のデータを展開し、適時取り出し再生される映像データ及び音声データを抽出する。また、表示制御部132は、広画角画像に予め登録された推奨視野(ROI)メタデータを抽出し、後段の処理部に供給する。
 図5に示すように、表示制御部132は、視野決定部133と、再生部134と、視野情報取得部135と、生成部136とを含む。
 視野決定部133は、広画角画像を表示する視野を決定する。すなわち、視野決定部133は、広画角画像におけるユーザの視線方向を特定する。例えば、視野決定部133は、広画角画像に初期設定されている視野角や、推奨視野メタデータや、ユーザの操作等に基づき、広画角画像のうち実際に出力部140に表示される位置(視野)を決定する。
 視野決定部133は、例えば画像処理装置100がHMDである場合、HMDを装着したユーザの動作情報、いわゆるヘッドトラッキング情報を検知する。具体的には、視野決定部133は、HMDが備えるセンサを制御することにより、ユーザの身体の向き、傾き、動きや移動速度等、ユーザの動作に関する各種情報を検知する。より具体的には、視野決定部133は、ユーザの動作に関する情報として、ユーザの頭部や姿勢に関する情報、ユーザの頭部や身体の動き(加速度や角速度)、視野の方向や視点移動の速度等を検知する。例えば、視野決定部133は、センサとして、3軸加速度センサや、ジャイロセンサや、速度センサ等の各種モーションセンサを制御し、ユーザの動作に関する情報を検知する。なお、センサは、必ずしもHMD内部に備えられることを要せず、例えば、HMDと有線もしくは無線で接続された外部センサであってもよい。
 また、視野決定部133は、HMDのディスプレイ上でユーザが注視する視点の位置を検知する。視野決定部133は、種々の既知の手法を用いて、視点位置を検知してもよい。例えば、視野決定部133は、上述した3軸加速度センサや、ジャイロセンサ等を用いて、ユーザの頭部の向きを推定することにより、ユーザの視点位置を検知してもよい。また、視野決定部133は、センサとして、ユーザの目を撮像するカメラを用いて、ユーザの視点位置を検知してもよい。例えば、センサは、HMDをユーザが頭部に装着したときに、撮像範囲内にユーザの眼球が位置するような位置(例えば、ディスプレイに近接し、ユーザ側にレンズが向く位置)に設置される。そして、センサは、撮像したユーザの右眼の眼球の画像と、右眼との間の位置関係とに基づき、右眼の視線が向いている方向を認識する。同様に、センサは、撮像したユーザの左眼の眼球の画像と、左眼との間の位置関係とに基づき、左眼の視線が向いている方向を認識する。視野決定部133は、このような眼球の位置に基づいて、ディスプレイのどの位置をユーザが注視しているかを検知してもよい。
 上記の処理により、視野決定部133は、広画角画像のうち、ディスプレイに表示されている領域(広画角画像における視野)に関する情報を取得する。すなわち、視野決定部133は、広画角画像のうち、ユーザの頭部や姿勢情報によって指定された領域や、ユーザがタッチ操作等によって指定された領域を示す情報を取得する。また、視野決定部133は、領域に表示されている広画角画像のうちの部分的な画像の画角の設定を検知してもよい。画角の設定とは、例えば、ズーム倍率の設定等である。
 再生部134は、広画角画像を映像データとして再生する。具体的には、再生部134は、視野決定部133によって決定された視野に基づいて、広画角画像を表示用に加工(例えば、視線方向及び画角指定で切り出し、平面投影画像に加工)する。そして、再生部134は、加工された映像データをレンダリングし、出力部140に表示する。
 また、再生部134は、広画角画像に登録された推奨視野メタデータを取得し、時系列に沿って供給される推奨視野情報を抽出し、適時、レンダリングに利用する。すなわち、再生部134は、視野決定部133によって決定された視野に基づいて表示領域を決定してレンダリング(画像生成)を行うレンダラー(renderer)として機能する。具体的には、再生部134は、予め決められたフレームレート(例えばfps(frame per second)等)に基づいてレンダリングを行い、広画角画像に対応する映像を再生する。
 視野情報取得部135は、再生部134によって再生されている広画角画像における視野情報を取得する。例えば、視野情報取得部135は、広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報を取得する。具体的には、視野情報取得部135は、広画角画像再生中のユーザの操作やユーザの頭部の位置や視線等に基づいて、ユーザが現時点で視聴している視野を特定する視野情報を取得する。
 例えば、視野情報取得部135は、広画角画像の一例である全天球コンテンツ10におけるユーザの視野に関する情報を取得する。すなわち、視野情報取得部135は、第1視野情報として、全天球コンテンツ10の中心から全天球コンテンツ10をユーザが視聴する領域に対応した視野情報を取得する。
 また、視野情報取得部135は、第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報を取得する。例えば、視野情報取得部135は、広画角画像に予め登録された視線移動を示す情報である推奨視野情報に基づいて、第1の視野から所定時間後に遷移すると予測される第2の視野の第2視野情報を取得する。
 この点について、図6を用いて説明する。図6は、第1の実施形態に係る視野情報取得処理を説明する図である。
 図6に示す例では、ユーザは、中心20に位置し、全天球コンテンツ10を視聴する。このとき、全天球コンテンツ10には、推奨視野メタデータとして、時系列に沿って移動する視線の情報(移動経路や視野角等の情報)が登録されているものとする。図6の例では、全天球コンテンツ10には、推奨視野メタデータとして移動経路60が登録されている。この場合、ユーザが何ら操作を行わない場合、再生部134は、推奨視野メタデータである移動経路60に沿って、順に映像データを表示する。
 ここで、分岐点62において、ユーザが視線を変更する操作を行ったとすると、全天球コンテンツ10の再生は、受動的な視聴(移動経路60に沿った視聴)から、能動的な視聴に切り替わる。例えば、ユーザは、移動経路63に示すように視線を動かし、全天球コンテンツ10を視聴するものとする。
 例えば、任意の時刻tにおいてユーザが視聴している(画面に表示されている)視野をVP_d(t)とし、推奨視野メタデータによる視野をVP_m(t)とする。この場合、分岐点62における時刻(Td)までは、VP_d(t)=VP_m(t)である。時刻Td以降、ユーザの意図を優先した視野表示に移行した際の現在時刻をTcとすると、VP_d(t)≠VP_m(t)(Td<t<Tc)となる。例えば、ユーザは、現在時刻Tcにおいては、視野領域64に対応する映像データを視聴するものとする。
 一方で、推奨視野メタデータに沿って全天球コンテンツ10が表示されていた場合、視線の移動は、移動経路61に沿って行われるので、ユーザは、所定の時刻tにおいて、視野領域65に対応する映像データを視聴していたと想定される。
 例えば、ユーザが、視野領域64に対応する映像データを視聴したのちに、能動的な視聴を中断し、推奨視野情報により受動的な視聴に切り替えたとする。この場合、視野情報取得部135は、推奨視野メタデータ(例えば、時系列情報と移動経路61とが対応付けられた情報)に基づいて、視野領域65に対応する映像データが表示されると想定される時刻tと、視野領域65に対応する視野情報とを特定することができる。
 すなわち、視野情報取得部135は、ユーザの能動的な操作に基づいて表示部に表示された第1の視野を特定する情報(図6の例では、視野領域64に対応する視野情報)を第1視野情報として取得するとともに、推奨視野情報に基づいて、第1の視野が表示部に表示された所定時間後に表示されると予測される第2の視野を特定する情報(図6の例では、視野領域65に対応する視野情報)を第2視野情報として取得することができる。
 なお、図6において、時刻t=Tcにおいて、推奨視野情報に基づく視聴に戻る操作をユーザが行ったとする。仮に、画像処理装置100が映像1フレーム間で瞬間的に映像を切り替えると、VP_d(Tc+1)=VP_m(Tc+1)となり、その後は、VP_d(t)=VP_m(t)(Tc+1<t)という関係が継続することになる。
 しかしながら、上述のように、瞬間的に映像を切り替えると、広画角画像におけるユーザ体験を低下させるおそれがある。そこで、生成部136は、第1視野情報及び第2視野情報に基づいて、第1の視野から第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する。
 生成部136は、例えば、ユーザの能動的な操作によって推奨視野情報とは異なる視線の移動経路が検知された場合に、遷移視野情報を生成する。
 一例として、生成部136は、第1視野情報及び推奨視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。
 例えば、視野情報取得部135が、第1視野情報が取得されるまでのユーザの視線の移動経路を取得した場合、生成部136は、第1視野情報が取得されるまでのユーザの視線の移動経路、及び、推奨視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。
 また、視野情報取得部135が、第1視野情報が取得されるまでのユーザの視線の移動における速度及び加速度を取得した場合、生成部136は、第1視野情報が取得されるまでのユーザの視線の移動における速度及び加速度、並びに、推奨視野情報として登録された視線の移動における速度及び加速度とに基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。
 上記の点について、図7及び図8を用いて説明する。図7は、第1の実施形態に係る生成処理を説明する図である。
 図7に示す例では、ユーザが視野領域64に対応する映像を視聴した現在時刻Tcにおいて、推奨視野情報への視線の切り替えが行われたものとする。この場合、生成部136は、t=Tc時点において検知された視線の動き(例えば、移動経路63に示されるユーザの視線の移動)や、推奨視野メタデータにおける移動経路61や、各々の移動経路における速度や加速度等を考慮し、最適な遷移視野情報を生成する。具体的には、生成部136は、ユーザの現在の視野から、推奨視野情報に沿った視野に到達する時刻Trまでの移動経路として、遷移視野情報を生成する。なお、遷移視野情報は、移動経路であり、かつ、広画角画像のどの位置を表示するかといった視線位置(視野)を特定する視野情報でもある。
 一例として、ユーザが時刻t=Tc時点において視線を止めて映像を注視していた場合、視線移動の初動方向に制限は無いため、生成部136は、推奨視野情報に沿った視野VP_m(Tr)に最短で到達する経路を生成する。例えば、生成部136は、図7に示す移動経路68を遷移視野情報として生成する。
 一方、時刻t=Tc時点においてユーザが視線を移動させている途中である場合(移動経路63に沿って視線の速度及び加速度が検知される場合)、生成部136は、視線移動の初動方向を移動経路63と共通にし、その後、滑らかに推奨視野情報に合流する経路を生成してもよい。具体的には、生成部136は、図7に示す移動経路67を遷移視野情報として生成する。この場合、生成部136は、時刻t=Tr時点においても、VP_m(Tr)にVP_d(t)が追いつく際には、VP_m(Tr)>VP_d(Tr+1)の移動方向に滑らかに繋がる向きで視線を移動させるような遷移視野情報を生成してもよい。そして、生成部136は、生成した遷移視野情報である移動経路67に沿って、視野領域64から順に映像を表示しながら、推奨視野情報への合流先となる視野領域66を表示する。これにより、生成部136は、ユーザに違和感を与えない視線の切り替えを行うことができる。
 生成部136が実行する生成処理について、視線移動の速度及び加速度を概念的に示した図8を用いて、さらに説明する。図8は、第1の実施形態に係る遷移視野情報を概念的に示す図である。
 図8には、視線方向の移動を全天球コンテンツ10に対応した角度で示す軸と、時間軸との関係性を示す。具体的には、図8には、推奨視野情報に従った視聴において、球の中心面を等速で水平右回りに視線が移動すると仮定した場合の時刻と視線の向きとの関係を示す。
 点線70は、推奨視野情報に従った場合の視線方向の速度の関係を示す。図8に示すように、点線70は、時間に沿って等速に水平右回りに視線が移動することを示す。
 ここで、分岐点71に到達した時刻を時刻Tdとする。点線72は、推奨視野情報に従った視聴が継続したと仮定した場合の視線方向の速度の関係を示す。なお、球81は、推奨視野情報に従って等速に正面まで視線が移動した状況を模式的に示したものである。
 一方、点線74は、ユーザの能動的な動作により、視点がある角度で止まったことを示す。例えば、点線74は、ユーザが時刻Tdにおいて視線移動を止め、特定の方向(図8の例では正面)を一定時間注視したことを示す。
 その後、時刻Tcでユーザが推奨視野情報に従った視野に全天球コンテンツ10の表示を瞬時に戻そうとすると、生成部136は、分岐点75から線73に直接合流する遷移視野情報76を生成することになる。この場合、瞬時(例えば1フレーム間)に映像が切り替わるため、ユーザ体験を低下させるおそれがある。なお、球82は、正面の視線方向から、時系列に応じた推奨視野情報が示す視線方向に表示が切り替わった状況を模式的に示したものである。
 上記のような急な切り替えを避けるため、生成部136は、時刻Tcから所定時間後の時刻Trを任意に設定し、時刻Trで推奨視野情報に合流するような遷移視野情報を生成する。
 すなわち、生成部136は、Tc<t<Trの時刻にかけて、視線を滑らかに切り替えるための遷移視野情報77を生成する。このとき、遷移視野情報77の速度及び加速度は、図8に示す遷移視野情報77の傾きによって示される。すなわち、図8における遷移視野情報77の傾きが速度となり、遷移視野情報77の傾きの変化が加速度となる。なお、球83は、正面の視線方向から、時系列に応じた推奨視野情報が示す視線方向に滑らかに表示が切り替わる状況を模式的に示したものである。
 この場合、図8に示すように、生成部136は、遷移視野情報77を一定の傾き(速度)とするのではなく、滑らかに視線が移動する箇所と、速やかに視線が移動する箇所とを設けてもよい。例えば、滑らかに視線が移動する箇所とは、推奨視野情報と比較して視線の移動(言い換えれば、球における回転速度)が遅い箇所を示す。また、速やかに視線が移動する箇所とは、推奨視野情報と比較して視線の移動が速い箇所を示す。
 生成部136は、遷移視野情報の速度や加速度については、種々の要素に基づき最適な値を算出するようにしてもよい。例えば、生成部136は、推奨視野情報に設定された速度に対する所定の割合に基づいて、遷移視野情報の速度や加速度を算出してもよい。また、生成部136は、人間の体感上、適切と想定される速度や加速度の登録を管理者やユーザから受け付け、受け付けた値に基づいて、遷移視野情報の速度や加速度を算出してもよい。なお、本開示に係る速度や加速度とは、球面上を通る視野の中心点が移動する線速度であってもよいし、球の中心点から見てユーザの視線方向を回転する角速度であってもよい。
 上記のように、生成部136は、推奨視野情報に設定された速度よりも高速な速度が設定された遷移視野情報を生成することができる。これにより、生成部136は、ユーザの能動的な操作から速やかに推奨視野情報に復帰することができるため、途中で視線の切り替えがあった場合にも、コンテンツ制作者の意図に沿った表示に速やかに復帰することができる。
 例えば、生成部136は、視線移動を一時停止した時刻Tdから、推奨視野情報VP_m(t)に追いつく時刻Trまでの期間に、もともと推奨視野が通っていたはずの視線経路をなぞる遷移視野情報を生成する。このとき、生成部136は、推奨視野情報に対して、より高速な視線移動を行う遷移視野情報を生成する。これにより、生成部136は、途中で推奨視野から外れた視線を、所定時間をかけて、推奨視野情報が示す移動経路に追いつかせることができる。
 この場合、ユーザは、あたかも映像を1サンプルずつスキップしながら視聴しているような(言い換えれば、2倍速で視線が移動しているような)視聴体験となるが、急激な視線の切り替えを伴わないため、ユーザ体験を損ねることはない。また、生成部136は、遷移視野情報として速度を変化させた情報を生成するのみでよく、移動経路を算出する処理を省くことができるため、処理負荷を低減させることができる。
 なお、全天球コンテンツ10に対して、図8に示すような滑らかな推奨視野情報が登録されているのではなく、視線方向や速度を刻々変化させるような推奨視野情報が設定されている場合、生成部136は、上記と異なる手法で遷移視野情報を生成してもよい。例えば、生成部136は、現状の視野(第1の視野)と、遷移先の視野(第2の視野)、及び、推奨視野情報の状況に応じて、ユーザ体験を低下させないような移動経路を含む遷移視野情報を新たに生成してもよい。
 ここで、図9及び図10を用いて、実際の映像表示における遷移視野情報の利用例を示す。図9は、第1の実施形態に係る映像表示の例を示す図(1)である。図9は、遷移視野情報が生成されない場合の映像表示の例を示す。
 図9では、図4と同様、ユーザが、オブジェクト31乃至オブジェクト36までが含まれる映像を視聴する例を挙げる。例えば、推奨視野情報に従う場合、ユーザは、映像セット85に含まれる映像91から映像95までを時系列に沿って視聴する。
 一方、ユーザが能動視聴を行った場合、ユーザは、例えば映像セット90に示されるように、映像91から映像95までのうち映像93が除かれた映像を時系列に沿って視聴する。この場合、映像92から映像94までの間が1フレームで切り替わるため、ユーザは、視聴体感上、視線が移動したとは認識し難い。すなわち、ユーザは、自身が視聴している内容が推奨視野情報に移行したか否かがわからず、視聴体験が損なわれるおそれがある。
 このような状況を避けるため、生成部136は、遷移視野情報を生成し、遷移視野情報に従って表示される映像をユーザに視聴させることで、ユーザに対して違和感のない映像表示を提供する。この点について、図10を用いて説明する。図10は、第1の実施形態に係る映像表示の例を示す図(2)である。図10は、図9で示した映像と同様の例において、遷移視野情報が生成された場合の映像表示の例を示す。
 図10に示す例では、ユーザは、例えば映像セット99に示されるように、映像91から映像95までの移動において、遷移視野情報に基づいて表示された映像96を含む映像を時系列に沿って視聴する。すなわち、ユーザは、時刻Tcにおける映像92の視聴後、瞬時に切り替えられた映像94ではなく、映像92から映像94までの間を埋める視野情報に対応する映像96を視聴し、その後、映像95を視聴する。これにより、ユーザは、自身が注視した映像から瞬時に切り替えられた映像ではなく、時系列に沿って滑らかに遷移した映像を視聴することができるため、違和感のなく映像を視聴することができる。
 ところで、全天球コンテンツ10に異なる2つ以上の推奨視野情報が登録されている状況では、ある推奨視野に沿って映像が表示されている間に、ユーザの操作によって、他の推奨視野に切り替えられることがありうる。この場合も、生成部136は、例えば図7や図8に示した処理を適用し、推奨視野同士の切り替えを滑らかに行うよう、遷移視野情報を生成してもよい。すなわち、遷移視野情報とは、ユーザの能動的な操作と推奨視野情報との切り替えのみに適用されるものではなく、様々な視線の切り替えにおいて利用可能な情報である。
 図5に戻り、説明を続ける。出力部140は、各種信号を出力する。例えば、出力部140は、画像処理装置100において画像を表示する表示部であり、例えば有機EL(Electro-Luminescence)ディスプレイや、液晶ディスプレイ等によって実現される。また、出力部140は、広画角画像が音声データを含む場合、当該音声データに基づいて音声を出力する。
[1-3.第1の実施形態に係る画像処理の手順]
 次に、図11乃至図13を用いて、第1の実施形態に係る画像処理の手順について説明する。図11は、第1の実施形態に係る処理の流れを示すフローチャート(1)である。
 図11に示すように、画像処理装置100は、広画角画像に係る動画データを取得する(ステップS101)。そして、画像処理装置100は、取得した動画データから再生データを抽出する(ステップS102)。
 画像処理装置100は、次に再生するフレームを更新する(ステップS103)。このとき、画像処理装置100は、視線の切り替え要求を受け付けたか否かを判定する(ステップS104)。
 視線の切り替え要求を受け付けた場合(ステップS104;Yes)、画像処理装置100は、表示する視野情報を決定するための視野決定処理を行う(ステップS105)。一方、視線の切り替え要求を受け付けていない場合(ステップS104;No)、画像処理装置100は、前のフレームから継続する視野情報(例えば、推奨視野メタデータに基づいて決定される視野情報)に基づいて、フレーム(映像)を表示する(ステップS106)。
 その後、画像処理装置100は、再生の終了を受け付けたか、もしくは動画が終了したか否かを判定する。再生の終了を受け付けていない、もしくは動画が終了していない場合(ステップS107;No)、画像処理装置100は、次のフレームを更新する処理を継続する(ステップS103)。再生の終了を受け付けた、もしくは動画が終了した場合(ステップS107;Yes)、画像処理装置100は、画像処理装置100は、動画の再生を終了する(ステップS108)。
 続けて、図12を用いて、視野決定処理の詳細な手順について説明する。図12は、第1の実施形態に係る処理の流れを示すフローチャート(2)である。
 図12に示すように、画像処理装置100は、ユーザの操作に基づいて広画角画像における視野を決定する(ステップS201)。なお、この場合のユーザの操作とは、ユーザが能動的な視聴を行おうとする操作、及び、受動的な視聴に切り替えることを要望する操作のいずれもが含まれる。
 そして、画像処理装置100は、ユーザの操作において視線の切り替え要求が発生したか否かを判定する(ステップS202)。視線の切り替え要求が発生した場合(ステップS202;Yes)、画像処理装置100は、遷移視野情報の生成処理を実行する(ステップS203)。一方、視線の切り替え要求が発生していない場合(ステップS202;No)、画像処理装置100は、ユーザの操作に基づいて決定された視野(より具体的には、視野を特定する視野情報)に基づいて、フレームを表示する処理を実行する(ステップS106)。
 続けて、図13を用いて、視野決定処理の詳細な手順について説明する。図13は、第1の実施形態に係る処理の流れを示すフローチャート(3)である。
 図13に示すように、画像処理装置100は、推奨視野情報に乗り換える時刻Trを決定する(ステップS301)。続けて、画像処理装置100は、時刻Trにおける視野情報(第2視野情報)を検知し、第2視野情報に関する情報を取得する(ステップS302)。
 そして、画像処理装置100は、第1視野情報及び第2視野情報に基づいて、現在時刻と、時刻Trとを結ぶ経路(すなわち、視線の移動経路)を決定する(ステップS303)。決定した情報に基づいて、画像処理装置100は、遷移視野情報を生成する(ステップS304)。続けて、画像処理装置100は、生成した遷移視野情報に基づいて、現時点で表示するフレームの視野を決定し(ステップS305)、当該フレームを表示する処理を実行する(ステップS106)。
[1-4.第1の実施形態の変形例]
 上記で説明した第1の実施形態に係る画像処理は、様々な変形を伴ってもよい。以下に、第1の実施形態の変形例について説明する。
 推奨視野(ROI)には、先行技術文献における「Recommended Viewport」の他に、例えば「Initial Viewing Orientation」と称される技術に基づくものがある。「Initial Viewing Orientation」は、任意のタイミングで視野をリセットする仕組みである。任意のタイミングで視野をリセットされる場合、視線の不連続が発生しやすいため、この技術が利用される場合にも、上記した遷移視野情報を利用することで、画像処理装置100は、滑らかな画面表示を実現することができる。
 第1の実施形態では、ユーザが全天球コンテンツ10の中心に位置する例(いわゆる、3DoF(Degree of Freedom))を示した。しかし、本開示に係る画像処理は、ユーザが全天球コンテンツ10の中心に位置しない場合(いわゆる、3DoF+)であっても適用可能である。すなわち、視野情報取得部135は、第1視野情報として、全天球コンテンツ10の中心以外の点から全天球コンテンツ10をユーザが視聴する領域に対応した視野情報を取得してもよい。
 この場合、画像処理装置100は、時刻Tcや時刻Trにおいて、表示画角や視聴位置のずれ量が異なっている場合には、時刻Tcから時刻Tr間で値を徐々に変化させ、滑らかに繋げば良い。また、画像処理装置100は、視点位置(ユーザ位置)の動的な情報に基づき、視線方向や視野画角等と並行して視聴位置座標を時系列で変化させることで、視聴位置の滑らかな移動も実現できる。なお、画像処理装置100は、ユーザの意図に基づき視点位置が中心からずれている場合には、ずれた位置を示す座標位置を取得し、取得した情報に基づいて、上記の画像処理を実行すればよい。
 なお、現状のMPEG-I OMAFで定義されている視野メタデータを3DoF+視聴にも適用できるよう、例えば下記数1に示す様に拡張することができる。例えば、推奨視野再生用の視点位置情報を示すViewingPosStructを新規定義し、OMAF ed.1で規定されるROIのsampleであるSphereRegionSampleでシグナルする(信号化する)。
Figure JPOXMLDOC01-appb-M000001
 更に、RvcpInfoBoxで、視点位置が動的に変わるか否かの情報をシグナルする。動的に変わらない場合は、RvcpInfoBoxでスタティックな視点位置をシグナルする。動的に変わらない場合において、上記したSphere Region Sampleの情報量を削減できるという効果がある。また、例えば下記数2に示す様に、その他のBoxでシグナルしてもよい。
Figure JPOXMLDOC01-appb-M000002
 上記のような拡張がある視野データの場合は、視線方向や視野画角等と並行して視聴位置座標(pos x,pos y,pos z)を時系列で変化させれば、視聴位置の滑らかな移動も実現できる。拡張が無い場合には、クライアント(実施形態では画像処理装置100)がローカルで保持している、視聴者(ユーザ)の意図でずらした座標をそのまま用いればよい。
 上記第1の実施形態では、全天球コンテンツ10等の動画データを画像処理装置100が取得していることを前提として説明した。この場合、動画データに埋め込まれた推奨視野メタデータと、動画データとの対応が失われることはない。しかし、動画データがストリーミング配信される場合等には、何らかの原因で推奨視野メタデータの供給が一時的に途切れる可能性もある。例えば、動画データ配信時に伝送路でパケットがロストしたり、ライブ配信時にオーサリングトラブルが起きたりすると、推奨視野メタデータの供給が一時的に途切れるおそれがある。また、場合によっては、画像処理装置100側の伝送路の帯域確保のため、映像と音声を優先し、推奨視野メタデータの取得を意図的にドロップすることも考えられる。
 図14に、データが欠落する状況を概念的に示す。図14は、推奨視野メタデータの欠落を概念的に示す図である。図14に示す例では、動画データ200のうちデータ201は、既に再生が終了して破棄された状況を示す。また、データ202は、キャッシュが完了しており、現時点で再生中である状況を示す。また、データ203は、何らかの理由で欠落した状況を示す。また、データ204は、キャッシュが完了している状況を示す。また、データ205は、ダウンロード中であり、キャッシュが行われている途中である状況を示す。なお、キャッシュ単位は、例えばMPEG DASH配信のsegment等により定義される。
 画像処理装置100は、推奨視野メタデータの欠落が発生した場合には、その前後の視野の不連続をうまく繋ぐことで視聴体験を損なわせないよう処理する。
 この点について、図15を用いて説明する。図15は、第1の実施形態の変形例に係る画像処理の一例を示す図(1)である。例えば、図15に示す全天球コンテンツ10において、視野領域211から視野領域213の間の推奨視野メタデータが欠落していると仮定する。
 この場合、画像処理装置100は、欠落後の時刻(例えば、図14で示したデータ204やデータ205)の推奨視野メタデータに基づいて、欠落している時間帯の視野データを遷移視野情報として生成する。例えば、画像処理装置100は、前後の推奨視野メタデータに基づいて、図15に示す移動経路214を遷移視野情報として生成する。
 そして、画像処理装置100は、生成した移動経路214と、欠落後のキャッシュされている推奨視野メタデータである移動経路210を接続する。これにより、画像処理装置100は、推奨視野メタデータが欠落した時間帯の視野領域212等についても、支障なく再生を行うことができる。なお、図15の場合、画像処理装置100は、例えば欠落直前の時刻tを、第1の実施形態で示した分岐点の時刻Tdや、ユーザが能動的に視点を変えた時刻である時刻Tcと見立て、欠落後のキャッシュ済みデータの先頭時刻を時刻Trと見立てることで、第1の実施形態と同様の処理を行うことができる。
 なお、欠落後の推奨視野メタデータが取得できない可能性もある。この場合、画像処理装置100は、例えば、視野を推奨視野メタデータが途切れる直前の状態に固定して視聴を継続し、推奨視野メタデータの再取得が可能となるのを待機してもよい。言い換えれば、画像処理装置100は、データの欠落した状況を「視線移動をユーザが能動的に止めた状況」と同様であると見立てる。その後、画像処理装置100は、VP_m(t)が途切れた時刻を時刻Td、データが再取得できるようになった時刻を時刻Tcと見立てることにより、推奨視野メタデータに復帰するような遷移視野情報を生成する。これにより、画像処理装置100は、データが欠落した場合であっても、違和感のない映像表示をユーザに提供することができる。
 また、画像処理装置100は、データ欠落時において、ユーザの視線経路を予測する処理を行ってもよい。この点について、図16を用いて説明する。図16は、第1の実施形態の変形例に係る画像処理の一例を示す図(2)である。
 例えば、図16に示す全天球コンテンツ10において、視野領域211から視野領域213の間の推奨視野メタデータが欠落していると仮定する。また、図16の例において、ユーザは、データが欠落する前に視線を移動し、視野領域222を視聴していたものとする。この場合、画像処理装置100は、ユーザの視線の過去(t≦Td)の移動経路221に基づいて、ユーザの視線の予測経路である移動経路223を遷移視野情報として生成する。例えば、画像処理装置100は、移動経路221の傾きや速度等に基づいて移動経路223を算出する。一例として、画像処理装置100は、移動経路221が水平等速度の移動であれば、その移動が継続されると想定し、移動経路223を算出する。また、画像処理装置100は、過去の推奨視野メタデータが、例えば画面内の特定の人物を中心に配置するように追いかけているメタデータであった場合などは、画像解析等を用いて追跡する視線を導出してもよい。なお、画像処理装置100は、推奨視野メタデータの取得が再び可能となった後は、予測により視線移動していた現時点の視野から遷移視野情報を用いて、推奨視野メタデータ(図16に示す移動経路210)に戻してもよい。
(2.第2の実施形態)
 次に、第2の実施形態について説明する。第1の実施形態では、画像処理装置100が第1の視野と第2の視野との間の移動経路を生成することにより、滑らかな画面表示の遷移を実現する処理を示した。第2の実施形態では、画像処理装置100は、さらに遷移視野情報に基づいて補完画像を生成することにより、より滑らかな画面表示の遷移を実現する。
 具体的には、画像処理装置100は、遷移視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路における表示を補完する画像である補完画像を生成する。例えば、画像処理装置100は、広画角画像に対応する映像のフレームレートよりも表示部(出力部140)による画像の描画処理のフレームレートが高い場合に、補完画像を生成する。
 この点について、図17乃至図19を用いて説明する。まず、図17を用いて、画像処理装置100が第2の実施形態に係る画像処理を実行しない場合の処理について説明する。図17は、補完画像の生成処理の一例を示す図である。
 なお、図17の例では、広画角画像のフレームレート(例えば60fps)よりも、表示デバイス(すなわち画像処理装置100)の描画のフレームレート(例えば120fps)が高いものとする。
 図17に示すように、画像処理装置100は、外部データサーバ230から広画角画像データを取得する。その後、画像処理装置100は、広画角画像データの信号を分離し、動画や音声を含む動画データ240と、推奨視野メタデータ250とに分離する。
 その後、画像処理装置100は、双方のデータをデコードし、結合部260で信号を結合する。そして、画像処理装置100は、映像の出力時に、高フレームレート(図17の例では120fps)に画像補間して表示デバイスに出力する。もしくは、画像処理装置100は、低フレームレート(図17の例では60fps)で表示デバイスに出力し、表示デバイス側で120fpsに画像補間して映像を表示する。
 図17に示した処理では、いずれの場合も、広画角画像が平面投影されたのち、すなわち広画角画像から表示される部分だけを切り抜いた映像に加工されたのち、時系列的に前後する2枚の映像から補間映像を生成することになる。このような生成処理では、画像認識等、比較的高度な処理を伴うため高負荷となり、また精度的にも必ずしも優れているとはいえない場合がある。
 これに対して、第2の実施形態に係る画像処理では、平面投影映像の生成前に推奨視野メタデータ自体を補間生成することにより、処理負荷を低減しつつ、滑らかな映像を生成する。
 この点について、図18を用いて説明する。図18は、第2の実施形態に係る画像処理の一例を示す図である。
 図18に示すように、画像処理装置100は、図17と比較して、分離した推奨視野メタデータの生成処理部270を経て、推奨視野メタデータを補完(アップスケーリング)する。これにより、画像処理装置100は、描画に合わせた高フレームレート(図18の例では120fps)に対応する推奨視野メタデータを得ることができる。また、これにより、画像処理装置100は、補完した推奨視野メタデータに対応した補完画像を生成することも可能となる。
 このようにして補完画像を生成した場合の映像表示の例を図19に示す。図19は、第2の実施形態に係る画像処理の一例を説明する図である。
 図19に示す映像セット300は、補完された推奨視野メタデータに対応した補完画像を含む。具体的には、映像セット300は、通常のフレームレート(広画角画像自体のフレームレート)で生成された映像301、映像302、映像303、映像304、映像305に加えて、補完された推奨視野メタデータに基づいて生成された補完画像311、補完画像312、補完画像313、補完画像314、補完画像315を含む。
 なお、図18や図19の例では、広画角画像のフレームレートが、描画処理のフレームレートよりも低いことを想定している。このため、補完された推奨視野メタデータに基づく補完画像は、基本的に通常の広画角画像のフレームの直後に生成される。
 図18及び図19で示した処理によれば、高度な画像解析処理を必要としないため、平面投影後の画像から補完画像を生成するよりも低負荷であり、また、広画角画像をそのまま利用使用できることから、生成される映像の精度も高く維持できる。なお、図19に示した例では、視聴においては、連続する映像2フレーム間で映像内の人物やオブジェクトは動かず、視野のみが動くことになる。
 次に、図20を用いて、第2の実施形態に係る画像処理の手順について説明する。図20は、第2の実施形態に係る処理の流れを示すフローチャートである。
 図20に示すように、画像処理装置100は、表示される映像のフレームレートよりも描画処理におけるフレームレートの方が高いか否かを判定する(ステップS401)。
 映像フレームレートよりも描画フレームレートが高い場合(ステップS401;Yes)、画像処理装置100は、補完する視野情報を生成するか否かを判定する(ステップS402)。なお、補完する視野情報を生成するか否かという設定は、例えば、広画角画像の提供者やユーザにより任意に設定されてもよい。
 補完する視野情報を生成する場合(ステップS402;Yes)、画像処理装置100は、視野情報の生成タイミングを示すパラメータをN(Nは任意の整数)に設定する(ステップS403)。かかるパラメータとは、補完フレーム用の視野情報を生成するタイミングを制御するパラメータであり、映像フレームレートと描画フレームレートの比により決定される。例えば、映像フレームレートが60fpsである時に、表示デバイスの描画フレームレートが120fpsであれば、パラメータは「2」となる。また、映像フレームレートが60fpsである時に、表示デバイスの描画フレームレートが240fpsであれば、パラメータは「4」となる。なお、パラメータが整数値とならない場合には、適宜変換処理を用いてもよい。
 なお、映像フレームレートよりも描画フレームレートの方が高くない場合(ステップS401;No)や、補完する視野情報を生成しない場合(ステップS402;No)、画像処理装置100は、視野情報の生成タイミングを示すパラメータを1に設定する(ステップS404)。これは、補完フレームが生成されず、通常のレンダリング(広画角画像に対応するフレームレートでのレンダリング)が行われることを意味する。
 パラメータが決定したのち、画像処理装置100は、フレームとパラメータを更新する処理を行う(ステップS405)。そして、画像処理装置100は、パラメータの値に基づいて、通常のフレーム(広画角画像に対応するフレーム)を生成するタイミングが否かを判定する(ステップS406)。画像処理装置100は、通常のフレームを生成するタイミングであれば、通常の視野情報を生成する(ステップS407)。一方、画像処理装置100は、通常のフレームを生成するタイミングでなければ、補完用の視野情報を生成する(ステップS408)。すなわち、パラメータの値が大きいほど、補完用の視野情報は多く生成される。
 そして、画像処理装置100は、生成した視野情報に基づいて広画角画像を切り出し、レンダリングを行い、表示部に映像を表示する(ステップS409)。その後、画像処理装置100は、再生の終了を受け付けたか否かを判定する(ステップS410)。再生の終了を受け付けていない場合(ステップS410;No)、画像処理装置100は、次のフレームのレンダリングを行う。一方、再生の終了を受け付けた場合(ステップS410;Yes)、画像処理装置100は、再生を終了する(ステップS411)。
(3.その他の実施形態)
 上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
 例えば、上記各実施形態では、再生装置である画像処理装置100が、本開示に係る画像処理を実行する例を示した。しかし、本開示に係る画像処理は、例えばクラウド上の外部サーバ等により実行されてもよい。この場合、外部サーバは、生成した遷移視野情報を再生装置に送信し、再生処理を実行させる。すなわち、本開示に係る画像処理装置とは、必ずしも再生装置ではなく、サーバで実現されてもよいし、サーバとクライアント(再生装置)により構成されるシステムにより実現されてもよい。
 また、上記各実施形態では、広画角画像の例として、全天球コンテンツを示した。しかし、本開示に係る画像処理は、全天球コンテンツ以外にも適用可能である。例えば、本開示に係る画像処理は、ディスプレイに表示可能な領域よりも広い領域を有する、いわゆるパノラマ画像やパノラマ動画にも適用可能である。また、180度の範囲で構成されたVR画像やVR動画(いわゆる半天球コンテンツ)にも適用可能である。また、広画角画像は、静止画や動画に限らず、例えばCG(Computer Graphics)で作成されたゲームコンテンツ等であってもよい。
 また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図5に示した視野決定部133と再生部134は統合されてもよい。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
(4.本開示に係る画像処理装置の効果)
 上述のように、本開示に係る画像処理装置(実施形態では画像処理装置100)は、取得部(実施形態では視野情報取得部135)と、生成部(実施形態では生成部136)とを備える。取得部は、広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する。生成部は、第1視野情報及び第2視野情報に基づいて、第1の視野から第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する。
 このように、本開示に係る画像処理装置は、第1の視野から第2の視野への遷移を示す情報を生成することにより、第1の視野と第2の視野とを滑らかに遷移させる。これにより、ユーザは、急激な視線の移動による視野の切り替えを体験せずに済むため、違和感を覚えることなく、視線の切り替えを受け入れることができる。すなわち、画像処理装置は、広画角画像に関するユーザ体験を向上させることができる。
 また、取得部は、広画角画像に予め登録された視線移動を示す情報である推奨視野情報に基づいて、第1の視野から所定時間後に遷移すると予測される第2の視野の第2視野情報を取得する。これにより、画像処理装置は、第2視野情報を精度よく特定することができる。
 また、生成部は、ユーザの能動的な操作によって推奨視野情報とは異なる視線の移動経路が検知された場合に、遷移視野情報を生成する。これにより、画像処理装置は、ユーザの操作に基づいて視線の切り替えが発生した場合に、急激な視線の移動を起こさせることなく、滑らかな画像遷移を実現できる。
 また、取得部は、ユーザの能動的な操作に基づいて表示部に表示された第1の視野を特定する情報を第1視野情報として取得するとともに、推奨視野情報に基づいて、第1の視野が表示部に表示された所定時間後に表示されると予測される第2の視野を特定する情報を第2視野情報として取得する。これにより、画像処理装置は、ユーザの視線の移動先となる第2の視野を精度よく特定することができる。
 また、生成部は、第1視野情報及び推奨視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。これにより、画像処理装置は、違和感のない自然な移動経路で視線の切り替えを行うことができる。
 また、取得部は、第1視野情報が取得されるまでのユーザの視線の移動経路を取得する。生成部は、第1視野情報が取得されるまでのユーザの視線の移動経路、及び、推奨視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。これにより、画像処理装置は、違和感のない自然な移動経路で視線の切り替えを行うことができる。
 また、取得部は、第1視野情報が取得されるまでのユーザの視線の移動における速度及び加速度を取得する。生成部は、第1視野情報が取得されるまでのユーザの視線の移動における速度及び加速度、並びに、推奨視野情報として登録された視線の移動における速度及び加速度とに基づいて、第1の視野から第2の視野までの視線の移動経路を含む遷移視野情報を生成する。これにより、画像処理装置は、移動経路のみならず、速度や加速度も含めた滑らかな画面遷移を実現することができる。
 また、生成部は、推奨視野情報に設定された速度よりも高速な速度が設定された遷移視野情報を生成する。これにより、画像処理装置は、視線が推奨視野から外れた場合にも、速やかに推奨視野に復帰させることができる。
 また、生成部は、遷移視野情報に基づいて、第1の視野から第2の視野までの視線の移動経路における表示を補完する画像である補完画像を生成する。これにより、画像処理装置は、移動経路に加えて、画面表示の観点からも、滑らかな画像遷移を実現することができる。
 また、生成部は、広画角画像に対応する映像のフレームレートよりも表示部による画像の描画処理のフレームレートが高い場合に、補完画像を生成する。これにより、画像処理装置は、より自然な画面遷移をユーザに体験させることができる。
 また、取得部は、第1視野情報として、全天球コンテンツの中心から全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する。これにより、画像処理装置は、全天球コンテンツを対象とした画面表示において、滑らかな画面遷移を実現することができる。
 また、取得部は、第1視野情報として、全天球コンテンツの中心以外の点から全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する。これにより、画像処理装置は、3DoF+に関する技術においても、滑らかな画面遷移を実現することができる。
(5.ハードウェア構成)
 上述してきた各実施形態に係る画像処理装置100等の情報機器は、例えば図21に示すような構成のコンピュータ1000によって実現される。以下、第1の実施形態に係る画像処理装置100を例に挙げて説明する。図21は、画像処理装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る画像処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が第1の実施形態に係る画像処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた画像処理プログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、本開示に係る画像処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、
 前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と
 を備える画像処理装置。
(2)
 前記取得部は、
 広画角画像に予め登録された視線移動を示す情報である推奨視野情報に基づいて、前記第1の視野から所定時間後に遷移すると予測される前記第2の視野の第2視野情報を取得する
 前記(1)に記載の画像処理装置。
(3)
 前記生成部は、
 前記ユーザの能動的な操作によって前記推奨視野情報とは異なる視線の移動経路が検知された場合に、前記遷移視野情報を生成する
 前記(2)に記載の画像処理装置。
(4)
 前記取得部は、
 前記ユーザの能動的な操作に基づいて表示部に表示された第1の視野を特定する情報を前記第1視野情報として取得するとともに、前記推奨視野情報に基づいて、当該第1の視野が表示部に表示された所定時間後に表示されると予測される第2の視野を特定する情報を前記第2視野情報として取得する
 前記(3)に記載の画像処理装置。
(5)
 前記生成部は、
 前記第1視野情報及び前記推奨視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
 前記(3)又は(4)に記載の画像処理装置。
(6)
 前記取得部は、
 前記第1視野情報が取得されるまでの前記ユーザの視線の移動経路を取得し、
 前記生成部は、
 前記第1視野情報が取得されるまでの前記ユーザの視線の移動経路、及び、前記推奨視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
 前記(5)に記載の画像処理装置。
(7)
 前記取得部は、
 前記第1視野情報が取得されるまでの前記ユーザの視線の移動における速度及び加速度を取得し、
 前記生成部は、
 前記第1視野情報が取得されるまでの前記ユーザの視線の移動における速度及び加速度、並びに、前記推奨視野情報として登録された視線の移動における速度及び加速度とに基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
 前記(6)に記載の画像処理装置。
(8)
 前記生成部は、
 前記推奨視野情報に設定された速度よりも高速な速度が設定された前記遷移視野情報を生成する
 前記(7)に記載の画像処理装置。
(9)
 前記生成部は、
 前記遷移視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路における表示を補完する画像である補完画像を生成する
 前記(2)~(7)のいずれか一つに記載の画像処理装置。
(10)
 前記生成部は、
 前記広画角画像に対応する映像のフレームレートよりも表示部による画像の描画処理のフレームレートが高い場合に、前記補完画像を生成する
 前記(9)に記載の画像処理装置。
(11)
 前記取得部は、
 前記第1視野情報として、全天球コンテンツの中心から当該全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する
 前記(1)~(10)のいずれか一つに記載の画像処理装置。
(12)
 前記取得部は、
 前記第1視野情報として、全天球コンテンツの中心以外の点から当該全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する
 前記(1)~(11)のいずれか一つに記載の画像処理装置。
(13)
 コンピュータが、
 広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得し、
 前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する
 画像処理方法。
(14)
 コンピュータを、
 広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、
 前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と、
 として機能させるための画像処理プログラム。
 100 画像処理装置
 110 通信部
 120 記憶部
 130 制御部
 131 画像取得部
 132 表示制御部
 133 視野決定部
 134 再生部
 135 視野情報取得部
 136 生成部

Claims (14)

  1.  広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、
     前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と
     を備える画像処理装置。
  2.  前記取得部は、
     広画角画像に予め登録された視線移動を示す情報である推奨視野情報に基づいて、前記第1の視野から所定時間後に遷移すると予測される前記第2の視野の第2視野情報を取得する
     請求項1に記載の画像処理装置。
  3.  前記生成部は、
     前記ユーザの能動的な操作によって前記推奨視野情報とは異なる視線の移動経路が検知された場合に、前記遷移視野情報を生成する
     請求項2に記載の画像処理装置。
  4.  前記取得部は、
     前記ユーザの能動的な操作に基づいて表示部に表示された第1の視野を特定する情報を前記第1視野情報として取得するとともに、前記推奨視野情報に基づいて、当該第1の視野が表示部に表示された所定時間後に表示されると予測される第2の視野を特定する情報を前記第2視野情報として取得する
     請求項3に記載の画像処理装置。
  5.  前記生成部は、
     前記第1視野情報及び前記推奨視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
     請求項3に記載の画像処理装置。
  6.  前記取得部は、
     前記第1視野情報が取得されるまでの前記ユーザの視線の移動経路を取得し、
     前記生成部は、
     前記第1視野情報が取得されるまでの前記ユーザの視線の移動経路、及び、前記推奨視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
     請求項5に記載の画像処理装置。
  7.  前記取得部は、
     前記第1視野情報が取得されるまでの前記ユーザの視線の移動における速度及び加速度を取得し、
     前記生成部は、
     前記第1視野情報が取得されるまでの前記ユーザの視線の移動における速度及び加速度、並びに、前記推奨視野情報として登録された視線の移動における速度及び加速度とに基づいて、前記第1の視野から前記第2の視野までの視線の移動経路を含む前記遷移視野情報を生成する
     請求項6に記載の画像処理装置。
  8.  前記生成部は、
     前記推奨視野情報に設定された速度よりも高速な速度が設定された前記遷移視野情報を生成する
     請求項7に記載の画像処理装置。
  9.  前記生成部は、
     前記遷移視野情報に基づいて、前記第1の視野から前記第2の視野までの視線の移動経路における表示を補完する画像である補完画像を生成する
     請求項2に記載の画像処理装置。
  10.  前記生成部は、
     前記広画角画像に対応する映像のフレームレートよりも表示部による画像の描画処理のフレームレートが高い場合に、前記補完画像を生成する
     請求項9に記載の画像処理装置。
  11.  前記取得部は、
     前記第1視野情報として、全天球コンテンツの中心から当該全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する
     請求項1に記載の画像処理装置。
  12.  前記取得部は、
     前記第1視野情報として、全天球コンテンツの中心以外の点から当該全天球コンテンツをユーザが視聴する領域に対応した視野情報を取得する
     請求項1に記載の画像処理装置。
  13.  コンピュータが、
     広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得し、
     前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する
     画像処理方法。
  14.  コンピュータを、
     広画角画像におけるユーザの第1の視野を特定する情報である第1視野情報と、前記第1の視野から遷移した遷移先の視野である第2の視野を特定する情報である第2視野情報とを取得する取得部と、
     前記第1視野情報及び前記第2視野情報に基づいて、前記第1の視野から前記第2の視野までの視野の遷移を示す情報である遷移視野情報を生成する生成部と、
     として機能させるための画像処理プログラム。
PCT/JP2020/007850 2019-03-08 2020-02-26 画像処理装置、画像処理方法及び画像処理プログラム WO2020184188A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/434,182 US20220150464A1 (en) 2019-03-08 2020-02-26 Image processing apparatus, image processing method, and image processing program
JP2021504909A JPWO2020184188A1 (ja) 2019-03-08 2020-02-26

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019043201 2019-03-08
JP2019-043201 2019-03-08

Publications (1)

Publication Number Publication Date
WO2020184188A1 true WO2020184188A1 (ja) 2020-09-17

Family

ID=72426592

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/007850 WO2020184188A1 (ja) 2019-03-08 2020-02-26 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (3)

Country Link
US (1) US20220150464A1 (ja)
JP (1) JPWO2020184188A1 (ja)
WO (1) WO2020184188A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117784915A (zh) * 2022-09-20 2024-03-29 北京字跳网络技术有限公司 虚拟环境中的观影画面调整方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001008232A (ja) * 1999-06-25 2001-01-12 Matsushita Electric Ind Co Ltd 全方位映像出力方法と装置
JP2015230632A (ja) * 2014-06-06 2015-12-21 大日本印刷株式会社 表示端末装置、プログラム及び表示方法
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
JP2018206353A (ja) * 2017-06-02 2018-12-27 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5679307A (en) * 1979-12-03 1981-06-29 Hitachi Ltd Displacement reducing mechanism
US7990394B2 (en) * 2007-05-25 2011-08-02 Google Inc. Viewing and navigating within panoramic images, and applications thereof
KR20140092211A (ko) * 2013-01-15 2014-07-23 삼성전자주식회사 미디어 컨텐츠 재생 중에 가상 카메라 기능을 수행하는 방법 및 장치
US9766786B2 (en) * 2013-07-19 2017-09-19 Google Technology Holdings LLC Visual storytelling on a mobile media-consumption device
US9858706B2 (en) * 2015-09-22 2018-01-02 Facebook, Inc. Systems and methods for content streaming
US10319071B2 (en) * 2016-03-23 2019-06-11 Qualcomm Incorporated Truncated square pyramid geometry and frame packing structure for representing virtual reality video content
WO2017205794A1 (en) * 2016-05-26 2017-11-30 Vid Scale, Inc. Methods and apparatus of viewport adaptive 360 degree video delivery
US10547704B2 (en) * 2017-04-06 2020-01-28 Sony Interactive Entertainment Inc. Predictive bitrate selection for 360 video streaming
US10791373B2 (en) * 2017-12-29 2020-09-29 Intel Corporation Generating 2D video from 360 video
KR102258446B1 (ko) * 2018-07-11 2021-05-31 엘지전자 주식회사 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
US10757389B2 (en) * 2018-10-01 2020-08-25 Telefonaktiebolaget Lm Ericsson (Publ) Client optimization for providing quality control in 360° immersive video during pause

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001008232A (ja) * 1999-06-25 2001-01-12 Matsushita Electric Ind Co Ltd 全方位映像出力方法と装置
JP2015230632A (ja) * 2014-06-06 2015-12-21 大日本印刷株式会社 表示端末装置、プログラム及び表示方法
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
JP2018206353A (ja) * 2017-06-02 2018-12-27 株式会社コロプラ 情報処理方法、装置、および当該情報処理方法をコンピュータに実行させるためのプログラム

Also Published As

Publication number Publication date
JPWO2020184188A1 (ja) 2020-09-17
US20220150464A1 (en) 2022-05-12

Similar Documents

Publication Publication Date Title
EP3535644B1 (en) Streaming virtual reality video
US11058950B2 (en) Methods and systems for spectating characters in virtual reality views
JP6130478B1 (ja) プログラム及びコンピュータ
JP7017175B2 (ja) 情報処理装置、情報処理方法、プログラム
CN113383370B (zh) 信息处理装置和方法以及程序
JP2017204674A (ja) 撮像装置、ヘッドマウントディスプレイ、情報処理システム、および情報処理方法
JP6751205B2 (ja) ディスプレイ装置及びその制御方法
JP2017215875A (ja) 画像生成装置、画像生成システム、および画像生成方法
JP6359572B2 (ja) 画像送信装置、情報処理端末、画像送信方法、情報処理方法、プログラム及び情報記憶媒体
KR20150001425A (ko) 헤드 마운트 디스플레이 장치 및 그 동작방법
US10771707B2 (en) Information processing device and information processing method
US20210058609A1 (en) Information processor, information processing method, and program
KR20170013737A (ko) 헤드 마운트 디스플레이 장치 및 그 동작방법
JP7040521B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020003898A (ja) 情報処理装置、情報処理方法、及びプログラム
WO2020184188A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP2017121082A (ja) プログラム及びコンピュータ
JP2019212137A (ja) ヒートマップ提示装置およびヒートマップ提示用プログラム
JP6655751B1 (ja) 映像表示制御装置、方法およびプログラム
US20190058863A1 (en) Capturing and displaying a video in an immersive reality environment
KR20190030565A (ko) 전자 장치 및 그 동작방법
WO2020036099A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP7392723B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2023233488A1 (ja) 情報処理装置および情報処理方法
JP2022184456A (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20769577

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021504909

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20769577

Country of ref document: EP

Kind code of ref document: A1