WO2019194529A1 - 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치 - Google Patents

복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치 Download PDF

Info

Publication number
WO2019194529A1
WO2019194529A1 PCT/KR2019/003864 KR2019003864W WO2019194529A1 WO 2019194529 A1 WO2019194529 A1 WO 2019194529A1 KR 2019003864 W KR2019003864 W KR 2019003864W WO 2019194529 A1 WO2019194529 A1 WO 2019194529A1
Authority
WO
WIPO (PCT)
Prior art keywords
viewpoint
viewpoints
metadata
group
content
Prior art date
Application number
PCT/KR2019/003864
Other languages
English (en)
French (fr)
Inventor
입에릭
양현구
소영완
배재현
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/981,119 priority Critical patent/US11516454B2/en
Priority to KR1020207031908A priority patent/KR102564729B1/ko
Priority to EP19782001.2A priority patent/EP3758370A4/en
Publication of WO2019194529A1 publication Critical patent/WO2019194529A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/282Image signal generators for generating image signals corresponding to three or more geometrical viewpoints, e.g. multi-view systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Definitions

  • the present disclosure relates to a method and apparatus for transmitting information about 3D content, and more particularly, to a method and apparatus for transmitting metadata about 3D content including a plurality of viewpoints. will be.
  • the Internet has evolved from a human-centered connection network where humans create and consume information, and an Internet of Things (IoT) network that exchanges and processes information among distributed components such as things.
  • IoT Internet of Things
  • IoE Internet of Everything
  • IoT Internet Technology
  • IoT Internet Technology
  • HD high definition
  • UHD ultra high definition television
  • HD high dynamic range
  • VR virtual reality
  • VR virtual reality
  • the VR system monitors the user, allowing the user to use any kind of controller to provide feedback input to the content display device or processing unit, where the device or unit processes the input and adjusts the content accordingly. It is a system that makes it possible.
  • the 3D image played back in the VR device may be a three-dimensional image such as a spherical or cylindrical.
  • the 3D image may be referred to as an omnidirectional image.
  • the VR device may display a specific area of the 3D image in consideration of the user's gaze direction.
  • the 3D content may include a plurality of viewpoints to provide the user with an experience at various locations.
  • Each of the plurality of viewpoints may correspond to a 3D image centered on the viewpoint.
  • the VR device may display a 3D image viewed from the selected viewpoint among the plurality of viewpoints.
  • switching When switching is performed between a plurality of viewpoints, it may be a question how to set the switched viewport, and performing an operation for switching the viewport may be a load on the processor of the VR device.
  • the present disclosure is to provide a format of metadata for 3D content to support easy switching between a plurality of viewpoints.
  • a method for transmitting metadata for omnidirectional content including a plurality of viewpoints, the omnidirectional content including the plurality of viewpoints. Identifying metadata for the metadata, and transmitting the identified metadata, wherein the metadata is assigned to an identifier (ID) of a group of viewpoints that includes at least one viewpoint among the plurality of viewpoints. And at least one viewpoint within the group of viewpoints share a common reference coordinate system.
  • ID identifier
  • a method for processing information about omnidirectional content including a plurality of viewpoints includes: receiving metadata about omnidirectional content including the plurality of viewpoints. And processing media data for the omnidirectional content based on the identified metadata, wherein the metadata includes at least one viewpoint of the plurality of viewpoints. Information about an ID, wherein said at least one viewpoint in said viewpoint group shares a common reference coordinate system.
  • a plurality of viewpoints included in 3D content may be grouped and managed through the provided metadata.
  • the present disclosure may provide a method for detecting and predicting a defect in an RRH that does not depend on thresholds and knowledge of the skilled person.
  • FIG. 1 is a block diagram of a system according to an embodiment of the present disclosure.
  • FIG. 2 is a flowchart illustrating an operation of a server according to an exemplary embodiment of the present disclosure.
  • 3 illustrates an example method for grouping a plurality of viewpoints.
  • FIG. 4 illustrates an example method for aligning a plurality of viewpoints.
  • FIG. 5 shows an exemplary view port switching mode of the LoS mode (line of switching).
  • FIG. 6 illustrates a reverse viewport switching mode of an exemplary LoS mode.
  • 11-13 illustrate viewpoint switching in an exemplary depth tracking scheme.
  • FIG. 14 is a flowchart illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • 15 is a block diagram of a server according to an embodiment of the present disclosure.
  • 16 is a block diagram of an electronic device according to an embodiment of the present disclosure.
  • first, second, etc. are used to describe various components, these components are of course not limited by these terms. These terms are only used to distinguish one component from another. Therefore, of course, the first component mentioned below may be a second component within the technical spirit of the present disclosure.
  • the system according to an embodiment of the present disclosure may include a content provider 110, a server 120, and an electronic device 130.
  • the content provider 110 may generate 3D content.
  • the 3D content may include a plurality of viewpoints.
  • the content provider 110 may generate 3D content using the plurality of 3D images captured by the plurality of cameras 140. Positions of the plurality of cameras 140 may correspond to the plurality of viewpoints, respectively. In some embodiments, the location of the plurality of viewpoints may be arbitrarily set. In some embodiments, the plurality of 3D images constituting the 3D content may be virtually generated based on the image captured by the plurality of cameras 140.
  • the content provider 110 may transmit data about 3D content to the server 120.
  • content provider 110 may be configured as a server independent of server 120. In some embodiments, content provider 110 may be configured to be integrated with server 120.
  • the server 120 may transmit the media data for the 3D content and the metadata for the 3D content to the electronic device 130 based on the data about the 3D content received from the content provider 110.
  • Media data and metadata may be transmitted independently. According to some embodiments, media data and metadata may be transmitted from separate servers from each other.
  • the media data may include data for a plurality of 3D images constituting 3D content.
  • the server 120 may generate a 2D image by projecting each of the plurality of 3D images (for example, an equirectangular projection (ERP)).
  • the server may transmit the data for the generated 2D image to the electronic device 130 as media data for the 3D content according to a protocol for transmitting data for the existing 2D image such as MPEG.
  • the media data may be generated by the content provider 110, and the server 120 may deliver the media data generated by the content provider to the electronic device 130.
  • the metadata may include information necessary for processing media data for 3D content and for playing back 3D content.
  • metadata may include information for grouping a plurality of viewpoints included in 3D content, information for aligning a plurality of viewpoints, or information for supporting switching between the plurality of viewpoints. It may include.
  • the content provider 110 may generate and provide metadata to the server 120, which may deliver the metadata to the electronic device 130.
  • the electronic device 130 may play the 3D content based on the received media data and metadata. According to some embodiments, the electronic device 130 may provide a signal for playing the 3D content to another device capable of playing the 3D content without directly playing the 3D content.
  • Electronic device 130 may be a VR device or any device having a display capable of playing 3D content.
  • electronic device 130 may be a VR device or a device capable of providing a wired or wireless signal for playing 3D content to any device having a display capable of playing 3D content.
  • the electronic device 130 may be a smartphone, television, personal computer, laptop, set-top box, or the like.
  • the electronic device 130 may reconstruct the 3D image from the data for the 2D image included in the media data to reproduce the 3D content or generate a signal for reproducing the 3D content.
  • FIG. 2 is a flowchart illustrating an operation of a server according to an exemplary embodiment of the present disclosure.
  • the server mentioned in connection with FIG. 2 may be substantially the same as the server 120 of FIG. 1.
  • the server may identify metadata for 3D content that includes a plurality of viewpoints (210).
  • the identified metadata may be received from content provider 110 or generated by a server.
  • the server may send the identified metadata (210).
  • the server may send metadata to a device (eg, the electronic device 130) that can process data for 3D content.
  • the metadata may include information on at least one viewpoints grouped among a plurality of viewpoints included in 3D content.
  • the information about the at least one viewpoints grouped may be provided in the form of a viewpoint alignment box.
  • the viewpoint alignment box may be included in the projected omnidirectional video box (ProjectedOmniVideoBox).
  • the viewpoint alignment box contains information about the alignment of various viewpoints associated with content collectively organized as multiple viewpoints (ie 360 videos) contained in multiple tracks in a file (ie media data). To provide.
  • the viewpoints are grouped into at least one viewpoint alignment group, and each group may include adjacent viewpoints within the same content scene (eg, within the same physical space (room, playground, concert hall)).
  • Grouping viewpoints may allow for more flexible viewpoint change mechanisms when switching between viewpoints, independent of existing initial viewing orientation mechanisms.
  • the viewpoint may be represented by content contained within a single track (for single track delivery) or otherwise includes tile based tracks (for multi-track delivery) and all tile tracks associated with the tile based track. It can be represented by the content represented by.
  • the syntax in the viewpoint arrangement box identifies various viewpoints in files (e.g., tracks with the same track group identifier (ID) having a track group type representing content from the same viewpoint). Assume that this exists.
  • the syntax of an example viewpoint alignment box is as follows.
  • num_alignment_groups specifies the number of viewpoint alignment groups in which coordinate axes can be aligned for all viewpoints in the same group.
  • default_viewpoint_id Specifies the ID of the default viewpoint at which all viewpoint alignment offsets in the viewpoint alignment group are normalized.
  • num_aligned_viewpoints Specifies the number of viewpoints given viewpoint aligned offsets within this viewpoint aligned group.
  • viewpoint_id Specifies the ID of the viewpoint to which viewpoint alignment offset rotations are given.
  • rotation_yaw, rotation_pitch, and rotation_roll a unit phrase for converting the global coordinate axes of the viewpoint to align with the global coordinate axes of the default viewpoint, in units of 2-16 degrees, relative to the global coordinate axes of the default viewpoint.
  • rotation_yaw is more than -180 ⁇ 2 16 180 ⁇ 2 16 - 1 It may be in the following range.
  • the rotation_pitch may be in the range of ⁇ 90 ⁇ 2 16 or more and 90 ⁇ 2 16 or less.
  • rotation_roll is more than -180 ⁇ 2 16 180 ⁇ 2 16 - 1 It may be in the following range.
  • Global coordinates may be different for each viewpoint depending on camera configurations and settings during the capture of the content and are not pre-aligned to any absolute real world reference, such as GPS global coordinates. Is assumed. However, global coordinates are discernible in terms of absolute real world criteria.
  • 3 illustrates an example method for grouping a plurality of viewpoints.
  • the 3D content may include a plurality of viewpoints of V1, V2 ... V8. Adjacent viewpoints of the plurality of viewpoints may be grouped into one group. For example, V1, V2, V3, and V4 adjacent to each other may be grouped into a first group G1, and V5, V6, V7 adjacent to each other may be grouped into a second group G2. According to some embodiments, at least some of the plurality of viewpoints included in the 3D content may not be grouped. For example, V8 may be excluded from grouping and belong to no group.
  • FIG. 4 illustrates an example method for aligning a plurality of viewpoints.
  • V1 and V2 illustrated in FIG. 4 are only reference numerals described for convenience of description, and are not necessarily the same as V1 and V2 described above in other drawings. The same is true for the following drawings.
  • Aligning the viewpoints may mean aligning the coordinate axes of the viewpoints.
  • Aligning the coordinate axes of the viewpoints may mean adjusting each of the coordinate axes of the viewpoint to be parallel to the corresponding coordinate axis of the other viewpoint. Alignment of viewpoints can be done within a single group.
  • V1 and V2 are viewpoints included in the same viewpoint group.
  • V1 is the default viewpoint within the viewpoint group.
  • the coordinate axes of the other viewpoints except V1 in the viewpoint group may be aligned based on the coordinate axes of V1 which is the default viewpoint.
  • the x axis of V2 may be aligned at x2 to be parallel to x1, which is the x axis of V1 from x2.
  • the offset which is a value representing the rotation for converting x2 to x1, may be included in the metadata and transferred from the server 120 to the electronic device 130.
  • the server 120 may send metadata to the electronic device 130 that includes information about the grouped viewpoints, such as the viewpoint alignment box, and the electronic device 130 may based on the received metadata.
  • the grouped viewpoints may be identified, and the coordinate axes of the viewpoints in the viewpoint group may be aligned based on the coordinate axes of the default viewpoint.
  • the metadata may further include information regarding the switching of the viewpoint.
  • the information about the switching of the viewpoint may be provided in the form of a viewpoint switching mode box (ViewpointSwitchingModeBox).
  • the viewpoint switching mode box may be included in the projected omnidirectional video box (ProjectedOmniVideoBox).
  • the viewpoint switching mode box is used for switching modes of various viewpoints associated with content collectively organized as multiple viewpoints (ie 360 videos) included in multiple tracks in a file (ie media data).
  • the viewpoint may be represented by content contained within a single track (for single track delivery) or otherwise includes tile based tracks (for multi-track delivery) and all tile tracks associated with the tile based track. It can be represented by the content represented by.
  • the syntax in the viewpoint switching mode box exists for identifying various viewpoints in files (eg, tracks with the same track group identifier (ID) having a track group type representing content from the same viewpoint). Assume that The syntax of an example viewpoint switching mode box is as follows.
  • num_viewpoints specifies the number of viewpoints for which the switching mode is specified.
  • viewpoint_id Specifies the ID of the viewpoint for which the switching mode is specified.
  • los_flag A los_flag equal to 0 indicates a non-line of switching mode for the viewpoint. Los_flag equal to 1 indicates the LoS mode for the viewpoint.
  • los_mode los_mode 0 indicates a reverse viewport switching mode for the viewpoint when switched to the viewpoint.
  • Los_mode 1 indicates the forward viewport switching mode for that viewpoint when switching to the viewpoint.
  • information regarding switching of a viewpoint such as a viewpoint switching mode box, may be used to indicate information about switching between viewpoints within a single viewpoint group. Since the coordinate axes of viewpoints within a single viewpoint group can be aligned, viewpoint switching of LoS mode in a single viewpoint group can be easily performed.
  • the LoS mode may refer to a viewpoint switching mode in which, when switching between viewpoints is made, the direction of the viewport in the viewpoint before switching and the viewport in the viewpoint after switching are set to be the same.
  • the LoS mode may be set for the viewpoint to be switched if the direction of the viewport at the viewpoint before switching is parallel with the straight line connecting the viewpoints to be switched.
  • the LoS mode may include a forward viewport switching mode and a reverse viewport switching mode.
  • FIG. 5 illustrates a forward viewport switching mode of an exemplary LoS mode.
  • switching of viewpoints from V1 to V2 may be made.
  • the direction of the viewport VP1 at V1 and the direction of the viewport VP2 at V2 may be the same. That is, the difference between the direction of VP1 and the direction of VP2 may be 0 °.
  • FIG. 6 illustrates a reverse viewport switching mode of an exemplary LoS mode.
  • switching of viewpoints may be made from V1 to V2.
  • the direction of the viewport VP1 at V1 and the viewport VP2 at V2 may be reversed. That is, the difference between the direction of VP1 and the direction of VP2 may be 180 degrees.
  • the coordinate of the viewport VP1 of V1 may be expressed as ( ⁇ 1 , ⁇ 1 ).
  • ⁇ 1 represents the azimuth of VP1 and ⁇ 1 represents the elevation of VP1.
  • the viewport VP2 of V2 according to the forward viewport switching mode may be represented as ( ⁇ 1 , ⁇ 1 ), and the viewport of V2 according to the reverse viewport switching mode ( VP2 ') is ( ⁇ 1 -180,- ⁇ 1 ).
  • the electronic device 130 may identify whether the viewpoint switching mode for each of the viewpoints is the LoS mode through the viewpoint switching mode box in the received metadata, and in the LoS mode, forward viewport to the viewpoint. It may be determined whether the switching mode is applied or the reverse viewport switching mode is applied. Thus, the electronic device 130 may perform LoS switching to a particular viewpoint in accordance with the received metadata.
  • the non-LoS mode among the switching modes for the viewpoint may include a viewpoint switching mode according to a central estimation scheme.
  • the central estimation method means setting the viewport after viewpoint switching to face a target point in the direction of the viewport before viewpoint switching.
  • the target point may be set such that the distance from the viewpoint before switching to the target point is the same as the distance from the viewpoint after switching to the target point.
  • 8-10 illustrate viewpoint switching of an exemplary central estimation scheme.
  • the target point O may be located on the viewport VP1 at V1.
  • the distance d1 from V1 to the target point O and the distance from the V2 to the target point O may be the same.
  • VP2 may be set towards the target point O when viewport switching from V1 to V2 is performed. In this case, the height of the height of the viewport (VP1) at V1 ( ⁇ 1) and V2 viewport (VP2) of the (2 ⁇ ) may be the same.
  • the azimuth angle of the viewport VP1 at V1 and the azimuth angle of the viewport VP2 at V2 may be changed.
  • the azimuth of viewport VP2 at V2 can be calculated from the coordinate of V1, the coordinate of V2, and the azimuth of viewport VP1 at V1.
  • the target point O and the viewport VP2 at the switched V2 may be set.
  • the value of the altitude ⁇ 1 of the viewport VP1 at V1 may be greater than the value of the altitude ⁇ 2 of the viewport VP2 at V2.
  • the azimuth of viewport VP2 at V2 can be calculated from the coordinate of V1, the coordinate of V2, and the azimuth of viewport VP1 at V1.
  • FIG. 10 illustrates a central estimation method when the value Z v1 of the coordinate of the Z axis of V1 is larger than the value Z v2 of the coordinate of the Z axis of V2.
  • the target point O and the viewport VP2 at the switched V2 may be set.
  • the value of the altitude ⁇ 1 of the viewport VP1 at V1 may be less than the value of the altitude ⁇ 2 of the viewport VP2 at V2.
  • the azimuth of viewport VP2 at V2 can be calculated from the coordinate of V1, the coordinate of V2, and the azimuth of viewport VP1 at V1.
  • the non-LoS mode among the switching modes for the viewpoint may include a viewpoint switching mode according to a depth tracking scheme (content depth enhanced non-LoS viewpoint switching).
  • a viewpoint switching mode according to a depth tracking scheme content depth enhanced non-LoS viewpoint switching
  • a point having a specific distance from the viewpoint before switching on the viewport before switching may be set as the target point, and the switched viewport may be set toward the target point.
  • FIGS. 11 to 13. 11-13 illustrate viewpoint switching in an exemplary depth tracking scheme.
  • FIG. 11 illustrates a depth tracking method when the value Z v1 of the coordinate of the Z axis of V1 and the value Z v2 of the coordinate of the Z axis of V2 are the same.
  • 12 illustrates a depth tracking method when the value Z v1 of the coordinate of the Z axis of V1 is smaller than the value Z v2 of the coordinate of the Z axis of V2.
  • FIG. 13 illustrates a depth tracking method when the value Z v1 of the coordinate of the Z axis of V1 is larger than the value Z v2 of the coordinate of the Z axis of V2.
  • the target point O may be determined according to the distance d1 from the predetermined V1 on the viewport VP2 at V1.
  • the distance d1 from V1 to the target point O may correspond to the depth of the 3D image corresponding to V1.
  • the viewport VP2 in V2 may be set toward the target point.
  • the altitude ⁇ 2 to the viewport VP2 at V2 and the distance d2 from V2 to the target point O are the distance d1 from V1 to the target point O, the distance between V1 and V2 ( d v1v2 ) and altitude ⁇ 1 with respect to viewport VP1 at V1 can be calculated by triangulation.
  • the azimuth angle of the viewport VP1 at V1 and the azimuth angle of the viewport VP2 at V2 may be changed.
  • the azimuth of viewport VP2 at V2 can be calculated from the coordinate of V1, the coordinate of V2, and the azimuth of viewport VP1 at V1.
  • the metadata may include additional information indicating the content depth.
  • additional information indicating the content depth.
  • Exemplary syntax and semantics for this are as follows.
  • viewpoint_depth Used by a common reference coordinate system, specifies the depth of content of interest surrounding the viewpoint in the same units. viewpoint_depth may be used for content depth enhanced non-LoS viewpoint switching between two viewpoints.
  • the metadata may include a box that includes both information about viewpoints grouped in the metadata and information for aligning the viewpoints.
  • the viewpoint alignment box may include both information about grouped viewpoints and information for aligning viewpoints.
  • An example syntax of the viewpoint alignment box is as follows.
  • alignment_group_id Specifies the ID of the alignment group containing viewpoints whose alignment offsets are normalized.
  • the alignment group content coverage information specifies sphere regions from multiple viewpoints within the group covered by the same portion of the content scene.
  • alignment_group_initial_orientation_flag 0 specifies that there is no alignment group initial orientation information.
  • Alignment_group_initial_orientation_flag 1 specifies that alignment group initial orientation information exists.
  • the alignment group initial orientation information is represented by the center x, y, z position with respect to the alignment group coordinates.
  • viewpoint_switch_mode Specifies the mode of viewport orientation change during the viewpoint switch to the viewpoint.
  • a viewpoint_switch_mode of 0 has a default value and indicates a forward LoS.
  • the OMAF player e.g., electronic device 130
  • the OMAF player is expected to maintain the same viewing orientation as at the viewpoint just before switching occurs.
  • a viewpoint_switch_mode of 1 indicates a reverse LoS.
  • the OMAF regenerator is expected to change the viewpoint orientation to be reverse to the viewport orientation at the viewpoint just before switching occurs.
  • the viewpoint_switch_mode of the value of 2 represents the center non-LoS.
  • the OMAF player is a viewport at the viewpoint just before switching occurs, and is expected to change the viewport orientation to correspond to the center estimated viewport orientation that contains the same content (even if changed to a new viewpoint).
  • the OMAF player is expected to change the viewport orientation to correspond to the global coordinate axes as specified by the group initial orientation of the viewpoint.
  • the metadata may further include a viewpoint list box for a list of viewpoint IDs and a hint about where to find the corresponding information metadata of the viewpoint.
  • the viewpoint list box may be defined in a meta box included in a movie box 'moov'.
  • An example syntax of a viewpoint list box is as follows.
  • the viewpoint may be represented by only one track or may be represented by a collective group of tracks, each of which comprises a portion of a 360 video viewpoint.
  • Each viewpoint is given a viewpoint ID.
  • the viewpoint ID may be independent of track IDs and independent. However, there must be a form of association for referencing and linking tracks carrying the ID and content of the viewpoint.
  • the simplest method may be to match the values of the track IDs to the viewpoint IDs for single track delivered viewpoints.
  • Track group ID may be used for multiple track delivery viewpoints. Depending on whether the viewpoint is delivered via a single track or multiple tracks, the viewpoint ID of the viewpoint may correspond to either 1) track ID or 2) track group ID.
  • num_viewpoints Specifies the number of viewpoints present in the file.
  • viewpoint_id This is the ID of the manger for the viewpoint. Depending on the value of viewpoint_delivery_type_flag, viewpoint_id is equal to either track_id or track_group_id.
  • initial_viewpoint_flag 1 indicates a viewpoint as an initial / default viewpoint to be played back when playing a file including multiple viewpoints. This flag must be equal to 1 for only one viewpoint.
  • viewpoint_delivery_type_flag 0 specifies that the viewpoint is conveyed through a single track, and that the value for viewpoint_id is equal to track_id.
  • a viewpoint_delivery_type_flag 1 indicates that the viewpoint is carried by multiple tracks and that the value for viewpoint_id is the same as the track_group_id of the collective group of tracks (track_group_tyupe equals 'vipo') belonging to the same viewpoint.
  • a new box "vpin” (OMAF viewpoint information box) can be defined within a track box ('meta' box contained within a 'trak' for the transmission of single track viewpoint information metadata. If it is specified to have a viewpoint_delivery_type_flag equal to 0 in the point list box ('vpli), the OMAF viewpoint information box must be present in the meta box contained in the track box for the track corresponding to the viewpoint.
  • An example syntax of is as follows.
  • viewpoint_id This is a unique ID for the viewpoint. If present in this box 'vpin', the viewpoint_id is always the same as the track_id of the track containing it.
  • viewpoint_switch_mode Specifies the mode of viewport orientation change during viewpoint switching from the previous viewpoint to the viewpoint in the absence of the initial viewing orientation metadata.
  • the contents of viewpoint_switch_mode are as follows.
  • a viewpoint_switch_mode of 0 has a default value and indicates a forward LoS.
  • the OMAF player e.g., electronic device 130
  • the OMAF player is expected to maintain the same viewing orientation as at the viewpoint just before switching occurs.
  • a viewpoint_switch_mode of 1 indicates a reverse LoS.
  • the OMAF regenerator is expected to change the viewpoint orientation to be reverse to the viewport orientation at the viewpoint just before switching occurs.
  • the viewpoint_switch_mode of the value of 2 represents the center non-LoS.
  • the OMAF player is a viewport at the viewpoint just before switching occurs, and is expected to change the viewport orientation to correspond to the center estimated viewport orientation that contains the same content (even if changed to a new viewpoint).
  • a viewpoint_switch_mode of value 3 indicates alignment group initial orientation switching.
  • the OMAF player is expected to change the viewport orientation to correspond to the point as specified by the alignment group initial orientation of the viewpoint.
  • the change in orientation in the viewport before and after the viewpoint change depends on the location and content of the viewpoints relative to each other.
  • viewpoint switching modes including multiple switching modes such as forward LoS, reverse LoS, center (estimated) non-LoS, content depth enhanced non-LoS.
  • Metadata for content that includes a plurality of viewpoints may additionally include the following fields.
  • viewpoint_description is a null-terminated UTF-8 string that provides a textual description of the viewpoint.
  • viewpoint_pos_x, viewpoint_pos_y, and viewpoint_pos_z specifies the position of the viewpoint (x coordinate value, y coordinate value, z coordinate value) as units of millimeters in 3D space with (0, 0, 0) as the center of the reference coordinate system. .
  • viewpoint_gcs_yaw, viewpoint_gcs_pitch, and viewpoint_gcs_roll specifies yaw, pitch, and roll angles of the rotation angles of the X, Y, and Z axes of the global coordinate system of the viewpoint with respect to the reference coordinate system, respectively, in units of 2-16 degrees.
  • viewpoint_gcs_yaw must be in the range of -180 ⁇ 2 16 or more and 180 ⁇ 2 16 -1 or less.
  • viewpoint_gcs_pitch -90 ⁇ 2 16 or greater It must be in the range of 180 ⁇ 2 16 .
  • viewpoint_gcs_roll must be in the range of -180 ⁇ 2 16 or more and 180 ⁇ 2 16 -1 or less.
  • the track group type "vipo" may be defined. Tracks that contain the same value of track_group_id in TrackGroupTypeBox with the same track_group_type as "vipo" indicate that they are a collective group of tracks belonging to the same viewpoint. If any viewpoint is specified to have a viewpoint_delivery_type_flag equal to 1 in the viewpoint list box ("vpli"), a TrackGroupTypeBox with the same value of track_group_type and track_group_id as "vipo" present in all tracks belonging to the same viewpoint Must exist. Bit 0 of the flags of TrackGroupTypeBox (bit 0 is the least significant bit) is used to indicate the uniqueness of track_group_id. Exemplary syntax in this regard is as follows.
  • viewpoint_id This is a unique ID for the viewpoint.
  • the viewpoint_id corresponds to the same value as the track_group_id included together in the same TrackGroupTypeBox.
  • viewpoint_switch_mode In the absence of initial viewing orientation metadata, if all of the viewpoints belong to the same alignment group, specify the mode of viewport orientation change during viewpoint switching from the previous viewpoint to that viewpoint.
  • the specific meaning of the values of viewpoint_switch_mode is as described in the OMAF viewpoint information box.
  • viewpoint_description is a null-terminated UTF-8 string that provides a textual description of the viewpoint.
  • viewpoint_pos_x, viewpoint_pos_y, and viewpoint_pos_z specifies the position of the viewpoint (x coordinate value, y coordinate value, z coordinate value) as units of millimeters in 3D space with (0, 0, 0) as the center of the reference coordinate system. .
  • viewpoint_gcs_yaw, viewpoint_gcs_pitch, and viewpoint_gcs_roll specifies yaw, pitch, and roll angles of the rotation angles of the X, Y, and Z axes of the global coordinate system of the viewpoint with respect to the reference coordinate system, respectively, in units of 2-16 degrees.
  • viewpoint_gcs_yaw must be in the range of -180 ⁇ 2 16 or more and 180 ⁇ 2 16 -1 or less.
  • viewpoint_gcs_pitch -90 ⁇ 2 16 or greater It must be in the range of 180 ⁇ 2 16 .
  • viewpoint_gcs_roll must be in the range of -180 ⁇ 2 16 or more and 180 ⁇ 2 16 -1 or less.
  • a new track group type "algr” may be defined. Tracks that contain the same value of track_group_id in TrackGroupTypeBox having the same track_group_type as "algr” indicate that they are a collective group of tracks belonging to the same sort group. Bit 0 of the flags of TrackGroupTypeBox (bit 0 is the least significant bit) is used to indicate the uniqueness of track_group_id. Exemplary syntax in this regard is as follows.
  • the content may have multiple viewpoints, some of which may be captured in different scenes and locations. If all viewpoints are aligned to the same reference coordinate system, certain viewpoint locations may be unreasonable for representation in viewpoint location metadata.
  • Viewpoint location metadata is primarily used to have coordinated viewport changes when switching between two viewpoints. In some situations, it may be desirable to group viewpoints so that an alignment of viewpoints exists only for other viewpoints within the same group, and group the viewpoints so that viewpoints that do not belong to the same alignment group are not necessarily aligned. Can be.
  • group_common_reference_flag is used to indicate whether viewpoints in the corresponding sorting group are sorted globally or locally with respect to the sorting group.
  • the center x, y, z point where the client device is defined in space with respect to the reference coordinate system It is also possible for the initial orientation to be set as a whole for the alignment group, so that the viewpoints corresponding to can be displayed.
  • the sorting grouping mechanism listed above can use the track grouping design without having to explicitly specify any viewpoint ID.
  • the track grouping mechanism it is possible to simply list a set of viewpoints using the viewpoint ID to define the sorting group, without the track having to first identify what its viewpoint_id is, Through its track_group_id (since track_group_id is unique) it is possible to know directly whether it belongs to the same sort group or not.
  • the viewpoint_id of the track may be individually known through one of the track group type box having the same group type as 'vipo', the OMAF viewpoint information box, or the OMAR viewpoint list box.
  • alignment_group_id This indicates a unique ID for this alignment group.
  • alignment_group_id typically corresponds to the same value as track_group_id included together in the same TrackGroupTypeBox.
  • group_common_reference_flag group_common_reference_flag 0 specifies that viewpoints belonging to the alignment group are aligned to the global common reference coordinate system.
  • Group_common_reference_flag 1 specifies that there is alignment group initial orientation information represented by the point location specified by centre_x, centre_y, center_z for the common reference coordinate system used by that alignment group.
  • the metadata may comprise all or one or more selected ones of the example boxes described above. Each of the boxes described above may be configured to include all or selected at least one field of the fields described with respect to the box.
  • the electronic device 130 may receive metadata for 3D content that includes a plurality of viewpoints (1410).
  • the metadata received by the electronic device 130 may be metadata transmitted by the server 120 described above.
  • the electronic device 130 may process media data for 3D content based on the received metadata (1420).
  • Media data for 3D content may be transmitted from the server 120 with metadata or separately from the metadata.
  • electronic device 130 may receive media data from a server different from server 120 that transmits metadata.
  • electronic device 130 may receive media data from a server of content provider 110.
  • electronic device 130 may obtain media data from a storage device, such as a CD-ROM, DVD-ROM, hard disk, floppy disk, or USB storage device.
  • the electronic device 130 may process the media data for the 3D content based on the received metadata to play the 3D content through the display included in the electronic device 130.
  • electronic device 130 may transmit signals (video signals and audio signals) for playing 3D content to a display external to the electronic device 130 to another electronic device including an external display. have.
  • the server 1500 is a block diagram of a server according to an embodiment of the present disclosure.
  • the server 1500 may be the same as the server 120 of FIG. 1.
  • the server 1500 may include a controller 1510, a transceiver 1520, and a memory 1530.
  • the controller 1510 may perform operations and functions necessary for the operation of the server 1500.
  • the controller 1510 is connected to elements constituting the server 1500 including the transceiver 1520 and the memory 1530, and controls the operation of the elements. Thus, the operation of the server 1500 may be interpreted to be substantially performed through the controller 1510.
  • the controller 1510 may be configured through at least one processor.
  • the server 1500 may communicate with other entities via the transceiver 1520.
  • the transceiver 1520 may include wired or wireless communication interfaces.
  • the transceiver 1520 may perform communication using known wired or wireless communication protocols such as Wi-Fi, LTE, CDMA, Wi-Max, Wi-Bro, USB.
  • the memory 1530 may store temporary or non-transitory data required for the operation of the controller 1510.
  • the memory 1530 may store instructions that may be executed by the controller 1510.
  • the memory 1530 may be configured to include at least one of temporary memory, non-transitory memory, re-writable memory, and non-rewritable memory.
  • Electronic device 1600 is a block diagram of an electronic device according to an embodiment of the present disclosure.
  • Electronic device 1600 may be substantially the same as electronic device 130 of FIG. 1.
  • the electronic device 1600 can include a controller 1610, a transceiver 1620, a memory 1630, and a display 1640.
  • controller 1610 the transceiver 1620, and the memory 1630 are substantially the same as the descriptions of the controller 1510, the transceiver 1520, and the memory 1530 of the server 1500, and thus will be omitted. .
  • the display 1640 may play 3D content based on the control of the controller 1610. According to some embodiments, the electronic device 1600 may play 3D content through a display of another electronic device rather than the display 1640. According to some embodiments, the electronic device 1600 may not include the display 1640.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Abstract

복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 메타데이터를 전송하기 위한 방법이 제공된다. 상기 방법은, 상기 복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 식별하는 단계, 및 상기 식별된 메타데이터를 전송하는 단계를 포함하고, 상기 메타데이터는 상기 복수의 뷰포인트들 중 적어도 하나의 뷰포인트를 포함하는 뷰포인트 그룹의 식별자(ID)에 대한 정보를 포함하고, 상기 뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트는 공통의 기준 좌표 시스템을 공유한다.

Description

복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치
본 개시는 3차원(3D) 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치에 대한 것으로서, 특히, 복수의 뷰포인트(viewpoint)들을 포함하는 3차원 컨텐트에 대한 메타데이터를 전송하는 방법 및 장치에 관한 것이다.
인터넷은 인간이 정보를 생성하고 소비하는 인간 중심의 연결 망에서, 사물 등 분산된 구성 요소들 간에 정보를 주고 받아 처리하는 사물인터넷 (Internet of Things, IoT) 망으로 진화하고 있다. IoE (Internet of Everything) 기술은 클라우드 서버 등과의 연결을 통한 빅데이터 (Big data) 처리 기술 등이 IoT 기술에 결합된 하나의 예가 될 수 있다.
IoT를 구현하기 위해서, 센싱 기술, 유무선 통신 및 네트워크 인프라, 서비스 인터페이스 기술, 및 보안 기술 등과 같은 기술 요소 들이 요구되어, 최근에는 사물간의 연결을 위한 센서 네트워크 (sensor network), 사물 통신 (Machine to Machine, M2M), MTC (Machine Type Communication) 등의 기술이 연구되고 있다.
IoT 환경에서는 연결된 사물들에서 생성된 데이터를 수집, 분석하여 인간의 삶에 새로운 가치를 창출하는 지능형 IT (Internet Technology) 서비스가 제공될 수 있다. IoT는 기존의 IT 기술과 다양한 산업 간의 융합 및 복합을 통하여 스마트홈, 스마트 빌딩, 스마트 시티, 스마트 카 혹은 커넥티드 카, 스마트 그리드, 헬스 케어, 스마트 가전, 첨단의료서비스 등의 분야에 응용될 수 있다.한편, IoT을 구현을 위한 콘텐트들 역시 진화하고 있다. 즉, 흑백 컨텐트에서 컬러 컨텐트, 고선명(High Definition : HD), 초고선명(Ultra High Definition Television : UHD), 최근의 HDR(high dynamic range) 컨텐트의 표준화 및 배포로 계속 진화해 감에 따라, 오큘러스(Oculus), 삼성 기어 VR(virtual reality) 등과 같은 VR 장치들에서 재생될 수 있는 가상 현실(VR) 콘텐트에 대한 연구가 진행 중이다. VR 시스템은 사용자를 모니터링하여, 사용자가 어떤 종류의 제어기를 사용하여 콘텐트 디스플레이 장치나 프로세싱 유닛으로 피드백 입력을 제공할 수 있게 하면 그 장치나 유닛이 해당 입력을 처리하여 콘텐트를 그에 맞춰 조정함으로써 인터랙션을 가능하게 하는 시스템이다.
VR 디바이스에서 재생되는 3D 이미지는 구형 또는 원통형과 같은 입체적인 이미지일 수 있다. 3D 이미지는 전방향(omnidirectional) 이미지로서 지칭될 수 있다. VR 디바이스는 사용자의 시선 방향 등을 고려하여 3D 이미지의 특정한 영역을 디스플레이할 수 있다.
3D 컨텐트는 사용자에게 다양한 위치들에서의 경험을 제공하기 위해 복수의 뷰포인트들을 포함할 수 있다. 복수의 뷰포인트들은 각각 해당 뷰포인트를 중심으로 하는 3D 이미지에 대응할 수 있다. VR 디바이스는 복수의 뷰포인트들 중 선택된 뷰포인트에서 바라보는 3D 이미지를 디스플레이할 수 있다.
복수의 뷰포인트들 간에 스위칭이 수행되는 경우, 스위칭된 뷰포트를 어떻게 설정할 것인지가 문제될 수 있으며, 뷰포트를 스위칭하기 위한 연산을 수행하는 것은 VR 디바이스의 프로세서에 대한 로드일 수 있다.
본 개시는 복수의 뷰포인트들 간의 용이한 스위칭을 지원하기 위한 3D 컨텐트에 대한 메타데이터의 포맷을 제공하기 위한 것이다.
본 개시의 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 해결하기 위한 본 개시의 일 실시예에 따른 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 메타데이터를 전송하기 위한 방법은, 상기 복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 식별하는 단계, 및 상기 식별된 메타데이터를 전송하는 단계를 포함하고, 상기 메타데이터는 상기 복수의 뷰포인트들 중 적어도 하나의 뷰포인트를 포함하는 뷰포인트 그룹의 식별자(ID)에 대한 정보를 포함하고, 상기 뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트는 공통의 기준 좌표 시스템을 공유한다.
본 개시의 다른 실시예에 따른 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 정보를 처리하기 위한 방법은, 상기 복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 수신하는 단계, 및 상기 식별된 메타데이터에 기초하여 상기 전방향 컨텐트에 대한 미디어 데이터를 처리하는 단계를 포함하고, 상기 메타데이터는 상기 복수의 뷰포인트들 중 적어도 하나의 뷰포인트를 포함하는 뷰포인트 그룹의 식별자(ID)에 대한 정보를 포함하고, 상기 뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트는 공통의 기준 좌표 시스템을 공유한다.
본 개시의 실시예들에 의하면 적어도 다음과 같은 효과가 있다.
즉, 본 개시에 의하면, 제공된 메타데이터를 통해 3D 컨텐트에 포함된 복수의 뷰포인트들을 그룹화하여 관리할 수 있다.
또, 본 개시에 의하면, 제공된 메타데이터를 통해 3D 컨텐트에 포함된 복수의 뷰포인트들의 스위칭을 지원할 수 있다.
즉, 본 개시는 임계치들 및 숙련자의 지식에 의존하지 않는 RRH의 결함을 검출하고 예측할 수 있는 방법을 제공할 수 있다.
본 개시에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 개시의 일 실시예에 따른 시스템의 블록도이다.
도 2 는 본 개시의 일 실시예에 따른 서버의 동작을 나타낸 흐름도이다.
도 3은 복수의 뷰포인트들을 그룹화하기 위한 예시적인 방법을 나타낸다.
도 4는 복수의 뷰포인트들을 정렬하기 위한 예시적인 방법을 나타낸다.
도 5는 예시적인 LoS 모드(line of switching)의 정방향(forward) 뷰포트 스위칭 모드를 나타낸다.
도 6은 예시적인 LoS 모드의 역방향(reverse) 뷰포트 스위칭 모드를 나타낸다.
도 7은 좌표계 상에서의 LoS를 나타낸다.
도 8 내지 도 10은 예시적인 중앙 추정 방식의 뷰포인트 스위칭을 나타낸다.
도 11 내지 도 13은 예시적인 깊이 추적(depth tracking) 방식의 뷰포인트 스위칭을 나타낸다.
도 14는 본 개시의 일 실시예에 따른 전자 디바이스의 동작을 나타낸 흐름도이다.
도 15는 본 개시의 일 실시예에 따른 서버의 블록도이다.
도 16은 본 개시의 일 실시예에 따른 전자 디바이스의 블록도이다.
본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 개시의 개시가 완전하도록 하며, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다.
비록 제 1, 제 2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제 1 구성요소는 본 개시의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.
도 1은 본 개시의 일 실시예에 따른 시스템의 블록도이다. 본 개시의 일 실시예에 따른 시스템은, 컨텐트 제공자(110), 서버(120) 및 전자 디바이스(130)를 포함할 수 있다.
컨텐트 제공자(110)는 3D 컨텐트를 생성할 수 있다. 3D 컨텐트는 복수의 뷰포인트들을 포함할 수 있다. 컨텐트 제공자(110)는 복수의 카메라들(140)에 의해 캡처된 복수의 3D 이미지들을 이용하여 3D 컨텐트를 생성할 수 있다. 복수의 카메라들(140)의 위치들은 복수의 뷰포인트들에 각각 대응할 수 있다. 몇몇 실시예들에서, 복수의 뷰포인트들의 위치는 임의로 설정될 수도 있다. 몇몇 실시예들에서 3D 컨텐트를 구성하는 복수의 3D 이미지들은 복수의 카메라들(140)에 의해 캡처된 이미지에 기초하지 않고, 가상으로 생성될 수 있다. 컨텐트 제공자(110)는 서버(120)로 3D 컨텐트에 관한 데이터를 전송할 수 있다. 몇몇 실시예들에서, 컨텐트 제공자(110)는 서버(120)와 독립적인 서버로 구성될 수 있다. 몇몇 실시예들에서, 컨텐트 제공자(110)는 서버(120)와 통합되어 구성될 수 있다.
서버(120)는 컨텐트 제공자(110)로부터 수신된 3D 컨텐트에 관한 데이터에 기초하여, 전자 디바이스(130)로 3D 컨텐트에 대한 미디어 데이터 및 3D 컨텐트에 대한 메타데이터를 전송할 수 있다. 미디어 데이터 및 메타 데이터는 독립적으로 전송될 수 있다. 몇몇 실시예들에 따르면, 미디어 데이터 및 메타데이터는 서로 개별적인 서버들로부터 전송될 수도 있다.
미디어 데이터는 3D 컨텐트를 구성하는 복수의 3D 이미지들에 대한 데이터를 포함할 수 있다. 서버(120)는 복수의 3D 이미지 각각을 프로젝션(예를 들어, ERP: equirectangular projection)하여 2D 이미지를 생성할 수 있다. 서버는 생성된 2D 이미지에 대한 데이터를, MPEG과 같은 기존의 2D 이미지에 대한 데이터를 전송하기 위한 프로토콜에 따라, 3D 컨텐트에 대한 미디어 데이터로서 전자 디바이스(130)로 전송할 수 있다. 몇몇 실시예들에 따르면, 미디어 데이터는 컨텐트 제공자(110)에 의해 생성될 수 있고, 서버(120)는 컨텐트 제공자에 의해 생성된 미디어 데이터를 전자 디바이스(130)로 전달할 수 있다.
메타데이터는 3D 컨텐트에 대한 미디어 데이터를 프로세싱하고, 3D 컨텐트를 재생하기 위해 필요한 정보를 포함할 수 있다. 본 개시의 실시예들에 따르면, 메타데이터는 3D 컨텐트에 포함된 복수의 뷰포인트들을 그룹화하기 위한 정보, 복수의 뷰포인트들을 정렬하기 위한 정보 또는 복수의 뷰포인트들 간의 스위칭을 지원하기 위한 정보를 포함할 수 있다. 몇몇 실시예들에 따르면, 컨텐트 제공자(110)는 메타데이터 생성하여 서버(120)로 제공할 수 있으며, 서버(120)는 메타데이터를 전자 디바이스(130)로 전달할 수 있다.
전자 디바이스(130)는 수신된 미디어 데이터 및 메타데이터에 기초하여 3D 컨텐트를 재생할 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(130)는 3D 컨텐트를 직접 재생하지 않고, 3D 컨텐트를 재생할 수 있는 다른 디바이스에게 3D 컨텐트를 재생하기 위한 신호를 제공할 수 있다. 전자 디바이스(130)는 VR 디바이스이거나, 또는 3D 컨텐트를 재생할 수 있는 디스플레이를 구비한 임의의 디바이스일 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(130)는 VR 디바이스 또는 3D 컨텐트를 재생할 수 있는 디스플레이를 구비한 임의의 디바이스에게 3D 컨텐트를 재생하기 위한 신호를 유선 또는 무선으로 제공할 수 있는 디바이스일 수 있다. 예를 들어, 전자 디바이스(130)는 스마트폰, 텔레비전, 개인용 컴퓨터, 랩탑, 또는 셋탑박스 등일 수 있다. 전자 디바이스(130)는 미디어 데이터에 포함된 2D 이미지에 대한 데이터로부터 3D 이미지를 복원하여, 3D 컨텐트를 재생하거나, 또는 3D 컨텐트를 재생하기 위한 신호를 생성할 수 있다.
도 2 는 본 개시의 일 실시예에 따른 서버의 동작을 나타낸 흐름도이다. 도 2와 관련하여 언급되는 서버는 도 1의 서버(120)와 실질적으로 동일할 수 있다.
서버는 복수의 뷰포인트들을 포함하는 3D 컨텐트에 대한 메타데이터를 식별할 수 있다 (210). 식별된 메타데이터는 컨텐트 제공자(110)로부터 수신되거나 또는 서버에 의해 생성될 수 있다.
서버는 식별된 메타데이터를 전송할 수 있다 (210). 서버는 3D 컨텐트에 대한 데이터를 처리할 수 있는 디바이스(예를 들어, 전자 디바이스(130))로 메타데이터를 전송할 수 있다.
본 개시의 실시예들에 따르면, 메타데이터는 3D 컨텐트에 포함된 복수의 뷰포인트들 중 그룹화된 적어도 하나의 뷰포인트들에 대한 정보를 포함할 수 있다. 일 실시예에서 그룹화된 적어도 하나의 뷰포인트들에 대한 정보는, 뷰포인트 정렬 박스(ViewpointAlignmentBox)와 같은 형태로 제공될 수 있다. 뷰포인트 정렬 박스는 프로젝션된 전방향 비디오 박스(ProjectedOmniVideoBox) 내에 포함될 수 있다. 뷰포인트 정렬 박스는, 파일(즉, 미디어 데이터) 내의 다수의 트랙들에 포함된 다수의 뷰포인트들(즉, 360 비디오들)로서 집합적으로 구성되는 컨텐트와 연관된 다양한 뷰포인트들의 정렬에 대한 정보를 제공한다. 뷰포인트들은 적어도 하나의 뷰포인트 정렬 그룹으로 그룹화되며, 각각의 그룹은 동일한 컨텐트 장면 내(예를 들어, 동일한 물리적 공간(방, 운동장, 콘서트 홀) 내)의 인접한 뷰포인트들을 포함할 수 있다. 뷰포인트들을 그룹화하는 것은 기존에 존재하는 초기 뷰잉 배향(orientation) 메커니즘과는 별개로, 뷰포인트들 사이의 스위칭 시 보다 유연한 뷰포인트 변경 메커니즘들을 허용할 수 있다. 뷰포인트는 (단일 트랙 전달의 경우) 단일 트랙 내에 포함되는 컨텐트에 의해 표현될 수 있거나, 아니면, (다중-트랙 전달의 경우) 타일 기반 트랙을 포함하며, 타일 기반 트랙과 연관되는 모든 타일 트랙들에 의해 표현되는 컨텐트에 의해 표현될 수 있다. 뷰포인트 정렬 박스 내의 신택스(syntax)는 파일들(예를 들어, 동일한 뷰포인트로부터의 컨텐트를 나타내는 트랙 그룹 타입을 갖는 동일한 트랙 그룹 식별자(ID)를 갖는 트랙들) 내의 다양한 뷰포인트들을 식별하는 방법이 존재한다고 가정한다. 예시적인 뷰포인트 정렬 박스의 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000001
위 신택스의 각 필드들의 시맨틱스(semantics)는 다음과 같다.
num_alignment_groups: 동일한 그룹 내의 모든 뷰포인트들에 대해 좌표 축들이 정렬될 수 있는 뷰포인트 정렬 그룹들의 수를 특정한다.
default_viewpoint_id: 뷰포인트 정렬 그룹 내의 모든 뷰포인트 정렬 오프셋들이 정규화되는(normalized) 디폴트 뷰포인트의 ID를 특정한다.
num_aligned_viewpoints: 해당 뷰포인트 정렬 그룹 내에서 뷰포인트 정렬 오프셋들이 주어지는 뷰포인트들의 수를 특정한다.
viewpoint_id: 뷰포인트 정렬 오프셋 회전들이 주어지는 뷰포인트의 ID를 특정한다.
rotation_yaw, rotation_pitch, 및 rotation_roll: 디폴트 뷰포인트의 글로벌 좌표 축들에 대해, 2-16 도의 단위들로, 디폴트 뷰포인트의 글로벌 좌표 축들에 정렬하기 위해 뷰포인트의 글로벌 좌표 축들을 변환하기 위해 단위 구(unit sphere)에 적용되는 요우(yaw), 피치(pitch) 및 롤(roll) 각도들을 특정한다. rotation_yaw는 -180×216 이상 180×216 - 1 이하의 범위에 있을 수 있다. rotation_pitch는 -90×216 이상 90×216 이하의 범위에 있을 수 있다. rotation_roll은 -180×216 이상 180×216 - 1 이하의 범위에 있을 수 있다.
▶ 글로벌 좌표들은 컨텐트의 캡처 동안의 카메라 구성들 및 설정들에 따라 각각의 뷰포인트들에 따라 상이할 수 있으며, GPS 글로벌 좌표들과 같은 임의의 절대적인 실제 세계의 기준에 따라 사전에 정렬되지 않는 것으로 가정된다. 그러나, 글로벌 좌표들은 절대적인 실제 세계의 기준에 관하여 식별가능하다.
▶ 글로벌 좌표들의 정의는 OMAF(omnidirectional media format) v1을 따른다.
이하 도 3을 참조하여, 3D 컨텐트에 포함된 복수의 뷰포인트들을 그룹화하는 방법에 대하여 구체적으로 설명하도록 한다. 도 3은 복수의 뷰포인트들을 그룹화하기 위한 예시적인 방법을 나타낸다. 3D 컨텐트는 V1, V2 ... V8의 복수의 뷰포인트들을 포함할 수 있다. 복수의 뷰포인트들 중 인접한 뷰포인트들은 하나의 그룹을 그룹화될 수 있다. 예를 들어, 서로 인접한 V1, V2, V3, 및 V4는 제 1 그룹(G1)으로 그룹화될 수 있고, 서로 인접한 V5, V6, V7은 제 2 그룹(G2)로 그룹화될 수 있다. 몇몇 실시예들에 따르면, 3D 컨텐트에 포함된 복수의 뷰포인트들 중 적어도 일부는 그룹화되지 않을 수 있다. 예를 들어, V8은 그룹화로부터 배제되어 어떠한 그룹에도 속하지 않을 수 있다.
이하 도 4를 참조하여, 그룹 내에 포함된 복수의 뷰포인트들을 정렬하는 방법에 대하여 설명하도록 한다. 도 4는 복수의 뷰포인트들을 정렬하기 위한 예시적인 방법을 나타낸다. 도 4에 도시된 V1 및 V2는 설명의 편의를 위해 기재된 참조 번호일 뿐이며, 앞서 다른 도면에서 설명된 V1 및 V2와 반드시 동일한 것은 아니다. 이는 이후의 도면들에 대하여도 마찬가지이다. 뷰포인트들를 정렬하는 것은 뷰포인트들의 좌표 축들을 정렬하는 것을 의미할 수 있다. 뷰포인트들의 좌표 축들을 정렬하는 것은 뷰포인트의 좌표 축들 각각이 다른 뷰포인트의 상응하는 좌표 축과 평행하도록 조정하는 것을 의미할 수 있다. 뷰포인트들의 정렬은 단일의 그룹 내에서 이루어질 수 있다. 뷰포인트들의 좌표축들을 정렬하는 것은 뷰포인트들이 공통의 기준 좌표 시스템을 공유하는 것으로 해석될 수 있다. 도 4에서, V1과 V2는 동일한 뷰포인트 그룹 내에 포함된 뷰포인트들이다. V1은 뷰포인트 그룹 내의 디폴트 뷰포인트이다. 뷰포인트 그룹 내의 V1을 제외한 나머지 뷰포인트들의 좌표 축들은 디폴트 뷰포인트인 V1의 좌표 축들을 기준으로 하여 정렬될 수 있다. 예를 들어, V2의 x 축은 x2로부터 V1의 x 축인 x1에 평행하도록 x2로 정렬될 수 있다. x2를 x1으로 변환하기 위한 회전을 나타내는 값인 오프셋은 메타데이터에 포함되어 서버(120)로부터 전자 디바이스(130)로 전달될 수 있다. 도 4에서는 x축을 정렬하는 것에 대하여만 설명하였으나, y 축과 z 축도 x축과 동일한 방식으로 정렬될 수 있다. x, y, z 축들을 사용하는 좌표계 뿐만 아니라, 요우, 피치, 롤 축들을 사용하는 좌표계의 축들 또한 이와 동일한 방식으로 정렬될 수 있다. 요우, 피치, 롤 축들을 정렬하기 위한 오프셋 값들은 앞서 설명된 뷰포인트 정렬 박스내의 rotation_yaw, rotation_pitch, 및 rotation_roll로서 예시된 바 있다.
상술한 바와 같이 서버(120)는 전자 디바이스(130)로 뷰포인트 정렬 박스와 같은 그룹화된 뷰포인트에 대한 정보를 포함하는 메타데이터를 전송할 수 있으며, 전자 디바이스(130)는 수신된 메타데이터에 기초하여 그룹화된 뷰포인트들을 식별하고, 뷰포인트 그룹 내의 뷰포인트들의 좌표축들을 디폴트 뷰포인트의 좌표축들을 기준으로 하여 정렬할 수 있다.
메타데이터는 뷰포인트의 스위칭에 관한 정보를 더 포함할 수 있다. 일 실시예에서, 뷰포인트의 스위칭에 관한 정보는 뷰포인트 스위칭 모드 박스(ViewpointSwitchingModeBox)와 같은 형태로 제공될 수 있다. 뷰포인트 스위칭 모드 박스는 프로젝션된 전방향 비디오 박스(ProjectedOmniVideoBox) 내에 포함될 수 있다. 뷰포인트 스위칭 모드 박스는 파일(즉, 미디어 데이터) 내의 다수의 트랙들에 포함된 다수의 뷰포인트들(즉, 360 비디오들)로서 집합적으로 구성되는 컨텐트와 연관된 다양한 뷰포인트들의 스위칭 모드에 대한 정보를 제공한다. 뷰포인트는 (단일 트랙 전달의 경우) 단일 트랙 내에 포함되는 컨텐트에 의해 표현될 수 있거나, 아니면, (다중-트랙 전달의 경우) 타일 기반 트랙을 포함하며, 타일 기반 트랙과 연관되는 모든 타일 트랙들에 의해 표현되는 컨텐트에 의해 표현될 수 있다. 뷰포인트 스위칭 모드 박스내의 신택스는 파일들(예를 들어, 동일한 뷰포인트로부터의 컨텐트를 나타내는 트랙 그룹 타입을 갖는 동일한 트랙 그룹 식별자(ID)를 갖는 트랙들) 내의 다양한 뷰포인트들을 식별하는 방법이 존재한다고 가정한다. 예시적인 뷰포인트 스위칭 모드 박스의 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000002
위 신택스의 각 필드들의 시맨틱스는 다음과 같다.
num_viewpoints: 스위칭 모드가 특정된 뷰포인트들의 수를 특정한다.
viewpoint_id: 스위칭 모드가 특정된 뷰포인트의 ID를 특정한다.
los_flag: 0과 동일한 los_flag는 뷰포인트에 대해 비-LoS(non-line of switching) 모드를 나타낸다. 1과 동일한 los_flag는 뷰포인트에 대해 LoS 모드를 나타낸다.
los_mode: 0과 동일한 los_mode는 뷰포인트로 스위칭될 때, 해당 뷰포인트에 대한 역방향(reverse) 뷰포트(viewport) 스위칭 모드를 나타낸다. 1과 동일한 los_mode는 뷰포인트로 스위칭될 때, 해당 뷰포인트에 대한 정방향(forward) 뷰포트 스위칭 모드를 나타낸다
몇몇 실시예들에서, 뷰포인트 스위칭 모드 박스와 같은 뷰포인트의 스위칭에 관한 정보는 단일의 뷰포인트 그룹 내의 뷰포인트들 간의 스위칭에 대한 정보를 나타내기 위해 이용될 수 있다. 단일의 뷰포인트 그룹 내의 뷰포인트들의 좌표축들은 정렬될 수 있으므로, 단일의 뷰포인트 그룹 내의 LoS 모드의 뷰포인트 스위칭은 용이하게 수행될 수 있다.
LoS 모드는 뷰포인트들 간의 스위칭이 이루어질 때, 스위칭되기 전의 뷰포인트에서의 뷰포트의 방향과 스위칭된 이후의 뷰포인트에서의 뷰포트의 방향이 동일하도록 설정되는 뷰포인트 스위칭 모드를 지칭할 수 있다. 몇몇 실시예들에서, 스위칭되는 뷰포인트들을 연결하는 직선과 스위칭되기 전의 뷰포인트에서의 뷰포트의 방향이 평행한 경우, 스위칭될 뷰포인트에 대해 LoS 모드가 설정될 수 있다. LoS 모드는 정방향 뷰포트 스위칭 모드 및 역방향 뷰포트 스위칭 모드를 포함할 수 있다.
도 5는 예시적인 LoS 모드의 정방향 뷰포트 스위칭 모드를 나타낸다. 도 5의 예시에서, V1으로부터 V2로 뷰포인트들의 스위칭이 이루어질 수 있다. 정방향 뷰포트 스위칭 모드에서 V1에서의 뷰포트(VP1)의 방향과 V2에서의 뷰포트(VP2)의 방향은 동일할 수 있다. 즉, VP1의 방향과 VP2의 방향의 차이는 0°일 수 있다.
도 6은 예시적인 LoS 모드의 역방향 뷰포트 스위칭 모드를 나타낸다. 도 6의 예시에서, V1으로부터 V2로 뷰포인트들의 스위칭이 이루어질 수 있다. 정방향 뷰포트 스위칭 모드에서 V1에서의 뷰포트(VP1)의 방향과 V2에서의 뷰포트(VP2)의 방향은 반대일 수 있다. 즉, VP1의 방향과 VP2의 방향의 차이는 180°일 수 있다.
도 7은 좌표계 상에서의 LoS를 나타낸다. V1의 뷰포트(VP1)의 좌표는 (φ1, θ1)으로 표현될 수 있다. φ1은 VP1의 방위각(azimuth)를 나타내며 θ1는 VP1의 고도(elevation)을 나타낸다. V1으로부터 V2로부터 LoS 모드의 뷰포트 스위칭이 수행되는 경우, 정방향 뷰포트 스위칭 모드에 따른 V2의 뷰포트(VP2)는 (φ1, θ1)으로 표현될 수 있으며, 역방향 뷰포트 스위칭 모드에 따른 V2의 뷰포트(VP2')는 (φ1 - 180, - θ1)으로 표현될 수 있다.
전자 디바이스(130)은 수신된 메타데이터 내의 뷰포인트 스위칭 모드 박스를 통해, 뷰포인트들 각각 대한 뷰포인트 스위칭 모드가 LoS 모드인지 여부를 식별할 수 있으며, LoS 모드인 경우, 해당 뷰포인트에 정방향 뷰포트 스위칭 모드가 적용되는지 아니면 역방향 뷰포트 스위칭 모드가 적용되는지 여부를 판단할 수 있다. 따라서, 전자 디바이스(130)는 수신된 메타데이터에 따라 특정한 뷰포인트로의 LoS 스위칭을 수행할 수 있다.
뷰포인트에 대한 스위칭 모드 중 비-LoS 모드는 중앙 추정(central estimation) 방식에 따르는 뷰포인트 스위칭 모드를 포함할 수 있다. 중앙 추정 방식은 뷰포인트 스위칭 전의 뷰포트의 방향 상의 타겟 지점을 향하도록 뷰포인트 스위칭 후의 뷰포트를 설정하는 것을 의미한다. 스위칭 전의 뷰포인트로부터 타겟 지점까지의 거리와 스위칭 후의 뷰포인트로부터 타겟 지점까지의 거리가 동일하도록 타겟 지점이 설정될 수 있다. 이하 도 8 내지 도 10을 참고하여 중앙 추정 방식에 대하여 보다 상세히 설명하도록 한다. 도 8 내지 도 10은 예시적인 중앙 추정 방식의 뷰포인트 스위칭을 나타낸다.
도 8은 V1의 Z 축의 좌표의 값(Zv1)과 V2의 Z축의 좌표의 값(Zv2)이 동일한 경우의 중앙 추정 방식을 예시한다. 타겟 지점(O)는 V1에서의 뷰포트(VP1) 상에 위치할 수 있다. V1으로부터 타겟 지점(O)까지의 거리(d1)와 V2로부터의 타겟 지점(O)까지의 거리는 동일할 수 있다. V1으로부터 V2로의 뷰포트 스위칭이 수행되는 경우 VP2는 타겟 지점(O)을 향해 설정될 수 있다. 이 경우, V1에서의 뷰포트(VP1)의 고도(θ1)와 V2에서의 뷰포트(VP2)의 고도(θ2)는 동일할 수 있다. V1에서의 뷰포트(VP1)의 방위각과 V2에서의 뷰포트(VP2)의 방위각은 변경될 수 있다. V2에서의 뷰포트(VP2)의 방위각은 V1의 좌표, V2의 좌표, V1에서의 뷰포트(VP1)의 방위각으로부터 계산될 수 있다.
도 9는 V1의 Z 축의 좌표의 값(Zv1)이 V2의 Z축의 좌표의 값(Zv2)보다 작은 경우의 중앙 추정 방식을 예시한다. 도 8에서 설명한 방식과 동일한 방식으로 타겟 지점(O) 및 스위칭된 V2에서의 뷰포트(VP2)가 설정될 수 있다. V1으로부터 V2로의 뷰포트 스위칭이 수행되는 경우, V1에서의 뷰포트(VP1)의 고도(θ1)의 값은 V2에서의 뷰포트(VP2)의 고도(θ2)의 값보다 클 수 있다. V2에서의 뷰포트(VP2)의 방위각은 V1의 좌표, V2의 좌표, V1에서의 뷰포트(VP1)의 방위각으로부터 계산될 수 있다.
도 10은 V1의 Z 축의 좌표의 값(Zv1)이 V2의 Z축의 좌표의 값(Zv2)보다 큰 경우의 중앙 추정 방식을 예시한다. 도 8에서 설명한 방식과 동일한 방식으로 타겟 지점(O) 및 스위칭된 V2에서의 뷰포트(VP2)가 설정될 수 있다. V1으로부터 V2로의 뷰포트 스위칭이 수행되는 경우, V1에서의 뷰포트(VP1)의 고도(θ1)의 값은 V2에서의 뷰포트(VP2)의 고도(θ2)의 값보다 작을 수 있다. V2에서의 뷰포트(VP2)의 방위각은 V1의 좌표, V2의 좌표, V1에서의 뷰포트(VP1)의 방위각으로부터 계산될 수 있다.
뷰포인트에 대한 스위칭 모드 중 비-LoS 모드는 깊이 추적(depth tracking) 방식(컨텐트 깊이 향상된 비-LoS 뷰포인트 스위칭)에 따르는 뷰포인트 스위칭 모드를 포함할 수 있다. 깊이 추적 방식에서 스위칭 전의 뷰포트 상의 스위칭 전의 뷰포인트로부터 특정한 거리를 갖는 지점이 타겟 지점으로 설정되고, 스위칭된 뷰포트는 타겟 지점을 향해 설정될 수 있다. 이하 도 11 내지 도 13을 통해 깊이 추적 방식의 뷰포인트 스위칭에 대하여 설명하도록 한다. 도 11 내지 도 13은 예시적인 깊이 추적(depth tracking) 방식의 뷰포인트 스위칭을 나타낸다.
도 11은 V1의 Z 축의 좌표의 값(Zv1)과 V2의 Z축의 좌표의 값(Zv2)이 동일한 경우의 깊이 추적 방식을 예시한다. 도 12은 V1의 Z 축의 좌표의 값(Zv1)이 V2의 Z축의 좌표의 값(Zv2)보다 작은 경우의 깊이 추적 방식을 예시한다. 도 13은 V1의 Z 축의 좌표의 값(Zv1)이 V2의 Z축의 좌표의 값(Zv2)보다 큰 경우의 깊이 추적 방식을 예시한다. 도 11 내지 도 13의 경우들에서, 타겟 지점(O)은 V1에서의 뷰포트(VP2) 상에서 미리 결정된 V1으로부터의 거리(d1)에 따라 결정될 수 있다. V1으로부터 타겟 지점(O)까지의 거리(d1)는 V1에 대응되는 3D 이미지의 깊이(depth)에 대응할 수 있다. V1으로부터 V2로 뷰포인트 스위칭이 수행되는 경우 V2에서의 뷰포트(VP2)는 타겟 지점을 향해 설정될 수 있다. V2에서의 뷰포트(VP2)에 대한 고도(θ2) 및 V2로부터 타겟 지점(O)까지의 거리(d2)는 V1으로부터 타겟 지점(O)까지의 거리(d1), V1과 V2 사이의 거리(dv1v2) 및 V1에서의 뷰포트(VP1)에 대한 고도(θ1)로부터 삼각도법(triangulation)에 의해 계산될 수 있다. V1에서의 뷰포트(VP1)의 방위각과 V2에서의 뷰포트(VP2)의 방위각은 변경될 수 있다. V2에서의 뷰포트(VP2)의 방위각은 V1의 좌표, V2의 좌표, V1에서의 뷰포트(VP1)의 방위각으로부터 계산될 수 있다.
깊이 추적(depth tracking) 방식의 LoS모드에서 메타데이터는 컨텐트 깊이를 나타내는 추가적인 정보를 포함할 수 있다. 이에 대한 예시적인 신택스 및 시맨틱스는 다음과 같다.
Figure PCTKR2019003864-appb-I000003
viewpoint_depth: 공통의 기준 좌표 시스템에 의해 사용되는 것으로서 동일한 단위들에서 뷰포인트를 둘러싸는 관심있는 컨텐트(content of interest)의 깊이를 특정한다. viewpoint_depth는 두 개의 뷰포인트들 사이의 컨텐트 깊이 향상된 비-LoS 뷰포인트 스위칭을 위해 사용될 수 있다.
몇몇 실시예들에서, 메타데이터에 그룹화된 뷰포인트들에 대한 정보 및 뷰포인트들을 정렬하기 위한 정보를 모두 포함하는 박스를 포함할 수 있다. 몇몇 실시예들에서, 뷰포인트 정렬 박스는 그룹화된 뷰포인트들에 대한 정보 및 뷰포인트들을 정렬하기 위한 정보를 모두 포함할 수 있다. 뷰포인트 정렬 박스의 예시적인 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000004
위 신택스의 필드들 중 앞서 설명되지 않은 필드들의 시맨틱스는 다음과 같다.
alignment_group_id: 정렬 오프셋들이 정규화되는 뷰포인트들을 포함하는 정렬 그룹의 ID를 특정한다.
alignment_group_content_coverage_flag: 0과 동일한 alignment_group_content_coverage_flag는 정렬 그룹 컨텐트 커버리지 정보가 존재하지 않는다는 것을 특정한다. 1과 동일한 alignment_group_content_coverage_flag는 정렬 그룹 컨텐트 커버리지 정보가 존재한다는 것을 나타낸다. 정렬 그룹 컨텐트 커버리지 정보는 컨텐트 장면(scene)의 동일한 부분에 의해 커버되는 그룹 내의 다수의 뷰포인트들로부터의 구 영역(sphere region)들을 특정한다.
alignment_group_initial_orientation_flag: 0과 동일한 alignment_group_initial_orientation_flag는 정렬 그룹 초기 배향 정보가 존재하지 않는다는 것을 특정한다. 1과 동일한 alignment_group_initial_orientation_flag는 정렬 그룹 초기 배향 정보가 존재한다는 것을 특정한다. 정렬 그룹 초기 배향 정보는 정렬 그룹 좌표들에 대한 중심 x, y, z 위치에 의해 표현된다.
viewpoint_switch_mode: 뷰포인트로의 뷰포인트 스위치 동안 뷰포트 배향 변경의 모드를 특정한다.
0의 값의 viewpoint_switch_mode는 디폴트이며, 정방향 LoS를 나타낸다. OMAF 재생기(player)(예를 들어, 전자 디바이스(130)는 스위칭이 발생하기 직전의 뷰포인트에서와 동일한 뷰잉 배향을 유지하도록 기대된다.
1의 값의 viewpoint_switch_mode는 역방향 LoS를 나타낸다. OMAF 재생기는 스위칭이 발생하기 직전의 뷰포인트에서의 뷰포트 배향과 역방향이 되도록 뷰포인트 배향을 변경하도록 기대된다.
2의 값의 viewpoint_switch_mode는 은 중앙 비-LoS를 나타낸다. OMAF 재생기는 스위칭이 발생하기 직전의 뷰포인트에서의 뷰포트로서, (새로운 뷰포인트로 변경되더라도) 동일한 컨텐트를 포함하는 중앙으로 추정된 뷰포트 배향에 대응하도록 뷰포트 배향을 변경하도록 기대된다.
3의 값의 viewpoint_switch_mode에서, OMAF 재생기는 뷰포인트의 그룹 초기 배향에 의해 특정되는 바와 같이 글로벌 좌표축들에 대응하도록 뷰포트 배향을 변경하도록 기대된다.
viewpoint_switch_mode의 4 내지 255의 값들은 예비되어(reserved) 있다.
몇몇 실시예들에서, 메타데이터는 뷰포인트 ID들의 리스트 및 뷰포인트의 대응하는 정보 메타데이터를 발견할 위치에 대한 힌트를 위해 뷰포인트 리스트 박스를 더 포함할 수 있다. 뷰포인트 리스트 박스는 무비 박스('moov') 내에 포함된 메타('meta') 박스 내에 정의될 수 있다. 뷰포인트 리스트 박스의 예시적인 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000005
뷰포인트는 오직 하나의 트랙에 의해 표현될 수 있거나, 아니면, 각각이 360 비디오 뷰포인트의 일부를 포함하는 트랙들의 집합적인 그룹에 의해 표현될 수 있다. 각각의 뷰포인트에게는 뷰포인트 ID가 주어진다. 뷰포인트 ID는 트랙 ID들에 대해 무관하며 그리고 독립적일 수 있다. 그러나, 뷰포인트의 ID 및 컨텐트를 반송하는 트랙을 참조하고 링크하기 위한 연관의 형식이 존재해야한다. 가장 단순한 방법은 단일 트랙 전달 뷰포인트들(single track delivered viewpoints)에 대하여 뷰포인트 ID들에게 트랙 ID들의 값을 매칭시키는 것일 수 있다. 다중 트랙 전달 뷰포인트들에 대하여 트랙 그룹ID가 사용될 수 있다. 뷰포인트가 단일 트랙 또는 다중 트랙들을 통해 전달되는지 여부에 따라, 뷰포인트의 뷰포인트 ID는 1) 트랙 ID 또는 2) 트랙 그룹 ID 중 하나에 대응할 수 있다.
위의 신택스에 사용된 필드를에 대한 시맨틱스는 다음과 같다.
num_viewpoints: 파일 내에 존재하는 뷰포인트들의 수를 특정한다.
viewpoint_id: 해당 뷰포인트에 대한 구유의 ID를 나타낸다. viewpoint_delivery_type_flag의 값에 의존하여, viewpoint_id는 track_id 또는 track_group_id 중 하나와 동일하다.
initial_viewpoint_flag: 1과 동일한 initial_viewpoint_flag는 다수의 뷰포인트들을 포함하는 파일을 플레이백할 때, 플레이백될 초기/디폴트 뷰포인트로서 뷰포인트를 나타낸다. 이 플래그는 오직 하나의 뷰포인트에 대하여만 1과 동일해야 한다.
viewpoint_delivery_type_flag: 0과 동일한 viewpoint_delivery_type_flag는 뷰포인트가 단일의 트랙을 통해 반송되고, viewpoint_id에 대한 값이 track_id와 동일하다는 것을 특정한다. 1과 동일한 viewpoint_delivery_type_flag는 뷰포인트가 다수의 트랙들에 의해 반송되고 그리고 viewpoint_id에 대한 값이 동일한 뷰포인트에 속하는 트랙들의 집합적인 그룹(track_group_tyupe은 'vipo'와 동일함)의 track_group_id와 동일하다는 것을 나타낸다.
단일 트랙 뷰포인트 정보 메타데이터의 전송을 위해 새로운 박스 "vpin"(OMAF 뷰포인트 정보 박스)가 트랙 박스('trak'내에 포함된 'meta' 박스 내에서 정의될 수 있다. 임의의 뷰포인트가 뷰포인트 리스트 박스('vpli) 내에서 0과 동일한 viewpoint_delivery_type_flag를 갖는 것으로 특정되면, OMAF 뷰포인트 정보 박스는 뷰포인트에 대응하는 트랙에 대한 트랙 박스 내에 포함된 메타 박스내에 존재해야 한다. OMAF 뷰포인트 정보 박스의 예시적인 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000006
위의 신택스에 대한 시맨틱스는 다음과 같다.
viewpoint_id: 해당 뷰포인트에 대한 고유의 ID를 나타낸다. 이 박스('vpin') 내에 존재하는 경우, viewpoint_id는 이를 포함하는 트랙의 track_id와 항상 동일하다.
viewpoint_switch_mode: 초기 뷰잉(veiwing) 배향 메타데이터의 부재시, 이전의 뷰포인트로부터 해당 뷰포인트로의 뷰포인트 스위칭 동안의 뷰포트 배향 변경의 모드를 특정한다. viewpoint_switch_mode의 값들이 나타내는 내용은 다음과 같다.
0의 값의 viewpoint_switch_mode는 디폴트이며, 정방향 LoS를 나타낸다. OMAF 재생기(player)(예를 들어, 전자 디바이스(130)는 스위칭이 발생하기 직전의 뷰포인트에서와 동일한 뷰잉 배향을 유지하도록 기대된다.
1의 값의 viewpoint_switch_mode는 역방향 LoS를 나타낸다. OMAF 재생기는 스위칭이 발생하기 직전의 뷰포인트에서의 뷰포트 배향과 역방향이 되도록 뷰포인트 배향을 변경하도록 기대된다.
2의 값의 viewpoint_switch_mode는 은 중앙 비-LoS를 나타낸다. OMAF 재생기는 스위칭이 발생하기 직전의 뷰포인트에서의 뷰포트로서, (새로운 뷰포인트로 변경되더라도) 동일한 컨텐트를 포함하는 중앙으로 추정된 뷰포트 배향에 대응하도록 뷰포트 배향을 변경하도록 기대된다.
3의 값의 viewpoint_switch_mode는 정렬 그룹 초기 배향 스위칭을 나타낸다. OMAF 재생기는 뷰포인트의 정렬 그룹 초기 배향에 의해 특정되는 바와 같은 포인트에 대응하도록 뷰포트 배향을 변경하도록 기대된다.
viewpoint_switch_mode의 4 내지 255의 값들은 예비되어(reserved) 있다.
사용자가 두 개의 상이한 뷰포인트들 사이에서 스위칭할 때, 뷰포인트 변경의 이전 및 이후에서의 뷰포트에서의 배향의 변경은 서로에 관련된 뷰포인트들의 위치 및 컨텐트에 의존한다. 따라서, 정방향 LoS, 역방향 LoS, 중앙 (추정) 비-LoS, 컨텐트 깊이 향상된 비-LoS와 같은 복수의 스위칭 모드들을 포함하는, 뷰포트에 대한 다수의 뷰포인트 스위칭 모드들이 존재할 수 있다.
몇몇 실시예들에서, 복수의 뷰포인트들을 포함하는 컨텐트에 대한 메타데이터는 다음과 같은 필드들을 추가적으로 포함할 수 있다.
viewpoint_description: viewpoint_description는 뷰포인트의 원문의(textual) 설명(description)을 제공하는 널-종료된(null-terminated) UTF-8 스트링(string)이다.
viewpoint_pos_x, viewpoint_pos_y, and viewpoint_pos_z: 기준 좌표 시스템의 중심으로서, (0, 0, 0)을 갖는 3D 공간 내의 밀리미터들의 단위들로서 뷰포인트의 위치(x 좌표 값, y 좌표 값, z 좌표 값)을 특정한다.
viewpoint_gcs_yaw, viewpoint_gcs_pitch, and viewpoint_gcs_roll: 2-16도의 단위로서 기준 좌표 시스템에 대한 뷰포인트의 글로벌 좌표 시스템의 X, Y, Z 축들의 회전 각도들의 요우, 피치 및 롤 각도들을 각각 특정한다. viewpoint_gcs_yaw는 -180×216 이상 180×216-1 이하의 범위 내에 있어야 한다. viewpoint_gcs_pitch -90×216 이상 180×216의 범위 내에 있어야 한다. viewpoint_gcs_roll는 -180×216 이상 180×216-1 이하의 범위 내에 있어야 한다.
몇몇 실시예들에서, 트랙 그룹 타입 "vipo"가 정의될 수 있다. "vipo"와 동일한 track_group_type을 갖는 TrackGroupTypeBox 내의 track_group_id의 동일한 값을 포함하는 트랙들은 그들이 동일한 뷰포인트에 속하는 트랙들의 집합적인 그룹임을 나타낸다. 임의의 뷰포인트가 뷰포인트 리스트 박스("vpli") 내의 1과 동일한 viewpoint_delivery_type_flag를 갖는 것으로 특정되는 경우, 동일한 뷰포인트에 속하는 모든 트랙 내에 존재하는 "vipo"와 동일한 track_group_type 및 track_group_id의 동일한 값을 갖는 TrackGroupTypeBox가 존재해야 한다. TrackGroupTypeBox의 플래그들의 비트 0(비트 0은 least significant bit임)은 track_group_id의 고유함(uniqueness)을 나타내기 위해 사용된다. 이와 관련된 예시적인 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000007
위 신택스에 대한 시맨틱스는 다음과 같다.
viewpoint_id: 해당 뷰포인트에 대한 고유의 ID를 나타낸다. 뷰포인트에 대한 컨텐트가 트랙들의 집합적인 그룹 내에서 반송되는 경우, viewpoint_id는 동일한 TrackGroupTypeBox 내에 함께 포함된 track_group_id와 동일한 값에 대응한다.
viewpoint_switch_mode: 초기 뷰잉 배향 메타데이터의 부재 시, 뷰포인트들 모두가 동일한 정렬 그룹에 속하는 경우, 해당 뷰포인트로 이전의 뷰포인트로부터의 뷰포인트 스위칭 동안의 뷰포트배향 변경의 모드를 특정한다. viewpoint_switch_mode 의 값들에 따른 구체적인 의미는 OMAF 뷰포인트 정보 박스에서 설명한 바와 같다.
viewpoint_description: viewpoint_description는 뷰포인트의 원문의(textual) 설명(description)을 제공하는 널-종료된(null-terminated) UTF-8 스트링(string)이다.
viewpoint_pos_x, viewpoint_pos_y, and viewpoint_pos_z: 기준 좌표 시스템의 중심으로서, (0, 0, 0)을 갖는 3D 공간 내의 밀리미터들의 단위들로서 뷰포인트의 위치(x 좌표 값, y 좌표 값, z 좌표 값)을 특정한다.
viewpoint_gcs_yaw, viewpoint_gcs_pitch, and viewpoint_gcs_roll: 2-16도의 단위로서 기준 좌표 시스템에 대한 뷰포인트의 글로벌 좌표 시스템의 X, Y, Z 축들의 회전 각도들의 요우, 피치 및 롤 각도들을 각각 특정한다. viewpoint_gcs_yaw는 -180×216 이상 180×216-1 이하의 범위 내에 있어야 한다. viewpoint_gcs_pitch -90×216 이상 180×216의 범위 내에 있어야 한다. viewpoint_gcs_roll는 -180×216 이상 180×216-1 이하의 범위 내에 있어야 한다.
몇몇 실시예들에서, 새로운 트랙 그룹 타입 "algr"이 정의될 수 있다. "algr"과 동일한 track_group_type을 갖는 TrackGroupTypeBox 내의 track_group_id의 동일한 값을 포함하는 트랙들은, 그들이 동일한 정렬 그룹 내에 속하는 트랙들의 집합적인 그룹임을 나타낸다. TrackGroupTypeBox의 플래그들의 비트 0(비트 0은 least significant bit임)은 track_group_id의 고유함(uniqueness)을 나타내기 위해 사용된다. 이와 관련된 예시적인 신택스는 다음과 같다.
Figure PCTKR2019003864-appb-I000008
컨텐트는 일부가 서로 상이한 장면들 및 위치들에서 캡처될 수 있는 다수의 뷰포인트들을 가질 수 있다. 모든 뷰포인트들이 동일한 기준 좌표 시스템에 정렬되는 경우, 특정한 뷰포인트 위치들은 뷰포인트 위치 메타데이터로의 표현을 위해 비합리적일 수 있다. 뷰포인트 위치 메타데이터는 두 개의 뷰포인트들 사이의 스위칭 시, 조정된(coordinated) 뷰포트 변경을 갖도록 하기 위해 주로 사용된다. 몇몇 상황들에서, 뷰포인트들의 정렬이 동일한 그룹 내에서만 다른 뷰포인트들에 대하여 존재하도록 뷰포인트들을 그룹화하고, 동일한 정렬 그룹 내에 속하지 않는 뷰포인트들은 필연적으로 정렬되지 않도록 뷰포인트들을 그룹화하는 것이 바람직할 수 있다.
group_common_reference_flag는 대응하는 정렬 그룹 내의 뷰포인트들이 정렬 그룹에 대하여 글로벌하게 아니면 로컬하게 정렬되는지 여부를 나타내기 위해 사용된다.
뷰포인트들의 그룹을 포함하는 정렬 그룹들을 정의하는 것에 의해, 그룹 내의 임의의 뷰포인트가 스위칭을 위해 선택되는 경우라도, 클라이언트 디바이스가 기준 좌표 시스템에 대하여 공간 내에서 정의되는 중심 x, y, z 포인트에 대응하는 뷰포인트들 디스플레이할 수 있도록, 정렬 그룹에 대하여 전체로서 초기 배향이 설정되는 것 또한 가능하다. 위에서 리스팅된 정렬 그룹화 메커니즘은 임의의 뷰포인트 ID를 명시적으로 특정할 필요 없이, 트랙 그룹화 디자인을 이용할 수 있다. 또한, 트랙 그룹화 메커니즘을 이용하여, 정렬 그룹을 정의하기 위해 뷰포인트 ID를 사용하는 뷰포인트들의 세트를 단순히 리스팅하는 것이 가능하며, 트랙이, 자신의 viewpoint_id가 무엇인지를 우선적으로 식별할 필요 없이, 자신의 track_group_id를 통해(track_group_id는 고유하기 때문) 동일한 정렬 그룹에 속하는지 아니면 아닌지 여부를 직접적으로 아는 것이 가능하다. 트랙의 viewpoint_id는 'vipo'와 동일한 그룹 타입을 갖는 트랙 그룹 타입 박스, 또는 OMAF 뷰포인트 정보 박스, 또는 OMAR 뷰포인트 리스트 박스 중 하나를 통해 개별적으로 알려질 수 있다.
위 신택스에 대한 시맨틱스는 다음과 같다.
alignment_group_id: 해당 정렬 그룹에 대한 고유의 ID를 나타낸다. alignment_group_id는 통상적으로 동일한 TrackGroupTypeBox 내에 함께 포함된 track_group_id와 동일한 값에 대응한다.
group_common_reference_flag: 0과 동일한 group_common_reference_flag는 해당 정렬 그룹에 속하는 뷰포인트들이 글로벌 공통 기준 좌표 시스템에 정렬된다는 것을 특정한다. 1과 동일한 group_common_reference_flag는 해당 정렬 그룹에 의해 사용되는 공통 기준 좌표 시스템에 대한 centre_x, centre_y, centre_z에 의해 특정되는 포인트 위치에 의해 표현되는 정렬 그룹 초기 배향 정보가 존재한다는 것을 특정한다.
이상 메타데이터에 포함될 수 있는 다양한 예시적인 정보들, 박스들, 필드들 및 파라미터들이 설명되었으나, 박스들, 필드들 및 파라미터들의 명칭들은 예시적인 것이 불과하며, 해당 기술 분야의 통상의 기술자는 박스들, 필드들 및 파라미터들의 본질적은 속성은 유지하면서 명칭들은 자유롭게 변경될 수 있다는 것을 자명하게 이해할 수 있을 것이다. 또한, 해당 기술 분야의 통상의 기술자는 필드들 및 파라미터들에 할당될 수 있는 값들과 속성들의 매칭들은 선택에 따라 변경될 수 있다는 것을 자명하게 이해할 수 있을 것이다. 메타데이터는 앞서 설명된 예시적인 박스들 중의 전부 또는 선택된 적어도 하나의 박스를 포함하여 구성될 수 있다. 앞서 설명된 박스들 각각은 해당 박스와 관련하여 설명된 필드들 중의 전부 또는 선택된 적어도 하나의 필드를 포함하여 구성될 수 있다.
도 14는 본 개시의 일 실시예에 따른 전자 디바이스의 동작을 나타낸 흐름도이다. 전자 디바이스(130)는 복수의 뷰포인트들을 포함하는 3D 컨텐트에 대한 메타데이터를 수신할 수 있다 (1410). 전자 디바이스(130)가 수신하는 메타데이터는 앞서 설명된 서버(120)가 전송한 메타데이터일 수 있다.
전자 디바이스(130)는 수신된 메타데이터에 기초하여 3D 컨텐트에 대한 미디어 데이터를 프로세싱할 수 있다 (1420). 3D 컨텐트에 대한 미디어 데이터는 서버(120)로부터 메타데이터와 함께, 또는 메타데이터와 별도로 전송될 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(130)는 메타데이터를 전송하는 서버(120)와는 상이한 서버로부터 미디어 데이터를 수신할 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(130)는 컨텐트 제공자(110)의 서버로부터 미디어 데이터를 수신할 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(130)는 CD-ROM, DVD-ROM, 하드 디스크, 플로피 디스크, 또는 USB 저장 장치와 같은 저장 장치로부터 미디어 데이터를 획득할 수 있다. 전자 디바이스(130)는 수신된 메타데이터에 기초하여 3D 컨텐트에 대한 미디어 데이터를 프로세싱하여, 전자 디바이스(130)에 포함된 디스플레이를 통해 3D 컨텐트를 재생할 수 있다. 몇몇 실시예들에서, 전자 디바이스(130)는 전자 디바이스(130)의 외부의 디스플레이를 통해 3D 컨텐트를 재생하기 위한 신호(비디오 신호 및 오디오 신호)를 외부의 디스플레이를 포함하는 다른 전자 디바이스로 전송할 수 있다.
도 15는 본 개시의 일 실시예에 따른 서버의 블록도이다. 서버(1500)는 도 1의 서버(120)와 동일할 수 있다. 서버(1500)는 제어기(1510), 송수신기(1520) 및 메모리(1530)를 포함할 수 있다.
제어기(1510)는 서버(1500)의 동작에 필요한 연산들 및 기능들을 수행할 수 있다. 제어기(1510)는 송수신기(1520) 및 메모리(1530)를 포함하는 서버(1500)를 구성하는 엘리먼트들과 연결되고, 엘리먼트들의 동작을 제어할 수 있다. 따라서, 서버(1500)의 동작은 실질적으로 제어기(1510)를 통해 수행되는 것으로 해석될 수 있다. 제어기(1510)는 적어도 하나의 프로세서를 통해 구성될 수 있다.
서버(1500)는 송수신기(1520)를 통해 다른 엔티티들과 통신을 수행할 수 있다. 송수신기(1520)는 유선 또는 무선의 통신 인터페이스들을 포함할 수 있다. 송수신기(1520)는 Wi-Fi, LTE, CDMA, Wi-Max, Wi-Bro, USB 와 같은 알려진 유선 또는 무선의 통신 프로토콜들을 이용하여 통신을 수행할 수 있다.
메모리(1530)에는 서버(1500) 및 제어기(1510)의 동작에 필요한 정보들이 저장될 수 있다. 예를 들어, 메모리(1530)는 제어기(1510)의 연산에 필요한 일시적 또는 비일시적 데이터를 저장할 수 있다. 메모리(1530)는 제어기(1510)에서 수행가능한 명령들을 저장할 수 있다. 메모리(1530)는 일시적 메모리, 비일시적 메모리, 재기록가능한(re-writable) 메모리, 재기록불가능한 메모리 중 적어도 하나 이상을 포함하여 구성될 수 있다.
도 16은 본 개시의 일 실시예에 따른 전자 디바이스의 블록도이다. 전자 디바이스(1600)는 도 1의 전자 디바이스(130)와 실질적으로 동일할 수 있다. 전자 디바이스(1600)는 제어기(1610), 송수신기(1620), 메모리(1630) 및 디스플레이(1640)을 포함할 수 있다.
제어기(1610), 송수신기(1620), 및 메모리(1630)에 대한 설명은 서버(1500)의 제어기(1510), 송수신기(1520), 및 메모리(1530)에 대한 설명과 실질적으로 동일하므로 생략하도록 한다.
디스플레이(1640)는 제어기(1610)의 제어에 기초하여 3D 컨텐트를 재생할 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(1600)는 디스플레이(1640)가 아니라 다른 전자 디바이스의 디스플레이를 통해 3D 컨텐트를 재생할 수 있다. 몇몇 실시예들에 따르면, 전자 디바이스(1600)는 디스플레이(1640)를 포함하지 않을 수도 있다.
이상 첨부된 도면을 참조하여 본 개시의 실시예들을 설명하였지만, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims (14)

  1. 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 메타데이터를 전송하기 위한 방법으로서,
    상기 복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 식별하는 단계; 및
    상기 식별된 메타데이터를 전송하는 단계를 포함하고,
    상기 메타데이터는:
    상기 복수의 뷰포인트들 중 적어도 하나의 뷰포인트를 포함하는 뷰포인트 그룹의 식별자(ID)에 대한 정보를 포함하고,
    상기 뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트는 공통의 기준 좌표 시스템을 공유하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 메타데이터는,
    상기 뷰포인트 그룹의 디스크립션에 대한 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 메타데이터는,
    상기 복수의 뷰포인트들 중 하나 이상의 뷰포인트의 공통 기준 좌표 시스템에 대한 X, Y, Z 축들의 요우, 피치 및 롤 회전 각들을 각각 나타내는 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 메타데이터는,
    상기 복수의 뷰포인트들 중 하나 이상의 뷰포인트의 공통 기준 좌표 시스템에 대한 위치를 나타내는 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  5. 제 1 항에 있어서,
    상기 메타데이터는,
    상기 뷰포인트 그룹 내에서 뷰포인트들 간의 스위칭이 수행될 때, 스위칭될 뷰포인트에 대한 뷰포인트 스위칭 모드를 나타내는 정보를 포함하고,
    상기 뷰포인트 스위칭 모드를 나타내는 정보는 정방향 LoS(line of sight) 모드, 역방향 LoS 모드, 중앙 추정 비-LoS 모드, 및 정렬 그룹 초기 배향 스위칭 모드 중 하나를 나타내는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  6. 제 1 항에 있어서,
    상기 메타데이터는,
    뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트 각각의 ID에 대한 정보를 더 포함하고,
    상기 적어도 하나의 뷰포인트 각각의 ID는 대응하는 뷰포인트에 대한 미디어 데이터가 트랙들의 집합적인 그룹에 의해 반송되는 경우, 상기 트랙들의 그룹의 ID와 동일하게 설정되는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 방법.
  7. 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 정보를 처리하기 위한 방법으로서,
    상기 복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 수신하는 단계; 및
    상기 식별된 메타데이터에 기초하여 상기 전방향 컨텐트에 대한 미디어 데이터를 처리하는 단계를 포함하고,
    상기 메타데이터는:
    상기 복수의 뷰포인트들 중 적어도 하나의 뷰포인트를 포함하는 뷰포인트 그룹의 식별자(ID)에 대한 정보를 포함하고,
    상기 뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트는 공통의 기준 좌표 시스템을 공유하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  8. 제 7 항에 있어서,
    상기 메타데이터는,
    상기 뷰포인트 그룹의 디스크립션에 대한 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  9. 제 7 항에 있어서,
    상기 메타데이터는,
    상기 복수의 뷰포인트들 중 하나 이상의 뷰포인트의 공통 기준 좌표 시스템에 대한 X, Y, Z 축들의 요우, 피치 및 롤 회전 각들을 각각 나타내는 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  10. 제 7 항에 있어서,
    상기 메타데이터는,
    상기 복수의 뷰포인트들 중 하나 이상의 뷰포인트의 공통 기준 좌표 시스템에 대한 위치를 나타내는 정보를 더 포함하는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  11. 제 7 항에 있어서,
    상기 메타데이터는,
    상기 뷰포인트 그룹 내에서 뷰포인트들 간의 스위칭이 수행될 때, 스위칭될 뷰포인트에 대한 뷰포인트 스위칭 모드를 나타내는 정보를 포함하고,
    상기 뷰포인트 스위칭 모드를 나타내는 정보는 정방향 LoS(line of sight) 모드, 역방향 LoS 모드, 중앙 추정 비-LoS 모드, 및 정렬 그룹 초기 배향 스위칭 모드 중 하나를 나타내는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  12. 제 7 항에 있어서,
    상기 메타데이터는,
    뷰포인트 그룹 내의 상기 적어도 하나의 뷰포인트 각각의 ID에 대한 정보를 더 포함하고,
    상기 적어도 하나의 뷰포인트 각각의 ID는 대응하는 뷰포인트에 대한 미디어 데이터가 트랙들의 집합적인 그룹에 의해 반송되는 경우, 상기 트랙들의 그룹의 ID와 동일하게 설정되는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 방법.
  13. 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 메타데이터를 전송하기 위한 장치로서,
    송수신기; 및
    상기 송수신기에 연결된 제어기를 포함하고,
    상기 제어기는 상기 제 1 항 내지 제 6 항 중 어느 한 항의 방법에 따라 동작하도록 구성되는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 메타데이터를 전송하기 위한 장치.
  14. 복수의 뷰포인트들을 포함하는 전방향(omnidirectional) 컨텐트에 대한 정보를 처리하기 위한 장치로서,
    송수신기; 및
    상기 송수신기에 연결된 제어기를 포함하고,
    상기 제어기는 상기 제 7 항 내지 제 12 항 중 어느 한 항의 방법에 따라 동작하도록 구성되는,
    복수의 뷰포인트들을 포함하는 전방향 컨텐트에 대한 정보를 처리하기 위한 장치.
PCT/KR2019/003864 2018-04-05 2019-04-02 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치 WO2019194529A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/981,119 US11516454B2 (en) 2018-04-05 2019-04-02 Method and device for transmitting information on three-dimensional content including multiple view points
KR1020207031908A KR102564729B1 (ko) 2018-04-05 2019-04-02 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치
EP19782001.2A EP3758370A4 (en) 2018-04-05 2019-04-02 PROCESS AND DEVICE FOR TRANSMISSION OF INFORMATION ON THREE-DIMENSIONAL CONTENT INCLUDING MULTIPLE POINTS OF VIEW

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862653127P 2018-04-05 2018-04-05
US62/653,127 2018-04-05
US201862679375P 2018-06-01 2018-06-01
US62/679,375 2018-06-01

Publications (1)

Publication Number Publication Date
WO2019194529A1 true WO2019194529A1 (ko) 2019-10-10

Family

ID=68101333

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/003864 WO2019194529A1 (ko) 2018-04-05 2019-04-02 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치

Country Status (4)

Country Link
US (1) US11516454B2 (ko)
EP (1) EP3758370A4 (ko)
KR (1) KR102564729B1 (ko)
WO (1) WO2019194529A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质
CN114830674A (zh) * 2019-12-27 2022-07-29 日本放送协会 发送装置和接收装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018144890A1 (en) * 2017-02-03 2018-08-09 Warner Bros. Entertainment, Inc. Rendering extended video in virtual reality
KR102188270B1 (ko) * 2018-07-06 2020-12-09 엘지전자 주식회사 360 비디오 데이터의 서브픽처 기반 처리 방법 및 그 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070608A (ja) * 2002-08-05 2004-03-04 Canon Inc 仮想空間呈示装置及び情報管理装置並びにそれらの制御方法
KR20160018719A (ko) * 2013-07-08 2016-02-17 가부시키가이샤 리코 표시 제어 장치 및 컴퓨터 판독가능 기록 매체
WO2017142353A1 (ko) * 2016-02-17 2017-08-24 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
KR20170107719A (ko) * 2016-03-16 2017-09-26 엘지전자 주식회사 헤드 마운티드 디스플레이 및 그 제어 방법
KR20180016805A (ko) * 2016-08-08 2018-02-20 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7673246B2 (en) 2001-12-12 2010-03-02 Canon Kabushiki Kaisha Image information processing apparatus and method, virtual space presentation apparatus, information administration apparatus, and control methods thereof
WO2010050728A2 (ko) * 2008-10-27 2010-05-06 엘지전자 주식회사 가상 뷰 이미지 합성 방법 및 장치
EP2365694B1 (en) * 2008-11-18 2017-01-04 LG Electronics Inc. Method and apparatus for processing image signal
KR102243662B1 (ko) 2013-09-01 2021-04-23 엘지전자 주식회사 무선 통신 시스템에서 d2d(device-to-device) 통신을 위한 동기화 신호 전송 방법 및 이를 위한 장치
US9836885B1 (en) 2013-10-25 2017-12-05 Appliance Computing III, Inc. Image-based rendering of real spaces
KR101661600B1 (ko) * 2014-12-31 2016-09-30 한국과학기술연구원 다중 시야 창 인터페이스 장치 및 방법
US10887577B2 (en) * 2016-05-26 2021-01-05 Lg Electronics Inc. Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
US20170359624A1 (en) * 2016-06-08 2017-12-14 Sphere Optics Company, Llc Multi-view point/location omni-directional recording and viewing
EP3493164B1 (en) * 2016-07-29 2024-03-27 Sony Group Corporation Image processing device and image processing method
KR102331041B1 (ko) 2017-03-28 2021-11-29 삼성전자주식회사 3차원 이미지에 관한 데이터를 전송하기 위한 방법
EP3649790A4 (en) * 2017-07-06 2021-01-06 Sharp Kabushiki Kaisha VIEW INFORMATION SIGNALING SYSTEMS AND METHODS FOR VIRTUAL REALITY APPLICATIONS
US20190104326A1 (en) * 2017-10-03 2019-04-04 Qualcomm Incorporated Content source description for immersive media data
US10791373B2 (en) * 2017-12-29 2020-09-29 Intel Corporation Generating 2D video from 360 video
CN110035316B (zh) * 2018-01-11 2022-01-14 华为技术有限公司 处理媒体数据的方法和装置
CN111656790A (zh) * 2018-01-26 2020-09-11 夏普株式会社 用于发送信号通知位置信息的系统和方法
CN116708847A (zh) * 2018-03-22 2023-09-05 Vid拓展公司 方法、系统及非暂时性计算机可读介质
US11115451B2 (en) * 2018-03-26 2021-09-07 Mediatek Singapore Pte. Ltd. Methods and apparatus for signaling viewports and regions of interest
US20210029294A1 (en) * 2018-03-26 2021-01-28 Sharp Kabushiki Kaisha Systems and methods for signaling camera parameter information
EP3777136A4 (en) * 2018-04-03 2021-05-19 Huawei Technologies Co., Ltd. MULTIMEDIA DATA PROCESSING METHOD AND APPARATUS

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004070608A (ja) * 2002-08-05 2004-03-04 Canon Inc 仮想空間呈示装置及び情報管理装置並びにそれらの制御方法
KR20160018719A (ko) * 2013-07-08 2016-02-17 가부시키가이샤 리코 표시 제어 장치 및 컴퓨터 판독가능 기록 매체
WO2017142353A1 (ko) * 2016-02-17 2017-08-24 엘지전자 주식회사 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
KR20170107719A (ko) * 2016-03-16 2017-09-26 엘지전자 주식회사 헤드 마운티드 디스플레이 및 그 제어 방법
KR20180016805A (ko) * 2016-08-08 2018-02-20 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114830674A (zh) * 2019-12-27 2022-07-29 日本放送协会 发送装置和接收装置
EP4084481A4 (en) * 2019-12-27 2023-12-27 Nippon Hoso Kyokai TRANSMISSION DEVICE AND RECEIVING DEVICE
US11877021B2 (en) 2019-12-27 2024-01-16 Nippon Hoso Kyokai Transmitting device and receiving device
CN113949829A (zh) * 2021-10-15 2022-01-18 腾讯科技(深圳)有限公司 媒体文件封装方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3758370A1 (en) 2020-12-30
EP3758370A4 (en) 2021-03-31
US11516454B2 (en) 2022-11-29
KR20200133387A (ko) 2020-11-27
US20210021798A1 (en) 2021-01-21
KR102564729B1 (ko) 2023-08-09

Similar Documents

Publication Publication Date Title
WO2019194529A1 (ko) 복수의 뷰포인트들을 포함하는 3차원 컨텐트에 대한 정보를 전송하기 위한 방법 및 장치
WO2018182321A1 (en) Method and apparatus for rendering timed text and graphics in virtual reality video
WO2018174535A1 (en) System and method for depth map
WO2018169367A1 (en) Method and apparatus for packaging and streaming of virtual reality media content
WO2018128472A1 (en) Virtual reality experience sharing
WO2018131813A1 (en) Method and apparatus for generating metadata for 3d images
EP3311563A1 (en) Method and apparatus for generating and transmitting metadata for virtual reality
WO2020111426A1 (en) Method and system of presenting moving images or videos corresponding to still images
WO2018070803A1 (en) Method and apparatus for session control support for field of view virtual reality streaming
WO2020013567A1 (ko) 컨텐츠의 처리 방법 및 장치
WO2020189983A1 (en) Method and apparatus for accessing and transferring point cloud content in 360-degree video environment
EP2839440A1 (en) Method and apparatus of providing media file for augmented reality service
EP3025502A1 (en) Broadcasting providing apparatus, broadcasting providing system, and method of providing broadcasting thereof
EP3039476A1 (en) Head mounted display device and method for controlling the same
WO2020101094A1 (ko) 입체 스트라이크 존 표시 방법 및 장치
EP4189649A1 (en) Method and apparatus for performing anchor based rendering for augmented reality media objects
WO2015064854A1 (ko) 멀티앵글영상서비스의 사용자인터페이스 메뉴 제공방법 및 사용자 인터페이스메뉴 제공장치
WO2019098609A1 (en) Method and apparatus for managing a wide view content in a virtual reality environment
WO2014007540A1 (en) Method and apparatus for supplying image
WO2015037761A1 (ko) 멀티앵글영상서비스 제공 방법 및 시스템
WO2015064855A1 (ko) 멀티앵글영상촬영을 위한 사용자인터페이스 메뉴 제공방법 및 사용자 인터페이스메뉴 제공장치
EP2380359A2 (en) Method for transmitting data on stereoscopic image, method for playing back stereoscopic image, and method for creating file of stereoscopic image
WO2017146418A1 (ko) 영상 컨텐츠의 정지영상을 이용하여 커머스 광고 정보를 제공하는 방법
WO2019083068A1 (ko) 투구 연습을 통한 3차원 정보 획득 시스템 및 카메라 파라미터 산출 방법
WO2019013592A1 (en) METHOD AND APPARATUS FOR TRANSMITTING DATA IN A NETWORK SYSTEM

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19782001

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019782001

Country of ref document: EP

Effective date: 20200923

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20207031908

Country of ref document: KR

Kind code of ref document: A