WO2019203627A1 - 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 - Google Patents

트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 Download PDF

Info

Publication number
WO2019203627A1
WO2019203627A1 PCT/KR2019/004821 KR2019004821W WO2019203627A1 WO 2019203627 A1 WO2019203627 A1 WO 2019203627A1 KR 2019004821 W KR2019004821 W KR 2019004821W WO 2019203627 A1 WO2019203627 A1 WO 2019203627A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
audio
transition effect
transition
scene
Prior art date
Application number
PCT/KR2019/004821
Other languages
English (en)
French (fr)
Inventor
이동금
오세진
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US17/047,616 priority Critical patent/US11435977B2/en
Publication of WO2019203627A1 publication Critical patent/WO2019203627A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Definitions

  • the present invention relates to audio data, and more particularly, to a method and apparatus for transmitting and receiving audio data relating to a transition effect.
  • the VR (Virtual Reality) system gives the user the feeling of being in an electronically projected environment.
  • the Augmented Reality (AR) system superimposes a three-dimensional virtual image on a reality image or background, giving the user the feeling of being in a mixed environment of virtual and reality.
  • the system for providing VR or AR can be further refined to provide higher quality images and spatial sound.
  • the VR or AR system may enable the user to consume VR or AR content interactively.
  • An object of the present invention is to provide a method and apparatus for transmitting and receiving audio data.
  • Another object of the present invention is to provide a method and apparatus for transmitting and receiving audio data related to a transition effect.
  • Another technical problem of the present invention is to provide an audio data transmission apparatus for generating reproduction information including information on a transition effect and transmitting the same to an audio data receiving apparatus and an operation method thereof.
  • Another technical problem of the present invention is to provide an audio data receiving apparatus for receiving reproduction information including information about a transition effect from an audio data transmitting apparatus, and an operation method thereof.
  • Another technical problem of the present invention is to provide a method and apparatus for transmitting and receiving 3D audio data.
  • Another technical problem of the present invention is to provide playback information for audio content of 3DoF, 3DoF + or 6DoF based on an audio decoder and an audio encoder according to MPEG-H.
  • Another technical problem of the present invention is to apply a technology in which an audio data transmission device obtains information about a scene from a plurality of locations, so that a user using the audio data reception device can transition to a desired location on VR content. I want to.
  • an audio data receiving method performed by an audio data receiving apparatus includes receiving reproduction information of 3D audio content and an encoded 3D audio signal of the 3D audio content from an audio data transmission device, decoding the encoded 3D audio signal, and Rendering the decoded three-dimensional audio signal based on the reproduction information of the three-dimensional audio content, wherein the reproduction information includes information on a transition effect of the three-dimensional audio content. It features.
  • an audio data receiving apparatus for transmitting audio data.
  • the audio data receiving apparatus includes: a receiver configured to receive reproduction information of 3D audio content and an encoded 3D audio signal of the 3D audio content from an audio data transmission apparatus, and to decode the encoded 3D audio signal And a rendering unit configured to render the decoded 3D audio signal based on the reproduction information of the 3D audio content, wherein the reproduction information includes information about a transition effect of the 3D audio content. It is done.
  • an audio data transmission method performed by an audio data transmission apparatus may include generating reproduction information of 3D audio content, encoding a 3D audio signal of the 3D audio content, and generating and generating the 3D audio signal of the encoded 3D audio content. And transmitting the reproduced reproduction information to an audio data receiving apparatus, wherein the reproduction information includes information on a transition effect of the 3D audio content.
  • an audio data transmission device for transmitting audio data.
  • the apparatus for transmitting audio data includes a metadata generator for generating reproduction information of 3D audio content, an audio signal encoder for encoding a 3D audio signal of the 3D audio content, and the 3 of the encoded 3D audio content. And a transmission unit for transmitting the generated 3D audio signal and the generated reproduction information to an audio data receiving apparatus, wherein the reproduction information includes information about a transition effect of the 3D audio content.
  • an audio data transmission device and an audio data reception device can provide a method for efficiently transmitting and receiving audio data for 3D audio content.
  • an audio data transmission device and an audio data reception device can provide a method for efficiently transmitting and receiving audio data for VR or AR content.
  • the present invention it is possible to provide a method of more efficiently reproducing 3D audio content based on reproduction information of 3D audio content received from an audio data transmission device.
  • a method of more efficiently rendering (or reproducing) a 3D audio signal for VR or AR content based on the reproduction information of VR or AR content received from the audio data transmission device may be provided. Can be.
  • FIG. 1 is a diagram illustrating an overall architecture for providing 360 content according to an embodiment.
  • FIGS. 2 and 3 are diagrams illustrating a structure of a media file according to an embodiment.
  • FIG 4 shows an example of the overall operation of the DASH-based adaptive streaming model.
  • FIG. 5 is a diagram illustrating an example of a reproduction space of three-dimensional audio content.
  • FIG. 6 is a block diagram illustrating a configuration of an apparatus for receiving 3D audio data according to an embodiment.
  • FIGS. 7A and 7B are diagrams illustrating examples of a virtual space and a real space where three-dimensional audio content is played.
  • FIG. 8 is a diagram illustrating an example of a three-dimensional audio stream.
  • FIG. 9 is a diagram illustrating another example of a three-dimensional audio stream.
  • 10A and 10B are flowcharts illustrating a process of processing a 3D audio stream in a 3D audio data receiving apparatus according to an embodiment.
  • FIG. 11 is a flowchart illustrating a method of operating a 3D audio data receiving apparatus according to an embodiment.
  • FIG. 12 is a block diagram illustrating a configuration of a 3D audio data receiving apparatus according to another embodiment.
  • FIG. 13 is a block diagram illustrating a configuration of an audio data transmission apparatus according to an embodiment.
  • FIG. 14 is a flowchart illustrating a method of operating an audio data transmission apparatus according to an embodiment.
  • 15 is a block diagram illustrating a configuration of an audio data receiving apparatus according to an embodiment.
  • 16 is a flowchart illustrating a method of operating an audio data receiving apparatus according to another exemplary embodiment.
  • an audio data receiving method performed by an audio data receiving apparatus includes receiving reproduction information of 3D audio content and an encoded 3D audio signal of the 3D audio content from an audio data transmission device, decoding the encoded 3D audio signal, and Rendering the decoded three-dimensional audio signal based on the reproduction information of the three-dimensional audio content, wherein the reproduction information includes information on a transition effect of the three-dimensional audio content. It features.
  • each configuration in the drawings described in the present invention are shown independently for the convenience of description of the different characteristic functions, it does not mean that each configuration is implemented by separate hardware or separate software.
  • two or more of each configuration may be combined to form one configuration, or one configuration may be divided into a plurality of configurations.
  • Embodiments in which each configuration is integrated and / or separated are also included in the scope of the present invention without departing from the spirit of the present invention.
  • FIG. 1 is a diagram illustrating an overall architecture for providing 360 content according to an embodiment.
  • the 360-degree content may be referred to as three degrees of freedom (DoF) content
  • VR may mean a technology or an environment for replicating a real or virtual environment. VR artificially provides the user with a sensational experience, which allows the user to experience the same as being in an electronically projected environment.
  • 360 content refers to the overall content for implementing and providing VR, and may include 360 degree video and / or 360 audio.
  • 360 degree video and / or 360 audio may be referred to as three-dimensional video and / or three-dimensional audio.
  • 360 degree video may refer to video or image content that is needed to provide VR, and simultaneously captured or played back in all directions (360 degrees).
  • the 360 degree video may mean a 360 degree video.
  • 360 degree video may refer to a video or an image displayed on various types of 3D space according to a 3D model, for example, 360 degree video may be displayed on a spherical surface.
  • 360 audio is also audio content for providing VR, and may mean spatial audio content, in which a sound source can be recognized as being located in a specific space in three dimensions.
  • 360 audio may also be referred to as three-dimensional audio.
  • 360 content may be generated, processed, and transmitted to users, and users may consume the VR experience using 360 content.
  • 360 degree video may first be captured via one or more cameras.
  • the captured 360-degree video is transmitted through a series of processes, and the receiving side can process and render the received data back into the original 360-degree video. This may provide a 360 degree video to the user.
  • the entire process for providing the 360 degree video may include a capture process, preparation process, transmission process, processing process, rendering process, and / or feedback process.
  • the capturing process may refer to capturing an image or video for each of a plurality of viewpoints through one or more cameras.
  • Image / video data such as 110 of FIG. 1 shown by the capture process may be generated.
  • Each plane of FIG. 1 110 shown may mean an image / video for each viewpoint.
  • the captured plurality of images / videos may be referred to as raw data.
  • metadata related to capture may be generated.
  • Special cameras for VR can be used for this capture.
  • capture through an actual camera may not be performed.
  • the corresponding capture process may be replaced by simply generating related data.
  • the preparation process may be a process of processing the captured image / video and metadata generated during the capture process.
  • the captured image / video may undergo a stitching process, a projection process, a region-wise packing process, and / or an encoding process in this preparation process.
  • each image / video can be stitched.
  • the stitching process may be a process of connecting each captured image / video to create a panoramic image / video or a spherical image / video.
  • the stitched image / video may be subjected to a projection process.
  • the stitched image / video may be projected onto the 2D image.
  • This 2D image may be called a 2D image frame depending on the context. It can also be expressed as mapping a projection to a 2D image to a 2D image.
  • the projected image / video data may be in the form of a 2D image as shown in FIG. 1 120.
  • the video data projected onto the 2D image may be subjected to region-wise packing to increase video coding efficiency and the like.
  • the region-specific packing may refer to a process of dividing the video data projected on the 2D image by region and applying the process.
  • the region may mean a region in which 2D images projected with 360-degree video data are divided.
  • the regions may be divided evenly or arbitrarily divided into 2D images according to an embodiment. In some embodiments, regions may be divided according to a projection scheme.
  • the region-specific packing process is an optional process and may be omitted in the preparation process.
  • this processing may include rotating each region or rearranging on 2D images in order to increase video coding efficiency. For example, by rotating the regions so that certain sides of the regions are located close to each other, efficiency in coding can be increased.
  • the process may include increasing or decreasing a resolution for a specific region in order to differentiate the resolution for each region of the 360 degree video. For example, regions that correspond to relatively more important regions on 360 degree video may have higher resolution than other regions.
  • the video data projected onto the 2D image or the packed video data per region may be subjected to an encoding process through a video codec.
  • the preparation process may further include an editing process.
  • editing process editing of image / video data before and after projection may be further performed.
  • metadata about stitching / projection / encoding / editing may be generated.
  • metadata about an initial time point, or a region of interest (ROI) of video data projected on the 2D image may be generated.
  • the transmission process may be a process of processing and transmitting image / video data and metadata that have been prepared. Processing may be performed according to any transport protocol for the transmission. Data that has been processed for transmission may be delivered through a broadcast network and / or broadband. These data may be delivered to the receiving side in an on demand manner. The receiving side can receive the corresponding data through various paths.
  • the processing may refer to a process of decoding the received data and re-projecting the projected image / video data onto the 3D model.
  • image / video data projected on 2D images may be re-projected onto 3D space.
  • This process may be called mapping or projection depending on the context.
  • the mapped 3D space may have a different shape according to the 3D model.
  • the 3D model may have a sphere, a cube, a cylinder, or a pyramid.
  • the processing process may further include an editing process, an up scaling process, and the like.
  • editing process editing of image / video data before and after re-projection may be further performed.
  • the size of the sample may be increased by upscaling the samples during the upscaling process. If necessary, the operation of reducing the size through down scaling may be performed.
  • the rendering process may refer to a process of rendering and displaying re-projected image / video data in 3D space. Depending on the representation, it may be said to combine re-projection and rendering to render on a 3D model.
  • the image / video re-projected onto the 3D model (or rendered onto the 3D model) may have a shape such as 130 of FIG. 1 shown. 1, 130 is shown when re-projected onto a 3D model of a sphere.
  • the user may view some areas of the rendered image / video through the VR display. In this case, the region seen by the user may be in the form as shown in 140 of FIG. 1.
  • the feedback process may mean a process of transmitting various feedback information that can be obtained in the display process to the transmitter. Through the feedback process, interactivity may be provided for 360-degree video consumption. According to an embodiment, in the feedback process, head orientation information, viewport information indicating an area currently viewed by the user, and the like may be transmitted to the transmitter. According to an embodiment, the user may interact with those implemented on the VR environment, in which case the information related to the interaction may be transmitted to the sender or service provider side in the feedback process. In some embodiments, the feedback process may not be performed.
  • the head orientation information may mean information about a head position, an angle, and a movement of the user. Based on this information, information about the area currently viewed by the user in the 360 degree video, that is, viewport information, may be calculated.
  • the viewport information may be information about an area currently viewed by the user in 360 degree video. Through this, a gaze analysis may be performed to determine how the user consumes 360 degree video, which area of the 360 degree video, and how much. Gayes analysis may be performed at the receiving end and delivered to the transmitting side via a feedback channel.
  • a device such as a VR display may extract a viewport area based on the position / direction of a user's head, vertical or horizontal field of view (FOV) information supported by the device, and the like.
  • FOV horizontal field of view
  • the above-described feedback information may be consumed at the receiving side as well as being transmitted to the transmitting side. That is, the decoding, re-projection, rendering process, etc. of the receiving side may be performed using the above-described feedback information. For example, using head orientation information and / or viewport information, only 360 degree video for the area currently being viewed by the user may be preferentially decoded and rendered.
  • the viewport to the viewport area may mean an area that the user is viewing in the 360 degree video.
  • a viewpoint is a point that a user is viewing in the 360 degree video and may mean a center point of the viewport area. That is, the viewport is an area centered on the viewpoint, and the size shape occupied by the area may be determined by a field of view (FOV) to be described later.
  • FOV field of view
  • 360-degree video data image / video data that undergoes a series of processes of capture / projection / encoding / transmission / decoding / re-projection / rendering may be referred to as 360-degree video data.
  • the term 360 degree video data may also be used as a concept including metadata or signaling information associated with such image / video data.
  • the media file may have a file format based on ISO BMFF (ISO base media file format).
  • FIGS. 2 and 3 are diagrams illustrating a structure of a media file according to an embodiment.
  • the media file may include at least one box.
  • the box may be a data block or an object including media data or metadata related to the media data.
  • the boxes may form a hierarchical structure with each other, such that the data may be classified so that the media file may be in a form suitable for storage and / or transmission of a large amount of media data.
  • the media file may have an easy structure for accessing the media information, such as a user moving to a specific point of the media content.
  • the media file may include an ftyp box, a moov box, and / or an mdat box.
  • An ftyp box can provide file type or compatibility related information for a corresponding media file.
  • the ftyp box may include configuration version information about media data of a corresponding media file.
  • the decoder can identify the media file by referring to the ftyp box.
  • the moov box may be a box including metadata about media data of a corresponding media file.
  • the moov box can act as a container for all metadata.
  • the moov box may be a box of the highest layer among metadata related boxes. According to an embodiment, only one moov box may exist in a media file.
  • the mdat box may be a box containing actual media data of the media file.
  • Media data may include audio samples and / or video samples, where the mdat box may serve as a container for storing these media samples.
  • the above-described moov box may further include a mvhd box, a trak box and / or an mvex box as a lower box.
  • the mvhd box may include media presentation related information of media data included in the media file. That is, the mvhd box may include information such as media generation time, change time, time specification, duration, etc. of the media presentation.
  • the trak box can provide information related to the track of the media data.
  • the trak box may include information such as stream related information, presentation related information, and access related information for an audio track or a video track.
  • the trak box may further include a tkhd box (track header box) as a lower box.
  • the tkhd box may include information about the track indicated by the trak box.
  • the tkhd box may include information such as a creation time, a change time, and a track identifier of the corresponding track.
  • the mvex box (movie extend box) may indicate that the media file may have a moof box to be described later. To know all the media samples of a particular track, moof boxes may have to be scanned.
  • the media file according to an embodiment may be divided into a plurality of fragments (200). Through this, the media file may be divided and stored or transmitted.
  • the media data (mdat box) of the media file may be divided into a plurality of fragments, and each fragment may include a mdat box and a moof box.
  • information of the ftyp box and / or the moov box may be needed to utilize the fragments.
  • the moof box may provide metadata about media data of the fragment.
  • the moof box may be a box of the highest layer among metadata-related boxes of the fragment.
  • the mdat box may contain the actual media data as described above.
  • This mdat box may include media samples of media data corresponding to each corresponding fragment.
  • the above-described moof box may further include a mfhd box and / or a traf box as a lower box.
  • the mfhd box may include information related to an association between a plurality of fragmented fragments.
  • the mfhd box may include a sequence number to indicate how many times the media data of the corresponding fragment is divided. In addition, it may be confirmed whether there is no missing data divided using the mfhd box.
  • the traf box may include information about a corresponding track fragment.
  • the traf box may provide metadata about the divided track fragments included in the fragment.
  • the traf box may provide metadata so that media samples in the track fragment can be decoded / played back. There may be a plurality of traf boxes according to the number of track fragments.
  • the above-described traf box may further include a tfhd box and / or a trun box as a lower box.
  • the tfhd box may include header information of the corresponding track fragment.
  • the tfhd box may provide information such as a basic sample size, a duration, an offset, an identifier, and the like for media samples of the track fragment indicated by the traf box described above.
  • the trun box may include corresponding track fragment related information.
  • the trun box may include information such as duration, size, and playback time of each media sample.
  • the aforementioned media file or fragments of the media file may be processed into segments and transmitted.
  • the segment may have an initialization segment and / or a media segment.
  • the file of the illustrated embodiment 210 may be a file including information related to initialization of the media decoder except media data. This file may correspond to the initialization segment described above, for example.
  • the initialization segment may include the ftyp box and / or moov box described above.
  • the file of the illustrated embodiment 220 may be a file including the above-described fragment. This file may correspond to the media segment described above, for example.
  • the media segment may include the moof box and / or mdat box described above.
  • the media segment may further include a styp box and / or a sidx box.
  • the styp box may provide information for identifying the media data of the fragmented fragment.
  • the styp box may play the same role as the above-described ftyp box for the divided fragment.
  • the styp box may have the same format as the ftyp box.
  • the sidx box may provide information indicating an index for the divided fragment. Through this, it is possible to indicate how many fragments are the corresponding fragments.
  • the ssix box may be further included.
  • the ssix box (sub-segment index box) may provide information indicating an index of the sub-segment when the segment is further divided into sub-segments.
  • the boxes in the media file may include more extended information based on a box-to-full box form such as the illustrated embodiment 250.
  • the size field and the largesize field may indicate the length of the corresponding box in bytes.
  • the version field may indicate the version of the box format.
  • the Type field may indicate the type or identifier of the corresponding box.
  • the flags field may indicate a flag related to the box.
  • fields (properties) for 360-degree video may be delivered in a DASH-based adaptive streaming model.
  • the DASH-based adaptive streaming model according to the illustrated embodiment 400 describes the operation between an HTTP server and a DASH client.
  • DASH Dynamic Adaptive Streaming over HTTP
  • DASH is a protocol for supporting HTTP-based adaptive streaming, and can dynamically support streaming according to network conditions. Accordingly, the AV content can be provided without interruption.
  • the DASH client can obtain the MPD.
  • MPD may be delivered from a service provider such as an HTTP server.
  • the DASH client can request the segments from the server using the access information to the segment described in the MPD. In this case, the request may be performed by reflecting the network state.
  • the DASH client may process it in the media engine and display the segment on the screen.
  • the DASH client may request and acquire a required segment by adaptively reflecting a playing time and / or a network condition (Adaptive Streaming). This allows the content to be played back seamlessly.
  • Adaptive Streaming a network condition
  • MPD Media Presentation Description
  • the DASH Client Controller may generate a command for requesting the MPD and / or the segment reflecting the network situation.
  • the controller can control the obtained information to be used in internal blocks of the media engine and the like.
  • the MPD Parser may parse the acquired MPD in real time. This allows the DASH client controller to generate a command to obtain the required segment.
  • the segment parser may parse the acquired segment in real time. According to the information included in the segment, internal blocks such as the media engine may perform a specific operation.
  • the HTTP client may request the HTTP server for necessary MPDs and / or segments.
  • the HTTP client may also pass MPD and / or segments obtained from the server to the MPD parser or segment parser.
  • the media engine may display content on the screen using media data included in the segment. At this time, the information of the MPD may be utilized.
  • the DASH data model may have a hierarchical structure 410.
  • Media presentation can be described by MPD.
  • the MPD may describe a temporal sequence of a plurality of periods that make up a media presentation.
  • the duration may indicate one section of the media content.
  • the data may be included in the adaptation sets.
  • the adaptation set may be a collection of a plurality of media content components that may be exchanged with each other.
  • the adaptation may comprise a set of representations.
  • the representation may correspond to a media content component.
  • content may be divided in time into a plurality of segments. This may be for proper accessibility and delivery.
  • the URL of each segment may be provided to access each segment.
  • the MPD may provide information related to the media presentation, and the pyorium element, the adaptation set element, and the presentation element may describe the corresponding pyoride, the adaptation set, and the presentation, respectively.
  • the representation may be divided into sub-representations, and the sub-representation element may describe the sub-representation.
  • Common properties / elements can be defined here, which can be applied (included) to adaptation sets, representations, subrepresentations, and so on.
  • common properties / elements there may be an essential property and / or a supplemental property.
  • the essential property may be information including elements that are considered essential in processing the media presentation related data.
  • the supplemental property may be information including elements that may be used in processing the media presentation related data. According to an embodiment, descriptors to be described below may be defined and delivered in essential properties and / or supplemental properties when delivered through the MPD.
  • 3D audio data is processed in connection with an embodiment according to the present invention. It will be described in more detail.
  • FIG. 5 is a diagram illustrating an example of a reproduction space of three-dimensional audio content.
  • audio content may mean media content such as video, 360 video, VR content, AR content, or the like including audio information.
  • three-dimensional audio content may refer to three-dimensional media content, such as 360 video, VR content, AR content, including audio information.
  • audio data transmission apparatus may refer to an apparatus for transmitting audio data such as an audio signal and metadata about audio.
  • three-dimensional audio data transmission apparatus may mean an apparatus for transmitting three-dimensional audio data, such as a three-dimensional audio signal, metadata about the three-dimensional audio.
  • the audio data transmitting apparatus does not always transmit audio data to the audio data receiving apparatus or the like, and may receive audio data from the audio data receiving apparatus in some cases.
  • the apparatus for transmitting audio data may be the same / similar to the transmitter, transmitter, transmitter, or content producer as described in the present specification, or may include, or be included in, a transmitter, transmitter, transmitter, or content producer. It can be interpreted as.
  • An audio data transmission device, a transmitter, a transmitter, a transmitter, or a content producer may be, for example, a network, a server, a cloud server, a base station, a set top box (STB), a PC, a terminal (UE), a desktop, a TV, a notebook, and the like. It may be a configuration or module included in the illustrated devices, and further, devices similar to the illustrated devices may operate as an audio data transmission device, a transmitter, a transmitter, a transmitter, or a content producer. Examples are not limited to this.
  • an "audio data receiving apparatus” may refer to an apparatus for receiving audio data such as an audio signal, metadata about audio, and the like.
  • the "three-dimensional audio data receiving apparatus” may mean an apparatus for receiving three-dimensional audio data, such as a three-dimensional audio signal, metadata about the three-dimensional audio.
  • the audio data receiving apparatus does not always receive audio data from the audio data transmitting apparatus, but may transmit audio data to the audio data transmitting apparatus in some cases.
  • the audio data receiving apparatus may be interpreted as being a device that is the same / similar to the receiving end, the receiver, or the receiving device described in the present specification, includes the receiving end, the receiver or the receiving device, or is included in the receiving end, the receiver, or the receiving device.
  • the audio data receiving device, the receiving end, the receiver, or the receiving device may be, for example, headphones, earphones, speakers, HMDs, terminals, set-top boxes, networks, servers, PCs, desktops, laptops, cameras, camcorders, TVs, and the like. It may be a configuration or a module included in the illustrated devices, and further, devices similar to the illustrated devices may operate as an audio data receiving device, a receiving end, a receiver, or a receiving device. Examples are not limited to this.
  • the 3D audio data receiving apparatus (or 3D audio data decoding apparatus) according to MPEG-H may support VR content in 3DoF and 3DoF + environments, and may further support VR content in 6DoF environments.
  • a transition effect can be applied when a scene is changed in the VR content, and information about the transition effect can be signaled to apply the transition effect.
  • two scenes are captured in an arbitrary space, and the direction of the instruments illustrated in FIG. 5 and the size of the sound source may be different according to the captured positions. Therefore, when a user moves a location from Scene A to Scene B, not only the relevant location information (or scene information) should be signaled, but also factors that may occur in the process of moving the location may need to be considered. have. Elements that can be generated in the course of moving the position may be sound effects, for example when considered in terms of audio. In embodiments according to the present invention, if the user changes the position, the audio scene is considered to be changed, and thus information about the transition effect may be signaled.
  • FIG. 6 is a block diagram illustrating a configuration of an apparatus for receiving 3D audio data according to an embodiment.
  • a decoder capable of reproducing VR or 3D audio content may include a 3D audio data decoding apparatus according to MPEG-H, which has been standardized in MPEG.
  • the apparatus for receiving 3D audio data according to FIG. 6 may represent the apparatus for decoding 3D audio data according to MPEG-H.
  • the 3D audio data decoding apparatus may be referred to as a 3D audio decoder, a 3D audio decoder, a 3D audio decoding apparatus, or the like.
  • the bitstream may be generated by encoding and bitpacking an audio signal input from a transmitter, wherein the audio signal type may be a channel signal, an object signal, or a scene-based high order ambisonic (HOA) signal.
  • the object signal and the other signal may be input in combination.
  • the channel signal and the object signal may be combined, or the HOA signal and the object signal may be combined.
  • the bitstream may be input to a 3D audio data decoding apparatus according to MPEG-H and output decoded signals.
  • the decoded signals may be output in the order of the signal types encoded at the transmitter.
  • object metadata information about the object information may also be output.
  • the decoded signals are passed to the rendering and mixing stage, and the object metadata information outputted together is transferred to the metadata and interface data processing stage and additionally inputted from the outside. It can be combined with configurable information to change the characteristics of the final output signal.
  • Information that can be additionally set up from the outside may largely include playback environment information and user interaction information.
  • the playback environment information is information on the playback environment of the audio that the user listens to.
  • the playback environment (speaker or headphones) (Rendering type), whether head tracking is used (Tracking mode, Scene displacement info.), And an external connection device (WIRE) You can optionally input the output setup, local screen size info.
  • the user interaction information is information that gives the user intention during audio reproduction, and allows the user to change the characteristics (position and size) of the object signal (Interaction mode, Interaction data info.), Screen, and zoom area info.
  • the function can be applied to the playback signal in real time. For example, when the user wants to change the characteristic information of an arbitrary object during audio reproduction, it is necessary to modify the received object metadata information in the corresponding process to suit the user's intention.
  • the metadata and interface data processing stage not only sets a playback environment but also includes a process of transforming object metadata by referring to externally input information (ie, user interaction information).
  • the rendering and mixing stage may represent a module for outputting the decoded signal in accordance with externally input reproduction environment information. In this case, the renderer may be determined according to the type of the decoded signal.
  • a channel converter may be used when rendering the channel signals, and may be input to the object renderer together with the object metadata when the object signal is rendered.
  • the HOA renderer may be used for the HOA type signal.
  • each decoded signal may be input to a renderer corresponding to each audio type, and may be output by the respective renderers by reconstructing the signals with reference to the reproduction environment information (speaker environment). If the decoded signal is a form in which two types of signals are combined, the channel signal may be output by adding signals rendered to match the output speaker position during the mixing process.
  • the BIRural Binaural Room Impulse Responses (BRIRs) recorded at the speaker position in the playback environment can be filtered and added to the rendered signal to output the final stereo signals OutL and OutR. have. Since filtering directly on the rendered signal of the bilateral BRIR requires a large amount of computation, the parameterization process can be used as an optional tool.
  • feature information of the BRIR may be extracted as a parameter, and the extracted parameter may be directly applied to a signal.
  • the tracking mode is information on whether the head tracking function is used or not.
  • the direction information that is changed every time the user moves the head includes the scene displacement information ( Scene displacement information), and the existing direction information can be updated by referring to the information in the metadata and interface processing stage.
  • the decoded signal may be rendered using the updated information. This allows the user to experience three-dimensional audio using the tracking mode.
  • the dotted block below represents a module for modeling a BRIR.
  • BRIR also varies according to the user's location, as the feature information applies a scene having a different location. Need to be applied.
  • the BRIR module shows a process of modeling a BRIR with reference to user location information and applying the same to an audio signal.
  • the orientation related information may be received and processed through the scene displacement syntax.
  • Tables 1 and 2 below define examples of syntax for receiving location information of a user.
  • Table 1 and Table 2 may indicate the syntax of mpeg3daSceneDisplacementData.
  • sd_elevation means user location change information about the scene based on the elevation angle.
  • the elevation angle can be expressed as a value between -90 and 90 degrees.
  • El 3 ⁇ (sd_elevation-32);
  • El min (max (El, -90), 90); It can be calculated based on.
  • sd_x means user position change information about the scene based on the x-axis.
  • the unit is meter and can be displayed as a value between 0 and 167 km.
  • Dist_x 10 ⁇ (0.03225380 * sd_x) -1 can be calculated based on.
  • sd_y means the user's position change information about the scene with respect to the y-axis.
  • the unit is meter and can be displayed as a value between 0 and 167 km.
  • Dist_y 10 ⁇ (0.03225380 * sd_y) -1; It can be calculated based on.
  • sd_z means the user's position change information about the scene based on the z-axis.
  • the unit is meter and can be displayed as a value between 0 and 167 km.
  • Dist_z 10 ⁇ (0.03225380 * sd_z) -1; It can be calculated based on.
  • Table 1 and Table 2 refer to location information.
  • location information is represented by spherical coordinates
  • location information is represented by Cartesian coordinates.
  • the receiver may support either one or all coordinate systems.
  • the 3D audio data decoder capable of receiving the syntax information may render the audio signal with reference to the changed location information of the user. The user can experience the optimal three-dimensional audio by listening to the signal rendered in accordance with the change in the location information.
  • FIGS. 7A and 7B are diagrams illustrating examples of a virtual space and a real space where three-dimensional audio content is played.
  • Figure 7a and 7b virtual space in which the audio content is reproduced in two dimensions, but for convenience of description, it is easy to have a three-dimensional structure of the space Will understand.
  • FIG. 7A illustrates an example of a captured VR environment of a scene
  • FIG. 7B illustrates an example of a playback environment (eg, a 5-channel speaker environment) of a user.
  • FIG. 7A may further embody the VR environment according to FIG. 5.
  • it may be desirable in terms of performance to capture the scene and overlap each other to ensure continuity of the scene.
  • capturing the scene and overlapping scenes can perceive performance differences when using content in a 6DoF environment.However, when users move positions in the same way as teleports, that is, instantaneous transitions, there is a big difference in performance. It may not be recognized.
  • a method of instantaneous transition will be described.
  • FIG. 7A it is assumed that a user is initially at an arbitrary position w of Scene A and can move by inputting desired position information to a receiver or an arbitrary device.
  • the user can move anywhere in the VR space, but can be characterized by three regions. There are three different regions of Scene A (Region 1), Regions where Scene A and Scene B overlap (Region 2), and Scene B Region (Region 3). If you move from the initial location to another area of Scene A, the scene information does not need to be changed. However, the characteristics of the sound source to be played back may need to be changed according to the user position. For example, in FIG. 7A, when the user moves from the initial position w to x, the wind instrument sound should sound very close.
  • the moving effect may be referred to as a transition effect, but the name is not limited thereto.
  • it may be referred to as a transition effect, a transition effect, etc. instead of a transition effect.
  • three or more types of audios are defined as transition effects, which will be described later.
  • Table 3 shows an example of the syntax that defines the characteristics of the three information and transition effects presented above.
  • the syntax can be received by the 3D audio decoder to ensure that the appropriate scene and transition effects are signaled.
  • a portion where the information is received is shown by a thick line.
  • numScenes means the total number of scenes.
  • Scene_idx defines a unique ID value for each scene to identify a plurality of scenes. Scene_idx values can start at zero.
  • numTransEffectPos means the total number of transition positions defined for each scene. TranPos_idx defines a unique ID value of each transition position to identify a plurality of transition positions. The TranPos_idx value can start at zero.
  • TransScene_idx defines the scene to be played at the transition position. Depending on the defined position, the scene to be played at the transition position may or may not match the current scene.
  • TransEffectType defines the type of transition effect. Types of transition effects are shown in Table 4 below, for example.
  • the TransEffectType may include a FADEIN-FADEOUT type, a Doppler type, a REVERBERATION type, and a BINAURAL RENDERING type, and may also include various types.
  • TransEffectAudioType defines the type of audio signal to be used for the transition effect. Types of the transition effect audio are shown in Table 5 below, for example.
  • NATURAL SOUND means audio recorded in a real environment
  • SYNTHETIC SOUND means audio synthesized by a sound engineer.
  • SPOKEN_TEXT basically means vocal voice, but can be further refined depending on the purpose.
  • SPOKEN_TEXT (GUIDE) means audio that refers to the scene or scene related information used at the transition location (for example, consider audio that says "Move to Scene 2").
  • SPOKEN_TEXT (INFORMATION) refers to basic information about the transition position
  • SPOKEN_TEXT DIRECTION refers to audio referring to the direction in which the transition position is located with respect to the current scene.
  • TransEffectAudioHasGain defines whether the transition effect audio has a gain value.
  • TransEffectAudio_gain defines the gain value of the transition effect audio.
  • the user may change the audio scene information even while the audio content is played.
  • the 3D audio decoder may also change characteristics of elements (channel, object, or HOA type signal) constituting the scene through ElementInteractionData (). Since the payload is used for the purpose of interacting the audio content with the user of the receiving end, the receiving end can generate the relevant information and input it to the encoder if necessary. Transition effects generally occur in the course of using arbitrary audio content. That is, the elementInteractionData () may be requested to the receiver by including the location change (or transition) information desired by the user. Table 6 shows the ElementInteractionData () syntax including the transition effect information.
  • isTransEffectOn indicates whether a transition effect is used (or transitioned).
  • Scene_idx means an ID value corresponding to the scene selected by the user.
  • isDefinedTranPosUsed indicates whether predefined location information is used.
  • TransPos_idx means an ID value corresponding to a predefined position.
  • TranPos_elevation represents the position information of the transition position selected by the user as an angle value in terms of elevation angle.
  • transition effect information added from the existing ElementInteractionData syntax is indicated by a dotted line area.
  • the user can first set the scene when positioning the transition. Next, you can decide whether to move to a predefined location for each scene or to a location that you set yourself.
  • Scene_idx and TransScene_idx values in Table 6 may correspond to Scene_idx [scn] and TransScene_idx [scn] [pos] defined in Table 3, respectively.
  • Table 3 The contents defined in Table 3 show the case where only one transition effect is defined for each scene transition position.
  • TransEffectInfo () can be applied to the user. If a plurality of transition effects are defined for each transition position of each scene, when a transition effect occurs, the user may be able to select a type of transition effect.
  • Table 7 an example of syntax for TrasEffectInfo () that defines a plurality of transition effects for each transition position is shown in Table 7 below.
  • Table 7 is almost similar to Table 3. However, Table 7 defines multiple transition effect audios for a single scene. Therefore, an index for identifying a plurality of transition effects is additionally defined.
  • TransEffectAudio_idx defines a unique ID value for each transition effect to identify a plurality of transition effects.
  • the TransEffectAudio_idx value can start at zero.
  • ElementInteractionData () corresponding to Table 7 may be as shown in Table 8 below. To minimize redundancy, Table 8 shows only the syntax related to transition effects.
  • TransEffectType represents a selection for the type of transition effect. Types of transition effects follow Table 4 above.
  • TransEffectAudioType represents a selection for the type of transition effect audio. Types of transition effect audio follow Table 5 above.
  • FIG. 8 is a diagram illustrating an example of a three-dimensional audio stream.
  • the audio-related setting information and the stream may be configured in the form of packets at the transmitting end and then generated as a stream and transmitted to the receiving end as the 3D audio standard.
  • Each packet may consist of a packet type, a label identifying various packet types, and a payload containing various information. 8 shows an example of a simplified 3D audio stream.
  • SYNC, MHCFG, MHASC, and MHFRM mean PACTYP_SYNC, PACTYP_MPEGH3DACFG, PACTYP_AUDIOSCENEINFO, and PACTYP_MPEGH3DAFRAME, respectively.
  • PACTYP_SYNC is a packet used for transmission over a channel for which frame synchronization cannot be used, and PACTYP_MPEGH3DACFG may be required when decoding an audio stream with information including a decoding configuration.
  • the mpegh3daconfig () function can be called.
  • PACTYP_AUDIOSCENEINFO is a packet in which audio scene information is defined.
  • This packet is transmitted only when an audio scene is defined and may be located after PACTYP_MPEGH3DACFG.
  • the mae_AudioSceneInfo () function can be called.
  • PACTYP_MPEGH3DAFRAME may include all audio stream information and may be called through mpeg3daframe () function. Accordingly, in the decoding order according to the embodiment of FIG. 8, first, the decoding configuration is set, and the defined audio scene information is received. Next, call mpeg3daframe () every frame to decode and render the audio stream.
  • Table 9 and Table 10 show some packets in addition to the aforementioned packets. In one example, Tables 9 and 10 may update the table according to the MPEG-H 3D audio specification.
  • FIG. 9 is a diagram illustrating another example of a three-dimensional audio stream.
  • FIG. 9 may represent a case in which only a packet related to a transition effect is added to an existing bitstream.
  • MHTRA may refer to a transition effect related packet, and information on the transition effect related packet is disclosed in the dot sum of Table 9. Referring to FIG. 9, it can be seen that the MHTRA packet is called before the MHFRA packet is called in comparison with FIG. Transition effect related audio streams related to MHTRA may be included in the MHFRA packet together with the audio stream to be simultaneously decoded when the audio signals are decoded, or related transition effect audio streams may be decoded when signaling that the transition effect is used.
  • 10A and 10B are flowcharts illustrating a process of processing a 3D audio stream in a 3D audio data receiving apparatus according to an embodiment.
  • FIG. 10A schematically illustrates a call flow diagram of a bitstream according to FIG. 9.
  • a more specific call and operation process (including the receiver's input information) for FIG. 10A is shown in FIG. 10B.
  • the payload required to perform decoding configuration for the audio signal may be received by calling mpeg3daConfig ().
  • mpeg3daConfig if an audio scene is defined (when an audio scene related packet (MHASI) is received), mae_AudioSceneInfo () may be called to receive payloads of elements constituting the audio scene. If no audio scene is defined, you can proceed directly to the next step.
  • MHASI audio scene related packet
  • MHASI audio scene related packet
  • mae_AudioSceneInfo may be called to receive payloads of elements constituting the audio scene. If no audio scene is defined, you can proceed directly to the next step.
  • TransEffectInfo may be called to receive the transition effect related payload.
  • mpeg3daframe is called, where all compressed audio signals can be dequantized and decoded. In this process, not only the existing audio signal but also transition effect audio related signals may be decoded together.
  • the information input by the receiver is input to the receiver, and mpeg3daLocalSetupInformation () is used for receiving environment information of the receiver, and mpeg3daElementInteraction () is used for the feature information of the audio scene that is changed by the user.
  • Mpeg3daDisplacment () can input the user's tracking information to the receiver.
  • mpeg3daElementInteraction () and mpeg3daDisplacement () may continue to be received during audio content playback.
  • the receiver may set the output channel environment by analyzing the received information, and apply the analyzed receiver information to the decoded audio signal to render the audio signals according to the output channel environment.
  • transition effect audio can be played before the scene to be changed, and then the scene to be changed.
  • the MPEG audio subgroup proposes an earcon PCM signal that represents an object type audio having a short playback time, such as transition effect audio, and is packetized as it is and stored in the bitstream as it is.
  • An embodiment of the present invention further proposes a method for supporting a transition effect audio PCM signal like the earcon PCM signal proposed previously.
  • Table 5 was updated as shown in Table 11 to signal that the transition effect audio is a PCM signal.
  • the first method is to add information related to the transition effect audio PCM signal to the payload syntax of the packet supporting the existing earcon PCM signal. Examples of specific syntax are shown in Tables 12 to 15 below.
  • the dotted lines of Table 12 and Table 13 show newly defined packets to support the PCM signal.
  • Tables 14 and 15 show specific syntax for newly defined packets.
  • the dotted line area shows newly added information compared to the existing syntax.
  • numPcmSignals means the total number of PCM signals included in pcmDataPayload ().
  • numTransEffectAudioPcmSignals is the total number of transition effect audio PCM signals in pcmDataPlayload (). Therefore, the difference from numPcmSignals is the total number of earcon PCM signals.
  • pcmSamplingRateIndex represents an index for determining a sampling rate of a PCM signal. In one example, the index may follow a table defined in the existing specification.
  • pcmBitsPerSample means the number of bits per sample of the PCM signal. The number of bits must be at least four.
  • pcmFrameSizeIndex may indicate an index for determining a frame size of a PCM signal. The index is shown in Table 16 below, for example.
  • pcmFixFrameSize means a fixed frame size of the PCM signal.
  • pcmSignal_ID means an ID assigned to each signal in order to identify each PCM signal.
  • isTransEffectAudioPcmSignal indicates whether the corresponding PCM signal is a transition effect audio signal.
  • bsPcmLoudnessValue represents the loudness value of the PCM signal.
  • bsPcmAttenuationGain represents the attenuation gain value applied to other audio signals activated together when reproducing the PCM signal.
  • numPcmSignalsInFrame represents the number of PCM audio signals delivered from pcmDataPayload ().
  • numTranEffectAudioSignalsInFrame refers to the number of transition effect audio PCM signals among PCM audio signals transmitted from pcmDataPayload ().
  • pcmSignal_ID means an ID for identifying PCM signals.
  • pcmVarFrameSize means a variable frame size of the PCM signal.
  • a second way that 3D audio decoders can support transition effect audio PCM signals is to redefine dedicated packets for receiving transition effect audio PCM signals.
  • this only differs in the characteristics of the audio signal, and may be similar to the information required for receiving the aforementioned earcon. Therefore, in an embodiment of the present invention, the contents of the syntax are used almost similarly. Examples of related syntax definitions are shown in Tables 17-20 below.
  • TranEffectAudioPcmSignals means the total number of transition effect audio PCM signals included in TranEffectAudiopcmDataPayload ().
  • TranEffectAudioSamplingRateIndex means an index for determining a sampling rate of a transition effect audio PCM signal. In one example, the index may follow a table defined in the existing specification. TranEffectAudioSamplingRate can specify an unsigned integer value for the sampling rate of the transition effect audio PCM signal when pcmSamplingRateIndex is zero.
  • TranEffectAudiopcmBitsPerSample refers to the number of bits per sample of the transition effect audio PCM signal. The number of bits must be at least four.
  • TranEffectAudiopcmFrameSizeIndex represents an index for determining the frame size of a transition effect audio PCM signal. In one example, the index may follow Table 16. TranEffectAudiopcmFixFrameSize means the fixed frame size of the transition effect audio PCM signal. TranEffectAudiopcmSignal_ID represents an ID assigned to each signal to identify each transition effect audio PCM signal. bsTranEffectAudioPcmLoudnessValue represents the loudness value of the transition effect audio PCM signal.
  • bsTranEffectAudioPcmAttenuationGain represents the attenuation gain value applied to other audio signals that were activated together when the transition effect audio PCM signal was played.
  • interleavedData 1 means that the transition effect audio signal is interleaved
  • interleavedData 0 means that the transition effect audio signal is not interleaved.
  • numTranEffectAudioPcmSignalsInFrame represents the number of PCM audio signals transmitted in TranEffectAudiopcmDataPayload ().
  • TranEffectAudiopcmSignal_ID means an ID for identifying transition effect audio PCM signals.
  • TranEffectAudioVarFrameSize refers to the variable frame size of the transition effect audio PCM signal.
  • interleavedData 1, numPcmSignalsInFrame * pcmFrameSize * pcmBitsPerSample is calculated, otherwise it may mean numPcmSignalsInFrame frames having a size of pcmFrameSize * pcmBitsPerSample.
  • the technique of changing the scene while experiencing any VR content may allow the user to be more immersed in that content.
  • the technology can be a technology corresponding to the standard requirements.
  • the sound effect of the audio used as the transition effect can be used not only to convey the characteristic information about the changing position as well as the sound having the characteristics of the stereoscopic and spatial feelings, so that the user can use the arbitrary VR content more effectively. Can be.
  • FIG. 11 is a flowchart illustrating a method of operating a 3D audio data receiving apparatus according to an embodiment.
  • the operation method of the 3D audio data receiving apparatus may be configured in nine steps as follows.
  • the decoded audio related information may be extracted from the 3DA decoder configuration stage. That is, basic information such as information on the number of channels of encoded audio signals, information on the number of objects, and a sampling rate may be received and read from the bitstream.
  • grouping information of elements constituting the audio scene may be extracted.
  • decoding may be performed on the encoded audio signal.
  • the signals of the channel, the object, and the HOA type can be decoded as many as the number of audio channels without being distinguished.
  • the reproduction environment information of the receiving end can be set. That is, the receiver may determine which playback device (speaker or headphones) the audio content is to be played back or the speaker when the audio content is played back using the speaker.
  • the receiver may determine which playback device (speaker or headphones) the audio content is to be played back or the speaker when the audio content is played back using the speaker.
  • the scene information TransScene to be updated may be recorded, and at the same time, the transition effect audio type may be selected.
  • decoding when the scene is changed, decoding may be performed by resetting the setup information and the audio scene information of the audio corresponding to the scene.
  • the speaker layout information set in the fourth step may be referenced so that the audio scene is appropriately reproduced in a reproduction environment, and the decoded audio signals may be reconstructed to output a rendered signal.
  • the BIRural filtering may be separately performed to output a binaural rendered signal.
  • FIG. 12 is a block diagram illustrating a configuration of a 3D audio data receiving apparatus according to another embodiment.
  • the bitstream may be input to a demultiplexing stage before being input to the 3D audio decoding stage so that audio data and decoding configuration related information may be parsed.
  • the 3D audio decoding stage may decode audio data with reference to the decoding configuration information, and output decoded signals and object metadata.
  • the object metadata may be input to the metadata and interface data processing stage, and may be modified by the reproduction environment information and the user interaction information.
  • the transition effect information signaled additionally transmits scene information about the position to be changed to the decoder by referring to the position information changed or desired to be changed by the user, to decode audio data related to the scene, and to simultaneously perform the transition effect audio Information can be passed along with the audio data to the rendering and mixing stages.
  • the channel signals ch1 (.pcm), ch2 (.pcm), n, and chN (.pcm) can be output in accordance with the reproduction environment set in the rendering and mixing stage. If the user wants to play in the headphone environment, the channel signals output from the binaural rendering stage may be directly filtered to output the binaural rendered signals (Left signal (.pcm) and Right signal (.pcm)).
  • the two binaurally rendered signals can be reproduced to the left and right transducers of the headphones via the D / A converter and the Amp, respectively.
  • audio rendering may be performed in consideration of change factors related to the scene. May be applied. Capture of a plurality of audio scenes may be associated with an acquisition stage, and transition effects may be associated with an audio decoding stage and an audio rendering stage because transition effects may affect decoding and rendering according to user position changes.
  • FIG. 13 is a flowchart illustrating a method of operating an audio data transmission apparatus according to an embodiment
  • FIG. 14 is a block diagram illustrating a configuration of an audio data transmission apparatus according to an embodiment.
  • FIG. 13 Each step disclosed in FIG. 13 may be based on the above description in FIGS. 5 to 12. Therefore, in describing each step of FIG. 13, detailed descriptions overlapping with those described above with reference to FIGS. 5 through 12 will be omitted or simply described.
  • an audio data transmission apparatus 1400 may include a metadata generator 1410, an audio signal encoder 1420, and a transmitter 1430. However, in some cases, all of the components shown in FIG. 14 may not be essential components of the audio data transmission apparatus 1400, and the audio data transmission apparatus 1400 may have more or less than the components shown in FIG. 14. Can be implemented by components.
  • the metadata generator 1410, the audio signal encoder 1420, and the transmitter 1430 may be implemented as separate chips, or at least two or more chips. Components may be implemented through one chip.
  • the audio data transmission device 1400 may generate reproduction information of 3D audio content (S1300). More specifically, the metadata generator 1410 of the audio data transmission device 1400 may generate reproduction information of 3D audio content.
  • the 3D audio content may be a virtual reality (VR) content or augmented reality (AR) content in a 3DoF, 3DoF + or 6DoF environment.
  • VR virtual reality
  • AR augmented reality
  • the reproduction information may include information about the transition effect of the three-dimensional audio content.
  • the information on the transition effect may include information on a total number of at least one scene included in the 3D audio content, and scene index information for identifying each of the at least one scene. index information), information on the total number of transition positions defined for each of the at least one scene, transition position index information for identifying each of the plurality of transition positions, transition position information, and the transition position.
  • information on the total number of at least one scene included in the 3D audio content is represented by numScenes, and scene index information for identifying each of the at least one scene is represented by Scene_idx.
  • the information on the total number of transition positions defined for each scene of is represented by numTransEffectPos
  • the transition position index information for identifying each of the plurality of transition positions is represented by TranPos_idx
  • the transition position information is represented by TranPos_azimuth, TranPos_elevation, and TranPos_distance.
  • the index information of the scene to be reproduced at the transition position is represented by TransScene_idx
  • the information on the type of the transition effect is represented by TransEffectType
  • the information on the type of audio signal to be used when applying the transition effect is Represented by TransEffectAudioType
  • Information about whether a gain value exists in the audio signal to be used when applying a transition effect may be represented by TransEffectAudioHasGain
  • information about the gain value may be represented by TransEffectAudio_gain.
  • the information on the type of the transition effect may include at least one of a fade in-fade out type, a Doppler type, a reverberation type, and a binaural rendering type.
  • the fade in-fade out type may be represented by FADEIN FADEOUT, the Doppler type by DOPPLER, the reverberation type by REVERBERATION, and the binaural rendering type by BINAURAL RENDERING.
  • the information on the type of the audio signal to be used when applying the transition effect includes at least one of a natural sound type, a synthesized sound type, and a spoken text type, and the spoken
  • the text type may include at least one of a spoken guide text type, a spoken information text type, and a spoken direction text type.
  • the natural sound type is represented by NATURAL SOUND
  • the synthesized sound type is represented by SYNTHETIC SOUND
  • the spoken guide text type is represented by SPOKEN_TEXT (GUIDE)
  • the spoken information text type is represented by SPOKEN_TEXT (INFORMATION).
  • the spoken direction text type may be represented by SPOKEN_TEXT (DIRECTION).
  • the information on the transition effect may further include a transition effect audio index for identifying each of the plurality of transition effects applied to one scene.
  • the transition effect audio index can be represented as TransEffectAudio_idx.
  • the reproduction information may be included in a 3D audio stream, and the 3D audio stream may include a packet including information about the transition effect.
  • the packet including the information on the transition effect may be characterized in that the MHTRA packet.
  • the information on the type of the audio signal may further include a transition effect audio PCM type indicating that the audio signal to be used when applying the transition effect is a PCM signal.
  • a payload syntax of a packet supporting the PCM signal may include PCM related information.
  • the PCM-related information information on the total number of the PCM signal, information on the total number of PCM signals to be used when applying the transition effect, information on the sampling rate of the PCM signal, Information on the number of bits per sample of the PCM signal, information on the frame size of the PCM signal, information on the fixed frame size of the PCM signal, ID information for identifying each of the PCM signals, and the PCM signal being the transition Information about whether or not it is used when applying an effect, information about a loudness value of the PCM signal, information about attenuation gain value applied to another audio signal when reproducing the PCM signal, and whether to interleave the audio signal.
  • Information, information on the total number of the PCM signals in the frame, used when applying the transition effect in the frame Of the information on the information and a variable frame size of the PCM signal for the total number of PCM signal may include at least one.
  • the information on the total number of PCM signals is represented by numPcmSignals
  • the information on the total number of PCM signals to be used when applying the transition effect is represented by numTransEffectAudioPcmSignals
  • the sampling rate of the PCM signal Information is represented by pcmSamplingRateIndex
  • information about the number of bits per sample of the PCM signal is represented by pcmBitsPerSample
  • information about the frame size of the PCM signal is represented by pcmFrameSizeIndex
  • information about the fixed frame size of the PCM signal is represented by numPcmSignals
  • Is represented by pcmFixFrameSize ID information for identifying each of the PCM signals is represented by pcmSignal_ID
  • information about whether the PCM signal is used when applying the transition effect is represented by isTransEffectAudioPcmSignal
  • the sound of the PCM signal Information about the size value is expressed as bsPcmLoudnessValue
  • the PCM Information about attenuation gain applied to other audio signals when playing a call is represented by bsPcmAttenuationGain
  • interleavedData information about whether or not the audio signal is interleaved
  • information about the total number of the PCM signals in the frame It is represented by numPcmSignalsInFrame
  • information about the total number of PCM signals to be used when applying the transition effect in the frame is represented by numTransEffectAudioSignalsInFrame
  • information about the variable frame size of the PCM signal may be represented by pc
  • the audio data transmitting apparatus 1400 According to the operating method of the audio data transmitting apparatus 1400 and the audio data transmitting apparatus 1400 disclosed in FIGS. 13 and 14, the audio data transmitting apparatus 1400 generates reproduction information of 3D audio content (S1300),
  • the 3D audio signal of the 3D audio content may be encoded (S1310), and the 3D audio signal and the generated reproduction information of the encoded 3D audio content may be transmitted to the audio data receiving apparatus (S1320). It may be characterized by including information about the transition effect (transition effect) of the three-dimensional audio content.
  • the audio data transmission device 1400 transmits information about the transition effect of the 3D audio content to the audio data reception device, so that the audio data reception device may transmit a 3D audio signal (eg, 3D audio content) to the 3D audio content.
  • a 3D audio signal eg, 3D audio content
  • an audio signal based on VR content in a 3DoF, 3DoF +, or 6DoF environment or an audio signal based on AR content in a 3DoF, 3DoF +, or 6DoF environment may contribute to efficiently applying transition effects.
  • FIG. 15 is a flowchart illustrating an operation of an audio data receiving apparatus according to an embodiment
  • FIG. 16 is a block diagram illustrating a configuration of an audio data receiving apparatus according to an embodiment.
  • Each step disclosed in FIG. 15 may be performed by the audio data receiving apparatus 1600 of FIG. 16, the three-dimensional audio data receiving apparatus of FIG. 6, or the three-dimensional audio data receiving apparatus of FIG. 12.
  • S1510 of FIG. 15 may be performed by the MPEG-H 3D audio core decoding module of the 3D audio data receiving apparatus of FIG. 6 or the audio signal decoding unit 1620 of FIG. S1520 may be performed by the rendering and mixing module of the apparatus for receiving 3D audio data disclosed in FIG. 6 or the rendering unit 1630 illustrated in FIG. 16.
  • each of the steps disclosed in FIG. 15 may be based on the contents described above with reference to FIGS. 5 through 12. Therefore, in describing each step of FIG. 15, detailed descriptions overlapping with those described above with reference to FIGS. 5 through 12 will be omitted or simply described.
  • the audio data receiving apparatus 1600 disclosed in FIG. 16 and the audio data transmitting apparatus 1400 disclosed in FIG. 14 may be closely related to each other since they transmit and receive audio data. Therefore, in the description of FIGS. 15 and 16, detailed descriptions overlapping with the foregoing descriptions of FIGS. 14 and 15 will be omitted or simply described.
  • an audio data receiving apparatus 1600 may include a receiver 1610, an audio signal decoder 1620, and a renderer 1630. However, in some cases, all of the components shown in FIG. 16 may not be essential components of the audio data receiving apparatus 1600, and the audio data receiving apparatus 1600 may have more or less than the components shown in FIG. Can be implemented by components.
  • the receiver 1610, the audio signal decoder 1620, and the renderer 1630 may be implemented as separate chips, or at least two or more components may be provided. It may be implemented through one chip.
  • the audio data receiving device 1600 may receive reproduction information of 3D audio content and encoded 3D audio signals of 3D audio content from the audio data transmitting device 1400 (S1500). More specifically, the receiver 1610 of the audio data receiving apparatus 1600 may receive reproduction information of the 3D audio content and the encoded 3D audio signal of the 3D audio content from the audio data transmitting apparatus 1400.
  • the 3D audio content may be a virtual reality (VR) content or augmented reality (AR) content in a 3DoF, 3DoF + or 6DoF environment.
  • VR virtual reality
  • AR augmented reality
  • the reproduction information may include information about the transition effect of the three-dimensional audio content.
  • the information on the transition effect may include information on a total number of at least one scene included in the 3D audio content, and scene index information for identifying each of the at least one scene. index information), information on the total number of transition positions defined for each of the at least one scene, transition position index information for identifying each of the plurality of transition positions, transition position information, and the transition position.
  • the information on the type of the transition effect may include at least one of a fade in-fade out type, a Doppler type, a reverberation type, and a binaural rendering type.
  • the information on the type of the audio signal to be used when applying the transition effect includes at least one of a natural sound type, a synthesized sound type, and a spoken text type, and the spoken
  • the text type may include at least one of a spoken guide text type, a spoken information text type, and a spoken direction text type.
  • the information on the transition effect may further include a transition effect audio index for identifying each of the plurality of transition effects applied to one scene.
  • the audio data receiving apparatus 1600 may obtain transition effect interaction information based on a user input.
  • the transition effect interaction information may include information on whether the transition effect is applied, index information of the scene selected by the user, information on whether or not predefined location information is used, and a predefined transition location. It may include at least one of the index information indicating the information and the information about the transition position that is not predefined.
  • the transition effect interaction information may further include selection information on a transition effect type and selection information on an audio signal type to be used when applying the transition effect.
  • the reproduction information may be included in a 3D audio stream, and the 3D audio stream may include a packet including information about the transition effect.
  • the packet including the information on the transition effect may be characterized in that the MHTRA packet.
  • the information on the type of the audio signal may further include a transition effect audio PCM type indicating that the audio signal to be used when applying the transition effect is a PCM signal.
  • a payload syntax of a packet supporting the PCM signal may include PCM related information.
  • the PCM-related information information on the total number of the PCM signal, information on the total number of PCM signals to be used when applying the transition effect, information on the sampling rate of the PCM signal, Information on the number of bits per sample of the PCM signal, information on the frame size of the PCM signal, information on the fixed frame size of the PCM signal, ID information for identifying each of the PCM signals, and the PCM signal being the transition Information about whether or not it is used when applying an effect, information about a loudness value of the PCM signal, information about an attenuation gain value applied to another audio signal when reproducing the PCM signal, and whether or not the audio signal is interleaved.
  • Information, information on the total number of the PCM signals in the frame, used when applying the transition effect in the frame Of the information on the information and a variable frame size of the PCM signal for the total number of PCM signal may include at least one.
  • the audio data receiving apparatus 1600 may decode the encoded 3D audio signal in operation S1510. More specifically, the audio signal decoding unit 1620 of the audio data receiving apparatus 1600 may decode the encoded 3D audio signal.
  • the audio data receiving apparatus 1600 may render the decoded 3D audio signal based on the reproduction information of the 3D audio content (S1620). More specifically, the rendering unit 1630 of the audio data receiving apparatus 1600 may render the decoded 3D audio signal based on the reproduction information of the 3D audio content.
  • the audio data receiving device 1600 reproduces three-dimensional audio content from the audio data transmitting device 1400.
  • Receive information and an encoded 3D audio signal of the 3D audio content S1500
  • decode the encoded 3D audio signal S1510
  • the decoded The 3D audio signal may be rendered (S1520), wherein the reproduction information may include information about a transition effect of the 3D audio content.
  • the audio data receiving apparatus S1600 may include a 3D audio signal for 3D audio content (eg, an audio signal based on VR content in a 3DoF, 3DoF +, or 6DoF environment, or a 3DoF, 3DoF +, or 6DoF environment).
  • a transition effect can be efficiently applied.
  • the above-described modules may be omitted or replaced by other modules performing similar / same operations according to the embodiment.
  • Each part, module, or unit described above may be a processor or hardware part that executes successive procedures stored in a memory (or storage unit). Each of the steps described in the above embodiments may be performed by a processor or hardware parts. Each module / block / unit described in the above embodiments can operate as a hardware / processor.
  • the methods proposed by the present invention can be executed as code. This code can be written to a processor readable storage medium and thus read by a processor provided by an apparatus.
  • the above-described method may be implemented as a module (process, function, etc.) for performing the above-described function.
  • the module may be stored in memory and executed by a processor.
  • the memory may be internal or external to the processor and may be coupled to the processor by a variety of well known means.
  • the processor may include application-specific integrated circuits (ASICs), other chipsets, logic circuits, and / or data processing devices.
  • the memory may include read-only memory (ROM), random access memory (RAM), flash memory, memory card, storage medium and / or other storage device.

Abstract

본 발명에 따른 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법은, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 한다.

Description

트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
본 발명은 오디오 데이터에 관한 것으로, 보다 상세하게는 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 장치에 관한 것이다.
VR(Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경 내에 있는 것 같은 감각을 제공한다. AR(Augmented Reality, AR) 시스템은 현실의 이미지나 배경에 3차원 가상 이미지를 중첩하여, 사용자에게 가상과 현실이 혼합된 환경 내에 있는 것 같은 감각을 제공한다. VR 또는 AR을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 또는 AR 시스템은 사용자가 인터랙티브하게 VR 또는 AR 컨텐츠들을 소비할 수 있도록 할 수 있다.
VR 또는 AR 컨텐츠에 대한 수요가 점점 증가하고 있는 상황에서, VR 또는 AR 컨텐츠의 재생을 위한 오디오 신호를 생성하는 장치와, VR 또는 AR 컨텐츠를 재생하는 장치 간에 오디오 데이터를 효율적으로 송수신할 수 있는 방법을 고안할 필요성 또한 증가하고 있다.
현재 특정 공간, 특정 위치라는 제한 사항을 넘어, VR 컨텐츠를 다양한 위치에서 경험할 수 있는 기술들(예를 들어, 3DoF+ 또는 6DoF)에 대한 연구가 진행되고 있다. 이에 따라, 여러 위치에서 씬(scene)이 캡쳐되는 핫스팟(Hot Spot) 개념에 대한 관심도 증가하고 있다. 좀 더 몰입감 높은 VR 컨텐츠를 경험하기 위해서는 VR 컨텐츠를 이용하는 사용자에게 높은 자유도가 제공되어야 할 필요가 있다.
본 발명의 기술적 과제는 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 트랜지션 이펙트(transition effect)에 관한 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 트랜지션 이펙트에 대한 정보를 포함하는 재생 정보를 생성하여 오디오 데이터 수신 장치로 전송하는 오디오 데이터 전송 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 또 다른 기술적 과제는 오디오 데이터 전송 장치로부터 트랜지션 이펙트에 대한 정보를 포함하는 재생 정보를 수신하는 오디오 데이터 수신 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 또 다른 기술적 과제는 3차원 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.
본 발명의 또 다른 기술적 과제는 3DoF, 3DoF+ 또는 6DoF의 오디오 컨텐츠를 위한 재생 정보를 MPEG-H에 따른 오디오 복호화기 및 오디오 부호화기를 기반으로 제공함에 있다.
본 발명의 또 다른 기술적 과제는 오디오 데이터 전송 장치가 복수의 위치에서 씬(scene)에 대한 정보를 획득하여, 오디오 데이터 수신 장치를 이용하는 사용자가 VR 컨텐츠상에서 희망 위치로 트랜지션 할 수 있도록 하는 기술을 적용시키고자 한다.
본 발명의 일 실시예에 따르면, 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법이 제공된다. 상기 오디오 데이터 수신 방법은, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 한다.
본 발명의 다른 일 실시예에 따르면, 오디오 데이터를 전송하는 오디오 데이터 수신 장치가 제공된다. 상기 오디오 데이터 수신 장치는, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 수신부, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 오디오 신호 디코딩부 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 렌더링부를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터 전송 장치에 의하여 수행되는 오디오 데이터 전송 방법이 제공된다. 상기 오디오 데이터 전송 방법은, 3차원 오디오 컨텐츠의 재생 정보를 생성하는 단계, 상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 단계 및 상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.
본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터를 전송하는 오디오 데이터 전송 장치가 제공된다. 상기 오디오 데이터 전송 장치는, 3차원 오디오 컨텐츠의 재생 정보를 생성하는 메타데이터 생성부, 상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 오디오 신호 인코딩부 및 상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 전송부를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함하는 것을 특징으로 한다.
본 발명에 따르면 오디오 데이터 전송 장치와 오디오 데이터 수신 장치가 3차원 오디오 컨텐츠에 대한 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 데이터 전송 장치와 오디오 데이터 수신 장치가 VR 또는 AR 컨텐츠에 대한 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 데이터 수신 장치가 오디오 데이터 전송 장치로부터 수신한 3차원 오디오 컨텐츠의 재생 정보를 기반으로 3차원 오디오 컨텐츠를 보다 효율적으로 재생하는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 데이터 수신 장치가 오디오 데이터 전송 장치로부터 수신한 VR 또는 AR 컨텐츠의 재생 정보를 기반으로 VR 또는 AR 컨텐츠에 대한 3차원 오디오 신호를 보다 효율적으로 렌더링(또는 재생)하는 방안을 제공할 수 있다.
도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.
도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.
도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다.
도 5는 3차원 오디오 컨텐츠의 재생 공간의 예시를 도시하는 도면이다.
도 6은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
도 7a 및 도 7b는 3차원 오디오 컨텐츠가 재생되는 가상 공간 및 실제 공간의 일 예시를 도시하는 도면이다.
도 8은 3차원 오디오 스트림의 일 예시를 도시하는 도면이다.
도 9는 3차원 오디오 스트림의 다른 일 예시를 도시하는 도면이다.
도 10a 및 도 10b는 일 실시예에 따른 3차원 오디오 데이터 수신 장치에서 3차원 오디오 스트림이 처리되는 과정을 도시한 흐름도이다.
도 11은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 동작 방법을 도시하는 흐름도이다.
도 12는 다른 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
도 13은 일 실시예에 따른 오디오 데이터 전송 장치의 구성을 도시하는 블록도이다.
도 14는 일 실시예에 따른 오디오 데이터 전송 장치의 동작 방법을 도시하는 흐름도이다.
도 15는 일 실시예에 따른 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
도 16은 다른 일 실시예에 따른 오디오 데이터 수신 장치의 동작 방법을 도시하는 흐름도이다.
본 발명의 일 실시예에 따르면, 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법이 제공된다. 상기 오디오 데이터 수신 방법은, 오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계, 상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계 및 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되, 상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 한다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정 실시예에 한정하려고 하는 것이 아니다. 본 명세서에서 상용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 도는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편, 본 발명에서 설명되는 도면상의 각 구성들은 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.
도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.
사용자에게 가상현실 (Virtual Reality, VR)을 제공하기 위하여, 360 컨텐츠를 제공하는 방안이 고려될 수 있다. 여기서, 상기 360도 컨텐츠는 3DoF(three Degrees of Freedom) 컨텐츠라고 나타낼 수도 있으며, VR이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.
360 컨텐츠는 VR을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360 오디오를 포함할 수 있다. 360도 비디오 및/또는 360 오디오는 3차원 비디오 및/또는 3차원 오디오로 지칭될 수도 있다. 360도 비디오는 VR을 제공하기 위해 필요한, 동시에 모든 방향(360도)으로 캡처되거나 재생되는 비디오 혹은 이미지 컨텐츠를 의미할 수 있다. 이하, 360도 비디오라 함은 360도 비디오를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 혹은 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형면(Spherical surface) 상에 나타내어질 수 있다. 360 오디오 역시 VR을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360 오디오는 3차원 오디오로도 지칭될 수 있다. 360 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360 컨텐츠를 이용하여 VR 경험을 소비할 수 있다.
360도 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360도 비디오가 캡처될 수 있다. 캡처된 360도 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360도 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360도 비디오가 사용자에게 제공될 수 있다.
구체적으로 360도 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.
캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡처하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 도 1의 (110)과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 도 1의 (110)의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡처된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡처 과정에서 캡처와 관련된 메타데이터가 생성될 수 있다.
이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360도 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.
준비 과정은 캡처된 이미지/비디오 및 캡처 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.
먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.
이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스티칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 맵핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 도 1의 (120)과 같은 2D 이미지의 형태가 될 수 있다.
2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360도 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분될 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.
실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.
실시예에 따라 이 처리 과정은, 360도 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360도 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다. 2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.
실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.
전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.
프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 맵핑, 프로젝션이라고 부를 수도 있다. 이 때 맵핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.
실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우, 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.
렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 도 1의 (130)과 같은 형태를 가질 수 있다. 도시된 도 1의 (130)은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 도 1의 (140)과 같은 형태일 수 있다.
피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360도 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.
헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360도 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.
뷰포트 정보는 현재 사용자가 360도 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360도 비디오를 소비하는지, 360도 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV(Field Of View) 정보 등에 근거하여 뷰포트 영역을 추출할 수 있다.
실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360도 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.
여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360도 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360도 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.
전술한 360도 비디오 제공을 위한 전체 아키텍처 내에서, 캡처/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360도 비디오 데이터라 부를 수 있다. 360도 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.
상술한 오디오 또는 비디오 등의 미디어 데이터를 저장하고 전송하기 위하여, 정형화된 미디어 파일 포맷이 정의될 수 있다. 실시예에 따라 미디어 파일은 ISO BMFF (ISO base media file format)를 기반으로 한 파일 포맷을 가질 수 있다.
도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.
일 실시예에 따른 미디어 파일은 적어도 하나 이상의 박스를 포함할 수 있다. 여기서 박스(box)는 미디어 데이터 또는 미디어 데이터에 관련된 메타데이터 등을 포함하는 데이터 블록 내지 오브젝트일 수 있다. 박스들은 서로 계층적 구조를 이룰 수 있으며, 이에 따라 데이터들이 분류되어 미디어 파일이 대용량 미디어 데이터의 저장 및/또는 전송에 적합한 형태를 띄게 될 수 있다. 또한 미디어 파일은, 사용자가 미디어 컨텐츠의 특정지점으로 이동하는 등, 미디어 정보에 접근하는데 있어 용이한 구조를 가질 수 있다.
일 실시예에 따른 미디어 파일은 ftyp 박스, moov 박스 및/또는 mdat 박스를 포함할 수 있다.
ftyp 박스(파일 타입 박스)는 해당 미디어 파일에 대한 파일 타입 또는 호환성 관련 정보를 제공할 수 있다. ftyp 박스는 해당 미디어 파일의 미디어 데이터에 대한 구성 버전 정보를 포함할 수 있다. 복호기는 ftyp 박스를 참조하여 해당 미디어 파일을 구분할 수 있다.
moov 박스(무비 박스)는 해당 미디어 파일의 미디어 데이터에 대한 메타 데이터를 포함하는 박스일 수 있다. moov 박스는 모든 메타 데이터들을 위한 컨테이너 역할을 할 수 있다. moov 박스는 메타 데이터 관련 박스들 중 최상위 계층의 박스일 수 있다. 실시예에 따라 moov 박스는 미디어 파일 내에 하나만 존재할 수 있다.
mdat 박스(미디어 데이터 박스) 는 해당 미디어 파일의 실제 미디어 데이터들을 담는 박스일 수 있다. 미디어 데이터들은 오디오 샘플 및/또는 비디오 샘플들을 포함할 수 있는데, mdat 박스는 이러한 미디어 샘플들을 담는 컨테이너 역할을 할 수 있다.
실시예에 따라 전술한 moov 박스는 mvhd 박스, trak 박스 및/또는 mvex 박스 등을 하위 박스로서 더 포함할 수 있다.
mvhd 박스(무비 헤더 박스)는 해당 미디어 파일에 포함되는 미디어 데이터의 미디어 프리젠테이션 관련 정보를 포함할 수 있다. 즉, mvhd 박스는 해당 미디어 프리젠테이션의 미디어 생성시간, 변경시간, 시간규격, 기간 등의 정보를 포함할 수 있다.
trak 박스(트랙 박스)는 해당 미디어 데이터의 트랙에 관련된 정보를 제공할 수 있다. trak 박스는 오디오 트랙 또는 비디오 트랙에 대한 스트림 관련 정보, 프리젠테이션 관련 정보, 액세스 관련 정보 등의 정보를 포함할 수 있다. Trak 박스는 트랙의 개수에 따라 복수개 존재할 수 있다.
trak 박스는 실시예에 따라 tkhd 박스(트랙 헤더 박스)를 하위 박스로서 더 포함할 수 있다. tkhd 박스는 trak 박스가 나타내는 해당 트랙에 대한 정보를 포함할 수 있다. tkhd 박스는 해당 트랙의 생성시간, 변경시간, 트랙 식별자 등의 정보를 포함할 수 있다.
mvex 박스(무비 익스텐드 박스)는 해당 미디어 파일에 후술할 moof 박스가 있을 수 있음을 지시할 수 있다. 특정 트랙의 모든 미디어 샘플들을 알기 위해서, moof 박스들이 스캔되어야할 수 있다.
일 실시예에 따른 미디어 파일은, 실시예에 따라, 복수개의 프래그먼트로 나뉘어질 수 있다(200). 이를 통해 미디어 파일이 분할되어 저장되거나 전송될 수 있다. 미디어 파일의 미디어 데이터들(mdat 박스)은 복수개의 프래그먼트로 나뉘어지고, 각각의 프래그먼트는 moof 박스와 나뉘어진 mdat 박스를 포함할 수 있다. 실시예에 따라 프래그먼트들을 활용하기 위해서는 ftyp 박스 및/또는 moov 박스의 정보가 필요할 수 있다.
moof 박스(무비 프래그먼트 박스)는 해당 프래그먼트의 미디어 데이터에 대한 메타 데이터를 제공할 수 있다. moof 박스는 해당 프래그먼트의 메타데이터 관련 박스들 중 최상위 계층의 박스일 수 있다.
mdat 박스(미디어 데이터 박스)는 전술한 바와 같이 실제 미디어 데이터를 포함할 수 있다. 이 mdat 박스는 각각의 해당 프래그먼트에 해당하는 미디어 데이터들의 미디어 샘플들을 포함할 수 있다.
실시예에 따라 전술한 moof 박스는 mfhd 박스 및/또는 traf 박스 등을 하위 박스로서 더 포함할 수 있다.
mfhd 박스(무비 프래그먼트 헤더 박스)는 분할된 복수개의 프래그먼트들 간의 연관성과 관련한 정보들을 포함할 수 있다. mfhd 박스는 시퀀스 넘버(sequence number) 를 포함하여, 해당 프래그먼트의 미디어 데이터가 분할된 몇 번째 데이터인지를 나타낼 수 있다. 또한, mfhd 박스를 이용하여 분할된 데이터 중 누락된 것은 없는지 여부가 확인될 수 있다.
traf 박스(트랙 프래그먼트 박스)는 해당 트랙 프래그먼트에 대한 정보를 포함할 수 있다. traf 박스는 해당 프래그먼트에 포함되는 분할된 트랙 프래그먼트에 대한 메타데이터를 제공할 수 있다. traf 박스는 해당 트랙 프래그먼트 내의 미디어 샘플들이 복호화/재생될 수 있도록 메타데이터를 제공할 수 있다. traf 박스는 트랙 프래그먼트의 개수에 따라 복수개 존재할 수 있다.
실시예에 따라 전술한 traf 박스는 tfhd 박스 및/또는 trun 박스 등을 하위 박스로서 더 포함할 수 있다.
tfhd 박스(트랙 프래그먼트 헤더 박스)는 해당 트랙 프래그먼트의 헤더 정보를 포함할 수 있다. tfhd 박스는 전술한 traf 박스가 나타내는 트랙 프래그먼트의 미디어 샘플들에 대하여, 기본적인 샘플크기, 기간, 오프셋, 식별자 등의 정보를 제공할 수 있다.
trun 박스(트랙 프래그먼트 런 박스)는 해당 트랙 프래그먼트 관련 정보를 포함할 수 있다. trun 박스는 미디어 샘플별 기간, 크기, 재생시점 등과 같은 정보를 포함할 수 있다.
전술한 미디어 파일 내지 미디어 파일의 프래그먼트들은 세그먼트들로 처리되어 전송될 수 있다. 세그먼트에는 초기화 세그먼트(initialization segment) 및/또는 미디어 세그먼트(media segment) 가 있을 수 있다.
도시된 실시예(210)의 파일은, 미디어 데이터는 제외하고 미디어 디코더의 초기화와 관련된 정보 등을 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 초기화 세그먼트에 해당할 수 있다. 초기화 세그먼트는 전술한 ftyp 박스 및/또는 moov 박스를 포함할 수 있다.
도시된 실시예(220)의 파일은, 전술한 프래그먼트를 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 미디어 세그먼트에 해당할 수 있다. 미디어 세그먼트는 전술한 moof 박스 및/또는 mdat 박스를 포함할 수 있다. 또한, 미디어 세그먼트는 styp 박스 및/또는 sidx 박스를 더 포함할 수 있다.
styp 박스(세그먼트 타입 박스) 는 분할된 프래그먼트의 미디어 데이터를 식별하기 위한 정보를 제공할 수 있다. styp 박스는 분할된 프래그먼트에 대해, 전술한 ftyp 박스와 같은 역할을 수행할 수 있다. 실시예에 따라 styp 박스는 ftyp 박스와 동일한 포맷을 가질 수 있다.
sidx 박스(세그먼트 인덱스 박스) 는 분할된 프래그먼트에 대한 인덱스를 나타내는 정보를 제공할 수 있다. 이를 통해 해당 분할된 프래그먼트가 몇번째 프래그먼트인지가 지시될 수 있다.
실시예에 따라(230) ssix 박스가 더 포함될 수 있는데, ssix 박스(서브 세그먼트 인덱스 박스)는 세그먼트가 서브 세그먼트로 더 나뉘어지는 경우에 있어, 그 서브 세그먼트의 인덱스를 나타내는 정보를 제공할 수 있다.
미디어 파일 내의 박스들은, 도시된 실시예(250)와 같은 박스 내지 풀 박스(FullBox) 형태를 기반으로, 더 확장된 정보들을 포함할 수 있다. 이 실시예에서 size 필드, largesize 필드는 해당 박스의 길이를 바이트 단위 등으로 나타낼 수 있다. version 필드는 해당 박스 포맷의 버전을 나타낼 수 있다. Type 필드는 해당 박스의 타입 내지 식별자를 나타낼 수 있다. flags 필드는 해당 박스와 관련된 플래그 등을 나타낼 수 있다.
한편, 일 실시예에 따른 360도 비디오에 대한 필드(속성)들은 DASH 기반 적응형(Adaptive) 스트리밍 모델에 포함되어 전달될 수 있다.
도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다. 도시된 실시예(400)에 따른 DASH 기반 적응형 스트리밍 모델은, HTTP 서버와 DASH 클라이언트 간의 동작을 기술하고 있다. 여기서 DASH(Dynamic Adaptive Streaming over HTTP)는, HTTP 기반 적응형 스트리밍을 지원하기 위한 프로토콜로서, 네트워크 상황에 따라 동적으로 스트리밍을 지원할 수 있다. 이에 따라 AV 컨텐츠 재생이 끊김없이 제공될 수 있다.
먼저 DASH 클라이언트는 MPD를 획득할 수 있다. MPD 는 HTTP 서버 등의 서비스 프로바이더로부터 전달될 수 있다. DASH 클라이언트는 MPD 에 기술된 세그먼트에의 접근 정보를 이용하여 서버로 해당 세그먼트들을 요청할 수 있다. 여기서 이 요청은 네트워크 상태를 반영하여 수행될 수 있다.
DASH 클라이언트는 해당 세그먼트를 획득한 후, 이를 미디어 엔진에서 처리하여 화면에 디스플레이할 수 있다. DASH 클라이언트는 재생 시간 및/또는 네트워크 상황 등을 실시간으로 반영하여, 필요한 세그먼트를 요청, 획득할 수 있다(Adaptive Streaming). 이를 통해 컨텐츠가 끊김없이 재생될 수 있다.
MPD (Media Presentation Description) 는 DASH 클라이언트로 하여금 세그먼트를 동적으로 획득할 수 있도록 하기 위한 상세 정보를 포함하는 파일로서 XML 형태로 표현될 수 있다.
DASH 클라이언트 컨트롤러(DASH Client Controller) 는 네트워크 상황을 반영하여 MPD 및/또는 세그먼트를 요청하는 커맨드를 생성할 수 있다. 또한, 이 컨트롤러는 획득된 정보를 미디어 엔진 등등의 내부 블록에서 사용할 수 있도록 제어할 수 있다.
MPD 파서(Parser) 는 획득한 MPD 를 실시간으로 파싱할 수 있다. 이를 통해, DASH 클라이언트 컨트롤러는 필요한 세그먼트를 획득할 수 있는 커맨드를 생성할 수 있게 될 수 있다.
세그먼트 파서(Parser) 는 획득한 세그먼트를 실시간으로 파싱할 수 있다. 세그먼트에 포함된 정보들에 따라 미디어 엔진 등의 내부 블록들은 특정 동작을 수행할 수 있다.
HTTP 클라이언트는 필요한 MPD 및/또는 세그먼트 등을 HTTP 서버에 요청할 수 있다. 또한 HTTP 클라이언트는 서버로부터 획득한 MPD 및/또는 세그먼트들을 MPD 파서 또는 세그먼트 파서로 전달할 수 있다.
미디어 엔진(Media Engine) 은 세그먼트에 포함된 미디어 데이터를 이용하여 컨텐츠를 화면상에 표시할 수 있다. 이 때, MPD 의 정보들이 활용될 수 있다.
DASH 데이터 모델은 계층적 구조(410)를 가질 수 있다. 미디어 프리젠테이션은 MPD에 의해 기술될 수 있다. MPD는 미디어 프리젠테이션를 만드는 복수개의 구간(Period)들의 시간적인 시퀀스를 기술할 수 있다. 피리오드는 미디어 컨텐츠의 한 구간을 나타낼 수 있다.
한 구간에서, 데이터들은 어댑테이션 셋들에 포함될 수 있다. 어댑테이션 셋은 서로 교환될 수 있는 복수개의 미디어 컨텐츠 컴포넌트들의 집합일 수 있다. 어댑테이션은 레프리젠테이션들의 집합을 포함할 수 있다. 레프리젠테이션은 미디어 컨텐츠 컴포넌트에 해당할 수 있다. 한 레프리젠테이션 내에서, 컨텐츠는 복수개의 세그먼트들로 시간적으로 나뉘어질 수 있다. 이는 적절한 접근성과 전달(delivery)를 위함일 수 있다. 각각의 세그먼트에 접근하기 위해서 각 세그먼트의 URL 이 제공될 수 있다.
MPD는 미디어 프리젠테이션에 관련된 정보들을 제공할 수 있고, 피리오드 엘레멘트, 어댑테이션 셋 엘레멘트, 레프리젠테이션 엘레멘트는 각각 해당 피리오드, 어댑테이션 셋, 레프리젠테이션에 대해서 기술할 수 있다. 레프리젠테이션은 서브 레프리젠테이션들로 나뉘어질 수 있는데, 서브 레프리젠테이션 엘레멘트는 해당 서브 레프리젠테이션에 대해서 기술할 수 있다.
여기서 공통(Common) 속성/엘레멘트들이 정의될 수 있는데, 이 들은 어댑테이션 셋, 레프리젠테이션, 서브 레프리젠테이션 등에 적용될 수 (포함될 수) 있다. 공통 속성/엘레멘트 중에는 에센셜 프로퍼티(EssentialProperty) 및/또는 서플멘탈 프로퍼티(SupplementalProperty) 가 있을 수 있다.
에센셜 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 필수적이라고 여겨지는 엘레멘트들을 포함하는 정보일 수 있다. 서플멘탈 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 사용될 수도 있는 엘레멘트들을 포함하는 정보일 수 있다. 실시예에 따라 후술할 디스크립터들은, MPD 를 통해 전달되는 경우, 에센셜 프로퍼티 및/또는 서플멘탈 프로퍼티 내에 정의되어 전달될 수 있다.
한편 전술한 도 1 내지 도 4에 따른 설명은 VR 또는 AR 컨텐츠를 구현하는 3차원 비디오 및 3차원 오디오 전반에 관한 것이나, 이하에서는 3차원 오디오 데이터가 본 발명에 따른 실시예와 관련하여 처리되는 과정을 보다 구체적으로 설명하기로 한다.
도 5는 3차원 오디오 컨텐츠의 재생 공간의 예시를 도시하는 도면이다.
본 명세서에서 "오디오 컨텐츠"는 오디오 정보를 포함하는 비디오, 360 비디오, VR 컨텐츠, AR 컨텐츠 등의 미디어 컨텐츠를 의미할 수 있다. 나아가 "3차원 오디오 컨텐츠"는 오디오 정보를 포함하는 360 비디오, VR 컨텐츠, AR 컨텐츠 등의 3차원 미디어 컨텐츠를 의미할 수 있다.
본 명세서에서 "오디오 데이터 전송 장치"는 오디오 신호, 오디오에 대한 메타데이터 등의 오디오 데이터를 전송하기 위한 장치를 의미할 수 있다. 또한, "3차원 오디오 데이터 전송 장치"는 3차원 오디오 신호, 3차원 오디오에 대한 메타데이터 등의 3차원 오디오 데이터를 전송하기 위한 장치를 의미할 수 있다. 다만 오디오 데이터 전송 장치가 항상 오디오 데이터 수신 장치 등으로 오디오 데이터를 전송하기만 하는 것은 아니고, 경우에 따라서 오디오 데이터 수신 장치로부터 오디오 데이터를 수신할 수 있다. 오디오 데이터 전송 장치는 본 명세서 전반에 기재된 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단과 동일/유사한 장치이거나, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단을 포함하거나, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단에 포함되는 것으로 해석될 수 있다. 오디오 데이터 전송 장치, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단은, 예를 들어 네트워크, 서버, 클라우드 서버, 기지국, 셋탑박스(STB), PC, 단말(UE), 데스크탑, TV, 노트북 등이 될 수 있고, 예시된 장치들에 포함되는 구성 또는 모듈일 수 있으며, 나아가 예시된 장치들과 유사한 장치들도 오디오 데이터 전송 장치, 송신단, 송신기, 송신 장치 또는 컨텐츠 제작단으로서 동작할 수 있다. 예시는 이에 한정되지 않는다.
본 명세서에서 "오디오 데이터 수신 장치"는 오디오 신호, 오디오에 대한 메타데이터 등의 오디오 데이터를 수신하기 위한 장치를 의미할 수 있다. 또한, "3차원 오디오 데이터 수신 장치"는 3차원 오디오 신호, 3차원 오디오에 대한 메타데이터 등의 3차원 오디오 데이터를 수신하기 위한 장치를 의미할 수 있다. 다만 오디오 데이터 수신 장치가 항상 오디오 데이터 전송 장치로부터 오디오 데이터를 수신하기만 하는 것은 아니고, 경우에 따라서 오디오 데이터 전송 장치로 오디오 데이터를 전송할 수 있다. 오디오 데이터 수신 장치는 본 명세서 전반에 기재된 수신단, 수신기 또는 수신 장치와 동일/유사한 장치이거나, 수신단, 수신기 또는 수신 장치를 포함하거나, 수신단, 수신기 또는 수신 장치에 포함되는 것으로 해석될 수 있다. 오디오 데이터 수신 장치, 수신단, 수신기 또는 수신 장치는, 예를 들어 헤드폰, 이어폰, 스피커, HMD, 단말, 셋탑박스, 네트워크, 서버, PC, 데스크탑, 노트북, 카메라, 캠코더, TV 등이 될 수 있고, 예시된 장치들에 포함되는 구성 또는 모듈일 수 있으며, 나아가 에시된 장치들과 유사한 장치들도 오디오 데이터 수신 장치, 수신단, 수신기 또는 수신 장치로서 동작할 수 있다. 예시는 이에 한정되지 않는다.
일 실시예에서, MPEG-H에 따른 3차원 오디오 데이터 수신 장치(또는 3차원 오디오 데이터 디코딩 장치)는 3DoF와 3DoF+ 환경의 VR 컨텐츠를 지원할 수 있으며, 나아가 6DoF 환경의 VR 컨텐츠를 지원할 수 있다. 일 예시에서, VR 컨텐츠 내에서 씬(scene)이 변경될 때 트랜지션 이펙트가 적용될 수 있으며, 트랜지션 이펙트를 적용하기 위해 트랜지션 이펙트에 대한 정보가 시그널링될 수 있다.
도 5를 참조하면, 임의의 공간에 두 개의 씬(Scene A와 Scene B)이 캡쳐되었으며, 캡쳐된 위치에 따라 도 5에 도시된 악기들의 방향감과 음원의 크기가 상이할 수 있다. 따라서 사용자가 Scene A에서 Scene B로 위치를 이동하는 경우, 관련 위치 정보(또는 씬 정보)가 시그널링 되어야 함은 물론이고, 위치를 이동하는 과정에서 발생될 수 있는 요소들이 고려되어야 할 필요가 있을 수 있다. 위치를 이동하는 과정에서 발생될 수 있는 요소들은, 예를 들어 오디오 관점에서 고려할 때 효과음이 있을 수 있다. 본 발명에 따른 실시예들에서는 사용자가 위치를 변경하면 오디오 씬이 변경한다고 간주하여, 트랜지션 이펙트에 대한 정보들이 시그널링 될 수 있다.
사용자가 위치를 움직일 수 있는 VR 환경에서 좀 더 높은 몰입감을 경험하도록 하기 위해서는 사용자의 위치를 참조하여, 해당 위치에 적합한 씬 (여기서는 오디오 씬만 고려)을 재생할 필요가 있다. 일 예시에서, 도 5에서 사용자가 Scene A가 캡쳐된 위치에 있다고 가정하면 Scene A를, Scene B가 capture된 위치에 있다면 Scene B를 재생할 필요가 있다. 따라서 사용자가 움직일 수 있는 환경에서는 다양한 씬들이 필수적으로 캡쳐되어야 함은 물론, 사용자 위치에 따른 씬도 적절하게 선택되어 재생될 필요가 있다.
기본적으로 사용자가 VR 환경에서 사용자가 움직일 수 있는 조건을 고려하면 6DoF 환경으로 생각할 수 있지만, 게임과 같이 컨텐츠와 상호 작용할 수 있는 수신기를 이용할 경우, 사용자는 임의로 사전에 캡쳐된 여러 씬들 중 하나를 수신기에 요청해서 바로 해당 씬으로 움직일 수도 있으며, 사용자 스스로 희망하는 위치를 지정하여 움직일 수 있다. 즉, 텔레포트(teleport)와 같은 방식으로 현재 위치에서 다른 위치를 움직일 수 있다. 이는 일반적으로 6DoF환경으로 생각될 수 있지만, 사용자 스스로 위치를 움직이지 않았다는 측면에서는 3DoF 환경으로도 생각될 수 있다. 현재 MPEG 및 3GPP에서는 3DoF+ 환경에 대한 표준을 진행하고 있음에도 좀 더 제한적인 환경에서 씬이 달라질 수 있는 상황을 고려하여, 씬들이 트랜지션 될 때 고려될 수 있는 방안들에 대해서도 연구를 진행하고 있다. 일반적으로 3DoF 환경과 3DoF+ 환경에서의 오디오 씬은 비디오 씬과는 달리 인지적인 측면에서 큰 변화가 느껴지지 않아, 3DoF 환경의 기술을 그대로 3DoF+ 환경에 그대로 적용해도 무방할 수 있지만, 씬이 트랜지션 될 수 있는 환경에서는 오디오 씬도 트랜지션 되는 위치에 따라서 크게 변화될 수 있다.
도 6은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
일 실시예에서, VR 또는 3D 오디오 컨텐츠를 재생할 수 있는 디코더로는, MPEG에서 표준화가 완료된 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치가 있을 수 있다. 도 6에 따른 3차원 오디오 데이터 수신 장치는 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치를 나타낼 수 있다. 일 예시에서, 3차원 오디오 데이터 디코딩 장치는 3D 오디오 디코더, 3차원 오디오 디코더, 3차원 오디오 디코딩 장치 등으로 지칭될 수도 있다.
비트스트림은 송신단에서 입력된 오디오 신호를 인코딩 및 비트패킹(bitpacking)하여 생성될 수 있는데, 이 때 오디오 신호 타입은 채널 신호, 객체(object) 신호 또는 장면 기반의 HOA(High Order Ambisonic) 신호일 수 있으며, 객체 신호와 다른 신호가 조합되어 입력될 수 있다. 예를 들어, 채널 신호와 객체 신호가 조합될 수 있고, 또는 HOA 신호와 객체 신호가 조합될 수도 있다. 수신단에서 비트스트림은 MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치로 입력되어 디코딩된 신호들을 출력할 수 있다. 디코딩된 신호들은 송신단에서 인코딩된 신호 타입의 순서대로 출력될 수 있다. 오디오 신호 중에 객체 신호도 포함되어 있는 경우, 디코딩된 신호를 출력할 때 객체 정보에 대한 객체 메타데이터(object metadata) 정보도 함께 출력될 수 있다.
다음으로, 디코딩된 신호들은 렌더링 및 믹싱단(rendering and mixing)으로 전달되고, 함께 출력되었던 객체 메타데이터 정보는 메타데이터 및 인터페이스 데이터 프로세싱(Metadata and interface data processing)단으로 전달되어 외부에서 추가적으로 입력된 설정 가능한 정보들과 조합되어 최종 출력 신호의 특성을 변경시킬 수 있다. 외부에서 추가적으로 설정 가능한 정보들은, 크게 재생 환경 정보와 사용자 상호 작용 정보가 있을 수 있다. 재생 환경 정보는 사용자가 청취하는 오디오의 재생 환경에 관한 정보로써, 사용자가 재생 환경(스피커 혹은 헤드폰)(Rendering type), Head tracking 사용 여부(Tracking mode, Scene displacement info.), 외부 연결 장치(WIRE output setup), 스크린 사용 여부(Local screen size info.) 등에 대해서 선택적으로 입력할 수 있다. 사용자 상호 작용 정보는 오디오 재생 중에 사용자 의도를 부여하는 정보들로써, 사용자가 객체 신호의 특성(위치 및 크기) 변화(Interaction mode, Interaction data info.), 스크린 및 객체 연동(Zoom area info.) 등의 기능을 실시간으로 재생 신호에 적용시킬 수 있다. 예를 들어, 오디오 재생 중 사용자가 임의의 객체의 특성 정보를 변화시키고자 할 때, 수신되었던 객체 메타데이터 정보를 사용자 의도에 맞도록 해당 과정에서 수정할 필요가 있다. 이처럼 메타데이터 및 인터페이스 데이터 프로세싱단은 재생 환경을 설정할 뿐만 아니라, 객체 메타데이터를 외부에서 입력된 정보(즉, 사용자 상호 작용 정보)들을 참조하여 변형시키는 과정도 포함하고 있다. 렌더링 및 믹싱단은 디코딩된 신호를 외부에서 입력된 재생 환경 정보에 맞춰서 출력시키기 위한 모듈을 나타낼 수 있다. 이 때 디코딩된 신호의 타입에 따라서 렌더러가 결정될 수 있다.
일 예시에서, 채널 신호들을 렌더링할 경우에는 채널 컨버터(Channel converter)가 사용될 수 있고, 객체 신호를 렌더링 할 때에는 객체 메타데이터와 함께 객체 렌더러로 입력될 수 있다. 그리고 HOA 타입 신호일 때에는 HOA 렌더러가 이용될 수 있다. 이와 같이 각 디코딩된 신호들은 각 오디오 타입에 대응되는 렌더러에 입력될 수 있고, 재생 환경 정보(스피커 환경)를 참조해서 신호들을 재구성하여 각각의 렌더러에서 출력될 수 있다. 만약 디코딩된 신호가 두 가지 타입의 신호가 조합되어 있는 형태인 경우, 믹싱 과정에서 출력 스피커 위치에 맞도록 렌더링된 신호들을 더해서 채널 신호를 출력할 수 있다. 만약 재생 방식이 헤드폰으로 선택되면, 재생 환경에서의 스피커 위치에서 녹음된 양이(both ears)의 BRIR(Binaural Room Impulse Response)들을 렌더링된 신호에 필터링하고 더하여 최종 스테레오 신호 OutL과 OutR을 출력할 수 있다. 양이의 BRIR의 렌더링된 신호에 직접 필터링 할 경우 많은 연산량이 필요하므로, 파라미터화(Parameterization) 과정이 선택적 툴로서 사용될 수 있다. 파라미터화 과정에서는 BRIR의 특징 정보들을 파라미터로 추출하고, 추출된 파라미터를 신호에 직접 적용할 수 있다. 외부로부터 수신하는 정보 중에서 트래킹 모드(Tracking mode)는 헤드 트래킹 기능의 사용 여부에 관한 정보이며, 만약 헤드 트래킹 기능을 사용할 경우, 사용자가 머리를 움직일 때마다 변경되는 방향 정보가 씬 디스플레이스먼트 정보(Scene displacement information)에 나타날 수 있고, 메타데이터 및 인터페이스 프로세싱단에서 해당 정보를 참조하여 기존의 방향 정보를 업데이트 할 수 있다. 다음으로, 업데이트된 정보를 이용하여 디코딩된 신호를 렌더링할 수 있다. 이를 통해 사용자는 트래킹 모드를 사용하여 3차원 오디오를 경험할 수 있다.
도 6에서 아래의 점선 블록은 BRIR을 모델링하는 모듈을 나타낸다. 사용자가 VR 컨텐츠를 이용하는 중에 위치를 변경할 경우에 (예를 들어, 도 5의 Scene A에서 Scene B로 이동할 경우) 사용자 위치에 따라 특징 정보가 다른 씬을 적용해 주듯이, BRIR 역시 사용자 위치에 따라 다르게 적용될 필요가 있다. 해당 BRIR 모듈은 사용자의 위치 정보를 참조하여 BRIR을 모델링하고, 이를 오디오 신호에 적용하는 과정을 나타낸 것이다.
전술한 바와 같이, MPEG-H에 따른 3차원 오디오 데이터 디코딩 장치는 기본적으로 트래킹 모드를 지원하므로, 오리엔테이션 관련 정보는 씬 디스플레이스먼트 신택스를 통해 수신하여 처리될 수 있다. 하지만 6DoF 환경에서는 오리엔테이션 정보뿐만 아니라 위치 정보도 수신할 필요가 있다. 아래의 표 1 및 표 2는 사용자의 위치 정보를 수신 받는 신택스의 예시를 정의하고 있다.
[표 1]
Figure PCTKR2019004821-appb-I000001
[표 2]
Figure PCTKR2019004821-appb-I000002
상기 표 1 및 표 2는 mpeg3daSceneDisplacementData의 신택스를 나타낼 수 있다. sd_azimuth는 방위각을 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 방위각은 -180도에서 180도 사이의 값으로 표시될 수 있다. Az = 1.5 Х ( sd_azimuth - 128); Az = min (max (Az , -180), 180); 를 기반으로 산출될 수 있다.
sd_elevation은 고도각을 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 고도각은 -90도와 90도 사이의 값으로 표시될 수 있다. El = 3 Х ( sd_elevation - 32); El = min (max (El , -90), 90); 를 기반으로 산출될 수 있다.
sd_distance는 거리를 기준으로 하는, 씬에 대한 사용자 위치 변경 정보를 의미한다. 거리를 나타내는 Dist = distanceOffset + [10 ^ (0.03225380 * sd_distance) -1]; (distanceOffset = 10 mm)를 기반으로 산출될 수 있다.
sd_x는 x축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_x = 10 ^ (0.03225380 * sd_x) -1를 기반으로 산출될 수 있다.
sd_y는 y축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_y = 10 ^ (0.03225380 * sd_y) -1; 를 기반으로 산출될 수 있다.
sd_z는 z축을 기준으로 하는 씬에 대한 사용자의 위치 변경 정보를 의미한다. 단위는 meter이며, 0과 167km 사이의 값으로 표시될 수 있다. Dist_z = 10 ^ (0.03225380 * sd_z) -1; 를 기반으로 산출될 수 있다.
상기 표 1과 상기 표 2는 모두 위치 정보를 의미하며, 표 1에는 위치 정보가 구면 좌표계(Spherical coordinate)로, 표 2에는 위치 정보가 직교 좌표계(Cartesian coordinate)로 표기되어 있다. 수신기에서는 둘 중 하나의 좌표계 또는 모든 좌표계를 지원할 수 있다. 해당 신택스 정보를 수신할 수 있는 3차원 오디오 데이터 디코더는 변경되는 사용자의 위치 정보를 참조하여 오디오 신호를 렌더링할 수 있다. 사용자는 위치 정보 변경에 따라 렌더링되는 신호를 청취하게 됨으로써 최적의(optimal) 3차원 오디오를 경험할 수 있다.
도 7a 및 도 7b는 3차원 오디오 컨텐츠가 재생되는 가상 공간 및 실제 공간의 일 예시를 도시하는 도면이다.
당해 기술 분야의 통상의 기술자는, 도 7a 및 도 7b에서 오디오 컨텐츠가 재생되는 (가상의) 공간이 2차원으로 표현되어 있으나 이는 설명의 편의를 위한 것이고, 해당 공간이 3차원 구조를 가짐을 용이하게 이해할 것이다.
도 7a는 씬의 캡쳐된 VR 환경의 일 예시를 나타내고 있고, 도 7b는 사용자의 재생 환경(예를 들어, 5채널 스피커 환경)의 일 예시를 나타내고 있다. 도 7a는 도 5에 따른 VR 환경을 보다 구체화한 것일 수 있다. 일반적으로 씬을 캡쳐할 때에는 씬과 씬의 연속성을 보장하기 위해 서로 겹치도록 캡쳐하는 것이 성능 측면에서 바람직할 수 있다. 하지만 씬과 씬을 서로 겹치도록 캡쳐하면 6DoF 환경에서 컨텐츠를 이용할 때에는 성능 차이가 인지될 수 있지만, 사용자가 텔레포트와 같은 방식, 즉 순간적으로 트랜지션하는 방식으로 위치를 이동할 경우에는 성능 측면에서 큰 차이가 인지되지 못할 수 있다. 본 발명의 일 실시예에서는 순간적으로 트랜지션 하는 방식에 대해서 다루기로 한다.
도 7a에서 사용자는 초기에 Scene A의 임의의 위치(w)에 있고, 수신기 또는 임의의 장치에 희망하는 위치 정보를 입력하여 이동할 수 있다고 가정한다. 사용자는 VR 공간 어디든 이동할 수 있지만, 크게 3지역으로 특징지을 수 있다. Scene A의 다른 지역(지역 1), Scene A와 Scene B가 중첩되는 지역(지역2) 및 Scene B 지역 (지역 3) 세 가지 지역이 있다. 만약 사용자가 초기 위치에서 Scene A의 다른 지역으로 이동하는 경우, Scene 정보는 변경될 필요가 없다. 하지만, 사용자 위치에 따라서 재생되는 음원의 특징은 변경될 필요가 있을 수 있다. 예를 들어, 도 7a에서 사용자가 초기 위치 w에서 x로 이동하면, 관악기 음이 매우 가깝게 들려야 한다. 이는 기존 위치와 변경된 위치 변화를 계산하여, 의도적으로 도 7b의 왼쪽 스피커의 볼륨을 크게하고, 오른쪽 스피커의 볼륨을 작게 변경해주어서 유사한 효과를 낼 수 있다. 만약 사용자가 Scene A에서 지역 3의 y지점으로 이동할 경우, 재생되는 씬을 변경하고, 사용자 위치에 따라서 스피커에서 재생되는 볼륨을 변경시켜줄 수 있다. 만약 사용자가 지역 2로 이동할 경우, 사용자 위치에 따라서 적용되는 씬이 변경되어야 한다. 예를 들어, 사용자가 z지점으로 이동할 경우, 비록 Scene A 범위에는 포함되지만, Scene B가 캡쳐된 지점이 z지점에 더욱 가깝다. 따라서 이러한 경우에는 Scene B로 재생하는 것이 사용자에게 더욱 적합할 수 있다.
위의 내용을 종합하면, 기본적으로 수신단에서 씬이 변경되는 환경을 지원하기 위해서는 다음과 같이 총 3가지 정보가 필요하다. (1) 이동 희망 위치, (2) 희망 위치에 해당하는 씬, (3) 재생되어야 하는 씬. 사전에 캡쳐된 씬이 담당할 수 있는 영역을 설정하고, 각 영역에 대해서 임의로 지점들을 지정한 뒤, 각 지점에 대해서 위에 제시한 3가지 정보를 기록할 수 있다. 이후, 사용자가 임의의 VR 컨텐츠를 이용하는 중에 위치를 옮길 경우, 변경된 위치와 가장 가깝게 기록된 지점을 선택하여 선택된 지점과 대응되는 씬을 재생할 수 있다. 전술한 바와 같이, 위치 변경은 순간적으로 이루어질 수 있다. 이 때, 임의의 위치에서 다른 위치로 이동할 때, 이동하는 효과를 추가적으로 사용자가 경험하도록 시그널링할 수 있다. 상기 이동하는 효과는 트랜지션 이펙트라고 지칭될 수 있으나, 명칭은 이에 한정되지 않는다. 예를 들어, 트랜지션 이펙트 대신 전이 효과, transition effect 등으로 지칭될 수도 있다. 본 발명에 따른 일 실시예에서는 트랜지션 이펙트로 크게 3가지 타입 이상의 오디오가 이용될 수 있도록 정의하였으며, 이에 대해서는 후술하기로 한다.
표 3은 위에 제시한 3가지 정보와 트랜지션 이펙트의 특징들을 정의한 신택스의 예시를 나타낸다. 해당 신택스는 3D 오디오 디코더에 수신되어서 적절한 씬과 트랜지션 이펙트가 시그널링 되도록 할 수 있다. 도 6의 블록도에서는 해당 정보가 수신되는 부분을 굵은 선으로 나타내고 있다.
[표 3]
Figure PCTKR2019004821-appb-I000003
표 3에서, numScenes는 씬의 총 개수를 의미한다. Scene_idx는 복수 개의 씬들을 식별하기 위해 각 씬에 고유 ID 값을 정의하고 있다. Scene_idx 값은 0부터 시작할 수 있다. numTransEffectPos는 각 씬에 대해서 정의된 트랜지션 위치의 총 개수를 의미한다. TranPos_idx는 복수 개의 트랜지션 위치들을 식별하기 위해 각 트랜지션 위치의 고유 ID 값을 정의한다. TranPos_idx 값은 0부터 시작할 수 있다.
TranPos_azimuth는 트랜지션 위치의 위치 정보를 방위각 측면에서 각도 값으로 나타낸다. 각도 값은 Azimuth=-180도 와 Azimuth=180도 사이에서 나타날 수 있다. AzPos = 1.5 Х ( TranPos_azimuth - 128); AzPos = min (max (AzPos , -180), 180); 를 기반으로 산출될 수 있다.
TranPos_elevation은 트랜지션 위치의 위치 정보를 고도각 측면에서 각도 값으로 나타낸다. 각도 값은 Elevation=-90도 와 Elevation=90도 사이에서 나타날 수 있다. ElPos = 3 Х ( TranPos_elevation - 32); ElPos = min (max (ElPos , -90), 90); 를 기반으로 산출될 수 있다.
TranPos_distance는 트랜지션 위치의 위치 정보를 거리 측면에서 미터 값으로 나타낸다. 거리 값은 0.01m부터 167km 사이에서 주어진다. DistPos = distanceOffset + [10 ^ (0.03225380 * TranPos_distance) -1]; (distanceOffset = 10 mm) 를 기반으로 산출될 수 있다.
TransScene_idx는 트랜지션 위치에서 재생되어야 하는 씬을 정의한다. 정의된 위치에 따라서 트랜지션 위치에서 재생되어야 하는 씬은 현재 씬과 일치할 수도 있고, 일치하지 않을 수도 있다.
TransEffectType은 트랜지션 이펙트의 타입을 정의한다. 트랜지션 이펙트의 타입은, 예를 들어 아래의 표 4와 같다.
[표 4]
Figure PCTKR2019004821-appb-I000004
TransEffectType은 페이드인-피이드아웃(FADEIN-FADEOUT) 타입, 도플러(DOPPLER) 타입, 잔향(REVERBERATION) 타입 및 바이너럴 렌더링(BINAURAL RENDERING) 타입을 포함할 수 있고, 이외에도 다양한 타입들을 포함할 수 있다.
TransEffectAudioType은 트랜지션 이펙트에 사용될 오디오 신호의 타입을 정의한다. Transition Effect Audio의 타입은, 예를 들어 아래의 표 5와 같다.
[표 5]
Figure PCTKR2019004821-appb-I000005
표 5에서 NATURAL SOUND는 실제 환경에서 녹음된 오디오를 의미하고, SYNTHETIC SOUND는 사운드 엔지니어(sound engineer)에 의해서 합성된 오디오를 의미한다. SPOKEN_TEXT는 기본적으로 음성 목소리를 의미하지만, 목적에 따라 좀 더 세분화될 수 있다. SPOKEN_TEXT (GUIDE)는 트랜지션 위치에서 사용되는 씬 또는 씬 관련 정보를 언급하는 오디오를 의미한다 (예를 들어,"Scene 2로 이동 중입니다"라고 언급하는 오디오를 고려해볼 수 있다). SPOKEN_TEXT (INFORMATION)은 트랜지션 위치에 대한 기본 정보를, SPOKEN_TEXT (DIRECTION)은 현재 씬을 중심으로 트랜지션 위치가 위치한 방향을 언급하는 오디오를 의미한다.
다시 표 3을 참조하면, TransEffectAudioHasGain는 트랜지션 이펙트 오디오에 게인 값이 있는지 여부를 정의한다. TransEffectAudio_gain는 트랜지션 이펙트 오디오(Transition effect audio)의 게인 값을 정의한다.
사용자는 오디오 컨텐츠가 재생되는 과정에서도 오디오 씬 정보를 변경할 수 있다. 3D 오디오 디코더 역시 씬을 구성하는 요소들(채널, 오브젝트 또는 HOA 타입 신호)의 특성을 ElementInteractionData()를 통해서 변경할 수 있다. 해당 페이로드(payload)는 수신단의 사용자와 오디오 컨텐츠가 상호 작용하기 위한 목적으로 사용되므로, 필요할 경우 수신단 측에서 관련 정보를 생성하여서 부호화기에 입력하여 사용할 수 있다. 트랜지션 이펙트는 일반적으로 임의의 오디오 컨텐츠를 이용하는 과정에서 발생한다. 즉, ElementInteractionData()에 사용자가 희망하는 위치 변경 (또는 트랜지션) 정보를 포함하여 수신기에 요청할 수 있다. 표 6은 트랜지션 이펙트 정보가 포함된 ElementInteractionData() 신택스를 나타내고 있다.
[표 6]
Figure PCTKR2019004821-appb-I000006
isTransEffectOn은 트랜지션 이펙트를 사용한 지 여부(또는 트랜지션 여부)를 나타낸다. Scene_idx는 사용자가 선택한 씬에 해당되는 ID 값을 의미한다. isDefinedTranPosUsed는 사전에 정의된 위치 정보가 사용된 지 여부를 나타낸다. TransPos_idx는 사전에 정의된 위치에 해당되는 ID 값을 의미한다. TranPos_azimuth는 사용자가 선택한 트랜지션 위치의 위치 정보를 방위각 측면에서 각도 값으로 나타낸다. 해당 각도 정보는 트랜지션 위치에 포함된 씬을 기준으로 산출될 수 있다. 각도 값은 Azimuth=-180도와 Azimuth=180도 사이에서 주어진다. AzPos = 1.5 Х ( Pos_azimuth - 128); AzPos = min (max (AzPos , -180), 180); 을 기반으로 산출될 수 있다.
TranPos_elevation은 사용자가 선택한 트랜지션 위치의 위치 정보를 고도각 측면에서 각도 값으로 나타낸다. 해당 각도 정보는 트랜지션 위치가 소속된 씬을 기준으로 산출될 수 있다. 각도 값은 Elevation=-90도와 Elevation=90도 사이에서 주어진다. ElPos = 3 Х ( Pos_elevation - 32); ElPos = min (max (#lPos , -90), 90); 를 기반으로 산출될 수 있다.
TranPos_distance는 트랜지션 위치의 위치 정보를 거리 측면에서 미터 값으로 나타낸다. 거리 값은 0.01m부터 167km 사이에서 주어진다. 해당 거리 정보는 트랜지션 위치가 소속된 씬을 기준으로 산출될 수 있다. TranPos_distance = distanceOffset + [10 ^ (0.03225380 * Pos_distance) -1]; (distanceOffset = 10 mm)를 기반으로 산출될 수 있다.
표 6에서 기존 ElementInteractionData 신택스에서 추가된 트랜지션 이펙트 정보를 점선 영역으로 표시하였다. 사용자는 트랜지션 위치를 정할 때 먼저 씬을 정할 수 있다. 다음으로, 각 씬에 사전에 정의된 위치로 이동할 지 또는 사용자가 직접 정한 위치로 이동할지 여부를 결정할 수 있다. 표 6의 Scene_idx와 TransScene_idx 값은 각각 표 3에 정의된 Scene_idx[scn]과 TransScene_idx[scn][pos]에 대응될 수 있다.
표 3에 정의된 내용은 각 씬의 트랜지션 위치마다 하나의 트랜지션 이펙트만 정의된 경우를 나타내고 있다. 씬의 트랜지션이 발생하면 TransEffectInfo()에 정의된 정보만 사용자에게 적용될 수 있다. 만약 각 씬의 트랜지션 위치마다 복수 개의 트랜지션 이펙트가 정의된 경우, 트랜지션 이펙트가 발생할 때 사용자로 하여금 트랜지션 이펙트의 타입을 선택하도록 할 수 있다. 먼저 트랜지션 위치마다 복수 개의 트랜지션 이펙트를 정의하는 TrasEffectInfo()에 대한 신택스의 예시는 아래의 표 7과 같다.
[표 7]
Figure PCTKR2019004821-appb-I000007
표 7은 표 3과 거의 유사하다. 하지만 표 7에는 하나의 씬에 대해서도 복수 개의 트랜지션 이펙트 오디오를 정의하고 있다. 따라서 복수 개의 트랜지션 이펙트를를 식별하는 인덱스가 추가적으로 정의되어 있다.
TransEffectAudio_idx는 복수 개의 트랜지션 이펙트들을 식별하기 위해 각 트랜지션 이펙트에 고유 ID 값을 정의하고 있다. TransEffectAudio_idx 값은 0부터 시작할 수 있다.
표 7에 대응되는 ElementInteractionData()는 아래의 표 8과 같을 수 있다. 중복성을 최소화하기 위해 표 8에는 트랜지션 이펙트 관련 신택스만 나타내고 있다.
[표 8]
Figure PCTKR2019004821-appb-I000008
TransEffectType은 트랜지션 이펙트의 타입에 대한 선택을 나타낸다. 트랜지션 이펙트의 타입은 전술한 표 4를 따른다. TransEffectAudioType은 트랜지션 이펙트 오디오의 타입에 대한 선택을 나타낸다. 트랜지션 이펙트 오디오의 타입은 전술한 표 5를 따른다.
표 8에서 볼 수 있듯이, 트랜지션 이펙트의 종류를 사용자가 직접 고를 수 있게 되면서, 사용자 정보를 수신하는 신택스에 TransEffectType과 TransEffectAudioType이 추가로 정의되었다. 해당 정보는 트랜지션이 수행될 때 발생되는 음원의 특성을 선택하는 정보인데, 만약 사용자가 선택한 트랜지션 이펙트가 TransEffectInfo() 페이로드에 정의되지 않은 경우, 수신기는 TransEffectType과 TrasEffectAudioType 모두 UNDEFINED (TransEffectType =0, TransEffectAudioType=0)로 간주하여 처리할 수 있다.
도 8은 3차원 오디오 스트림의 일 예시를 도시하는 도면이다.
일 실시예는 트랜지션 이펙트가 3D 오디오 디코더에서 어떻게 수신되어 사용되는지에 관한다. 3D 오디오 기준으로 오디오 관련 설정 정보 및 스트림은 송신단에서 모두 패킷 형태로 구성한 후, 스트림으로 생성되어 수신단으로 전송될 수 있다. 각각의 패킷은 패킷 타입, 다양한 패킷 타입들을 식별하는 라벨 그리고 다양한 정보들이 포함된 페이로드로 구성될 수 있다. 도 8은 간단하게 구성된 3D 오디오 스트림의 일 예시를 나타내고 있다.
도 8에서 SYNC, MHCFG, MHASC 및 MHFRM은 각각 PACTYP_SYNC, PACTYP_ MPEGH3DACFG, PACTYP_AUDIOSCENEINFO 및 PACTYP_MPEGH3DAFRAME을 의미한다. PACTYP_SYNC는 프레임 동기화를 사용할 수 없는 채널을 통한 전송을 위해 사용되는 패킷이며, PACTYP_MPEGH3DACFG은 디코딩 컨피규레이션(decoding configuration)을 포함하는 정보로 오디오 스트림을 디코딩할 때 요구될 수 있다. 해당 패킷이 수신되면 mpegh3daconfig() 함수가 호출될 수 있다. PACTYP_AUDIOSCENEINFO은 오디오 씬 정보가 정의된 패킷이다. 해당 패킷은 오디오 씬이 정의되었을 때만 전송되며, PACTYP_MPEGH3DACFG 뒤에 위치할 수 있다. 해당 패킷이 수신되면 mae_AudioSceneInfo() 함수가 호출될 수 있다. PACTYP_MPEGH3DAFRAME은 모든 오디오 스트림 정보를 포함할 수 있으며, mpeg3daframe() 함수를 통해 호출될 수 있다. 따라서 도 8의 일 실시예에 따른 디코딩 순서는, 먼저 디코딩 컨피규레이션을 설정하고, 정의된 오디오 씬 정보를 수신한다. 다음으로, 매 프레임마다 mpeg3daframe()를 호출하여 오디오 스트림을 디코딩하고 렌더링한다. 표 9와 표 10은 전술한 패킷들 외에도 일부 패킷들을 나타내고 있다. 일 예시에서, 표 9 및 표 10은 MPEG-H 3D 오디오 스펙에 따른 테이블을 업데이트한 것일 수 있다.
[표 9]
Figure PCTKR2019004821-appb-I000009
[표 10]
Figure PCTKR2019004821-appb-I000010
도 9는 3차원 오디오 스트림의 다른 일 예시를 도시하는 도면이다.
일 실시예에서, 도 9는 기존 비트스트림에 트랜지션 이펙트와 관련된 패킷만 추가한 경우를 나타낼 수 있다.
도 9에서 MHTRA가 트랜지션 이펙트 관련 패킷을 의미할 수 있고, 표 9의 점섬에 트랜지션 이펙트 관련 패킷에 대한 정보가 개시되어 있다. 도 9를 참조하면 도 8과 비교할 때, MHFRA 패킷이 호출되기 전에 MHTRA 패킷이 호출되는 것을 확인할 수 있다. 그리고 MHTRA에 관련된 트랜지션 이펙트 관련 오디오 스트림들은 오디오 스트림과 함께 MHFRA 패킷에 포함되어 오디오 신호들이 디코딩될 때 동시에 디코딩 되던가, 또는 트랜지션 이펙트를 사용한다는 시그널링이 되었을 때 관련 트랜지션 이펙트 오디오 스트림들이 디코딩될 수 있다.
위에서 설명된 3D 오디오 디코더에서 트랜지션 이펙트를 이용하는 과정은 아래의 도 10a 및 도 10b에 보다 구체적으로 도시되어 있다.
도 10a 및 도 10b는 일 실시예에 따른 3차원 오디오 데이터 수신 장치에서 3차원 오디오 스트림이 처리되는 과정을 도시한 흐름도이다.
도 10a는 도 9에 따른 비트스트림의 호출 순서도를 개략적으로 나타낸 것이다. 도 10a에 대한 보다 구체적인 호출 및 작동 과정(수신단의 입력 정보 포함)은 도 10b에 도시되어 있다. 먼저 비트스트림이 수신되면, mpeg3daConfig()를 호출하여 오디오 신호에 대한 디코딩 설정을 수행하는데 필요한 페이로드를 수신할 수 있다. 다음으로, 오디오 씬이 정의되어 있으면(오디오 씬 관련 packet(MHASI)이 수신되면) mae_AudioSceneInfo()를 호출하여 오디오 씬을 구성하는 엘레먼트들의 페이로드들을 수신할 수 있다. 만약 오디오 씬이 정의되어 있지 않으면, 바로 다음 과정으로 진행할 수 있다. 다음으로, 트랜지션 이펙트 정보가 있으면(트랜지션 이펙트 관련 packet(MHTRA)이 수신되면) TransEffectInfo()를 호출하여, 트랜지션 이펙트 관련 페이로드를 수신할 수 있다. 마찬가지로 만약 트랜지션 이펙트가 정의되어 있지 않으면, 바로 다음 과정으로 진행할 수 있다. 앞에서 모든 정보가 수신된 다음, mpeg3daframe()이 호출되고, 여기서 압축된 모든 오디오 신호가 역양자화(dequantization)되어서 디코딩될 수 있다. 해당 과정에서 기존 오디오 신호뿐만 아니라, 트랜지션 이펙트 오디오 관련 신호들도 함께 디코딩될 수 있다.
한편, 수신단에서 별도로 입력한 정보들도 수신기에 입력되는데, mpeg3daLocalSetupInformation()은 수신단의 재생 환경 정보를, mpeg3daElementInteraction()은 사용자에 의해 변경되는 오디오 씬의 특징 정보를 (사용자의 트랜지션 변경 정보도 여기에 포함 됨), mpeg3daDisplacment()는 사용자의 트래킹 정보를 각각 수신기에 입력할 수 있다. mpeg3daElementInteraction()과 mpeg3daDisplacement()는 오디오 컨텐츠 재생 도중에도 계속해서 수신될 수 있다. 다음으로, 수신기에서는 수신된 정보를 분석하여 출력 채널 환경을 설정하고, 분석된 수신단의 정보를 디코딩 오디오 신호에 적용하여 오디오 신호들을 출력 채널 환경에 맞춰서 렌더링할 수 있다. 만약 오디오 컨텐츠 재생 중에 트랜지션 요청이 발생하면, 즉, 씬 변경이 발생하면 mpeg3daElementInteraction()의 일부 페이로드로 정의되어 있는 트랜지션 이펙트 관련 정보를 참조하여, 트랜지션 이펙트 오디오를 기존에 재생되었던 씬과 변경될 씬 사이에 삽입하여 재생할 수 있다. 즉, 변경될 씬을 재생하기 전에 트랜지션 이펙트 오디오를 재생한 다음, 이어서 변경될 씬을 재생할 수 있다.
도 10a 및 도 10b에서 설명했던 과정을 참조하면, 오디오 신호뿐만 아니라 트랜지션 이펙트를 위한 오디오 신호도 함께 압축되고 패킷에 저장되어서 비트스트림으로 생성됨을 확인할 수 있다. 이는 수신기에서 트랜지션 이펙트 오디오를 이용할 때 먼저 디코딩되어야 한다는 것을 의미하므로, 추가적인 연산이 필요할 수 있다. 따라서 통상적으로 트랜지션 이펙트 오디오의 재생 시간이 일반 오디오 신호에 비해서 많이 짧기 때문에, 압축되지 않은 트랜지션 이펙트 오디오, 즉, PCM audio 신호를 위한 별도의 패킷을 새로 정의해서 비트스트림에 포함시킬 수 있다. 일 예시에서, MPEG 오디오 서브그룹에서는 트랜지션 이펙트 오디오처럼 짧은 재생 시간을 갖는 오브젝트 타입의 오디오를 나타내는 이어콘(earcon) PCM 신호 그대로 패킷화(packetization)하여 비트스트림에 그대로 저장하는 방안을 제안하고 있다. 본 발명의 일 실시예에서도 기존에 제안된 earcon PCM 신호처럼 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 방안을 추가적으로 제안한다. 먼저 트랜지션 이펙트 오디오가 PCM 신호라는 것을 시그널링하기 위해 기존 표 5를 표 11과 같이 업데이트하였다.
[표 11]
Figure PCTKR2019004821-appb-I000011
다음으로, 3D 오디오 디코더에서 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 방법은 두 가지가 존재할 수 있다. 첫 번째는 기존 earcon PCM 신호를 지원하는 패킷의 페이로드 신택스에 트랜지션 이펙트 오디오 PCM 신호에 관련된 정보를 추가하는 방안으로서, 구체적인 신택스의 예시는 아래의 표 12 내지 표 15에 나타난다.
[표 12]
Figure PCTKR2019004821-appb-I000012
[표 13]
Figure PCTKR2019004821-appb-I000013
표 12와 표 13의 점선 영역은 PCM 신호를 지원하기 위해 새로 정의된 패킷들을 나타낸다. 표 14와 표 15는 새로 정의된 패킷에 대한 구체적인 신택스를 나타내고 있다. 점선 영역은 기존 신택스와 비교할때 새로 추가된 정보들을 나타낸다.
[표 14]
Figure PCTKR2019004821-appb-I000014
[표 15]
Figure PCTKR2019004821-appb-I000015
numPcmSignals는 pcmDataPayload()에 포함된 PCM 신호의 총 개수를 의미한다. numTransEffectAudioPcmSignals는 pcmDataPlayload()에 있는 트랜지션 이펙트 오디오 PCM 신호의 총 수를 의미한다. 따라서 numPcmSignals와의 차이는 earcon PCM 신호의 총 수가 된다. pcmSamplingRateIndex는 PCM 신호의 샘플링 레이트를 결정하기 위한 인덱스를 나타낸다. 일 예시에서, 인덱스는 기존 스펙에 정의되어 있는 테이블을 따를 수 있다. pcmSamplingRate: pcmSamplingRateIndex가 0인 경우, PCM 신호의 샘플링 레이트는 부호 없는 정수 값으로 지정될 수 있다. pcmBitsPerSample은 PCM 신호의 샘플당 비트 수를 의미한다. 비트 수는 최소 4이상이어야 한다. pcmFrameSizeIndex는 PCM 신호의 프레임 사이즈를 결정하기 위한 인덱스를 나타낼 수 있다. 인덱스는, 예를 들어 아래의 표 16과 같다.
[표 16]
Figure PCTKR2019004821-appb-I000016
pcmFixFrameSize는 PCM 신호의 고정된 프레임 사이즈를 의미한다. pcmSignal_ID는 각각의 PCM 신호를 식별하기 위해 각 신호에 부여한 ID를 의미한다. isTransEffectAudioPcmSignal은 해당 PCM 신호가 트랜지션 이펙트 오디오 신호인지 여부를 나타낸다. bsPcmLoudnessValue는 PCM 신호의 소리 크기 값을 나타낸다. bsPcmAttenuationGain은 PCM 신호를 재생할 때 함께 활성화된 다른 오디오 신호에 적용되는 감쇠 게인 값을 나타낸다. interleavedData와 관련하여, interleavedData=1이면 오디오 신호가 인터리브 되었음(interleaved)을 나타내고, interleavedData=0이면 오디오 신호가 인터리브 되지 않았음을 의미한다.
numPcmSignalsInFrame은 pcmDataPayload()에서 전달되는 PCM 오디오 신호 수를 나타낸다. numTranEffectAudioSignalsInFrame은 pcmDataPayload()에서 전달되는 PCM audio 신호들 중에Transition effect audio PCM 신호 수를 의미한다. pcmSignal_ID는 PCM 신호들을 식별하는 ID를 의미한다. pcmVarFrameSize는 PCM 신호의 가변 프레임 사이즈를 의미한다. pcmDataChunk는 interleavedData = 1이면 numPcmSignalsInFrame * pcmFrameSize * pcmBitsPerSample로 계산되며, 그렇지 않으면 pcmFrameSize * pcmBitsPerSample의 크기를 갖는 numPcmSignalsInFrame 프레임들을 의미한다.
3D 오디오 디코더에서 트랜지션 이펙트 오디오 PCM 신호를 지원할 수 있는 두 번째 방법은 트랜지션 이펙트 오디오 PCM 신호를 수신하기 위한 전용 패킷을 새로 정의하는 방안이다. 하지만 이는 오디오 신호에 대한 특성만 다를 뿐, 앞서 말했던 earcon을 수신할 때 필요한 정보들과 유사할 수 있다. 따라서 본 발명의 일 실시예에서는 신택스의 내용은 거의 비슷하게 사용되도록 하였다. 관련 신택스 정의의 예시는 아래의 표 17 내지 표 20을 통해 나타내고 있다.
[표 17]
Figure PCTKR2019004821-appb-I000017
[표 18]
Figure PCTKR2019004821-appb-I000018
[표 19]
Figure PCTKR2019004821-appb-I000019
[표 20]
Figure PCTKR2019004821-appb-I000020
numTranEffectAudioPcmSignals는 TranEffectAudiopcmDataPayload()에 포함된 트랜지션 이펙트 오디오 PCM 신호의 총 개수를 의미한다. TranEffectAudioSamplingRateIndex는 트랜지션 이펙트 오디오 PCM 신호의 샘플링 레이트를 결정하기 위한 인덱스를 의미한다. 일 예시에서, 인덱스는 기존 스펙에 정의되어 있는 테이블을 따를 수 있다. TranEffectAudioSamplingRate는 pcmSamplingRateIndex가 0인 경우, 트랜지션 이펙트 오디오 PCM 신호의 샘플링 레이트는 부호 없는 정수 값으로 지정할 수 있다. TranEffectAudiopcmBitsPerSample은 트랜지션 이펙트 오디오 PCM 신호의 샘플당 비트 수를 의미한다. 비트 수는 최소 4이상이어야 한다. TranEffectAudiopcmFrameSizeIndex는 트랜지션 이펙트 오디오 PCM 신호의 프레임 사이즈를 결정하기 위한 인덱스를 나타낸다. 일 예시에서, 인덱스는 표 16을 따를 수 있다. TranEffectAudiopcmFixFrameSize는 트랜지션 이펙트 오디오 PCM 신호의 고정된 프레임 사이즈를 의미한다. TranEffectAudiopcmSignal_ID는 각각의 트랜지션 이펙트 오디오 PCM 신호를 식별하기 위해 각 신호에 부여한 ID를 나타낸다. bsTranEffectAudioPcmLoudnessValue는 트랜지션 이펙트 오디오 PCM 신호의 소리 크기 값을 나타낸다.
bsTranEffectAudioPcmAttenuationGain은 트랜지션 이펙트 오디오 PCM 신호가 재생될 때 함께 활성화된 다른 오디오 신호에 적용되는 감쇠 게인 값을 나타낸다. interleavedData와 관련하여, interleavedData=1이면 트랜지션 이펙트 오디오 신호가 인터리브되고, interleavedData=0이면 트랜지션 이펙트 오디오 신호가 인터리브되지 않음을 의미한다. numTranEffectAudioPcmSignalsInFrame은 TranEffectAudiopcmDataPayload()에서 전달되는 PCM 오디오 신호 수를 나타낸다. TranEffectAudiopcmSignal_ID는 트랜지션 이펙트 오디오 PCM 신호들을 식별하는 ID를 의미한다. TranEffectAudioVarFrameSize는 트랜지션 이펙트 오디오 PCM 신호의 가변 프레임 사이즈를 의미한다. TranEffectAudiopcmDataChunk와 관련하여, interleavedData = 1이면, numPcmSignalsInFrame * pcmFrameSize * pcmBitsPerSample로 산출되며, 그렇지 않으면 pcmFrameSize * pcmBitsPerSample의 크기를 갖는 numPcmSignalsInFrame 프레임들을 의미할 수 있다.
일 실시예에서, 임의의 VR 컨텐츠를 경험하면서 씬을 변경하는 기술은 사용자로 하여금 해당 컨텐츠에 더욱 몰입하도록 할 수 있다. 해당 기술은 표준 요구사항에 대응되는 기술이 될 수 있다. 또한 트랜지션 이펙트로 사용되는 오디오의 효과음은 입체감 및 공간감의 특성이 있는 소리뿐만 아니라, 변경되는 위치에 대한 특징 정보를 전달할 목적으로도 사용될 수 있으므로, 사용자가 임의의 VR 컨텐츠를 좀 더 효과적으로 사용하도록 할 수 있다.
도 11은 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 동작 방법을 도시하는 흐름도이다.
일 실시예에서, 3차원 오디오 데이터 수신 장치의 동작 방법은 아래와 같이 9개의 단계로 구성될 수 있다.
제1 단계에서, 비트스트림이 수신되면 3DA 디코더 컨피규레이션(3DA Decoder Configuration)단에서 디코딩 오디오 관련 정보를 추출할 수 있다. 즉, 인코딩된 오디오 신호들의 채널 개수에 대한 정보, 오브젝트 개수에 대한 정보 및 샘플링 레이트와 같은 기본적인 정보들을 비트스트림으로부터 수신 받아 판독할 수 있다.
제2 단계에서, 오디오 씬 정보가 존재하는 경우, 오디오 씬을 구성하는 엘레먼트들의 그루핑 정보를 추출할 수 있다.
제3 단계에서, 인코딩된 오디오 신호에 대하여 디코딩을 수행할 수 있다. 해당 과정에서는 채널, 오브젝트, HOA 타입의 신호를 별도로 구별하지 않고, 오디오 채널 수만큼 디코딩할 수 있다.
제4 단계에서, 수신단의 재생 환경 정보를 설정할 수 있다. 즉, 오디오 컨텐츠를 어떤 재생 장치(스피커 또는 헤드폰)로 재생할지, 스피커로 재생할 경우, 스테레오 스피커 환경인지 멀티채널 스피커 환경인지 등을 수신 측에서 결정할 수 있다.
제5 단계에서, 오디오 컨텐츠가 사용자와 상호 작용할 경우(사용자가 오디오 컨텐츠에서 재생되는 임의의 오브젝트의 특징을 변경하고자 할 경우), 관련 정보를 재생 환경 정보와 함께 기록할 수 있다.
제6 단계에서, 만약 사용자의 위치가 변경되거나 사용자가 위치를 변경하고자 할 경우, 업데이트되어야 하는 씬 정보(TransScene)를 기록하고, 동시에 트랜지션 이펙트 오디오 타입(Transition Effect Audio Type)을 선택할 수 있다.
제7 단계에서, 씬이 변경되었을 경우, 씬에 해당되는 오디오에 대한 설정 정보 및 오디오 씬 정보를 재설정하여 디코딩을 수행할 수 있다.
제8 단계에서, 오디오 씬이 재생 환경에서 적합하게 재생되도록 제4 단계에서 설정한 스피커 레이아웃(layout) 정보를 참조하고, 디코딩된 오디오 신호들을 재구성하여 렌더링된 신호를 출력할 수 있다.
제9 단계에서, 만약 재생 장치가 헤드폰일 경우, 별도로 BRIR을 오디오 신호에 필터링하여 바이너럴 렌더링(Binaural rendering)된 신호를 출력할 수 있다.
도 12는 다른 일 실시예에 따른 3차원 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
도 12는 트랜지션 이펙트가 포함된 3D 오디오 디코더의 블록도를 나타내고 있다. 비트스트림은 3D 오디오 디코딩단에 입력되기 전 디멀티플렉싱(Demultiplexing)단에 입력되어 오디오 데이터와 디코딩 컨피규레이션 관련 정보들이 파싱될 수 있다. 3D 오디오 디코딩단은 오디오 데이터는 디코딩 컨피규레이션 정보를 참조하여 디코딩되고, 디코딩된 신호와 오브젝트 메타데이터가 출력될 수 있다. 오브젝트 메타데이터는 메타데이터 및 인터페이스 데이터 프로세싱단으로 입력되고, 재생 환경 정보 및 사용자 상호 작용 정보들에 의해 수정될 수 있다. 또한 추가적으로 시그널링되는 트랜지션 이펙트 정보는 사용자에 의해 변경된 또는 변경하고자 하는 위치 정보를 참조하여, 변경되어야 하는 위치에 대한 씬 정보를 디코더에 전달하여 해당 씬과 관련된 오디오 데이터를 디코딩하고, 동시에 트랜지션 이펙트 오디오 관련 정보를 오디오 데이터와 함께 렌더링 및 믹싱단에 전달할 수 있다. 다음으로, 렌더링 및 믹싱단에서 설정된 재생 환경에 맞춰서 채널 신호(ch1(.pcm), ch2(.pcm), 쪋, chN(.pcm))를 출력할 수 있다. 만약 사용자가 헤드폰 환경에서 재생하고자 할 경우, 바이너럴 렌더링단에서 출력된 채널 신호들은 바로 필터링하여 바이너럴 렌더링된 신호(Left signal(.pcm)과 Right signal(.pcm))를 출력할 수 있다. 바이너럴 렌더링된 두 신호는 각각 D/A 컨버터와 Amp를 통해서 헤드폰의 좌측 트랜스듀서(Left transducer)와 우측 트랜스듀서(Right transducer)로 재생될 수 있다.
본 발명의 일 실시예는 핫스팟(Hot spot)과 같이 복수의 위치에서 캡쳐 또는 제작된 씬이 사용되는 환경에서 사용자의 위치 정보가 변화될 경우, 씬과 관련된 변경 요소들을 고려하여 오디오 렌더링을 수행할 시 적용될 수 있다. 복수의 오디오 씬의 캡쳐는 획득(Acquisition)단과 연관될 수 있고, 트랜지션 이펙트는 사용자 위치 변화에 따라 디코딩 및 렌더링에 영향을 줄 수 있으므로 오디오 디코딩(Audio decoding)단 및 오디오 렌더링단과 관련될 수 있다.
도 13은 일 실시예에 따른 오디오 데이터 전송 장치의 동작 방법을 도시하는 흐름도이고, 도 14는 일 실시예에 따른 오디오 데이터 전송 장치의 구성을 도시하는 블록도이다.
도 13에 개시된 각 단계는 도 5 내지 도 12에서 전술된 내용에 기반할 수 있다. 따라서, 도 13의 각 단계를 설명함에 있어서 도 5 내지 도 12에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.
도 14에 개시된 바와 같이, 일 실시예에 따른 오디오 데이터 전송 장치(1400)는 메타데이터 생성부(1410), 오디오 신호 인코딩부(1420) 및 전송부(1430)를 포함할 수 있다. 그러나, 경우에 따라서는 도 14에 도시된 구성 요소 모두가 오디오 데이터 전송 장치(1400)의 필수 구성 요소가 아닐 수 잇고, 오디오 데이터 전송 장치(1400)는 도 14에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 구현될 수 있다.
일 실시예에 따른 오디오 데이터 전송 장치(1400)에서, 메타데이터 생성부(1410), 오디오 신호 인코딩부(1420) 및 전송부(1430)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.
일 실시예에 따른 오디오 데이터 전송 장치(1400)는, 3차원 오디오 컨텐츠의 재생 정보를 생성할 수 있다(S1300). 보다 구체적으로, 오디오 데이터 전송 장치(1400)의 메타데이터 생성부(1410)는 3차원 오디오 컨텐츠의 재생 정보를 생성할 수 있다.
일 실시예에서, 3차원 오디오 컨텐츠는 3DoF, 3DoF+ 또는 6DoF 환경의 가상현실(Virtual Reality, VR) 컨텐츠 또는 증강현실(Augmented Reality, AR) 컨텐츠인 것을 특징으로 할 수 있다.
일 실시예에서, 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 예시에서, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬의 총 개수에 대한 정보는 numScenes로 표현되고, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보는 Scene_idx로 표현되고, 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치의 총 개수에 대한 정보는 numTransEffectPos로 표현되고, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보는 TranPos_idx로 표현되고, 트랜지션 위치 정보는 TranPos_azimuth, TranPos_elevation 및 TranPos_distance로 표현되고, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보는 TransScene_idx로 표현되고, 상기 트랜지션 이펙트의 타입에 대한 정보는 TransEffectType으로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보는 TransEffectAudioType으로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인 값이 존재하는지 여부에 대한 정보는 TransEffectAudioHasGain으로 표현되고, 상기 게인 값에 대한 정보는 TransEffectAudio_gain으로 표현될 수 있다.
일 실시예에서, 상기 트랜지션 이펙트의 타입에 대한 정보는, 페이드인-페이드아웃 타입, 도플러 타입, 잔향(reverberation) 타입 및 바이너럴 렌더링 타입 중 적어도 하나를 포함할 수 있다.
일 예시에서, 페이드인-페이드아웃 타입은 FADEIN_FADEOUT으로 표현되고, 도플러 타입은 DOPPLER로 표현되고, 잔향 타입은 REVERBERATION으로 표현되고, 바이너럴 렌더링 타입은 BINAURAL RENDERING으로 표현될 수 있다.
일 실시예에서, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호의 타입에 대한 정보는, 내츄럴 사운드 타입, 합성 사운드 타입 및 스포큰 텍스트(spoken text) 타입 중 적어도 하나를 포함하고, 상기 스포큰 텍스트 타입은 스포큰 가이드 텍스트 타입, 스포큰 인포메이션 텍스트 타입 및 스포큰 디렉션 텍스트 타입 중 적어도 하나를 포함할 수 있다.
일 예시에서, 내츄럴 사운드 타입은 NATURAL SOUND로 표현되고, 합성 사운드 타입은 SYNTHETIC SOUND로 표현되고, 스포큰 가이드 텍스트 타입은 SPOKEN_TEXT (GUIDE)로 표현되고, 스포큰 인포메이션 텍스트 타입은 SPOKEN_TEXT (INFORMATION)으로 표현되고, 스포큰 디렉션 텍스트 타입은 SPOKEN_TEXT (DIRECTION)으로 표현될 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함할 수 있다. 일 예시에서, 트랜지션 이펙트 오디오 인덱스는 TransEffectAudio_idx로 표현될 수 있다.
일 실시예에서, 상기 재생 정보는 3차원 오디오 스트림에 포함되고, 상기 3차원 오디오 스트림은 상기 트랜지션 이펙트에 대한 정보를 포함하는 패킷을 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보를 포함하는 상기 패킷은 MHTRA 패킷인 것을 특징으로 할 수 있다.
일 실시예에서, 상기 오디오 신호의 타입에 대한 정보는, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호가 PCM 신호임을 나타내는 트랜지션 이펙트 오디오 PCM 타입을 더 포함할 수 있다.
일 실시예에서, 상기 오디오 신호의 타입이 상기 트랜지션 이펙트 오디오 PCM 타입인 경우, 상기 PCM 신호를 지원하는 패킷의 페이로드 신택스(payload syntax)는 PCM 관련 정보를 포함할 수 있다.
일 실시예에서, 상기 PCM 관련 정보는, 상기 PCM 신호의 총 개수에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보, 상기 PCM 신호의 샘플링 레이트에 대한 정보, 상기 PCM 신호의 샘플당 비트 수에 대한 정보, 상기 PCM 신호의 프레임 사이즈에 대한 정보, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보, 상기 PCM 신호 각각을 식별하기 위한 ID 정보, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보, 상기 PCM 신호의 소리 크기 값에 대한 정보, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보, 상기 오디오 신호의 인터리빙 여부에 대한 정보, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보 및 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 예시에서, 상기 PCM 신호의 총 개수에 대한 정보는 numPcmSignals로 표현되고, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보는 numTransEffectAudioPcmSignals로 표현되고, 상기 PCM 신호의 샘플링 레이트에 대한 정보는 pcmSamplingRateIndex로 표현되고, 상기 PCM 신호의 샘플당 비트 수에 대한 정보는 pcmBitsPerSample로 표현되고, 상기 PCM 신호의 프레임 사이즈에 대한 정보는 pcmFrameSizeIndex로 표현되고, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보는 pcmFixFrameSize로 표현되고, 상기 PCM 신호 각각을 식별하기 위한 ID 정보는 pcmSignal_ID로 표현되고, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보는 isTransEffectAudioPcmSignal로 표현되고, 상기 PCM 신호의 소리 크기 값에 대한 정보는 bsPcmLoudnessValue로 표현되고, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보는 bsPcmAttenuationGain으로 표현되고, 상기 오디오 신호의 인터리빙 여부에 대한 정보는 interleavedData로 표현되고, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보는 numPcmSignalsInFrame으로 표현되고, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보는 numTransEffectAudioSignalsInFrame으로 표현되고, 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보는 pcmVarFrameSize로 표현될 수 있다.
도 13 및 도 14에 개시된 오디오 데이터 전송 장치(1400) 및 오디오 데이터 전송 장치(1400)의 동작 방법에 따르면, 오디오 데이터 전송 장치(1400)는 3차원 오디오 컨텐츠의 재생 정보를 생성하고(S1300), 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하고(S1310), 인코딩된 3차원 오디오 컨텐츠의 3차원 오디오 신호 및 생성된 재생 정보를 오디오 데이터 수신 장치로 전송할 수 있으며(S1320), 이때 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 할 수 있다. S1300 내지 S1320에 따라, 오디오 데이터 전송 장치(1400)는 오디오 데이터 수신 장치로 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 전송함으로써, 오디오 데이터 수신 장치가 3차원 오디오 컨텐츠에 대한 3차원 오디오 신호(예를 들어, 3DoF, 3DoF+ 또는 6DoF 환경의 VR 컨텐츠에 기반한 오디오 신호 또는 3DoF, 3DoF+ 또는 6DoF 환경의 AR 컨텐츠에 기반한 오디오 신호)를 렌더링(또는 재생)함에 있어서 트랜지션 이펙트를 효율적으로 적용하는데 기여할 수 있다.
도 15는 일 실시예에 따른 오디오 데이터 수신 장치의 동작을 도시하는 흐름도이고, 도 16은 일 실시예에 따른 오디오 데이터 수신 장치의 구성을 도시하는 블록도이다.
도 15에 개시된 각 단계는 도 16에 개시된 오디오 데이터 수신 장치(1600), 도 6에 개시된 3차원 오디오 데이터 수신 장치 또는 도 12에 개시된 3차원 오디오 데이터 수신 장치에 의하여 수행될 수 있다. 일 예시에서, 도 15의 S1510은 도 6에 개시된 3차원 오디오 데이터 수신 장치의 MPEG-H 3D 오디오 코어 디코딩 모듈 또는 도 16에 개시된 오디오 신호 디코딩부(1620)에 의하여 수행될 수 있고, 도 15의 S1520은 도 6에 개시된 3차원 오디오 데이터 수신 장치의 렌더링 및 믹싱 모듈 또는 도 16에 개시된 렌더링부(1630)에 의하여 수행될 수 있다. 또한, 도 15에 개시된 각 단계는 도 5 내지 도 12에서 전술된 내용에 기반할 수 있다. 따라서, 도 15의 각 단계를 설명함에 있어서 도 5 내지 도 12에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.
또한, 도 16에 개시된 오디오 데이터 수신 장치(1600)와 도 14에 개시된 오디오 데이터 전송 장치(1400)는 상호 오디오 데이터를 송수신하므로 상호 밀접하게 관련될 수 있다. 따라서, 도 15 및 도 16을 설명함에 있어서, 도 14 및 도 15에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.
도 16에 개시된 바와 같이, 일 실시예에 따른 오디오 데이터 수신 장치(1600)는 수신부(1610), 오디오 신호 디코딩부(1620) 및 렌더링부(1630)를 포함할 수 있다. 그러나, 경우에 따라서는 도 16에 도시된 구성 요소 모두가 오디오 데이터 수신 장치(1600)의 필수 구성 요소가 아닐 수 잇고, 오디오 데이터 수신 장치(1600)는 도 16에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 구현될 수 있다.
일 실시예에 따른 오디오 데이터 수신 장치(1600)에서, 수신부(1610), 오디오 신호 디코딩부(1620) 및 렌더링부(1630)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.
일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신할 수 있다(S1500). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 수신부(1610)는 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신할 수 있다.
일 실시예에서, 3차원 오디오 컨텐츠는 3DoF, 3DoF+ 또는 6DoF 환경의 가상현실(Virtual Reality, VR) 컨텐츠 또는 증강현실(Augmented Reality, AR) 컨텐츠인 것을 특징으로 할 수 있다.
일 실시예에서, 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트에 대한 정보를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트의 타입에 대한 정보는, 페이드인-페이드아웃 타입, 도플러 타입, 잔향(reverberation) 타입 및 바이너럴 렌더링 타입 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호의 타입에 대한 정보는, 내츄럴 사운드 타입, 합성 사운드 타입 및 스포큰 텍스트(spoken text) 타입 중 적어도 하나를 포함하고, 상기 스포큰 텍스트 타입은 스포큰 가이드 텍스트 타입, 스포큰 인포메이션 텍스트 타입 및 스포큰 디렉션 텍스트 타입 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함할 수 있다.
일 실시예에 따른 오디오 데이터 수신 장치(1600)는 사용자의 입력을 기반으로 트랜지션 이펙트 인터랙션 정보(transition effect interaction information)를 획득할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트 인터랙션 정보는, 상기 트랜지션 이펙트가 적용되었는지 여부에 대한 정보, 상기 사용자가 선택한 씬의 인덱스 정보, 사전 정의된 위치 정보가 이용되었는지 여부에 대한 정보, 사전 정의된 트랜지션 위치를 나타내는 인덱스 정보 및 사전 정의되지 않은 트랜지션 위치에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트 인터랙션 정보는, 트랜지션 이펙트 타입에 대한 선택 정보 및 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호 타입에 대한 선택 정보를 더 포함할 수 있다.
일 실시예에서, 상기 재생 정보는 3차원 오디오 스트림에 포함되고, 상기 3차원 오디오 스트림은 상기 트랜지션 이펙트에 대한 정보를 포함하는 패킷을 포함할 수 있다.
일 실시예에서, 상기 트랜지션 이펙트에 대한 정보를 포함하는 상기 패킷은 MHTRA 패킷인 것을 특징으로 할 수 있다.
일 실시예에서, 상기 오디오 신호의 타입에 대한 정보는, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호가 PCM 신호임을 나타내는 트랜지션 이펙트 오디오 PCM 타입을 더 포함할 수 있다.
일 실시예에서, 상기 오디오 신호의 타입이 상기 트랜지션 이펙트 오디오 PCM 타입인 경우, 상기 PCM 신호를 지원하는 패킷의 페이로드 신택스(payload syntax)는 PCM 관련 정보를 포함할 수 있다.
일 실시예에서, 상기 PCM 관련 정보는, 상기 PCM 신호의 총 개수에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보, 상기 PCM 신호의 샘플링 레이트에 대한 정보, 상기 PCM 신호의 샘플당 비트 수에 대한 정보, 상기 PCM 신호의 프레임 사이즈에 대한 정보, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보, 상기 PCM 신호 각각을 식별하기 위한 ID 정보, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보, 상기 PCM 신호의 소리 크기 값에 대한 정보, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보, 상기 오디오 신호의 인터리빙 여부에 대한 정보, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보 및 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보 중 적어도 하나를 포함할 수 있다.
일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 인코딩된 3차원 오디오 신호를 디코딩할 수 있다(S1510). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 오디오 신호 디코딩부(1620)는 인코딩된 3차원 오디오 신호를 디코딩할 수 있다.
일 실시예에 따른 오디오 데이터 수신 장치(1600)는, 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 디코딩된 3차원 오디오 신호를 렌더링할 수 있다(S1620). 보다 구체적으로, 오디오 데이터 수신 장치(1600)의 렌더링부(1630)는 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 디코딩된 3차원 오디오 신호를 렌더링할 수 있다.
도 15 및 도 16에 개시된 오디오 데이터 수신 장치(1600) 및 오디오 데이터 수신 장치(1600)의 동작 방법에 따르면, 오디오 데이터 수신 장치(1600)는 오디오 데이터 전송 장치(1400)로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하고(S1500), 상기 인코딩된 3차원 오디오 신호를 디코딩하고(S1510), 상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링할 수 있고(S1520), 이때 상기 재생 정보는 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는 할 수 있다. S1500 내지 S1520에 따라, 오디오 데이터 수신 장치(S1600)는 3차원 오디오 컨텐츠에 대한 3차원 오디오 신호(예를 들어, 3DoF, 3DoF+ 또는 6DoF 환경의 VR 컨텐츠에 기반한 오디오 신호 또는 3DoF, 3DoF+ 또는 6DoF 환경의 AR 컨텐츠에 기반한 오디오 신호)를 렌더링(또는 재생)함에 있어서 트랜지션 이펙트를 효율적으로 적용할 수 있다.
전술한 모듈들은 실시예에 따라 생략되거나, 유사/동일한 동작을 수행하는 다른 모듈에 의해 대체될 수 있다.
전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서이거나 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서 또는 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.
상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
본 발명에서 실시예들이 소프트웨어로 구현될 때, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 프로세서는 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(read-only memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.

Claims (15)

  1. 오디오 데이터 수신 장치에 의하여 수행되는 오디오 데이터 수신 방법에 있어서,
    오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 단계;
    상기 인코딩된 3차원 오디오 신호를 디코딩하는 단계; 및
    상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 단계를 포함하되,
    상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  2. 제1항에 있어서,
    상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  3. 제2항에 있어서,
    상기 트랜지션 이펙트의 타입에 대한 정보는, 페이드인-페이드아웃 타입, 도플러 타입, 잔향(reverberation) 타입 및 바이너럴 렌더링 타입 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  4. 제2항에 있어서,
    상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호의 타입에 대한 정보는, 내츄럴 사운드 타입, 합성 사운드 타입 및 스포큰 텍스트(spoken text) 타입 중 적어도 하나를 포함하고,
    상기 스포큰 텍스트 타입은, 스포큰 가이드 텍스트 타입, 스포큰 인포메이션 텍스트 타입 및 스포큰 디렉션 텍스트 타입 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  5. 제1항에 있어서,
    사용자의 입력을 기반으로 트랜지션 이펙트 인터랙션 정보(transition effect interaction information)를 획득하는 단계를 더 포함하고,
    상기 트랜지션 이펙트 인터랙션 정보는, 상기 트랜지션 이펙트가 적용되었는지 여부에 대한 정보, 상기 사용자가 선택한 씬의 인덱스 정보, 사전 정의된 위치 정보가 이용되었는지 여부에 대한 정보, 사전 정의된 트랜지션 위치를 나타내는 인덱스 정보 및 사전 정의되지 않은 트랜지션 위치에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  6. 제2항에 있어서,
    상기 트랜지션 이펙트에 대한 정보는, 하나의 씬에 적용되는 복수의 트랜지션 이펙트들 각각을 식별하기 위한 트랜지션 이펙트 오디오 인덱스를 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  7. 제5항에 있어서,
    상기 트랜지션 이펙트 인터랙션 정보는, 트랜지션 이펙트 타입에 대한 선택 정보 및 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호 타입에 대한 선택 정보를 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  8. 제1항에 있어서,
    상기 재생 정보는 3차원 오디오 스트림에 포함되고, 상기 3차원 오디오 스트림은 상기 트랜지션 이펙트에 대한 정보를 포함하는 패킷을 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  9. 제8항에 있어서,
    상기 트랜지션 이펙트에 대한 정보를 포함하는 상기 패킷은 MHTRA 패킷인 것을 특징으로 하는, 오디오 데이터 수신 방법.
  10. 제4항에 있어서,
    상기 오디오 신호의 타입에 대한 정보는, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호가 PCM 신호임을 나타내는 트랜지션 이펙트 오디오 PCM 타입을 더 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  11. 제10항에 있어서,
    상기 오디오 신호의 타입이 상기 트랜지션 이펙트 오디오 PCM 타입인 경우, 상기 PCM 신호를 지원하는 패킷의 페이로드 신택스(payload syntax)는 PCM 관련 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  12. 제11항에 있어서,
    상기 PCM 관련 정보는, 상기 PCM 신호의 총 개수에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보, 상기 PCM 신호의 샘플링 레이트에 대한 정보, 상기 PCM 신호의 샘플당 비트 수에 대한 정보, 상기 PCM 신호의 프레임 사이즈에 대한 정보, 상기 PCM 신호의 고정된 프레임 사이즈에 대한 정보, 상기 PCM 신호 각각을 식별하기 위한 ID 정보, 상기 PCM 신호가 상기 트랜지션 이펙트를 적용할 때 이용되는지 여부에 대한 정보, 상기 PCM 신호의 소리 크기 값에 대한 정보, 상기 PCM 신호를 재생할 때 다른 오디오 신호에 적용되는 감쇠 게인 값에 대한 정보, 상기 오디오 신호의 인터리빙 여부에 대한 정보, 상기 프레임 내의 상기 PCM 신호의 총 개수에 대한 정보, 상기 프레임 내의 상기 트랜지션 이펙트를 적용할 때 이용될 PCM 신호의 총 개수에 대한 정보 및 상기 PCM 신호의 가변 프레임 사이즈에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 방법.
  13. 오디오 데이터 전송 장치에 의하여 수행되는 오디오 데이터 전송 방법에 있어서,
    3차원 오디오 컨텐츠의 재생 정보를 생성하는 단계;
    상기 3차원 오디오 컨텐츠의 3차원 오디오 신호를 인코딩하는 단계; 및
    상기 인코딩된 3차원 오디오 컨텐츠의 상기 3차원 오디오 신호 및 상기 생성된 재생 정보를 오디오 데이터 수신 장치로 전송하는 단계를 포함하되,
    상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 전송 방법.
  14. 제13항에 있어서,
    상기 트랜지션 이펙트에 대한 정보는, 상기 3차원 오디오 컨텐츠에 포함된 적어도 하나의 씬(scene)의 총 개수에 대한 정보, 상기 적어도 하나의 씬 각각을 식별하기 위한 씬 인덱스 정보(scene index information), 상기 적어도 하나의 씬 각각에 대하여 정의된 트랜지션 위치(transition position)의 총 개수에 대한 정보, 복수의 트랜지션 위치들을 각각 식별하기 위한 트랜지션 위치 인덱스 정보, 트랜지션 위치 정보, 트랜지션 위치에서 재생되어야 할 씬의 인덱스 정보, 상기 트랜지션 이펙트의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 오디오 신호의 타입에 대한 정보, 상기 트랜지션 이펙트를 적용할 때 이용될 상기 오디오 신호에 게인(gain) 값이 존재하는지 여부에 대한 정보 및 상기 게인 값에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 전송 방법.
  15. 오디오 데이터를 수신하는 오디오 데이터 수신 장치에 있어서,
    오디오 데이터 전송 장치로부터 3차원 오디오 컨텐츠의 재생 정보 및 상기 3차원 오디오 컨텐츠의 인코딩된 3차원 오디오 신호를 수신하는 수신부;
    상기 인코딩된 3차원 오디오 신호를 디코딩하는 오디오 신호 디코딩부; 및
    상기 3차원 오디오 컨텐츠의 재생 정보를 기반으로, 상기 디코딩된 3차원 오디오 신호를 렌더링하는 렌더링부를 포함하되,
    상기 재생 정보는, 상기 3차원 오디오 컨텐츠의 트랜지션 이펙트(transition effect)에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 수신 장치.
PCT/KR2019/004821 2018-04-20 2019-04-22 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치 WO2019203627A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/047,616 US11435977B2 (en) 2018-04-20 2019-04-22 Method for transmitting and receiving audio data related to transition effect and device therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180045841 2018-04-20
KR10-2018-0045841 2018-04-20

Publications (1)

Publication Number Publication Date
WO2019203627A1 true WO2019203627A1 (ko) 2019-10-24

Family

ID=68239197

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004821 WO2019203627A1 (ko) 2018-04-20 2019-04-22 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치

Country Status (2)

Country Link
US (1) US11435977B2 (ko)
WO (1) WO2019203627A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111030A1 (en) * 2019-12-04 2021-06-10 Nokia Technologies Oy Audio scene change signaling

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022507245A (ja) * 2018-11-13 2022-01-18 アンバインド グループ ピーティーワイ リミテッド ナビゲート可能仮想空間内でレンダリングされた3次元表示オブジェクトを介した2次元コンテンツの提示を介してユーザインターフェースを提供するように適合された技術
US11461942B2 (en) * 2018-12-21 2022-10-04 Koninklijke Kpn N.V. Generating and signaling transition between panoramic images

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110292244A1 (en) * 2010-05-25 2011-12-01 Deever Aaron T Storing a video summary as metadata
US20150089553A1 (en) * 2011-05-02 2015-03-26 Netflix, Inc. Audio and video streaming for media effects
KR20170023870A (ko) * 2014-05-28 2017-03-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송
KR20170095260A (ko) * 2015-02-14 2017-08-22 삼성전자주식회사 시스템 데이터를 포함하는 오디오 비트스트림을 디코딩하는 방법 및 장치
US20180012611A1 (en) * 2011-11-18 2018-01-11 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3276596B2 (ja) * 1997-11-04 2002-04-22 松下電器産業株式会社 動画像編集装置
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110292244A1 (en) * 2010-05-25 2011-12-01 Deever Aaron T Storing a video summary as metadata
US20150089553A1 (en) * 2011-05-02 2015-03-26 Netflix, Inc. Audio and video streaming for media effects
US20180012611A1 (en) * 2011-11-18 2018-01-11 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
KR20170023870A (ko) * 2014-05-28 2017-03-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 데이터 프로세서 및 사용자 제어 데이터의 오디오 디코더들과 렌더러들로의 전송
KR20170095260A (ko) * 2015-02-14 2017-08-22 삼성전자주식회사 시스템 데이터를 포함하는 오디오 비트스트림을 디코딩하는 방법 및 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021111030A1 (en) * 2019-12-04 2021-06-10 Nokia Technologies Oy Audio scene change signaling
EP4070573A4 (en) * 2019-12-04 2024-01-03 Nokia Technologies Oy AUDIO SCENE CHANGE SIGNALING

Also Published As

Publication number Publication date
US20210132898A1 (en) 2021-05-06
US11435977B2 (en) 2022-09-06

Similar Documents

Publication Publication Date Title
WO2019194434A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2018038523A1 (ko) 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
WO2017188714A1 (ko) 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치
WO2018038520A1 (ko) 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
WO2019194573A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
WO2019151798A1 (ko) 무선 통신 시스템에서 이미지에 대한 메타데이터를 송수신하는 방법 및 장치
WO2017142353A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2017204491A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2019198883A1 (ko) 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치
WO2019066436A1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
WO2018169176A1 (ko) 퀄리티 기반 360도 비디오를 송수신하는 방법 및 그 장치
WO2019231178A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019066191A1 (ko) 스티칭 및 리프로젝션 관련 메타데이터를 이용한 6dof 비디오를 송수신하는 방법 및 그 장치
WO2020027349A1 (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
WO2019203456A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2018217057A1 (ko) 360 비디오 처리 방법 및 그 장치
WO2019203627A1 (ko) 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
WO2018131832A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2019168304A1 (ko) 카메라 렌즈 정보를 포함한 360도 비디오를 송수신하는 방법 및 그 장치
WO2011155776A2 (ko) 프래그먼트 기반의 멀티미디어 스트리밍 서비스 제공 방법과 그 장치, 그리고 프래그먼트 기반의 멀티미디어 스트리밍 서비스 수신 방법과 그 장치
WO2019245302A1 (en) Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
WO2019199046A1 (ko) 무선 통신 시스템에서 오디오에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019059462A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19787875

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19787875

Country of ref document: EP

Kind code of ref document: A1