WO2019059716A1 - 오디오 데이터를 송수신하는 방법 및 그 장치 - Google Patents

오디오 데이터를 송수신하는 방법 및 그 장치 Download PDF

Info

Publication number
WO2019059716A1
WO2019059716A1 PCT/KR2018/011252 KR2018011252W WO2019059716A1 WO 2019059716 A1 WO2019059716 A1 WO 2019059716A1 KR 2018011252 W KR2018011252 W KR 2018011252W WO 2019059716 A1 WO2019059716 A1 WO 2019059716A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio
information
user
bitstream
reproducing apparatus
Prior art date
Application number
PCT/KR2018/011252
Other languages
English (en)
French (fr)
Inventor
이동금
오세진
오현묵
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to US16/631,271 priority Critical patent/US11361771B2/en
Publication of WO2019059716A1 publication Critical patent/WO2019059716A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • H04L65/612Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio for unicast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Definitions

  • the present invention relates to audio data, and more particularly, to a method and apparatus for transmitting and receiving three-dimensional audio data.
  • a Virtual Reality (VR) system provides the user with a sense of being in an electronically projected environment.
  • the AR (Augmented Reality) system superimposes a 3D virtual image on a realistic image or background to provide the user with a sense of being in a virtual and real mixed environment.
  • a system for providing VR or AR may be further improved to provide spatial images with higher quality images.
  • the VR or AR system may allow a user to interactively consume VR or AR content.
  • the present invention provides a method and apparatus for transmitting and receiving audio data.
  • Another object of the present invention is to provide an audio reproducing apparatus and an operating method thereof for reproducing an audio signal while transmitting and receiving audio data to and from an audio processing apparatus.
  • Another aspect of the present invention is to provide an audio processing apparatus and an operation method thereof for generating a three-dimensional audio signal while transmitting and receiving three-dimensional audio data.
  • a method of processing audio data performed by an audio processing apparatus includes the steps of receiving an information on reproduction environment of the audio reproduction apparatus from an audio reproduction apparatus, processing an audio bitstream based on the reproduction environment information to generate an audio signal, Generating an InfoFrame including characteristic information of the generated audio signal and transmitting the generated audio signal and the generated InfoFrame to the audio reproduction apparatus, , And the audio bitstream includes a VR (Virtual Reality) audio bitstream or an AR (Augmented Reality) audio bitstream.
  • VR Virtual Reality
  • AR Augmented Reality
  • an audio data reproducing method performed by an audio reproducing apparatus.
  • the method includes generating reproduction environment information of the audio reproduction apparatus, transmitting the reproduction environment information to the audio processing apparatus, processing the audio bitstream by the audio processing apparatus based on the reproduction environment information, Receiving the information frame generated by the audio processing apparatus based on the generated audio signal and the feature information of the generated audio signal from the audio processing apparatus, reproducing the received audio signal based on the information frame
  • the audio bitstream includes a VR (Virtual Reality) audio bitstream or an AR (Augmented Reality) audio bitstream.
  • an audio processing apparatus for processing audio data.
  • the audio processing apparatus includes a receiving unit for receiving the reproducing environment information of the audio reproducing apparatus from the audio reproducing apparatus, an audio signal processing unit for processing the audio bit stream based on the reproducing environment information to generate an audio signal, And a transmitting unit for transmitting the generated audio signal to the audio reproducing apparatus, wherein the audio bit stream is a VR audio bit stream or an AR audio bit stream And a control unit.
  • an audio reproducing apparatus for reproducing audio data.
  • the audio reproduction apparatus comprises: a metadata processing unit for generating reproduction environment information of the audio reproduction apparatus; a transmission unit for transmitting the reproduction environment information to the audio processing apparatus; A receiving unit for receiving an information frame generated by the audio processing apparatus based on the audio signal generated by processing the bit stream and the characteristic information of the generated audio signal from the audio processing apparatus;
  • the audio bitstream may include a VR (Virtual Reality) audio bitstream or an AR (Augmented Reality) audio bitstream.
  • an audio processing apparatus and an audio reproducing apparatus capable of efficiently transmitting and receiving three-dimensional audio data.
  • an audio processing apparatus and an audio reproducing apparatus can efficiently transmit and receive VR or AR audio data.
  • the present invention it is possible to provide a method of generating a VR or AR audio signal for more efficient reproduction in an audio reproduction apparatus based on reproduction environment information of an audio reproduction apparatus received from an audio reproduction apparatus.
  • an audio reproducing apparatus processes a VR or AR audio bit stream received from an audio processing apparatus and generates a VR or AR audio signal based on the characteristic information of the VR or AR audio signal obtained in the process of generating the VR or AR audio signal. It is possible to provide a method of efficiently reproducing an audio signal.
  • FIG. 1 is a diagram illustrating an entire architecture for providing 360 contents according to an embodiment.
  • FIG. 2 and FIG. 3 are views showing the structure of a media file according to an embodiment.
  • FIG. 4 shows an example of the overall operation of the DASH-based adaptive streaming model.
  • FIG. 5 is a block diagram showing a configuration of an audio processing apparatus according to an embodiment.
  • FIG. 6 is a block diagram showing a configuration of an audio reproducing apparatus according to an embodiment.
  • FIG. 7 is a block diagram showing the configuration of an audio processing apparatus and an audio reproducing apparatus according to an embodiment.
  • FIGS. 8A and 8B are diagrams showing an example of acquiring reproduction environment information of the audio reproduction apparatus in one embodiment.
  • FIG. 9 is a flowchart illustrating a process of processing audio data by the audio processing apparatus according to an embodiment.
  • FIG. 10 is a flowchart illustrating a process of reproducing audio data by an audio player according to an embodiment of the present invention.
  • 11A and 11B are flowcharts illustrating a process of transmitting and receiving audio data by an audio processing apparatus and an audio reproducing apparatus according to an embodiment.
  • FIGS. 12A and 12B are flowcharts illustrating a process in which an audio processing apparatus and an audio reproducing apparatus according to an embodiment transmit and receive audio data in a multi-user environment.
  • a method of processing audio data performed by an audio processing apparatus includes the steps of receiving an information on reproduction environment of the audio reproduction apparatus from an audio reproduction apparatus, processing an audio bitstream based on the reproduction environment information to generate an audio signal, Generating an InfoFrame including characteristic information of the generated audio signal and transmitting the generated audio signal and the generated InfoFrame to the audio reproduction apparatus, , And the audio bitstream includes a VR (Virtual Reality) audio bitstream or an AR (Augmented Reality) audio bitstream.
  • VR Virtual Reality
  • AR Augmented Reality
  • FIG. 1 is a diagram illustrating an entire architecture for providing 360 contents according to an embodiment.
  • the 360-degree content may be referred to as 3D DeFrees of Freedom (3DoF) content
  • VR may refer to a technique or an environment for replicating an actual or virtual environment.
  • VR artificially provides the user with a sensory experience that allows the user to experience the same experience as in an electronically projected environment.
  • 360 content refers to the entire content for implementing and providing VR, and may include 360-degree video and / or 360 audio.
  • 360 degree video and / or 360 audio may also be referred to as three dimensional video and / or three dimensional audio.
  • 360 degree video may refer to video or image content that is required to provide VR while being captured or played in all directions (360 degrees).
  • 360-degree video may mean 360-degree video.
  • 360 degree video can refer to a video or image represented in various types of 3D space according to the 3D model, for example, a 360 degree video can be displayed on a spherical surface.
  • 360 audio may also refer to audio content for providing VR, which may be perceived as being located on a three-dimensional specific space of a sound source.
  • 360 audio may also be referred to as three-dimensional audio.
  • 360 content can be created, processed and sent to users, and users can consume VR experience using 360 content.
  • a 360 degree video can first be captured through one or more cameras.
  • the captured 360-degree video is transmitted through a series of processes, and the receiving side can process the received data back into the original 360-degree video and render it. This allows 360-degree video to be provided to the user.
  • the entire process for providing 360-degree video may include a capture process, a preparation process, a transmission process, a processing process, a rendering process, and / or a feedback process.
  • the capturing process may refer to a process of capturing an image or video for each of a plurality of viewpoints via one or more cameras.
  • Image / video data such as (110) in Fig. 1 shown by the capture process can be generated.
  • Each plane of (110) shown in FIG. 1 may mean image / video for each viewpoint.
  • the captured plurality of images / videos may be referred to as raw data. Metadata associated with the capture can be generated during the capture process.
  • a special camera for VR can be used for this capture.
  • capturing through a real camera may not be performed.
  • the process of generating the related data may be replaced with the capturing process.
  • the preparation process may be a process of processing the captured image / video and metadata generated during the capturing process.
  • the captured image / video may be subjected to a stitching process, a projection process, a region-wise packing process and / or an encoding process in the preparation process.
  • each image / video can be subjected to a stitching process.
  • the stitching process may be a process of linking each captured image / video to create one panoramic image / video or spherical image / video.
  • the stitched image / video may undergo a projection process.
  • the stitched image / video can be projected onto the 2D image.
  • This 2D image may be referred to as a 2D image frame depending on the context. It can also be expressed as mapping a 2D image to a 2D image.
  • the projected image / video data may be in the form of a 2D image as shown in FIG. 1 (120).
  • the video data projected on the 2D image may undergo region-wise packing to increase the video coding efficiency.
  • the region-specific packing may refer to a process of dividing video data projected on a 2D image by regions.
  • a region may mean a region in which a 2D image in which 360-degree video data is projected is divided.
  • these regions can be divided into 2D images evenly divided or arbitrarily divided.
  • the regions may be classified according to the projection scheme.
  • the region-by-region packing process is an optional process and may be omitted in the preparation process.
  • the processing may include rotating each region or reordering on a 2D image to enhance video coding efficiency. For example, by rotating the regions so that certain sides of the regions are located close to each other, the coding efficiency can be increased.
  • the process may include raising or lowering the resolution for a particular region to differentiate resolution by region on a 360 degree video. For example, regions that are relatively more important in 360-degree video can have a higher resolution than other regions.
  • Video data projected on a 2D image or region-packed video data may be encoded through a video codec.
  • the preparation process may further include an editing process and the like.
  • editing process editing of image / video data before and after projection can be further performed.
  • metadata for stitching / projection / encoding / editing can be generated.
  • meta data regarding the initial point of time of the video data projected on the 2D image, the ROI (Region of Interest), and the like can be generated.
  • the transmission process may be a process of processing the prepared image / video data and metadata and transmitting the processed image / video data and metadata. Processing according to any transmission protocol can be performed for transmission.
  • the processed data for transmission may be transmitted over the broadcast network and / or broadband. These data may be delivered to the receiving side on an on-demand basis. The receiving side can receive the corresponding data through various paths.
  • the processing may be a process of decoding the received data and re-projecting the projected image / video data on the 3D model.
  • the image / video data projected on the 2D images can be re-projected onto the 3D space.
  • This process can be called mapping, projection, depending on the context.
  • the 3D space mapped at this time may have a different shape depending on the 3D model.
  • a 3D model may have a sphere, a cube, a cylinder, or a pyramid.
  • the processing may further include an editing process, an up scaling process, and the like.
  • editing process editing of image / video data before and after re-projection can be further performed. If the image / video data is scaled down, it can be enlarged by upscaling the samples during upscaling. If necessary, an operation of reducing the size through downscaling may be performed.
  • the rendering process may refer to the process of rendering and displaying the re-projected image / video data on the 3D space. It can also be expressed that the re-projection and the rendering are combined according to the representation and rendered on the 3D model.
  • the image / video that is re-projected (or rendered on the 3D model) on the 3D model may have the form of (130) shown in FIG. 1 (130) is a case where the projection is re-projected onto a 3D model of a sphere.
  • the user can view some areas of the rendered image / video through the VR display or the like. In this case, the area viewed by the user may be the same as 140 shown in FIG.
  • the feedback process may be a process of transmitting various feedback information that can be obtained in the display process to the transmitting side.
  • the feedback process can provide interactivity in 360 degree video consumption.
  • Head Orientation information in the feedback process, Viewport information indicating the area currently viewed by the user, and the like can be transmitted to the sender.
  • the user may interact with those implemented in the VR environment, in which case the information associated with that interaction may be conveyed from the sender to the service provider side in the feedback process.
  • the feedback process may not be performed.
  • the head orientation information may mean information about a user's head position, angle, motion, and the like. Based on this information, information about the area that the user is currently viewing within the 360 degree video, i.e. viewport information, can be calculated.
  • the viewport information may be information about an area that the current user is viewing in a 360 degree video. This allows a Gaze Analysis to be performed to see how the user consumes 360 degrees of video, what area of the 360 degree video is staring, and so on.
  • the Gaussian analysis may be performed on the receiving side and delivered via the feedback channel to the transmitting side.
  • a device such as a VR display can extract a viewport area based on a user's head position / direction, vertical or horizontal FOV (field of view) information supported by the device, and the like.
  • the above-described feedback information may be consumed not only at the transmitting side but also at the receiving side. That is, decoding, re-projection, and rendering processes on the receiving side can be performed using the above-described feedback information. For example, only the 360 degree video for the area that the current user is viewing may be preferentially decoded and rendered using head orientation information and / or viewport information.
  • the viewport or viewport area may refer to an area viewed by a user in a 360-degree video.
  • a viewpoint is a point that a user is viewing in a 360 degree video, which may mean a center point of the viewport area. That is, the viewport is a region around the viewpoint, and the size and the size occupied by the viewport can be determined by the FOV (Field Of View) described later.
  • FOV Field Of View
  • Image / video data that undergoes a series of processes of capture / projection / encoding / transmission / decoding / re-projection / rendering within the overall architecture for providing 360-degree video may be called 360-degree video data.
  • the term 360-degree video data may also be used to include metadata or signaling information associated with such image / video data.
  • the media file may have a file format based on ISO Base Media File Format (ISO BMFF).
  • ISO BMFF ISO Base Media File Format
  • FIG. 2 and FIG. 3 are views showing the structure of a media file according to an embodiment.
  • a media file may include at least one box.
  • the box may be a data block or an object including metadata related to media data or media data.
  • the boxes may have a hierarchical structure with each other, so that the data may be classified so that the media file has a form suitable for storing and / or transferring large-capacity media data.
  • the media file may also have an easy structure for accessing media information, such as when a user moves to a specific point in the media content.
  • a media file according to one embodiment may include an ftyp box, a moov box, and / or an mdat box.
  • the ftyp box (file type box) can provide file type or compatibility information for the corresponding media file.
  • the ftyp box may contain configuration version information for the media data of the media file.
  • the decoder can identify the media file by referring to the ftyp box.
  • the moov box may be a box containing metadata about the media data of the corresponding media file.
  • the moov box can serve as a container for all metadata.
  • the moov box may be the top-level box of metadata related boxes. According to an embodiment, there can be only one moov box in the media file.
  • the mdat box may be a box for storing actual media data of the corresponding media file.
  • the media data may include audio samples and / or video samples, and the mdat box may serve as a container for these media samples.
  • the above-described moov box according to an embodiment may further include an mvhd box, a trak box, and / or a mvex box as sub-boxes.
  • the mvhd box may include media presentation related information of the media data included in the corresponding media file. That is, the mvhd box may include information such as a media creation time, a modification time, a time specification, and a duration of the corresponding media presentation.
  • the trak box can provide information related to the track of the corresponding media data.
  • the trak box may contain information such as stream related information for an audio track or a video track, presentation related information, access related information, and the like.
  • a plurality of trak boxes may exist depending on the number of tracks.
  • the trak box may further include a tkhd box (track header box) as a sub-box according to an embodiment.
  • the tkhd box may contain information about the track that the trak box represents.
  • the tkhd box may contain information such as the creation time of the track, the modification time, the track identifier, and the like.
  • the mvex box (movie extension box) can indicate to the media file that there may be a moof box to be described later. To know all media samples of a particular track, moof boxes may need to be scanned.
  • a media file according to one embodiment may be divided 200 into a plurality of fragments according to an embodiment. Whereby the media file can be divided and stored or transmitted.
  • the media data (mdat box) of a media file is divided into a plurality of fragments, each of which may include an mdat box divided with a moof box.
  • the information of the ftyp box and / or the moov box may be needed to utilize the fragments.
  • the moof box (movie fragment box) can provide metadata about the media data of the fragment.
  • the moof box may be the top-level box of the metadata related boxes of the fragment.
  • the mdat box may contain actual media data as described above.
  • This mdat box may contain media samples of media data corresponding to each respective fragment.
  • the above-described moof box may further include an mfhd box and / or a traf box as a sub-box.
  • the mfhd box may contain information related to the association between a plurality of fragmented fragments.
  • the mfhd box may contain a sequence number to indicate how many pieces of media data of the corresponding fragment are divided. Also, it can be confirmed whether or not any of the divided data using the mfhd box is missing.
  • the traf box may contain information about the corresponding track fragment.
  • the traf box may provide metadata for the fragmented track fragments contained in the fragment.
  • the traf box may provide metadata such that media samples in the track fragment may be decoded / played back.
  • a plurality of traf boxes may exist depending on the number of track fragments.
  • the traf box described above according to the embodiment may further include a tfhd box and / or a trun box as a sub-box.
  • the tfhd box may contain header information of the corresponding track fragment.
  • the tfhd box may provide basic sample size, duration, offset, identifier, etc. for media samples of the track fragment represented by the traf box described above.
  • the trun box may include information about the corresponding track fragment.
  • the trun box may include information such as a period, a size, a playback time, etc. of each media sample.
  • a segment may have an initialization segment and / or a media segment.
  • the file of the illustrated embodiment 210 may be a file including information related to the initialization of the media decoder, excluding the media data. This file may correspond, for example, to the initialization segment described above.
  • the initialization segment may include the ftyp box and / or the moov box described above.
  • the file of the illustrated embodiment 220 may be a file containing the above-described fragment. This file may correspond, for example, to the media segment described above.
  • the media segment may include moof boxes and / or mdat boxes as described above.
  • the media segment may further include a styp box and / or a sidx box.
  • a styp box may provide information for identifying media data of a fragmented fragment.
  • the styp box can act like the ftyp box described above for fragmented fragments.
  • the styp box may have the same format as the ftyp box.
  • the sidx box (segment index box) can provide information indicating the index for the fragmented fragment. This may indicate how fragment the fragment is.
  • An (230) ssix box may be further included according to an embodiment.
  • the ssix box (subsegment index box) may provide information indicating the index of the subsegment when the segment is further divided into subsegments.
  • the boxes in the media file may include more extended information based on a box or full box format such as the illustrated embodiment 250.
  • the size field and the largesize field may indicate the length of the corresponding box in units of bytes.
  • the version field may indicate the version of the corresponding box format.
  • the Type field may indicate the type or identifier of the corresponding box.
  • the flags field can indicate flags, etc., associated with the box.
  • the fields (attributes) for 360-degree video may be transmitted in a DASH-based adaptive streaming model.
  • FIG. 4 shows an example of the overall operation of the DASH-based adaptive streaming model.
  • the DASH-based adaptive streaming model according to the illustrated embodiment 400 describes the operation between the HTTP server and the DASH client.
  • DASH Dynamic Adaptive Streaming over HTTP
  • DASH is a protocol for supporting HTTP based adaptive streaming and can support streaming dynamically according to the network situation. Accordingly, AV content reproduction can be seamlessly provided.
  • the DASH client can acquire the MPD.
  • the MPD can be delivered from a service provider such as an HTTP server.
  • the DASH client can request the segments to the server using the access information to the segment described in the MPD.
  • this request can be performed reflecting the network status.
  • the DASH client After the DASH client obtains the segment, it can process it on the media engine and display it on the screen.
  • the DASH client can request and acquire a necessary segment by reflecting the reproduction time and / or the network status in real time (Adaptive Streaming). This allows content to be played seamlessly.
  • the MPD Media Presentation Description
  • XML XML format
  • the DASH client controller can generate commands to request MPD and / or segments to reflect network conditions.
  • the controller can control the acquired information to be used in an internal block of a media engine or the like.
  • the MPD parser can parse the acquired MPD in real time. This allows the DASH client controller to be able to generate a command that can obtain the required segment.
  • the segment parser can parse the acquired segment in real time. Depending on the information contained in the segment, the internal blocks of the media engine or the like may perform a specific operation.
  • the HTTP client may request the HTTP server for the required MPD and / or segment.
  • the HTTP client may also pass MPDs and / or segments obtained from the server to an MPD parser or segment parser.
  • the media engine can display the content on the screen using the media data included in the segment. At this time, information of MPD can be utilized.
  • the DASH data model may have a hierarchical structure 410.
  • the media presentation can be described by MPD.
  • the MPD can describe a temporal sequence of a plurality of Periods that make a media presentation.
  • a preeid can represent one section of media content.
  • the data may be included in adaptation sets.
  • the adaptation set may be a collection of a plurality of media content components that can be exchanged with each other.
  • the adaptation may include a collection of representations.
  • the representation may correspond to a media content component.
  • the content can be temporally divided into a plurality of segments. This may be for proper accessibility and delivery.
  • the URL of each segment can be provided to access each segment.
  • the MPD can provide information related to the media presentation, and the peered element, the adaptation set element, and the presentation element can describe the corresponding peer, adaptation set, and presentation, respectively.
  • the representation can be divided into sub-representations, which can describe the sub-representations.
  • Common attributes / elements can be defined here, which can be applied to, or included in, adaptation sets, representations, sub-presentations, and so on.
  • common attributes / elements there may be EssentialProperty and / or SupplementalProperty.
  • the essential property may be information including elements that are considered essential in processing the media presentation related data.
  • the supplemental property may be information including elements that may be used in processing the media presentation related data. Descriptors to be described below according to an embodiment may be defined and delivered in an essential property and / or a supporting property when delivered via MPD.
  • 3D video and 3D audio that implement VR or AR contents, but in the following description, three-dimensional audio data is processed in association with an embodiment of the present invention Will be described in more detail.
  • FIG. 5 is a block diagram showing a configuration of an audio processing apparatus according to an embodiment.
  • audio processing apparatus 500 may refer to an apparatus that performs audio signal processing.
  • the apparatus include a set top box (STB), a Blu-ray, a DVD player, But is not limited thereto.
  • the audio signal processing may be, for example, decoding of an audio bitstream, rendering of a decoded audio bitstream, and the like, but is not limited thereto.
  • the audio processing apparatus 500 can perform audio signal processing while mutually transmitting and receiving audio data to and from the audio reproducing apparatus
  • the audio processing apparatus 500 and the audio reproducing apparatus each include a source device and a sink device ). ≪ / RTI > A specific description of the audio reproducing apparatus will be described later with reference to FIG.
  • an audio processing apparatus 500 includes a receiver 510, a metadata processor 520, an audio bitstream processor 530, A transmitter 540 may be included. However, not all the components shown in Fig. 5 are essential components of the audio processing apparatus 500. [ The audio processing apparatus 500 may be implemented by more or fewer components than those shown in Fig.
  • the receiver 510, the metadata processor 520, the audio bitstream processor 530 and the transmitter 540 in the audio processing apparatus 500 may be implemented as separate chips, Two or more components may be implemented on a single chip.
  • the receiving unit 510 may receive information on reproduction environment of the audio reproducing apparatus from the audio reproducing apparatus.
  • the reproduction environment information may indicate at least one of information on the status of the audio reproduction apparatus and information on reproduction capability.
  • the reproduction environment information may refer to the three-dimensional reproduction environment information.
  • the playback environment information may include an Extended Display Identification Data Standard (EDID), and in some cases, the playback environment information may mean an EDID.
  • EDID may include, for example, a sampling rate of an audio signal, information relating to compression or coding (compression method, compression rate, etc.), information on speaker layout, speaker arrangement information of a channel signal, And the like. Specific information that the EDID can include will be described later with reference to FIG.
  • the metadata processing unit 520 can read the reproduction environment information of the audio reproduction apparatus 600 received from the reception unit 510. [ The metadata processing unit 520 transfers the reproduction environment information of the audio reproduction apparatus 600 to the audio bitstream processing unit 530. The audio bitstream processing unit 530 processes the audio bitstream to generate an audio signal The reproduction environment information of the audio reproduction apparatus 600 can be used. More specifically, the metadata processing unit 520 transfers the reproduction environment information of the audio reproduction apparatus 600 to the audio decoder 532. In the process of decoding the 3-dimensional audio bitstream by the audio decoder 532, It is possible to use the reproducing environment information of the reproducing apparatus 600.
  • the audio bit stream may be transmitted to the audio processing apparatus 500 (more specifically, the audio bit stream processing unit 530) via the network, or may be transferred from the digital storage medium to the audio processing apparatus 500.
  • the network may include a broadcasting network and / or a communication network
  • the digital storage medium may include a USB (Universal Serial Bus), an SD, a CD (Compact Disc), a DVD (Digital Versatile Dics) A hard disk drive (HDD), a solid state drive (SSD), and the like.
  • the metadata processing unit 520 may generate an InfoFrame based on the audio signal generated by processing the audio bitstream in the audio bitstream processor 530.
  • the INFO-FRAME is used to determine the sampling rate of the generated audio signal, the bit size information of the generated signal, whether it is compressed or decoded, the compression method used, the compression rate, information for downmixing, information for preventing clipping, characteristic information of the generated audio signal, and the like.
  • the feature information of the audio signal is information obtained by the audio bitstream processing unit 530 in processing the audio bitstream based on the reproduction environment information of the audio reproduction apparatus and includes specific information that the feature information of the audio signal may include Will be described later in the description of FIG.
  • the audio bitstream processing unit 530 may include an audio decoder 532 and a renderer 534. However, not all of the components shown in FIG. 5 are essential components of the audio bitstream processing unit 530.
  • the audio bitstream processing unit 530 may be implemented by more or fewer components than those shown in FIG.
  • the audio bitstream processing unit 530 may further include an equalizer.
  • the equalizer performs equalization on the audio signal transmitted from the renderer 534, For example, the sound quality reproduced from a speaker can be improved.
  • the spatial information of the audio reproduction apparatus will be described later with reference to FIG. 8A.
  • An audio decoder 532 may decode an audio bitstream based on playback environment information. More specifically, the audio decoder 532 can decode the audio bit stream obtained from the outside based on the reproduction environment information of the audio reproduction apparatus received from the metadata processing unit 520.
  • a renderer 534 may render the decoded audio bitstream.
  • the audio bit stream is decoded by the audio decoder 532 and the decoded audio bit stream is rendered in the renderer 534 and the generated audio signal can be transmitted from the audio bit stream processing unit 530 to the transmission unit 540 .
  • the audio bitstream processing unit 530 processes the audio bitstream and can transmit the generated audio signal to the transmission unit 540.
  • the transmitter 540 may transmit the audio signal generated by the audio bitstream processor 530 and the info frame generated by the metadata processor 520 to the audio player.
  • the transmitting unit 540 may simultaneously transmit the audio signal generated by the audio bitstream processing unit 530 and the info frame generated by the metadata processing unit 520 to the audio reproducing apparatus or may transmit the information frame with a predetermined time difference.
  • the transmitting unit 540 transmits the audio signal to the audio reproducing apparatus after the audio signal is generated in the audio bitstream processing unit 530 and a preset time elapses, and the information frame is generated in the metadata processing unit 520
  • the information frame can be transmitted to the audio reproducing apparatus after a predetermined time has elapsed. It will be easily understood by those skilled in the art that the time at which the audio signal of the audio processing apparatus 500 and the information frame are transmitted to the audio reproducing apparatus may be variously defined.
  • an audio bitstream is processed based on three-dimensional reproduction environment information of an audio reproduction apparatus received from the audio reproduction apparatus to generate a three-dimensional audio signal
  • the information frame can be generated based on the feature information of the 3D audio signal obtained during the process, and the generated 3D audio signal and the generated info frame can be transmitted to the audio reproducing apparatus. That is, the audio processing apparatus 500 can generate a three-dimensional audio signal that allows the audio playback apparatus to more smoothly reproduce the three-dimensional audio content while mutually transmitting and receiving the three-dimensional audio data with the audio playback apparatus.
  • FIG. 6 is a block diagram showing a configuration of an audio reproducing apparatus according to an embodiment.
  • the term " audio reproduction apparatus 600” means an apparatus for reproducing an audio signal, and includes, for example, a speaker, a headphone, an earphone, and an HMD.
  • the audio reproducing apparatus 600 can reproduce the audio signal received from the audio processing apparatus 500 that transmits and receives audio data to and from the audio reproducing apparatus 600.
  • Audio data transmission / reception between the audio processing apparatus 500 and the audio reproducing apparatus 600 may occur in a multi-user environment.
  • the multi-user environment there is at least one audio reproduction apparatus that communicates with the audio processing apparatus 500 and the audio reproduction apparatus 600, and a plurality of users are received from the audio processing apparatus 500 through a plurality of audio reproduction apparatuses And may be an environment for listening to audio contents to be reproduced based on the audio signal.
  • the audio reproducing apparatus 600 may correspond to a master device of a plurality of audio reproducing apparatuses, or may correspond to a sub device.
  • communication using Wi-Fi or Bluetooth may be performed between a plurality of audio reproduction apparatuses or a plurality of audio reproduction apparatuses and an audio processing apparatus 500 in a multi-user environment,
  • the method is not limited thereto.
  • a detailed description of the operation of the audio processing apparatus 500 and the audio reproducing apparatus 600 according to the multi-user environment and the multi-user environment will be described later with reference to FIG.
  • an audio player 600 includes a metadata processor 610, a transmitter 620, a receiver 630, 640). However, not all of the components shown in Fig. 6 are essential components of the audio reproducing apparatus 600. Fig. The audio reproducing apparatus 600 may be implemented by more or fewer components than the components shown in Fig.
  • the metadata processing unit 610, the transmitting unit 620, the receiving unit 630, and the reproducing unit 640 may be implemented as separate chips, The components may be implemented on a single chip.
  • the metadata processing unit 610 may collect reproduction environment information of the audio reproduction apparatus 600 according to an exemplary embodiment. More specifically, the metadata processing unit 610 may collect reproduction environment information of the audio reproduction apparatus 600 stored in a memory (memory or storage unit, not shown in FIG. 6) of the audio reproduction apparatus 600 have.
  • the transmitter 620 may transmit the reproduction environment information of the audio reproduction apparatus 600 received from the metadata processing unit 610 to the audio processing apparatus 500.
  • the audio processing apparatus 500 can generate an audio signal by processing an audio bitstream based on reproduction environment information of the audio reproduction apparatus 600 as described above with reference to FIG. 5,
  • the information frame can be generated based on the feature information of the signal.
  • the receiving unit 630 may receive an audio signal and an info frame from the audio processing apparatus 500 according to an embodiment.
  • the receiving unit 630 can transmit the received audio signal to the reproducing unit 640 and the received infoc frame to the metadata processing unit 610.
  • the present invention is not limited to this method.
  • the receiving unit 630 may transmit the received audio signal and the information frame to the reproducing unit 640.
  • the audio signal received by the receiving unit 630 of the audio reproducing apparatus 600 according to the embodiment from the audio processing apparatus 500 may be a compressed signal or an uncompressed signal. If the received audio signal is a non-compressed signal, the receiving unit 630 can directly transmit the received audio signal to at least one of the metadata processing unit 610 and the reproducing unit 640. If the received audio signal is a compressed signal, the receiving unit 630 may decode the received audio signal and transmit the decoded audio signal to at least one of the metadata processing unit 610 and the reproducing unit 640. At this time, the decoding of the compressed signal may be performed by the receiving unit 630, or may be performed through a separate decoder.
  • the reproducing unit 640 can reproduce the received audio signal based on the infoc frame. More specifically, the infoc frame can be read by the metadata processing unit 610, the information obtained by reading the infoc frame can be transferred to the playback unit 640 by the metadata processing unit 610, and the playback unit 640 ) Can reproduce the received audio signal based on the information obtained by reading the infoc frame.
  • the present invention is not limited to this.
  • the reproducing unit 640 receives both the audio signal and the infomation frame directly from the receiving unit 630, To reproduce the audio signal.
  • the reproducing unit 640 may transmit the acquired information to the metadata processing unit 610 while reproducing the audio signal received from the audio processing apparatus 500.
  • the reproducing unit 640 may include at least one of a reproduction controller, a digital analog converter (D / A), an amplifier (AMP), and a transducer .
  • the reproduction control unit may control reproduction of an audio signal while transmitting and receiving data to and from the metadata processing unit 610.
  • the reproduction control unit can receive the info frame from the metadata processing unit 610 and can control the reproduction of the audio signal based on the info frame.
  • the reproduction control unit can distribute audio signals according to the number of channels.
  • the D / A converter may perform digital-analog conversion on an audio signal received from the reproduction control unit, and the AMP according to an exemplary embodiment may include a D / A converter for converting an audio signal And the amplified audio signal may be transmitted to a transducer according to an exemplary embodiment.
  • the number of D / A converters, AMPs, and transducers can be determined depending on the reproduction environment. For example, when the audio reproducing apparatus 600 is a stereo speaker or a headphone, the D / A converter, the AMP, and the transducer may exist for the left and right, that is, two. Further, in the case of a multi-user environment in which a plurality of audio reproducing apparatuses exist, the number of D / A converters, AMPs, and transducers can be further increased.
  • the reproducing environment information including the information about the three-dimensional audio reproducing of the audio reproducing apparatus 600 can be transmitted to the audio processing apparatus 500,
  • the 3D audio signal generated by the audio processing apparatus 500 and the generated info frame can be received from the audio processing apparatus 500.
  • the audio reproducing apparatus 600 can smoothly reproduce the three-dimensional audio contents according to the three-dimensional audio reproducing environment of the audio reproducing apparatus 600 while mutually transmitting and receiving the three-dimensional audio data with the audio processing apparatus 500.
  • FIG. 7 is a block diagram showing the configuration of an audio processing apparatus and an audio reproducing apparatus according to an embodiment.
  • an audio processing apparatus 500 may include a receiving unit 510, a metadata processing unit 520, an audio bitstream processing unit 530, and a transmitting unit 540
  • the audio reproducing apparatus 600 may include a metadata processing unit 610, a transmitting unit 620, a receiving unit 630, and a reproducing unit 640.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 shown in Fig. 7 can operate in the same manner as the audio processing apparatus 500 of Fig. 5 and the audio reproducing apparatus 600 of Fig. 6, respectively, Will be readily appreciated by those of ordinary skill in the art.
  • the receiving unit 510, the metadata processing unit 520, the audio bitstream processing unit 530, and the transmitting unit 540 of the audio processing apparatus 500 and the metadata processing unit 610 5, and 6 with respect to the transmitting unit 620, the receiving unit 630, and the reproducing unit 640 will be omitted or simplified.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 may be connected through a wired interface.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 may be interconnected via an HDMI (High-Definition Multimedia Interface).
  • HDMI High-Definition Multimedia Interface
  • One of HDMI transmission and reception standards is CTA-861-G.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 according to the embodiment can mutually transmit and receive audio data based on the CTA-861-G standard of HDMI.
  • Audio data can be mutually transmitted and received.
  • the three-dimensional audio data is included in the reproduction environment information of the audio reproduction apparatus 600 and is transmitted to the audio processing apparatus 500 from the audio reproduction apparatus 600 or included in the information frame, (Not shown).
  • the 3D audio data is included in an extended data block of the CTA EDID extension defined by extending the EDID defined by the Video Electronics Standards Association (VESA) 500).
  • VESA Video Electronics Standards Association
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 can smoothly provide VR audio or AR audio to the user under the VR system or the AR system.
  • the metadata processing unit 610 of the audio reproducing apparatus 600 may collect the reproducing environment information of the audio reproducing apparatus 600.
  • the transmitting unit 620 of the audio reproducing apparatus 600 may transmit the reproducing environment information of the audio reproducing apparatus 600 to the audio processing apparatus 500.
  • the receiving unit 510 of the audio processing apparatus 500 can receive the reproducing environment information of the audio reproducing apparatus 600 from the audio reproducing apparatus 600.
  • the receiving unit 510 of the audio processing apparatus 500 can receive the reproducing environment information of the audio reproducing apparatus 600 from the audio reproducing apparatus 600 through DDC (Display Data Channel).
  • the metadata processing unit 520 of the audio processing apparatus 500 may receive the reproduction environment information of the audio reproduction apparatus 600 from the reception unit 510 and may receive the reproduction environment information of the audio reproduction apparatus 600 The reproduction environment information can be read.
  • the metadata processing unit 520 transfers the reproduction environment information of the audio reproduction apparatus 600 to the audio bitstream processing unit 530.
  • the audio bitstream processing unit 530 processes the audio bitstream to generate an audio signal
  • the reproduction environment information of the audio reproduction apparatus 600 can be used.
  • the metadata processing unit 520 may generate an info frame based on the audio signal generated by processing the audio bitstream in the audio bitstream processing unit 530.
  • the audio bitstream processing unit 530 of the audio processing apparatus 500 may process the audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600 to generate an audio signal. More specifically, the audio bitstream may include a VR audio bitstream or an AR audio bitstream, and the audio bitstream processing unit 530 may include a VR audio bitstream and an AR audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600. [ At least one of the audio bitstream may be processed to generate a three-dimensional audio signal.
  • the reproducing apparatus 600 may need to refer to the information provided by the audio processing apparatus 500 to smoothly reproduce the three-dimensional audio signal.
  • the information provided by the audio processing apparatus 500 may be, for example, an info frame.
  • the transmitting unit 540 of the audio processing apparatus 500 transmits the audio signal generated by the audio bit stream processing unit 530 and the info frame generated by the metadata processing unit 520 to the audio reproducing apparatus 600 Lt; / RTI >
  • the receiving unit 630 of the audio reproducing apparatus 600 can receive an audio signal and an infom frame from the audio processing apparatus 500. [ The receiving unit 630 can transmit the received audio signal to the reproducing unit 640 and the received infoc frame to the metadata processing unit 610. [
  • the reproducing unit 640 can reproduce the received audio signal based on the infoc frame. More specifically, the infoc frame can be read by the metadata processing unit 610, the information obtained by reading the infoc frame can be transferred to the playback unit 640 by the metadata processing unit 610, and the playback unit 640 ) Can reproduce the received audio signal based on the information obtained by reading the infoc frame.
  • the audio processing apparatus 500 includes an audio option controller
  • the audio reproducing apparatus 600 includes a user option control unit controller.
  • the user option control unit may acquire setting information related to an audio reproduction environment from a user using the audio reproduction apparatus 600.
  • the user can change the audio reproduction environment through the user option control unit.
  • a user can set to block audio data from another user or another audio reproduction apparatus through the user option control unit.
  • the user option control unit may transmit the setting information related to the audio reproduction environment acquired from the user to the transmission unit 620 of the audio reproduction apparatus 600 and the transmission unit 620 may transmit the setting information related to the audio reproduction environment acquired by the user to the audio reproduction environment Can be transmitted.
  • the receiving unit 510 of the audio processing apparatus 500 may receive the setting information related to the audio reproduction environment and transmit the setting information to the audio option control unit.
  • the audio option control unit according to the embodiment may transmit the setting information related to the audio reproduction environment to the metadata processing unit 520 or the audio bitstream processing unit 530.
  • the metadata processing unit 520 may process or modify the EDID or the INFO frame based on the setting information regarding the audio reproduction environment.
  • the audio bitstream processing unit 530 may process the audio bitstream based on the setting information related to the audio reproduction environment to generate an audio signal.
  • the audio bitstream processor 530 of the audio processing apparatus 500 may further include a multi-user audio decoder.
  • a multi-user audio decoder may decode a multi-user audio bitstream received through a network or a broadcasting network in a multi-user environment. At this time, the multi-user audio decoder can decode the multi-user audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600 acquired through the metadata processing unit 520.
  • the multi-user audio decoder may be a separate decoder from the audio decoder 532, but in some cases one integrated decoder may perform both the operation of the audio decoder 532 and the operation of the multi-user audio decoder.
  • the audio signal decoded in the multi-user audio decoder may be combined with the decoded audio signal in audio decoder 532 and then rendered in renderer 534.
  • FIGS. 8A and 8B are views showing an example of acquiring reproduction environment information of an audio reproduction apparatus according to an embodiment.
  • the reproduction environment information of the audio reproduction apparatus 600 may include spatial information and characteristic information of a user's ear.
  • FIG. 8A illustrates an example in which the audio reproduction apparatus 600 acquires spatial information
  • FIG. 8B illustrates an example in which the audio reproduction apparatus 600 acquires feature information of the user's ear.
  • FIG 8A is a diagram showing an example in which the audio reproducing apparatus 600 according to the embodiment acquires spatial information.
  • a binaural room impulse response may be stored in the audio processing apparatus 500 according to some embodiments.
  • the audio processing apparatus 500 When an audio reproduction request is generated from the outside, the audio processing apparatus 500 generates 3 Dimensional audio signal (or a three-dimensional audio bit stream).
  • the audio processing apparatus 500 may generate a 3D audio signal (or three-dimensional audio signal) based on spatial information of the space 800 in which the audio reproducing apparatus 600 is located, Audio bitstream) need to be processed.
  • the audio reproducing apparatus 600 may acquire the spatial information of the space 800 in which the audio reproducing apparatus 600 is located and transmit (or signal) the audio information to the audio processing apparatus 500.
  • the playback environment information of the audio playback apparatus 600 may include an EDID, the EDID may include a CTA data block, and the CTA data block may include an extension tag code (e.g., extended tag code).
  • the VR-AR audio data block may include a three-dimensional available flag indicating whether the audio reproducing apparatus 600 can reproduce the three-dimensional audio signal. If the three-dimensional available flag indicates 1, the VR- The data block may include at least one of three-dimensional audio signal type information, a flag indicating whether the user's ear feature information is used, and a flag indicating whether or not space information is used. 8A, the spatial information will be described concretely. A more detailed description of the CTA data block, the VR-AR audio data block, the extension tag code, the three-dimensional usable flag, and the three- .
  • the VR-AR audio data block may include spatial information, and the spatial information included in the VR-AR audio data block may be supplied from the audio reproducing apparatus 600 And transmitted to the audio processing apparatus 500.
  • the spatial information can be signaled from the audio reproduction apparatus 600 to the audio processing apparatus 500.
  • the spatial information includes information on the size of the space 800 in which the audio reproducing apparatus 600 is located and a reflection coefficient of the material constituting the space 800 in which the audio reproducing apparatus 600 is located Information on the position of the user 810 in the space 800 in which the audio reproducing apparatus 600 is located and information on the direction in which the user 810 gazes . Spatial information can be used for room response correction purposes.
  • a speaker 820 including a headphone 870 or a microphone 830 worn by a user 800 may be an audio reproducing apparatus 600, and the audio reproducing apparatus 600 may be a reference Can be interpreted as a space 800 in which the audio reproducing apparatus 600 is located.
  • the first sensor 840, the second sensor 850 and the third sensor 860 exist in the space 800 where the audio reproducing apparatus 600 is located.
  • the spatial information may be obtained by the user 810.
  • the user 810 may determine the size of the space 800 where the audio reproducing apparatus 600 is located, the reflection coefficient of the material forming the space 800 where the audio reproducing apparatus 600 is located,
  • the user can manually input at least one of the position of the user 810 and the direction in which the user 810 gazes in the space 800 in which the user 810 is positioned.
  • the audio reproducing apparatus 600 can acquire the spatial information of the space 800 in which the audio reproducing apparatus 600 is located from the user 800 through a user interface (UI).
  • UI user interface
  • the spatial information may be estimated based on the information received from the audio reproducing apparatus 600 itself or from at least one sensor in communication with the audio reproducing apparatus 600.
  • a third sensor 860 may emit an infrared ray, and a third sensor 860 may emit infrared rays,
  • the time taken to reach a specific point on the space 800 where the audio reproducing apparatus 600 is located and then reflected and then sensed by the third sensor 860 is measured by the audio reproducing apparatus 600 Can be estimated based on the size of the space 800.
  • a speaker 820 may include a space 800 in which a speaker 820 is located based on a response signal received via a microphone 830. In other words, Can be obtained.
  • the speaker 820 may emit a predetermined signal and a predetermined signal emitted from the speaker 820 may reach a specific point on the space 800 where the speaker 820 is located.
  • the speaker 820 reflects the amplitude of the predetermined signal emitted from the speaker 820 and compares the amplitude of the predetermined signal sensed by the speaker 820 with the amplitude of the predetermined signal emitted from the speaker 820. [ So that the reflection coefficient of the material forming the space 800 in which the speaker 820 is located can be estimated.
  • the speaker 820 detects that the speaker 820 is located It can be determined that the reflection coefficient of the space 800 is small. If the amplitude of the predetermined signal reflected and detected by the speaker 820 is larger than a value reflecting the predetermined threshold value of the amplitude of the predetermined signal emitted from the speaker 820, It is possible to determine that the reflection coefficient of the space 800 is large.
  • the audio playback apparatus 600 may estimate the position of the user 810 within the space 800 where the audio playback apparatus 600 is located. More specifically, the audio reproducing apparatus 600 may emit a predetermined signal, and the predetermined signal emitted from the audio reproducing apparatus 600 may be a part of a wall surface of the space 800 where the audio reproducing apparatus 600 is located The user 810 can be picked up by the microphone being worn.
  • the microphone being worn by the user 810 is connected to the microphone 810 through a predetermined signal type, an angle at which a predetermined signal is emitted, a required time from a point at which a predetermined signal is emitted from the audio reproduction apparatus 600 to a point at which the microphone is received It is possible to estimate the position of the user 810 in the space 800 where the audio reproducing apparatus 600 is located.
  • the audio playback apparatus 600 may estimate the direction in which the user 810 is staring based on the at least one sensor.
  • 8B is a diagram showing an example in which the audio reproducing apparatus 600 according to the embodiment acquires the characteristic information of the user's ear.
  • the audio processing apparatus 500 may apply HRIR (Head-Related Impulse Response) or HRTF (Head-Related Transfer Function) characterizing the shape of the user's ear to a 3D audio signal can do.
  • HRIR Head-Related Impulse Response
  • HRTF Head-Related Transfer Function
  • the audio processing apparatus 500 may store HRIR (or HRTF) in advance, and when an audio reproduction request is generated from the outside, the audio processing apparatus 500 may store the previously stored HRIR (or HRTF) Dimensional audio signal (or a three-dimensional audio bit stream).
  • the HRIR (or HRTF) previously stored in the audio processing apparatus 500 is obtained through a dummy head, and the HRIR (or HRTF) acquired from the dummy head reflects all users' (Or modeling) the HRIR (or HRTF) based on the ear feature information of the individual user may be a way to provide the user with audio content more efficiently.
  • the audio reproducing apparatus 600 may acquire the characteristic information of the user's ear and transmit (or signal) the audio processing apparatus 500 to the audio processing apparatus 500.
  • the playback environment information of the audio playback apparatus 600 may include an EDID, the EDID may include a CTA data block, and the CTA data block may include an extension tag code (e.g., extended tag code).
  • the VR-AR audio data block may include a three-dimensional available flag indicating whether the audio reproducing apparatus 600 can reproduce the three-dimensional audio signal. If the three-dimensional available flag indicates 1, the VR- The data block may include a flag indicating whether or not the user's ear feature information is used.
  • the extended data block may include a Personal Head Information Data Block.
  • the user head information data block may include information on the head width of the user and information on the length or angle of the characteristic parts of the user's ear.
  • Information on the head width of the user and information on the lengths of the user's ear feature portions can be obtained based on at least one sensor connected to the audio reproducing apparatus 600 by wired or wireless connection.
  • the at least one sensor may be incorporated in the audio reproducing apparatus 600 and can be wirelessly communicated with the audio reproducing apparatus 600 as a separate device separately from the audio reproducing apparatus 600, An example of the relationship of the audio reproducing apparatus 600 is not limited to this.
  • the audio reproducing apparatus 600 may acquire information on the head width of the user and transmit (or signal) the audio processing apparatus 500 to the audio processing apparatus 500.
  • the audio reproducing apparatus 600 is a headphone
  • at least one sensor built in the headphone can measure or predict the head width of the user.
  • the headphone can transmit (or signal) information on the head width of the user acquired through at least one sensor to the audio processing device 500 through the user head information data block.
  • the audio reproducing apparatus 600 may acquire information on the length or angle of the user's ear feature regions and transmit (or signal) the audio processing apparatus 500 to the audio processing apparatus 500.
  • FIG. 8B an example of classifying the length or angle of the user's ear feature regions is shown.
  • the audio reproducing apparatus 600 is a headphone
  • at least one sensor built in the headphone can measure or estimate the length or angle of the characteristic portions of the user's ear.
  • the headphone can transmit (or signal) information on the length or angle of the user's ear feature parts acquired through at least one sensor to the audio processing device 500 through the user head information data block.
  • information on the lengths of the user's ear feature parts may be classified into d 1 to d 8 , and information on the angles of the user's ear feature parts may be classified into ⁇ 1 and ⁇ 2 Can be classified.
  • d 1 to d 8 may be through user head information data block corresponding to the PINN1 to PINN8 respectively transmitted to the audio processing apparatus 500 in the audio reproducing apparatus (600)
  • ⁇ 1 and ⁇ 2 is the user head information data block May correspond to PINN9 and PINN10 respectively transmitted from the audio reproduction apparatus 600 to the audio processing apparatus 500 through the audio reproduction apparatus 600.
  • the embodiment for classifying information on the length and angle of the user's ear feature regions is not limited thereto . A more detailed description of how the user head information data block is transmitted (or signaled) from the audio reproducing apparatus 600 to the audio processing apparatus 500 will be described later with reference to FIG.
  • FIG. 9 is a flowchart illustrating a process of processing audio data by the audio processing apparatus according to an embodiment.
  • Each step disclosed in Fig. 9 can be performed by the audio processing apparatus 500 disclosed in Fig. 9 may be performed by the receiving unit 510 of the audio processing apparatus 500 and step 910 may be performed by the metadata processing unit 520 of the audio processing apparatus 500 and the audio bit stream
  • the step 920 may be performed by the metadata processing unit 520 of the audio processing apparatus 500 and the step 930 may be performed by the transmission unit 540 of the audio processing apparatus 500 . Therefore, in describing each step of FIG. 9, the detailed description overlapping with the above-described contents in FIG. 5 will be omitted or simply omitted.
  • 3D available flag information indicating whether or not a 3D audio signal can be reproduced by the audio reproducing apparatus 600
  • 3DA an example of a 3D available flag
  • 3D available flag can be replaced by various terms such as 3D available information, 3D available information and 3D available flag, and " 3DA " can also be replaced by various terms such as " 3DAI & , It should not be construed that the interpretation of the term or sentence used to define the specific information or concept in the specification throughout the specification should be interpreted to be limited to the name and various operations, functions, and effects according to the meaning of the term It needs to be interpreted.
  • the audio processing apparatus 500 can receive the reproduction environment information of the audio reproduction apparatus 600 from the audio reproduction apparatus 600.
  • the reproduction environment information of the audio reproduction apparatus 600 may include an EDID, and in some cases, the reproduction environment information may mean EDID.
  • the EDID may include a CTA data block for indicating at least one of the status information and the playback capability information of the audio reproducing apparatus 600.
  • An example of the CTA data block is shown in Table 1 below.
  • the CTA data block includes tag codes from 0 to 7, and each tag code can be represented by a binary code.
  • the tag codes of the CTA data block are for sorting the information included in the CTA data block according to the type.
  • extended tag codes may be used when the tag code of the CTA data block is signaled as 7 (111) 2. Examples of extended tag codes are shown in Table 2 below.
  • a total of 256 extended tag codes can exist from 0 to 255, and each extended tag code can be represented by a hexadecimal code.
  • Each extended tag code is used to classify extended data blocks included in a CTA data block according to a type.
  • the reproduction environment information of the audio reproduction apparatus 600 includes " VR-AR audio data block VR / AR audio data block ", and may include a " Personal Head Information Data Block " in the extended data block corresponding to the extended tag code 22.
  • the audio reproduction apparatus 600 transmits the audio data to the audio processing apparatus 500 through at least one of the extended data block according to the extended tag code 21 and the extended data block according to the extended tag code 22,
  • the audio reproduction apparatus 600 can smoothly reproduce the three-dimensional audio, that is, the VR audio or the AR audio based on the audio signal generated in the audio processing apparatus 500.
  • the upper 3 bits of the first byte indicate the tag code of the CTA data block
  • the lower 5 bits indicate the length of the corresponding CTA data block
  • It can mean the extension tag code of the block. Since Table 3 shows the VR-AR audio data block, the upper three bits of the first byte indicate the tag code index 7 (111) 2 , the second byte indicates the extended tag code index 21 (0x15) have.
  • the 3D available flag may indicate whether or not the audio reproducing apparatus 600 can reproduce the 3D audio signal
  • 3DA included in the upper fourth bit of the third byte of the VR / audio data block may indicate whether the 3D available flag It may be an example.
  • the third byte of the VR-AR audio data block may further include DI1, DI0, EID (Environmental Information Description) and PHD Description).
  • the three-dimensional audio signal type information may represent a degree of freedom (DoF) in which a three-dimensional audio signal is processed.
  • the three-dimensional audio signal type information may include DI1 included in the upper fifth bit of the third byte of the VR / audio data block, DI0 may correspond to an example of 3D audio signal type information.
  • DI1 included in the upper fifth bit of the third byte of the VR / audio data block
  • DI0 may correspond to an example of 3D audio signal type information.
  • Table 4 One example of the three-dimensional audio signal type information is shown in Table 4 below.
  • the audio processing apparatus 500 processes the AR audio bit stream on the basis of 6DoF .
  • the EID contained in the lower second bit of the third byte of the VR-AR audio data block in Table 3 may correspond to one example of a flag indicating whether or not spatial information is used, and the third The PHD included in the lower first bit of the byte may correspond to an example of a flag indicating whether or not the user's ear feature information is used.
  • the extended data block may include a user head information data block.
  • the user head information data block may include information on the head width of the user and information on the lengths of the user's ear feature portions, and one example of the user head information data block is shown in the following table 5.
  • the upper 3 bits of the first byte indicate the tag code of the CTA data block, and the lower 5 bits indicate the tag code of the corresponding CTA data block Length, and the second byte may mean the extended tag code of the extended data block. Since Table 5 shows the user head information data block, the upper three bits of the first byte indicate the tag code index 7 (111) 2 and the second byte indicates the extended tag code index 22 (0x16) .
  • the user information of the length of the ear characterized in the angle region information of d 1 to d 8
  • the user parts of the ear characterized in ⁇ 1 and ⁇ 2 to a user's head in the width 8b.
  • Table 5 the information on the head width of the user is represented by HEAD
  • the length information of the user's ear feature portions is represented by PINN1 to PINN8
  • the angle information of the user's ear feature portions is represented by PINN9 and PINN10.
  • DMAX the third byte of the user head information data block in Table 5, represents the largest value among HEAD, PINN1 to PINN8. DMAX can be signaled, for example, as shown in Table 6 below.
  • the upper 5 bits are assigned to I (Integer part) and the lower 3 bits are assigned to F (Fractional part).
  • the integer part may represent a positive integer from 0 to 31, and the fractional part may represent 0, 1/8, ⁇ , 7/8.
  • the unit of length value of the information signaled via DMAX can be regarded as centimeter (cm).
  • DIDX which is the fourth byte of the user head information data block, indicates an index of information corresponding to DMAX.
  • HEAD may be 0, and PINN1 to PINN8 may be 1 to 8, respectively.
  • DIDX may be represented by the lower 4 bits of the fourth byte of the user head information data block.
  • the values corresponding to the fifth byte to the fifteenth byte, i.e., HEAD, PINN1 to PINN10, of the user head information data block may be represented by 8 bits in each corresponding byte after being divided by the DMAX value, respectively.
  • HEAD PINN1 to PINN10, PINN1
  • PINN1 for example, can be signaled as shown in Table 7 below.
  • the upper 1 bit is assigned to I, and the lower 7 bits are assigned to F.
  • the integer part may represent 0 or 1
  • the fractional part may represent 0, 1/128, 2/128,?, 127/128.
  • the value obtained by dividing HEAD, PINN1 to PINN8 by DMAX is a real number between 0 and 1, so the value closest to the value obtained by dividing HEAD, PINN1 to PINN8 by DMAX in 0, 1/128, 2/128, It can be displayed in each byte.
  • the VR-AR audio data block of the extended data block may contain spatial information.
  • the spatial information includes information about the size of the space 800 where the audio reproducing apparatus 600 is located, the reflection coefficient of the material forming the space 800 where the audio reproducing apparatus 600 is located, Information about the position of the user 810 in the space 800 where the audio reproducing apparatus 600 is located and information about the direction in which the user 810 gazing have.
  • the spatial information may be acquired (or estimated) by the audio reproduction apparatus 600 itself, or acquired (or estimated) based on at least one sensor in communication with the audio reproduction apparatus 600.
  • the spatial information may be calculated in the audio reproducing apparatus 600 based on information received from at least one sensor existing in the space 800 where the audio reproducing apparatus 600 is located.
  • information received from at least one sensor existing in the space 800 where the audio reproducing apparatus 600 is located is shown in Table 8 below.
  • the spatial information shown in Table 8 can be located in the 9th to 23rd bytes of the VR-AR audio data block of Table 3.
  • the ROOMX, ROOM, and ROOMZ are information for indicating the size of the space 800 where the audio reproducing apparatus 600 is located.
  • the ROOMX, the ROOMY, and the ROOMZ correspond to the lengths in the X-, Y- and Z- In meters (m).
  • the information for indicating the reflection coefficient represents the material property of the material constituting the space 800 in which the audio reproducing apparatus 600 is located.
  • REFL REFC, REFLWL, REFLWR, REFLWF, and REFLWB, for example, REFL can be signaled as shown in Table 9 below.
  • the upper 1 bit is assigned to I (integer part), and the lower 7 bits are assigned to F (decimal part).
  • the integer part may represent 0 or 1
  • the fractional part may represent 0, 1/128, 2/128,?, 127/128. Since the reflection coefficient is a real number between 0 and 1, the closest value to each of REFL, REFC, REFLWL, REFLWR, REFLWF, and REFLWB among 0, 1/128, 2/128, have.
  • PX, PY, and PZ in Table 8 indicate position information of the user 810 on the space 800 where the audio player 600 is located, and X axis, Y axis, and Z axis directions In units of meters (m).
  • OY, OP, and OR indicate the direction in which the user 810 gazes, and represents angle information in units of 1 degree intervals based on the Yaw axis, the pitch axis, and the Roll axis, respectively.
  • Information indicating whether or not a treadmill is used may be included in the fourth higher bit of the fourth byte of the VR-AR audio data block.
  • Information indicating whether or not the treadmill is used can be expressed as Treadmill as shown in Table 3.
  • the lower 4 bits of the fourth byte include information indicating whether the microphone is used in the AR environment, information indicating whether the audio reproducing apparatus 600 includes a stereo microphone, information indicating whether or not the microphone included in the audio reproducing apparatus 600 Information indicating whether or not the sound is processed through the audio reproducing apparatus 600, and information indicating whether or not the direction information of the microphone included in the audio reproducing apparatus 600 is included.
  • information indicating whether or not a microphone is used in the AR environment is represented by ARMIC
  • information indicating whether the audio reproducing apparatus 600 includes a stereo microphone is represented by a Stereo MIC
  • Information indicating whether or not the sound received through the microphone included in the audio reproducing apparatus 600 is processed is represented as Direct and information indicating whether or not the direction information of the microphone included in the audio reproducing apparatus 600 is present is represented by MD Direction).
  • the audio reproducing apparatus 600 does not use a microphone.
  • the audio playback apparatus 600 may be an open headphone or a speaker.
  • the audio reproduction apparatus 600 can record or acquire the audio outside the audio reproduction apparatus 600 via the microphone.
  • a headphone or a microphone mounted on the earphone can record or acquire voice outside of the headphone or earphone.
  • the VR-AR audio data block may include at least one of StereoMIC, Direct, and MD.
  • the StereoMIC may indicate whether or not a stereo microphone is included in the audio reproducing apparatus 600 composed of two channels.
  • a microphone may be included or mounted on both the left part and the right part of the audio reproducing apparatus 600.
  • a microphone may be included or equipped on both the left and right sides of the headphone or earphone.
  • a microphone is included or mounted on one of the left portion and the right portion of the audio reproducing apparatus 600, or the band of the headphone (where the band of the headphone is the left portion and the right portion May be included or attached to the central portion.
  • the audio processing apparatus 500 transmits to the audio processing apparatus 500 that it is necessary to process the external environment sound received through the microphone
  • the audio processing apparatus 500 transmits the audio signal to the audio reproducing apparatus 600
  • the external environment sound received through the microphone can be processed through signal processing. Direct indicates 1, the external environmental sound received through the microphone of the audio reproducing apparatus 600 is directly output without any signal processing.
  • the audio signal is output through the microphone of the audio reproducing apparatus 600
  • the ambient environmental sound received can be processed through signal processing in the audio processing apparatus 500.
  • the operation in which the audio processing apparatus 500 processes the external environmental sound received through the microphone of the audio reproducing apparatus 600 through the signal processing is an operation in which the audio reproducing apparatus 600 receives the external environment sound through the microphone Can be performed simultaneously, that is, in real time.
  • the MD indicates 1, it means that the direction information of the microphone included in the audio reproducing apparatus 600 exists. If the MD indicates 0, the direction information of the microphone included in the audio reproducing apparatus 600 is It may mean that it does not exist.
  • the StereoMIC indicates 1 (i.e., both the MD and the StereoMIC indicate 1)
  • the direction information of the microphone included in the audio reproducing apparatus 600 includes the azimuth angle of the left microphone, the altitude angle of the left microphone, Azimuth angle, and altitude angle of the right microphone.
  • the StereoMIC indicates 0 (i.e., the MD indicates 1 and the StereoMIC indicates 0)
  • the direction information of the microphone included in the audio reproducing apparatus 600 is the azimuth of the microphone and the altitude of the microphone Angle.
  • the VR-AR audio data block contains AZIM1 representing the azimuth of the left microphone, ELEV1 representing the elevation angle of the left microphone, AZIM2 representing the azimuth of the right microphone, And ELEV2 representing the elevation angle of the microphone.
  • the audio reproducing apparatus 600 may include only AZIM1 indicating the azimuth angle of the microphone and ELEV1 indicating the altitude angle of the microphone.
  • the audio reproducing apparatus 600 may transmit the direction information of the microphone included in the audio reproducing apparatus 600 to the audio processing apparatus 500 and the audio processing apparatus 500 may process the audio bit stream It is possible to provide more natural three-dimensional audio contents to the user by adjusting the gain of the sound received through the microphone based on the direction information of the microphone included in the audio reproducing apparatus 600.
  • a multi-user environment may mean an environment in which at least one audio reproduction apparatus communicating with the audio processing apparatus 500 and the audio reproduction apparatus 600 exists.
  • the VR-AR audio data blocks shown in Table 3 are shown for MU, Master, User Count, MUMAX1, MUMAX2 and MUMAX3 in relation to the multi-user environment. A more detailed description related to the multi-user environment will be described later with reference to FIG.
  • the audio processing apparatus 500 may process the audio bitstream based on the reproduction environment information to generate an audio signal. For example, the audio processing apparatus 500 may decode the audio bitstream based on the reproduction environment information, and render the decoded audio bitstream to generate an audio signal.
  • the term "audio signal" does not only refer to a signal after a specific process is completed, It will be readily understood by those skilled in the art that the signal may be processed in the audio interface 500 and transmitted as audio content to the user's ear.
  • the audio processing apparatus 500 may generate an info frame including the feature information of the generated audio signal. Examples of InfoFrames are shown in Table 10 below.
  • the upper 3 bytes in Table 10 indicate a code for identifying the type of the infoc frame, a version of the infoc frame, and a length of the infoc frame, respectively.
  • the feature information of the generated audio signal may be included in the data bytes 10 to 15 of the infoc frame.
  • the VRA of the upper first bit of the data byte 10 may have the same meaning as the 3DA of the VR-AR audio data block included in the EDID.
  • the VRA can indicate whether or not the audio reproducing apparatus 600 can reproduce the three-dimensional audio signal as an example of the three-dimensional usable flag. Accordingly, when VRA indicates 1, the audio reproducing apparatus 600 can reproduce the 3D audio signal, and when VRA indicates 0, the audio reproducing apparatus 600 can not reproduce the 3D audio signal .
  • the 3DA of the VR-AR audio data block of the EDID and the VRA of the infoc frame generated based on the EDID may point to the same information.
  • the INFO-frame includes three-dimensional audio signal type information DI1 and DI0, and whether the audio reproducing apparatus 600 reproducing the 3D audio signal is a headphone And HP, which is an example of information indicating whether the speaker is a speaker.
  • the audio reproducing apparatus 600 reproducing the 3-dimensional audio signal may be a headphone, and when the HP indicates 0, the audio reproducing apparatus 600 reproducing the 3-dimensional audio signal is not a headphone Playback device.
  • a playback device other than a headphone for example, a speaker is provided. That is, when HP indicates 0, the audio reproducing apparatus 600 reproducing the three-dimensional audio signal may be a speaker.
  • the INFO-FRAME may include information indicating whether or not a response signal for canceling possible audio signal distortion in a space where the speaker is located is generated.
  • Information indicating whether or not a response signal for canceling possible audio signal distortion in a space where a speaker is placed can be expressed by, for example, VREQ. If HP indicates 0 and VREQ indicates 1, the audio processing apparatus 500 generates a response signal for canceling the audio signal distortion based on the spatial information obtained through the EDID, and outputs the generated response signal It can be applied in a process of processing a 3D audio signal.
  • 500 may include MIC_On, which is information indicating whether or not to process the bit stream of the sound received from the microphone of the audio reproducing apparatus 600 together with the audio bit stream.
  • MIC_On indicates 0, the bit stream of the sound received from the microphone of the audio reproducing apparatus 600 is not processed together with the audio bit stream, and when the MIC_On indicates 1, A bitstream of speech can be processed with an audio bitstream.
  • the information indicating whether or not the sound received through the microphone included in the audio reproducing apparatus 600 has been processed, Direct, and the bit of the sound received through the microphone included in the audio reproducing apparatus 600 Stereo, which is information indicating whether the stream is stereo, may be further included in the INFO frame.
  • the external environment sound received through the microphone of the audio reproducing apparatus 600 is directly output without any signal processing. If Direct indicates 0, The external environment sound received through the microphone of the apparatus 600 can be processed through signal processing in the audio processing apparatus 500.
  • the operation in which the audio processing apparatus 500 processes the external environmental sound received through the microphone of the audio reproducing apparatus 600 through the signal processing is an operation in which the audio reproducing apparatus 600 receives the external environment sound through the microphone Can be performed simultaneously, that is, in real time.
  • Stereo in Table 10 indicates 0, it means that the bitstream of the sound received via the microphone of the audio reproduction apparatus 600 has been mono, and if Stereo indicates 1, It may mean that the bit stream of the sound received through the microphone of the reproducing apparatus 600 has been received in stereo.
  • MU_On, User Count, All_Active and Diegetic included in the data byte 11 of the INFO frame shown in Table 10 indicate that there is at least one audio reproducing apparatus communicating with the audio processing apparatus 500 and the audio reproducing apparatus 600 Information about the multi-user environment. A more detailed description of the information on the multi-user environment will be described later with reference to FIG.
  • the audio processing apparatus can transmit the generated audio signal and the generated info frame to the audio reproducing apparatus.
  • the audio bitstream is processed based on the three-dimensional reproduction environment information of the audio reproducing apparatus 600 received from the audio reproducing apparatus 600 (step 900)
  • a 3D audio signal is generated (step 910), and an information frame can be generated based on the feature information of the 3D audio signal obtained in the process of processing the audio bitstream (step 920) And transmits the generated information frame to the audio reproducing apparatus (step 930). That is, according to the operation method of the audio processing apparatus 500, the audio reproducing apparatus 600 can transmit and receive the three-dimensional audio data, and the audio reproducing apparatus 600 can reproduce the three- Signal can be generated.
  • FIG. 10 is a flowchart illustrating a process of reproducing audio data by an audio player according to an embodiment of the present invention.
  • Each step disclosed in Fig. 10 can be performed by the audio reproducing apparatus 600 disclosed in Fig. 10 may be performed by the metadata processing unit 610 of the audio reproducing apparatus 600 and step 1010 may be performed by the transmitting unit 620 of the audio reproducing apparatus 600 And step 1020 may be performed by the receiving unit 630 of the audio reproducing apparatus 600 and step 1030 may be performed by the reproducing unit 640 of the audio reproducing apparatus 600. [ Therefore, in describing each step of FIG. 10, the detailed description overlapping with the above-described contents in FIG. 6 will be omitted or simply omitted.
  • the audio data transmitted and received between the audio processing apparatus 500 and the audio reproducing apparatus 600 for example, the reproducing environment information of the audio reproducing apparatus 600 and the information frame are described in detail in FIG. 9, 10, a detailed description of audio data transmitted and received between the audio processing apparatus 500 and the audio reproducing apparatus 600 will be omitted or simplified.
  • the audio playback apparatus 600 may collect playback environment information of the audio playback apparatus 600.
  • the metadata processing unit 610 of the audio reproducing apparatus 600 collects reproduction environment information of the audio reproducing apparatus 600 built in the memory (not shown in FIG. 6) of the audio reproducing apparatus 600 can do.
  • the playback environment information may include, for example, an EDID, but the object included in the playback environment information is not limited to the EDID.
  • the audio reproduction apparatus 600 may transmit the collected reproduction environment information to the audio processing apparatus 500.
  • the transmitting unit 620 of the audio reproducing apparatus 600 may receive the reproducing environment information from the metadata processing unit 610 and then transmit the reproducing environment information to the audio processing apparatus 500.
  • the audio reproducing apparatus 600 processes the audio bit stream based on the reproducing environment information, and generates audio signals based on the generated audio signals and the characteristic information of the generated audio signals. ) From the audio processing apparatus 500.
  • the audio processing apparatus 500 can receive the information frame generated by the audio processing apparatus 500 through the network. More specifically, the receiving unit 630 of the audio reproducing apparatus 600 processes the audio bit stream from the transmitting unit 540 of the audio processing apparatus 500, and based on the generated audio signal and the characteristic information of the generated audio signal The information frame generated by the audio processing apparatus 500 can be received.
  • the audio signal and the infomation frame generated by the audio processing apparatus 500 can be simultaneously transmitted from the audio processing apparatus 500 to the audio reproducing apparatus 600.
  • the embodiment is not limited thereto.
  • the generated audio signal may be transmitted first, or the generated infoc frame may be transmitted first.
  • the audio playback apparatus may play back the received audio signal based on the infoc frame.
  • the infoc frame can be read by the metadata processing unit 610, the information obtained by reading the infoc frame can be transferred to the playback unit 640 by the metadata processing unit 610, and the playback unit 640 ) Can reproduce the received audio signal based on the information obtained by reading the infoc frame.
  • the present invention is not limited to this.
  • the reproducing unit 640 receives both the audio signal and the infomation frame directly from the receiving unit 630, To reproduce the audio signal.
  • the playback environment information including information about the three-dimensional audio playback of the audio playback apparatus 600 is collected (step 1000) (Step 1010), and the 3D audio signal generated by the audio processing apparatus 500 and the generated info frame based on the reproduction environment information can be received from the audio processing apparatus 500 (step 1020) have. That is, the audio reproducing apparatus 600 transmits and receives three-dimensional audio data to and from the audio processing apparatus 500, smoothly reproduces the three-dimensional audio contents according to the three-dimensional audio reproducing environment of the audio reproducing apparatus 600 )can do.
  • 11A and 11B are flowcharts illustrating a process of transmitting and receiving audio data by an audio processing apparatus and an audio reproducing apparatus according to an embodiment.
  • the description overlapping with the description of FIG. 9 and FIG. 10 will be omitted or simplified. More specifically, for example, the operation of the audio reproduction apparatus 600 according to step 1115 corresponds to the operation of the audio reproduction apparatus 600 according to step 1000 of FIG. 10, and the operations of the audio processing apparatus 500 and The operation of the audio reproducing apparatus 600 corresponds to the operation of the audio processing apparatus 500 according to step 900 of FIG. 9 and the operation of the audio reproducing apparatus 600 according to the step 1010 of FIG. 10, and the operations of steps 1145 to 1155 The operation of the audio processing apparatus 500 according to steps 1155 and 1165 corresponds to the operation of the audio processing apparatus 500 according to steps 910 to 930 of Fig. And the operation of the audio reproducing apparatus 600 according to the steps 1020 and 1030 of FIG. 10 will not be described in detail.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 can be interconnected. More specifically, the audio reproducing apparatus 600 can be interconnected with the audio processing apparatus 500 by applying a high level voltage to the hot plug detect line of the audio processing apparatus 500.
  • the audio processing apparatus 500 may request the reproduction environment information of the audio reproduction apparatus 600.
  • the audio processing apparatus 500 can request the EDID from the audio reproducing apparatus 600 through the DDC.
  • the audio reproducing apparatus 600 may collect reproduction environment information.
  • the audio reproduction apparatus 600 may transmit the reproduction environment information of the audio reproduction apparatus 600 to the audio processing apparatus 500.
  • the audio reproducing apparatus 600 may transmit the EDID to the audio processing apparatus 500 via the DDC.
  • the audio processing apparatus 500 may obtain an audio reproduction request from the outside.
  • the audio processing device 500 may obtain an audio playback request from a user via a user interface (UI).
  • UI user interface
  • the present invention is not limited thereto.
  • the audio processing apparatus 500 receives an audio reproduction request signal from an external audio processing apparatus, receives an audio reproduction request signal from the audio reproduction apparatus 600, or receives an audio reproduction request signal from the network / Lt; / RTI >
  • step 1130 based on the reproduction environment information of the audio reproduction apparatus 600, the audio processing apparatus 500 can determine whether or not the audio reproduction apparatus 500 can perform audio reproduction requested from the outside.
  • the audio reproducing apparatus 600 may terminate the audio reproducing process or proceed to step 1140, depending on the result of determining whether or not the audio reproducing apparatus 600 can perform audio reproducing requested from the outside.
  • the audio processing apparatus 500 may read the audio bitstream in step 1140.
  • the audio processing apparatus 500 may process the audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600 to generate an audio signal.
  • the audio processing apparatus 500 may generate an info frame based on the feature information of the generated audio signal.
  • step 1155 the audio processing apparatus 500 can transmit the generated audio signal and the generated info frame to the audio reproducing apparatus 600.
  • step 1160 the audio reproducing apparatus 600 can read the infoc frame.
  • step 1165 the audio reproducing apparatus 600 can reproduce the received audio signal based on the infoc frame.
  • FIGS. 12A and 12B are flowcharts illustrating a process in which an audio processing apparatus and an audio reproducing apparatus according to an embodiment transmit and receive audio data in a multi-user environment.
  • the description overlapping with the description of FIGS. 9 to 11B will be omitted or simplified. More specifically, for example, the operation of the audio reproducing apparatus 600 according to the step 1205 corresponds to the operation of the audio reproducing apparatus 600 according to the step 1105 in Fig. 11A, and the operation of the audio reproducing apparatus 600 according to the step 1210 The operation corresponds to the operation of the audio processing apparatus 500 according to the step 1110 of FIG. 11A. The operation of the audio reproducing apparatus 600 according to the step 1215 corresponds to the operation of the audio reproducing apparatus 600 according to the step 1000 of FIG.
  • the operation of the audio processing apparatus 500 and the audio reproducing apparatus 600 according to step 1220 is the same as the operation of the audio processing apparatus 500 according to step 900 of FIG. 600, and the operation of the audio processing apparatus 500 according to steps 1225 to 1240 corresponds to the operation of the audio processing apparatus 500 according to steps 1125 to 1140 in Figs. 11A and 11B, Audio processing according to 1270
  • the operation of the audio reproducing apparatus 500 corresponds to the operation of the audio processing apparatus 500 according to the step 930 of FIG. 9, and the operation of the audio reproducing apparatus 600 according to the steps 1275 and 1280 corresponds to the operations of the steps 1020 and 1030 of FIG. 10
  • the detailed description of the operation of the audio reproducing apparatus 600 will be omitted.
  • step 1205 the audio processing apparatus 500 and the audio reproducing apparatus 600 may be interconnected.
  • the audio processing apparatus 500 may request the reproduction environment information of the audio reproduction apparatus 600.
  • the audio reproduction apparatus 600 may collect reproduction environment information.
  • the audio reproduction apparatus 600 may transmit the reproduction environment information of the audio reproduction apparatus 600 to the audio processing apparatus 500.
  • the audio processing apparatus 500 may obtain an audio reproduction request from the outside.
  • step 1230 based on the reproduction environment information of the audio reproduction apparatus 600, the audio processing apparatus 500 can determine whether or not the audio reproduction apparatus 500 can perform the requested audio reproduction from the outside.
  • step 1235 the audio reproduction apparatus 600 may terminate the audio reproduction process or proceed to step 1240 according to the result of determining whether audio reproduction can be performed externally.
  • the audio processing apparatus 500 may read the audio bitstream in step 1240.
  • the audio processing apparatus 500 may process the audio bitstream and the multi-user bitstream based on the reproduction environment information of the audio reproduction apparatus 600 to generate an audio signal.
  • the audio decoder 532 of the audio processing apparatus 500 is capable of decoding the audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600
  • the multi-user audio decoder of the audio processing apparatus 500 can decode the multi-user audio bitstream based on the reproduction environment information of the audio reproduction apparatus 600.
  • the renderer 534 of the audio processing apparatus 500 may synthesize and render an audio signal processed in the audio decoder 532 and an audio signal processed in the multi-user audio decoder.
  • the playback environment information of the audio playback apparatus 600 includes MU, User Count, MUMAX1, and MUMAX2, which are information related to the multi-user environment, in the VR-AR audio data block as shown in Table 3 of FIG. MUMAX3. ≪ / RTI > Information related to the multi-user environment will be examined in more detail through Table 11 below.
  • the MU is information indicating whether or not it is a multi-user environment.
  • the MU in Table 11 may correspond to an example of a multi-user flag indicating whether there is at least one audio reproducing apparatus communicating with the audio processing apparatus 500 and the audio reproducing apparatus 600.
  • the audio processing apparatus 500 and the audio reproducing apparatus 600 may be a single user environment for transmitting and receiving audio data on a one-to-one basis.
  • the MU indicates 1 there may be a multi-user environment in which at least one audio reproduction apparatus communicating with the audio processing apparatus 500 and the audio reproduction apparatus 600 exists.
  • the VR-AR audio data block may further include Master, User Count, MUMAX1, MUMAX2 and MUMAX3.
  • Master is information indicating whether the audio reproducing apparatus 600 is a master apparatus in a multi-user environment in which at least one audio reproducing apparatus communicating with the audio processing apparatus 500 and the audio reproducing apparatus 600 exists .
  • the Master may correspond to an example of a flag indicating whether the audio reproducing apparatus 600 is a master apparatus communicating with at least one audio reproducing apparatus as a sub-apparatus.
  • the audio reproduction apparatus 600 does not need to include the information related to the multi-user environment in the reproduction environment information of the audio reproduction apparatus 600 and transmit it to the audio processing apparatus 500.
  • the audio playback apparatus 600 should include information related to the multi-user environment in the playback environment information of the audio playback apparatus 600 and transmit the information to the audio processing apparatus 500.
  • the information related to the multi-user environment may include, for example, User Count, MUMAX1, MUMAX2 and MUMAX3, and location information of each multi-user described later.
  • the user count in Table 11 indicates the number of times that the audio reproduction apparatus 600 is connected to the audio reproduction apparatus 600 and the audio reproduction apparatus 600 in the multi- May refer to the total number of devices.
  • the User Count may mean the total number of users simultaneously using the same audio content. Referring to Table 11, since 5 bits are used to represent User Count, a total of 32 multi-users can be represented by User Count.
  • MU_Xmax represented by MUMAX1 represents the largest value among the X axis position information values of the multi-users
  • MU_Ymax represented by MUMAX2 represents the largest value among the Y axis position information values of multi-users
  • MUMAX3 The expressed MU_Zmax may represent the largest value among the multi-user Z-axis position information values.
  • Each of MUMAX1, MUMAX2 and MUMAX3 is assigned 8 bits and can be expressed up to 256, and the unit can be a meter.
  • MU_Xmax, MU_Ymax, and MU_Zmax can be used to more efficiently indicate the location information of each multi-user.
  • Table 12 shows the location information of the first user (User1) and the second user (User2).
  • the User ID means identification information of the first user
  • U1_X means the X axis position information value of the first user
  • U1_Y means the Y axis position information value of the first user
  • U1_Z may mean the Z-axis position information value of the first user.
  • the reproduction environment information of the audio reproduction apparatus 600 can include information on the multi-user environment only when the audio reproduction apparatus 600 is the master apparatus. Therefore, according to the embodiment based on Table 12, the position information of each multi-user is included in the reproduction environment information of the audio reproduction apparatus 600 as a master device, and is transmitted from the audio reproduction apparatus 600 to the audio processing apparatus 500 Lt; / RTI > In this way, in a situation where one audio processing apparatus 500 and a plurality of audio reproducing apparatuses communicate, each of the plurality of audio reproducing apparatuses does not transmit the position information of each multi-user and the audio reproducing apparatus, which is the master apparatus, By transmitting the location information, it is possible to increase the efficiency of data transmission in a multi-user environment.
  • the embodiment is not necessarily limited to this, and in some cases, each of the plurality of audio reproducing apparatuses may transmit position information of each multi-user.
  • Table 12 assumes that there are two users in the multi-user environment. However, since the maximum value of the User Count described above is 32, the position information of up to 32 multi-users can be displayed in a similar manner to Table 12, Will be readily understood by those of ordinary skill in the art.
  • Table 12 shows the position information of each multi-user using the XYZ coordinate system. However, the present invention is not limited to this, and the position information of each multi-user may be displayed through various coordinate systems such as a polar coordinate system. Will be readily appreciated by those of ordinary skill in the art.
  • Location information of each multi-user as shown in Table 12 can be located in the least significant bytes of the VR-AR audio data block.
  • the location information of each multi-user as shown in Table 12 can be located from the bottom of ELEV2 of the VR-AR audio data block of Table 3.
  • the location information of each multi-user may be separately included in one of the extended data blocks and transmitted (or signaled) to the audio processing apparatus 500 in the audio reproducing apparatus 600 have.
  • U1_X, U1_Y and U1_Z which are position information of each multi-user, for example, first user's position information, can be expressed as a relative position value based on the user's initial position value, for example, as shown in Table 13 below .
  • S means sign and can indicate plus or minus.
  • I denotes an integer part
  • F denotes a fractional part. Since 1 bit is assigned to I, the integer part can represent 0 or 1, and since F is assigned 6 bits, the fractional part can be expressed as 0, 1/64, ⁇ , 63/64.
  • U1_X can represent the real numbers -63/64, -62/64, ⁇ , 0, 1/64, ⁇ , 63/64.
  • the value of U1_X according to Table 13 is a normalized value, and when the value of MU_Xmax in Table 11 is multiplied, the X-axis position information of the first user can be obtained.
  • the audio processing apparatus 500 may generate an info frame based on the feature information of the generated audio signal.
  • the InfoFrame includes at least one audio playback device that communicates with the audio processing device 500 and the audio playback device 600 and includes an audio playback device 600 and at least one User bitstream flag indicating whether or not a multi-user bitstream obtained based on the recorded voice through the microphones (MICs) of the audio playback apparatus of the audio playback apparatus is used .
  • the multi-user bit stream flag can be expressed as MU_On as shown in Table 14. [
  • Information about the multi-user environment may not be included in the infoc frame when MU_On indicates 0, and information about the multi-user environment may be included in the infoc frame when MU_On indicates 1. More specifically, when MU_On indicates 1, ID information of User Count, All_Active, Diegetic, and multi-user shown in Table 14 may be included in the info frame.
  • the User Count in Table 14 may refer to the number of multi-users communicating with the audio processing device 500 in a multi-user environment.
  • the User Count is a function of the audio reproduction apparatus 600 and the at least one audio reproduction apparatus 600 in a multi-user environment in which at least one audio reproduction apparatus communicating with the audio processing apparatus 500 and the audio reproduction apparatus 600 exists, Of the total number of users.
  • a total of 32 multi-users can be represented by User Count.
  • Using 5 bits to represent the User Count is consistent with using 5 bits to represent the User Count in the VR-AR audio data block of Table 11.
  • the embodiment is not limited thereto, and the User Count can be expressed through bits other than 5 bits.
  • All_Active in Table 14 indicates whether or not all of the multi-user bit streams obtained by the audio processing apparatus 500 are combined into an audio bit stream when the audio processing apparatus 500 processes the audio bit stream .
  • All_Active may correspond to an example of information indicating whether all of the multi-user bitstream is used when the audio processing apparatus 500 processes the audio bitstream.
  • All_Active indicates 1 it may mean that a multi-user bit stream by all multi-users included in the User Count is synthesized into an audio bit stream when the audio processing apparatus 500 processes the audio bit stream.
  • All_Active indicates 0, it means that the audio processing apparatus 500 does not combine the multi-user bit stream by all multi-users included in the User Count into the audio bit stream when processing the audio bit stream .
  • the info frame may include some of UID00 to UID32 based on the value of User Count. For example, if the value of the User Count is 5, the info frame may include UID00 to UID04.
  • UIDXX (where XX may mean any integer between 00 and 32) may represent each of the multi-users, and when UIDXX indicates 1, the multi-user bitstream of the multi-user may be synthesized into an audio bitstream , And if UIDXX indicates 0, it means that the multi-user bitstream of the corresponding multi-user is not synthesized into the audio bitstream.
  • UDPXX (where XX may be any integer from 00 to 32) is included in the INFO frame only when All_Active in Table 14 indicates 0, no.
  • the infocframe may include UIDXX (where XX may mean any integer from 00 to 32).
  • the Diegetic of Table 14 may represent an example of information about whether a sense of space is applied to the multi-user bitstream.
  • the reproduction environment information of the audio reproduction apparatus 600 received by the audio processing apparatus 500 from the audio reproduction apparatus 600 may include position information of each multi-user.
  • the audio processing apparatus 500 regards the multi-user bit stream as object type audio, applies a spatial sense corresponding to the position of each multi-user, and then synthesizes the audio bit stream into an audio bit stream, It is possible to grasp the position of other multi-users while using it. If Diegetic indicates 1, a sense of space can be applied to the multi-user bitstream, and if Diegetic indicates 0, a sense of space may not be applied to the multi-user bitstream.
  • the audio processing apparatus 500 may transmit the generated audio signal and the generated info frame to the audio reproducing apparatus 600.
  • step 1275 the audio playback apparatus 600 can read the INFFRAME.
  • step 1280 the audio reproducing apparatus 600 can reproduce the received audio signal based on the infoc frame.
  • the reproduction environment information or the INFO frame of the audio reproduction apparatus 600 is expressed as Tables 1 to 14, the reproduction environment information or the information frame of the audio reproduction apparatus 600 is expressed in Table 1 To < / TABLE >
  • the reproduction environment information of the audio reproduction apparatus 600 can be expressed as shown in Table 15 below.
  • the internal components of the above-described devices may be processors executing the sequential execution processes stored in the memory, or hardware components configured with other hardware. These can be located inside or outside the unit.
  • modules may be omitted according to the embodiment, or may be replaced by other modules performing similar / same operations.
  • Each of the above-described parts, modules or units may be a processor or hardware part that executes sequential execution processes stored in a memory (or storage unit). Each of the steps described in the above embodiments may be performed by a processor or hardware parts. Each module / block / unit described in the above embodiments may operate as a hardware / processor. Further, the methods proposed by the present invention can be executed as codes. The code may be written to a storage medium readable by the processor and thus read by a processor provided by the apparatus.
  • step 920 of FIG. 9 may be performed after the operation according to step 910 is performed, but in some cases, the operation according to step 910 and the operation according to step 920 may be performed in the audio processing apparatus 500 .
  • the above-described method may be implemented by a module (a process, a function, and the like) that performs the above-described functions.
  • the module is stored in memory and can be executed by the processor.
  • the memory may be internal or external to the processor and may be coupled to the processor by any of a variety of well known means.
  • the processor may comprise an application-specific integrated circuit (ASIC), other chipset, logic circuitry and / or a data processing device.
  • the memory may include read-only memory (ROM), random access memory (RAM), flash memory, memory cards, storage media, and / or other storage devices.
  • the internal components of the above-described devices may be processors executing the sequential execution processes stored in the memory, or hardware components configured with other hardware. These can be located inside or outside the unit.
  • modules may be omitted according to the embodiment, or may be replaced by other modules performing similar / same operations.
  • Each of the above-described parts, modules or units may be a processor or hardware part that executes sequential execution processes stored in a memory (or storage unit). Each of the steps described in the above embodiments may be performed by a processor or hardware parts. Each module / block / unit described in the above embodiments may operate as a hardware / processor. Further, the methods proposed by the present invention can be executed as codes. The code may be written to a storage medium readable by the processor and thus read by a processor provided by the apparatus.
  • the above-described method may be implemented by a module (a process, a function, and the like) that performs the above-described functions.
  • the module is stored in memory and can be executed by the processor.
  • the memory may be internal or external to the processor and may be coupled to the processor by any of a variety of well known means.
  • the processor may comprise an application-specific integrated circuit (ASIC), other chipset, logic circuitry and / or a data processing device.
  • the memory may include read-only memory (ROM), random access memory (RAM), flash memory, memory cards, storage media, and / or other storage devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명에 따른 오디오 처리 장치에 의하여 수행되는 오디오 데이터 처리 방법은 오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계, 상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리(process)하여 오디오 신호를 생성하는 단계, 상기 생성된 오디오 신호의 특징 정보(characteristic information)를 포함하는 인포프레임(InfoFrame)을 생성하는 단계 및 상기 생성된 오디오 신호 및 상기 생성된 인포프레임(InfoFrame)을 상기 오디오 재생 장치로 전송하는 단계를 포함하되, 상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 한다.

Description

오디오 데이터를 송수신하는 방법 및 그 장치
본 발명은 오디오 데이터에 관한 것으로, 보다 상세하게는 3차원 오디오 데이터를 송수신하는 방법 및 장치에 관한 것이다.
VR(Virtual Reality) 시스템은 사용자에게 전자적으로 투영된 환경 내에 있는 것 같은 감각을 제공한다. AR(Augmented Reality, AR) 시스템은 현실의 이미지나 배경에 3차원 가상 이미지를 중첩하여, 사용자에게 가상과 현실이 혼합된 환경 내에 있는 것 같은 감각을 제공한다. VR 또는 AR을 제공하기 위한 시스템은 더 고화질의 이미지들과, 공간적인 음향을 제공하기 위하여 더 개선될 수 있다. VR 또는 AR 시스템은 사용자가 인터랙티브하게 VR 또는 AR 컨텐츠들을 소비할 수 있도록 할 수 있다.
VR 또는 AR 컨텐츠에 대한 수요가 점점 증가하고 있는 상황에서, VR 또는 AR 컨텐츠의 재생을 위한 오디오 신호를 생성하는 장치와, VR 또는 AR 컨텐츠를 재생하는 장치 간에 오디오 데이터를 효율적으로 송수신할 수 있는 방법을 고안할 필요성 또한 증가하고 있다.
본 발명의 기술적 과제는 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 오디오 재생 장치와 오디오 데이터를 송수신하면서 오디오 신호를 생성하는 오디오 처리 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 다른 기술적 과제는 오디오 처리 장치와 오디오 데이터를 송수신하면서 오디오 신호를 재생하는 오디오 재생 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 다른 기술적 과제는 3차원 오디오 데이터를 송수신하는 방법 및 장치를 제공함에 있다.
본 발명의 다른 기술적 과제는 오디오 재생 장치와 3차원 오디오 데이터를 송수신하면서 3차원 오디오 신호를 생성하는 오디오 처리 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 다른 기술적 과제는 오디오 처리 장치와 3차원 오디오 데이터를 송수신하면서 3차원 오디오 신호를 재생하는 오디오 재생 장치 및 그 동작 방법을 제공함에 있다.
본 발명의 일 실시예에 따르면, 오디오 처리 장치에 의하여 수행되는 오디오 데이터 처리 방법이 제공된다. 상기 방법은 오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계, 상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리(process)하여 오디오 신호를 생성하는 단계, 상기 생성된 오디오 신호의 특징 정보(characteristic information)를 포함하는 인포프레임(InfoFrame)을 생성하는 단계 및 상기 생성된 오디오 신호 및 상기 생성된 인포프레임(InfoFrame)을 상기 오디오 재생 장치로 전송하는 단계를 포함하되, 상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 한다.
본 발명의 다른 일 실시예에 따르면, 오디오 재생 장치에 의하여 수행되는 오디오 데이터 재생 방법이 제공된다. 상기 방법은 상기 오디오 재생 장치의 재생 환경 정보를 생성하는 단계, 상기 생성된 재생 환경 정보를 오디오 처리 장치로 전송하는 단계, 상기 재생 환경 정보를 기반으로 상기 오디오 처리 장치가 오디오 비트스트림을 처리하여 생성된 오디오 신호 및 상기 생성된 오디오 신호의 특징 정보를 기반으로 상기 오디오 처리 장치에서 생성된 인포프레임을 상기 오디오 처리 장치로부터 수신하는 단계, 상기 인포프레임을 기반으로, 상기 수신된 오디오 신호를 재생하는 단계를 포함하되, 상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터를 처리하는 오디오 처리 장치가 제공된다. 상기 오디오 처리 장치는 오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보를 수신하는 수신부, 상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성하는 오디오 신호 처리부, 상기 생성된 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성하는 메타데이터 처리부 및 상기 인포프레임 및 상기 생성된 오디오 신호를 상기 오디오 재생 장치로 전송하는 전송부를 포함하되, 상기 오디오 비트스트림은 VR 오디오 비트스트림 또는 AR 오디오 비트스트림을 포함하는 것을 특징으로 한다.
본 발명의 또 다른 일 실시예에 따르면, 오디오 데이터를 재생하는 오디오 재생 장치가 제공된다. 상기 오디오 재생 장치는 상기 오디오 재생 장치의 재생 환경 정보를 생성하는 메타데이터 처리부, 상기 생성된 재생 환경 정보를 상기 오디오 처리 장치로 전송하는 전송부, 상기 재생 환경 정보를 기반으로 상기 오디오 처리 장치가 오디오 비트스트림을 처리하여 생성된 오디오 신호 및 상기 생성된 오디오 신호의 특징 정보를 기반으로 상기 오디오 처리 장치에서 생성된 인포프레임을 상기 오디오 처리 장치로부터 수신하는 수신부, 및 상기 인포프레임을 기반으로, 상기 수신된 오디오 신호를 재생하는 재생부를 포함하되, 상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 한다.
본 발명에 따르면 오디오 처리 장치와 오디오 재생 장치가 3차원 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 처리 장치와 오디오 재생 장치가 VR 또는 AR 오디오 데이터를 효율적으로 송수신할 수 있는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 처리 장치가 오디오 재생 장치로부터 수신한 오디오 재생 장치의 재생 환경 정보를 기반으로 오디오 재생 장치에서의 보다 효율적인 재생을 위한 VR 또는 AR 오디오 신호를 생성하는 방안을 제공할 수 있다.
본 발명에 따르면 오디오 재생 장치가 오디오 처리 장치로부터 수신한, VR 또는 AR 오디오 비트스트림을 처리하여 VR 또는 AR 오디오 신호를 생성하는 과정에서 획득된 VR 또는 AR 오디오 신호의 특징 정보를 기반으로 VR 또는 AR 오디오 신호를 효율적으로 재생하는 방안을 제공할 수 있다.
도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.
도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.
도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다.
도 5는 일 실시예에 따른 오디오 처리 장치의 구성을 도시하는 블록도이다.
도 6은 일 실시예에 따른 오디오 재생 장치의 구성을 도시하는 블록도이다.
도 7은 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치의 구성을 도시하는 블록도이다.
도 8a 및 도 8b는 일 실시예에 오디오 재생 장치의 재생 환경 정보를 획득하는 일 예시를 도시하는 도면이다.
도 9는 일 실시예에 따른 오디오 처리 장치가 오디오 데이터를 처리하는 과정을 도시하는 흐름도이다.
도 10은 일 실시예에 따른 오디오 재생 장치가 오디오 데이터를 재생하는 과정을 도시하는 흐름도이다.
도 11a 및 도 11b는 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치가 오디오 데이터를 송수신하는 과정을 도시하는 흐름도이다.
도 12a 및 도 12b는 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치가 멀티 유저 환경에서 오디오 데이터를 송수신하는 과정을 도시하는 흐름도이다.
본 발명의 일 실시예에 따르면, 오디오 처리 장치에 의하여 수행되는 오디오 데이터 처리 방법이 제공된다. 상기 방법은 오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계, 상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리(process)하여 오디오 신호를 생성하는 단계, 상기 생성된 오디오 신호의 특징 정보(characteristic information)를 포함하는 인포프레임(InfoFrame)을 생성하는 단계 및 상기 생성된 오디오 신호 및 상기 생성된 인포프레임(InfoFrame)을 상기 오디오 재생 장치로 전송하는 단계를 포함하되, 상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 한다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정 실시예에 한정하려고 하는 것이 아니다. 본 명세서에서 상용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명의 기술적 사상을 한정하려는 의도로 사용되는 것은 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서 "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 도는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편, 본 발명에서 설명되는 도면상의 각 구성들은 서로 다른 특징적인 기능들에 관한 설명의 편의를 위해 독립적으로 도시된 것으로서, 각 구성들이 서로 별개의 하드웨어나 별개의 소프트웨어로 구현된다는 것을 의미하지는 않는다. 예컨대, 각 구성 중 두 개 이상의 구성이 합쳐져 하나의 구성을 이룰 수도 있고, 하나의 구성이 복수의 구성으로 나뉘어질 수도 있다. 각 구성이 통합 및/또는 분리된 실시예도 본 발명의 본질에서 벗어나지 않는 한 본 발명의 권리범위에 포함된다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 이하, 도면상의 동일한 구성 요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성 요소에 대해서 중복된 설명은 생략한다.
도 1은 일 실시예에 따른 360 컨텐츠 제공을 위한 전체 아키텍처를 도시한 도면이다.
사용자에게 가상현실 (Virtual Reality, VR)을 제공하기 위하여, 360 컨텐츠를 제공하는 방안이 고려될 수 있다. 여기서, 상기 360도 컨텐츠는 3DoF(three Degrees of Freedom) 컨텐츠라고 나타낼 수도 있으며, VR이란 실제 또는 가상의 환경을 복제(replicates) 하기 위한 기술 내지는 그 환경을 의미할 수 있다. VR은 인공적으로 사용자에게 감각적 경험을 제공하며, 이를 통해 사용자는 전자적으로 프로젝션된 환경에 있는 것과 같은 경험을 할 수 있다.
360 컨텐츠는 VR을 구현, 제공하기 위한 컨텐츠 전반을 의미하며, 360도 비디오 및/또는 360 오디오를 포함할 수 있다. 360도 비디오 및/또는 360 오디오는 3차원 비디오 및/또는 3차원 오디오로 지칭될 수도 있다. 360도 비디오는 VR을 제공하기 위해 필요한, 동시에 모든 방향(360도)으로 캡처되거나 재생되는 비디오 혹은 이미지 컨텐츠를 의미할 수 있다. 이하, 360도 비디오라 함은 360도 비디오를 의미할 수 있다. 360도 비디오는 3D 모델에 따라 다양한 형태의 3D 공간 상에 나타내어지는 비디오 혹은 이미지를 의미할 수 있으며, 예를 들어 360도 비디오는 구형면(Spherical surface) 상에 나타내어질 수 있다. 360 오디오 역시 VR을 제공하기 위한 오디오 컨텐츠로서, 음향 발생지가 3차원의 특정 공간상에 위치하는 것으로 인지될 수 있는, 공간적(Spatial) 오디오 컨텐츠를 의미할 수 있다. 360 오디오는 3차원 오디오로도 지칭될 수 있다. 360 컨텐츠는 생성, 처리되어 사용자들로 전송될 수 있으며, 사용자들은 360 컨텐츠를 이용하여 VR 경험을 소비할 수 있다.
360도 비디오를 제공하기 위하여, 먼저 하나 이상의 카메라를 통해 360도 비디오가 캡처될 수 있다. 캡처된 360도 비디오는 일련의 과정을 거쳐 전송되고, 수신측에서는 수신된 데이터를 다시 원래의 360도 비디오로 가공하여 렌더링할 수 있다. 이를 통해 360도 비디오가 사용자에게 제공될 수 있다.
구체적으로 360도 비디오 제공을 위한 전체의 과정은 캡처 과정(process), 준비 과정, 전송 과정, 프로세싱 과정, 렌더링 과정 및/또는 피드백 과정을 포함할 수 있다.
캡처 과정은 하나 이상의 카메라를 통하여 복수개의 시점 각각에 대한 이미지 또는 비디오를 캡처하는 과정을 의미할 수 있다. 캡처 과정에 의해 도시된 도 1의 (110)과 같은 이미지/비디오 데이터가 생성될 수 있다. 도시된 도 1의 (110)의 각 평면은 각 시점에 대한 이미지/비디오를 의미할 수 있다. 이 캡처된 복수개의 이미지/비디오를 로(raw) 데이터라 할 수도 있다. 캡처 과정에서 캡처와 관련된 메타데이터가 생성될 수 있다.
이 캡처를 위하여 VR 을 위한 특수한 카메라가 사용될 수 있다. 실시예에 따라 컴퓨터로 생성된 가상의 공간에 대한 360도 비디오를 제공하고자 하는 경우, 실제 카메라를 통한 캡처가 수행되지 않을 수 있다. 이 경우 단순히 관련 데이터가 생성되는 과정으로 해당 캡처 과정이 갈음될 수 있다.
준비 과정은 캡처된 이미지/비디오 및 캡처 과정에서 발생한 메타데이터를 처리하는 과정일 수 있다. 캡처된 이미지/비디오는 이 준비 과정에서, 스티칭 과정, 프로젝션 과정, 리전별 패킹 과정(Region-wise Packing) 및/또는 인코딩 과정 등을 거칠 수 있다.
먼저 각각의 이미지/비디오가 스티칭(Stitching) 과정을 거칠 수 있다. 스티칭 과정은 각각의 캡처된 이미지/비디오들을 연결하여 하나의 파노라마 이미지/비디오 또는 구형의 이미지/비디오를 만드는 과정일 수 있다.
이 후, 스티칭된 이미지/비디오는 프로젝션(Projection) 과정을 거칠 수 있다. 프로젝션 과정에서, 스티칭된 이미지/비디오는 2D 이미지 상에 프로젝션될 수 있다. 이 2D 이미지는 문맥에 따라 2D 이미지 프레임으로 불릴 수도 있다. 2D 이미지로 프로젝션하는 것을 2D 이미지로 맵핑한다고 표현할 수도 있다. 프로젝션된 이미지/비디오 데이터는 도시된 도 1의 (120)과 같은 2D 이미지의 형태가 될 수 있다.
2D 이미지 상에 프로젝션된 비디오 데이터는 비디오 코딩 효율 등을 높이기 위하여 리전별 패킹 과정(Region-wise Packing)을 거칠 수 있다. 리전별 패킹이란, 2D 이미지 상에 프로젝션된 비디오 데이터를 리전(Region) 별로 나누어 처리를 가하는 과정을 의미할 수 있다. 여기서 리전(Region)이란, 360도 비디오 데이터가 프로젝션된 2D 이미지가 나누어진 영역을 의미할 수 있다. 이 리전들은, 실시예에 따라, 2D 이미지를 균등하게 나누어 구분되거나, 임의로 나누어져 구분될 수 있다. 또한 실시예에 따라 리전들은, 프로젝션 스킴에 따라 구분될 수도 있다. 리전별 패킹 과정은 선택적(optional) 과정으로써, 준비 과정에서 생략될 수 있다.
실시예에 따라 이 처리 과정은, 비디오 코딩 효율을 높이기 위해, 각 리전을 회전한다거나 2D 이미지 상에서 재배열하는 과정을 포함할 수 있다. 예를 들어, 리전들을 회전하여 리전들의 특정 변들이 서로 근접하여 위치되도록 함으로써, 코딩 시의 효율이 높아지게 할 수 있다.
실시예에 따라 이 처리 과정은, 360도 비디오상의 영역별로 레졸루션(resolution) 을 차등화하기 위하여, 특정 리전에 대한 레졸루션을 높인다거나, 낮추는 과정을 포함할 수 있다. 예를 들어, 360도 비디오 상에서 상대적으로 더 중요한 영역에 해당하는 리전들은, 다른 리전들보다 레졸루션을 높게할 수 있다. 2D 이미지 상에 프로젝션된 비디오 데이터 또는 리전별 패킹된 비디오 데이터는 비디오 코덱을 통한 인코딩 과정을 거칠 수 있다.
실시예에 따라 준비 과정은 부가적으로 에디팅(editing) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 프로젝션 전후의 이미지/비디오 데이터들에 대한 편집 등이 더 수행될 수 있다. 준비 과정에서도 마찬가지로, 스티칭/프로젝션/인코딩/에디팅 등에 대한 메타데이터가 생성될 수 있다. 또한 2D 이미지 상에 프로젝션된 비디오 데이터들의 초기 시점, 혹은 ROI (Region of Interest) 등에 관한 메타데이터가 생성될 수 있다.
전송 과정은 준비 과정을 거친 이미지/비디오 데이터 및 메타데이터들을 처리하여 전송하는 과정일 수 있다. 전송을 위해 임의의 전송 프로토콜에 따른 처리가 수행될 수 있다. 전송을 위한 처리를 마친 데이터들은 방송망 및/또는 브로드밴드를 통해 전달될 수 있다. 이 데이터들은 온 디맨드(On Demand) 방식으로 수신측으로 전달될 수도 있다. 수신측에서는 다양한 경로를 통해 해당 데이터를 수신할 수 있다.
프로세싱 과정은 수신한 데이터를 디코딩하고, 프로젝션되어 있는 이미지/비디오 데이터를 3D 모델 상에 리-프로젝션(Re-projection) 하는 과정을 의미할 수 있다. 이 과정에서 2D 이미지들 상에 프로젝션되어 있는 이미지/비디오 데이터가 3D 공간 상으로 리-프로젝션될 수 있다. 이 과정을 문맥에 따라 맵핑, 프로젝션이라고 부를 수도 있다. 이 때 맵핑되는 3D 공간은 3D 모델에 따라 다른 형태를 가질 수 있다. 예를 들어 3D 모델에는 구형(Sphere), 큐브(Cube), 실린더(Cylinder) 또는 피라미드(Pyramid) 가 있을 수 있다.
실시예에 따라 프로세싱 과정은 부가적으로 에디팅(editing) 과정, 업 스케일링(up scaling) 과정 등을 더 포함할 수 있다. 이 에디팅 과정에서 리-프로젝션 전후의 이미지/비디오 데이터에 대한 편집 등이 더 수행될 수 있다. 이미지/비디오 데이터가 축소되어 있는 경우 업 스케일링 과정에서 샘플들의 업 스케일링을 통해 그 크기를 확대할 수 있다. 필요한 경우, 다운 스케일링을 통해 사이즈를 축소하는 작업이 수행될 수도 있다.
렌더링 과정은 3D 공간상에 리-프로젝션된 이미지/비디오 데이터를 렌더링하고 디스플레이하는 과정을 의미할 수 있다. 표현에 따라 리-프로젝션과 렌더링을 합쳐 3D 모델 상에 렌더링한다 라고 표현할 수도 있다. 3D 모델 상에 리-프로젝션된 (또는 3D 모델 상으로 렌더링된) 이미지/비디오는 도시된 도 1의 (130)과 같은 형태를 가질 수 있다. 도시된 도 1의 (130)은 구형(Sphere) 의 3D 모델에 리-프로젝션된 경우이다. 사용자는 VR 디스플레이 등을 통하여 렌더링된 이미지/비디오의 일부 영역을 볼 수 있다. 이 때 사용자가 보게되는 영역은 도시된 도 1의 (140)과 같은 형태일 수 있다.
피드백 과정은 디스플레이 과정에서 획득될 수 있는 다양한 피드백 정보들을 송신측으로 전달하는 과정을 의미할 수 있다. 피드백 과정을 통해 360도 비디오 소비에 있어 인터랙티비티(Interactivity) 가 제공될 수 있다. 실시예에 따라, 피드백 과정에서 헤드 오리엔테이션(Head Orientation) 정보, 사용자가 현재 보고 있는 영역을 나타내는 뷰포트(Viewport) 정보 등이 송신측으로 전달될 수 있다. 실시예에 따라, 사용자는 VR 환경 상에 구현된 것들과 상호작용할 수도 있는데, 이 경우 그 상호작용과 관련된 정보가 피드백 과정에서 송신측 내지 서비스 프로바이더 측으로 전달될 수도 있다. 실시예에 따라 피드백 과정은 수행되지 않을 수도 있다.
헤드 오리엔테이션 정보는 사용자의 머리 위치, 각도, 움직임 등에 대한 정보를 의미할 수 있다. 이 정보를 기반으로 사용자가 현재 360도 비디오 내에서 보고 있는 영역에 대한 정보, 즉 뷰포트 정보가 계산될 수 있다.
뷰포트 정보는 현재 사용자가 360도 비디오에서 보고 있는 영역에 대한 정보일 수 있다. 이를 통해 게이즈 분석(Gaze Analysis) 이 수행되어, 사용자가 어떠한 방식으로 360도 비디오를 소비하는지, 360도 비디오의 어느 영역을 얼마나 응시하는지 등을 확인할 수도 있다. 게이즈 분석은 수신측에서 수행되어 송신측으로 피드백 채널을 통해 전달될 수도 있다. VR 디스플레이 등의 장치는 사용자의 머리 위치/방향, 장치가 지원하는 수직(vertical) 혹은 수평(horizontal) FOV(Field Of View) 정보 등에 근거하여 뷰포트 영역을 추출할 수 있다.
실시예에 따라, 전술한 피드백 정보는 송신측으로 전달되는 것 뿐아니라, 수신측에서 소비될 수도 있다. 즉, 전술한 피드백 정보를 이용하여 수신측의 디코딩, 리-프로젝션, 렌더링 과정 등이 수행될 수 있다. 예를 들어, 헤드 오리엔테이션 정보 및/또는 뷰포트 정보를 이용하여 현재 사용자가 보고 있는 영역에 대한 360도 비디오만 우선적으로 디코딩 및 렌더링될 수도 있다.
여기서 뷰포트(viewport) 내지 뷰포트 영역이란, 사용자가 360도 비디오에서 보고 있는 영역을 의미할 수 있다. 시점(viewpoint) 는 사용자가 360도 비디오에서 보고 있는 지점으로서, 뷰포트 영역의 정중앙 지점을 의미할 수 있다. 즉, 뷰포트는 시점을 중심으로 한 영역인데, 그 영역이 차지하는 크기 형태 등은 후술할 FOV(Field Of View) 에 의해 결정될 수 있다.
전술한 360도 비디오 제공을 위한 전체 아키텍처 내에서, 캡처/프로젝션/인코딩/전송/디코딩/리-프로젝션/렌더링의 일련의 과정을 거치게 되는 이미지/비디오 데이터들을 360도 비디오 데이터라 부를 수 있다. 360도 비디오 데이터라는 용어는 또한 이러한 이미지/비디오 데이터들과 관련되는 메타데이터 내지 시그널링 정보를 포함하는 개념으로 쓰일 수도 있다.
상술한 오디오 또는 비디오 등의 미디어 데이터를 저장하고 전송하기 위하여, 정형화된 미디어 파일 포맷이 정의될 수 있다. 실시예에 따라 미디어 파일은 ISO BMFF (ISO base media file format)를 기반으로 한 파일 포맷을 가질 수 있다.
도 2 및 도 3은 일 실시예에 따른 미디어 파일의 구조를 도시한 도면이다.
일 실시예에 따른 미디어 파일은 적어도 하나 이상의 박스를 포함할 수 있다. 여기서 박스(box)는 미디어 데이터 또는 미디어 데이터에 관련된 메타데이터 등을 포함하는 데이터 블록 내지 오브젝트일 수 있다. 박스들은 서로 계층적 구조를 이룰 수 있으며, 이에 따라 데이터들이 분류되어 미디어 파일이 대용량 미디어 데이터의 저장 및/또는 전송에 적합한 형태를 띄게 될 수 있다. 또한 미디어 파일은, 사용자가 미디어 컨텐츠의 특정지점으로 이동하는 등, 미디어 정보에 접근하는데 있어 용이한 구조를 가질 수 있다.
일 실시예에 따른 미디어 파일은 ftyp 박스, moov 박스 및/또는 mdat 박스를 포함할 수 있다.
ftyp 박스(파일 타입 박스)는 해당 미디어 파일에 대한 파일 타입 또는 호환성 관련 정보를 제공할 수 있다. ftyp 박스는 해당 미디어 파일의 미디어 데이터에 대한 구성 버전 정보를 포함할 수 있다. 복호기는 ftyp 박스를 참조하여 해당 미디어 파일을 구분할 수 있다.
moov 박스(무비 박스)는 해당 미디어 파일의 미디어 데이터에 대한 메타 데이터를 포함하는 박스일 수 있다. moov 박스는 모든 메타 데이터들을 위한 컨테이너 역할을 할 수 있다. moov 박스는 메타 데이터 관련 박스들 중 최상위 계층의 박스일 수 있다. 실시예에 따라 moov 박스는 미디어 파일 내에 하나만 존재할 수 있다.
mdat 박스(미디어 데이터 박스) 는 해당 미디어 파일의 실제 미디어 데이터들을 담는 박스일 수 있다. 미디어 데이터들은 오디오 샘플 및/또는 비디오 샘플들을 포함할 수 있는데, mdat 박스는 이러한 미디어 샘플들을 담는 컨테이너 역할을 할 수 있다.
실시예에 따라 전술한 moov 박스는 mvhd 박스, trak 박스 및/또는 mvex 박스 등을 하위 박스로서 더 포함할 수 있다.
mvhd 박스(무비 헤더 박스)는 해당 미디어 파일에 포함되는 미디어 데이터의 미디어 프리젠테이션 관련 정보를 포함할 수 있다. 즉, mvhd 박스는 해당 미디어 프리젠테이션의 미디어 생성시간, 변경시간, 시간규격, 기간 등의 정보를 포함할 수 있다.
trak 박스(트랙 박스)는 해당 미디어 데이터의 트랙에 관련된 정보를 제공할 수 있다. trak 박스는 오디오 트랙 또는 비디오 트랙에 대한 스트림 관련 정보, 프리젠테이션 관련 정보, 액세스 관련 정보 등의 정보를 포함할 수 있다. Trak 박스는 트랙의 개수에 따라 복수개 존재할 수 있다.
trak 박스는 실시예에 따라 tkhd 박스(트랙 헤더 박스)를 하위 박스로서 더 포함할 수 있다. tkhd 박스는 trak 박스가 나타내는 해당 트랙에 대한 정보를 포함할 수 있다. tkhd 박스는 해당 트랙의 생성시간, 변경시간, 트랙 식별자 등의 정보를 포함할 수 있다.
mvex 박스(무비 익스텐드 박스)는 해당 미디어 파일에 후술할 moof 박스가 있을 수 있음을 지시할 수 있다. 특정 트랙의 모든 미디어 샘플들을 알기 위해서, moof 박스들이 스캔되어야할 수 있다.
일 실시예에 따른 미디어 파일은, 실시예에 따라, 복수개의 프래그먼트로 나뉘어질 수 있다(200). 이를 통해 미디어 파일이 분할되어 저장되거나 전송될 수 있다. 미디어 파일의 미디어 데이터들(mdat 박스)은 복수개의 프래그먼트로 나뉘어지고, 각각의 프래그먼트는 moof 박스와 나뉘어진 mdat 박스를 포함할 수 있다. 실시예에 따라 프래그먼트들을 활용하기 위해서는 ftyp 박스 및/또는 moov 박스의 정보가 필요할 수 있다.
moof 박스(무비 프래그먼트 박스)는 해당 프래그먼트의 미디어 데이터에 대한 메타 데이터를 제공할 수 있다. moof 박스는 해당 프래그먼트의 메타데이터 관련 박스들 중 최상위 계층의 박스일 수 있다.
mdat 박스(미디어 데이터 박스)는 전술한 바와 같이 실제 미디어 데이터를 포함할 수 있다. 이 mdat 박스는 각각의 해당 프래그먼트에 해당하는 미디어 데이터들의 미디어 샘플들을 포함할 수 있다.
실시예에 따라 전술한 moof 박스는 mfhd 박스 및/또는 traf 박스 등을 하위 박스로서 더 포함할 수 있다.
mfhd 박스(무비 프래그먼트 헤더 박스)는 분할된 복수개의 프래그먼트들 간의 연관성과 관련한 정보들을 포함할 수 있다. mfhd 박스는 시퀀스 넘버(sequence number) 를 포함하여, 해당 프래그먼트의 미디어 데이터가 분할된 몇 번째 데이터인지를 나타낼 수 있다. 또한, mfhd 박스를 이용하여 분할된 데이터 중 누락된 것은 없는지 여부가 확인될 수 있다.
traf 박스(트랙 프래그먼트 박스)는 해당 트랙 프래그먼트에 대한 정보를 포함할 수 있다. traf 박스는 해당 프래그먼트에 포함되는 분할된 트랙 프래그먼트에 대한 메타데이터를 제공할 수 있다. traf 박스는 해당 트랙 프래그먼트 내의 미디어 샘플들이 복호화/재생될 수 있도록 메타데이터를 제공할 수 있다. traf 박스는 트랙 프래그먼트의 개수에 따라 복수개 존재할 수 있다.
실시예에 따라 전술한 traf 박스는 tfhd 박스 및/또는 trun 박스 등을 하위 박스로서 더 포함할 수 있다.
tfhd 박스(트랙 프래그먼트 헤더 박스)는 해당 트랙 프래그먼트의 헤더 정보를 포함할 수 있다. tfhd 박스는 전술한 traf 박스가 나타내는 트랙 프래그먼트의 미디어 샘플들에 대하여, 기본적인 샘플크기, 기간, 오프셋, 식별자 등의 정보를 제공할 수 있다.
trun 박스(트랙 프래그먼트 런 박스)는 해당 트랙 프래그먼트 관련 정보를 포함할 수 있다. trun 박스는 미디어 샘플별 기간, 크기, 재생시점 등과 같은 정보를 포함할 수 있다.
전술한 미디어 파일 내지 미디어 파일의 프래그먼트들은 세그먼트들로 처리되어 전송될 수 있다. 세그먼트에는 초기화 세그먼트(initialization segment) 및/또는 미디어 세그먼트(media segment) 가 있을 수 있다.
도시된 실시예(210)의 파일은, 미디어 데이터는 제외하고 미디어 디코더의 초기화와 관련된 정보 등을 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 초기화 세그먼트에 해당할 수 있다. 초기화 세그먼트는 전술한 ftyp 박스 및/또는 moov 박스를 포함할 수 있다.
도시된 실시예(220)의 파일은, 전술한 프래그먼트를 포함하는 파일일 수 있다. 이 파일은 예를 들어 전술한 미디어 세그먼트에 해당할 수 있다. 미디어 세그먼트는 전술한 moof 박스 및/또는 mdat 박스를 포함할 수 있다. 또한, 미디어 세그먼트는 styp 박스 및/또는 sidx 박스를 더 포함할 수 있다.
styp 박스(세그먼트 타입 박스) 는 분할된 프래그먼트의 미디어 데이터를 식별하기 위한 정보를 제공할 수 있다. styp 박스는 분할된 프래그먼트에 대해, 전술한 ftyp 박스와 같은 역할을 수행할 수 있다. 실시예에 따라 styp 박스는 ftyp 박스와 동일한 포맷을 가질 수 있다.
sidx 박스(세그먼트 인덱스 박스) 는 분할된 프래그먼트에 대한 인덱스를 나타내는 정보를 제공할 수 있다. 이를 통해 해당 분할된 프래그먼트가 몇번째 프래그먼트인지가 지시될 수 있다.
실시예에 따라(230) ssix 박스가 더 포함될 수 있는데, ssix 박스(서브 세그먼트 인덱스 박스)는 세그먼트가 서브 세그먼트로 더 나뉘어지는 경우에 있어, 그 서브 세그먼트의 인덱스를 나타내는 정보를 제공할 수 있다.
미디어 파일 내의 박스들은, 도시된 실시예(250)와 같은 박스 내지 풀 박스(FullBox) 형태를 기반으로, 더 확장된 정보들을 포함할 수 있다. 이 실시예에서 size 필드, largesize 필드는 해당 박스의 길이를 바이트 단위 등으로 나타낼 수 있다. version 필드는 해당 박스 포맷의 버전을 나타낼 수 있다. Type 필드는 해당 박스의 타입 내지 식별자를 나타낼 수 있다. flags 필드는 해당 박스와 관련된 플래그 등을 나타낼 수 있다.
한편, 일 실시예에 따른 360도 비디오에 대한 필드(속성)들은 DASH 기반 적응형(Adaptive) 스트리밍 모델에 포함되어 전달될 수 있다.
도 4는 DASH 기반 적응형 스트리밍 모델의 전반적인 동작의 일 예를 나타낸다. 도시된 실시예(400)에 따른 DASH 기반 적응형 스트리밍 모델은, HTTP 서버와 DASH 클라이언트 간의 동작을 기술하고 있다. 여기서 DASH(Dynamic Adaptive Streaming over HTTP)는, HTTP 기반 적응형 스트리밍을 지원하기 위한 프로토콜로서, 네트워크 상황에 따라 동적으로 스트리밍을 지원할 수 있다. 이에 따라 AV 컨텐츠 재생이 끊김없이 제공될 수 있다.
먼저 DASH 클라이언트는 MPD를 획득할 수 있다. MPD 는 HTTP 서버 등의 서비스 프로바이더로부터 전달될 수 있다. DASH 클라이언트는 MPD 에 기술된 세그먼트에의 접근 정보를 이용하여 서버로 해당 세그먼트들을 요청할 수 있다. 여기서 이 요청은 네트워크 상태를 반영하여 수행될 수 있다.
DASH 클라이언트는 해당 세그먼트를 획득한 후, 이를 미디어 엔진에서 처리하여 화면에 디스플레이할 수 있다. DASH 클라이언트는 재생 시간 및/또는 네트워크 상황 등을 실시간으로 반영하여, 필요한 세그먼트를 요청, 획득할 수 있다(Adaptive Streaming). 이를 통해 컨텐츠가 끊김없이 재생될 수 있다.
MPD (Media Presentation Description) 는 DASH 클라이언트로 하여금 세그먼트를 동적으로 획득할 수 있도록 하기 위한 상세 정보를 포함하는 파일로서 XML 형태로 표현될 수 있다.
DASH 클라이언트 컨트롤러(DASH Client Controller) 는 네트워크 상황을 반영하여 MPD 및/또는 세그먼트를 요청하는 커맨드를 생성할 수 있다. 또한, 이 컨트롤러는 획득된 정보를 미디어 엔진 등등의 내부 블록에서 사용할 수 있도록 제어할 수 있다.
MPD 파서(Parser) 는 획득한 MPD 를 실시간으로 파싱할 수 있다. 이를 통해, DASH 클라이언트 컨트롤러는 필요한 세그먼트를 획득할 수 있는 커맨드를 생성할 수 있게 될 수 있다.
세그먼트 파서(Parser) 는 획득한 세그먼트를 실시간으로 파싱할 수 있다. 세그먼트에 포함된 정보들에 따라 미디어 엔진 등의 내부 블록들은 특정 동작을 수행할 수 있다.
HTTP 클라이언트는 필요한 MPD 및/또는 세그먼트 등을 HTTP 서버에 요청할 수 있다. 또한 HTTP 클라이언트는 서버로부터 획득한 MPD 및/또는 세그먼트들을 MPD 파서 또는 세그먼트 파서로 전달할 수 있다.
미디어 엔진(Media Engine) 은 세그먼트에 포함된 미디어 데이터를 이용하여 컨텐츠를 화면상에 표시할 수 있다. 이 때, MPD 의 정보들이 활용될 수 있다.
DASH 데이터 모델은 계층적 구조(410)를 가질 수 있다. 미디어 프리젠테이션은 MPD에 의해 기술될 수 있다. MPD는 미디어 프리젠테이션를 만드는 복수개의 구간(Period)들의 시간적인 시퀀스를 기술할 수 있다. 피리오드는 미디어 컨텐츠의 한 구간을 나타낼 수 있다.
한 구간에서, 데이터들은 어댑테이션 셋들에 포함될 수 있다. 어댑테이션 셋은 서로 교환될 수 있는 복수개의 미디어 컨텐츠 컴포넌트들의 집합일 수 있다. 어댑테이션은 레프리젠테이션들의 집합을 포함할 수 있다. 레프리젠테이션은 미디어 컨텐츠 컴포넌트에 해당할 수 있다. 한 레프리젠테이션 내에서, 컨텐츠는 복수개의 세그먼트들로 시간적으로 나뉘어질 수 있다. 이는 적절한 접근성과 전달(delivery)를 위함일 수 있다. 각각의 세그먼트에 접근하기 위해서 각 세그먼트의 URL 이 제공될 수 있다.
MPD는 미디어 프리젠테이션에 관련된 정보들을 제공할 수 있고, 피리오드 엘레멘트, 어댑테이션 셋 엘레멘트, 레프리젠테이션 엘레멘트는 각각 해당 피리오드, 어댑테이션 셋, 레프리젠테이션에 대해서 기술할 수 있다. 레프리젠테이션은 서브 레프리젠테이션들로 나뉘어질 수 있는데, 서브 레프리젠테이션 엘레멘트는 해당 서브 레프리젠테이션에 대해서 기술할 수 있다.
여기서 공통(Common) 속성/엘레멘트들이 정의될 수 있는데, 이 들은 어댑테이션 셋, 레프리젠테이션, 서브 레프리젠테이션 등에 적용될 수 (포함될 수) 있다. 공통 속성/엘레멘트 중에는 에센셜 프로퍼티(EssentialProperty) 및/또는 서플멘탈 프로퍼티(SupplementalProperty) 가 있을 수 있다.
에센셜 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 필수적이라고 여겨지는 엘레멘트들을 포함하는 정보일 수 있다. 서플멘탈 프로퍼티는 해당 미디어 프리젠테이션 관련 데이터를 처리함에 있어서 사용될 수도 있는 엘레멘트들을 포함하는 정보일 수 있다. 실시예에 따라 후술할 디스크립터들은, MPD 를 통해 전달되는 경우, 에센셜 프로퍼티 및/또는 서플멘탈 프로퍼티 내에 정의되어 전달될 수 있다.
한편 전술한 도 1 내지 도 4에 따른 설명은 VR 또는 AR 컨텐츠를 구현하는 3차원 비디오 및 3차원 오디오 전반에 관한 것이나, 이하에서는 3차원 오디오 데이터가 본 발명에 따른 실시예와 관련하여 처리되는 과정을 보다 구체적으로 설명하기로 한다.
도 5는 일 실시예에 따른 오디오 처리 장치의 구성을 도시하는 블록도이다.
본 명세서에서 "오디오 처리 장치(500)"는 오디오 신호처리를 수행하는 장치를 의미할 수 있으며, 예를 들어 셋탑박스(STB), 블루레이(Blu-ray), DVD 플레이어, PC 등이 있으나, 이에 한정되지 않는다. 오디오 신호처리는, 예를 들어 오디오 비트스트림(bitstream)의 복호화(decoding), 복호화된 오디오 비트스트림의 렌더링 등을 의미할 수 있으나, 이에 한정되지 않는다.
오디오 처리 장치(500)는 오디오 재생 장치와 오디오 데이터를 상호 송수신하면서 오디오 신호처리를 수행할 수 있으므로, 오디오 처리 장치(500)와 오디오 재생 장치는 각각 소스 디바이스(source device)와 싱크 디바이스(sink device)로 지칭될 수도 있다. 오디오 재생 장치에 관한 구체적인 설명은 도 6에서 후술하기로 한다.
도 5에 도시된 바와 같이, 일 실시예에 따른 오디오 처리 장치(500)는 수신부(receiver, 510), 메타데이터 처리부(metadata processor, 520), 오디오 비트스트림 처리부(audio bitstream processor, 530) 및 전송부(transmitter, 540)를 포함할 수 있다. 그러나, 도 5에 도시된 구성 요소 모두가 오디오 처리 장치(500)의 필수 구성 요소인 것은 아니다. 도 5에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 오디오 처리 장치(500)가 구현될 수도 있다.
일 실시예에 따른 오디오 처리 장치(500)에서 수신부(510), 메타데이터 처리부(520), 오디오 비트스트림 처리부(530) 및 전송부(540)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.
일 실시예에 따른 수신부(510)는, 오디오 재생 장치로부터 오디오 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신할 수 있다. 재생 환경 정보는 오디오 재생 장치의 상태(status)에 관한 정보 및 재생 능력(reproduction capability)에 관한 정보 중 적어도 하나를 나타낼 수 있다. 본 발명에 따른 일 실시예에서는 특히, 재생 환경 정보가 3차원 재생 환경 정보를 의미할 수 있다. 재생 환경 정보는 EDID(Extended Display Identification Data standard)를 포함할 수 있고, 경우에 따라서는 재생 환경 정보가 곧 EDID를 의미할 수도 있다. EDID는, 예를 들어 오디오 신호의 샘플링 레이트(sampling rate), 압축 또는 부호화 관련 정보(압축 방법, 압축률 등), 스피커 레이아웃(speaker layout)에 관한 정보, 채널 신호의 스피커 배치 정보 및 3차원 오디오 데이터의 처리에 관한 정보 등을 포함할 수 있다. EDID가 포함할 수 있는 구체적인 정보에 관해서는 도 9에 대한 설명에서 후술하기로 한다.
일 실시예에 따른 메타데이터 처리부(520)는, 수신부(510)로부터 전달받은 오디오 재생 장치(600)의 재생 환경 정보를 판독할 수 있다. 메타데이터 처리부(520)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 비트스트림 처리부(530)로 전달하여, 오디오 비트스트림 처리부(530)가 오디오 비트스트림을 처리하여 오디오 신호를 생성하는 과정에서 오디오 재생 장치(600)의 재생 환경 정보를 이용할 수 있도록 할 수 있다. 보다 구체적으로, 메타데이터 처리부(520)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 디코더(532)로 전달하여, 오디오 디코더(532)가 3차원 오디오 비트스트림을 복호화하는 과정에서 오디오 재생 장치(600)의 재생 환경 정보를 이용할 수 있도록 할 수 있다.
이때, 오디오 비트스트림은 네트워크를 통하여 오디오 처리 장치(500)(보다 구체적으로는 오디오 비트스트림 처리부(530))로 전달되거나, 또는 디지털 저장매체로부터 오디오 처리 장치(500)로 전달될 수 있다. 여기서 네트워크는 방송망(broadcasting network) 및/또는 통신망(communication network) 등을 포함할 수 있고, 디지털 저장매체는 USB(Universal Serial Bus), SD, CD(Compact Disc), DVD(Digital Versatile Dics), 블루레이(Blu-ray), HDD(Hard Disk Drive), SSD(Solid State Drive) 등 다양한 저장매체를 포함할 수 있다.
또한, 메타데이터 처리부(520)는 오디오 비트스트림 처리부(530)에서 오디오 비트스트림이 처리되어 생성된 오디오 신호를 기반으로 인포프레임(InfoFrame)을 생성할 수 있다. 인포프레임은 생성된 오디오 신호의 샘플링 레이트(sampling rate), 생성된 신호의 비트(bit) 사이즈 정보, 압축 또는 복호화 여부, 사용된 압축 방법, 압축 전송률, 다운 믹스(down mix)를 위한 정보, 클리핑(clipping) 방지를 위한 정보, 생성된 오디오 신호의 특징 정보(characteristic information) 등을 포함할 수 있다. 오디오 신호의 특징 정보는 오디오 비트스트림 처리부(530)가 오디오 비트스트림을 오디오 재생 장치의 재생 환경 정보를 기반으로 처리하는 과정에서 획득된 정보로서, 오디오 신호의 특징 정보가 포함할 수 있는 구체적인 정보에 관해서는 도 9에 대한 설명에서 후술하기로 한다.
일 실시예에 따른 오디오 비트스트림 처리부(530)는 오디오 디코더(532) 및 렌더러(534)를 포함할 수 있다. 그러나, 도 5에 도시된 구성 요소 모두가 오디오 비트스트림 처리부(530)의 필수 구성 요소인 것은 아니다. 도 5에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 오디오 비트스트림 처리부(530)가 구현될 수도 있다.
예를 들어, 도 5에는 도시되어 있지 않으나, 오디오 비트스트림 처리부(530)는 이퀄라이저(Equalizer)를 추가로 포함할 수 있다. 오디오 재생 장치의 재생 환경 정보가 오디오 재생 장치의 공간 정보(room information 또는 room environment)를 포함하고 있는 경우, 이퀄라이저는 렌더러(534)로부터 전달받은 오디오 신호에 이퀄라이제이션 (Equalization)을 수행하여 오디오 재생 장치, 예를 들어 스피커(speaker)에서 재생되는 음질을 향상시킬 수 있다. 오디오 재생 장치의 공간 정보에 관해서는 도 8a에 대한 설명에서 후술하기로 한다.
일 실시예에 따른 오디오 디코더(audio decoder, 532)는 재생 환경 정보를 기반으로 오디오 비트스트림을 복호화할 수 있다. 보다 구체적으로, 오디오 디코더(532)는 메타데이터 처리부(520)로부터 전달받은 오디오 재생 장치의 재생 환경 정보에 기초하여, 외부로부터 획득한 오디오 비트스트림을 복호화할 수 있다.
일 실시예에 따른 렌더러(renderer, 534)는 복호화된 오디오 비트스트림을 렌더링(rendering)할 수 있다.
오디오 비트스트림이 오디오 디코더(532)에서 복호화되고, 복호화된 오디오 비트스트림이 렌더러(534)에서 렌더링되어 생성된 오디오 신호는, 오디오 비트스트림 처리부(530)에서 전송부(540)로 전달될 수 있다. 다시 말해, 오디오 비트스트림 처리부(530)는 오디오 비트스트림을 처리하여 생성된 오디오 신호를 전송부(540)로 전달할 수 있다.
일 실시예에 따른 전송부(540)는 오디오 비트스트림 처리부(530)에서 생성된 오디오 신호 및 메타데이터 처리부(520)에서 생성된 인포프레임을 오디오 재생 장치로 전송할 수 있다. 전송부(540)는 오디오 비트스트림 처리부(530)에서 생성된 오디오 신호 및 메타데이터 처리부(520)에서 생성된 인포프레임을 오디오 재생 장치로 동시에 전송하거나, 기 설정된 시간차를 두고 전송할 수 있다. 또는, 전송부(540)는 오디오 비트스트림 처리부(530)에서 오디오 신호가 생성되고 기 설정된 시간이 경과한 후에 오디오 신호를 오디오 재생 장치로 전송하고, 메타데이터 처리부(520)에서 인포프레임이 생성되고 기 설정된 시간이 경과한 후에 인포프레임을 오디오 재생 장치로 전송할 수 있다. 이와 같이 오디오 처리 장치(500)의 오디오 신호 및 인포프레임이 오디오 재생 장치로 전송되는 시점이 다양하게 정의될 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.
도 5에서 설명된 오디오 처리 장치(500)에 따르면, 오디오 재생 장치로부터 수신한 오디오 재생 장치의 3차원 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 3차원 오디오 신호를 생성하고, 오디오 비트스트림을 처리하는 과정에서 획득된 3차원 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있으며, 생성된 3차원 오디오 신호 및 생성된 인포프레임을 오디오 재생 장치로 전송할 수 있다. 즉, 오디오 처리 장치(500)는 오디오 재생 장치와 3차원 오디오 데이터를 상호 송수신하면서, 오디오 재생 장치가 3차원 오디오 컨텐츠를 보다 원활히 재생할 수 있도록 하는 3차원 오디오 신호를 생성할 수 있다.
도 6은 일 실시예에 따른 오디오 재생 장치의 구성을 도시하는 블록도이다.
본 명세서에서 "오디오 재생 장치(600)"는 오디오 신호를 재생하는 장치를 의미할 수 있으며, 예를 들어 스피커, 헤드폰(headphone), 이어폰, HMD 등이 있으나, 이에 한정되지 않는다. 오디오 재생 장치(600)는 오디오 재생 장치(600)와 오디오 데이터를 송수신하는 오디오 처리 장치(500)로부터 수신한 오디오 신호를 재생할 수 있으나, 오디오 재생 장치(600)가 오디오 재생을 수행하는 방법은 이에 한정되지 않는다.
오디오 처리 장치(500)와 오디오 재생 장치(600)간의 오디오 데이터 송수신은 멀티 유저(multi-user) 환경에서도 발생할 수 있다. 멀티 유저 환경은, 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하여, 복수의 사용자들이 복수의 오디오 재생 장치들을 통하여 오디오 처리 장치(500)로부터 수신된 오디오 신호에 기반하여 재생되는 오디오 컨텐츠를 감상하는 환경을 의미할 수 있다. 멀티 유저 환경에서 오디오 재생 장치(600)는 복수의 오디오 재생 장치들 중 마스터 장치(master device)에 해당할 수 있고, 또는 서브 장치(sub device)에 해당할 수도 있다. 멀티 유저 환경에서 복수의 오디오 재생 장치들 상호 간, 또는 복수의 오디오 재생 장치들과 오디오 처리 장치(500)간에는, 예를 들어 Wi-Fi 또는 블루투스(Bluetooth)를 이용한 통신이 수행될 수 있으나, 통신 방법은 이에 한정되지 않는다. 멀티 유저 환경 및 멀티 유저 환경에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)의 동작에 관한 구체적인 설명은 도 12에서 후술하기로 한다.
도 6에 도시된 바와 같이, 일 실시예에 따른 오디오 재생 장치(600)는 메타데이터 처리부(metadata processor, 610), 전송부(transmitter, 620), 수신부(receiver, 630) 및 재생부(reproducer, 640)를 포함할 수 있다. 그러나, 도 6에 도시된 구성 요소 모두가 오디오 재생 장치(600)의 필수 구성 요소인 것은 아니다. 도 6에 도시된 구성 요소보다 많거나 적은 구성 요소에 의해 오디오 재생 장치(600)가 구현될 수도 있다.
일 실시예에 따른 오디오 재생 장치(600)에서 메타데이터 처리부(610), 전송부(620), 수신부(630) 및 재생부(640)는 각각 별도의 칩(chip)으로 구현되거나, 적어도 둘 이상의 구성 요소가 하나의 칩을 통해 구현될 수도 있다.
일 실시예에 따른 메타데이터 처리부(610)는 오디오 재생 장치(600)의 재생 환경 정보를 수집할 수 있다. 보다 구체적으로, 메타데이터 처리부(610)는 오디오 재생 장치(600)의 메모리(memory 또는 storage unit, 도 6에 도시되지 않음)에 저장되어 있는 오디오 재생 장치(600)의 재생 환경 정보를 수집할 수 있다.
일 실시예에 따른 전송부(620)는 메타데이터 처리부(610)로부터 전달받은 오디오 재생 장치(600)의 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있다.
일 실시예에 따른 오디오 처리 장치(500)는 도 5에서 전술한 바와 같이, 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성할 수 있고, 생성된 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있다. 일 실시예에 따른 수신부(630)는 오디오 처리 장치(500)로부터 오디오 신호 및 인포프레임을 수신할 수 있다. 수신부(630)는 수신된 오디오 신호는 재생부(640)로, 수신된 인포프레임은 메타데이터 처리부(610)로 전달할 수 있으나, 이러한 방법에 한정되는 것은 아니다. 예를 들어, 수신부(630)는 수신된 오디오 신호 및 인포프레임 모두를 재생부(640)로 전달할 수도 있다.
일 실시예에 따른 오디오 재생 장치(600)의 수신부(630)가 오디오 처리 장치(500)로부터 수신한 오디오 신호는 압축 신호일 수도 있고, 비압축 신호일 수도 있다. 수신된 오디오 신호가 무압축 신호일 경우, 수신부(630)는 수신된 오디오 신호를 그대로(directly) 메타데이터 처리부(610) 및 재생부(640) 중 적어도 하나로 전달할 수 있다. 수신된 오디오 신호가 압축 신호일 경우, 수신부(630)는 수신된 오디오 신호를 복호화 한 후 메타데이터 처리부(610) 및 재생부(640) 중 적어도 하나로 전달할 수 있다. 이때 압축 신호의 복호화는 수신부(630)에 의해 수행되거나, 또는 별도의 디코더를 통해 수행될 수 있다.
일 실시예에 따른 재생부(640)는 인포프레임을 기반으로, 수신된 오디오 신호를 재생할 수 있다. 보다 구체적으로, 인포프레임은 메타데이터 처리부(610)에서 판독될 수 있고, 인포프레임을 판독하여 획득된 정보는 메타데이터 처리부(610)에서 재생부(640)로 전달될 수 있으며, 재생부(640)는 인포프레임을 판독하여 획득된 정보를 기반으로, 수신된 오디오 신호를 재생할 수 있다. 다만, 재생부(640)가 오디오 신호를 재생하는 방법은 이에 한정되지 않으며, 예를 들어 재생부(640)는 수신부(630)로부터 오디오 신호 및 인포프레임 모두를 곧바로 전달받은 후, 인포프레임을 기반으로 오디오 신호를 재생할 수도 있다.
또한, 일 실시예에 따른 재생부(640)는 오디오 처리 장치(500)로부터 수신한 오디오 신호를 재생하면서 획득한 정보를 메타데이터 처리부(610)로 전달할 수 있다.
도 6에는 도시되어 있지 않으나, 일 실시예에 따른 재생부(640)는 재생 제어부(reproduction controller), D/A 컨버터(Diginal analog converter), AMP(Amplifier) 및 트랜스듀서(Transducer) 중 적어도 하나를 포함할 수도 있다.
일 실시예에 따른 재생 제어부는 재생 제어부는 메타데이터 처리부(610)와 데이터를 송수신하면서 오디오 신호의 재생을 제어할 수 있다. 예를 들어, 재생 제어부는 메타데이터 처리부(610)로부터 인포프레임을 수신할 수 있고, 인포프레임을 기반으로 오디오 신호의 재생을 제어할 수 있다. 재생 제어부는 오디오 신호를 채널(channel)수에 맞추어 분배할 수 있다.
일 실시예에 따른 D/A 컨버터는 재생 제어부로부터 전달받은 오디오 신호에 대해 디지털-아날로그 변환을 수행할 수 있고, 일 실시예에 따른 AMP는 D/A 컨버터에서 디지털-아날로그 변환이 수행된 오디오 신호를 증폭할 수 있으며, 증폭된 오디오 신호는 일 실시예에 따른 트랜스듀서로 전달될 수 있다. D/A 컨버터, AMP 및 트랜스듀서의 수는 재생 환경에 따라 결정될 수 있다. 예를 들어, 오디오 재생 장치(600)가 스테레오(stereo) 스피커이거나 헤드폰인 경우, D/A 컨버터, AMP 및 트랜스듀서는 좌측(left)용과 우측(right)용, 즉 2개씩 존재할 수 있다. 또한, 만약 복수의 오디오 재생 장치들이 존재하는 멀티 유저 환경인 경우, D/A 컨버터, AMP 및 트랜스듀서의 개수는 보다 증가할 수 있다.
도 6에서 설명된 오디오 재생 장치(600)에 따르면, 오디오 재생 장치(600)의 3차원 오디오 재생에 관한 정보를 포함하는 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있고, 재생 환경 정보를 기반으로 오디오 처리 장치(500)에 의해 생성된 3차원 오디오 신호 및 생성된 인포프레임을 오디오 처리 장치(500)로부터 수신할 수 있다. 즉, 오디오 재생 장치(600)는 오디오 처리 장치(500)와 3차원 오디오 데이터를 상호 송수신하면서, 3차원 오디오 컨텐츠를 오디오 재생 장치(600)의 3차원 오디오 재생 환경에 맞추어 보다 원활히 재생할 수 있다.
도 7은 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치의 구성을 도시하는 블록도이다.
도 7에 도시된 바와 같이, 일 실시예에 따른 오디오 처리 장치(500)는 수신부(510), 메타데이터 처리부(520), 오디오 비트스트림 처리부(530) 및 전송부(540)를 포함할 수 있고, 일 실시예에 따른 오디오 재생 장치(600)는 메타데이터 처리부(610), 전송부(620), 수신부(630) 및 재생부(640)를 포함할 수 있다.
도 7에 도시된 오디오 처리 장치(500) 및 오디오 재생 장치(600)가 각각 도 5의 오디오 처리 장치(500) 및 도 6의 오디오 재생 장치(600)와 동일하게 동작할 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다. 따라서, 이하에서는 오디오 처리 장치(500)의 수신부(510), 메타데이터 처리부(520), 오디오 비트스트림 처리부(530) 및 전송부(540), 그리고 오디오 재생 장치(600)의 메타데이터 처리부(610), 전송부(620), 수신부(630) 및 재생부(640)와 관련하여 도 5 및 도 6에서 설명된 내용과 중복되는 내용은 설명을 생략하거나 간단히 하기로 한다.
일 실시예에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)는 상호 유선 인터페이스를 통하여 연결될 수 있다. 예를 들어, 오디오 처리 장치(500) 및 오디오 재생 장치(600)는 HDMI (High-Definition Multimedia Interface)를 통하여 상호 연결될 수 있다.
HDMI의 송수신 규격 중 하나로 CTA-861-G가 있다. 일 실시예에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)는 HDMI의 CTA-861-G 규격을 기반으로 오디오 데이터를 상호 송수신할 수 있으며, 특히 VR 또는 AR 컨텐츠를 구현하기 위한 3차원 오디오 데이터를 상호 송수신할 수 있다. 3차원 오디오 데이터는 오디오 재생 장치(600)의 재생 환경 정보에 포함되어 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 전달되거나, 인포프레임에 포함되어 오디오 처리 장치(500)에서 오디오 재생 장치(600)로 전달될 수 있다. 예를 들어 3차원 오디오 데이터는 VESA(Video Electronics Standards Association)에서 정의된 EDID를 확장하여 정의한 CTA EDID extension 의 확장 데이터 블록(extended data block)에 포함되어, 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 전달될 수 있다.
3차원 오디오 데이터를 상호 송수신함으로써, 일 실시예에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)는 VR 시스템 또는 AR 시스템하에서 사용자에게 VR 오디오 또는 AR 오디오를 원활하게 제공할 수 있다.
일 실시예에 따른 오디오 재생 장치(600)의 메타데이터 처리부(610)는 오디오 재생 장치(600)의 재생 환경 정보를 수집할 수 있다.
일 실시예에 따른 오디오 재생 장치(600)의 전송부(620)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있다.
일 실시예에 따른 오디오 처리 장치(500)의 수신부(510)는, 오디오 재생 장치(600)로부터 오디오 재생 장치(600)의 재생 환경 정보를 수신할 수 있다. 예를 들어, 오디오 처리 장치(500)의 수신부(510)는 DDC(Display Data Channel)를 통해 오디오 재생 장치(600)로부터 오디오 재생 장치(600)의 재생 환경 정보를 수신할 수 있다.
일 실시예에 따른 오디오 처리 장치(500)의 메타데이터 처리부(520)는, 수신부(510)로부터 오디오 재생 장치(600)의 재생 환경 정보를 전달받을 수 있고, 전달받은 오디오 재생 장치(600)의 재생 환경 정보를 판독할 수 있다. 메타데이터 처리부(520)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 비트스트림 처리부(530)로 전달하여, 오디오 비트스트림 처리부(530)가 오디오 비트스트림을 처리하여 오디오 신호를 생성하는 과정에서 오디오 재생 장치(600)의 재생 환경 정보를 이용할 수 있도록 할 수 있다. 또한, 메타데이터 처리부(520)는 오디오 비트스트림 처리부(530)에서 오디오 비트스트림이 처리되어 생성된 오디오 신호를 기반으로 인포프레임을 생성할 수 있다.
일 실시예에 따른 오디오 처리 장치(500)의 오디오 비트스트림 처리부(530)는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성할 수 있다. 보다 구체적으로, 오디오 비트스트림은 VR 오디오 비트스트림 또는 AR 오디오 비트스트림을 포함할 수 있고, 오디오 비트스트림 처리부(530)는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 VR 오디오 비트스트림 및 AR 오디오 비트스트림 중 적어도 하나를 처리하여 3차원 오디오 신호를 생성할 수 있다.
오디오 처리 장치(500)에서 3차원 오디오 비트스트림이 처리(예를 들어, 바이너럴 렌더링(binaural rendering), 3차원 오디오 효과(3D Audio effect), 등) 되어 3차원 오디오 신호가 생성되는 경우, 오디오 재생 장치(600)는 3차원 오디오 신호를 원활하게 재생하기 위해 오디오 처리 장치(500)에서 제공한 정보를 참조할 필요가 있을 수 있다. 이때, 오디오 처리 장치(500)가 제공하는 정보는 예를 들어 인포프레임일 수 있다.
일 실시예에 따른 오디오 처리 장치(500)의 전송부(540)는 오디오 비트스트림 처리부(530)에서 생성된 오디오 신호 및 메타데이터 처리부(520)에서 생성된 인포프레임을 오디오 재생 장치(600)로 전송할 수 있다.
일 실시예에 따른 오디오 재생 장치(600)의 수신부(630)는 오디오 처리 장치(500)로부터 오디오 신호 및 인포프레임을 수신할 수 있다. 수신부(630)는 수신된 오디오 신호는 재생부(640)로, 수신된 인포프레임은 메타데이터 처리부(610)로 전달할 수 있다.
일 실시예에 따른 재생부(640)는 인포프레임을 기반으로, 수신된 오디오 신호를 재생할 수 있다. 보다 구체적으로, 인포프레임은 메타데이터 처리부(610)에서 판독될 수 있고, 인포프레임을 판독하여 획득된 정보는 메타데이터 처리부(610)에서 재생부(640)로 전달될 수 있으며, 재생부(640)는 인포프레임을 판독하여 획득된 정보를 기반으로, 수신된 오디오 신호를 재생할 수 있다.
도 7에는 도시되어 있지 않으나, 일 실시예에 따른 오디오 처리 장치(500)는 오디오 옵션 제어부(audio option controller)를 포함하고, 일 실시예에 따른 오디오 재생 장치(600)는 사용자 옵션 제어부(user option controller)를 포함할 수 있다.
일 실시예에 따른 사용자 옵션 제어부는 오디오 재생 장치(600)를 이용하는 사용자로부터 오디오 재생 환경에 관한 설정 정보를 획득할 수 있다. 다시 말해, 사용자는 사용자 옵션 제어부를 통해 오디오 재생 환경을 변경할 수 있다. 예를 들어, 멀티 유저 환경에서 다른 사용자 또는 다른 오디오 재생 장치에 의한 영향을 받지 않기 위해, 사용자는 사용자 옵션 제어부를 통해 다른 사용자 또는 다른 오디오 재생 장치로부터의 오디오 데이터를 차단할 것을 설정할 수 있다.
사용자 옵션 제어부는 사용자로부터 획득한 오디오 재생 환경에 관한 설정 정보를 오디오 재생 장치(600)의 전송부(620)로 전달할 수 있고, 전송부(620)는 오디오 처리 장치(500)로 오디오 재생 환경에 관한 설정 정보를 전송할 수 있다. 오디오 처리 장치(500)의 수신부(510)는 오디오 재생 환경에 관한 설정 정보를 수신하여 오디오 옵션 제어부로 전달할 수 있다. 일 실시예에 따른 오디오 옵션 제어부는, 오디오 재생 환경에 관한 설정 정보를 메타데이터 처리부(520) 또는 오디오 비트스트림 처리부(530)로 전달할 수 있다.
일 실시예에 따른 메타데이터 처리부(520)는 오디오 재생 환경에 관한 설정 정보를 기반으로 EDID 또는 인포프레임을 처리 또는 수정할 수 있다. 또한, 일 실시예에 따른 오디오 비트스트림 처리부(530)는 오디오 재생 환경에 관한 설정 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성할 수 있다.
또한, 도 7에는 도시되어 있지 않으나, 일 실시예에 따른 오디오 처리 장치(500)의 오디오 비트스트림 처리부(530)는 멀티 유저 오디오 디코더(multi-user audio decoder)를 더 포함할 수 있다. 일 실시예에 따른 멀티 유저 오디오 디코더는 멀티 유저 환경에서 네트워크망 또는 방송망을 통해 수신한 멀티 유저 오디오 비트스트림(multi-user audio bitstream)을 복호화할 수 있다. 이때, 멀티 유저 오디오 디코더는 메타데이터 처리부(520)를 통해 획득한 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 멀티 유저 오디오 비트스트림을 복호화할 수 있다. 멀티 유저 오디오 디코더는 오디오 디코더(532)와는 별도의 디코더일 수 있으나, 경우에 따라서는 하나의 통합된 디코더가 오디오 디코더(532)의 동작과 멀티 유저 오디오 디코더의 동작을 모두 수행할 수도 있다.
일 실시예에서, 멀티 유저 오디오 디코더에서 복호화된 오디오 신호는 오디오 디코더(532)에서 복호화된 오디오 신호와 합성된 후 렌더러(534)에서 렌더링될 수 있다.
도 8a 및 도 8b는 일 실시예에 따른 오디오 재생 장치의 재생 환경 정보를 획득하는 일 예시를 도시하는 도면이다.
일 실시예에 따른 오디오 재생 장치(600)의 재생 환경 정보는 공간 정보와 사용자의 귀의 특징 정보를 포함할 수 있다. 이하 도 8a에서는 오디오 재생 장치(600)가 공간 정보를 획득하는 일 예시에 관해 설명하고, 도 8b에서는 오디오 재생 장치(600)가 사용자의 귀의 특징 정보를 획득하는 일 예시에 관해 설명하도록 한다.
도 8a는 일 실시예에 따른 오디오 재생 장치(600)가 공간 정보를 획득하는 일 예시를 도시하는 도면이다.
일부 실시예에 따른 오디오 처리 장치(500)에는 BRIR(Binaural Room Impulse Response)이 기 저장되어 있을 수 있고, 외부에서 오디오 재생 요청이 발생하는 경우 오디오 처리 장치(500)는 기 저장된 BRIR을 기반으로 3차원 오디오 신호(또는 3차원 오디오 비트스트림)를 처리할 수 있다. 그러나, 모든 오디오 처리 장치(500)에 BRIR이 기 저장되어 있지 않으며, 오디오 재생 장치(600)가 위치하는 공간(800)의 공간 정보를 기반으로 BRIR을 모델링하는 것이 사용자(810)에게 오디오 컨텐츠를 보다 효율적으로 제공할 수 있는 방법임을 고려할 때, 오디오 처리 장치(500)는 경우에 따라서는 오디오 재생 장치(600)가 위치하는 공간(800)의 공간 정보를 기반으로 3차원 오디오 신호(또는 3차원 오디오 비트스트림)를 처리해야 할 필요성이 있다. 본 발명의 일 실시예에 따른 오디오 재생 장치(600)는 오디오 재생 장치(600)가 위치하는 공간(800)의 공간 정보를 획득하여 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다.
일 실시예에서, 오디오 재생 장치(600)의 재생 환경 정보는 EDID를 포함할 수 있고, EDID는 CTA 데이터 블록을 포함할 수 있으며, CTA 데이터 블록은 VR-AR 오디오 데이터 블록을 나타내는 확장 태그 코드(extended tag code)를 포함할 수 있다. VR-AR 오디오 데이터 블록은 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있는지 여부를 나타내는 3차원 가용 플래그를 포함할 수 있고, 3차원 가용 플래그가 1을 지시하는 경우, VR-AR 오디오 데이터 블록은 3차원 오디오 신호 타입 정보, 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그 및 공간 정보가 사용되는지 여부를 나타내는 플래그 중 적어도 하나를 포함할 수 있다. 도 8a에서는 공간 정보에 관해 구체적으로 설명하기로 하고, CTA 데이터 블록, VR-AR 오디오 데이터 블록, 확장 태그 코드, 3차원 가용 플래그 및 3차원 오디오 신호 타입 정보에 관한 보다 구체적인 설명은 도 9에서 후술하기로 한다.
공간 정보가 사용되는지 여부를 나타내는 플래그가 1을 지시하는 경우, VR-AR 오디오 데이터 블록은 공간 정보를 포함할 수 있고, VR-AR 오디오 데이터 블록에 포함된 공간 정보는 오디오 재생 장치(600)로부터 오디오 처리 장치(500)로 전달될 수 있다. 다시 말해, 공간 정보는 오디오 재생 장치(600)로부터 오디오 처리 장치(500)로 시그널링(signaling)될 수 있다.
일 실시예에서, 공간 정보는 오디오 재생 장치(600)가 위치하는 공간(800)의 크기에 대한 정보, 오디오 재생 장치(600)가 위치하는 공간(800)을 구성하는 물질의 반사 계수(reflection coefficient)에 관한 정보, 오디오 재생 장치(600)가 위치하는 공간(800) 내에서 사용자(810)의 위치에 대한 정보 및 사용자(810)가 응시하는(gazing) 방향에 대한 정보 중 적어도 하나를 포함할 수 있다. 공간 정보는 공간 응답 보정(room response correction)을 목적으로 사용될 수 있다.
도 8a를 참조하면, 사용자(800)가 착용하고 있는 헤드폰(870) 또는 마이크(830)를 포함하는 스피커(820)가 오디오 재생 장치(600)가 될 수 있고, 오디오 재생 장치(600)를 기준으로 하는 일정 범위의 영역을 오디오 재생 장치(600)가 위치하는 공간(800)으로 해석할 수 있다. 오디오 재생 장치(600)가 위치하는 공간(800)에는 제1 센서(840), 제2 센서(850) 및 제3 센서(860)가 존재한다.
일 실시예에서, 공간 정보는 사용자(810)에 의해 획득될 수 있다. 예를 들어, 사용자(810)는 오디오 재생 장치(600)가 위치하는 공간(800)의 크기, 오디오 재생 장치(600)가 위치하는 공간(800)을 구성하는 물질의 반사 계수, 오디오 재생 장치(600)가 위치하는 공간(800) 내에서 사용자(810)의 위치 및 사용자(810)가 응시하는(gazing) 방향 중 적어도 하나를 수동으로 오디오 재생 장치(600)에 입력할 수 있다. 오디오 재생 장치(600)는 사용자 인터페이스(User Interface, UI)를 통하여 사용자(800)로부터 오디오 재생 장치(600)가 위치하는 공간(800)의 공간 정보를 획득할 수 있다.
또는, 도 8a에 도시된 바와 같이 공간 정보는 오디오 재생 장치(600) 자체적으로 또는 오디오 재생 장치(600)와 통신하는 적어도 하나의 센서로부터 수신된 정보를 기반으로 추정될 수 있다.
일 예시에서, 도 8a의 (ㄱ)에 도시된 바와 같이, 일 실시예에 따른 제3 센서(860)는 적외선(infrared ray)을 방출할 수 있고, 제3 센서(860)는 적외선이 제3 센서(860)에서 방출되어 오디오 재생 장치(600)가 위치하는 공간(800)상의 특정 지점에 도달한 후 반사되어 제3 센서(860)에 의해 감지되기까지의 시간을 측정하여 오디오 재생 장치(600)가 위치하는 공간(800)의 크기를 추정할 수 있다.
다른 예시에서, 도 8a의 (ㄴ)에 도시된 바와 같이, 일 실시예에 따른 스피커(820)는 마이크(830)를 통해 수음된 응답 신호를 기반으로 스피커(820)가 위치하는 공간(800)의 공간 정보를 획득할 수 있다. 보다 구체적으로, 일 실시예에 따른 스피커(820)는 소정의 신호를 방출할 수 있고, 스피커(820)에서 방출된 소정의 신호가 스피커(820)가 위치하는 공간(800)상의 특정 지점에 도달한 후 반사되어 스피커(820)에서 감지되는 경우, 스피커(820)는 스피커(820)에서 방출된 소정의 신호의 진폭(amplitude)과 반사되어 스피커(820)에서 감지되는 소정의 신호의 진폭을 비교하여 스피커(820)가 위치하는 공간(800)을 구성하는 물질의 반사 계수를 추정할 수 있다.
스피커(820)에서 반사되어 감지되는 소정의 신호의 진폭이 스피커(820)에서 방출된 소정의 신호의 진폭에 소정의 임계치를 반영한 값보다 작은 경우, 스피커(820)는 스피커(820)가 위치하는 공간(800)의 반사 계수가 작다고 판단할 수 있다. 반대로 스피커(820)에서 반사되어 감지되는 소정의 신호의 진폭이 스피커(820)에서 방출된 소정의 신호의 진폭에 소정의 임계치를 반영한 값보다 큰 경우, 스피커(820)는 스피커(820)가 위치하는 공간(800)의 반사 계수가 크다고 판단할 수 있다.
또 다른 예시에서, 오디오 재생 장치(600)는 오디오 재생 장치(600)가 위치하는 공간(800) 내에서의 사용자(810)의 위치를 추정할 수 있다. 보다 구체적으로, 오디오 재생 장치(600)는 소정의 신호를 방출할 수 있고, 오디오 재생 장치(600)에서 방출된 소정의 신호는 오디오 재생 장치(600)가 위치하는 공간(800)의 벽면의 일부에 반사된 후 사용자(810)가 착용 중인 마이크에 수음될 수 있다. 사용자(810)가 착용 중인 마이크는 소정의 신호의 종류, 소정의 신호가 방출되는 각도, 소정의 신호가 오디오 재생 장치(600)에서 방출된 시점부터 마이크에 수음되는 시점까지의 소요 시간 등을 통하여 오디오 재생 장치(600)가 위치하는 공간(800) 내에서의 사용자(810)의 위치를 추정할 수 있다.
또 다른 예시에서, 오디오 재생 장치(600)는 적어도 하나의 센서를 기반으로 사용자(810)가 응시하는 방향을 추정할 수 있다.
도 8b는 일 실시예에 따른 오디오 재생 장치(600)가 사용자의 귀의 특징 정보를 획득하는 일 예시를 도시하는 도면이다.
3차원 오디오 컨텐츠를 사용자에게 제공하기 위해, 오디오 처리 장치(500)는 사용자의 귀의 모양을 특징화한 HRIR(Head-Related Impulse Response) 또는 HRTF(Head-Related Transfer Function)를 3차원 오디오 신호에 적용할 수 있다. 일부 실시예에 따른 오디오 처리 장치(500)에는 HRIR(또는 HRTF)이 기 저장되어 있을 수 있고, 외부에서 오디오 재생 요청이 발생하는 경우 오디오 처리 장치(500)는 기 저장된 HRIR(또는 HRTF)을 기반으로 3차원 오디오 신호(또는 3차원 오디오 비트스트림)를 처리할 수 있다. 그러나, 오디오 처리 장치(500)에 기 저장되어 있는 HRIR(또는 HRTF)은 더미헤드(dummy head)를 통해 획득된 것인데, 더미 헤드로부터 획득된 HRIR(또는 HRTF)은 모든 사용자의 귀의 특을 반영하기는 어려우므로, 개별 사용자의 귀의 특징 정보를 기반으로 HRIR(또는 HRTF)를 획득(또는 모델링(modeling))하는 것이 사용자에게 오디오 컨텐츠를 보다 효율적으로 제공할 수 있는 방법이 될 수 있다. 본 발명의 일 실시예에 따른 오디오 재생 장치(600)는 사용자의 귀의 특징 정보를 획득하여 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다.
일 실시예에서, 오디오 재생 장치(600)의 재생 환경 정보는 EDID를 포함할 수 있고, EDID는 CTA 데이터 블록을 포함할 수 있으며, CTA 데이터 블록은 VR-AR 오디오 데이터 블록을 나타내는 확장 태그 코드(extended tag code)를 포함할 수 있다. VR-AR 오디오 데이터 블록은 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있는지 여부를 나타내는 3차원 가용 플래그를 포함할 수 있고, 3차원 가용 플래그가 1을 지시하는 경우, VR-AR 오디오 데이터 블록은 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그를 포함할 수 있다.
사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그가 1을 지시하는 경우, 확장 데이터 블록은 사용자 헤드 정보 데이터 블록(Personal Head Information Data Block)을 포함할 수 있다. 사용자 헤드 정보 데이터 블록은 사용자의 헤드 폭(head width)에 대한 정보 및 사용자의 귀의 특징 부위(characteristic part)들의 길이 또는 각도에 대한 정보를 포함할 수 있다.
사용자의 헤드 폭에 대한 정보 및 사용자의 귀의 특징 부위들의 길이에 대한 정보는 오디오 재생 장치(600)와 유무선으로 연결된 적어도 하나의 센서를 기반으로 획득될 수 있다. 적어도 하나의 센서는 오디오 재생 장치(600)에 내장되어 있을 수 있고, 오디오 재생 장치(600)와 분리되어 별도의 장치로서 오디오 재생 장치(600)와 무선으로 통신할 수 있으며, 적어도 하나의 센서와 오디오 재생 장치(600)의 관계의 예시는 이에 한정되지 않는다.
오디오 재생 장치(600)는 사용자의 헤드 폭에 대한 정보를 획득하여 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다. 예를 들어 오디오 재생 장치(600)가 헤드폰인 경우, 헤드폰에 내장된 적어도 하나의 센서는 사용자의 헤드 폭을 측정하거나 예측할 수 있다. 헤드폰은 적어도 하나의 센서를 통해 획득한 사용자의 헤드 폭에 대한 정보를 사용자 헤드 정보 데이터 블록을 통해 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다.
또한, 오디오 재생 장치(600)는 사용자의 귀의 특징 부위들의 길이 또는 각도에 대한 정보를 획득하여 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다. 도 8b을 참조하면, 사용자의 귀의 특징 부위들의 길이 또는 각도를 분류하는 일 예시가 도시되어 있다. 예를 들어 오디오 재생 장치(600)가 헤드폰인 경우, 헤드폰에 내장된 적어도 하나의 센서는 사용자의 귀의 특징 부위들의 길이 또는 각도를 측정하거나 예측할 수 있다. 헤드폰은 적어도 하나의 센서를 통해 획득한 사용자의 귀의 특징 부위들의 길이 또는 각도에 대한 정보를 사용자 헤드 정보 데이터 블록을 통해 오디오 처리 장치(500)로 전송(또는 시그널링)할 수 있다.
도 8b를 참조하면, 일 실시예에 따른 사용자의 귀의 특징 부위들의 길이에 대한 정보는 d1 내지 d8로 분류될 수 있고, 사용자의 귀의 특징 부위들의 각도에 대한 정보는 θ1 및 θ2로 분류될 수 있다. d1 내지 d8는 사용자 헤드 정보 데이터 블록을 통해 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 전송되는 PINN1 내지 PINN8 각각과 대응될 수 있고, θ1 및 θ2는 사용자 헤드 정보 데이터 블록을 통해 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 전송되는 PINN9 및 PINN10 각각과 대응될 수 있으나, 사용자의 귀의 특징 부위들의 길이 및 각도에 대한 정보를 분류하는 실시예는 이에 한정되지 않는다. 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 사용자 헤드 정보 데이터 블록이 전송(또는 시그널링)되는 것에 관한 보다 구체적인 설명은 도 9에서 후술하기로 한다.
도 9는 일 실시예에 따른 오디오 처리 장치가 오디오 데이터를 처리하는 과정을 도시하는 흐름도이다.
도 9에 개시된 각 단계는 도 5에 개시된 오디오 처리 장치(500)에 의하여 수행될 수 있다. 구체적으로 예를 들어, 도 9의 단계 900은 오디오 처리 장치(500)의 수신부(510)에 의하여 수행될 수 있고, 단계 910은 오디오 처리 장치(500)의 메타데이터 처리부(520) 및 오디오 비트스트림 처리부(530)에 의하여 수행될 수 있고, 단계 920은 오디오 처리 장치(500)의 메타데이터 처리부(520)에 의하여 수행될 수 있고, 단계 930은 오디오 처리 장치(500)의 전송부(540)에 의하여 수행될 수 있다. 따라서, 도 9의 각 단계를 설명함에 있어서, 도 5에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.
본 명세서에서는 특정 정보 또는 개념을 정의하기 위한 용어 또는 문장을 사용하고 있다. 예를 들어, 본 명세서에서는 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있는지 여부를 나타내는 정보를 "3차원 가용 플래그"라고 정의하고 있으며, 3차원 가용 플래그의 예시를 EDID에 포함되는 "3DA"로 제시하고 있다. 그러나, "3차원 가용 플래그"는 3차원 가용 정보, 3D 가용 정보, 3D 가용 플래그 등 다양한 용어로 대체될 수 있고, "3DA" 또한 "3DAI", "3DAFlag" 등 다양한 용어로 대체될 수 있는 바, 본 명세서에서 특정 정보 또는 개념을 정의하기 위해 사용된 용어 또는 문장을 명세서 전반에서 해석함에 있어서 그 명칭에 국한된 해석을 하여서는 안 되고, 상기 용어가 의미하는 바에 따른 다양한 동작, 기능 및 효과에 주목하여 해석할 필요가 있다.
단계 900에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)로부터 오디오 재생 장치(600)의 재생 환경 정보를 수신할 수 있다.
일 실시예에서, 오디오 재생 장치(600)의 재생 환경 정보는 EDID를 포함할 수 있고, 경우에 따라서는 재생 환경 정보가 곧 EDID를 의미할 수도 있다. EDID는 오디오 재생 장치(600)의 상태 정보 및 재생 능력 정보 중 적어도 하나를 나타내기 위한 CTA 데이터 블록을 포함할 수 있으며, CTA 데이터 블록의 예시는 아래의 표 1과 같다.
Figure PCTKR2018011252-appb-T000001
CTA 데이터 블록은 0부터 7까지의 태그 코드(tag code)를 포함하고 있고, 각 태그 코드는 이진수 코드(binary code)로 표현될 수 있다. CTA 데이터 블록의 태그 코드들은 CTA 데이터 블록이 포함하는 정보들을 타입(type)에 따라 분류하기 위한 것이다. 특히, CTA 데이터 블록의 태그 코드가 7(111)2로 시그널링되는 경우 확장 태그 코드들(Extended tag codes)이 사용될 수 있는데, 확장 태그 코드들의 예시는 아래의 표 2와 같다.
Figure PCTKR2018011252-appb-T000002
확장 태그 코드들은 0부터 255까지 총 256개가 존재할 수 있고, 각 확장 태그 코드들은 16진수 코드(hexadecimal code)로 표현될 수 있다. 각 확장 태그 코드들은 CTA 데이터 블록이 포함하는 확장 데이터 블록(extended data block)들을 타입에 따라 분류하기 위한 것이다. 표 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 오디오 재생 장치(600)의 재생 환경 정보는 EDID의 확장 태그 코드 21번에 대응하는 확장 데이터 블록에 "VR-AR 오디오 데이터 블록(VR/AR Audio data block)"을 포함할 수 있고, 확장 태그 코드 22번에 대응하는 확장 데이터 블록에 "개인 헤드 정보 데이터 블록(Personal Head Information Data Block)"을 포함할 수 있다. 확장 태그 코드 21번에 따른 확장 데이터 블록 및 확장 태그 코드 22번에 따른 확장 데이터 블록 중 적어도 하나를 통해 오디오 재생 장치(600)는 오디오 처리 장치(500)로 오디오 재생 장치(600)의 3차원 오디오 재생 환경 정보를 전달할 수 있고, 결과적으로 오디오 재생 장치(600)는 오디오 처리 장치(500)에서 생성된 오디오 신호를 기반으로 3차원 오디오, 즉 VR 오디오 또는 AR 오디오를 원활하게 재생할 수 있다.
표 2의 확장 태그 코드 21번에 대응하는 VR-AR 오디오 데이터 블록의 예시는 아래의 표 3과 같다.
Figure PCTKR2018011252-appb-T000003
표 3에서 첫 번째 바이트(byte)의 상위 3비트(bit)는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이(length)를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 3은 VR-AR 오디오 데이터 블록에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7(111)2을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 21(0x15)을 지시하고 있다.
3차원 가용 플래그는 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있는지 여부를 나타낼 수 있으며, VR/오디오 데이터 블록의 세 번째 바이트의 상위 네 번째 비트에 포함된 3DA는 3차원 가용 플래그의 일 예시에 해당할 수 있다. VR 컨텐츠 및 AR 컨텐츠를 포함한 3차원 오디오 컨텐츠를 오디오 재생 장치(600) 중 하나인 헤드폰을 통해 재생할 때 오디오 신호는 3차원 오디오 신호로 재생되며, 헤드 트래킹(head tracking) 기능도 지원되므로 공간상에 정의되는 음원의 위치는 사용자의 머리 회전과 무관하게 항상 동일할 수 있다. 따라서 3DA가 1을 지시하는 경우 헤드 트레킹이 지원되는 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있음을 의미하고, 3DA가 0을 지시하는 경우 헤드 트레킹이 지원되지 않아 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 없음을 의미할 수 있다.
일 실시예에 따른 VR-AR 오디오 데이터 블록에 포함된 3DA가 1을 지시하는 경우, VR-AR 오디오 데이터 블록의 세 번째 바이트는 추가로 DI1, DI0, EID(Environment Information Description) 및 PHD(Personal Head Description)을 포함할 수 있다.
3차원 오디오 신호 타입 정보는 3차원 오디오 신호가 처리되는 DoF(Degree of Freedom)를 나타낼 수 있으며, VR/오디오 데이터 블록의 세 번째 바이트의 상위 다섯번째 비트에 포함된 DI1 및 여섯번째 비트에 포함된 DI0는 3차원 오디오 신호 타입 정보의 일 예시에 해당할 수 있다. 3차원 오디오 신호 타입 정보의 일 예시는 아래의 표 4와 같다.
Figure PCTKR2018011252-appb-T000004
표 4에서 DI1 및 DI0이 0을 지시하는 경우, 즉 3차원 오디오 신호 타입 정보의 비트 값이 "00"을 지시하는 경우, 오디오 재생 장치(600)로부터 재생 환경 정보를 수신한 오디오 처리 장치(500)는 VR 오디오 비트스트림을 3DoF를 기반으로 처리할 수 있다. 마찬가지로, DI1이 0을 지시하고 DI0이 1을 지시하는 경우(즉 3차원 오디오 신호 타입 정보의 비트 값이 "01"을 지시하는 경우), 오디오 처리 장치(500)는 VR 오디오 비트스트림을 3DoF 보다 고차원의 DoF를 기반으로 처리할 수 있고, DI1이 1을 지시하고 DI0이 0을 지시하는 경우(즉 3차원 오디오 신호 타입 정보의 비트 값이 "10"을 지시하는 경우), 오디오 처리 장치(500)는 VR 오디오 비트스트림을 6DoF를 기반으로 처리할 수 있다. 즉, 3차원 오디오 신호 타입 정보의 비트 값이 "00", "01" 및 "10"인 경우는 VR 오디오 비트스트림이 처리될 때의 DoF에 관하여 나타내고 있다.
표 4에서 DI1 및 DI0이 1을 지시하는 경우, 즉 3차원 오디오 신호 타입 정보의 비트 값이 "11"을 지시하는 경우, 오디오 처리 장치(500)는 AR 오디오 비트스트림을 6DoF를 기반으로 처리할 수 있다.
표 3에서 VR-AR 오디오 데이터 블록의 세 번째 바이트의 하위 두 번째 비트에 포함된 EID는 공간 정보가 사용되는지 여부를 나타내는 플래그의 일 예시에 해당할 수 있고, VR-AR 오디오 데이터 블록의 세 번째 바이트의 하위 첫 번째 비트에 포함된 PHD는 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그의 일 예시에 해당할 수 있다.
사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그, 예를 들어 표 3의 PHD가 1을 지시하는 경우, 확장 데이터 블록은 사용자 헤드 정보 데이터 블록을 포함할 수 있다. 도 8b에서 전술한 바와 같이, 사용자 헤드 정보 데이터 블록은 사용자의 헤드 폭에 대한 정보 및 사용자의 귀의 특징 부위들의 길이에 대한 정보를 포함할 수 있으며, 사용자 헤드 정보 데이터 블록의 일 예시는 아래의 표 5와 같다.
Figure PCTKR2018011252-appb-T000005
표 3과 마찬가지로, 표 5를 통해 도시된 사용자 헤드 정보 데이터 블록의 일 예시에서도 첫 번째 바이트의 상위 3비트(bit)는 CTA 데이터 블록의 태그 코드를 의미하고, 하위 5비트는 해당 CTA 데이터 블록의 길이를 의미하며, 두 번째 바이트는 확장 데이터 블록의 확장 태그 코드를 의미할 수 있다. 표 5는 사용자 헤드 정보 데이터 블록에 대해 도시하고 있으므로, 첫 번째 바이트의 상위 3비트는 태그 코드 인덱스 7(111)2을 지시하고, 두 번째 바이트는 확장 태그 코드 인덱스 22(0x16)를 지시하고 있다.
도 8b에서 사용자의 헤드 폭에 대한 정보, 사용자의 귀의 특징 부위들의 길이 정보인 d1 내지 d8 및 사용자의 귀의 특징 부위들의 각도 정보인 θ1 및 θ2에 대해 전술한 바 있다. 표 5에서 사용자의 헤드 폭에 대한 정보는 HEAD로 표현되고, 사용자의 귀의 특징 부위들의 길이 정보는 PINN1 내지 PINN8로 표현되고, 사용자의 귀의 특징 부위들의 각도 정보는 PINN9 및 PINN10으로 표현된다. 표 5의 사용자 헤드 정보 데이터 블록의 세 번째 바이트인 DMAX는 HEAD, PINN1 내지 PINN8 중 가장 큰 값을 나타낸다. DMAX는 예를 들어 아래의 표 6과 같이 시그널링될 수 있다.
Figure PCTKR2018011252-appb-T000006
표 6을 참조하면, 상위 5비트는 I(Integer part)로 할당되고, 하위 3비트는 F(Fractional part)로 할당되고 있다. 따라서, 비트 조합에 따라 정수 부분은 0 내지 31의 양의 정수를 나타낼 수 있고, 소수 부분은 0, 1/8, 쪋 , 7/8을 나타낼 수 있다. DMAX를 통해 시그널링되는 정보의 길이 값의 단위는 센티미터(cm)로 간주될 수 있다.
사용자 헤드 정보 데이터 블록의 네 번째 바이트인 DIDX는 DMAX에 해당하는 정보의 인덱스를 나타낸다. 여기서 인덱스는, 예를 들어 HEAD가 0, PINN1 내지 PINN8이 각각 1 내지 8일 수 있다. DIDX는 사용자 헤드 정보 데이터 블록의 네 번째 바이트의 하위 4비트를 통해 표현될 수 있다.
사용자 헤드 정보 데이터 블록의 다섯번째 바이트부터 열다섯번째 바이트, 즉 HEAD, PINN1 내지 PINN10과 대응하는 값들은 각각 DMAX값으로 나누어진 후에 각 대응 바이트에서 8개의 비트들로 표현될 수 있다. HEAD, PINN1 내지 PINN10 중, 예를 들어 PINN1은 아래의 표 7과 같이 시그널링될 수 있다.
Figure PCTKR2018011252-appb-T000007
표 7을 참조하면, 상위 1비트는 I로 할당되고, 하위 7비트는 F로 할당되고 있다. 따라서, 비트 조합에 따라 정수 부분은 0 또는 1을 나타낼 수 있고, 소수 부분은 0, 1/128, 2/128, 쪋 , 127/128을 나타낼 수 있다. HEAD, PINN1 내지 PINN8을 DMAX로 나눈 값은 0 이상 1 이하의 실수이므로, 0, 1/128, 2/128, 쪋 , 127/128 중 HEAD, PINN1 내지 PINN8을 DMAX로 나눈 값과 가장 가까운 값이 각 바이트에 표시될 수 있다.
다시 표 3을 참조하면, 공간 정보가 사용되는지 여부를 나타내는 플래그, 예를 들어 EID가 1을 지시하는 경우, 확장 데이터 블록의 VR-AR 오디오 데이터 블록은 공간 정보를 포함할 수 있다. 도 8a에서 전술한 바와 같이, 공간 정보는 오디오 재생 장치(600)가 위치하는 공간(800)의 크기에 대한 정보, 오디오 재생 장치(600)가 위치하는 공간(800)을 구성하는 물질의 반사 계수에 관한 정보, 오디오 재생 장치(600)가 위치하는 공간(800) 내에서 사용자(810)의 위치에 대한 정보 및 사용자(810)가 응시하는(gazing) 방향에 대한 정보 중 적어도 하나를 포함할 수 있다. 공간 정보는 오디오 재생 장치(600) 자체적으로 획득(또는 추정)되거나, 또는 오디오 재생 장치(600)와 통신하는 적어도 하나의 센서를 기반으로 획득(또는 추정)될 수 있다. 또는, 공간 정보는 오디오 재생 장치(600)가 위치하는 공간(800) 내에 존재하는 적어도 하나의 센서로부터 수신된 정보를 기반으로 오디오 재생 장치(600)에서 산출될 수 있다. 공간 정보에 관한 VR-AR 오디오 데이터 블록의 일 예시는 아래의 표 8과 같다.
Figure PCTKR2018011252-appb-T000008
표 8에 도시된 공간 정보는 표 3의 VR-AR 오디오 데이터 블록의 9번째 바이트 내지 23번째 바이트에 위치할 수 있다. ROOMX, ROOMY 및 ROOMZ는 오디오 재생 장치(600)가 위치하는 공간(800)의 크기를 나타내기 위한 정보로, 공간이 정육면체로 구성되어 있다는 가정하에 X축, Y축 및 Z축 방향의 길이에 대하여 미터(m) 단위로 나타낸다. REFL, REFC, REFLWL, REFLWR, REFLWF, REFLWB는 각각 오디오 재생 장치(600)가 위치하는 공간(800)의 바닥, 천장, 왼쪽 벽, 오른쪽 벽, 정면 벽과 후면 벽의 반사 계수를 나타내기 위한 정보이다. 상기된 반사 계수를 나타내기 위한 정보는, 오디오 재생 장치(600)가 위치하는 공간(800)을 구성하는 물질의 재질 특성을 나타낸다고 해석할 수 있다. REFL, REFC, REFLWL, REFLWR, REFLWF, REFLWB 중, 예를 들어 REFL은 아래의 표 9와 같이 시그널링될 수 있다.
Figure PCTKR2018011252-appb-T000009
표 9를 참조하면, 상위 1비트는 I(정수 부분)로 할당되고, 하위 7비트는 F(소수 부분)로 할당되고 있다. 따라서, 비트 조합에 따라 정수 부분은 0 또는 1을 나타낼 수 있고, 소수 부분은 0, 1/128, 2/128, 쪋 , 127/128을 나타낼 수 있다. 반사 계수는 0 이상 1 이하의 실수이므로, 0, 1/128, 2/128, 쪋 , 127/128 중 REFL, REFC, REFLWL, REFLWR, REFLWF, REFLWB 각각과 가장 가까운 값이 각 바이트에 표시될 수 있다.
다시 표 8을 참조하면, 표 8에서 PX, PY 및 PZ는 오디오 재생 장치(600)가 위치하는 공간(800) 상에서 사용자(810)의 위치 정보를 의미하며, X축, Y축 및 Z축 방향의 좌표에 대하여 미터(m) 단위로 나타낸다. OY, OP 및 OR은 사용자(810)가 응시하는(gazing) 방향을 의미하며, Yaw축, Pitch축 및 Roll축 각각을 기준으로 한 1도 간격 단위의 각도 정보를 나타낸다.
다시 표 3을 참조하면, DI1이 1을 지시하고 DI0이 0을 지시하는 경우, 즉 3차원 오디오 신호 타입 정보의 비트 값이 "10"을 지시하여 VR 오디오 비트스트림이 6DoF를 기반으로 처리되는 경우, VR-AR 오디오 데이터 블록의 네 번째 바이트의 상위 네 번째 비트에 트레드밀(Treadmill)의 사용 여부를 나타내는 정보가 포함될 수 있다. 트레드밀의 사용 여부를 나타내는 정보는 표 3에 도시된 바와 같이 Treadmill로 표현될 수 있다. 트레드밀의 사용 여부를 나타내는 정보가 1을 지시하는 경우, 트레드밀 장치가 오디오 재생 장치(600)(예를 들어, HMD)와 연동될 수 있다. 트레드밀 장치가 오디오 재생 장치(600)와 연동되는 경우, 오디오 재생 장치(600)는 재생 공간에 구애 받지 않고 6DoF 기반의 오디오 컨텐츠를 재생할 수 있다.
표 3에서 DI1 및 DI0이 1을 지시하는 경우, 즉 3차원 오디오 신호 타입 정보의 비트 값이 "11"을 지시하여 AR 오디오 비트스트림이 6DoF를 기반으로 처리되는 경우, VR-AR 오디오 데이터 블록의 네 번째 바이트의 하위 4비트에는 AR 환경에서 마이크의 사용 여부를 나타내는 정보, 오디오 재생 장치(600)가 스테레오 (stereo) 마이크를 포함하는지 여부를 나타내는 정보, 오디오 재생 장치(600)에 포함된 마이크를 통해 수음된 음성의 가공 여부를 나타내는 정보 및 오디오 재생 장치(600)에 포함된 마이크의 방향 정보의 포함 여부를 나타내는 정보가 각각 포함될 수 있다.
일 실시예에서, 표 3에 도시된 바와 같이, AR 환경에서 마이크의 사용 여부를 나타내는 정보는 ARMIC로 표현되고, 오디오 재생 장치(600)가 스테레오 마이크를 포함하는지 여부를 나타내는 정보는 StereoMIC로 표현되고, 오디오 재생 장치(600)에 포함된 마이크를 통해 수음된 음성의 가공 여부를 나타내는 정보는 Direct로 표현되고, 오디오 재생 장치(600)에 포함된 마이크의 방향 정보의 유무를 나타내는 정보는 MD(Microphone Direction)로 표현될 수 있다.
ARMIC가 0을 지시하는 경우, 오디오 재생 장치(600)는 마이크를 사용하지 않는다. 예를 들어, ARMIC가 0을 지시하는 경우 오디오 재생 장치(600)는 오픈형 헤드폰 또는 스피커일 수 있다. 반면 ARMIC가 1을 지시하는 경우, 오디오 재생 장치(600)는 마이크를 통해 오디오 재생 장치(600)의 외부의 음성을 녹음 또는 획득할 수 있다. 예를 들어, 헤드폰 또는 이어폰에 장착된 마이크는 헤드폰 또는 이어폰의 외부의 음성을 녹음 또는 획득할 수 있다. ARMIC가 1을 지시하면 VR-AR 오디오 데이터 블록은 StereoMIC, Direct 및 MD 중 적어도 하나를 포함할 수 있다.
StereoMIC는 2채널(two channel)로 구성된 오디오 재생 장치(600)에 스테레오 마이크(stereo MIC)가 포함되는지 여부를 나타낼 수 있다. StereoMIC가 1을 지시하는 경우, 오디오 재생 장치(600)의 왼쪽 부분(left part)과 오른쪽 부분(right part) 양 쪽에 마이크가 포함 또는 장착되어 있을 수 있다. 예를 들어, StereoMIC가 1을 지시하는 경우, 헤드폰 또는 이어폰의 왼쪽 부분과 오른쪽 부분 양 쪽에 마이크가 포함 또는 장착되어 있을 수 있다. 반대로, StereoMIC가 0을 지시하는 경우, 오디오 재생 장치(600)의 왼쪽 부분과 오른쪽 부분 중 한 쪽에 마이크가 포함 또는 장착되어 있거나, 헤드폰의 밴드(여기서 헤드폰의 밴드는, 헤드폰의 왼쪽 부분과 오른쪽 부분을 연결하는 이음새를 의미할 수 있다) 중앙 부분에 포함 또는 장착되어 있을 수 있다.
AR 환경에서는 경우에 따라, 마이크를 통해 수음된 외부의 환경음 등을 신호 처리를 통해 가공할 필요가 있다. 예를 들어, 주변의 환경 잡음이 심한 환경에서 사용자가 오디오 재생 장치(600)를 통해 재생되는 AR 컨텐츠를 시청하는 경우, 사용자는 AR 컨텐츠의 AR 오디오와 주변의 환경 잡음을 동시에 듣게 되어 AR 컨텐츠에 대한 몰입도가 떨어질 수 있다. 이때 오디오 재생 장치(600)가 오디오 처리 장치(500)로, 마이크를 통해 수음된 외부의 환경음을 가공할 필요가 있음을 전달하는 경우, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음을 신호 처리를 통해 가공할 수 있다. Direct가 1을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음은 별도의 신호 처리 없이 그대로 출력되고, Direct가 0을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음은 오디오 처리 장치(500)에서 신호 처리를 통해 가공될 수 있다. 오디오 처리 장치(500)가 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음을 신호 처리를 통해 가공하는 동작은, 오디오 재생 장치(600)가 마이크를 통해 외부의 환경음을 수음하는 것과 동시에(simultaneously), 즉 실시간(real time)으로 수행될 수 있다.
MD가 1을 지시하는 경우 오디오 재생 장치(600)에 포함된 마이크의 방향 정보가 존재함을 의미할 수 있고, MD가 0을 지시하는 경우 오디오 재생 장치(600)에 포함된 마이크의 방향 정보가 존재하지 않음을 의미할 수 있다. StereoMIC가 1을 지시하는 경우(즉, MD와 StereoMIC가 모두 1을 지시하는 경우), 오디오 재생 장치(600)에 포함된 마이크의 방향 정보는 왼쪽 마이크의 방위각, 왼쪽 마이크의 고도각, 오른쪽 마이크의 방위각 및 오른쪽 마이크의 고도각을 포함할 수 있다. 반면에, StereoMIC가 0을 지시하는 경우(즉, MD는 1을 지시하고, StereoMIC는 0을 지시하는 경우), 오디오 재생 장치(600)에 포함된 마이크의 방향 정보는 마이크의 방위각 및 마이크의 고도각을 포함할 수 있다.
표 3을 참조하면, MD와 StereoMIC가 모두 1을 지시하는 경우, VR-AR 오디오 데이터 블록은 왼쪽 마이크의 방위각을 나타내는 AZIM1, 왼쪽 마이크의 고도각을 나타내는 ELEV1, 오른쪽 마이크의 방위각을 나타내는 AZIM2 및 오른쪽 마이크의 고도각을 나타내는 ELEV2를 포함할 수 있다. 반면에, MD는 1을 지시하고 StereoMIC는 0을 지시하는 경우, 오디오 재생 장치(600)는 마이크의 방위각을 나타내는 AZIM1 및 마이크의 고도각을 나타내는 ELEV1만을 포함할 수 있다.
오디오 재생 장치(600)는 오디오 처리 장치(500)로 오디오 재생 장치(600)에 포함된 마이크의 방향 정보를 전송할 수 있고, 오디오 처리 장치(500)는 오디오 비트스트림(또는 오디오 신호)을 처리할 때 오디오 재생 장치(600)에 포함된 마이크의 방향 정보를 기반으로 마이크를 통해 수음된 음성의 게인(gain)을 조절함으로써 사용자에게 보다 자연스러운 3차원 오디오 컨텐츠를 제공할 수 있다.
한편, 멀티 유저 환경(multi-user environment)은 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 환경을 의미할 수 있다. 표 3에 도시된 VR-AR 오디오 데이터 블록은 멀티 유저 환경과 관련하여 MU, Master, User Count, MUMAX1, MUMAX2 및 MUMAX3에 관하여 도시하고 있다. 멀티 유저 환경과 관련한 보다 구체적인 설명은 도 12에서 후술하기로 한다.
단계 910에서, 오디오 처리 장치(500)는 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성할 수 있다. 예를 들어, 오디오 처리 장치(500)는 재생 환경 정보를 기반으로 오디오 비트스트림을 복호화하고, 복호화된 오디오 비트스트림을 렌더링하여 오디오 신호를 생성할 수 있다.
오디오 신호는 인간의 청각기관을 통하여 인지될 수 있는 신호를 의미하는 넓은 개념이므로, 본 명세서에 기재된 "오디오 신호"가 특정 처리 과정이 완료된 후의 신호만을 의미하는 것이 아니라, 오디오 비트스트림이 오디오 처리 장치(500)에서 처리되어 사용자의 귀에 오디오 컨텐츠로서 전달되는 과정 하에서 중간에 생성되는 모든 신호를 의미할 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.
단계 920에서, 오디오 처리 장치(500)는 생성된 오디오 신호의 특징 정보를 포함하는 인포프레임을 생성할 수 있다. 인포프레임의 예시는 아래의 표 10과 같다.
Figure PCTKR2018011252-appb-T000010
표 10의 상위 3바이트는 인포프레임의 타입을 식별하는 코드, 인포프레임의 버전 및 인포프레임의 길이를 각각 나타내고 있다. 생성된 오디오 신호의 특징 정보는 인포프레임의 데이터 바이트(data byte) 10 내지 데이터 바이트 15에 포함될 수 있다.
데이터 바이트 10의 상위 첫 번째 비트의 VRA는, EDID에 포함된 VR-AR 오디오 데이터 블록의 3DA와 동일한 의미를 가질 수 있다. 다시 말해, VRA는 3차원 가용 플래그의 일 예시로서 3차원 오디오 신호를 오디오 재생 장치(600)가 재생할 수 있는지 여부를 나타낼 수 있다. 따라서, VRA가 1을 지시하는 경우 오디오 재생 장치(600)는 3차원 오디오 신호를 재생할 수 있고, VRA가 0을 지시하는 경우 오디오 재생 장치(600)는 3차원 오디오 신호를 재생할 수 없음을 의미할 수 있다. 일 예시에서, EDID의 VR-AR 오디오 데이터 블록의 3DA와, EDID를 기반으로 생성된 인포프레임의 VRA는 동일한 정보를 지시할 수 있다.
일 실시예에 따른 인포프레임에 포함된 VRA가 1을 지시하는 경우, 인포프레임은 3차원 오디오 신호 타입 정보인 DI1 및 DI0, 그리고 3차원 오디오 신호를 재생하는 오디오 재생 장치(600)가 헤드폰인지 또는 스피커인지 여부를 나타내는 정보의 일 예인 HP를 추가로 포함할 수 있다.
HP가 1을 지시하는 경우 3차원 오디오 신호를 재생하는 오디오 재생 장치(600)는 헤드폰일 수 있고, HP가 0을 지시하는 경우 3차원 오디오 신호를 재생하는 오디오 재생 장치(600)는 헤드폰이 아닌 재생 장치일 수 있다. 헤드폰이 아닌 재생 장치에는, 예를 들어 스피커가 있다. 즉, HP가 0을 지시하는 경우, 3차원 오디오 신호를 재생하는 오디오 재생 장치(600)는 스피커일 수 있다. HP가 0을 지시하여 오디오 재생 장치(600)가 스피커인 경우, 인포프레임은 스피커가 위치하는 공간에서 발생 가능한 오디오 신호 왜곡을 상쇄하기 위한 응답 신호가 생성되는지 여부를 나타내는 정보를 포함할 수 있다. 스피커가 위치하는 공간에서 발생 가능한 오디오 신호 왜곡을 상쇄하기 위한 응답 신호가 생성되는지 여부를 나타내는 정보는, 예를 들어 VREQ로 표현될 수 있다. 만약 HP가 0을 지시하고 VREQ가 1을 지시하는 경우, 오디오 처리 장치(500)는 EDID를 통해 획득된 공간 정보를 기반으로 오디오 신호 왜곡을 상쇄하기 위한 응답 신호를 생성하고, 생성된 응답 신호를 3차원 오디오 신호를 처리하는 과정에서 적용할 수 있다.
표 10에서 DI1 및 DI0이 1을 지시하는 경우, 즉 3차원 오디오 신호 타입 정보의 비트 값이 "11"을 지시하여 AR 오디오 비트스트림이 6DoF를 기반으로 처리되는 경우, 인포프레임은 오디오 처리 장치(500)가 오디오 재생 장치(600)의 마이크에서 수음된 음성의 비트스트림을 오디오 비트 스트림과 함께 처리할 지 여부를 나타내는 정보인 MIC_On을 포함할 수 있다. MIC_On이 0을 지시하는 경우 오디오 재생 장치(600)의 마이크에서 수음된 음성의 비트스트림은 오디오 비트 스트림과 함께 처리되지 않고, MIC_On이 1을 지시하는 경우 오디오 재생 장치(600)의 마이크에서 수음된 음성의 비트스트림은 오디오 비트 스트림과 함께 처리될 수 있다. MIC_On이 1을 지시하는 경우, 오디오 재생 장치(600)에 포함된 마이크를 통해 수음된 음성의 가공 여부를 나타내는 정보인 Direct와, 오디오 재생 장치(600)에 포함된 마이크를 통해 수음된 음성의 비트스트림이 스테레오인지 여부를 나타내는 정보인 Stereo가 인포프레임에 추가로 포함될 수 있다.
일 실시예에서, 표 10의 Direct가 1을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음은 별도의 신호 처리 없이 그대로 출력되고, Direct가 0을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음은 오디오 처리 장치(500)에서 신호 처리를 통해 가공될 수 있다. 오디오 처리 장치(500)가 오디오 재생 장치(600)의 마이크를 통해 수음된 외부의 환경음을 신호 처리를 통해 가공하는 동작은, 오디오 재생 장치(600)가 마이크를 통해 외부의 환경음을 수음하는 것과 동시에(simultaneously), 즉 실시간(real time)으로 수행될 수 있다.
일 실시예에서, 표 10의 Stereo가 0을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 음성의 비트스트림이 모노(mono)로 수음되었음을 의미하고, Stereo가 1을 지시하는 경우 오디오 재생 장치(600)의 마이크를 통해 수음된 음성의 비트스트림이 스테레오로 수음되었음을 의미할 수 있다.
한편, 표 10에 도시된 인포프레임의 데이터 바이트 11에 포함된 MU_On, User Count, All_Active 및 Diegetic은 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 멀티 유저 환경에 관한 정보이다. 멀티 유저 환경에 관한 정보에 대한 보다 구체적인 설명은 도 12에서 후술하기로 한다.
단계 930에서, 오디오 처리 장치는 생성된 오디오 신호 및 생성된 인포프레임을 오디오 재생 장치로 전송할 수 있다.
도 9에서 설명된 오디오 처리 장치(500)의 동작 방법에 따르면, 오디오 재생 장치(600)로부터 수신한(단계 900) 오디오 재생 장치(600)의 3차원 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 3차원 오디오 신호를 생성하고(단계 910), 오디오 비트스트림을 처리하는 과정에서 획득된 3차원 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있으며(단계 920), 생성된 3차원 오디오 신호 및 생성된 인포프레임을 오디오 재생 장치로 전송(단계 930)할 수 있다. 즉, 오디오 처리 장치(500)의 동작 방법에 따르면 오디오 재생 장치(600)와 3차원 오디오 데이터를 상호 송수신하면서, 오디오 재생 장치(600)가 3차원 오디오 컨텐츠를 보다 원활히 재생할 수 있도록 하는 3차원 오디오 신호를 생성할 수 있다.
도 10은 일 실시예에 따른 오디오 재생 장치가 오디오 데이터를 재생하는 과정을 도시하는 흐름도이다.
도 10에 개시된 각 단계는 도 6에 개시된 오디오 재생 장치(600)에 의하여 수행될 수 있다. 구체적으로 예를 들어, 도 10의 단계 1000은 오디오 재생 장치(600)의 메타데이터 처리부(610)에 의하여 수행될 수 있고, 단계 1010은 오디오 재생 장치(600)의 전송부(620)에 의하여 수행될 수 있고, 단계 1020은 오디오 재생 장치(600)의 수신부(630)에 의하여 수행될 수 있고, 단계 1030은 오디오 재생 장치(600)의 재생부(640)에 의하여 수행될 수 있다. 따라서, 도 10의 각 단계를 설명함에 있어서, 도 6에서 전술된 내용과 중복되는 구체적인 내용은 설명을 생략하거나 간단히 하기로 한다.
더불어, 도 9에서 오디오 처리 장치(500)와 오디오 재생 장치(600) 상호 간에 송수신하는 오디오 데이터, 예를 들어 오디오 재생 장치(600)의 재생 환경 정보 및 인포프레임에 관하여 구체적으로 전술한 바 있으므로, 도 10에서는 오디오 처리 장치(500)와 오디오 재생 장치(600) 상호 간에 송수신하는 오디오 데이터에 관한 구체적인 설명은 생략하거나 간단히 하기로 한다.
단계 1000에서, 오디오 재생 장치(600)는 오디오 재생 장치(600)의 재생 환경 정보를 수집할 수 있다. 보다 구체적으로, 오디오 재생 장치(600)의 메타데이터 처리부(610)는 오디오 재생 장치(600)의 메모리(도 6에 도시되지 않음)에 내장되어 있는 오디오 재생 장치(600)의 재생 환경 정보를 수집할 수 있다. 재생 환경 정보는 예를 들어 EDID를 포함할 수 있으나, 재생 환경 정보가 포함하는 대상은 EDID에 한정되지 않는다.
단계 1010에서, 오디오 재생 장치(600)는 수집된 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있다. 보다 구체적으로, 오디오 재생 장치(600)의 전송부(620)는 재생 환경 정보를 메타데이터 처리부(610)로부터 전달 받은 후 오디오 처리 장치(500)로 전송할 수 있다.
단계 1020에서, 오디오 재생 장치(600)는 재생 환경 정보를 기반으로 오디오 처리 장치(500)가 오디오 비트스트림을 처리하여 생성된 오디오 신호 및 생성된 오디오 신호의 특징 정보를 기반으로 오디오 처리 장치(500)에서 생성된 인포프레임을 오디오 처리 장치(500)로부터 수신할 수 있다. 보다 구체적으로, 오디오 재생 장치(600)의 수신부(630)는 오디오 처리 장치(500)의 전송부(540)로부터 오디오 비트스트림을 처리하여 생성된 오디오 신호 및 생성된 오디오 신호의 특징 정보를 기반으로 오디오 처리 장치(500)에서 생성된 인포프레임을 수신할 수 있다.
이때, 오디오 처리 장치(500)에서 생성된 오디오 신호 및 인포프레임은 오디오 처리 장치(500)에서 오디오 재생 장치(600)로 동시에 전송될 수 있다. 다만 실시예는 이에 한정되지 않으며, 예를 들어 생성된 오디오 신호가 먼저 전송되거나, 또는 생성된 인포프레임이 먼저 전송될 수도 있다.
단계 1030에서, 오디오 재생 장치는 인포프레임을 기반으로, 수신된 오디오 신호를 재생할 수 있다. 보다 구체적으로, 인포프레임은 메타데이터 처리부(610)에서 판독될 수 있고, 인포프레임을 판독하여 획득된 정보는 메타데이터 처리부(610)에서 재생부(640)로 전달될 수 있으며, 재생부(640)는 인포프레임을 판독하여 획득된 정보를 기반으로, 수신된 오디오 신호를 재생할 수 있다. 다만, 재생부(640)가 오디오 신호를 재생하는 방법은 이에 한정되지 않으며, 예를 들어 재생부(640)는 수신부(630)로부터 오디오 신호 및 인포프레임 모두를 곧바로 전달받은 후, 인포프레임을 기반으로 오디오 신호를 재생할 수도 있다.
도 10에서 설명된 오디오 재생 장치(600)의 동작 방법에 따르면, 오디오 재생 장치(600)의 3차원 오디오 재생에 관한 정보를 포함하는 재생 환경 정보를 수집하여(단계 1000) 오디오 처리 장치(500)로 전송(단계 1010)할 수 있고, 재생 환경 정보를 기반으로 오디오 처리 장치(500)에 의해 생성된 3차원 오디오 신호 및 생성된 인포프레임을 오디오 처리 장치(500)로부터 수신(단계 1020)할 수 있다. 즉, 오디오 재생 장치(600)는 오디오 처리 장치(500)와 3차원 오디오 데이터를 상호 송수신하면서, 3차원 오디오 컨텐츠를 오디오 재생 장치(600)의 3차원 오디오 재생 환경에 맞추어 보다 원활히 재생(단계 1030)할 수 있다.
도 11a 및 도 11b는 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치가 오디오 데이터를 송수신하는 과정을 도시하는 흐름도이다.
도 11a 및 도 11b에서, 도 9 및 도 10에 대한 설명과 중복되는 내용은 설명을 생략하거나 간단히 하기로 한다. 보다 구체적으로 예를 들면, 단계 1115에 따른 오디오 재생 장치(600)의 동작은 도 10의 단계 1000에 따른 오디오 재생 장치(600)의 동작과 대응되고, 단계 1120에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)의 동작은 도 9의 단계 900에 따른 오디오 처리 장치(500)의 동작 및 도 10의 단계 1010에 따른 오디오 재생 장치(600)의 동작과 대응되고, 단계 1145 내지 단계 1155에 따른 오디오 처리 장치(500)의 동작은 도 9의 단계 910 내지 단계 930에 따른 오디오 처리 장치(500)의 동작과 대응되고, 단계 1155 및 단계 1165에 따른 오디오 재생 장치(600)의 동작은 도 10의 단계 1020 및 단계 1030에 따른 오디오 재생 장치(600)의 동작과 대응되므로, 중복되는 상세한 설명은 생략하기로 한다.
단계 1105에서, 오디오 처리 장치(500)와 오디오 재생 장치(600)가 상호 연결될 수 있다. 보다 구체적으로, 오디오 재생 장치(600)는 오디오 처리 장치(500)의 핫 플러그 디텍트 라인(hot plug detect line)에 하이 레벨의 전압을 인가함으로써 오디오 처리 장치(500)와 상호 연결될 수 있다.
단계 1110에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보를 요청할 수 있다. 예를 들어, 오디오 처리 장치(500)는 DDC를 통해 오디오 재생 장치(600)에게 EDID를 요청할 수 있다.
단계 1115에서, 오디오 재생 장치(600)는 재생 환경 정보를 수집할 수 있다.
단계 1120에서, 오디오 재생 장치(600)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있다. 예를 들어, 오디오 재생 장치(600)는 EDID를 DDC를 통해 오디오 처리 장치(500)로 전송할 수 있다.
단계 1125에서, 오디오 처리 장치(500)는 외부로부터 오디오 재생 요청을 획득할 수 있다. 예를 들어, 오디오 처리 장치(500)는 사용자 인터페이스(UI)를 통해 사용자로부터 오디오 재생 요청을 획득할 수 있다. 다만 예시는 이에 한정되지 않는다. 다른 예에서, 오디오 처리 장치(500)는 외부의 오디오 처리 장치로부터 오디오 재생 요청 신호를 수신하거나, 오디오 재생 장치(600)로부터 오디오 재생 요청 신호를 수신하거나, 또는 네트워크망/방송망으로부터 오디오 재생 요청 신호를 수신할 수 있다.
단계 1130에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보에 기초하여, 오디오 재생 장치(500)가 외부로부터 요청된 오디오 재생을 수행할 수 있는지 여부를 판단할 수 있다.
단계 1135에서는 오디오 재생 장치(600)가 외부로부터 요청된 오디오 재생을 수행할 수 있는지 여부를 판단한 결과에 따라, 오디오 재생 프로세스를 종료하거나 단계 1140으로 진행할 수 있다.
오디오 재생 장치(600)가 외부로부터 요청된 오디오 재생을 수행할 수 있다고 판단된 경우, 단계 1140에서 오디오 처리 장치(500)는 오디오 비트스트림을 판독(read)할 수 있다.
단계 1145에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성할 수 있다.
단계 1150에서, 오디오 처리 장치(500)는 생성된 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있다.
단계 1155에서, 오디오 처리 장치(500)는 생성된 오디오 신호 및 생성된 인포프레임을 오디오 재생 장치(600)로 전송할 수 있다.
단계 1160에서, 오디오 재생 장치(600)는 인포프레임을 판독할 수 있다.
단계 1165에서, 오디오 재생 장치(600)는 인포프레임을 기반으로, 수신된 오디오 신호를 재생할 수 있다.
도 12a 및 도 12b는 일 실시예에 따른 오디오 처리 장치 및 오디오 재생 장치가 멀티 유저 환경에서 오디오 데이터를 송수신하는 과정을 도시하는 흐름도이다.
도 12a 및 도 12b에서, 도 9 내지 도 11b에 대한 설명과 중복되는 내용은 설명을 생략하거나 간단히 하기로 한다. 보다 구체적으로 예를 들면, 단계 1205에 따른 오디오 재생 장치(600)의 동작은 도 11a의 단계 1105에 따른 오디오 재생 장치(600)의 동작과 대응되고, 단계 1210에 따른 오디오 처리 장치(500)의 동작은 도 11a의 단계 1110에 따른 오디오 처리 장치(500)의 동작과 대응되고, 단계 1215에 따른 오디오 재생 장치(600)의 동작은 도 10의 단계 1000에 따른 오디오 재생 장치(600)의 동작과 대응되고, 단계 1220에 따른 오디오 처리 장치(500) 및 오디오 재생 장치(600)의 동작은 도 9의 단계 900에 따른 오디오 처리 장치(500)의 동작 및 도 10의 단계 1010에 따른 오디오 재생 장치(600)의 동작과 대응되고, 단계 1225 내지 단계 1240에 따른 오디오 처리 장치(500)의 동작은 도 11a 및 도 11b의 단계 1125 내지 단계 1140에 따른 오디오 처리 장치(500)의 동작과 대응되고, 단계 1270에 따른 오디오 처리 장치(500)의 동작은 도 9의 단계 930에 따른 오디오 처리 장치(500)의 동작과 대응되고, 단계 1275 및 단계 1280에 따른 오디오 재생 장치(600)의 동작은 도 10의 단계 1020 및 단계 1030에 따른 오디오 재생 장치(600)의 동작과 대응되므로, 중복되는 상세한 설명은 생략하기로 한다.
단계 1205에서, 오디오 처리 장치(500)와 오디오 재생 장치(600)가 상호 연결될 수 있다.
단계 1210에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보를 요청할 수 있다.
단계 1215에서, 오디오 재생 장치(600)는 재생 환경 정보를 수집할 수 있다.
단계 1220에서, 오디오 재생 장치(600)는 오디오 재생 장치(600)의 재생 환경 정보를 오디오 처리 장치(500)로 전송할 수 있다.
단계 1225에서, 오디오 처리 장치(500)는 외부로부터 오디오 재생 요청을 획득할 수 있다.
단계 1230에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보에 기초하여, 오디오 재생 장치(500)가 외부로부터 요청된 오디오 재생을 수행할 수 있는지 여부를 판단할 수 있다.
단계 1235에서는 오디오 재생 장치(600)가 외부로부터 요청된 오디오 재생을 수행할 수 있는지 여부를 판단한 결과에 따라, 오디오 재생 프로세스를 종료하거나 단계 1240으로 진행할 수 있다.
오디오 재생 장치(600)가 외부로부터 요청된 오디오 재생을 수행할 수 있다고 판단된 경우, 단계 1240에서 오디오 처리 장치(500)는 오디오 비트스트림을 판독(read)할 수 있다.
단계 1260에서, 오디오 처리 장치(500)는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 오디오 비트스트림 및 멀티 유저 비트스트림을 처리하여 오디오 신호를 생성할 수 있다. 보다 구체적으로, 도 7에서 전술한 바와 같이, 일 실시예에 따른 오디오 처리 장치(500)의 오디오 디코더(532)는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 오디오 비트스트림을 복호화할 수 있고, 일 실시예에 따른 오디오 처리 장치(500)의 멀티 유저 오디오 디코더는 오디오 재생 장치(600)의 재생 환경 정보를 기반으로 멀티 유저 오디오 비트스트림을 복호화할 수 있다. 일 실시예에 따른 오디오 처리 장치(500)의 렌더러(534)는, 오디오 디코더(532)에서 처리된 오디오 신호와 멀티 유저 오디오 디코더에서 처리된 오디오 신호를 합성하여 렌더링할 수 있다.
일 실시예에 따른 오디오 재생 장치(600)의 재생 환경 정보는, 도 9의 표 3에 도시된 바와 같이 VR-AR 오디오 데이터 블록에 멀티 유저 환경과 관련된 정보인 MU, User Count, MUMAX1, MUMAX2 및 MUMAX3를 포함할 수 있다. 아래의 표 11을 통해 멀티 유저 환경과 관련된 정보에 대하여 보다 구체적으로 검토하기로 한다.
Figure PCTKR2018011252-appb-T000011
표 11에서 MU는 멀티 유저 환경인지 여부를 나타내는 정보이다. 다시 말해, 표 11의 MU는 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는지 여부를 나타내는 멀티 유저 플래그의 일 예시에 해당할 수 있다. MU가 0을 지시하는 경우, 오디오 처리 장치(500)와 오디오 재생 장치(600)가 일대일로 오디오 데이터를 송수신하는 싱글 유저 환경일 수 있다. 반면에, MU가 1을 지시하는 경우, 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 멀티 유저 환경일 수 있다. MU가 1을 지시하는 경우, VR-AR 오디오 데이터 블록은 Master, User Count, MUMAX1, MUMAX2 및 MUMAX3를 추가로 포함할 수 있다.
표 11에서 Master는, 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 멀티 유저 환경에서 오디오 재생 장치(600)가 마스터 장치인지 여부를 나타내는 정보이다. 다시 말해, Master는 오디오 재생 장치(600)가 서브 장치인 적어도 하나의 오디오 재생 장치와 통신하는 마스터 장치인지 여부를 나타내는 플래그의 일 예시에 해당할 수 있다. Master가 0을 지시하는 경우, 오디오 재생 장치(600)는 멀티 유저 환경과 관련된 정보를 오디오 재생 장치(600)의 재생 환경 정보에 포함시켜 오디오 처리 장치(500)로 전송할 필요가 없다. 반면에, Master가 1을 지시하는 경우, 오디오 재생 장치(600)는 멀티 유저 환경과 관련된 정보를 오디오 재생 장치(600)의 재생 환경 정보에 포함시켜 오디오 처리 장치(500)로 전송해야 한다. 멀티 유저 환경과 관련된 정보에는, 예를 들어 User Count, MUMAX1, MUMAX2 및 MUMAX3와, 후술되는 각 멀티 유저의 위치 정보가 있을 수 있다.
표 11에서 User Count는, 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 멀티 유저 환경에서, 오디오 재생 장치(600)와 상기 적어도 하나의 오디오 재생 장치의 총 수를 의미할 수 있다. 다시 말해, User Count는 동일한 오디오 컨텐츠를 동시에 이용하는 사용자들의 총 수를 의미할 수 있다. 표 11을 참조하면 User Count를 나타내기 위해 5비트를 사용하므로, 총 32명의 멀티 유저가 User Count를 통해 표현될 수 있다.
표 11에서 MUMAX1을 통해 표현되는 MU_Xmax는 멀티 유저들의 X축 위치 정보 값들 중 가장 큰 값을 나타내고, MUMAX2를 통해 표현되는 MU_Ymax는 멀티 유저들의 Y축 위치 정보 값들 중 가장 큰 값을 나타내고, MUMAX3을 통해 표현되는 MU_Zmax는 멀티 유저들의 Z축 위치 정보 값들 중 가장 큰 값을 나타낼 수 있다. MUMAX1, MUMAX2 및 MUMAX3 각각에는 8비트가 할당되어 최대 256까지 표현될 수 있으며, 단위는 미터(meter)가 될 수 있다. MU_Xmax, MU_Ymax 및 MU_Zmax는 각 멀티 유저들의 위치 정보를 보다 효율적으로 표기하기 위하여 사용될 수 있다.
각 멀티 유저들의 위치 정보, 보다 구체적으로 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치 및 오디오 재생 장치(600) 각각의 위치에 관한 정보는, 예를 들어 아래의 표 12와 같이 표현될 수 있다.
Figure PCTKR2018011252-appb-T000012
표 12는 제1 사용자(User1)와 제2 사용자(User2)의 위치 정보에 관해 도시하고 있다. 제1 사용자를 기준으로 검토하면, User ID는 제1 사용자의 식별 정보를 의미하고, U1_X는 제1 사용자의 X축 위치 정보 값을 의미하고, U1_Y는 제1 사용자의 Y축 위치 정보 값을 의미하고, U1_Z는 제1 사용자의 Z축 위치 정보 값을 의미할 수 있다.
한편, 전술한 바에 따르면, 오디오 재생 장치(600)가 마스터 장치인 경우에만 오디오 재생 장치(600)의 재생 환경 정보에 멀티 유저 환경에 관한 정보를 포함할 수 있다. 따라서, 표 12를 기반으로 한 실시예에 따르면, 각 멀티 유저의 위치 정보는 마스터 장치인 오디오 재생 장치(600)의 재생 환경 정보에 포함되어 오디오 재생 장치(600)로부터 오디오 처리 장치(500)로 전송될 수 있다. 이와 같이, 하나의 오디오 처리 장치(500)와 복수의 오디오 재생 장치가 통신하는 상황에서 복수의 오디오 재생 장치 각각이 각 멀티 유저의 위치 정보를 전송하지 않고 마스터 장치인 오디오 재생 장치가 모든 멀티 유저의 위치 정보를 전송함으로써, 멀티 유저 환경에서 데이터 전송의 효율을 높일 수 있다. 다만, 실시예가 반드시 이에 한정되는 것은 아니며, 경우에 따라서는 복수의 오디오 재생 장치 각각이 각 멀티 유저의 위치 정보를 전송할 수도 있다.
표 12는 멀티 유저 환경에서 멀티 유저가 2명이 존재하는 것을 가정하였으나, 전술한 User Count의 최대값이 32이므로, 최대 32명의 멀티 유저의 위치 정보가 표 12와 유사한 방법으로 나타날 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다. 또한, 표 12는 각 멀티 유저의 위치 정보를 XYZ 좌표계를 이용하여 나타내고 있으나 실시예는 이에 한정되지 않으며, 각 멀티 유저의 위치 정보가 극 좌표계(polar coordinate) 등 다양한 좌표계를 통하여 나타날 수 있음은 당해 기술 분야의 통상의 기술자에게 용이하게 이해될 것이다.
표 12와 같은 각 멀티 유저의 위치 정보는 VR-AR 오디오 데이터 블록의 최하위 바이트들에 위치할 수 있다. 예를 들어, 표 12와 같은 각 멀티 유저의 위치 정보는 표 3의 VR-AR 오디오 데이터 블록의 ELEV2의 하단부터 위치할 수 있다. 다만 실시예는 반드시 이에 한정되지 않으며, 예를 들어 각 멀티 유저의 위치 정보는 확장 데이터 블록 중 하나에 별도로 포함되어 오디오 재생 장치(600)에서 오디오 처리 장치(500)로 전송(또는 시그널링)될 수 있다.
각 멀티 유저의 위치 정보, 예를 들어 제1 사용자의 위치 정보인 U1_X, U1_Y 및 U1_Z는 사용자의 초기 위치 값을 기준으로 하는 상대적인 위치 값으로서, 예를 들어 아래의 표 13과 같이 표현될 수 있다.
Figure PCTKR2018011252-appb-T000013
표 13에서 S는 부호(Sign)를 의미하며, 플러스(plus) 또는 마이너스(minus)를 지시할 수 있다. I는 정수 부분을 의미하고, F는 소수 부분을 의미할 수 있다. I에 1비트가 할당되므로 정수 부분은 0 또는 1을 나타낼 수 있고, F에 6비트가 할당되므로, 소수 부분은 0, 1/64, 쪋 , 63/64로 나타낼 수 있다. 표 13에 따르면, U1_X는 실수 -63/64, -62/64, 쪋 , 0, 1/64, 쪋 , 63/64을 나타낼 수 있다. 표 13에 따른 U1_X의 값은 정규화(normalization)된 값으로서, 표 11의 MU_Xmax의 값과 곱해지면 제1 사용자의 X축 위치 정보가 획득될 수 있다. 마찬가지로, U1_Y의 값과 MU_Ymax의 값이 곱해지면 제1 사용자의 Y축 위치 정보가 획득될 수 있고, U1_Z의 값과 MU_Zmax의 값이 곱해지면 제1 사용자의 Z축 위치 정보가 획득될 수 있다.
단계 1265에서, 오디오 처리 장치(500)는 생성된 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성할 수 있다.
도 9의 표 10에 따른 인포프레임에서 멀티 유저 환경과 관련된 정보를 보다 구체적으로 검토하기 위해 아래의 표 14를 참조하기로 한다.
Figure PCTKR2018011252-appb-T000014
일 실시예에서, 인포프레임은 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하고, 오디오 신호를 처리함에 있어서 오디오 재생 장치(600) 및 상기 적어도 하나의 오디오 재생 장치의 마이크(MIC)들을 통해 녹음된 음성에 기반하여 획득된 멀티 유저 비트스트림(multi-user bitstream)이 사용되는지 여부를 나타내는 멀티 유저 비트 스트림 플래그(multi-user bitstream flag)를 포함할 수 있다. 멀티 유저 비트스트림 플래그는, 표 14에 도시된 바와 같이 MU_On으로 표현될 수 있다.
MU_On이 0을 지시하는 경우 멀티 유저 환경에 관한 정보는 인포프레임에 포함되지 않을 수 있고, MU_On이 1을 지시하는 경우 멀티 유저 환경에 관한 정보는 인포프레임에 포함될 수 있다. 보다 구체적으로, MU_On이 1을 지시하는 경우, 표 14에 도시된 User Count, All_Active, Diegetic 및 멀티 유저의 ID 정보가 인포프레임에 포함될 수 있다.
일 실시예에서, 표 14의 User Count는 멀티 유저 환경에서 오디오 처리 장치(500)와 통신하는 멀티 유저의 수를 의미할 수 있다. 다시 말해, User Count는 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는 멀티 유저 환경에서, 오디오 재생 장치(600)와 상기 적어도 하나의 오디오 재생 장치의 총 수를 의미할 수 있다. 표 14를 참조하면 User Count를 나타내기 위해 5비트를 사용하므로, 총 32명의 멀티 유저가 User Count를 통해 표현될 수 있다. User Count를 나타내기 위해 5비트를 사용하는 것은 표 11의 VR-AR 오디오 데이터 블록에서 User Count를 나타내기 위해 5비트를 사용하는 것과 일치한다. 다만 실시예가 이에 한정되는 것은 아니며, User Count는 5비트 이외의 비트를 통해서도 표현될 수 있다.
일 실시예에서, 표 14의 All_Active는 오디오 처리 장치(500)가 오디오 비트스트림을 처리할 때, 오디오 처리 장치(500)가 획득한 멀티 유저 비트스트림 모두를 오디오 비트스트림에 합성한 지 여부를 나타낼 수 있다. 다시 말해, All_Active는 오디오 처리 장치(500)가 오디오 비트스트림을 처리함에 있어서 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보를 나타내는 일 예시에 해당할 수 있다. All_Active가 1을 지시하는 경우, 오디오 처리 장치(500)가 오디오 비트스트림을 처리할 때 User Count에 포함된 모든 멀티 유저에 의한 멀티 유저 비트스트림을 오디오 비트스트림에 합성했음을 의미할 수 있다. 반대로, All_Active가 0을 지시하는 경우, 오디오 처리 장치(500)가 오디오 비트스트림을 처리할 때 User Count에 포함된 모든 멀티 유저에 의한 멀티 유저 비트스트림을 오디오 비트스트림에 합성하지는 않았음을 의미할 수 있다.
일 실시예에서, 표 14의 All_Active가 0을 지시하는 경우, 인포프레임은 오디오 처리 장치(500)가 오디오 비트스트림을 처리함에 있어서 오디오 처리 장치(500) 및 오디오 재생 장치(600)와 통신하는 적어도 하나의 오디오 재생 장치 및 오디오 재생 장치(600) 각각과 대응하는 멀티 유저 비트스트림 각각이 사용되는지 여부에 대한 정보를 포함할 수 있다. 보다 구체적으로, 표 14를 참조하면, All_Active가 0을 지시하는 경우 인포프레임은 UID00 내지 UID32 중 일부를 User Count의 값을 기반으로 포함할 수 있다. 예를 들어, User Count의 값이 5인 경우, 인포프레임은 UID00 내지 UID04를 포함할 수 있다.
UIDXX(여기서 XX는 00 내지 32 중 어느 하나의 정수를 의미할 수 있다)는 멀티 유저 각각을 나타낼 수 있고, UIDXX가 1을 지시하는 경우엔 해당 멀티 유저의 멀티 유저 비트스트림이 오디오 비트스트림에 합성됨을 의미할 수 있으며, UIDXX가 0을 지시하는 경우엔 해당 멀티 유저의 멀티 유저 비트스트림이 오디오 비트스트림에 합성되지 않음을 의미할 수 있다. 한편, 본 실시예에서는 표 14의 All_Active가 0을 지시하는 경우에만 UIDXX(여기서 XX는 00 내지 32 중 어느 하나의 정수를 의미할 수 있다)가 인포프레임에 포함되는 것으로 설명하였으나, 이에 한정되는 것은 아니다. 예를 들어, All_Active가 지시하는 정보와는 관련 없이, 인포프레임은 UIDXX(여기서 XX는 00 내지 32 중 어느 하나의 정수를 의미할 수 있다)를 포함할 수 있다.
일 실시예에서, 표 14의 Diegetic은 멀티 유저 비트스트림에 공간감이 적용되는지 여부에 대한 정보의 일 예시를 나타낼 수 있다. 오디오 처리 장치(500)가 오디오 재생 장치(600)로부터 수신한 오디오 재생 장치(600)의 재생 환경 정보에는 각 멀티 유저의 위치 정보가 포함되어 있을 수 있다. 오디오 처리 장치(500)가 멀티 유저 비트스트림을 오브젝트 타입 오디오(object type audio)로 간주하여 각 멀티 유저의 위치에 대응하는 공간감을 적용한 후 오디오 비트스트림에 합성하는 경우, 사용자는 VR 또는 AR 컨텐츠를 이용하면서 다른 멀티 유저들의 위치를 파악할 수 있다. Diegetic이 1을 지시하는 경우 멀티 유저 비트스트림에 공간감이 적용될 수 있고, Diegetic이 0을 지시하는 경우 멀티 유저 비트스트림에 공간감이 적용되지 않을 수 있다.
단계 1270에서, 오디오 처리 장치(500)는 생성된 오디오 신호 및 생성된 인포프레임을 오디오 재생 장치(600)로 전송할 수 있다.
단계 1275에서, 오디오 재생 장치(600)는 인프 프레임을 판독할 수 있다.
단계 1280에서, 오디오 재생 장치(600)는 인포프레임을 기반으로, 수신된 오디오 신호를 재생할 수 있다.
한편, 본 명세서 전반에서는 오디오 재생 장치(600)의 재생 환경 정보 또는 인포프레임을 표 1 내지 표 14와 같이 표현하였으나, 오디오 재생 장치(600)의 재생 환경 정보 또는 인포프레임을 표현하는 방법은 표 1 내지 표 14와 같은 방식에 한정되지 않는다. 예를 들어 오디오 재생 장치(600)의 재생 환경 정보는 아래의 표 15와 같이 표현될 수 있다.
Figure PCTKR2018011252-appb-T000015
전술한 장치의 내부 컴포넌트들은 메모리에 저장된 연속된 수행과정들을 실행하는 프로세서들이거나, 그 외의 하드웨어로 구성된 하드웨어 컴포넌트들일 수 있다. 이 들은 장치 내/외부에 위치할 수 있다.
전술한 모듈들은 실시예에 따라 생략되거나, 유사/동일한 동작을 수행하는 다른 모듈에 의해 대체될 수 있다.
전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서이거나 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서 또는 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.
상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 예를 들어, 도 9의 단계 920에 따른 동작은 단계 910에 따른 동작이 수행된 후에 수행될 수 있으나, 경우에 따라서는 단계 910에 따른 동작과 단계 920에 따른 동작이 오디오 처리 장치(500)에 의해 동시에 수행될 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
본 발명에서 실시예들이 소프트웨어로 구현될 때, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 프로세서는 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(read-only memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.
전술한 장치의 내부 컴포넌트들은 메모리에 저장된 연속된 수행과정들을 실행하는 프로세서들이거나, 그 외의 하드웨어로 구성된 하드웨어 컴포넌트들일 수 있다. 이 들은 장치 내/외부에 위치할 수 있다.
전술한 모듈들은 실시예에 따라 생략되거나, 유사/동일한 동작을 수행하는 다른 모듈에 의해 대체될 수 있다.
전술한 각각의 파트, 모듈 또는 유닛은 메모리(또는 저장 유닛)에 저장된 연속된 수행과정들을 실행하는 프로세서이거나 하드웨어 파트일 수 있다. 전술한 실시예에 기술된 각 단계들은 프로세서 또는 하드웨어 파트들에 의해 수행될 수 있다. 전술한 실시예에 기술된 각 모듈/블록/유닛들은 하드웨어/프로세서로서 동작할 수 있다. 또한, 본 발명이 제시하는 방법들은 코드로서 실행될 수 있다. 이 코드는 프로세서가 읽을 수 있는 저장매체에 쓰여질 수 있고, 따라서 장치(apparatus)가 제공하는 프로세서에 의해 읽혀질 수 있다.
상술한 실시예에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타내어진 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.
본 발명에서 실시예들이 소프트웨어로 구현될 때, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리에 저장되고, 프로세서에 의해 실행될 수 있다. 메모리는 프로세서 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서와 연결될 수 있다. 프로세서는 ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리는 ROM(read-only memory), RAM(random access memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다.

Claims (20)

  1. 오디오 처리 장치에 의하여 수행되는 오디오 데이터 처리 방법에 있어서,
    오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보(information on reproduction environment)를 수신하는 단계;
    상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리(process)하여 오디오 신호를 생성하는 단계;
    상기 생성된 오디오 신호의 특징 정보(characteristic information)를 포함하는 인포프레임(InfoFrame)을 생성하는 단계; 및
    상기 생성된 오디오 신호 및 상기 생성된 인포프레임(InfoFrame)을 상기 오디오 재생 장치로 전송하는 단계를 포함하되,
    상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  2. 제 1 항에 있어서,
    상기 재생 환경 정보는 상기 오디오 재생 장치의 상태(status) 및 재생 능력(reproduction capability) 중 적어도 하나에 관한 정보를 나타내고,
    상기 재생 환경 정보는 EDID(Extended Display Identification Data standard)를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  3. 제 2 항에 있어서,
    상기 EDID는 CTA 데이터 블록을 포함하고, 상기 CTA 데이터 블록은 확장 데이터 블록을 포함하며, 상기 확장 데이터 블록은 VR-AR 오디오 데이터 블록을 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  4. 제 3 항에 있어서,
    상기 VR-AR 오디오 데이터 블록은 상기 오디오 처리 장치 및 상기 오디오 재생 장치와 통신하는 적어도 하나의 오디오 재생 장치가 존재하는지 여부를 나타내는 멀티 유저 플래그를 포함하고,
    상기 멀티 유저 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 오디오 재생 장치가 서브 장치인 상기 적어도 하나의 오디오 재생 장치와 통신하는 마스터 장치인지 여부를 나타내는 플래그를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  5. 제 4 항에 있어서,
    상기 오디오 재생 장치가 상기 마스터 장치인지 여부를 나타내는 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 적어도 하나의 오디오 재생 장치와 상기 오디오 재생 장치의 총 수를 나타내는 정보, 상기 적어도 하나의 오디오 재생 장치 및 상기 오디오 재생 장치 각각의 위치에 관한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  6. 제 3 항에 있어서,
    상기 VR-AR 오디오 데이터 블록은, 3차원 오디오 신호를 상기 오디오 재생 장치가 재생할 수 있는지 여부를 나타내는 제1 3차원 가용 플래그를 포함하고,
    상기 제1 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 제1 3차원 오디오 신호 타입 정보, 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그 및 공간 정보가 사용되는지 여부를 나타내는 플래그 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  7. 제 6 항에 있어서,
    상기 제1 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 제1 3차원 오디오 신호 타입 정보를 포함하고,
    상기 제1 3차원 오디오 신호 타입 정보의 비트 값이 "00"을 지시하는 경우 상기 VR 오디오 비트스트림은 3DoF를 기반으로 처리되고, 상기 제1 3차원 오디오 신호 타입 정보의 비트 값이 "01"을 지시하는 경우 상기 VR 오디오 비트스트림은 3DoF 보다 고차원의 DoF를 기반으로 처리되고, 상기 제1 3차원 오디오 신호 타입 정보의 비트 값이 "10"을 지시하는 경우 상기 VR 오디오 비트스트림은 6DoF를 기반으로 처리되고, 상기 제1 3차원 오디오 신호 타입 정보의 비트 값이 "11"을 지시하는 경우 상기 AR 오디오 비트스트림은 6DoF를 기반으로 처리되는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  8. 제 6 항에 있어서,
    상기 제1 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그를 포함하고,
    상기 사용자의 귀의 특징 정보가 사용되는지 여부를 나타내는 플래그가 1을 지시하는 경우, 상기 확장 데이터 블록은 사용자 헤드 정보 데이터 블록(Personal Head Information Data Block)을 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  9. 제 8 항에 있어서,
    상기 사용자 헤드 정보 데이터 블록은 사용자의 헤드 폭(head width)에 대한 정보 및 상기 사용자의 귀의 특징 부위(characteristic part)들의 길이 또는 각도에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  10. 제 6 항에 있어서,
    상기 제1 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 공간 정보가 사용되는지 여부를 나타내는 플래그를 포함하고,
    상기 공간 정보가 사용되는지 여부를 나타내는 플래그가 1을 지시하는 경우, 상기 VR-AR 오디오 데이터 블록은 상기 오디오 재생 장치가 위치하는 공간의 크기에 대한 정보, 상기 오디오 재생 장치가 위치하는 공간을 구성하는 물질의 반사 계수(reflection coefficient)에 관한 정보, 상기 오디오 재생 장치가 위치하는 공간 내에서 상기 사용자의 위치에 대한 정보 및 상기 사용자가 응시하는(gazing) 방향에 대한 정보 중 적어도 하나를 포함하는 상기 공간 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  11. 제 10 항에 있어서,
    상기 공간 정보는 상기 오디오 재생 장치가 위치하는 공간 내에 존재하는 적어도 하나의 센서를 기반으로 획득되는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  12. 제 1 항에 있어서,
    상기 VR-AR 특징 정보는, 3차원 오디오 신호를 상기 오디오 재생 장치가 재생할 수 있는지 여부를 나타내는 제2 3차원 가용 플래그를 포함하고,
    상기 제2 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 제2 3차원 오디오 신호 타입 정보, 상기 오디오 재생 장치가 헤드폰(headphone)인지 또는 스피커(speaker)인지 여부를 나타내는 정보 및 상기 오디오 처리 장치 및 상기 오디오 재생 장치와 통신하는 적어도 하나의 오디오 재생 장치가 존재하고, 상기 오디오 신호를 처리함에 있어서 상기 오디오 재생 장치 및 상기 적어도 하나의 오디오 재생 장치의 마이크(MIC)들을 통해 녹음된 음성에 기반하여 획득된 멀티 유저 비트스트림(multi-user bitstream)이 사용되는지 여부를 나타내는 멀티 유저 비트 스트림 플래그 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  13. 제 12 항에 있어서,
    상기 제2 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 제2 3차원 오디오 신호 타입 정보를 포함하고,
    상기 제2 3차원 오디오 신호 타입 정보가 "00"을 지시하는 경우 상기 VR 오디오 비트스트림은 3DoF를 기반으로 처리되고, 상기 제2 3차원 오디오 신호 타입 정보가 "01"을 지시하는 경우 상기 VR 오디오 비트스트림은 3DoF 보다 고차원의 DoF를 기반으로 처리되고, 상기 제2 3차원 오디오 신호 타입 정보가 "10"을 지시하는 경우 상기 VR 오디오 비트스트림은 6DoF를 기반으로 처리되고, 상기 제2 3차원 오디오 신호 타입 정보가 "11"을 지시하는 경우 상기 AR 오디오 비트스트림은 6DoF를 기반으로 처리되는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  14. 제 12 항에 있어서,
    상기 제2 3차원 가용 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 오디오 재생 장치가 헤드폰(headphone)인지 또는 스피커(speaker)인지 여부를 나타내는 정보를 포함하고,
    상기 오디오 재생 장치가 헤드폰인지 또는 스피커인지 여부를 나타내는 정보가 1을 지시하는 경우, 상기 오디오 재생 장치는 헤드폰이고,
    상기 오디오 재생 장치가 헤드폰인지 또는 스피커인지 여부를 나타내는 정보가 0을 지시하는 경우, 상기 오디오 재생 장치는 스피커이고, 상기 VR-AR 특징 정보는 상기 오디오 재생 장치가 위치하는 공간에서 발생 가능한 오디오 신호 왜곡을 상쇄하기 위한 응답 신호가 생성되는지 여부를 나타내는 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  15. 제 12 항에 있어서,
    상기 VR-AR 특징 정보는 상기 멀티 유저 비트 스트림 플래그를 포함하고,
    상기 멀티 유저 비트스트림 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 오디오 재생 장치 및 상기 적어도 하나의 오디오 재생 장치의 총 수에 대한 정보, 상기 오디오 비트스트림을 처리함에 있어서 상기 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보 및 상기 멀티 유저 비트스트림에 공간감이 적용되는지 여부에 대한 정보 중 적어도 하나를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  16. 제 15 항에 있어서,
    상기 멀티 유저 비트스트림 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 오디오 비트스트림을 처리함에 있어서 상기 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보를 포함하고,
    상기 오디오 비트스트림을 처리함에 있어서 상기 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보가 1을 지시하는 경우, 상기 오디오 비트스트림이 처리될 때 상기 멀티 유저 비트스트림의 전부가 상기 오디오 비트스트림과 합성되는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  17. 제 15 항에 있어서,
    상기 멀티 유저 비트스트림 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 오디오 비트스트림을 처리함에 있어서 상기 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보를 포함하고,
    상기 오디오 비트스트림을 처리함에 있어서 상기 멀티 유저 비트스트림의 전부가 사용되는지 여부에 대한 정보가 0을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 오디오 재생 장치 및 상기 적어도 하나의 오디오 재생 장치 각각과 대응하는 멀티 유저 비트스트림 각각이 상기 오디오 비트스트림을 처리함에 있어서 사용되는지 여부에 대한 정보를 포함하는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  18. 제 15 항에 있어서,
    상기 멀티 유저 비트스트림 플래그가 1을 지시하는 경우, 상기 VR-AR 특징 정보는 상기 멀티 유저 비트스트림에 공간감이 적용되는지 여부에 대한 정보를 포함하고,
    상기 멀티 유저 비트스트림에 공간감이 적용되는지 여부에 대한 정보가 1을 지시하는 경우, 상기 멀티 유저 비트스트림에 각 멀티 유저들의 위치를 기반으로 하는 공간감이 적용되는 것을 특징으로 하는, 오디오 데이터 처리 방법.
  19. 오디오 재생 장치에 의하여 수행되는 오디오 데이터 재생 방법에 있어서,
    상기 오디오 재생 장치의 재생 환경 정보를 수집하는 단계;
    상기 수집된 재생 환경 정보를 오디오 처리 장치로 전송하는 단계;
    상기 재생 환경 정보를 기반으로 상기 오디오 처리 장치가 오디오 비트스트림을 처리하여 생성된 오디오 신호 및 상기 생성된 오디오 신호의 특징 정보를 기반으로 상기 오디오 처리 장치에서 생성된 인포프레임을 상기 오디오 처리 장치로부터 수신하는 단계; 및
    상기 인포프레임을 기반으로, 상기 수신된 오디오 신호를 재생하는 단계를 포함하되,
    상기 오디오 비트스트림은 VR(Virtual Reality) 오디오 비트스트림 또는 AR(Augmented Reality) 오디오 비트스트림을 포함하는 것을 특징으로 하는, 오디오 데이터 재생 방법.
  20. 오디오 데이터를 처리하는 오디오 처리 장치에 있어서,
    오디오 재생 장치로부터 상기 오디오 재생 장치의 재생 환경 정보를 수신하는 수신부;
    상기 재생 환경 정보를 기반으로 오디오 비트스트림을 처리하여 오디오 신호를 생성하는 오디오 신호 처리부;
    상기 생성된 오디오 신호의 특징 정보를 기반으로 인포프레임을 생성하는 메타데이터 처리부; 및
    상기 인포프레임 및 상기 생성된 오디오 신호를 상기 오디오 재생 장치로 전송하는 전송부를 포함하되,
    상기 오디오 비트스트림은 VR 오디오 비트스트림 또는 AR 오디오 비트스트림을 포함하는 것을 특징으로 하는, 오디오 처리 장치.
PCT/KR2018/011252 2017-09-22 2018-09-21 오디오 데이터를 송수신하는 방법 및 그 장치 WO2019059716A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/631,271 US11361771B2 (en) 2017-09-22 2018-09-21 Method for transmitting/receiving audio data and device therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762561689P 2017-09-22 2017-09-22
US62/561,689 2017-09-22

Publications (1)

Publication Number Publication Date
WO2019059716A1 true WO2019059716A1 (ko) 2019-03-28

Family

ID=65810432

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/011252 WO2019059716A1 (ko) 2017-09-22 2018-09-21 오디오 데이터를 송수신하는 방법 및 그 장치

Country Status (2)

Country Link
US (1) US11361771B2 (ko)
WO (1) WO2019059716A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11914157B2 (en) 2021-03-29 2024-02-27 International Business Machines Corporation Adjustable air columns for head mounted displays

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11019449B2 (en) 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128567A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 위치기반 오디오 신호처리 방법
KR20160005695A (ko) * 2013-04-30 2016-01-15 인텔렉추얼디스커버리 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
KR101627247B1 (ko) * 2014-12-30 2016-06-03 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치
KR20170069790A (ko) * 2015-12-11 2017-06-21 삼성전자주식회사 가상 현실 서비스에서 오디오 신호를 처리하는 방법 및 이를 위한 전자 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9906885B2 (en) * 2016-07-15 2018-02-27 Qualcomm Incorporated Methods and systems for inserting virtual sounds into an environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140128567A (ko) * 2013-04-27 2014-11-06 인텔렉추얼디스커버리 주식회사 위치기반 오디오 신호처리 방법
KR20160005695A (ko) * 2013-04-30 2016-01-15 인텔렉추얼디스커버리 주식회사 헤드 마운트 디스플레이 및 이를 이용한 오디오 콘텐츠 제공 방법
KR101627247B1 (ko) * 2014-12-30 2016-06-03 가우디오디오랩 주식회사 추가 자극을 생성하는 바이노럴 오디오 신호 처리 방법 및 장치
KR20170069790A (ko) * 2015-12-11 2017-06-21 삼성전자주식회사 가상 현실 서비스에서 오디오 신호를 처리하는 방법 및 이를 위한 전자 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEO, JEONG HUN ET AL.,: "The Completion of Virtual Reality Audio", ENGINEERING EDUCATION, vol. 22, no. 3, 30 September 2016 (2016-09-30), pages 12 - 16 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11914157B2 (en) 2021-03-29 2024-02-27 International Business Machines Corporation Adjustable air columns for head mounted displays

Also Published As

Publication number Publication date
US11361771B2 (en) 2022-06-14
US20200211574A1 (en) 2020-07-02

Similar Documents

Publication Publication Date Title
WO2019194434A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2019093734A1 (ko) 미디어 데이터를 송수신하는 방법 및 그 장치
WO2018038520A1 (ko) 전방향 비디오를 전송하는 방법, 전방향 비디오를 수신하는 방법, 전방향 비디오 전송 장치, 전방향 비디오 수신 장치
WO2017188714A1 (ko) 360도 비디오를 전송하는 방법, 360도 비디오를 수신하는 방법, 360도 비디오 전송 장치, 360도 비디오 수신 장치
WO2019203627A1 (ko) 트랜지션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
WO2019151798A1 (ko) 무선 통신 시스템에서 이미지에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019066436A1 (ko) 360 비디오 시스템에서 오버레이 처리 방법 및 그 장치
WO2017142353A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치
WO2020145668A1 (ko) 3차원 컨텐츠의 처리 및 전송 방법
WO2019066191A1 (ko) 스티칭 및 리프로젝션 관련 메타데이터를 이용한 6dof 비디오를 송수신하는 방법 및 그 장치
WO2019203456A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2019245302A1 (en) Method for transmitting 360-degree video, method for providing a user interface for 360-degree video, apparatus for transmitting 360-degree video, and apparatus for providing a user interface for 360-degree video
WO2018169176A1 (ko) 퀄리티 기반 360도 비디오를 송수신하는 방법 및 그 장치
WO2018217057A1 (ko) 360 비디오 처리 방법 및 그 장치
US8150061B2 (en) Sound generating method, sound generating apparatus, sound reproducing method, and sound reproducing apparatus
WO2019194573A1 (en) Method for transmitting 360-degree video, method for receiving 360-degree video, apparatus for transmitting 360-degree video, and apparatus for receiving 360-degree video
WO2019198883A1 (ko) 핫스팟 및 roi 관련 메타데이터를 이용한 360도 비디오를 송수신하는 방법 및 그 장치
WO2020027349A1 (ko) 다중 뷰포인트 기반 360 비디오 처리 방법 및 그 장치
WO2019231178A1 (ko) 복수의 뷰포인트들에 대한 메타데이터를 송수신하는 방법 및 장치
WO2011155776A2 (ko) 프래그먼트 기반의 멀티미디어 스트리밍 서비스 제공 방법과 그 장치, 그리고 프래그먼트 기반의 멀티미디어 스트리밍 서비스 수신 방법과 그 장치
WO2019199046A1 (ko) 무선 통신 시스템에서 오디오에 대한 메타데이터를 송수신하는 방법 및 장치
WO2020091404A1 (ko) 비디오 송신 방법, 비디오 전송 장치, 비디오 수신 방법 및 비디오 수신 장치
WO2019059462A1 (ko) 360 비디오를 전송하는 방법, 360 비디오를 수신하는 방법, 360 비디오 전송 장치, 360 비디오 수신 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18859146

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18859146

Country of ref document: EP

Kind code of ref document: A1