WO2019199040A1 - 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 - Google Patents

메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 Download PDF

Info

Publication number
WO2019199040A1
WO2019199040A1 PCT/KR2019/004248 KR2019004248W WO2019199040A1 WO 2019199040 A1 WO2019199040 A1 WO 2019199040A1 KR 2019004248 W KR2019004248 W KR 2019004248W WO 2019199040 A1 WO2019199040 A1 WO 2019199040A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
distance
reference distance
distance information
channel
Prior art date
Application number
PCT/KR2019/004248
Other languages
English (en)
French (fr)
Inventor
정현주
전상배
Original Assignee
가우디오랩 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가우디오랩 주식회사 filed Critical 가우디오랩 주식회사
Priority to JP2020554183A priority Critical patent/JP7102024B2/ja
Priority to US17/046,302 priority patent/US11540075B2/en
Priority to KR1020197033407A priority patent/KR102637876B1/ko
Priority to CN201980024365.9A priority patent/CN112005560B/zh
Publication of WO2019199040A1 publication Critical patent/WO2019199040A1/ko
Priority to JP2022104743A priority patent/JP7371968B2/ja
Priority to US17/992,944 priority patent/US11950080B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Definitions

  • the present invention relates to an audio signal processing method and apparatus. Specifically, the present invention relates to an audio signal processing method and apparatus using metadata.
  • 3D audio is a series of signal processing, transmission, encoding, and playback methods for providing a realistic sound in three-dimensional space by providing another axis corresponding to the height direction to a sound scene on a horizontal plane (2D) provided by conventional surround audio. Also known as technology.
  • a rendering technique is required in which a sound image is formed at a virtual position in which no speaker exists even if a larger number of speakers or a smaller number of speakers are used.
  • 3D audio is expected to be an audio solution for ultra-high definition televisions (UHDTVs), as well as sound from vehicles evolving into high-quality infotainment spaces, as well as theater sounds, personal 3DTVs, tablets, wireless communication terminals, and cloud games. It is expected to be applied in the field.
  • UHDTVs ultra-high definition televisions
  • infotainment spaces as well as theater sounds, personal 3DTVs, tablets, wireless communication terminals, and cloud games. It is expected to be applied in the field.
  • a channel based signal and an object based signal may exist in the form of a sound source provided to 3D audio.
  • a sound source in which a channel-based signal and an object-based signal are mixed, thereby providing a user with a new type of content experience.
  • Binaural rendering is the modeling of this 3D audio as a signal delivered to both ears.
  • the user can also feel 3D through the binaural rendered 2-channel audio output signal through headphones or earphones.
  • the specific principle of binaural rendering is as follows. One always hears the sound through both ears, and the sound recognizes the location and direction of the sound source.
  • 3D audio can be modeled in the form of an audio signal delivered to both ears of a person, the stereoscopic sense of 3D audio can be reproduced through a two-channel audio output without a large number of speakers.
  • One embodiment of the present invention is to provide an audio signal processing method and apparatus using metadata.
  • an embodiment of the present invention is to provide an audio signal processing method and apparatus for rendering an object signal, a channel signal, or an ambisonic signal using metadata.
  • an audio signal processing apparatus for rendering an audio signal including a first element signal acquires metadata including the audio signal and first element reference distance information, and the first element reference distance information.
  • the processor indicates a reference distance of the first element signal, and includes a processor that renders the first element signal based on the first element reference distance information.
  • the audio signal may include a second element signal that may be rendered simultaneously with the first element signal.
  • the metadata may include second element distance information indicating a distance of the second element signal.
  • the number of bits required to indicate the first element reference distance information may be smaller than the number of bits necessary to indicate the second element distance information.
  • the set of reference distances indicated by the first element reference distance information may be a subset of a set of distances indicated by the second element distance information.
  • the first element reference distance information may indicate a reference distance of the first element signal using an exponential function.
  • the first element reference distance information may determine a value of an exponent of the exponential function.
  • the number of bits used to indicate the first element reference distance information may be 7 bits, and the number of bits used to indicate the second element distance information may be 9 bits.
  • the processor may obtain a reference distance of the first element signal from the first element reference distance information by using the following equation.
  • the Refererence distance is a reference distance of the first element signal, the unit of the reference distance of the first element signal is a meter (m),
  • Bs_Reference_Distance is the first element reference distance information
  • the value of the first elementary reference distance information may be an integer from 0 to 127.
  • a value that can be represented by the second element reference distance information may be an integer from 0 to 511.
  • the processor determines that the distance of the second element signal is 0.
  • the value of the second element distance information is 1 to 511, the following equation is used.
  • the distance of the second element signal may be obtained from the second element distance information.
  • the distance may be the distance of the second element signal
  • the unit of the distance of the second element signal may be meters (m)
  • the Position_Distance may be second element distance information.
  • the processor When the first element reference distance information is not defined, the processor considers the first element reference distance information to indicate a first element default reference distance, and when the second element distance information is not defined, The second element distance information may be regarded as indicating the second element default distance.
  • the first element default reference distance and the second element default distance may be the same value.
  • the minimum reference distance indicated by the first element reference distance information may be a predetermined positive number greater than zero.
  • the audio signal including the first element signal may include the second element signal, and the processor may simultaneously render the first element signal and the second element signal.
  • the processor adjusts the loudness of the sound output in which the first element signal is rendered based on the first element reference distance information, and outputs the sound in which the second element signal is rendered based on the second element distance information. You can adjust the loudness of the.
  • the processor may apply a delay to the first element signal based on the first element reference distance information, and apply a delay to the second element signal based on the second element distance information.
  • the first element signal may be a channel signal
  • the second element signal may be an object signal
  • the first element signal may be an ambisonic signal
  • the second element signal may be an object signal
  • the first element signal may be a channel signal, and the audio signal may further include an ambisonic signal.
  • the processor may render the ambisonic signal based on a reference distance of the first element signal.
  • the first element signal may be a channel signal, and the audio signal may further include an ambisonic signal.
  • the first element reference distance information may be channel reference distance information
  • the metadata may include ambisonic reference distance information indicating a reference distance of an ambisonic signal.
  • the processor may render the channel signal based on channel reference distance information, and render the ambisonic signal based on ambisonic reference distance information.
  • the processor may render the second element signal based on the first element reference distance information.
  • An audio signal processing apparatus for encoding an audio signal including a first element signal sets first element reference distance information indicating a reference distance of the first element signal and sets the first element.
  • a processor for generating metadata including reference distance information for generating metadata including reference distance information.
  • the audio signal may include a second element signal
  • the metadata may include second element distance information indicating a distance of the second element signal.
  • the number of bits used for indicating the first element reference distance information may be smaller than the number of bits used for indicating the distance information of the second element.
  • the set of reference distances indicated by the first element reference distance information may be a subset of a set of distances indicated by the second element distance information.
  • the first element reference distance information may indicate a reference distance of the first element signal using an exponential function.
  • the first element reference distance information may determine a value of an exponent of the exponential function.
  • the number of bits required to indicate the first element reference distance information may be 7 bits, and the number of bits required to indicate the second element distance information may be 9 bits.
  • the processor may set a value of the first element reference distance information such that the first element reference distance information indicates a reference distance of the first element signal according to the following equation.
  • the Refererence distance is the reference distance of the first element signal
  • the unit of the reference distance of the first element signal is meter (m)
  • the bs_Reference_Distance is the first element reference distance information
  • the first element reference distance information The value of may be an integer from 0 to 127.
  • a value that can be represented by the second element reference distance information may be an integer from 0 to 511.
  • the processor sets the value of the second element distance information to 0.
  • the second element distance information is next. According to a formula, the value of the second element distance information may be set to indicate the distance of the second element signal.
  • the distance is a reference distance of the second element signal
  • the unit of the distance of the second element signal is a meter (m)
  • the Position_Distance is second element distance information
  • the value of the second element distance information is from 1 It may be an integer up to 511.
  • the first element reference distance information is considered to indicate a first element default reference distance
  • the second element distance information is not defined
  • the second element The distance information may be considered to indicate the second element default distance.
  • the first element default reference distance and the second element default distance may be the same value.
  • the minimum reference distance indicated by the first element reference distance information may be a predetermined positive number greater than zero.
  • the first element signal may be a channel signal
  • the second element signal may be an object signal
  • the first element signal may be an ambisonic signal
  • the second element signal may be an object signal
  • One embodiment of the present invention provides an audio signal processing method and apparatus using metadata.
  • an embodiment of the present invention provides an audio signal processing method and apparatus for rendering an object signal, a channel signal, or an ambisonic signal using metadata.
  • FIG. 1 is a block diagram illustrating an audio signal processing apparatus for encoding an audio signal according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an audio signal processing apparatus for decoding an audio signal according to an embodiment of the present invention.
  • FIG 3 shows metadata used by the renderer according to an embodiment of the present invention.
  • FIG. 4 shows the syntax of a metadata configuration used by a renderer according to another embodiment of the present invention.
  • FIG 5 shows the syntax of an intracoded metadata frame (IntracodedProdMetadataFrame) according to an embodiment of the present invention.
  • FIG. 6 illustrates syntax of a dynamic metadata frame (dynamicProdMetadataFrame) and a single dynamic metadata frame (singleDynamicProdMetadataFrame) according to an embodiment of the present invention.
  • FIG. 7 illustrates GOA metadata, which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard, GCA metadata, which is metadata of a channel signal, and an ambisonic, according to an embodiment of the present invention.
  • GOA metadata which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard
  • GCA metadata which is metadata of a channel signal
  • ambisonic according to an embodiment of the present invention.
  • Show GHA metadata which is the metadata of the signal.
  • FIG. 8 illustrates a relationship between a value of channel reference distance information of metadata, a value of object distance information, and a reference distance of a channel signal according to an embodiment of the present invention.
  • FIG. 9 illustrates a syntax of a metadata configuration indicating a metadata related configuration according to another embodiment of the present invention.
  • FIG. 10 illustrates syntax of an intracodedProdMetadataFrame according to another embodiment of the present invention.
  • FIG. 11 is a diagram illustrating syntax of a single dynamic metadata frame (singleDynamicProdMetadataFrame) according to an embodiment of the present invention.
  • FIG. 12 illustrates GOA metadata, which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard, GCA metadata, which is metadata of a channel signal, and ambi, according to another embodiment of the present invention.
  • GOA metadata which is the metadata of the sonic signal.
  • FIG. 13 illustrates an operation of generating metadata by an audio signal processing apparatus encoding an audio signal including a first element signal according to an embodiment of the present invention.
  • FIG 14 illustrates an operation of rendering an first element signal by an audio signal processing apparatus that renders an audio signal including the first element signal according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating an audio signal processing apparatus for encoding an audio signal according to an exemplary embodiment.
  • an audio signal processing apparatus for encoding an audio signal may encode at least one of a channel, an ambisonics (HOA), and an object signal.
  • the prerenderer / mixer 10 receives and mixes at least one of a channel signal, an ambisonic signal, and an object signal.
  • the pre-renderer / mixer 10 may pre-render at least one of the channel signal, the ambisonic signal, and the object signals.
  • the HOA spatial encoder 30 synthesizes the ambisonic signal and the prerendered object signal and converts the ambisonic channel signal and the ambisonics channel signal related metadata for the prerendered object signal transmission.
  • the SAOC 3D encoder 40 converts individual object signals into SAOC channel types and SAOC channel related metadata for transmission.
  • the audio signal processing apparatus may receive the location information of the speaker layout.
  • the distance from the listener of the sweet spot of the speaker layout to the speaker among the position information of the speaker layout may be encoded as a reference distance of the corresponding layout.
  • the OAM encoder 20 may encode the reference distance in metadata of the bit stream.
  • the distance from the object to the listener of the sweet spot may be input as the object distance.
  • the SAOC 3D Encoder 40 may encode the object distance into metadata.
  • the object distance is individually transmitted to the encoder 80, and the encoder 80 may encode the object distance into metadata of the bitstream.
  • FIG. 2 is a block diagram illustrating an audio signal processing apparatus for decoding an audio signal according to an embodiment of the present invention.
  • the audio signal decoder includes a core decoder 110, a mixer 130, and a post processor 140.
  • the core decoder 110 may decode at least one of a loudspeaker channel signal, a discrete object signal, an object downmix signal, and a pre-rendered signal.
  • the core decoder 10 may use a USAC (Unified Speech and Audio Coding) based codec.
  • the core decoder 110 decodes the bitstream received by the core decoder 110 and converts the decoded signal according to the format of the decoded signal by the format converter 122, the object renderer 124, the OAM decoder 125, and the SAOC decoder. 126 and the HOA decoder 128.
  • the format converter 122 converts the transmitted channel signal into an output speaker channel signal.
  • the format converter 122 may convert the transmitted channel configuration into a speaker channel configuration to be reproduced. If the number of output speaker channels (e.g., 5.1 channels) is less than the number of transmitted channels (e.g., 22.2 channels) or if the transmitted channel configuration and the channel configuration to be reproduced are different, then the format converter 122 is connected to the transmitted channel signal.
  • Downmix for the The decoder may generate an optimal downmix matrix using a combination of the input channel signal and the output speaker channel signal, and perform the downmix using the generated matrix.
  • the channel signal processed by the format converter 122 may include a pre-rendered object signal. At least one object signal may be pre-rendered and mixed into the channel signal prior to encoding the audio signal.
  • the format converter 122 may convert the mixed object signal into the output speaker channel signal together with the channel signal.
  • the object renderer 124 and the SAOC decoder 126 may render the object signal.
  • the object signal may include individual object waveforms and parametric object waveforms.
  • the encoder may receive an object signal in the form of a monophonic waveform. In this case, the encoder may transmit the object signal using single channel elements (SCEs).
  • SCEs single channel elements
  • the object signal includes a parametric object waveform
  • the plurality of object signals may be downmixed into at least one channel signal.
  • the feature of each object and the relationship between the objects may be represented by a spatial audio object coding (SAOC) parameter.
  • SAOC spatial audio object coding
  • compressed object metadata corresponding to the object signal may be transmitted together.
  • the object metadata may indicate the position and gain value of each object in three-dimensional space by quantizing the object property in units of time and space.
  • the OAM decoder 125 may receive the compressed object metadata, decode the compressed object metadata, and transmit the decoded object metadata to at least one of the object renderer 124 and the SAOC decoder 126.
  • the object renderer 124 may render each object signal according to a given playback format using the object metadata. In this case, the object renderer 124 may render the object signal to a specific output channel based on the object metadata.
  • the SAOC decoder 126 may recover at least one of an object signal and a channel signal from the decoded SAOC transport channel and parametric information.
  • the SAOC decoder 126 may generate an output audio signal based on the reproduction layout information and the object metadata. As such, the object renderer 124 and the SAOC decoder 126 may render the object signal as a channel signal.
  • the HOA decoder 128 may receive a Higher Order Ambisonics (HOA) signal and HOA side information, and decode the HOA signal and the HOA side information.
  • HOA decoder 128 generates a sound scene by modeling a channel signal or an object signal with a separate equation. When the location of the speaker in the generated sound scene is selected, rendering may be performed with the speaker channel signal.
  • dynamic range control may be performed as a preprocessing process on the signal output from the core decoder 110.
  • the DRC limits the dynamic range of the reproduced audio signal to a certain level.
  • the DRC-applied signal is adjusted to make the sound smaller than the preset range louder and the sound louder than the preset range smaller.
  • the audio signal from the format converter 122, the object renderer 124, the OAM decoder 125, the SAOC decoder 126, and the HOA decoder 128 is transferred to the mixer 130.
  • the mixer 130 adjusts the delay of the channel-based waveform and the rendered object waveform and adds the channel-based waveform and the rendered object waveform on a sample basis.
  • the audio signal summed by the mixer 130 is delivered to the post processing unit 140.
  • Post processing unit 140 includes a renderer 150.
  • the renderer 150 may include at least one of the speaker renderer 151 and the binaural renderer 153.
  • the speaker renderer 151 performs post processing to output at least one of the multichannel and multiobject audio signals transmitted from the mixer 130.
  • Such post processing may include at least one of dynamic range control (DRC), loudness normalization (LN), and peak limiter (PL).
  • DRC dynamic range control
  • LN loudness normalization
  • PL peak limiter
  • the binaural renderer 153 generates a binaural downmix signal of at least one of a multichannel and a multiobject audio signal.
  • the binaural downmix signal is a two-channel audio signal that allows each input channel signal and object signal to be represented by a virtual sound source located in three dimensions.
  • the binaural renderer 153 may receive an audio signal supplied to the speaker renderer 153 as an input signal.
  • Binaural rendering is performed based on a Binaural Room Impulse Response (BRIR) filter and may be performed on a time domain or a QMF domain.
  • the post processor 140 may further perform at least one of the above-described dynamic range control (DRC), volume normalization (LN), and peak limit (PL) as post processing of binaural rendering.
  • DRC dynamic range control
  • LN volume normalization
  • PL peak limit
  • the renderer When content including channel signals, object signals and ambisonic signals is rendered, the renderer needs to render while maintaining a relative balance of loudness and distance between each element.
  • the element metadata may include information indicating a reference distance of the reproduction layout.
  • the reference distance of each element signal of the audio signal represents the distance, that is, the radius, between the circumference and the listener of the virtual speaker layout required to render each element signal when the listener is located at the sweet spot in the virtual space represented by the audio signal.
  • the distance of the object signal that is, the object distance, may represent the distance from the center of the listener's head to the object reproduced and reproduced when the listener is located in the sweet spot in the virtual space represented by the audio signal including the object signal.
  • the reference distance of the channel signal may be represented by the distance from the center of the listener's head to the speaker layout used when producing the audio signal including the channel signal.
  • the reference distance of the ambisonic signal is a real or virtual speaker layout decoded to reproduce the ambisonic signal from the center of the listener's head when the listener is located in the sweet spot in the virtual space represented by the audio signal including the ambisonic signal. It can represent the distance to.
  • the information indicating the distance of the object signal that is, the object distance is referred to as object distance information.
  • the renderer uses the object distance information
  • the method of determining the reference distance used when rendering the channel signal or the ambisonic signal is not defined, the following problems may occur.
  • the virtual used in the final reproduction system is used.
  • the volume balance between the object signal and the non-diegetic channel signal may not be maintained as the creator intended.
  • the non-diegetic audio signal may be a signal constituting a fixed audio scene based on the listener.
  • the direction of sound output in response to the non-diegetic audio signal may not change regardless of the movement of the listener in the virtual space.
  • the relative distance between the sound image and the object simulated by the channel signal or the ambisonic signal perceived by the listener may be different from that intended by the creator.
  • the renderer may undercompensate or overcompensate the ambisonic signal relative to the distance intended by the creator.
  • the renderer needs to render the channel signal based on the information about the reference distance of the channel signal.
  • the renderer needs to render the ambisonic signal based on the information on the reference distance of the ambisonic signal.
  • the renderer needs to adjust the loudness of the sound output in which the element signal is rendered based on the information on the reference distance of the element signal.
  • the renderer needs to apply a delay based on information about a reference distance of the element signal.
  • the information on the reference distance of the channel signal is referred to as channel reference distance information.
  • ambisonic reference distance information the information on the reference distance of the ambisonic signal is referred to as ambisonic reference distance information.
  • a method of setting and using the channel reference distance information and the ambisonic reference distance information will be described with reference to FIGS. 3 to 14.
  • an embodiment of the present invention will be described using the MPEG-H 3D Audio standard of ISO / IEC as an example. However, embodiments of the present invention are not limited to the MPEG-H 3D Audio standard of ISO / IEC.
  • FIG. 3 shows metadata used by the renderer according to an embodiment of the present invention.
  • FIG. 3 (a) shows the syntax of a metadata configuration indicating a metadata related setting according to an embodiment of the present invention.
  • 3 (b) shows the syntax of a metadata frame indicating metadata for each frame according to metadata-related setting according to an embodiment of the present invention.
  • 3 (c) shows GOA metadata defined as an interface for transmitting metadata of an object signal to an external renderer not defined according to the MPEG-H 3D Audio standard according to an embodiment of the present invention.
  • the renderer may apply a default value of the reference distance of the channel signal to the channel signal for which the channel reference distance information is not defined.
  • a default value of the reference distance of the channel signal is referred to as a channel default reference distance.
  • the renderer may regard the channel default reference distance as the reference distance of the channel signal.
  • the metadata configuration may include a reference distance flag (has_reference_distance) indicating whether channel reference distance information (reference_distance) indicates a value other than the channel default reference distance in the metadata frame. When the reference distance flag is not activated, the value of the channel reference distance information bs_reference_distance may be set to a predetermined value. This will be described later.
  • the renderer may apply a default distance value to an object signal for which object distance information is not defined, for example, an object signal having only azimuth and elevation.
  • the default distance value of the object signal is referred to as an object default distance.
  • the renderer may regard the object default distance as the distance of the object signal.
  • the metadata configuration may include an object distance flag (has_object_distance) indicating whether object distance information (object_distance) indicates a value other than the object default distance in the metadata frame.
  • the object distance flag may indicate whether the object distance information for each object signal group indicates a value other than the object default distance.
  • the metadata configuration may include a flag (directHeadphone) indicating whether the corresponding channel signal group is directly output to the headphone when binaural rendering is performed.
  • the metadata frame may include channel reference distance information (reference_distance).
  • reference_distance when the reference distance flag has_reference_distance is activated, the channel reference distance information reference_distance of the metadata frame may indicate a value other than the channel default reference distance. Channel reference distance information (reference_distance) may be indicated by 6 bits.
  • the metadata frame when the object distance flag has_object_distance is activated, the metadata frame may include an intra coding flag (has_intracoded_data) indicating whether the current frame includes intracoded data. Depending on whether the frame corresponding to the metadata frame is intra coded, the metadata frame may include an intra coding metadata frame (intracodedProdMetadataFrame) or a dynamic metadata frame (dynamicProdMetadataFrame).
  • the GOA metadata may include a GOA reference distance flag (goa_hasReferenceDistance) indicating whether the channel reference distance information (goa_bsReferenceDistance) of the GOA metadata indicates a value other than the channel default reference distance. If the GOA reference distance flag is activated, the channel reference distance information of the GOA metadata indicates a value other than the channel default reference distance. The channel reference distance information may be indicated by 6 bits.
  • the GOA metadata may include an object distance flag (goa_hasObjectDistance) indicating whether the object distance information (goa_bsObjectDistance) of the GOA metadata indicates a value other than the object default distance.
  • the GOA metadata may indicate whether the GOA metadata indicates a value other than the default value of the object default distance of the object distance information (goa_bsObjectDistance) for each object signal group.
  • the GOA object distance flag (goa_hasObjectDistance) is activated
  • the object distance information (goa_bsObjectDistance) of the GOA metadata may indicate a value other than the object default distance.
  • the object distance information goa_bsObjectDistance may be indicated by 8 bits.
  • the number of bits that may be allocated to indicate information about a reference distance in metadata may be limited. Because the limited number of bits is used, if the difference between the quantization levels of the information with respect to the reference distance is too large, the renderer may not reflect the effect of the change in distance on the rendering. In addition, when the difference between the quantization levels of the information on the reference distance is too small, the transmission and storage burden of the field indicating the information on the reference distance may increase. Therefore, an appropriate quantization method is needed to represent the information on the reference distance.
  • the metadata may indicate a channel reference distance using an exponential function.
  • the channel reference distance information may determine a value of the exponent of the corresponding exponential function.
  • the renderer can evenly render the volume of the sound attenuated by distance.
  • the number of bits of the field indicating the channel reference distance information may be smaller than the number of bits of the field indicating the object distance information. This is because the distance representation of the object signal simulating the position of the object that may change in real time than the channel signal simulating the position of the speaker may need to be precise.
  • the set of reference distance values that can be represented by the channel reference distance information can be a subset of the set of object distance values that can be represented by the object distance information.
  • the minimum distance that the channel reference distance information may indicate may be a predetermined positive number greater than zero. In this case, the minimum distance may be 450 mm. This is because, if the reference distance is less than or equal to a certain size, the effect of the change in the reference distance on rendering may be insignificant. According to this embodiment, the number of bits required to represent channel reference information can be reduced.
  • the renderer may apply a channel default reference distance to a channel signal for which channel reference distance information is not defined. If the bitstream encoded with the channel signal does not define the reference distance of the channel signal, the renderer may regard the channel default reference distance as the reference distance of the channel signal.
  • the channel default reference distance may be a predetermined value. The predetermined value may be 1008 mm.
  • the channel reference distance information may indicate the reference distance of the channel signal according to the following equation.
  • Reference distance distanceOffset + [10 ⁇ (0.03225380 * (referece_distance + 82)) -1]
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is mm in advance.
  • distanceOffset represents an offset value of the reference distance of the channel signal.
  • the value of distanceOffset may be 10 mm.
  • reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 450 mm to a maximum of 47521 mm.
  • the channel reference information (bs_reference_distance) of the metadata frame described above may indicate the reference distance of the channel signal according to the following table.
  • the channel reference information (goa_bsReferenceDistance) of the above-described GOA metadata may indicate the reference distance of the channel signal according to the following table.
  • FIG. 4 shows the syntax of a metadata configuration used by a renderer according to another embodiment of the present invention.
  • 5 illustrates a syntax of an intracoded metadata frame (IntracodedProdMetadataFrame) according to an embodiment of the present invention.
  • FIG. 6 illustrates syntax of a dynamic metadata frame (dynamicProdMetadataFrame) and a single dynamic metadata frame (singleDynamicProdMetadataFrame) according to an embodiment of the present invention.
  • the channel default reference distance may be set to the same value as the default value of the reference distance of the element signal that can be reproduced with the channel signal.
  • the channel default reference distance may be set to the same value as the object default distance.
  • the channel default reference distance may be set to be equal to the default value of the reference distance of the ambisonic signal.
  • the channel reference distance information when the value of the channel reference distance information is a specific value, the channel reference distance information may indicate a default value of the reference distance of the channel signal.
  • the channel reference distance information indicates the channel default reference distance
  • the channel reference distance information may indicate a predetermined value without using an exponential function used to indicate the channel reference distance.
  • the channel reference distance information may indicate the reference distance of the channel signal using the following equation.
  • Reference distance distanceOffset + [10 ⁇ (0.03225380 * (bs_reference_distance + 83)) -1]
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is mm in advance.
  • distanceOffset represents an offset value of the reference distance of the channel signal.
  • the value of distanceOffset may be 10 mm.
  • bs_reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 484 mm to a maximum of 51184 mm.
  • the channel reference distance information value when the channel reference distance information value is 63, the channel reference distance information may indicate that the reference distance of the channel signal is the channel default reference value.
  • the channel default reference value may indicate that 2 ⁇ (5/3) m (ie, 3174.8mm).
  • the channel reference information (bs_reference_distance) of the metadata frame may indicate the reference distance of the channel signal according to the following table.
  • the value of the reference distance information bs_reference_distance may be set to a predetermined value indicating a default reference distance.
  • the predetermined value may be 63.
  • the metadata frame may include an intra-coded metadata frame (intracodedProdMetadataFrame).
  • IntracodedProdMetadataFrame an intra-coded metadata frame
  • 5 is a diagram illustrating syntax of an intra-coded metadata frame (IntracodedProdMetadataFrame) according to a specific embodiment.
  • the intra coding metadata frame may include a fixed distance flag (fixed_distance) indicating whether the distances of all object signals are fixed values.
  • the intra-coded metadata frame may include a common_distance flag indicating whether an object distance common to all objects is used.
  • the renderer may render all object signals using the default value of the distance of the object signal.
  • the renderer may render each object signal based on the distance (position_distance) of each object signal.
  • the dynamic metadata frame may indicate a reference distance of the object signal through a single dynamic metadata frame (singleDynamicProdMetadataFrame).
  • 6A illustrates syntax of a dynamic metadata frame (dynamicProdMetadataFrame) according to a specific embodiment.
  • 6 (b) shows the syntax of a single dynamic metadata frame (singleDynamicProdMetadataFrame) according to a specific embodiment.
  • the distance (position_distance) of the object signal may be transmitted as an absolute value or differentially transmitted.
  • the single dynamic metadata frame may include an absolute distance flag (flag_dist_absolute) indicating whether the object distance is transmitted as an absolute value or differentially transmitted.
  • the absolute distance flag flag_dist_absolute When the absolute distance flag flag_dist_absolute is activated, the single dynamic metadata frame indicates the distance of the object signal as an absolute value.
  • object distance information (position_distance) included in a single dynamic metadata frame may indicate a distance of an object signal.
  • the distance of the object signal may be the distance from the center of the head of the listener in the sweet spot to the object.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the single dynamic metadata frame may indicate a difference between a previous object distance value of the object signal and a current object distance value.
  • object distance information (position_distance) included in a single dynamic metadata frame may indicate a difference between a value of a previous object distance and an object distance of an object signal.
  • the single dynamic metadata frame may include a distance flag (distance_flag) indicating whether a distance of an object signal is changed during an intra-frame period. When the distance flag (distance_flag) is activated, the single dynamic metadata frame may indicate a distance difference (position_distance_difference) between the linearly interpolated value and the actual object distance value of the object signal.
  • the single dynamic metadata frame may also indicate the number of bits (nBitsDistance) required to indicate the object distance difference.
  • nBitsDistance the number of bits required to indicate the object distance difference.
  • FIG. 7 illustrates GOA metadata, which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard, GCA metadata, which is metadata of a channel signal, and an ambisonic, according to an embodiment of the present invention.
  • GOA metadata which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard
  • GCA metadata which is metadata of a channel signal
  • ambisonic according to an embodiment of the present invention.
  • Show GHA metadata which is the metadata of the signal.
  • the metadata may indicate an ambisonic reference distance using an exponential function.
  • the Ambisonic reference distance information may determine a value of the exponent of the corresponding exponential function.
  • the renderer can evenly render the volume of the sound attenuated by distance.
  • the number of bits of the field indicating the ambisonic reference distance information may be smaller than the number of bits of the field indicating the object distance information.
  • the set of reference distance values that can be indicated by the ambisonic reference distance information may be a subset of the set of object distance values that may be indicated by the object distance information.
  • the minimum distance that the Ambisonic reference distance information may indicate may be a predetermined positive number greater than zero. In this case, the minimum distance may be 484 mm. This is because, if the reference distance is less than or equal to a certain size, the effect of the change in the reference distance on the rendering may be insignificant.
  • the renderer may apply a default value of the reference distance of the ambisonic signal to the ambisonic signal in which the embisonic reference distance information is not defined.
  • a default value of the reference distance value of the ambisonic signal is referred to as an ambisonic default reference distance. If the bitstream encoded with the ambisonic signal does not define the reference distance of the ambisonic signal, the renderer may regard the ambisonic default reference distance as the reference distance of the ambisonic signal.
  • the Ambisonic default reference distance value may be set equal to the default value of the reference distance of the element signal that can be reproduced with the Ambisonic signal.
  • the ambisonic default reference distance may be set equal to the default value of the reference distance of the object signal or the channel signal.
  • the Ambisonic reference distance information may indicate the Ambisonic default reference distance.
  • the Ambisonic reference distance information may indicate a predetermined value without using an exponential function used to indicate the reference distance.
  • the ambisonic reference distance information may indicate the reference distance of the ambisonic signal using the following equation.
  • Reference distance distanceOffset + [10 ⁇ (0.03225380 * (bs_reference_distance + 83)) -1]
  • the reference distance is a reference distance of the ambisonic signal, and the unit of the reference distance is mm in advance.
  • distanceOffset represents an offset value of the reference distance of the ambisonic signal.
  • the value of distanceOffset may be 10 mm.
  • reference_distance represents the value of the Ambisonic reference distance information.
  • the Ambisonic reference distance information may indicate a distance corresponding to a minimum of 484 mm to a maximum of 51184 mm.
  • the Ambisonic reference distance information value when the Ambisonic reference distance information value is 63, the Ambisonic reference distance information may indicate the Ambisonic default reference distance.
  • the Ambisonic default reference distance may be 2 ⁇ (5/3) m (ie, 3174.8mm).
  • the renderer may regard the ambisonic default reference distance as the reference distance of the ambisonic signal.
  • the GOA metadata may include a GOA object distance flag (goa_hasObjectDistance) indicating whether the object distance information (goa_bsObjectDistance) of the GOA metadata indicates a value other than the object default distance.
  • the GOA metadata may indicate whether the object distance information of the GOA metadata indicates a value other than the object default distance for each object signal group.
  • the object distance information (goa_bsObjectDistance) of the GOA metadata indicates a value other than the object default distance.
  • the object distance information goa_bsObjectDistance may be indicated by 8 bits.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the GCA metadata may include a GCA channel distance flag (gca_hasReferenceDistance) indicating whether the channel reference distance information gca_bsReferenceDistance of the GCA metadata indicates a value other than the default distance.
  • the GCA metadata may indicate whether the channel reference distance information gca_bsReferenceDistance of the GCA metadata indicates a value other than the channel default reference distance for each channel signal group.
  • the GCA channel distance flag gca_hasReferenceDistance is activated, the channel reference distance information gca_bsReferenceDistance of the GCA metadata indicates a value other than the channel default reference distance.
  • the channel reference distance information gca_bsReferenceDistance may be indicated by 6 bits.
  • the GCA metadata may include a flag (gca_directHeadphone) indicating whether the corresponding channel signal group is directly output to the headphone when binaural rendering is performed.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the GHA metadata may include a GHA Ambisonic Distance Flag (gha_hasReferenceDistance) indicating whether the Ambisonic Reference Distance Information (gha_bsReferenceDistance) of the GHA metadata indicates a value other than the Ambisonic Default Reference Distance.
  • the GHA metadata may indicate whether the ambisonic reference distance information (gha_bsReferenceDistance) of the GHA metadata indicates a value other than the ambisonic default reference distance for each ambisonic signal group.
  • the Ambisonic Reference Distance Information (gha_bsReferenceDistance) of the GHA metadata indicates a value other than the Ambisonic Default Reference Distance.
  • Ambisonic reference distance information may be indicated by 6 bits.
  • Ambisonic reference distance information (gha_bsReferenceDistance) included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • the channel default reference distance may be set to be equal to the default value of the reference distance of the element signal that may be reproduced together with the channel signal.
  • the channel reference distance information may indicate a default value of the reference distance of the channel signal.
  • the channel reference distance information may indicate a reference distance of the channel signal using an exponential function corresponding to the channel default reference distance at a specific value.
  • the channel reference distance information may indicate the reference distance of the channel signal according to the following equation.
  • Reference distance distanceOffset + 2 ⁇ [(bs_reference_distance + 99) / 11]
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is mm in advance.
  • distanceOffset represents an offset value of the reference distance of the channel signal.
  • the value of distanceOffset is 2 ⁇ (5/3) * 1000-2 ⁇ (128/11) and may be about -8.6220mm.
  • bs_reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 503 mm to a maximum of 27115 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • the channel reference information (bs_reference_distance) of the metadata frame may indicate the reference distance of the channel signal according to the following table.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the object distance information (position_distance) may indicate a distance corresponding to a minimum of 0 to a maximum of 167 km.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the channel reference distance information gca_bsReferenceDistance may indicate a distance corresponding to a minimum of 503 mm to a maximum of 27115 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • Ambisonic reference distance information included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • Ambisonic reference distance information may indicate a distance corresponding to a minimum of 503mm to a maximum of 27115mm.
  • the ambisonic reference distance information indicates the ambisonic default reference distance.
  • the metadata may indicate the reference distance of the channel signal at linearized intervals when the reference distance of the channel signal is less than or equal to a predetermined distance.
  • the metadata may indicate a reference distance of the channel signal larger than a predetermined distance by using an exponential function.
  • the predetermined distance may be 3.1m.
  • the channel reference distance information may indicate the reference distance of the channel signal using a fine quantization interval.
  • the channel reference distance information may indicate the reference distance of the channel signal using a minute quantization interval.
  • the channel reference distance information may indicate the reference distance of the channel signal according to the following equation.
  • Reference_distance (4 * bs_reference_distance + 4) / 160 * default_reference_distance
  • the channel reference distance information may indicate the reference distance of the channel signal according to the following equation.
  • Reference_distance 10 ⁇ (1/20 * (bs_reference_distance-39)) * default_reference_distance
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is meter (m).
  • default_reference_distance represents a channel default reference distance.
  • the value of default_reference_distance may be 2 ⁇ (5/3) (that is, 3.1748m).
  • bs_reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 0.0794m to a maximum of 50.317m.
  • the channel reference distance information indicates the channel default reference distance.
  • the channel reference information (bs_reference_distance) of the metadata frame may indicate the reference distance of the channel signal according to the following table.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the object distance information (position_distance) may indicate a distance corresponding to a minimum of 0 to a maximum of 167 km.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the channel reference distance information gca_bsReferenceDistance may indicate a distance corresponding to a minimum of 0.0794m and a maximum of 50.317m.
  • the channel reference distance information indicates the channel default reference distance.
  • the method in which the ambisonic reference distance information indicates the reference distance of the ambisonic signal may also vary.
  • Ambisonic reference distance information (gha_bsReferenceDistance) included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • Ambisonic reference distance information (gha_bsReferenceDistance) may indicate a distance corresponding to a minimum of 0.0794m to a maximum of 50.317m.
  • the ambisonic reference distance information indicates an ambisonic default reference distance.
  • the metadata may indicate a reference distance of the channel signal using an exponential function.
  • the channel reference distance information may indicate the reference distance of the channel signal according to the following equation.
  • Reference distance A * [2 ⁇ (C * bs_reference_distance)] + B;
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is mm in advance.
  • bs_reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 503 mm to a maximum of 27115 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • the channel reference information (bs_reference_distance) of the metadata frame may indicate the reference distance of the channel signal according to the following table.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the object distance information (position_distance) may indicate a distance corresponding to a minimum of 0 to a maximum of 167 km.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the channel reference distance information gca_bsReferenceDistance may indicate a distance corresponding to a minimum of 503 mm to a maximum of 27115 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • Ambisonic reference distance information included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • Ambisonic reference distance information may indicate a distance corresponding to a minimum of 503mm to a maximum of 27115mm.
  • the ambisonic reference distance information indicates the ambisonic default reference distance.
  • the channel reference distance information indicates a reference signal of the channel signal using an excessively fine quantization interval at a relatively short distance.
  • the metadata may indicate a reference distance of the channel signal using an exponential function and may be adjusted according to the quantization interval of the exponential function according to the reference distance of the channel signal.
  • the metadata may indicate a reference distance of the channel signal using the following equation.
  • reference_distance A * 2 ⁇ (C * bs_reference_distance) + B;
  • the reference distance is a reference distance of the channel signal.
  • bs_reference_distance represents the value of the channel reference distance information.
  • the channel reference distance information may indicate a distance corresponding to a minimum of 472 mm to a maximum of 40318 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • the channel reference information (bs_reference_distance) of the metadata frame may indicate the reference distance of the channel signal according to the following table.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the object distance information (position_distance) may indicate a distance corresponding to a minimum of 0 to a maximum of 167 km.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the channel reference distance information gca_bsReferenceDistance may indicate a distance corresponding to a minimum of 472 mm and a maximum of 40318 mm.
  • the channel reference distance information indicates the channel default reference distance.
  • a method in which the ambisonic reference distance information indicates the reference distance of the ambisonic signal may also vary.
  • Ambisonic reference distance information (gha_bsReferenceDistance) included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • Ambisonic reference distance information (gha_bsReferenceDistance) may indicate a distance corresponding to a minimum of 472mm to a maximum of 40318mm. Further, when the value of the ambisonic reference distance information gca_bsReferenceDistance is 33, the ambisonic reference distance information indicates the ambisonic default reference distance.
  • the metadata may indicate a reference distance of the channel signal using a formula combining a linear function and an exponential function.
  • the combination of the linear function and the exponential function may reflect the characteristics of the linear function more than the specific of the exponential function at a relatively short distance, and the characteristics of the exponential function may be reflected more than the characteristics of the linear function at a relatively long distance.
  • the channel reference distance information may indicate the reference distance of the channel signal using the following equation.
  • y is a reference distance of the channel signal, and the unit of the reference distance is a meter (mm) in advance.
  • the values of Dref, Dmax and Bmax may be as follows.
  • alpha is set to a value between 0 and 1 in the above formula, the ratio of the characteristics of the exponential function and the characteristics of the linear function may be adjusted. In a specific embodiment, alpha may be 0.65.
  • the set of reference distances indicated by the channel reference distance information may be a subset of the set of distance values indicated by the object distance information. Therefore, in another specific embodiment, the metadata may indicate a reference distance of the channel signal by using a value obtained by sampling a set of distances that can be represented by the object distance information. This will be described with reference to FIG. 8.
  • FIG. 8 illustrates a relationship between a value of channel reference distance information of metadata, a value of object distance information, and a reference distance of a channel signal according to an embodiment of the present invention.
  • the interval between the reference distances indicated by the channel reference distance information of the metadata may be set in consideration of just-noticable difference (JND).
  • JND just-noticable difference
  • the interval between the reference distances indicated by the channel reference distance information of the metadata may be set to be greater than or equal to a distance where a difference in sound volume may occur by JND at two points due to sound attenuation.
  • the reference distance set of the channel signal may be sampled from the set of distances of the object signal according to the following code.
  • the object distance information may indicate the distance of the object signal using a function combining an exponential function and a linear function.
  • the interval between the reference distances indicated by the channel reference distance information may be set such that a difference in sound volume may occur by 0.7 dB or more at two points due to sound attenuation.
  • FIG. 8 illustrates a relationship between a value Bit of channel reference distance information, a value of object distance information Obj_Distance_Index, and a reference distance Ch_Reference_Distance of the channel signal in the metadata set accordingly.
  • the channel reference information bs_reference_distance of the metadata frame may indicate a reference distance of the channel signal according to the following table.
  • the channel reference distance information (bs_reference_distance) may indicate a distance corresponding to a minimum of 0.5m to a maximum of 36.1m.
  • the channel reference distance information indicates 3.175 m, which is the channel default reference distance.
  • the object distance information (position_distance) included in the single dynamic metadata frame may indicate the distance of the object signal according to the following table.
  • the object distance information (position_distance) may indicate a distance corresponding to a minimum of 0 to a maximum of 167 km.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table.
  • the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • the channel reference distance information gca_bsReferenceDistance may indicate a distance corresponding to a minimum of 0.5m to a maximum of 36.1m.
  • the channel reference distance information indicates 3.175 m, which is the channel default reference distance.
  • distance (x) is a reference distance indicated by the object distance information when the value of the object distance information is x.
  • Ambisonic reference distance information (gha_bsReferenceDistance) included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • Ambisonic reference distance information (gha_bsReferenceDistance) may indicate a distance corresponding to a minimum of 0.5m to a maximum of 36.1m.
  • the ambisonic reference distance information indicates 3.175m, which is an ambisonic default reference distance.
  • distance (x) is a reference distance indicated by the object distance information when the value of the object distance information is x.
  • the channel reference distance information and the ambisonic reference distance information are represented by 6 bits, and the object distance information is represented by 8 bits.
  • the channel reference distance information and the ambisonic reference distance information may be represented by 7 bits, and the object distance information may be represented by 9 bits.
  • channel reference distance information of metadata is represented by 8 bits, the above-described embodiments may be applied.
  • the metadata may indicate a channel reference distance using an exponential function.
  • the channel reference distance information may determine a value of the exponent of the corresponding exponential function.
  • the set of reference distance values of the channel signal may be a subset of the set of reference distance values of the object signal.
  • the minimum distance that the channel reference distance information may indicate may be a predetermined positive number greater than zero. At this time, the minimum distance may be 0.5m.
  • the renderer may apply a channel default reference distance to a channel signal for which channel reference distance information is not defined. In this case, the channel default reference distance may be a predetermined value.
  • the predetermined value may be equal to the object default distance. Specifically, the predetermined value may be 3.1748m.
  • the channel reference distance information may indicate the reference distance of the channel signal using the following equation.
  • the reference distance is a reference distance of the channel signal, and the unit of the reference distance is meter (m).
  • bs_Reference_Distance is a value of channel reference distance information.
  • Embodiments of the channel reference distance information may be applied to the ambisonic reference distance information.
  • the syntax of metadata applied to these embodiments will be described with reference to FIGS. 9 through 12. Unless specifically stated in the following description, the above-described embodiments may be applied together.
  • FIG. 9 illustrates a syntax of a metadata configuration indicating a metadata related configuration according to another embodiment of the present invention.
  • the channel reference distance information may be represented by 7 bits. Accordingly, channel reference distance information (bs_reference_distance) of the metadata configuration may be indicated through 7 bits. In addition, the value of the channel reference distance information (bs_reference_distance) indicating the channel default reference distance may be 57. This will be described later.
  • the channel reference distance information (bs_reference_distance) may indicate a reference distance of the channel signal according to the following table.
  • FIG. 10 illustrates syntax of an intracodedProdMetadataFrame according to another embodiment of the present invention.
  • the object distance information may be represented by 9 bits. Accordingly, object distance information (position_distance) of the intra-coded metadata frame (intracodedProdMetadataFrame) may be indicated through 9 bits. In addition, the object default distance (default_distance) is also indicated through 9 bits.
  • the object distance information position_distance may indicate the distance of an object signal according to the following table.
  • the embodiment described with reference to FIG. 5 may be applied to the syntax of the intra-coded metadata frame (intracodedProdMetadataFrame) not described above.
  • FIG. 11 is a diagram illustrating syntax of a single dynamic metadata frame (singleDynamicProdMetadataFrame) according to an embodiment of the present invention.
  • the object distance information (position_distance) of the single dynamic metadata frame may also be indicated through 9 bits.
  • the embodiment described with reference to FIG. 6 may be applied to the syntax of the single dynamic metadata frame (singleDynamicProdMetadataFrame) not described above.
  • FIG. 12 illustrates GOA metadata, which is metadata of an object signal used by an external renderer not defined according to the MPEG-H 3D Audio standard, GCA metadata, which is metadata of a channel signal, and ambi, according to another embodiment of the present invention.
  • GOA metadata which is the metadata of the sonic signal.
  • the object distance information goa_bsObjectDistance may be indicated by 9 bits.
  • the object distance information (goa_bsObjectDistance) included in the GOA metadata may indicate the distance of the object signal according to the following table. In this case, the object distance information goa_bsObjectDistance may indicate a distance corresponding to a minimum of 0 and a maximum of 167 km.
  • the channel reference distance information gca_bsReferenceDistance of the GCA metadata indicates a value other than the channel default reference distance.
  • the channel reference distance information gca_bsReferenceDistance may be indicated by 7 bits.
  • the channel reference distance information gca_bsReferenceDistance included in the GCA metadata may indicate the reference distance of the channel signal according to the following table.
  • Ambisonic reference distance information (gha_bsReferenceDistance) of the GHA metadata may be indicated by 7 bits.
  • Ambisonic reference distance information (gha_bsReferenceDistance) included in the GHA metadata may indicate a reference distance of the ambisonic signal according to the following table.
  • FIG. 13 illustrates an operation of generating metadata by an audio signal processing apparatus encoding an audio signal including a first element signal according to an embodiment of the present invention.
  • the audio signal processing apparatus sets first element reference distance information indicating a reference distance of the first element signal (S1301).
  • the audio signal processing apparatus generates metadata including the first element reference distance information in operation S1303.
  • the audio signal may include a second element signal.
  • the metadata may include a second element distance information indicating a distance of the second element signal.
  • the number of bits used for indicating the first element reference distance information may be smaller than the number of bits used for indicating the second element distance information.
  • the number of bits required to indicate the first element reference distance information may be 7 bits
  • the number of bits required to indicate the second element distance information may be 9 bits.
  • the first element signal may be a channel signal
  • the second element signal may be an object signal.
  • the first element signal may be an ambisonic signal and the second element signal may be an object signal.
  • the set of reference distances indicated by the first element reference distance information may be a subset of the set of distances indicated by the distance information of the second element. This may reduce the reference distance and the number of distances that the renderer should consider to support the rendering of the first element signal and the second element signal. Therefore, rendering efficiency can be improved through such an embodiment.
  • Embodiments of the method for indicating the reference distance of the channel signal or the method for indicating the reference distance of the ambisonic signal described with reference to FIGS. 3 to 12 may be applied to the method for indicating the first element reference distance information. Also, embodiments of the method for indicating the distance of the object signal described with reference to FIGS. 3 to 12 may be applied to the method for indicating the second element distance information.
  • the first element reference distance information may indicate a reference distance of the first element signal using an exponential function.
  • the first element reference distance information may determine a value of an exponent of the exponential function.
  • the first element reference distance information may indicate a reference distance of the first element signal using the following equation.
  • the audio signal processing apparatus may set a value of the first element reference distance information so that the first element reference distance information indicates the reference distance of the first element signal using the following equation.
  • the Refererence distance is the reference distance of the first element signal, and the unit of the reference distance of the first element signal is meter (m).
  • bs_Reference_Distance is first element reference distance information, and a value of the first element reference distance information is an integer from 0 to 127.
  • the value that may be indicated by the second element reference distance information may be an integer of 0 to 511.
  • the second element distance information may indicate that the distance of the second element signal is zero.
  • the audio signal processing apparatus may set the value of the second element distance information to zero.
  • the second element distance information may indicate the distance of the second element signal using the following equation.
  • the audio signal processing apparatus may set the value of the second element distance information such that the second element distance information indicates the distance of the second element signal according to the following equation.
  • Position_Distance is second element distance information, and the value of the second element distance information is an integer from 1 to 511.
  • the audio signal processing apparatus may consider that the first element reference distance information indicates the first element default reference distance. Also, when the second element distance information is not defined, the audio signal processing apparatus may consider that the second element distance information indicates the second element default distance.
  • the first element default reference distance and the second element default distance may be the same value.
  • the minimum reference distance that the first element reference distance information may indicate may be a predetermined positive number greater than zero.
  • the minimum distance that the second element distance information may indicate may be zero.
  • FIG 14 illustrates an operation of rendering an first element signal by an audio signal processing apparatus that renders an audio signal including the first element signal according to an embodiment of the present invention.
  • the audio signal processing apparatus obtains metadata including first element reference distance information indicating a reference distance between the audio signal and the first element signal (S1401).
  • the audio signal may include a second element signal.
  • the metadata may include a second element distance information indicating a distance of the second element signal.
  • the number of bits used for indicating the first element reference distance information may be smaller than the number of bits used for indicating the information about the distance of the second element.
  • the number of bits required to indicate the first element reference distance information may be 7 bits
  • the number of bits required to indicate the second element distance information may be 9 bits.
  • the first element signal may be a channel signal
  • the second element signal may be an object signal.
  • the first element signal may be an ambisonic signal and the second element signal may be an object signal.
  • the set of reference distances indicated by the first element reference distance information may be a subset of the set of reference distances indicated by the information about the distance of the second element. This may reduce the number of reference distances that the renderer must consider to support the rendering of the first element signal and the second element signal. Therefore, rendering efficiency can be improved through such an embodiment.
  • Embodiments of the method for indicating the reference distance of the channel signal or the method for indicating the reference distance of the ambisonic signal described with reference to FIGS. 3 to 12 may be applied to the method for indicating the first element reference distance information. Also, embodiments of the method for indicating the distance of the object signal described with reference to FIGS. 3 to 12 may be applied to the method for indicating the second element distance information.
  • the first element reference distance information may indicate a reference distance of the first element signal using an exponential function.
  • the first element reference distance information may determine a value of an exponent of the exponential function.
  • the first element reference distance information may indicate a reference distance of the first element signal using the following equation.
  • the audio signal processing apparatus may obtain a reference distance of the first element signal according to the following equation.
  • the Refererence distance is the reference distance of the first element signal, and the unit of the reference distance of the first element signal is meter (m).
  • bs_Reference_Distance is first element reference distance information, and a value of the first element reference distance information is an integer from 0 to 127.
  • the value that the second element distance information can represent is an integer of 0 to 511.
  • the second element distance information may indicate that the distance of the second element signal is zero.
  • the audio signal processing apparatus may determine the distance of the second element signal as zero.
  • the second element distance information may indicate the distance of the second element signal using the following equation.
  • the audio signal processing apparatus may obtain the distance of the second element signal according to the following equation.
  • Position_Distance is second element distance information.
  • the value of the second element distance information is an integer from 0 to 511.
  • the audio signal processing apparatus may consider that the first element reference distance information indicates the first element default reference distance. Also, when the second element distance information is not defined, the audio signal processing apparatus may consider that the second element distance information indicates the second element default distance.
  • the first element default reference distance and the second element default distance may be the same value.
  • the minimum reference distance that the first element reference distance information may indicate may be a predetermined positive number greater than zero.
  • the minimum distance that the second element distance information may indicate may be zero.
  • the audio signal processing apparatus renders the first element signal based on the first element reference distance information in operation S1403.
  • the audio signal processing apparatus may adjust the loudness of the sound in which the first element signal is rendered based on the first element reference distance information.
  • the audio signal processing apparatus may simultaneously render the first element signal and the second element signal.
  • the audio signal processing apparatus may simultaneously output the sound rendered from the first element signal and the sound rendered from the second element signal.
  • the audio signal processing apparatus may adjust the loudness of the sound output in which the first element signal is rendered and the loudness of the sound output in which the second element signal is rendered based on the first element reference distance information and the second element distance information. In this way, the audio signal processing apparatus may balance the loudness of the sound output in which the first element signal is rendered and the loudness of the sound output in which the second element signal is rendered.
  • the audio signal processing apparatus may apply a delay to the first element signal based on the first element reference distance information.
  • the audio signal processing apparatus may simultaneously render the first element signal and the second element signal.
  • the audio signal processing apparatus may adjust a sound delay time by applying a delay to each of the first element signal and the second element signal based on the first element reference distance information and the second element distance information. This is because the distance that the listener must feel depends on the reference distance of the first element signal and the distance of the second element signal.
  • the audio signal may include both an ambisonic signal and a channel signal.
  • the audio signal processing apparatus may simultaneously render the ambisonic signal and the channel signal using one reference distance information.
  • the audio signal processing apparatus may simultaneously render the ambisonic signal and the channel signal using the same reference distance.
  • the audio signal processing apparatus may render by applying different reference distances to the ambisonic signal and the channel signal.
  • the sound field correction and the loudness correction may be performed according to the difference of the reference distance.
  • different delays may be applied according to the difference in the reference distance to adjust the sound delay time.
  • the audio signal processing apparatus may render a channel signal based on the channel reference distance information, and may render an ambisonic signal based on the ambisonic reference distance information. Also, the audio signal processing apparatus may render the second element signal based on the first element reference distance information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 신호를 렌더링하는 오디오 신호 처리 장치가 개시된다. 상기 오디오 신호 처리 장치는 프로세서를 포함한다. 상기 프로세서는 상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 수신하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링한다. 상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있고, 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적다.

Description

메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
본 발명은 오디오 신호 처리 방법 및 장치에 관한 것이다. 구체적으로 본 발명은 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치에 관한 것이다.
3D 오디오란 기존의 서라운드 오디오에서 제공하는 수평면(2D) 상의 사운드 장면에 높이 방향에 해당하는 또 다른 축을 제공함으로써, 3차원 공간상에서 임장감 있는 사운드를 제공하기 위한 일련의 신호 처리, 전송, 부호화 및 재생기술 등을 통칭한다. 특히, 3D 오디오를 제공하기 위해서는 종래보다 많은 수의 스피커를 사용하거나 혹은 적은 수의 스피커를 사용하더라도 스피커가 존재하지 않는 가상의 위치에서 음상이 맺히도록 하는 렌더링 기술이 요구된다.
3D 오디오는 초고해상도 TV(UHDTV)에 대응되는 오디오 솔루션이 될 것으로 예상되며, 고품질 인포테인먼트 공간으로 진화하고 있는 차량에서의 사운드를 비롯하여 그밖에 극장 사운드, 개인용 3DTV, 태블릿, 무선 통신 단말 및 클라우드 게임 등 다양한 분야에서 응용될 것으로 예상된다.
한편, 3D 오디오에 제공되는 음원의 형태로는 채널 기반의 신호와 오브젝트 기반의 신호가 존재할 수 있다. 이 뿐만 아니라, 채널 기반의 신호와 오브젝트 기반의 신호가 혼합된 형태의 음원이 존재할 수 있으며, 이를 통해 유저로 하여금 새로운 형태의 컨텐츠 경험을 제공할 수 있다.
바이노럴 렌더링은 이러한 3D 오디오를 사람의 양귀에 전달되는 신호로 모델링하는 것이다. 사용자는 헤드폰이나 이어폰 등을 통한 바이노럴 렌더링된 2 채널 오디오 출력 신호를 통해서도 입체감을 느낄 수 있다. 바이노럴 렌더링의 구체적인 원리는 다음과 같다. 사람은 언제나 두 귀를 통해 소리를 듣고, 소리를 통해서 음원 위치와 방향을 인식한다. 따라서 3D 오디오를 사람의 두 귀에 전달되는 오디오 신호 형태로 모델링할 수 있다면, 많은 수의 스피커 없이 2 채널 오디오 출력을 통해서도 3D 오디오의 입체감을 재현할 수 있다.
본 발명의 일 실시 예는 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.
구체적으로 본 발명의 일 실시 예는 메타데이터를 이용하여 오브젝트 신호, 채널 신호, 또는 앰비소닉 신호를 렌더링하는 오디오 신호 처리 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치는 상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 제1 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링하는 프로세서를 포함한다. 상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있다. 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적을 수 있다. 상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다.
상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다.
상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정할 수 있다.
상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 사용되는 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 사용되는 비트 수는 9비트일 수 있다.
상기 프로세서는 다음 수식을 사용하여 상기 제1 엘리멘트 기준 거리 정보로부터 상기 제1 엘리멘트 신호의 기준 거리를 획득할 수 있다.
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,
상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,
상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수일 수 있다.
상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 상기 프로세서는 상기 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 신호의 거리가 0인 것으로 판단하고, 상기 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 다음 수식을 사용하여 상기 제2 엘리멘트 거리 정보로부터 상기 제2 엘리멘트 신호의 거리를 획득할 수 있다.
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
상기 Distance는 상기 제2 엘리멘트 신호의 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고, 상기 Position_Distance는 제2 엘리멘트 거리 정보일 수 있다.
상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주하고, 상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.
상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다.
상기 제1 엘리멘트 신호를 포함하는 오디오 신호는 상기 제2 엘리멘트 신호를 포함하고, 상기 프로세서는 상기 제1 엘리멘트 신호와 상기 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 이때, 상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정할 수 있다. 또한, 상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호에 딜레이를 적용하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호에 딜레이를 적용할 수 있다.
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 오디오 신호는 앰비소닉 신호를 더 포함할 수 있다. 상기 프로세서는 상기 제1 엘리멘트 신호의 기준 거리를 기초로 상기 상기 앰비소닉 신호를 렌더링할 수 있다.
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 오디오 신호는 앰비소닉 신호를 더 포함할 수 있다. 상기 제1 엘리멘트 기준 거리 정보는 채널 기준 거리 정보이고, 상기 메타데이터는 앰비소닉 신호의 기준 거리를 지시하는 앰비소닉 기준 거리 정보를 포함할 수 있다. 상기 프로세서는 채널 기준 거리 정보를 기초로 상기 채널 신호를 렌더링하고, 앰비소닉 기준 거리 정보를 기초로 상기 앰비소닉 신호를 렌더링할 수 있다.
상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제2 엘리멘트 신호를 렌더링할 수 있다.
본 발명의 일 실시 예에 따른 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치는 상기 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정하고, 상기 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성하는 프로세서를 포함한다.,
상기 오디오 신호는 제2 엘리멘트 신호를 포함할 수 있고, 상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있다.
상기 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트의 거리 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다.
상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다.
상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정할 수 있다.
상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다.
상기 프로세서는 상기 제1 엘리멘트 기준 거리 정보가 다음 수식에 따라 상기 제1 엘리멘트 신호의 기준 거리를 지시하도록 상기 제1 엘리멘트 기준 거리 정보의 값을 설정할 수 있다.
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고, 상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고, 상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수일 수 있다.
상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 상기 프로세서는 상기 제2 엘리멘트 신호의 거리가 0인 경우, 상기 제2 엘리멘트 거리 정보의 값을 0으로 설정하고, 상기 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 상기 제2 엘리멘트 거리 정보가 다음 수식에 따라 상기 제2 엘리멘트 신호의 거리를 지시하도록 상기 제2 엘리멘트 거리 정보의 값을 설정할 수 있다.
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
상기 Distance는 상기 제2 엘리멘트 신호의 기준 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고, 상기 Position_Distance는 제2 엘리멘트 거리 정보이고, 상기 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수일 수 있다.
상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보는 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주되고, 상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보는 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주될 수 있다. 상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.
상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다.
상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
본 발명의 일 실시 예는 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치를 제공한다.
구체적으로 본 발명의 일 실시 예는 메타데이터를 이용하여 오브젝트 신호, 채널신호, 또는 앰비소닉 신호를 렌더링하는 오디오 신호 처리 방법 및 장치를 제공한다.
도 1은 본 발명의 일 실시 예에 따라 오디오 신호를 인코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 디코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 렌더러가 사용하는 메타데이터를 보여준다.
도 4는 본 발명의 또 다른 실시 예에 따른 렌더러가 사용하는 메타데이터 컨피겨레이션의 신택스를 보여준다.
도 5는 본 발명의 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
도 6은 본 발명의 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)과 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
도 7은 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
도 8은 본 발명의 일 실시 예에 따른 메타데이터의 채널 기준 거리 정보의 값, 오브젝트 거리 정보의 값, 및 채널 신호의 기준 거리 사이의 관계를 보여준다.
도 9는 본 발명의 또 다른 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다.
도 10은 본 발명의 또 다른 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
도 11은 본 발명의 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
도 12는 본 발명의 또 다른 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
도 13은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치가 메타데이터를 생성하는 동작을 보여준다.
도 14은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 제1 엘리멘트 신호를 렌더링하는 동작을 보여준다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시 예에 따른 오디오 신호를 인코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
본 발명의 일 실시 예에 따라 오디오 신호를 인코딩하는 오디오 신호 처리 장치는 채널, 앰비소닉스(HOA), 및 오브젝트신호 중 적어도 하나를 인코딩할 수 있다. 프리렌더러/믹서(10)는 채널 신호, 앰비소닉 신호, 및 오브젝트 신호 중 적어도 어느 하나를 수신하여 믹싱한다. 프리레던링이 필요한 경우, 프리렌더러/믹서(10)는 채널 신호, 앰비소닉 신호, 및 오브젝트 신호들 중 적어도 어느 하나를 프리렌더링할 수 있다.
HOA 공간 인코더(30)는 앰비소닉 신호와 프리렌더링된 오브젝트 신호를 합성하여 프리렌더링된 오브젝트 신호 전송을 위한 앰비소닉스 채널 신호와 앰비소닉스 채널 신호 관련 메타데이터로 변환한다.
SAOC 3D 인코더(40)는 개별 오브젝트 신호를 전송을 위한 SAOC 채널 형태와 SAOC 채널 관련 메타데이터로 변환한다.
오디오 신호를 제작할 때 사용된 재생 시스템이 스피커 레이아웃으로 구성되거나, 혹은 오디오 신호가 재생되는 재생 시스템이 가상의 스피커 레이아웃을 통한 바이노럴 렌더링으로 재생되는 2채널 재생 시스템인 경우, 오디오 신호 처리 장치는 해당 스피커 레이아웃의 위치 정보를 재생 레이아웃(Reprodudction Layout)으로 수신할 수 있다. 스피커 레이아웃의 위치 정보 중 스피커 레이아웃의 스윗스팟의 청취자로부터 스피커까지의 거리는 해당 레이아웃의 기준 거리(Reference Distance)로 인코딩될 수 있다. OAM 인코더(20)는 비트 스트림의 메타데이터에 기준 거리를 인코딩할 수 있다. 또한, 오브젝트로부터 스윗스팟의 청취자까지의 거리는 오브젝트 거리로 입력될 수 있다. SAOC 3D Encoder(40)는 오브젝트 거리를 메타데이터로 인코딩할 수 있다. 또 다른 실시 예에서 오브젝트 거리(Object Distance)는 개별적으로 인코더(80)에 전달되고, 인코더(80)는 오브젝트 거리를 비트스트림의 메타데이터로 인코딩할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 오디오 신호를 디코딩하는 오디오 신호 처리 장치를 보여주는 블록도이다.
본 발명의 일 실시 예에 따른 오디오 신호 디코더는 코어 디코더(110), 믹서(130), 및 포스트 프로세서(140)를 포함한다. 코어 디코더(110)는 스피커(loudspeaker) 채널 신호, 개별(discrete) 오브젝트 신호, 오브젝트 다운믹스 신호 및 사전-렌더링된(prerendered) 신호 중 적어도 하나를 디코딩할 수 있다. 코어 디코더(10)는 USAC(Unified Speech and Audio Coding) 기반의 코덱을 사용할 수 있다. 코어 디코더(110)는 코어 디코더(110)가 수신한 비트스트림을 디코드하고 디코드된 신호를 디코드된 신호의 타입에 따라 포맷 컨버터(122), 오브젝트 렌더러(124), OAM 디코더(125), SAOC 디코더(126) 및 HOA 디코더(128) 중 적어도 어느 하나로 전달할 수 있다.
포맷 컨버터(122)는 전송된 채널 신호를 출력 스피커 채널 신호로 변환한다. 포맷 컨버터(122)는 전송된 채널 구성(configuration)을 재생될 스피커 채널 구성으로 변환할 수 있다. 출력 스피커 채널의 개수(이를테면, 5.1 채널)가 전송된 채널의 개수(이를테면, 22.2 채널)보다 적거나 전송된 채널 구성과 재생될 채널 구성이 다를 경우, 포맷 컨버터(122)는 전송된 채널 신호에 대한 다운믹스를 수행할 수 있다. 디코더는 입력 채널 신호와 출력 스피커 채널 신호간의 조합을 이용하여 최적의 다운믹스 매트릭스를 생성하고, 생성된 매트릭스를 이용하여 다운믹스를 수행할 수 있다. 포맷 컨버터(122)가 처리하는 채널 신호는 사전-렌더링된 오브젝트 신호를 포함할 수 있다. 오디오 신호의 인코딩 전에 적어도 하나의 오브젝트 신호가 사전-렌더링되어 채널 신호에 믹스(mix)될 수 있다. 포맷 컨버터(122)는 이와 같이 믹스 된 오브젝트 신호를 채널 신호와 함께 출력 스피커 채널 신호로 변환할 수 있다.
오브젝트 렌더러(124) 및 SAOC 디코더(126)는 오브젝트 신호를 렌더링할 수 있다. 오브젝트 신호는 개별 오브젝트 웨이브폼과 파라메트릭 오브젝트 웨이브폼을 포함할 수 있다. 오브젝트 신호가 오브젝트 웨이브폼을 포함하는 경우, 인코더는 모노포닉(monophonic) 웨이브폼 형태의 오브젝트 신호를 수신할 수 있다. 이때, 인코더는 단일 채널 엘리먼트(Single Channel Elements, SCEs)를 이용하여 오브젝트 신호를 전송할 수 있다. 오브젝트 신호가 파라메트릭 오브젝트 웨이브폼을 포함하는 경우, 복수의 오브젝트 신호는 적어도 하나의 채널 신호로 다운믹스될 수 있다. 이때, 각 오브젝트의 특징과 오브젝트간의 관계가 SAOC(Spatial Audio Object Coding) 파라메터로 표현될 수 있다. 오브젝트 신호는 다운믹스 되어 코어 코덱으로 인코딩되며, 인코더는 인코딩시 함께 생성되는 파라메트릭 정보를 디코더로 전송할 수 있다.
오브젝트 신호가 디코더로 전송될 때, 오브젝트 신호에 대응하는 압축된 오브젝트 메타데이터가 함께 전송될 수 있다. 오브젝트 메타데이터는 오브젝트 속성을 시간과 공간 단위로 양자화하여 3차원 공간에서의 각 오브젝트의 위치 및 게인 값을 지시할 수 있다. OAM 디코더(125)는 압축된 오브젝트 메타데이터를 수신하고, 압축된 오브젝트 메타데이터를 디코드하여 오브젝트 렌더러(124) 및 SAOC 디코더(126) 중 적어도 어느 하나로 전달할 수 있다.
오브젝트 렌더러(124)는 오브젝트 메타데이터를 이용하여 각 오브젝트 신호를 주어진 재생 포맷에 따라 렌더링할 수 있다. 이때, 오브젝트 렌더러(124)는 오브젝트 메타데이터를 기초로 오브젝트 신호를 특정 출력 채널로 렌더링할 수 있다. SAOC 디코더(126)는 디코드된 SAOC 전송 채널과 파라메트릭 정보로부터 오브젝트 신호 및 채널 신호 중 적어도 어느 하나를 복원할 수 있다. SAOC 디코더(126)는 재생 레이아웃 정보와 오브젝트 메타데이터를 기초로 출력 오디오 신호를 생성할 수 있다. 이와 같이 오브젝트 렌더러(124) 및 SAOC 디코더(126)는 오브젝트 신호를 채널 신호로 렌더링할 수 있다.
HOA 디코더(128)는 HOA(Higher Order Ambisonics) 신호 및 HOA 부가 정보를 수신하고, HOA 신호 및 HOA 부가 정보를 디코드할 수 있다. HOA 디코더(128)는 채널 신호나 오브젝트 신호를 별도의 수학식으로 모델링하여 사운드씬(sound scene)을 생성한다. 생성된 사운드씬에서 스피커가 있는 공간상의 위치를 선택하면, 스피커 채널 신호로 렌더링이 수행될 수 있다.
도 2에는 도시되지 않았지만, 코어 디코더(110)에서 출력된 신호에 대해 전처리 과정으로서 동적 범위 제어(Dynamic Range Control, DRC)가 수행될 수 있다. DRC는 재생되는 오디오 신호의 동적 범위를 일정 레벨로 제한하는 것으로, DRC가 적용된 신호는 기 설정된 범위 보다 작은 소리는 더 크게, 기 설정된 범위 보다 큰 소리는 더 작게 조정된다.
포맷 컨버터(122), 오브젝트 렌더러(124), OAM 디코더(125), SAOC 디코더(126) 및 HOA 디코더(128)로부터 출련된 오디오 신호는 믹서(130)로 전달된다. 믹서(130)는 채널 기반의 웨이브폼과 렌더링된 오브젝트 웨이브폼의 딜레이(delay)를 조정하고, 채널 기반의 웨이브폼과 렌더링된 오브젝트 웨이브폼을 샘플 단위로 합산한다. 믹서(130)에 의해 합산된 오디오 신호는 포스트 프로세싱 유닛(140)으로 전달된다.
포스트 프로세싱 유닛(140)은 렌더러(150)를 포함한다. 렌더러(150)는 스피커 렌더러(151)와 바이노럴 렌더러(153) 중 적어도 어느 하나를 포함할 수 있다. 스피커 렌더러(151)는 믹서(130)로부터 전달된 멀티채널 및 멀티오브젝트 오디오 신호 중 적어도 어느 하나를 출력하기 위한 포스트 프로세싱을 수행한다. 이러한 포스트 프로세싱은 동적 범위 제어(DRC), 음량 정규화(Loudness Normalization, LN) 및 피크 제한(Peak Limiter, PL) 중 적어도 어느 하나를 포함할 수 있다.
바이노럴 렌더러(153)는 멀티채널 및 멀티오브젝트 오디오 신호 중 적어도 어느 하나의 바이노럴 다운믹스 신호를 생성한다. 바이노럴 다운믹스 신호는 각 입력 채널 신호 및 오브젝트 신호가 3차원상에 위치한 가상의 음원에 의해 표현되도록 하는 2채널의 오디오 신호이다. 바이노럴 렌더러(153)는 스피커 렌더러(153)에 공급되는 오디오 신호를 입력 신호로서 수신할 수 있다. 바이노럴 렌더링은 BRIR(Binaural Room Impulse Response) 필터를 기초로 수행되며, 시간 도메인 또는 QMF 도메인 상에서 수행될 수 있다. 포스트 프로세서(140)는 바이노럴 렌더링의 포스트 프로세싱으로서 전술한 동적 범위 제어(DRC), 음량 정규화(LN) 및 피크 제한(PL) 중 적어도 어느 하나를 추가로 수행할 수 있다.
채널 신호, 오브젝트 신호 및 앰비소닉 신호를 포함하는 컨텐츠가 렌더링되는 경우, 렌더러는 각 엘리멘트 간의 라우드니스(loudness) 및 거리에 대한 상대적인 밸런스를 유지하면서 렌더링해야할 필요가 있다. 특히, 엘리멘트 메타데이터는 재생 레이아웃의 기준 거리(reference distance)를 지시하는 정보를 포함할 수 있다. 오디오 신호의 각 엘리멘트 신호의 기준 거리는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 각 엘리멘트 신호를 렌더링하기 위해서 필요한 가상 스피커 레이아웃의 원주와 청자 사이의 거리, 즉 반지름을 나타낸다. 오브젝트 신호의 거리, 즉 오브젝트 거리는 오브젝트 신호를 포함하는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 청자의 머리 중심으로부터 시뮬레이션되어 재생되는 오브젝트까지의 거리를 나타낼 수 있다. 또한, 채널 신호의 기준 거리는 청자의 머리 중심으로부터 채널 신호를 포함하는 오디오 신호 제작 시에 사용된 스피커 레이아웃까지의 거리로 나타낼 수 있다. 또한, 앰비소닉 신호의 기준 거리는 앰비소닉 신호를 포함하는 오디오 신호가 표현하는 가상 공간에서 청자가 스윗스팟에 위치할 때 청자의 머리 중심으로부터 앰비소닉 신호를 재생하기 위해 디코딩된 실제 혹은 가상의 스피커 레이아웃까지의 거리를 나타낼 수 있다. 설명의 편의를 위해, 오브젝트 신호의 거리, 즉 오브젝트 거리(object distance)를 지시하는 정보를 오브젝트 거리 정보라 지칭한다. 렌더러가 오브젝트 거리 정보를 사용하더라도 채널 신호 또는 앰비소닉 신호를 렌더링할 때 사용되는 기준 거리를 결정하는 방법이 정의 되지 않는다면 다음과 같은 문제들이 발생할 수 있다. 예컨대, 오브젝트를 바이노럴 렌더링 함에 있어서 오브젝트 신호를 가상의 스피커 채널 신호로 렌더링한 후 채널 신호를 바이노럴 신호로 다시 렌더링하여 최종 바이노럴 신호를 재생하는 경우, 최종 재생 시스템에서 사용되는 가상 스피커 레이아웃의 변화에 따라 창작자가 의도한 대로 오브젝트 신호와 논-디제틱(non-diegetic) 채널 신호 사이의 볼륨 밸런스가 유지되지 않을 수 있다. 이때, 논-디제틱 오디오 신호는 청취자를 기준으로 고정된 오디오 장면(audio scene)을 구성하는 신호일 수 있다. 가상의 공간에서 청취자의 움직임과 관계 없이 논-디제틱 오디오 신호에 대응하여 출력되는 음향의 방향성은 변화하지 않을 수 있다. 또한, 청취자가 인지하는 채널 신호 또는 앰비소닉 신호가 시뮬레이션하는 음상과 오브젝트의 상대적인 거리가 창작자가 의도한 것과 달라질 수 있다. 또한, 렌더러가 거리 기반(dependent) 앰비소닉 렌더링을 수행할 때, 렌더러는 창작자가 의도한 거리에 비해 앰비소닉 신호를 부족하게 보상(undercompensate)하거나 과도하게 보상(overcompensate)할 수 있다.
따라서 채널 신호 및 앰비소닉 신호 각각의 기준 거리에 대한 정보가 제공될 필요가 있다. 또한, 렌더러는 채널 신호의 기준 거리에 대한 정보를 기초로 채널 신호를 렌더링할 필요가 있다. 또한, 렌더러는 앰비소닉 신호의 기준 거리에 대한 정보를 기초로 앰비소닉 신호를 렌더링할 필요가 있다. 구체적으로 렌더러는 엘리멘트 신호의 기준 거리에 대한 정보를 기초로 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정할 필요가 있다. 또한, 렌더러가 엘리멘트 신호를 렌더링할 때, 렌더러는 엘리멘트 신호의 기준 거리에 대한 정보를 기초로 딜레이를 적용할 필요가 있다. 설명의 편의를 위해, 채널 신호의 기준 거리에 대한 정보를 채널 기준 거리 정보라 지칭한다. 또한, 앰비소닉 신호의 기준 거리에 대한 정보를 앰비소닉 기준 거리 정보라 지칭한다. 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보를 설정하고 사용하는 방법에 대해서는 도 3 내지 도 14를 통해 설명한다. 또한, 본 명세서에서는 ISO/IEC의 MPEG-H 3D Audio 표준을 예로 들어 본 발명의 실시 예를 설명한다. 다만, 본 발명의 실시 예가 ISO/IEC의 MPEG-H 3D Audio 표준에 한정되는 것은 아니다.
먼저, 기준 거리에 대한 정보를 포함하는 메타데이터의 신택스에 대한 실시 예를 설명한다.
도 3은 본 발명의 일 실시 예에 따른 렌더러가 사용하는 메타데이터를 보여준다. 구체적으로 도 3(a)는 본 발명의 일 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다. 도 3(b)는 본 발명의 일 실시 예에 따라 메타데이터 관련 설정에 따라 프레임 별로 메타데이터를 지시하는 메타데이터 프레임의 신택스를 보여준다. 도 3(c)는 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러에 오브젝트 신호의 메타데이터를 전달하는 인터페이스로 정의된 GOA 메타데이터를 보여준다.
렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 신호의 기준 거리의 디폴트 값을 적용할 수 있다. 설명의 편의를 위해, 채널 신호의 기준 거리의 디폴트 값은 채널 디폴트 기준 거리라 지칭한다. 비트스트림이 채널 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 채널 디폴트 기준 거리를 채널 신호의 기준 거리로 간주할 수 있다. 메타데이터 컨피겨레이션은 메타데이터 프레임에서 채널 기준 거리 정보(reference_distance)가 채널 디폴트 기준 거리 이외에 다른 값을 지시하는지 나타내는 기준 거리 플래그(has_reference_distance)를 포함할 수 있다. 기준 거리 플래그가 활성화되지 않는 경우, 채널 기준 거리 정보(bs_reference_distance)의 값을 미리 지정된 값으로 설정할 수 있다. 이에 대해서는 추후 다시 설명한다.
렌더러는 오브젝트 거리 정보가 정의되지 않은 오브젝트 신호, 예컨대, 방향(azimuth)과 높이(elevation)만을 가지고 있는 오브젝트 신호에 디폴트 거리 값을 적용할 수 있다. 설명의 편의를 위해, 오브젝트 신호의 디폴트 거리 값은 오브젝트 디폴트 거리라 지칭한다. 오브젝트 신호가 인코딩된 비트스트림이 오브젝트 신호의 거리를 정의하지 않은 경우, 렌더러는 오브젝트 디폴트 거리를 오브젝트 신호의 거리로 간주할 수 있다. 메타데이터 컨피겨레이션은 메타데이터 프레임에서 오브젝트 거리 정보(object_distance)가 오브젝트 디폴트 거리가 아닌 값을 지시하는지 나타내는 오브젝트 거리 플래그(has_object_distance)를 포함할 수 있다. 오브젝트 거리 플래그는 오브젝트 신호 그룹별로 오브젝트 거리 정보가 오브젝트 디폴트 거리 이외에 다른 값을 지시하는지 지시할 수 있다. 또한, 메타데이터 컨피겨레이션은 바이노럴 렌더링이 수행되는 경우, 해당 채널 신호 그룹이 바로(directly) 헤드폰으로 출력되는지 지시하는 플래그(directHeadphone)를 포함할 수 있다.
메타데이터 프레임은 채널 기준 거리 정보(reference_distance)를 포함할 수 있다. 구체적으로 기준 거리 플래그(has_reference_distance)가 활성화된 경우, 메타데이터 프레임의 채널 기준 거리 정보(reference_distance)는 채널 디폴트 기준 거리 이외의 값을 지시할 수 있다. 채널 기준 거리 정보(reference_distance)는 6비트로 지시될 수 있다. 또한, 오브젝트 거리 플래그(has_object_distance)가 활성화된 경우, 메타데이터 프레임은 현재 프레임이 인트라 코딩된(intracoded) 데이터를 포함하는지 나타내는 인트라 코딩 플래그(has_intracoded_data)를 포함할 수 있다. 메타데이터 프레임에 해당하는 프레임이 인트라 코딩되었는지에 따라 메타데이터 프레임은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame) 또는 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)을 포함할 수 있다.
GOA 메타데이터는 GOA 메타데이터의 채널 기준 거리 정보(goa_bsReferenceDistance)가 채널 디폴트 기준 거리 이외에 다른 값을 지시하는지 나타내는 GOA 기준 거리 플래그(goa_hasReferenceDistance)를 포함할 수 있다. GOA 기준 거리 플래그가 활성화된 경우, GOA 메타데이터의 채널 기준 거리 정보는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보는 6비트로 지시될 수 있다. GOA 메타데이터는 GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리 이외에 다른 값을 지시하는지 나타내는 오브젝트 거리 플래그(goa_hasObjectDistance)를 포함할 수 있다. 이때, GOA 메타데이터는 오브젝트 신호 그룹 별로 GOA 메타데이터가 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리의 디폴트 값 이외에 다른 값을 지시하는지 나타낼 수 있다. GOA 오브젝트 거리 플래그(goa_hasObjectDistance)가 활성화된 경우, GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)는 오브젝트 디폴트 거리 이외에 다른 값을 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 8비트로 지시될 수 있다.
앞서 설명한 신택스에서와 같이 메타데이터에서 기준 거리에 대한 정보를 지시하기 위해 할당될 수 있는 비트 수는 제한적일 수 있다. 제한된 비트 수가 사용되므로 기준 거리에 대한 정보의 양자화 레벨 사이의 차이가 지나치게 큰 경우, 렌더러는 거리의 변화가 렌더링에 미치는 영향을 잘 반영하지 못할 수 있다. 또한, 기준 거리에 대한 정보의 양자화 레벨 사이의 차이가 지나치게 작은 경우, 기준 거리에 대한 정보를 지시하는 필드의 전송 및 저장 부담이 커질 수 있다. 따라서 기준 거리에 대한 정보를 나타내기 위한 적절한 양자화 방법이 필요하다.
메타데이터는 지수 함수를 사용하여 채널 기준 거리를 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다. 이러한 실시 예에서 채널 기준 거리 정보의 값이 커짐에 따라 채널 기준 거리 정보가 나타내는 거리도 지수 함수에 따라 증가된다. 따라서 렌더러는 거리에 따라 감쇄되는 소리의 크기를 균등하게 렌더링할 수 있다.
앞서 설명한 메타데이터에서와 같이, 채널 기준 거리 정보를 지시하는 필드의 비트 수는 오브젝트 거리 정보를 지시하는 필드의 비트 수보다 적을 수 있다. 스피커의 위치를 시뮬레이션하는 채널 신호보다 실시간으로 변할 수 있는 오브젝트의 위치를 시뮬레이션하는 오브젝트 신호의 거리 표현이 정밀할 필요가 있을 수 있기 때문이다. 채널 기준 거리 정보가 나타낼 수 있는 기준 거리 값의 셋(set)은 오브젝트 거리 정보가 나타낼 수 있는 오브젝트 거리 값의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 채널 신호와 오브젝트 신호가 함께 렌더링될 수 있을 때, 렌더러는 채널 신호와 오브젝트 신호 중 적어도 어느 하나를 효율적으로 렌더링할 수 있다.
채널 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 450mm일 수 있다. 기준 거리가 일정 크기 이하일 경우, 기준 거리의 변화가 렌더링에 미치는 영향이 미비할 수 있기 때문이다. 이러한 실시 예를 통해, 채널 기준 정보를 나타내기 위해 필요한 비트 수를 줄일 수 있다.
또한, 렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 디폴트 기준 거리를 적용할 수 있다. 채널 신호가 인코딩된 비트스트림이 채널 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 채널 디폴트 기준 거리를 채널 신호의 기준 거리로 간주할 수 있다. 이때, 채널 디폴트 기준 거리는 미리 지정된 값일 수 있다. 미리 지정된 값은 1008mm일 수 있다.
구체적인 실시 예에서 채널 기준 거리 정보는 다음 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Reference distance = distanceOffset + [10^(0.03225380 * (referece_distance + 82)) -1]
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 450mm부터 최대 47521mm에 해당하는 거리를 지시할 수 있다.
구체적으로 앞서 설명한 메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000001
또한, 앞서 설명한 GOA 메타데이터의 채널 기준 정보(goa_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000002
도 4는 본 발명의 또 다른 실시 예에 따른 렌더러가 사용하는 메타데이터 컨피겨레이션의 신택스를 보여준다. 또한, 도 5는 본 발명의 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다. 도 6은 본 발명의 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)과 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
채널 디폴트 기준 거리는 채널 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일한 값으로 설정될 수 있다. 구체적으로 채널 디폴트 기준 거리는 오브젝트 디폴트 거리와 동일한 값으로 설정될 수 있다. 구체적으로 채널 디폴트 기준 거리는 앰비소닉 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 채널 기준 거리 정보의 값이 특정 값인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리의 디폴트 값을 지시할 수 있다. 채널 기준 거리 정보가 채널 디폴트 기준 거리를 지시하는 경우, 채널 기준 거리 정보는 채널 기준 거리를 지시하기 위해 사용하는 지수 함수를 사용하지 않고 미리 지정된 값을 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 채널 기준 거리 정보의 값이 0부터 62까지인 경우, 다음의 수식을 이용하여 채널 신호의 기준 거리를 지시할 수 있다.
Reference distance = distanceOffset + [10^(0.03225380 * (bs_reference_distance + 83)) -1]
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 484mm부터 최대 51184mm에 해당하는 거리를 지시할 수 있다.
또한, 채널 기준 거리 정보 값이 63인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리가 채널 디폴트 기준 값임을 나타낼 수 있다. 채널 디폴트 기준 값은 2^(5/3)m (즉, 3174.8mm)임을 지시할 수 있다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000003
도 4의 실시 예에서 기준 거리 플래그(has_reference_distance)가 활성화되지 않은 경우, 기준 거리 정보(bs_reference_distance)의 값은 디폴트 기준 거리를 지시하는 미리 지정된 값으로 설정될 수 있다. 이때, 미리 지정된 값은 63일 수 있다. 도 4의 메타데이터 컨피겨레이션의 신택스 중 나머지는 도 3에서 설명한 것과 동일할 수 있다.
앞서 설명한 바와 같이, 메타데이터 프레임에 해당하는 프레임이 인트라 코딩된 경우, 메타데이터 프레임은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)을 포함할 수 있다. 도 5는 구체적인 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)은 모든 오브젝트 신호의 거리가 고정된 값인지를 지시하는 고정 거리 플래그(fixed_distance)를 포함할 수 있다. 또한, 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)은 모든 오브젝트에 공통된 오브젝트 거리가 사용되는지 지시하는 공통 거리(common_distance) 플래그를 포함할 수 있다. 고정 거리 플래그 또는 공통 거리 플래그가 활성화된 경우, 렌더러는 오브젝트 신호의 거리의 디폴트 값을 사용하여 모든 오브젝트 신호를 렌더링할 수 있다. 고정 거리 플래그 또는 공통 거리 플래그가 활성화되지 않은 경우, 렌더러는 각 오브젝트 신호의 거리(position_distance)를 기초로 각 오브젝트 신호를 렌더링할 수 있다.
또한, 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)은 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)을 통해 오브젝트 신호의 기준 거리를 지시할 수 있다. 도 6(a)는 구체적인 실시 예에 따른 다이나믹 메타데이터 프레임(dynamicProdMetadataFrame)의 신택스를 보여준다. 도 6(b)는 구체적인 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
싱글 다이나믹 메타데이터 프레임에서 오브젝트 신호의 거리(position_distance)는 절대 값으로 전송되거나 차등적으로 전송될 수 있다. 싱글 다이나믹 메타데이터 프레임은 오브젝트 거리가 절대 값으로 전송되거나 차등적으로 전송되는지 지시하는 절대 거리 플래그(flag_dist_absolute)를 포함할 수 있다. 절대 거리 플래그(flag_dist_absolute)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 신호의 거리를 절대값으로 지시한다. 구체적으로 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 신호의 거리는 스윗스팟에 있는 청취자의 머리 중앙부터 오브젝트까지의 거리일 수 있다. 이때, 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000004
또한, 절대 거리 플래그(flag_dist_absolute)가 비활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 신호의 이전 오브젝트 거리의 값과 현재 오브젝트 거리 값의 차이를 지시할 수 있다. 구체적으로 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 오브젝트 신호의 이전 오브젝트 거리의 값과 현재 오브젝트 거리의 값의 차이를 지시할 수 있다. 싱글 다이나믹 메타데이터 프레임은 인트라 프레임 기간(intra-frame period)동안 오브젝트 신호의 거리가 변경되는지 지시하는 거리 플래그(distance_flag)를 포함할 수 있다. 거리 플래그(distance_flag)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 선형적으로 인터폴레이션된 값과 오브젝트 신호의 실제(actual) 오브젝트 거리 값 사이의 거리 차이(position_distance_difference)를 지시할 수 있다. 또한, 거리 플래그(distance_flag)가 활성화된 경우, 싱글 다이나믹 메타데이터 프레임은 오브젝트 거리 차이를 지시하기 위해 필요한 비트 수(nBitsDistance)도 지시할 수 있다. 앞서 설명한 채널 기준 거리 정보에 대한 실시 예들은 앰비소닉 기준 거리 정보에도 동일하게 적용될 수 있다. 이에 대해서는 도 7을 통해 구체적으로 설명한다.
도 7은 본 발명의 일 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
메타데이터는 지수 함수를 사용하여 앰비소닉 기준 거리를 지시할 수 있다. 구체적으로 앰비소닉 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다. 이러한 실시 예에서 앰비소닉 기준 거리 정보의 값이 커짐에 따라 앰비소닉 기준 거리 정보가 나타내는 거리도 지수 함수에 따라 증가된다. 따라서 렌더러는 거리에 따라 감쇄되는 소리의 크기를 균등하게 렌더링할 수 있다.
앞서 설명한 메타데이터에서와 같이, 앰비소닉 기준 거리 정보를 지시하는 필드의 비트수는 오브젝트 거리 정보를 지시하는 필드의 비트 수보다 적을 수 있다. 앰비소닉 기준 거리 정보가 나타낼 수 있는 기준 거리 값의 셋은 오브젝트 거리 정보가 나타낼 수 있는 오브젝트 거리 값의 셋의 서브셋일 수 있다. 이를 통해 앰비소닉 신호와 오브젝트 신호가 함께 렌더링될 수 있을 때, 렌더러는 앰비소닉 신호와 오브젝트 신호 중 적어도 어느 하나를 효율적으로 렌더링할 수 있다.
앰비소닉 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 484mm일 수 있다. 기준 거리가 일정 크기 이하일 경우, 기준 거리의 변화가 렌더링에 미치는 영향이 미비할 수 있기 때문이다.
렌더러는 엠비소닉 기준 거리 정보가 정의되지 않은 앰비소닉 신호에 앰비소닉 신호의 기준 거리의 디폴트 값을 적용할 수 있다. 설명의 편의를 위해 앰비소닉 신호의 기준 거리 값의 디폴트 값을 앰비소닉 디폴트 기준 거리로 지칭한다. 앰비소닉 신호가 인코딩된 비트스트림이 앰비소닉 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 앰비소닉 디폴트 기준 거리를 앰비소닉 신호의 기준 거리로 간주할 수 있다. 앰비소닉 디폴트 기준 거리 값은 앰비소닉 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 구체적으로 앰비소닉 디폴트 기준 거리는 오브젝트 신호 또는 채널 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 앰비소닉 기준 거리 정보의 값이 특정 값인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보가 앰비소닉 디폴트 기준 거리를 지시하는 경우, 앰비소닉 기준 거리 정보는 기준 거리를 지시하기 위해 사용하는 지수 함수를 사용하지 않고 미리 지정된 값을 지시할 수 있다. 구체적으로 앰비소닉 기준 거리 정보는 앰비소닉 기준 거리 정보의 값이 0부터 62까지인 경우, 다음의 수식을 이용하여 앰비소닉 신호의 기준 거리를 지시할 수 있다.
Reference distance = distanceOffset + [10^(0.03225380 * (bs_reference_distance + 83)) -1]
이때, Reference distance는 앰비소닉 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 앰비소닉 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 10mm일 수 있다. 또한, reference_distance는 앰비소닉 기준 거리 정보의 값을 나타낸다. 앰비소닉 기준 거리 정보는 최소 484mm부터 최대 51184mm에 해당하는 거리를 지시할 수 있다.
또한, 앰비소닉 기준 거리 정보 값이 63인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시할 수 있다. 앰비소닉 디폴트 기준 거리는 2^(5/3)m (즉, 3174.8mm)일 수 있다. 또한, 비트스트림이 앰비소닉 신호의 기준 거리를 정의하지 않은 경우, 렌더러는 앰비소닉 디폴트 기준 거리를 앰비소닉 신호의 기준 거리로 간주할 수 있다.
도 7(a)는 GOA 메타데이터를 보여준다. GOA 메타데이터는 GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)가 오브젝트 디폴트 거리 이외의 값을 지시하는지 나타내는 GOA 오브젝트 거리 플래그(goa_hasObjectDistance)를 포함할 수 있다. 이때, GOA 메타데이터는 오브젝트 신호 그룹 별로 GOA 메타데이터의 오브젝트 거리 정보가 오브젝트 디폴트 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GOA 오브젝트 거리 플래그(goa_hasObjectDistance)가 활성화된 경우, GOA 메타데이터의 오브젝트 거리 정보(goa_bsObjectDistance)는 오브젝트 디폴트 거리 이외의 값을 지시한다. 오브젝트 거리 정보(goa_ bsObjectDistance)는 8비트로 지시될 수 있다. GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000005
도 7(b)는 GCA 메타데이터를 보여준다. GCA 메타데이터는 GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)가 디폴트 거리 이외의 값을 지시하는지 나타내는 GCA 채널 거리 플래그(gca_hasReferenceDistance)를 포함할 수 있다. 이때, GCA 메타데이터는 채널 신호 그룹 별로 GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)가 채널 디폴트 기준 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GCA 채널거리 플래그(gca_hasReferenceDistance)가 활성화된 경우, GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 6비트로 지시될 수 있다. 또한, GCA 메타데이터는 바이노럴 렌더링이 수행되는 경우, 해당 채널 신호 그룹이 바로(directly) 헤드폰으로 출력되는지 지시하는 플래그(gca_directHeadphone)를 포함할 수 있다. GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000006
도 7(c)는 GHA 메타데이터를 보여준다. GHA 메타데이터는 GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)가 앰비소닉 디폴트 기준 거리 이외의 값을 지시하는지 나타내는 GHA 앰비소닉 거리 플래그(gha_hasReferenceDistance)를 포함할 수 있다. 이때, GHA 메타데이터는 앰비소닉 신호 그룹 별로 GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)가 앰비소닉 디폴트 기준 거리 이외의 값을 지시하는지 나타내는지 지시할 수 있다. GHA 앰비소닉 거리 플래그(gha_hasReferenceDistance)가 활성화된 경우, GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 앰비소닉 디폴트 기준 거리 이외의 값을 지시한다. 앰비소닉 기준 거리 정보는 6비트로 지시될 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000007
앞서 설명한 바와 같이 채널 디폴트 기준 거리는 채널 신호와 함께 재생될 수 있는 엘리멘트 신호의 기준 거리의 디폴트 값과 동일하게 설정될 수 있다. 또한, 채널 기준 거리 정보의 값이 특정 값인 경우, 채널 기준 거리 정보는 채널 신호의 기준 거리의 디폴트 값을 지시할 수 있다. 이를 위해 채널 기준 거리 정보는 특정 값에서 채널 디폴트 기준 거리에 해당하는 지수 함수를 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다.
구체적으로 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Reference distance = distanceOffset + 2^[(bs_reference_distance + 99)/11]
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, distanceOffset은 채널 신호의 기준 거리의 오프셋 값을 나타낸다. 구체적으로 distanceOffset의 값은 2^(5/3)*1000 - 2^(128/11)으로 약 -8.6220mm일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000008
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000009
GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000010
GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000011
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000012
또 다른 구체적인 실시 예에서 메타데이터는 미리 지정된 거리와 같거나 작은 채널 신호의 기준 거리는 선형화된 간격으로 채널 신호의 기준 거리를 지시할 수 있다. 이때, 메타데이터는 미리 지정된 거리보다 큰 채널 신호의 기준 거리는 지수 함수를 사용하여 지시할 수 있다. 미리 지정된 거리는 3.1m일 수 있다. 이러한 실시 예에서 채널 신호의 기준 거리가 상대적으로 가까운 경우, 채널 기준 거리 정보는 세밀한 양자화 간격을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 채널 신호의 기준 거리가 상대적으로 먼 경우, 채널 기준 거리 정보는 세밀하지 않은 양자화 간격을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 적용될 수 있다.
구체적으로 채널 기준 거리 정보의 값이 0부터 38인 경우, 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Reference_distance = (4 * bs_reference_distance + 4) / 160 * default_reference_distance
구체적으로 채널 기준 거리 정보의 값이 39부터 63인 경우, 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Reference_distance = 10^(1/20 * (bs_reference_distance - 39)) * default_reference_distance
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미터(m)이다. 또한, default_reference_distance는 채널 디폴트 기준 거리를 나타낸다. default_reference_distance의 값은 2^(5/3)(즉, 3.1748m)일 수 있다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 39인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000013
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000014
GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000015
GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 39인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000016
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에 따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 0.0794m부터 최대 50.317m에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 39인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000017
또 다른 구체적인 실시 예에서 메타데이터는 지수 함수를 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다.
구체적으로 채널 기준 거리 정보의 값이 0부터 38인 경우, 채널 기준 거리 정보는 아래 수식에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Reference distance = A*[2^(C*bs_reference_distance)] + B;
이때, A = 2^9, B = 2^(5/3)*1000 - 2^(128/11)으로 약 - 8 .6220mm, 및 C = 1/11 일 수 있다.
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000018
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000019
GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000020
GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000021
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 503mm부터 최대 27115mm에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 29인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000022
다만 이러한 실시 예들을 따를 경우, 채널 기준 거리 정보는 비교적 짧은 거리에서 지나치게 세밀한 양자화 간격을 사용하여 채널 신호의 기준 기리를 지시하게된다. 또 다른 구체적인 실시 예에서 메타데이터는 지수 함수 사용하여 채널 신호의 기준 거리를 지시하고, 채널 신호의 기준 거리에 따라 지수 함수의 양자화 간격에 따라 조정될 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 앞서 설명한 실시 예들이 적용될 수 있다.
구체적으로 메타데이터는 다음의 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다.
reference_distance = A*2^(C*bs_reference_distance) + B;
이때, Reference distance는 채널 신호의 기준 거리이다. 또한, bs_reference_distance는 채널 기준 거리 정보의 값을 나타낸다. 채널 기준 거리 정보의 값이 0부터 37인 경우, A = 2^(-13/12), B = 0 및 C = 1/12일 수 있다. 또한, 채널 기준 거리 정보의 값이 38부터 55인 경우, A = 2^(-28/9), B = 0 및 C = 1/9일 수 있다. 또한, 채널 기준 거리 정보의 값이 56부터 63인 경우, A = 2^(-31/6), B = 0 및 C = 1/6일 수 있다. 채널 기준 거리 정보는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보의 값이 33인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000023
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000024
GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000025
GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 33인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000026
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 472mm부터 최대 40318mm에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 33인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리를 지시한다.
Figure PCTKR2019004248-appb-img-000027
본 발명의 또 다른 실시 예로, 메타데이터는 선형 함수와 지수 함수가 조합된 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이때, 선형 함수와 지수 함수가 조합된 수식은 상대적으로 짧은 거리에서는 선형 함수의 특성이 지수 함수의 특정 보다 더 반영되고 상대적으로 먼 거리에서는 지수 함수의 특성이 선형 함수의 특성보다 더 많이 반영될 수 있다. 구체적으로 채널 기준 거리 정보는 다음 수식을 사용하여 채널 신호의 기준 거리를 지시할 수 있다.
y = alpha*b/Bref*Dref + (1-alpha)*10.^(h*(b-Bref))*Dref;
h = log10(1/(1-alpha)*(Dmax/Dref - alpha*Bmax/Bref))/(Bmax-Bref);
이때, y는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미리 미터(mm)이다. 또한, Dref, Dmax 및 Bmax의 값은 다음과 같을 수 있다.
Dref = 2^(5/3), Dmax = 167000, Bmax = 255
또한, 위 수식에서 alpha가 0에서 1사이의 값으로 설정됨에 따라 지수 함수의 특성과 선형 함수의 특성의 비율이 조정될 수 있다. 구체적인 실시 예에서 alpha는 0.65일 수 있다.
앞서 설명한 바와 같이 채널 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋은 오브젝트 거리 정보가 나타낼 수 있는 거리 값의 셋의 서브셋일 수 있다. 따라서, 또 다른 구체적인 실시 예에서 메타데이터는 오브젝트 거리 정보가 나타낼 수 있는 거리의 셋을 샘플링한 값을 사용하여 채널 신호의 기준 거리를 지시할 수 있다. 이에 대해서는 도 8을 통해 설명한다.
도 8은 본 발명의 일 실시 예에 따른 메타데이터의 채널 기준 거리 정보의 값, 오브젝트 거리 정보의 값, 및 채널 신호의 기준 거리 사이의 관계를 보여준다.
메타데이터의 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 JND(Just-noticable Difference)를 고려하여 설정될 수 있다. 이후 설명하는 실시 예들에서 앞서 설명한 실시 예들과 배치되는 설명이 없는 경우, 이후 설명하는 실시 예들과 앞서 설명한 실시 예들이 함께 적용될 수 있다. 구체적으로 메타데이터의 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 소리 감쇄에 의해 두 지점에서 소리 크기가 JND만큼 차이가 발생할 수 있는 거리 이상으로 설정될 수 있다. 이러한 실시 예에서 채널 신호의 기준 거리 셋은 다음 코드에 따라 오브젝트 신호의 거리의 셋으로부터 샘플링될 수 있다.
Figure PCTKR2019004248-appb-img-000028
또한, 이러한 실시 예들에서 오브젝트 거리 정보는 지수 함수와 선형 함수가 조합된 함수를 사용하여 오브젝트 신호의 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보가 지시하는 기준 거리 사이의 간격은 소리 감쇄에 의해 두 지점에서 소리의 크기가 차이가 0.7dB 이상 발생할 수 있도록 설정될 수 있다. 도 8은 이에 따라 설정된 메타데이터에서 채널 기준 거리 정보의 값(Bit), 오브젝트 거리 정보의 값(Obj_Distance_Index), 및 채널 신호의 기준 거리(Ch_Reference_Distance)간의 관계를 보여준다.
메타데이터 프레임의 채널 기준 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 거리(reference distance)를 지시할 수 있다. 채널 기준 거리 정보(bs_reference_distance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(bs_reference_distance)의 값이 26인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리인 3.175m를 지시한다.
Figure PCTKR2019004248-appb-img-000029
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에따라 오브젝트 거리 정보가 오브젝트 신호의 거리를 지시하는 방법도 달라질 수 있다. 싱글 다이나믹 메타데이터 프레임이 포함하는 오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(position_distance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000030
GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000031
GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 채널 기준 거리 정보(gca_bsReferenceDistance)의 값이 26인 경우, 채널 기준 거리 정보는 채널 디폴트 기준 거리인 3.175m를 지시한다.
Figure PCTKR2019004248-appb-img-000032
이때, distance(x)는 오브젝트 거리 정보의 값이 x인 경우, 오브젝트 거리 정보가 지시하는 기준 거리이다.
또한, 채널 기준 거리 정보가 지시하는 채널 신호의 기준 거리가 달라짐에 따라 앰비소닉 기준 거리 정보가 앰비소닉 신호의 기준 거리를 지시하는 방법도 달라질 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다. 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 최소 0.5m부터 최대 36.1m에 해당하는 거리를 지시할 수 있다. 또한, 앰비소닉 기준 거리 정보(gca_bsReferenceDistance)의 값이 26인 경우, 앰비소닉 기준 거리 정보는 앰비소닉 디폴트 기준 거리인 3.175m를 지시한다.
Figure PCTKR2019004248-appb-img-000033
이때, distance(x)는 오브젝트 거리 정보의 값이 x인 경우, 오브젝트 거리 정보가 지시하는 기준 거리이다.
앞서 설명한 실시 예들에서, 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보는 6비트로 표현되었고, 오브젝트 거리 정보는 8비트로 표현되었다. 구체적인 실시 예에서 채널 기준 거리 정보 및 앰비소닉 기준 거리 정보는 7비트로 표현되었고, 오브젝트 거리 정보는 9비트로 표현될 수 있다.
메타데이터의 채널 기준 거리 정보가 8비트로 표현되는 경우에도 앞서 설명한 실시 예들이 적용될 수 있다. 구체적으로 메타데이터는 지수 함수를 사용하여 채널 기준 거리를 지시할 수 있다. 구체적으로 채널 기준 거리 정보는 해당 지수 함수의 지수의 값을 결정할 수 있다.
채널 신호의 기준 거리 값의 셋은 오브젝트 신호의 기준 거리 값의 셋의 서브셋일 수 있다. 채널 기준 거리 정보가 지시할 수 있는 최소 거리는 0보다 큰 미리 지정된 양수 일 수 있다. 이때, 최소 거리는 0.5m일 수 있다. 또한, 렌더러는 채널 기준 거리 정보가 정의되지 않은 채널 신호에 채널 디폴트 기준 거리 적용할 수 있다. 이때, 채널 디폴트 기준 거리는 미리 지정된 값일 수 있다. 미리 지정된 값은 오브젝트 디폴트 거리와 동일할 수 있다. 구체적으로, 미리 지정된 값은 3.1748m일 수 있다.
구체적인 실시 예에서 채널 기준 거리 정보는 다음의 수식을 이용하여 채널 신호의 기준 거리를 지시할 수 있다.
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
이때, Reference distance는 채널 신호의 기준 거리이고, 기준 거리의 단위는 미터(m)이다. bs_Reference_Distance는 채널 기준 거리 정보의 값이다.
이러한 채널 기준 거리 정보에 대한 실시 예들은 앰비소닉 기준 거리 정보에도 적용될 수 있다. 이러한 실시 예들에 적용되는 메타데이터의 신택스에 대해서는 도 9 내지 도 12를 통해 설명한다. 이후 설명에서 특별히 배치되는 언급이 없는 경우, 앞서 설명한 실시 예들이 함께 적용될 수 있다.
도 9는 본 발명의 또 다른 실시 예에 따라 메타데이터 관련 설정을 지시하는 메타데이터 컨피겨레이션(configuration)의 신택스를 보여준다.
앞서 설명한 바와 같이, 채널 기준 거리 정보는 7비트로 표현될 수 있다. 따라서 메타데이터 컨피겨레이션(configuration)의 채널 기준 거리 정보(bs_reference_distance)는 7비트를 통해 지시될 수 있다. 또한, 채널 디폴트 기준 거리를 지시하는 채널 기준 거리 정보(bs_reference_distance)의 값은 57일 수 있다. 이에 대해서는 추후 다시 설명한다. 채널 기준 거리 정보(bs_reference_distance)는 다음의 표에 따라 채널 신호의 기준 기리(reference distance)를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000034
위에서 설명되지 않은 메타데이터 컨피겨레이션(configuration)의 신택스에 관한 부분은 도 4를 통해 설명한 실시 예에서가 적용될 수 있다.
도 10은 본 발명의 또 다른 실시 예에 따른 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스를 보여준다.
앞서 설명한 바와 같이, 오브젝트 거리 정보는 9비트로 표현될 수 있다. 따라서 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 오브젝트 거리 정보(position_distance)는 9비트를 통해 지시될 수 있다. 또한, 오브젝트 디폴트 거리(default_distance) 역시 9비트를 통해 지시된다.
오브젝트 거리 정보(position_distance)는 다음의 표에 따라 오브젝트 신호의 거리(distance)를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000035
위에서 설명되지 않은 인트라 코딩 메타데이터 프레임(intracodedProdMetadataFrame)의 신택스에 관한 부분은 도 5를 통해 설명한 실시 예가 적용될 수 있다.
도 11은 본 발명의 실시 예에 따른 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스를 보여준다.
싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 오브젝트 거리 정보(position_distance) 역시 9비트를 통해 지시될 수 있다. 위에서 설명되지 않은 싱글 다이나믹 메타데이터 프레임(singleDynamicProdMetadataFrame)의 신택스에 관한 부분은 도 6을 통해 설명한 실시 예가 적용될 수 있다.
도 12는 본 발명의 또 다른 실시 예에 따라 MPEG-H 3D Audio 표준에 따라 정의되지 않은 외부 렌더러가 사용하는 오브젝트 신호의 메타데이터인 GOA 메타데이터, 채널 신호의 메타데이터인 GCA 메타데이터, 및 앰비소닉 신호의 메타데이터인 GHA 메타데이터를 보여준다.
도 12(a)는 GOA 메타데이터를 보여준다. 오브젝트 거리 정보(goa_bsObjectDistance)는 9비트로 지시될 수 있다. GOA 메타데이터가 포함하는 오브젝트 거리 정보(goa_bsObjectDistance)는 다음의 표에 따라 오브젝트 신호의 거리를 지시할 수 있다. 이때, 오브젝트 거리 정보(goa_bsObjectDistance)는 최소 0부터 최대 167Km에 해당하는 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000036
도 12(b)는 GCA 메타데이터를 보여준다. GCA 메타데이터의 채널 기준 거리 정보(gca_bsReferenceDistance)는 채널 디폴트 기준 거리 이외의 값을 지시한다. 채널 기준 거리 정보(gca_bsReferenceDistance)는 7비트로 지시될 수 있다. GCA 메타데이터가 포함하는 채널 기준 거리 정보(gca_bsReferenceDistance)는 다음의 표에 따라 채널 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000037
도 12(c)는 GHA 메타데이터를 보여준다. GHA 메타데이터의 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 7비트로 지시될 수 있다. GHA 메타데이터가 포함하는 앰비소닉 기준 거리 정보(gha_bsReferenceDistance)는 다음의 표에 따라 앰비소닉 신호의 기준 거리를 지시할 수 있다.
Figure PCTKR2019004248-appb-img-000038
도 13은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치가 메타데이터를 생성하는 동작을 보여준다.
오디오 신호 처리 장치는 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정한다(S1301). 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성한다(S1303). 이때, 오디오 신호는 제2 엘리멘트 신호를 포함할(capable of include) 수 있다. 또한, 메타데이터는 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할(capable of include) 수 있다. 이때, 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트 거리 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다. 또한, 제1 엘리멘트 신호는 채널 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다. 또한, 제1 엘리멘트 신호는 앰비소닉 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 제2 엘리멘트의 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 렌더러가 제1 엘리멘트 신호와 제2 엘리멘트 신호 렌더링을 지원하기 위해 고려해야하는 기준 거리와 거리의 개수를 줄일 수 있다. 따라서 이러한 실시 예를 통해 렌더링 효율을 높일 수 있다.
제1 엘리멘트 기준 거리 정보를 지시하는 방법에 도 3 내지 도 12를 통해 설명한 채널 신호의 기준 거리 지시 방법에 관한 실시 예들 또는 앰비소닉 신호의 기준 거리 지시 방법에 관한 실시 예들이 적용될 수 있다. 또한, 제2 엘리멘트 거리 정보를 지시하기 위한 방법에 도 3 내지 도 12를 통해 설명한 오브젝트 신호의 거리 지시 방법에 관한 실시 예들이 적용될 수 있다.
구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수의 지수의 값을 결정할 수 있다. 구체적인 실시 예에서, 제1 엘리멘트 기준 거리 정보는 다음 수식을 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 다음 수식을 사용하여 제1 엘리멘트 신호의 기준 거리를 지시하도록 제1 엘리멘트 기준 거리 정보의 값을 설정할 수 있다.
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
이때, Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)다. 또한, bs_Reference_Distance는 제1 엘리멘트 기준 거리 정보이고, 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수이다.
제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수일 수 있다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 거리 정보는 상기 제2 엘리멘트 신호의 거리가 0임을 지시할 수 있다. 제2 엘리멘트 신호의 거리가 0인 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보의 값을 0으로 설정할 수 있다. 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 제2 엘리멘트 거리 정보는 다음 수식을 사용하여 상기 제2 엘리멘트 신호의 거리를 지시할 수 있다. 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 다음 수식에 따라 제2 엘리멘트 신호의 거리를 지시하도록 제2 엘리멘트 거리 정보의 값을 설정할 수 있다.
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
Distance는 제2 엘리멘트 신호의 거리이고, 제2 엘리멘트 신호의 거리의 단위는 미터(m)일 수 있다. 또한, Position_Distance는 제2 엘리멘트 거리 정보이고, 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수 이다.
제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주할 수 있다. 또한, 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.
제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다. 이때, 제2 엘리멘트 거리 정보가 지시할 수 있는 최소 거리는 0일 수 있다. 이를 통해 기준 거리의 영향이 미미한 미리 지정된 거리 이하의 거리는 하나의 값으로 지시하여, 제1 엘리멘트 기준 거리 정보를 나타내기 필요한 비트 수를 줄일 수 있다.
도 14은 본 발명의 실시 예에 따라 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치가 제1 엘리멘트 신호를 렌더링하는 동작을 보여준다.
오디오 신호 처리 장치는 오디오 신호와 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득한다(S1401). 이때, 오디오 신호는 제2 엘리멘트 신호를 포함할(capable of include) 수 있다. 또한, 메타데이터는 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할(capable of include) 수 있다. 이때, 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 제2 엘리멘트의 거리에 관한 정보의 지시에 사용되는 비트 수보다 적을 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트일 수 있다. 또한, 제1 엘리멘트 신호는 채널 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다. 또한, 제1 엘리멘트 신호는 앰비소닉 신호이고, 제2 엘리멘트 신호는 오브젝트 신호일 수 있다.
제1 엘리멘트 기준 거리 정보가 지시하는 기준 거리의 셋(set)은 제2 엘리멘트의 거리에 관한 정보가 지시하는 기준 거리의 셋(set)의 서브셋(subset)일 수 있다. 이를 통해 렌더러가 제1 엘리멘트 신호와 제2 엘리멘트 신호 렌더링을 지원하기 위해 고려해야하는 기준 거리의 개수를 줄일 수 있다. 따라서 이러한 실시 예를 통해 렌더링 효율을 높일 수 있다.
제1 엘리멘트 기준 거리 정보를 지시하는 방법에 도 3 내지 도 12를 통해 설명한 채널 신호의 기준 거리 지시 방법에 관한 실시 예들 또는 앰비소닉 신호의 기준 거리 지시 방법에 관한 실시 예들이 적용될 수 있다. 또한, 제2 엘리멘트 거리 정보를 지시하기 위한 방법에 도 3 내지 도 12를 통해 설명한 오브젝트 신호의 거리 지시 방법에 관한 실시 예들이 적용될 수 있다.
구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 구체적으로 제1 엘리멘트 기준 거리 정보는 지수 함수의 지수의 값을 결정할 수 있다. 구체적인 실시 예에서, 제1 엘리멘트 기준 거리 정보는 다음 수식을 사용하여 제1 엘리멘트 신호의 기준 거리를 지시할 수 있다. 오디오 신호 처리 장치는 다음 수식에 따라 제1 엘리멘트 신호의 기준 거리를 획득할 수 있다.
Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
이때, Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)다. 또한, bs_Reference_Distance는 제1 엘리멘트 기준 거리 정보이고, 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수이다.
제2 엘리멘트 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 제2 엘리멘트 거리 정보는 제2 엘리멘트 신호의 거리가 0임을 지시할 수 있다. 제2 엘리멘트 거리 정보의 값이 0인 경우, 오디오 신호 처리 장치는 제2 엘리멘트 신호의 거리를 0으로 판단할 수 있다. 이때, 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 제2 엘리멘트 거리 정보는 다음 수식을 사용하여 제2 엘리멘트 신호의 거리를 지시할 수 있다. 제2 엘리멘트 거리 정보의 값이 1부터 511사이의 정수인 경우, 오디오 신호 처리 장치는 다음 수식에 따라 제2 엘리멘트 신호의 거리를 획득할 수 있다.
Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
Distance는 제2 엘리멘트 신호의 거리이고, 제2 엘리멘트 신호의 거리의 단위는 미터(m)일 수 있다. 또한, Position_Distance는 제2 엘리멘트 거리 정보이다. 제2 엘리멘트 거리 정보의 값은 0부터 511까지의 정수이다.
제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주할 수 있다. 또한, 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 오디오 신호 처리 장치는 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주할 수 있다. 제1 엘리멘트 디폴트 기준 거리와 제2 엘리멘트 디폴트 거리는 같은 값일 수 있다.
제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수일 수 있다. 이때, 제2 엘리멘트 거리 정보가 지시할 수 있는 최소 거리는 0일 수 있다. 이를 통해 기준 거리의 영향이 미미한 미리 지정된 거리 이하의 거리는 하나의 값으로 지시하여, 제1 엘리멘트 기준 거리 정보를 나타내기 필요한 비트 수를 줄일 수 있다.
오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호를 렌더링한다(S1403). 구체적으로 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호가 렌더링된 음향의 라우드니스를 조정할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호와 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호로부터 렌더링된 음향과 제2 엘리멘트 신호로부터 렌더링된 음향을 동시에 출력할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보 및 제2 엘리멘트 거리 정보를 기초로 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스와 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스 각각을 조정할 수 있다. 이를 통해 오디오 신호 처리 장치는 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스와 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스 사이의 밸런스를 맞출 수 있다.
또한, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제1 엘리멘트 신호에 딜레이를 적용할 수 있다. 오디오 신호 처리 장치는 제1 엘리멘트 신호와 제2 엘리멘트 신호를 동시에 렌더링할 수 있다. 이때, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보 및 제2 엘리멘트 거리 정보를 기초로 기초로 제1 엘리멘트 신호와 제2 엘리멘트 신호 각각에 딜레이를 적용하여 음향 지연 시간을 맞출 수 있다. 제1 엘리멘트 신호의 기준 거리 및 제2 엘리멘트 신호의 거리에 따라 청취자가 느껴야하는 거리감이 달라지기 때문이다.
또한, 오디오 신호는 앰비소닉 신호와 채널 신호를 모두 포함할 수 있다. 이때, 오디오 신호 처리 장치는 하나의 기준 거리 정보를 사용하여 앰비소닉 신호와 채널 신호를 동시에 렌더링할 수 있다. 구체적으로 오디오 신호 처리 장치는 동일한 기준 거리를 사용하여 앰비소닉 신호와 채널 신호를 동시에 렌더링할 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 앰비소닉 신호와 채널 신호에 서로 다른 기준 거리를 적용하여 렌더링할 수 있다. 이 경우 기준 거리의 차이에 따른 음장 보정 및 라우드니스 보정이 수행될 수 있다. 또한 기준 거리의 차이에 따라 서로 다른 딜레이를 적용하여 음향 지연 시간을 맞출 수 있다. 또 다른 구체적인 실시 예에서 오디오 신호 처리 장치는 채널 기준 거리 정보를 기초로 채널 신호를 렌더링하고, 앰비소닉 기준 거리 정보를 기초로 앰비소닉 신호를 렌더링할 수 있다. 또한, 오디오 신호 처리 장치는 제1 엘리멘트 기준 거리 정보를 기초로 제2 엘리멘트 신호를 렌더링할 수 있다.
이상에서는 본 발명을 구체적인 실시 예를 통하여 설명하였으나, 당업자라면 본 발명의 취지 및 범위를 벗어나지 않고 수정, 변경을 할 수 있다. 즉, 본 발명은 멀티 오디오 신호에 대한 프로세싱 실시 예에 대하여 설명하였지만, 본 발명은 오디오 신호뿐만 아니라 비디오 신호를 포함하는 다양한 멀티미디어 신호에도 동일하게 적용 및 확장 가능하다. 따라서 본 발명의 상세한 설명 및 실시 예로부터 본 발명이 속하는 기술분야에 속한 사람이 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석된다.

Claims (26)

  1. 제1 엘리멘트 신호를 포함하는 오디오 신호를 렌더링하는 오디오 신호 처리 장치에서,
    상기 오디오 신호와 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 획득하고, 상기 제1 엘리멘트 기준 거리 정보는 상기 제1 엘리멘트 신호의 기준 거리를 지시하고, 상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호를 렌더링하는 프로세서를 포함하고,
    상기 오디오 신호는 상기 제1 엘리멘트 신호와 동시에 렌더링될 수 있는 제2 엘리멘트 신호를 포함할 수 있고,
    상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있고,
    상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 상기 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수보다 적고,
    상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)인
    오디오 신호 처리 장치.
  2. 제1항에서,
    상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시하는
    오디오 신호 처리 장치.
  3. 제2항에서,
    상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정하는
    오디오 신호 처리 장치.
  4. 제3항에서,
    상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 사용되는 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 사용되는 비트 수는 9비트인
    오디오 신호 처리 장치.
  5. 제4항에서,
    상기 프로세서는
    다음 수식을 사용하여 상기 제1 엘리멘트 기준 거리 정보로부터 상기 제1 엘리멘트 신호의 기준 거리를 획득하고
    Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
    상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,
    상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,
    상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수인
    오디오 신호 처리 장치.
  6. 제5항에서,
    상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이고,
    상기 프로세서는
    상기 제2 엘리멘트 거리 정보의 값이 0인 경우, 상기 제2 엘리멘트 신호의 거리가 0인 것으로 판단하고,
    상기 제2 엘리멘트 거리 정보의 값이 1부터 511인 경우, 다음 수식을 사용하여 상기 제2 엘리멘트 거리 정보로부터 상기 제2 엘리멘트 신호의 거리를 획득하고
    Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
    상기 Distance는 상기 제2 엘리멘트 신호의 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고,
    상기 Position_Distance는 제2 엘리멘트 거리 정보이인
    오디오 신호 처리 장치.
  7. 제1항에서,
    상기 프로세서는
    상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보가 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주하고,
    상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보가 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주하고,
    상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값인
    오디오 신호 처리 장치.
  8. 제1항에서,
    상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수인
    오디오 신호 처리 장치.
  9. 제1항에서,
    상기 제1 엘리멘트 신호를 포함하는 오디오 신호는 상기 제2 엘리멘트 신호를 포함하고,
    상기 프로세서는
    상기 제1 엘리멘트 신호와 상기 제2 엘리멘트 신호를 동시에 렌더링하는
    오디오 신호 처리 장치.
  10. 제9항에서,
    상기 프로세서는
    상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호가 렌더링된 음향 출력의 라우드니스를 조정하는
    오디오 신호 처리 장치
  11. 제9항에서,
    상기 프로세서는
    상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제1 엘리멘트 신호에 딜레이를 적용하고, 상기 제2 엘리멘트 거리 정보를 기초로 상기 제2 엘리멘트 신호에 딜레이를 적용하는
    오디오 신호 처리 장치.
  12. 제1항에서,
    상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
    오디오 신호 처리 장치.
  13. 제1항에서,
    상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
    오디오 신호 처리 장치.
  14. 제1항에서,
    상기 제1 엘리멘트 신호는 채널 신호이고,
    상기 오디오 신호는 앰비소닉 신호를 더 포함하고,
    상기 프로세서는
    상기 제1 엘리멘트 신호의 기준 거리를 기초로 상기 채널 신호와 상기 앰비소닉 신호를 렌더링하는
    오디오 신호 처리 장치.
  15. 제1항에서,
    상기 제1 엘리멘트 신호는 채널 신호이고,
    상기 오디오 신호는 앰비소닉 신호를 더 포함하고,
    상기 메타데이터는 상기 채널 신호의 기준 거리를 지시하는 채널 기준 거리 정보와 상기 앰비소닉 신호의 기준 거리를 지시하는 앰비소닉 기준 거리 정보를 포함하고,
    상기 프로세서는
    상기 채널 기준 거리 정보를 기초로 상기 채널 신호를 렌더링하고, 상기 앰비소닉 기준 거리 정보를 기초로 상기 앰비소닉 신호를 렌더링하는
    오디오 신호 처리 장치.
  16. 제1항에서,
    상기 프로세서는
    상기 제1 엘리멘트 기준 거리 정보를 기초로 상기 제2 엘리멘트 신호를 렌더링하는
    오디오 신호 처리 장치.
  17. 제1 엘리멘트 신호를 포함하는 오디오 신호를 인코딩하는 오디오 신호 처리 장치에서,
    상기 제1 엘리멘트 신호의 기준 거리를 지시하는 제1 엘리멘트 기준 거리 정보를 설정하고, 상기 제1 엘리멘트 기준 거리 정보를 포함하는 메타데이터를 생성하는 프로세서를 포함하고,
    상기 오디오 신호는 제2 엘리멘트 신호를 포함할 수 있고,
    상기 메타데이터는 상기 제2 엘리멘트 신호의 거리를 지시하는 제2 엘리멘트 거리 정보를 포함할 수 있고,
    상기 제1 엘리멘트 기준 거리 정보의 지시에 사용되는 비트 수는 상기 제2 엘리멘트 거리 정보의 지시에 사용되는 비트 수보다 적고,
    상기 제1 엘리멘트 기준 거리 정보가 나타낼 수 있는 기준 거리의 셋(set)은 상기 제2 엘리멘트 거리 정보가 나타낼 수 있는 거리의 셋(set)의 서브셋(subset)인
    오디오 신호 처리 장치.
  18. 제17항에서,
    상기 제1 엘리멘트 기준 거리 정보는 지수 함수를 사용하여 상기 제1 엘리멘트 신호의 기준 거리를 지시하는
    오디오 신호 처리 장치.
  19. 제18항에서,
    상기 제1 엘리멘트 기준 거리 정보는 상기 지수 함수의 지수의 값을 결정하는
    오디오 신호 처리 장치.
  20. 제19항에서,
    상기 제1 엘리멘트 기준 거리 정보를 나타내기 위해 필요한 비트 수는 7비트이고, 제2 엘리멘트 거리 정보를 나타내기 위해 필요한 비트 수는 9비트인
    오디오 신호 처리 장치.
  21. 제20항에서,
    상기 프로세서는
    상기 제1 엘리멘트 기준 거리 정보가 다음 수식에 따라 상기 제1 엘리멘트 신호의 기준 거리를 지시하도록 상기 제1 엘리멘트 기준 거리 정보의 값을 설정하고,
    Reference distance = 0.01 * 2^(0.0472188798661443 *(bs_Reference_Distance + 119))
    상기 Refererence distance는 상기 제1 엘리멘트 신호의 기준 거리이고, 상기 제1 엘리멘트 신호의 기준 거리의 단위는 미터(m)이고,
    상기 bs_Reference_Distance는 상기 제1 엘리멘트 기준 거리 정보이고,
    상기 제1 엘리멘트 기준 거리 정보의 값은 0부터 127까지의 정수인
    오디오 신호 처리 장치.
  22. 제21항에서,
    상기 제2 엘리멘트 기준 거리 정보가 나타낼 수 있는 값은 0부터 511까지의 정수이고,
    상기 프로세서는
    상기 제2 엘리멘트 신호의 거리가 0인 경우, 상기 제2 엘리멘트 거리 정보의 값을 0으로 설정하고,
    상기 제2 엘리멘트 신호의 거리가 0이 아닌 경우, 상기 제2 엘리멘트 거리 정보가 다음 수식에 따라 상기 제2 엘리멘트 신호의 거리를 지시하도록 상기 제2 엘리멘트 거리 정보의 값을 설정하고,
    Distance = 0.01 * 2^(0.0472188798661443 *(Position_Distance - 1))
    상기 Distance는 상기 제2 엘리멘트 신호의 기준 거리이고, 상기 제2 엘리멘트 신호의 거리의 단위는 미터(m)이고,
    상기 Position_Distance는 제2 엘리멘트 거리 정보이고,
    상기 제2 엘리멘트 거리 정보의 값은 1부터 511까지의 정수인
    오디오 신호 처리 장치.
  23. 제17항에서,
    상기 제1 엘리멘트 기준 거리 정보가 정의되지 않은 경우, 상기 제1 엘리멘트 기준 거리 정보는 제1 엘리멘트 디폴트 기준 거리를 지시하는 것으로 간주되고,
    상기 제2 엘리멘트 거리 정보가 정의되지 않은 경우, 상기 제2 엘리멘트 거리 정보는 제2 엘리멘트 디폴트 거리를 지시하는 것으로 간주되고,
    상기 제1 엘리멘트 디폴트 기준 거리와 상기 제2 엘리멘트 디폴트 거리는 같은 값인
    오디오 신호 처리 장치.
  24. 제17항에서,
    상기 제1 엘리멘트 기준 거리 정보가 지시할 수 있는 최소 기준 거리는 0보다 큰 미리 지정된 양수인
    오디오 신호 처리 장치.
  25. 제17항에서,
    상기 제1 엘리멘트 신호는 채널 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
    오디오 신호 처리 장치.
  26. 제17항에서,
    상기 제1 엘리멘트 신호는 앰비소닉 신호이고, 상기 제2 엘리멘트 신호는 오브젝트 신호인
    오디오 신호 처리 장치.
PCT/KR2019/004248 2018-04-10 2019-04-10 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치 WO2019199040A1 (ko)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2020554183A JP7102024B2 (ja) 2018-04-10 2019-04-10 メタデータを利用するオーディオ信号処理装置
US17/046,302 US11540075B2 (en) 2018-04-10 2019-04-10 Method and device for processing audio signal, using metadata
KR1020197033407A KR102637876B1 (ko) 2018-04-10 2019-04-10 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
CN201980024365.9A CN112005560B (zh) 2018-04-10 2019-04-10 使用元数据处理音频信号的方法和设备
JP2022104743A JP7371968B2 (ja) 2018-04-10 2022-06-29 メタデータを利用するオーディオ信号処理方法及び装置
US17/992,944 US11950080B2 (en) 2018-04-10 2022-11-23 Method and device for processing audio signal, using metadata

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
KR10-2018-0041394 2018-04-10
KR20180041394 2018-04-10
KR10-2018-0078449 2018-07-05
KR20180078449 2018-07-05
KR10-2018-0079649 2018-07-09
KR20180079649 2018-07-09
KR20180080911 2018-07-12
KR10-2018-0080911 2018-07-12
KR20180083819 2018-07-19
KR10-2018-0083819 2018-07-19

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US17/046,302 A-371-Of-International US11540075B2 (en) 2018-04-10 2019-04-10 Method and device for processing audio signal, using metadata
US17/992,944 Continuation US11950080B2 (en) 2018-04-10 2022-11-23 Method and device for processing audio signal, using metadata

Publications (1)

Publication Number Publication Date
WO2019199040A1 true WO2019199040A1 (ko) 2019-10-17

Family

ID=68162888

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/004248 WO2019199040A1 (ko) 2018-04-10 2019-04-10 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치

Country Status (5)

Country Link
US (2) US11540075B2 (ko)
JP (2) JP7102024B2 (ko)
KR (1) KR102637876B1 (ko)
CN (1) CN112005560B (ko)
WO (1) WO2019199040A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7102024B2 (ja) * 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
US11381209B2 (en) * 2020-03-12 2022-07-05 Gaudio Lab, Inc. Audio signal processing method and apparatus for controlling loudness level and dynamic range

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140000240A (ko) * 2010-11-05 2014-01-02 톰슨 라이센싱 고차 앰비소닉 오디오 데이터를 위한 데이터 구조
KR20140092779A (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
US20170011751A1 (en) * 2014-03-26 2017-01-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for screen related audio object remapping
US20170366914A1 (en) * 2016-06-17 2017-12-21 Edward Stein Audio rendering using 6-dof tracking

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4134794B2 (ja) * 2003-04-07 2008-08-20 ヤマハ株式会社 音場制御装置
JP2005333621A (ja) * 2004-04-21 2005-12-02 Matsushita Electric Ind Co Ltd 音情報出力装置及び音情報出力方法
WO2010113454A1 (ja) * 2009-03-31 2010-10-07 パナソニック株式会社 記録媒体、再生装置、及び集積回路
JP4714307B2 (ja) * 2009-05-19 2011-06-29 パナソニック株式会社 記録媒体、再生装置、符号化装置、集積回路、及び再生出力装置
EP2700250B1 (en) * 2011-04-18 2015-03-04 Dolby Laboratories Licensing Corporation Method and system for upmixing audio to generate 3d audio
GB201211512D0 (en) * 2012-06-28 2012-08-08 Provost Fellows Foundation Scholars And The Other Members Of Board Of The Method and apparatus for generating an audio output comprising spartial information
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
CA3036880C (en) * 2013-03-29 2021-04-27 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
CN105264600B (zh) 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
US9905231B2 (en) * 2013-04-27 2018-02-27 Intellectual Discovery Co., Ltd. Audio signal processing method
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
EP2830332A3 (en) * 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830047A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
WO2015041477A1 (ko) * 2013-09-17 2015-03-26 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
CN105723740B (zh) * 2013-11-14 2019-09-17 杜比实验室特许公司 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
CN105657633A (zh) * 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
CN105120418B (zh) * 2015-07-17 2017-03-22 武汉大学 双声道3d音频生成装置及方法
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
CA3032603A1 (en) * 2016-08-01 2018-02-08 Magic Leap, Inc. Mixed reality system with spatialized audio
US10631115B2 (en) * 2016-08-31 2020-04-21 Harman International Industries, Incorporated Loudspeaker light assembly and control
CN107820166B (zh) * 2017-11-01 2020-01-07 江汉大学 一种声音对象的动态渲染方法
JP7102024B2 (ja) 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140000240A (ko) * 2010-11-05 2014-01-02 톰슨 라이센싱 고차 앰비소닉 오디오 데이터를 위한 데이터 구조
KR20140092779A (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
US20170011751A1 (en) * 2014-03-26 2017-01-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for screen related audio object remapping
US20170366914A1 (en) * 2016-06-17 2017-12-21 Edward Stein Audio rendering using 6-dof tracking

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JACKSON, PHILIP ET AL., OBJECT-BASED AUDIO RENDERING, 24 August 2017 (2017-08-24), pages 1 , 15 - 16, XP040706699, Retrieved from the Internet <URL:https://arxiv.org/ftp/arxiv/papers/1708/1708.07218.pdf> [retrieved on 20190628] *

Also Published As

Publication number Publication date
JP2022126849A (ja) 2022-08-30
KR102637876B1 (ko) 2024-02-20
US11540075B2 (en) 2022-12-27
JP2021517668A (ja) 2021-07-26
CN112005560B (zh) 2021-12-31
CN112005560A (zh) 2020-11-27
US11950080B2 (en) 2024-04-02
KR20200130644A (ko) 2020-11-19
US20210084426A1 (en) 2021-03-18
JP7102024B2 (ja) 2022-07-19
US20230091281A1 (en) 2023-03-23
JP7371968B2 (ja) 2023-10-31

Similar Documents

Publication Publication Date Title
WO2018056780A1 (ko) 바이노럴 오디오 신호 처리 방법 및 장치
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2014157975A1 (ko) 오디오 장치 및 이의 오디오 제공 방법
WO2015147530A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2017191970A2 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 방법 및 장치
WO2018182274A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015147619A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2010087630A2 (en) A method and an apparatus for decoding an audio signal
WO2015152663A2 (ko) 오디오 신호 처리 방법 및 장치
WO2010008229A1 (ko) 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
WO2016089180A1 (ko) 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
WO2012005507A2 (en) 3d sound reproducing method and apparatus
WO2015099429A1 (ko) 오디오 신호 처리 방법, 이를 위한 파라메터화 장치 및 오디오 신호 처리 장치
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2019147064A1 (ko) 오디오 데이터를 송수신하는 방법 및 그 장치
WO2018147701A1 (ko) 오디오 신호 처리 방법 및 장치
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2021118107A1 (en) Audio output apparatus and method of controlling thereof
WO2010087631A2 (en) A method and an apparatus for decoding an audio signal
WO2019199040A1 (ko) 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
WO2014148845A1 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2019035622A1 (ko) 앰비소닉 신호를 사용하는 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19784498

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020554183

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19784498

Country of ref document: EP

Kind code of ref document: A1