WO2015105393A1 - 삼차원 오디오 재생 방법 및 장치 - Google Patents

삼차원 오디오 재생 방법 및 장치 Download PDF

Info

Publication number
WO2015105393A1
WO2015105393A1 PCT/KR2015/000303 KR2015000303W WO2015105393A1 WO 2015105393 A1 WO2015105393 A1 WO 2015105393A1 KR 2015000303 W KR2015000303 W KR 2015000303W WO 2015105393 A1 WO2015105393 A1 WO 2015105393A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
channel
rendering
downmixing
audio
Prior art date
Application number
PCT/KR2015/000303
Other languages
English (en)
French (fr)
Inventor
전상배
김선민
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to BR112016016008-8A priority Critical patent/BR112016016008B1/pt
Priority to US15/110,861 priority patent/US10136236B2/en
Priority to CN201910277101.6A priority patent/CN109801640B/zh
Priority to CN201580012023.7A priority patent/CN106063297B/zh
Priority to EP15734960.6A priority patent/EP3079379B1/en
Publication of WO2015105393A1 publication Critical patent/WO2015105393A1/ko
Priority to US16/166,589 priority patent/US10652683B2/en
Priority to US16/781,583 priority patent/US10863298B2/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • Three-dimensional audio is a technology that arranges a plurality of speakers at different positions on a horizontal plane, and outputs the same or different sound signals from each speaker so that the user feels a sense of space.
  • real sound may occur at various locations on the horizontal plane as well as at different altitudes. Accordingly, there is a need for a technique for reproducing sound signals generated at different altitudes through speakers arranged on a horizontal plane.
  • Three-dimensional audio reproduction method comprises the steps of receiving a multi-channel signal consisting of a plurality of input channels; And converting the plurality of input channels into a plurality of output channels having a high sense, and performing downmixing corresponding to a frequency range of the multichannel signal.
  • the performing of the downmixing may include performing downmixing after phase correction on the first frequency range of the multichannel signal and performing downmixing without phase correction on the remaining second frequency range of the multichannel signal. It may include.
  • the first frequency range may include a band lower than a predetermined frequency.
  • the plurality of output channels may be configured as a horizontal channel.
  • the performing of the downmixing may apply different downmix matrices based on the characteristics of the multichannel signal.
  • the characteristics of the multichannel signal may include bandwidth and degree of correlation.
  • the performing of the downmixing may apply one of a timbre rendering and a spatial rendering according to the rendering type included in the bitstream.
  • the rendering type may be determined according to whether the characteristics of the multichannel signal are transient.
  • a three-dimensional audio reproducing apparatus includes a core decoder configured to decode a bitstream; And receiving a multichannel signal composed of a plurality of input channels from the core decoder, and performing downmixing corresponding to the frequency range of the multichannel signal to render the plurality of input channels into a plurality of output channels having high sense. It may include a format converter.
  • phase correction is performed on input signals according to a frequency range. Since phase correction is not performed for a specific frequency range of the output channel signal, accurate synchronization can be provided instead.
  • FIG. 1 is a block diagram showing a schematic configuration of a three-dimensional audio reproduction apparatus according to an embodiment.
  • FIG. 2 is a block diagram showing a detailed configuration of a three-dimensional audio reproduction apparatus according to an embodiment.
  • FIG. 3 is a block diagram illustrating a configuration of a renderer and a mixer according to an exemplary embodiment.
  • FIG. 4 is a flowchart illustrating an operation of a 3D audio reproduction method according to an exemplary embodiment.
  • FIG. 5 is a flowchart illustrating a detailed operation of a three-dimensional audio reproduction method according to an embodiment.
  • FIG. 6 is a diagram illustrating an active downmixing method according to an embodiment.
  • FIG. 7 is a block diagram showing the configuration of a three-dimensional audio reproduction apparatus according to another embodiment.
  • FIG. 8 is a block diagram illustrating a configuration of an audio rendering apparatus according to an exemplary embodiment.
  • FIG. 9 is a block diagram illustrating a configuration of an audio rendering apparatus according to another exemplary embodiment.
  • FIG. 10 is a flowchart illustrating an operation of an audio rendering method, according to an exemplary embodiment.
  • 11 is a flowchart illustrating an operation of an audio rendering method according to another embodiment.
  • Embodiments may be variously modified and may have various embodiments, and specific embodiments will be illustrated in the drawings and described in detail in the written description. However, this is not intended to limit the scope to the specific embodiments, it should be understood to include all transformations, equivalents, and substitutes included in the scope of the disclosed spirit and technology. In describing the embodiments, when it is determined that the detailed description of the related known technology may obscure the gist, the detailed description thereof will be omitted. However, one of ordinary skill in the art appreciates that the present invention may be practiced without these specific details.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are only used to distinguish one component from another.
  • the "module” or “unit” performs at least one function or operation, and may be implemented in hardware or software, or in a combination of hardware and software.
  • a plurality of "modules” or a plurality of “units” may be integrated into at least one module except for “modules” or “units”, which need to be implemented with specific hardware, and are implemented with at least one processor (not shown). Can be.
  • the 3D audio reproducing apparatus 100 may output a multichannel audio signal downmixed to a channel to be reproduced.
  • the reproduced channel is referred to as an output channel, and it is assumed that the multichannel audio signal includes a plurality of input channels.
  • the output channel may correspond to a horizontal channel
  • the input channel may correspond to a horizontal channel or a vertical channel.
  • Three-dimensional audio is a sound that adds spatial information to reproduce the sense of direction, distance, and space to listeners who are not located in the space where the sound source is generated, by reproducing not only the height and tone of the sound but also the sense of direction and distance. it means.
  • a channel of an audio signal may mean the number of speakers for outputting sound. As the number of channels increases, the number of speakers for outputting sound may increase.
  • the 3D audio reproducing apparatus 100 may downmix the multichannel audio signal to a channel to be reproduced so that the multichannel audio signal having a large number of channels can be reproduced in an environment having a small number of channels.
  • the multi-channel audio signal may include a channel capable of outputting a high level sound, for example, a vertical channel.
  • the channel capable of outputting altitude sound may refer to a channel capable of outputting an acoustic signal through a speaker located above the head of the listener to feel the altitude.
  • the horizontal channel may mean a channel capable of outputting a sound signal through a speaker positioned on a horizontal plane with the listener.
  • the environment in which the number of channels described above is small does not include a channel capable of outputting high-altitude sound, and may mean an environment in which sound is output through speakers arranged on a horizontal plane, that is, horizontal channels.
  • the horizontal channel may refer to a channel including an audio signal that can be output through a speaker disposed on a horizontal plane.
  • An overhead channel or a vertical channel may mean a channel including an audio signal that can be output through a speaker that is disposed on an altitude rather than a horizontal plane and can output altitude sound.
  • the 3D audio playback apparatus 100 may include a renderer 110 and a mixer 120. However, not all illustrated components are essential components.
  • the three-dimensional audio reproduction apparatus 100 may be implemented by more components than the illustrated components, or the three-dimensional audio reproduction apparatus 100 may be implemented by fewer components.
  • the 3D audio reproducing apparatus 100 may render and mix a multichannel audio signal and output the multichannel audio signal to a channel to be reproduced.
  • the multichannel audio signal is a 22.2 channel signal
  • the channel to be reproduced may be a 5.1 or 7.1 channel.
  • the 3D audio reproducing apparatus 100 performs rendering by determining a channel to correspond to each channel of the multichannel audio signal, and mixes the rendered audio signals by adding the signals of the channels corresponding to the channel to be reproduced and outputting the final signal. Can be.
  • the renderer 110 may render a multichannel audio signal according to a channel and a frequency.
  • the renderer 110 may perform spatial rendering or elevation rendering on the overhead channel of the multichannel audio signal, and perform timbre rendering on the horizontal channel.
  • the renderer 110 renders the overhead channel passing through a spatial elevation filter, for example, a Head Related Transfer filter (HRTF) based equalizer, in different ways according to the frequency range. can do.
  • HRTF-based equalizers have not only simple path differences, such as the level difference between two ears and the time difference between acoustic time arrivals between the two ears, but also complex path characteristics such as diffraction at the head surface and reflection by the auricle, By changing the timbre that occurs in the changing phenomenon, the timbre is transformed into the timbre of sound reaching from the other direction.
  • the HRTF-based equalizer can process audio signals included in the overhead channel so that three-dimensional audio can be recognized by changing the sound quality of the audio signal.
  • the renderer 110 renders the signal in the first frequency range of the overhead channel signal according to the add-to-closest channel method, and multi-channel the signal in the remaining second frequency range. Rendering can be done according to the panning method.
  • signals in the first frequency range are referred to as low frequency signals
  • signals in the second frequency range are referred to as high frequency signals.
  • the signal in the second frequency range may mean a signal of 2.8 to 10 KHz
  • the signal in the first frequency range may mean a remaining signal, that is, a signal of 2.8 KHz or less or a signal of 10 KHz or more.
  • a gain value set differently for each channel to be rendered in each channel signal of the multichannel audio signal may be applied to at least one horizontal channel.
  • the signals of each channel to which the gain value is applied may be summed through mixing to be output as the final signal.
  • the multi-channel panning method does not render each channel of the multi-channel audio signal separately in several channels, but renders only one channel, so that the listeners may have similar sound quality. Accordingly, the 3D audio reproducing apparatus 100 according to an embodiment renders a low frequency signal according to an add-to-closest-channel method, thereby preventing sound quality degradation that may occur when several channels are mixed in one output channel. can do. That is, when several channels are mixed in one output channel, the sound quality may be amplified or reduced according to the interference between the channel signals, thereby deteriorating. Thus, the sound quality deterioration may be prevented by mixing one channel in one output channel.
  • each channel of the multichannel audio signal may be rendered to the nearest channel among channels to be reproduced instead of being divided into several channels.
  • the 3D audio reproducing apparatus 100 may widen the sweet spot without deteriorating sound quality by performing rendering in a different method according to the frequency. That is, by rendering the low frequency signal with strong diffraction characteristics according to the add-to-close channel method, it is possible to prevent sound quality deterioration that may occur when several channels are mixed in one output channel.
  • the sweet spot means a predetermined range in which a listener can optimally listen to undistorted three-dimensional audio. As the sweet spot is wider, the listener can optimally listen to undistorted three-dimensional audio in a wide range, and when the listener is not located in the sweet spot, the sound quality or sound image or the like can be distorted.
  • the mixer 120 may combine the signals of the respective input channels panned to the horizontal output channel by the renderer 110 and output the final signal.
  • the mixer 120 may mix signals of each input channel for each predetermined section. For example, the mixer 120 may mix signals of input channels in units of frames.
  • the mixer 120 may downmix the signals rendered according to the frequency in an active downmix manner.
  • the mixer 120 may mix low frequency signals in an active downmix method.
  • the mixer 120 determines a gain to be applied to the final signal or the amplitude of the final signal based on the power values of the signals rendered in the respective channels to be reproduced with respect to the high frequency signal. You can mix with
  • the mixer 120 may perform downmixing on the high frequency signal according to a method other than the power preservation method, but the method of correcting and mixing the phase of each signal.
  • the active downmix method refers to a method of first correcting a phase of each signal when downmixing using a covariance matrix between signals added to a channel to be mixed.
  • the phase of each signal may be corrected based on the signal having the largest energy among the downmixed signals.
  • the phase of each signal is corrected so that constructive interference may occur between the downmixed signals, thereby preventing distortion of sound quality due to destructive interference that may occur when downmixing.
  • the sound of the downmixed sound signal changes or disappears due to destructive interference. It can prevent.
  • virtual rendering technology that passes overhead channel signals through an HRTF-based equalizer and reproduces three-dimensional audio signals through multi-channel panning produces high-quality three-dimensional audio by synchronizing sound sources through a surround speaker.
  • an overhead sound image may be provided as an equal amount of a binaural signal is provided.
  • the phases of the signals may be different, and thus a sense of altitude may not be provided as the synchronization of signals between channels is out of sync.
  • a sense of altitude may not be provided as the synchronization of signals between channels is out of sync.
  • the synchronization of signals on the overhead channel is out of sync during the downmixing process, there is no sense of altitude that can be recognized by the time difference between the two ear acoustic times. Can be degraded.
  • the mixer 120 hardly recognizes the time difference between the two ear acoustic time arrivals for the low diffraction signal having strong diffraction characteristics, and performs the low frequency signal according to the active down-mixing method in that phase superposition is prominent in the low frequency component. You can mix.
  • the mixer 120 may mix a high frequency signal having a high degree of altitude that may be recognized according to a time difference between two ear acoustic times, according to a mixing method in which phases are not corrected.
  • the mixer 120 may mix high frequency signals while minimizing distortion of sound quality due to the offset interference by preserving the energy canceled by the offset interference generated according to the power conservation method.
  • a band component above a specific crossover frequency in a quadrature mirror filter (QMF) filter bank is regarded as a high frequency, and the remainder is regarded as a low frequency so that the low frequency signal and the high frequency signal are respectively rendered and rendered. Mixing can be performed.
  • the QMF filter may refer to a filter for dividing an input signal into low frequency and high frequency outputs.
  • active downmixing can be performed on a per-band basis, with very high computations such as the need to calculate the covariance between channels where downmixing occurs, so mixing only low-frequency signals with active downmix
  • the amount of calculation can be reduced. For example, a signal sampled at 48 kHz in the acoustic signal reproducing apparatus 100 is downmixed after phase correction of only signals of 2.8 kHz or less and 10 kHz or more in the QMF filter bank, and the remaining signals of 2.8 kHz to 10 kHz are phased. If down-trusting is performed without correction, the amount of computation can be reduced by about one third.
  • the higher frequency signals have a lower probability that one channel signal is in phase with another channel, so that unnecessary computation may be performed when mixing by an active downmix.
  • the 3D audio reproducing apparatus 200 may include an acoustic analyzer 210, a renderer 220, a mixer 230, and an outputter 240.
  • the 3D audio reproducing apparatus 200, the renderer 220, and the mixer 230 of FIG. 2 correspond to the 3D audio reproducing apparatus 100, the renderer 210, and the mixer 220 of FIG. 1, and descriptions thereof will not be repeated. Let's do it.
  • not all illustrated components are essential components.
  • the three-dimensional audio reproduction apparatus 200 may be implemented by more components than the illustrated components, or the three-dimensional audio reproduction apparatus 200 may be implemented by fewer components.
  • the acoustic analyzer 210 may select a rendering mode by analyzing the multichannel audio signal, and may separate and output some signals included in the multichannel audio signal.
  • the acoustic analyzer 210 may include a rendering mode selector 211 and a render signal separator 212.
  • the rendering mode selection unit 211 may determine whether the multi-channel audio signal has a transient signal such as a clapping sound or a rain sound for each predetermined section.
  • a transient signal such as a clapping sound or a rain sound for each predetermined section.
  • an audio signal that is transient i.e., a lot of transient and transient signals such as an applause sound or a rain sound will be referred to as an applause signal.
  • the 3D audio reproducing apparatus 200 may separate the applause signal and process channel rendering and mixing according to the characteristics of the applause signal.
  • the rendering mode selector 211 may select the rendering mode as either a general mode or an applause mode according to whether the applause signal is included in the multichannel audio signal on a frame basis.
  • the renderer 220 may render according to the mode selected by the rendering mode selection unit 211. That is, the renderer 220 may render the applause signal according to the selected mode.
  • the rendering mode selector 211 may select a general mode when the applause signal is not included in the multichannel audio signal. According to the normal mode, the overhead channel signal may be rendered by the spatial renderer 221, and the horizontal channel signal may be rendered by the tone renderer 222. That is, rendering can be performed without consideration of the applause signal.
  • the rendering mode selector 211 may select the applause mode when the applause signal is included in the multichannel audio signal. According to the applause mode, the applause signal may be separated, and the tone rendering may be performed on the separated applause signal.
  • the rendering mode selector 211 determines whether the applause signal is included in the multichannel audio signal by using the applause bit information included in the multichannel audio signal or separately received from another device. Judging by The applause bit information may include bsTsEnable or bsTempShapeEnableChannel flag information according to an MPEG codec, and a rendering mode may be selected by the rendering mode selection unit 211 based on the flag information described above.
  • the rendering mode selector 211 may select a rendering mode based on characteristics of a multichannel audio signal of a predetermined section or frame to be determined. That is, the rendering mode selection unit 211 may select a rendering mode according to whether the characteristics of the multichannel audio signal of the predetermined section or frame have the characteristics of the audio signal including the applause signal.
  • the rendering mode selector 211 includes a wideband signal that is not tonal on a plurality of input channels in a multi-channel audio signal of a predetermined section or frame, and whether or not the level of the signal is similar for each channel. It may be determined whether the applause signal is included in the multichannel audio signal based on at least one condition of whether the impulse shape of the interval is repeated and whether the correlation between the channels is low. Can be.
  • the rendering mode selection unit 211 may select the rendering mode as the applause mode when it is determined that the applause signal is included in the multichannel audio signal in the current section.
  • the render signal separator 212 may separate the applause signal included in the multichannel audio signal from the general sound signal.
  • tonal rendering may be performed like a horizontal channel signal according to flag information regardless of elevation of a corresponding channel.
  • the overhead channel signal may be assumed to be a horizontal channel signal and downmixed according to the flag information. That is, the rendering signal separation unit 212 may separate the applause signal included in the multi-channel audio signal of the predetermined section according to the flag information, and the separated applause signal is performed to render the tone like the horizontal channel signal. Can be.
  • the rendering signal separator 212 may separate the applause signal component by analyzing a signal between channels. A tone rendering is performed on the applause signal separated from the overhead signal, and spatial rendering may be performed on the remaining signals other than the applause signal.
  • the renderer 220 may include a spatial renderer 221 that renders an overhead channel signal according to a spatial rendering method, and a tone renderer 222 that renders a horizontal channel signal or an applause signal according to a tone rendering method.
  • the spatial renderer 221 may render the overhead channel signal in different ways depending on the frequency.
  • the spatial renderer 221 may render a low frequency signal by an add-to-close channel method and a high frequency signal by a spatial rendering method.
  • the spatial rendering method means a method of rendering an overhead channel signal
  • the spatial rendering method may include a multi-channel panning method.
  • the tone renderer 222 may render the horizontal channel signal or the applause signal according to at least one of a tone rendering method, an add-to-close channel method, and an energy boost method.
  • the tone rendering method refers to a method of rendering a horizontal channel signal
  • the tone rendering method may include a downmix equation or a VBAP method.
  • the mixer 230 may calculate the rendered signals for each channel and output the final signal.
  • the mixer 230 may mix the signals rendered according to the frequency in an active downmix method. Therefore, the 3D audio reproducing apparatus 200 according to an embodiment may reduce the tone distortion that may be generated due to the destructive interference by mixing the low frequency signal by performing an active downmixing method of downmixing the low frequency signal.
  • the 3D audio reproducing apparatus 200 mixes a high frequency signal other than a low frequency signal without phase correction without a phase correction, for example, by mixing according to a power conservation module to reduce the deterioration of altitude that may occur due to the application of an active down mix. It can prevent.
  • the output unit 240 may finally output the signal mixed by the mixer 230 through the speaker.
  • the output unit 240 may output sound signals through different speakers according to the channels of the mixed signals.
  • FIG. 3 is a block diagram illustrating a configuration of a spatial renderer and a mixer according to an exemplary embodiment.
  • the spatial renderer 301 and the mixer 302 of FIG. 3 correspond to the spatial renderer 221 and the mixer 230 of FIG. 2, and descriptions thereof will be omitted.
  • not all illustrated components are essential components.
  • the spatial renderer 301 and mixer 302 may be implemented by more components than the components shown, and the spatial renderer 301 and mixer 302 may be implemented by fewer components.
  • the spatial renderer 301 uses the HRTF transform filter 310, the LPF 320, the HPF 330, the add-to-close channel panning unit 340, and the multichannel panning unit 350. It may include.
  • the HRTF transform filter 310 may perform equalization of the overhead channel signal among the multichannel audio signals based on the HRTF.
  • the LPF 320 may separate and output a component of a specific frequency range of the equalized overhead channel signal, for example, a low frequency component of 2.8 kHz or less.
  • the HPF 330 may separate and output a high frequency component of 2.8 kHz or more among the equalized overhead channel signals.
  • using a band pass filter instead of the LPF 320 and HPF 330 can be divided into a frequency component of 2.8 kHz or more and 10 kHz as a high frequency component, the remaining frequency components to a low frequency component.
  • the add-to-closed channel panning unit 340 may render the low-frequency component of the overhead channel signal to the nearest channel when the low-frequency component is projected on each channel horizontal plane.
  • the multi-channel panning unit 350 may render a high frequency component of the overhead channel signal according to the multi-channel panning method.
  • the mixer 302 may include an active downmix module 360 and a power conservation module 370.
  • the active downmix module 360 may mix low frequency components of the overhead channel signals rendered by the add-to-close channel panning unit 540 among the signals rendered by the spatial renderer 301 in an active downmixing manner. have.
  • the active downmix module 360 may mix low-frequency components according to an active downmixing method of correcting phases of signals added for each channel to induce constructive interference.
  • the power conservation module 370 may mix high frequency components of the overhead channel signals rendered by the multi-channel panning unit 350 among the signals rendered by the spatial renderer 301 according to a power conservation scheme.
  • the power conserving module 370 may mix the high frequency component in a power conserving manner to determine the amplitude of the final signal or the gain to be applied to the final signal based on the power values of the signals rendered in the respective channels.
  • the power preserving module 370 according to an embodiment may mix signals of a high frequency component by the power preserving method described above, but the present invention is not limited thereto and may be mixed according to other methods without phase correction.
  • the mixer 302 may add the signals mixed by the active downmix module 360 and the power conserving module 370 to output the mixed 3D sound signal.
  • 4 and 5 are flowcharts illustrating a three-dimensional audio reproduction method according to an embodiment.
  • the 3D audio reproducing apparatus 100 may acquire a multichannel audio signal to be reproduced.
  • the 3D audio reproducing apparatus 100 may render for each channel.
  • the 3D audio reproducing apparatus 100 may render according to a frequency, but is not limited thereto and may render in various ways.
  • the 3D audio reproducing apparatus 100 may mix the signals rendered in operation S430 according to a frequency in an active downmixing manner. Specifically, the 3D audio reproducing apparatus 100 performs downmixing after phase correction on a first frequency range including a low frequency component, and downmixes without phase correction on a second frequency range including a high frequency component in a different manner. Can be done. For example, the 3D audio reproducing apparatus 100 applies a gain determined according to the power values of the signals rendered for each channel with respect to the high frequency component, so that the energy canceled by the destructive interference may be mixed so as to be mixed. You can mix.
  • the 3D audio reproducing apparatus 100 may minimize deterioration of altitude that may be generated by applying an active down mix method to a high frequency component of a specific frequency range, for example, 2.8 kHz to 10 kHz. Can be.
  • FIG. 5 is a flowchart specifically illustrating a method of rendering and mixing according to frequencies in the three-dimensional audio reproduction method illustrated in FIG. 4.
  • the 3D audio reproducing apparatus 100 may acquire a multichannel audio signal to be reproduced. In this case, when the applause signal is inserted, the 3D audio reproducing apparatus 100 may separate the applause signal and process channel rendering and mixing according to the characteristics of the applause signal.
  • the 3D audio reproducing apparatus 100 may separate the 3D audio signal obtained in operation 501 into an overhead channel signal and a horizontal channel signal and perform rendering and mixing, respectively. That is, the 3D audio reproducing apparatus 100 may perform spatial rendering and mixing of the overhead channel signal and tone rendering and mixing of the horizontal channel signal.
  • the 3D audio reproducing apparatus 100 may filter the overhead channel signal with the HRTF transform filter to provide a sense of altitude.
  • the 3D audio reproducing apparatus 100 may separate the overhead channel signal into signals of high frequency components and low frequency components, and perform rendering and mixing processes.
  • the 3D audio reproducing apparatus 100 may render a high frequency signal among the overhead channel signals according to a spatial rendering method in operation 511.
  • the spatial rendering method may include a multi channel panning method.
  • Multi-channel panning may mean that each channel signal of the multi-channel audio signal is distributed to channels to be reproduced.
  • each channel signal to which the panning coefficient is applied may be distributed to channels to be reproduced.
  • a signal having a high frequency component a signal may be distributed to a surround channel in order to provide a feature that the level difference between two ears decreases as the altitude is increased.
  • the direction of the acoustic signal may be oriented by the number of channels that are panned with the front channel.
  • the 3D audio reproducing apparatus 100 may mix the high frequency signal rendered in operation 511 in a manner other than an active down mix method.
  • the 3D audio reproducing apparatus 100 may mix the rendered high frequency signal according to the power conservation module.
  • the 3D audio reproducing apparatus 100 may render a low frequency signal among the overhead channel signals according to the above-described add-to-closet channel panning method.
  • the 3D audio reproducing apparatus 100 may map to the nearest channel when projected onto the horizontal plane of each channel in order to prevent the aforementioned sound quality degradation.
  • the bin or band corresponding to the low frequency is an add-to-closed channel panning method, and the bin or band corresponding to the high frequency is determined according to the multichannel panning method. Can be rendered.
  • the bin or band may mean a signal interval of a predetermined unit in the frequency domain.
  • the 3D audio reproducing apparatus 100 may mix the signals of the horizontal channel rendered in operation S519 according to the power conservation module.
  • the 3D audio reproducing apparatus 100 may output the mixed final signal of the overhead channel signal and the horizontal channel signal.
  • FIG. 6 is an exemplary diagram illustrating an example of an active down mixing method according to an embodiment.
  • the phases of the respective signals do not coincide with each other, and thus, canceling interference may occur and sound quality may be distorted. Accordingly, the phase of the signal 610 having relatively low energy can be corrected according to the signal 620 according to the active down-mixing method, and each signal can be mixed. Referring to the mixed signal 630, constructive interference may occur as the phase of the signal 610 is shifted backward.
  • FIG. 7 is a block diagram illustrating a configuration of a 3D audio decoding apparatus according to another embodiment.
  • the 3D audio decoding apparatus illustrated in FIG. 7 may largely include a core decoder 710 and a format converter 730.
  • the core decoder 710 may output an audio signal having a plurality of input channels by decoding the bitstream.
  • the core decoder 710 may operate with a Unified Speech and Audio Coding (USAC) algorithm, but is not limited thereto.
  • the core decoder 110 may output an audio signal of, for example, a 22.2 channel format.
  • the core decoder 110 may output a 22.2 channel format audio signal by upmixing downmixed single or stereo channels included in the bitstream.
  • the channel may mean a speaker.
  • the format converter 730 serves to convert a format of a channel, and may be implemented as a downmixer that converts a transmitted channel configuration having a plurality of input channels into a plurality of output channels having less than a desired playback format.
  • the plurality of input channels may include a plurality of horizontal channels and at least one vertical channel having a sense of altitude.
  • the vertical channel may refer to a channel capable of outputting an acoustic signal through a speaker located above the head of the listener so that a sense of altitude can be felt.
  • the horizontal channel may mean a channel capable of outputting a sound signal through a speaker positioned horizontally with the listener.
  • the plurality of output channels may be configured as horizontal channels.
  • the format converter 730 may convert an input channel of the 22.2 channel format provided from the core decoder 710 into an output channel of the 5.0 or 5.1 channel format corresponding to the reproduction layout.
  • the format of the input channel or output channel may be variously selected.
  • the format converter 730 may use different downmix matrices according to the rendering type based on the signal characteristics. That is, the downmixer may perform a downmixing process adaptive to a signal in a subband domain, for example, a quadrature mirror filter (QMF) domain.
  • the format converter 730 may provide an overhead sound image having a sense of altitude by performing virtual rendering on the input channel when the reproduction layout is all composed of horizontal channels.
  • the overhead sound image may be provided as a surround channel speaker, but is not limited thereto.
  • the format converter 730 may perform different rendering on the plurality of input channels according to the type of the channel.
  • Different equalizers based on HRTF Head Related Transfer filter
  • HRTF Head Related Transfer filter
  • the same panning coefficient may be applied to all frequencies according to the type of the vertical channel, that is, the overhead channel, or different panning coefficients may be applied according to the frequency range.
  • an add-to-closest-channel for a first frequency range such as, for example, a low frequency signal of 2.8 kHz or less or a high frequency signal of 10 kHz or more.
  • the second frequency range of 2.8 to 10 kHz may be rendered based on a multichannel panning method.
  • each input channel may be panned to the nearest one of the plurality of output channels instead of being divided into several output channels.
  • gains differently set for each input channel to which each input channel is rendered may be panned to at least one horizontal channel.
  • the format converter 730 When a plurality of input channels are composed of N vertical channels and M horizontal channels, the format converter 730 renders each of the N vertical channels into a plurality of output channels, and renders each of the M horizontal channels into a plurality of output channels. Each of the rendering results may be mixed to generate a final plurality of output channels corresponding to the reproduction layout.
  • FIG. 8 is a block diagram illustrating a configuration of an audio rendering apparatus according to an exemplary embodiment.
  • the audio rendering apparatus illustrated in FIG. 8 may largely include a first renderer 810 and a second renderer 830.
  • the first renderer 810 and the second renderer 830 may operate based on the rendering type.
  • the rendering type may be determined at the encoder stage based on the audio scene and transmitted in a flag form. According to an embodiment, the rendering type may be determined based on the bandwidth and degree of correlation of the audio signal. For example, the rendering type may be divided into a case in which the audio scene is wide and highly decoded in a frame and other cases.
  • the first renderer 810 may perform timbre rendering using the first downmix matrix. Tone rendering can be applied to transient signals, for example, overflows or rain.
  • the second renderer 830 performs elevation rendering or spatial rendering by using the second downmix matrix to generate a sense of altitude for a plurality of output channels. It can provide a sound image having.
  • the first and second renderers 810 and 830 may generate a downmixing parameter, that is, a downmixing matrix, for the input channel format and the output channel format given in the initialization step.
  • a downmixing parameter that is, a downmixing matrix
  • an algorithm for selecting the most appropriate mapping rule for each input channel from a previously designed converter rule list may be applied.
  • Each rule involves mapping from one input channel to one or more output channels.
  • the input channel may be mapped to a single output channel, to two output channels, to a plurality of output channels, or to a plurality of output channels having different panning coefficients according to frequencies.
  • the optimal mapping for each input channel can be selected according to the output channels that make up the desired playback layout.
  • the downmix gain can be defined together with the equalizer applied to each input channel.
  • FIG. 9 is a block diagram illustrating a configuration of an audio rendering apparatus according to another exemplary embodiment.
  • the audio rendering apparatus illustrated in FIG. 9 may largely include a filter 910, a phase compensator 930, and a down mixer 950.
  • the audio rendering apparatus of FIG. 9 may operate independently or may be included as a component of the format converter 730 of FIG. 7 or the second renderer 830 of FIG. 8.
  • the filter 910 may filter a signal having a specific frequency range with respect to a vertical input channel signal among decoder outputs as a band pass filter.
  • the filter 910 may distinguish between frequency components of 2.8 kHz to 10 kHz and other frequency components. Frequency components of 2.8 kHz to 10 kHz may be provided to the downmixer 950 as they are, and other frequency components may be provided to the phase compensator 930. In the case of the horizontal input channel, the filter 910 may not be necessary since the phase correction is performed on the frequency components of the entire range.
  • the phase compensator 930 may perform phase alignment on frequency components other than 2.8 kHz to 10 kHz. Phase corrected frequency components, ie frequency components below 2.8 kHz and above 10 kHz, may be provided to the downmixer 950.
  • the downmixer 950 may perform downmixing on the frequency component provided from the filter 910 or the phase compensator 930.
  • FIG. 10 is a flowchart illustrating an operation of an audio rendering method according to an embodiment, and may correspond to the apparatus of FIG. 9.
  • a multichannel audio signal may be received.
  • an overhead channel signal that is, a vertical channel signal, among the multichannel audio signals may be received.
  • the downmixing method may be determined according to a preset frequency range.
  • downmixing may be performed after phase correction on components outside the predetermined frequency range of the overhead channel signal.
  • downmixing may be performed on components of a predetermined frequency range of the overhead channel signal without phase correction.
  • FIG. 11 is a flowchart illustrating an operation of an audio rendering method according to another embodiment, and may correspond to the apparatus of FIG. 8.
  • a multichannel audio signal may be received.
  • the rendering type may be checked.
  • downmixing may be performed using the first downmix matrix.
  • downmixing may be performed using the second downmix matrix.
  • the second downmix matrix for spatial rendering may be composed of spatial elevation filter coefficients and multichannel panning coefficients.
  • embodiments may be implemented by various means, for example, hardware, firmware, software or a combination thereof.
  • embodiments may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays (FPGAs). ), A processor, a controller, a microcontroller, a microprocessor, or the like.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • a processor a controller, a microcontroller, a microprocessor, or the like.
  • the embodiments may be written as a computer-executable program and computer-readable recording using a form of a module, procedure, function, etc. that performs the functions or operations described above. It can be implemented in a general-purpose digital computer for operating the program using a medium.
  • data structures, program instructions, or data files that may be used in the embodiments described above may be recorded on a computer-readable recording medium through various means.
  • the computer-readable recording medium includes all kinds of storage devices for storing data that can be read by a computer system and may be located inside or outside the processor. Examples of computer-readable recording media include magnetic media, optical media, magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Hardware devices specifically configured to store and execute the same program instructions may be included.
  • the computer-readable recording medium may also be a transmission medium for transmitting a signal specifying a program command, a data structure, or the like.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.
  • the present embodiment may employ the prior art for electronic environment setting, signal processing, and / or data processing. Terms such as “mechanism”, “element”, “means”, “configuration” can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.

Abstract

삼차원 오디오 재생 방법 및 장치가 개시된다. 삼차원 오디오 재생 방법은 복수개의 입력채널로 이루어진 멀티채널 신호를 수신하는 단계, 및 상기 복수개의 입력채널을 고도감을 갖는 복수개의 출력채널로 포맷을 컨버팅하기 위하여, 상기 멀티채널 신호의 주파수 범위에 대응하여 다운믹싱을 수행하는 단계를 포함할 수 있다.

Description

삼차원 오디오 재생 방법 및 장치
주어진 출력채널들을 이용하여 오버헤드 음상을 제공하기 위한 삼차원 오디오 재생 방법 및 장치가 개시된다.
영상 및 음향 처리 기술의 발달에 힘입어 고화질 고음질의 멀티미디어 컨텐츠가 다량 생산되고 있다. 고화질 고음질의 멀티미디어 컨텐츠를 요구하던 사용자는 현실감 있는 영상 및 음향을 원하고 있으며, 이에 따라 입체 영상 및 삼차원 오디오에 대한 연구가 활발히 진행되고 있다.
삼차원 오디오은 복수 개의 스피커를 수평면상의 다른 위치에 배치하고, 각각의 스피커에서 동일한 또는 상이한 음향 신호를 출력함으로써 사용자가 공간감을 느끼도록 하는 기술이다. 그러나, 실제 음향은 수평면상의 다양한 위치에서 발생할 뿐만 아니라 상이한 고도에서도 발생할 수 있다. 따라서, 상이한 고도에서 발생하는 음향 신호를 수평면상에 배치된 스피커를 통해 재생하는 기술이 필요하다.
수평 출력채널들로 구성되는 재생 레이아웃에 있어서 오버헤드 음상을 제공하기 위한 삼차원 오디오 재생 방법 및 장치를 제공하는 것을 목적으로 한다.
일측면에 따른 삼차원 오디오 재생 방법은 복수개의 입력채널로 이루어진 멀티채널 신호를 수신하는 단계; 및 상기 복수개의 입력채널을 고도감을 갖는 복수개의 출력채널로 포맷을 컨버팅하기 위하여, 상기 멀티채널 신호의 주파수 범위에 대응하여 다운믹싱을 수행하는 단계를 포함할 수 있다.
상기 다운믹싱을 수행하는 단계는 상기 멀티채널 신호의 제1 주파수 범위에 대하여 위상보정 이후 다운믹싱을 수행하고, 상기 멀티채널 신호의 나머지 제2 주파수 범위에 대하여 위상보정 없이 다운믹싱을 수행하는 단계를 포함할 수 있다.
상기 제1 주파수 범위는 소정 주파수보다 낮은 대역을 포함할 수 있다.
상기 복수개의 출력채널은 수평채널로 구성될 수 있다.
상기 다운믹싱을 수행하는 단계는 상기 멀티채널 신호의 특성에 근거하여 서로 다른 다운믹스 매트릭스를 적용할 수 있다.
상기 멀티채널 신호의 특성은 대역폭과 코릴레이션 정도를 포함할 수 있다.
상기 다운믹싱을 수행하는 단계는 비트스트림에 포함된 렌더링 타입에 따라서 음색 렌더링과 공간 렌더링 중 하나를 적용할 수 있다.
상기 렌더링 타입은 상기 멀티채널 신호의 특성이 트랜지언트한지 여부에 따라서 결정될 수 있다.
다른 측면에 따른 삼차원 오디오 재생 장치는 비트스트림을 복호화하는 코어 디코더; 및 상기 코어 디코더로부터 복수개의 입력채널로 이루어진 멀티채널 신호를 수신하고, 상기 복수개의 입력채널을 고도감을 갖는 복수개의 출력채널로 렌더링하기 위하여 상기 멀티채널 신호의 주파수 범위에 대응하여 다운믹싱을 수행하는 포맷 컨버터를 포함할 수 있다.
수평 출력채널들로 구성되는 재생 레이아웃에 대하여, 수직 입력채널에 대하여 고도감 혹은 공간 렌더링이 수행되는 경우, 주파수 범위에 따라서 입력신호들에 대한 위상 보정 여부를 결정하여 다운믹싱을 수행함으로써, 렌더링된 출력채널 신호 중 특정 주파수 범위에 대하여 위상 보정을 수행하지 않기 때문에 대신 정확한 동기를 제공할 수 있다.
또한, 나머지 주파수 범위에 대해서는 위상 보정과 함께 다운믹싱을 수행함으로써, 전체 액티브 다운믹스 처리시 연산량 증가 및 고도감 저하를 최소화할 수 있다.
도 1은 일실시예에 따른 삼차원 오디오 재생 장치의 개략적인 구성을 나타낸 블록도이다.
도 2는 일실시예에 따른 삼차원 오디오 재생 장치의 세부적인 구성을 나타낸 블록도이다.
도 3은 일실시예에 따른 렌더러 및 믹서의 구성을 나타낸 블록도이다.
도 4는 일실시예에 따른 삼차원 오디오 재생 방법의 동작을 설명하는 흐름도이다.
도 5는 일실시예에 따른 삼차원 오디오 재생 방법의 세부적인 동작을 설명하는 흐름도이다.
도 6은 일실시예에 따른 액티브 다운믹싱 방식을 설명하는 도면이다.
도 7은 다른 실시예에 따른 삼차원 오디오 재생 장치의 구성을 나타내는 블럭도이다.
도 8는 일실시예에 따른 오디오 렌더링 장치의 구성을 나타내는 블럭도이다.
도 9는 다른 실시예에 따른 오디오 렌더링 장치의 구성을 나타내는 블럭도이다.
도 10은 일실시예에 따른 오디오 렌더링 방법의 동작을 설명하는 흐름도이다.
도 11은 다른 실시예에 따른 오디오 렌더링 방법의 동작을 설명하는 흐름도이다.
이하, 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 알 수 있다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
실시예에 있어서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 실시예에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
실시예에 있어서 "모듈" 혹은 "부"는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 "모듈" 혹은 복수의 "부"는 특정한 하드웨어로 구현될 필요가 있는 "모듈" 혹은 "부"를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
도 1 및 도 2는 일실시예에 따른 삼차원 오디오 재생 장치의 구성을 나타낸 블록도이다. 삼차원 오디오 재생 장치(100)는 재생될 채널로 다운믹싱된 멀티채널 오디오 신호를 출력할 수 있다. 여기서 재생된 채널은 출력채널이라 명명하고, 멀티채널 오디오 신호는 복수개의 입력채널을 포함하는 것으로 가정한다. 일실시예에 따르면, 출력채널은 수평채널에 해당하고, 입력채널은 수평채널 혹은 수직채널에 해당할 수 있다.
삼차원 오디오란, 음의 고저, 음색뿐만 아니라 방향이나 거리감까지 재생하여 임장감을 가지게 하고, 음원이 발생한 공간에 위치하지 않은 청취자에게 방향감, 거리감 및 공간감을 지각할 수 있게 하는 공간 정보를 부가한 음향을 의미한다.
이하, 오디오 신호의 채널은 음향이 출력되는 스피커의 개수를 의미할 수 있다. 채널 수가 많을수록, 음향이 출력되는 스피커의 개수가 많아질 수 있다. 일실시예에 따른 삼차원 오디오 재생 장치(100)는 채널 수가 많은 멀티채널 오디오 신호가 채널 수가 적은 환경에서 재생될 수 있도록 멀티채널 오디오 신호를 재생될 채널로 렌더링을 통하여 다운믹싱할 수 있다. 이때, 멀티채널 오디오 신호는 고도 음향을 출력할 수 있는 채널 예를 들면 수직채널을 포함할 수 있다.
고도 음향을 출력할 수 있는 채널은 고도감을 느낄 수 있도록 청취자의 머리 위에 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다. 수평채널은 청취자와 수평한 면에 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다.
상술된 채널 수가 적은 환경은 고도 음향을 출력할 수 있는 채널을 포함하지 않고, 수평면 상에 배치된 스피커들 즉, 수평채널들을 통해 음향을 출력할 수 있는 환경을 의미할 수 있다.
또한, 이하 수평채널(horizontal channel)은 수평면 상에 배치된 스피커를 통해 출력될 수 있는 오디오 신호를 포함하는 채널을 의미할 수 있다. 오버헤드 채널(overhead channel) 혹은 수직채널(vertical channel)은 수평면이 아닌 고도 상에 배치되어 고도음을 출력할 수 있는 스피커를 통해 출력될 수 있는 오디오 신호를 포함하는 채널을 의미할 수 있다.
도 1을 참조하면, 일실시예에 의한 삼차원 오디오 재생 장치(100)는 렌더러(110) 및 믹서(120)를 포함할 수 있다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 삼차원 오디오 재생 장치(100)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 삼차원 오디오 재생 장치(100)가 구현될 수 있다.
삼차원 오디오 재생 장치(100)는 멀티채널 오디오 신호를 렌더링하고 믹싱하여 재생될 채널로 출력할 수 있다. 예를 들면, 멀티채널 오디오 신호는 22.2 채널 신호이고, 재생될 채널은 5.1 또는 7.1 채널일 수 있다. 삼차원 오디오 재생 장치(100)는 멀티채널 오디오 신호의 각 채널들을 대응시킬 채널을 정함으로써 렌더링을 수행하고 재생될 채널과 대응된 각 채널들의 신호를 합쳐 최종 신호로 출력함으로써 렌더링된 오디오 신호들을 믹싱할 수 있다.
렌더러(110)는 멀티채널 오디오 신호를 채널 및 주파수에 따라 렌더링할 수 있다. 렌더러(110)는 멀티채널 오디오 신호 중 오버헤드 채널에 대해서는 공간 렌더링(spatial rendering) 혹은 고도감 렌더링(elevation rendering)을 수행하고, 수평채널에 대해서는 음색 렌더링(timbral rendering)을 수행할 수 있다.
렌더러(110)는 오버헤드 채널을 렌더링하기 위해, 공간 고도감 필터(spatial elevation filter) 예를 들면 HRTF(Head Related Transfer filter) 기반 이퀄라이저를 통과한 오버헤드 채널을 주파수 범위에 따라 각각 다른 방법으로 렌더링할 수 있다. HRTF 기반 이퀄라이저는 두 귀간의 레벨 차이 및 두 귀 간에서 음향 시간이 도달하는 시간 차이 등의 단순한 경로 차이뿐만 아니라, 머리 표면에서의 회절, 귓바퀴에 의한 반사 등 복잡한 경로상의 특성이 음의 도래 방향에 따라 변화하는 현상에서 발생하는 음색의 변형을 적용시켜 다른 방향에서 도달하는 음향의 음색으로 변형시킨다. HRTF 기반 이퀄라이저는 오디오 신호의 음질을 변화시킴으로써 삼차원 오디오가 인식될 수 있도록 오버헤드 채널에 포함된 오디오 신호들을 처리할 수 있다.
렌더러(110)는 오버해드 채널 신호 중 제1 주파수 범위의 신호에 대하여는 애드-투-클로지스트-채널(Add to the closest channel) 방법에 따라 렌더링하고, 나머지 제2 주파수 범위의 신호에 대하여는 멀티채널 패닝(Multichannel panning) 방법에 따라 렌더링할 수 있다. 여기서, 편의상 제1 주파수 범위의 신호는 저주파 신호로, 제2 주파수 범위의 신호는 고주파 신호로 명명하기로 한다. 바람직하게로는 제2 주파수 범위의 신호는 2.8 내지 10 KHz의 신호를, 제1 주파수 범위의 신호는 나머지 신호 즉, 2.8 KHz 이하의 신호 혹은 10 KHz 이상의 신호를 의미할 수 있다. 멀티 채널 패닝 방법에 의하면, 멀티채널 오디오 신호의 각 채널의 신호가 각 채널 신호에 렌더링될 채널마다 서로 다르게 설정된 게인 값이 적용되어 적어도 하나의 수평채널에 각각 렌더링될 수 있다. 게인 값이 적용된 각 채널의 신호들은 믹싱을 통해 합쳐짐으로써 최종 신호로 출력될 수 있다.
저주파 신호는 회절성이 강하므로, 멀티 채널 패닝 방법에 따라 멀티채널 오디오 신호의 각 채널을 여러 채널에 각각 나누어 렌더링하지 않고, 하나의 채널에만 렌더링하여도 청취자가 듣기에 비슷한 음질을 가질 수 있다. 따라서, 일실시예에 의한 삼차원 오디오 재생 장치(100)는 저주파 신호를 애드-투-클로지스트-채널 방법에 따라 렌더링함으로써 하나의 출력 채널에 여러 채널이 믹싱됨에 따라 발생될 수 있는 음질 열화를 방지할 수 있다. 즉, 하나의 출력 채널에 여러 채널이 믹싱되면 각 채널 신호 간의 간섭에 따라 음질이 증폭되거나 감소되어 열화될 수 있으므로, 하나의 출력 채널에 하나의 채널을 믹싱함으로써 음질 열화를 방지할 수 있다.
애드-투-클로지스트 채널 방법에 의하면, 멀티채널 오디오 신호의 각 채널은 여러 채널에 나누어 렌더링하는 대신 재생될 채널들 중 가장 가까운 채널에 렌더링될 수 있다.
또한, 삼차원 오디오 재생 장치(100)는 주파수에 따라 다른 방법으로 렌더링을 수행함으로써 스위트 스팟(sweet spot)을 음질 열화 없이 넓힐 수 있다. 즉, 회절 특성이 강한 저주파 신호에 대하여는 애드 투 클로지스트 채널 방법에 따라 렌더링함으로써, 하나의 출력 채널에 여러 채널이 믹싱됨에 따라 발생될 수 있는 음질 열화를 방지할 수 있다. 스위트 스팟이란, 청취자가 왜곡되지 않은 삼차원 오디오을 최적으로 청취할 수 있는 소정 범위를 의미한다. 스위트 스팟이 넓을수록 청취자는 넓은 범위에서 왜곡되지 않은 삼차원 오디오을 최적으로 청취할 수 있고, 청취자가 스위트 스팟에 위치하지 않는 경우, 음질 또는 음상 등이 왜곡된 음향을 청취할 수 있다.
믹서(120)는 렌더러(110)에 의해 수평 출력채널로 패닝시킨 각 입력채널들의 신호를 합쳐 최종 신호로 출력할 수 있다. 믹서(120)는 소정 구간별로 각 입력채널들의 신호를 믹싱할 수 있다. 예를 들면, 믹서(120)는 프레임 단위로 각 입력채널들의 신호를 믹싱할 수 있다.
일실시예에 의한 믹서(120)는 주파수에 따라 렌더링된 신호들을 액티브 다운 믹스(Active downmix) 방식으로 다운믹싱할 수 있다. 구체적으로, 믹서(120)는 저주파 신호에 대하여는 액티브 다운믹스 방식으로 믹싱할 수 있다. 또한, 믹서(120)는 고주파 신호에 대하여는 재생될 각 채널들에 렌더링된 신호들의 파워 값에 기초하여 최종 신호의 진폭 또는 최종 신호에 적용될 게인(gain)을 결정하는 파워 보존 방식(Power preserving module)으로 믹싱할 수 있다. 또한, 믹서(120)는 고주파 신호에 대하여, 파워 보존 방식에 한하지 않고, 각 신호의 위상이 보정되어 믹싱되는 방식을 제외한 다른 방법에 따라 다운 믹싱할 수도 있다.
액티브 다운믹스 방식이란, 믹싱될 채널로 합해지는 신호들 간의 공분산 매트릭스(covariance matrix)를 사용하여 다운믹싱할 때 먼저 각 신호의 위상(phase)을 보정(alignment)하는 방법을 의미한다. 예를 들면, 다운믹싱되는 신호들 중 에너지가 가장 큰 신호를 기준으로 각 신호들의 위상이 보정될 수 있다. 액티브 다운 믹스 방식에 의하면, 다운믹싱되는 신호들 간에 보강 간섭이 이루어질 수 있도록 각 신호의 위상이 보정됨으로써, 다운믹싱될 때 발생될 수 있는 상쇄 간섭으로 인한 음질의 왜곡을 방지할 수 있다. 특히, 액티브 다운믹스 방식에 따라 음향 신호를 다운믹싱하는 경우, 위상이 맞지 않는 코릴레이트된 입력신호의 경우, 상쇄 간섭이 발생됨으로 인해 다운믹싱된 음향 신호의 음색이 변화하거나 소리가 사라지는 현상을 방지할 수 있다.
한편, 오버헤드 채널 신호를 HRTF 기반 이퀄라이저를 통과시키고 멀티 채널 패닝을 통하여 삼차원 오디오 신호를 재생하는 가상 렌더링 기술은 서라운드 스피커(surround speaker)을 통해 동기가 맞는 음원이 재생됨으로써 고도감 있는 삼차원 오디오가 출력될 수 있다. 특히, 서라운드 스피커를 통해 동기가 맞는 음원이 재생됨으로써 동일한 양이 입력 신호(binaural signal)가 제공됨에 따라 오버헤드 음상을 제공할 수 있다.
그러나, 액티브 다운믹스 방식에 따라 신호들을 다운믹싱하는 경우, 신호들의 위상이 제각각 달라질 수 있으므로, 각 채널간 신호들의 동기가 어긋남에 따라 고도감이 제공되지 않을 수 있다. 예를 들면, 오버헤드 채널에 대한 신호들의 동기가 다운믹싱 과정에서 어긋나는 경우, 두 귀간 음향 시간이 도달하는 시간 차이에 따라 인식될 수 있는 고도감이 없어지므로, 액티브 다운믹스의 적용으로 인해 음질이 열화될 수 있다.
따라서, 믹서(120)는 회절성이 강한 저주파 신호에 대하여는 두 귀간 음향 시간이 도달하는 시간 차이가 거의 인식되지 않고, 저주파 성분에서 위상 중첩 현상이 두드러지는 점에서 액티브 다운 믹스 방식에 따라 저주파 신호를 믹싱할 수 있다. 또한, 믹서(120)는 두 귀간 음향 시간이 도달하는 시간 차이에 따라 인식될 수 있는 고도감 정도가 강한 고주파 신호에 대하여는 위상이 보정되지 않는 믹싱 방식에 따라 믹싱할 수 있다. 예를 들면, 믹서(120)는 파워 보존 방식에 따라 상쇄 간섭이 발생됨에 의해 상쇄된 에너지를 보존시킴으로써 상쇄 간섭으로 인한 음질의 왜곡을 최소화하면서 고주파 신호를 믹싱할 수 있다.
더하여, 일실시예에 있어서, QMF(quadrature mirror filter) 필터뱅크에서 특정 크로스오버 주파수 이상의 밴드 성분은 고주파로 간주하고, 나머지는 저주파로 간주하는 방식으로 구현됨으로써 저주파 신호와 고주파 신호에 대해 각각 렌더링 및 믹싱이 수행될 수 있다. QMF 필터는 입력 신호를 저주파와 고주파로 나누어 출력하는 필터를 의미할 수 있다.
더하여, 액티브 다운믹스는 주파수 밴드 별로 수행될 수 있는데, 다운 믹스가 이루어지는 채널들 간 공분산(covariance)를 산출해야 하는 등의 매우 높은 연산량을 가지고 있어, 저주파 신호만 액티브 다운믹스로 믹싱하면 그 자체의 연산량을 줄일 수 있다. 예를 들어, 음향 신호 재생 장치(100)에서 48kHz로 샘플링된 신호를 QMF 필터뱅크에서 2.8 kHz 이하 및 10 kHz 이상의 신호만 위상 보정 이후 다운믹싱을 수행하고, 나머지 2.8 kHz 내지 10 kHz의 신호는 위상 보정 없이 다운믿싱을 수행하는 경우, 연산량이 약 1/3 정도로 감소될 수 있다.
뿐만 아니라, 실질적으로 녹음된 음원과 같은 경우에는 고주파 신호들일수록 한 채널 신호가 다른 채널과 위상이 같을 확률이 낮아 액티브 다운 믹스에 의해 믹싱되는 경우 불필요한 연산이 수행되기도 한다.
도 2를 참조하면, 일실시예에 의한 삼차원 오디오 재생 장치(200)는 음향 분석부(210), 렌더러(220), 믹서(230) 및 출력부(240)를 포함할 수 있다. 도 2의 삼차원 오디오 재생 장치(200), 렌더러(220) 및 믹서(230)는 도 1의 삼차원 오디오 재생 장치(100), 렌더러(210) 및 믹서(220)와 대응되고, 중복되는 설명은 생략하기로 한다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 삼차원 오디오 재생 장치(200)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 삼차원 오디오 재생 장치(200)가 구현될 수 있다.
음향 분석부(210)는 멀티채널 오디오 신호를 분석하여 렌더링 모드를 선택하고, 멀티채널 오디오 신호에 포함된 일부 신호를 분리하여 출력할 수 있다. 음향 분석부(210)는 렌더링 모드 선택부(211)와 렌더링 신호 분리부(212)를 포함할 수 있다.
렌더링 모드 선택부(211)는 멀티채널 오디오 신호에 박수 소리나 빗(rain) 소리와 같이 트랜지언트(transient)한 신호가 많은지 여부를 소정 구간별로 판단할 수 있다. 이하, 박수(applause) 소리나 빗소리와 같이 트랜지언트(transient)한, 즉 순간적이고 일시적인 신호가 많은 오디오 신호를 어플라우즈(applause) 신호로 지칭하기로 한다.
일실시예에 의한 삼차원 오디오 재생 장치(200)는 어플라우즈 신호를 분리하여, 어플라우즈 신호의 특징에 따라 채널 렌더링 및 믹싱을 처리할 수 있다.
렌더링 모드 선택부(211)는 프레임 단위로 어플라우즈 신호가 멀티채널 오디오 신호에 포함되어 있는지 여부에 따라 렌더링 모드를 일반(general) 모드 또는 어플라우즈 모드 중 하나로 선택할 수 있다. 렌더러(220)는 렌더링 모드 선택부(211)에 의해 선택된 모드에 따라 렌더링할 수 있다. 즉, 렌더러(220)는 선택된 모드에 따라 어플라우즈 신호에 대한 렌더링을 수행할 수 있다.
렌더링 모드 선택부(211)는 어플라우즈 신호가 멀티채널 오디오 신호에 포함되어 있지 않은 경우, 일반 모드를 선택할 수 있다. 일반 모드에 의하면, 오버헤드 채널 신호는 공간 렌더러(221)에 의해 렌더링될 수 있고, 수평채널 신호는 음색 렌더러(222)에 의해 렌더링될 수 있다. 즉, 어플라우즈 신호의 고려 없이 렌더링이 수행될 수 있다.
렌더링 모드 선택부(211)는 어플라우즈 신호가 멀티채널 오디오 신호에 포함되어 있는 경우, 어플라우즈 모드를 선택할 수 있다. 어플라우즈 모드에 의하면, 어플라우즈 신호가 분리되고, 분리된 어플라우즈 신호에 대해 음색 렌더링이 수행될 수 있다.
렌더링 모드 선택부(211)는 멀티채널 오디오 신호에 포함되어 있거나 다른 장치로부터 별도로 수신된 어플라우즈 비트 정보를 이용하여 어플라우즈 신호가 멀티채널 오디오 신호에 포함되어 있는지 여부를 소정 구간 혹은 프레임 단위로 판단할 수 있다. 어플라우즈 비트 정보는 MPEG 계열의 코덱에 의하면 bsTsEnable 또는 bsTempShapeEnableChannel 플래그 정보를 포함하여, 상술된 플래그 정보에 의해 렌더링 모드가 렌더링 모드 선택부(211)에 의해 선택될 수 있다.
또한, 렌더링 모드 선택부(211)는 판단하고자 하는 소정 구간 혹은 프레임의 멀티채널 오디오 신호의 특성에 기초하여 렌더링 모드를 선택할 수 있다. 즉, 렌더링 모드 선택부(211)는 소정 구간 혹은 프레임의 멀티채널 오디오 신호의 특성이 어플라우즈 신호를 포함하는 오디오 신호의 특성을 가지는지 여부에 따라 렌더링 모드를 선택할 수 있다.
렌더링 모드 선택부(211)는 소정 구간 혹은 프레임의 멀티채널 오디오 신호에 다수의 입력 채널에 토널(Tonal)하지 않은 광대역(wideband) 신호가 존재하고, 그 신호의 레벨이 채널 별로 유사한지 여부, 짧은 구간의 임펄스(impulse) 형태가 반복되는지 여부 및 채널 간 상관성(correlation)이 낮은지 여부 중 적어도 하나의 조건에 기초하여 어플라우즈(applause) 신호가 멀티채널 오디오 신호에 포함되어 있는지 여부를 판단할 수 있다.
렌더링 모드 선택부(211)는 어플라우즈(applause) 신호가 현재 구간에서 멀티채널 오디오 신호에 포함되어 있는 것으로 판단한 경우, 렌더링 모드를 어플라우즈 모드로 선택할 수 있다.
렌더링 신호 분리부(212)는 렌더링 신호 선택부(211)에 의해 어플라우즈 모드가 선택된 경우, 멀티채널 오디오 신호에 포함된 어플라우즈 신호를 일반 음향 신호와 분리할 수 있다.
MPEG USAC 계열에서의 bsTsdEnable 플래그가 사용되는 경우, 해당 채널의 고도(elevation)에 상관없이 플래그 정보에 따라 수평채널 신호와 같이 음색 렌더링이 수행될 수 있다. 또한, 오버헤드 채널 신호도 플래그 정보에 따라 수평채널 신호로 가정되어 다운믹싱될 수 있다. 즉, 렌더링 신호 분리부(212)는 플래그 정보에 따라 소정 구간의 멀티채널 오디오 신호에 포함된 어플라우즈 신호를 분리할 수 있고, 분리된 어플라우즈 신호는 수평채널 신호와 같이 음색 렌더링이 수행될 수 있다.
플래그가 사용되지 않는 경우, 렌더링 신호 분리부(212)는 채널들간의 신호를 분석하여 어플라우즈 신호 성분을 분리할 수 있다. 오버헤드 신호 중에서 분리된 어플라우즈 신호는 음색 렌더링이 수행되고, 어플라우즈 신호가 아닌 나머지 신호는 공간 렌더링이 수행될 수 있다.
렌더러(220)는 오버 헤드 채널 신호를 공간 렌더링 방법에 따라 렌더링하는 공간 렌더러(221)와 수평면 채널 신호 또는 어플라우즈 신호를 음색 렌더링 방법에 따라 렌더링하는 음색 렌더러(222)를 포함할 수 있다.
공간 렌더러(221)는 오버 헤드 채널 신호를 주파수에 따라 각각 다른 방법으로 렌더링할 수 있다. 공간 렌더러(221)는 저주파 신호는 애드 투 클로지스트 채널 방법으로 렌더링하고, 고주파 신호는 공간 렌더링 방법에 따라 렌더링할 수 있다. 이하에서, 공간 렌더링 방법은 오버헤드 채널 신호를 렌더링하는 방법을 의미하는 것으로, 공간 렌더링 방법은 멀티 채널 패닝 방법을 포함할 수 있다.
음색 렌더러(222)는 수평채널 신호 또는 어플라우즈 신호를 음색 렌더링 방법, 애드 투 클로지스트 채널 방법 및 에너지 부스트(energy boost) 방법 중 적어도 하나의 방법에 따라 렌더링할 수 있다. 이하에서 음색 렌더링 방법은 수평채널 신호를 렌더링하는 방법을 의미하는 것으로, 음색 렌더링 방법은 다운믹스 수식(Downmix Equation) 또는 VBAP 방법을 포함할 수 있다.
믹서(230)는 렌더링된 신호들을 각 채널별로 연산하여 최종 신호를 출력할 수 있다. 일실시예에 의한 믹서(230)는 주파수에 따라 렌더링된 신호들을 액티브 다운믹스(Active downmix) 방식으로 믹싱할 수 있다. 따라서, 일실시예에 의한 삼차원 오디오 재생 장치(200)는 저주파 신호에 대하여 위상보정후 다운믹싱하는 액티브 다운믹스 방식으로 믹싱함으로써 상쇄 간섭에 따라 발생될 수 있는 음색 왜곡을 감소시킬 수 있다. 또한, 삼차원 오디오 재생 장치(200)는 저주파 신호를 제외한 고주파 신호에 대하여는 위상 보정없이 다운믹싱하는 방식 예를 들면, 파워 보존 모듈에 따라 믹싱함으로써 액티브다운 믹스의 적용으로 발생될 수 있는 고도감 저하를 방지할 수 있다.
출력부(240)는 믹서(230)에 의해 믹싱된 신호를 스피커를 통해 최종 출력시킬 수 있다. 이때 출력부(240)는 믹싱된 신호의 채널에 따라 각각 다른 스피커를 통해 음향 신호를 출력시킬 수 있다.
도 3은 일실시예에 있어서, 공간 렌더러 및 믹서의 구성을 나타낸 블록도이다. 도 3의 공간 렌더러(301) 및 믹서(302)는 도 2의 공간 렌더러(221) 및 믹서(230)와 대응되며 중복되는 설명은 생략하기로 한다. 그러나 도시된 구성요소가 모두가 필수구성요소인 것은 아니다. 도시된 구성요소보다 많은 구성요소에 의해 공간 렌더러(301) 및 믹서(302)가 구현될 수도 있고, 그보다 적은 구성요소에 의해서도 공간 렌더러(301) 및 믹서(302)가 구현될 수 있다.
도 3을 참조하면, 공간 렌더러(301)는 HRTF 변형 필터(310), LPF(320), HPF(330), 애드-투-클로지스트 채널 패닝부(340) 및 멀티채널 패닝부(350)을 포함할 수 있다.
HRTF 변형 필터(310)는 멀티채널 오디오 신호 중 오버헤드 채널 신호에 대하여 HRTF에 기반하여 이퀄라이징을 수행할 수 있다.
LPF(320)는 이퀄라이징된 오버헤드 채널 신호 중 특정 주파수 범위의 성분 예를 들면, 2.8 kHz 이하의 저주파 성분을 분리하여 출력할 수 있다.
HPF(330)는 이퀄라이징된 오버헤드 채널 신호 중 2.8 kHz 이상의 고주파 성분을 분리하여 출력할 수 있다.
한편, LPF(320)와 HPF(330) 대신 대역통과필터를 사용하여 2.8 kHz 이상의 내지 10 kHz의 주파수 성분을 고주파 성분으로, 나머지 주파수 성분을 저주파 성분으로 구분할 수 있다.
애드 투 클로지스트 채널 패닝부(340)는 오버헤드 채널 신호 중 저주파 성분을 각 채널 수평면에 투영하였을 경우 가장 가까운 채널로 렌더링할 수 있다.
멀티 채널 패닝부(350)는 오버헤드 채널 신호 중 고주파 성분을 멀티 채널 패닝 방법에 따라 렌더링할 수 있다.
또한, 도 3을 참조하면, 믹서(302)는 액티브 다운믹스 모듈(360) 및 파워 보존 모듈(370)을 포함할 수 있다.
액티브 다운믹스 모듈(360)은 공간 렌더러(301)에 의해 렌더링된 신호 중 애드 투 클로지스트 채널 패닝부(540)에 의해 렌더링된 오버헤드 채널 신호 중 저주파 성분에 대하여 액티브 다운믹싱 방식으로 믹싱할 수 있다. 액티브 다운믹스 모듈(360)은 보강 간섭을 유도하기 위해 각 채널별로 합해지는 신호들의 위상을 보정하는 액티브다운 믹스 방식에 따라 저주파 성분을 믹싱할 수 있다.
파워 보존 모듈(370)은 공간 렌더러(301)에 의해 렌더링된 신호 중 멀티 채널 패닝부(350)에 의해 렌더링된 오버헤드 채널 신호 중 고주파 성분에 대하여 파워 보존 방식에 따라 믹싱할 수 있다. 파워 보존 모듈(370)은 고주파 성분에 대하여 각 채널들에 렌더링된 신호들의 파워 값에 기초하여 최종 신호의 진폭 또는 최종 신호에 적용될 게인(gain)을 결정하는 파워 보존 방식으로 믹싱할 수 있다. 일실시예에 의한 파워 보존 모듈(370)은 상술된 파워 보존 방식으로 고주파 성분의 신호를 믹싱할 수 있으나, 이에 한하지 않고 위상 보정없이 다른 방법에 따라 믹싱할 수도 있다.
믹서(302)는 액티브 다운믹스 모듈(360) 및 파워 보존 모듈(370)에 의해 믹싱된 신호들을 합하여 믹싱된 3D 음향 신호를 출력할 수 있다.
이하에서는 일실시예에 따라 삼차원 오디오를 재생하는 방법에 대해 도 4 및 도 5를 참조하여 자세히 살펴보기로 한다.
도 4 및 도 5는 일실시예에 의한 삼차원 오디오 재생 방법을 설명하는 흐름도이다.
도 4를 참조하면, 단계 401에서, 삼차원 오디오 재생 장치(100)는 재생하고자 하는 멀티채널 오디오 신호를 획득할 수 있다.
단계 S403에서, 삼차원 오디오 재생 장치(100)는 각 채널별로 렌더링할 수 있다. 일실시예에 의한 삼차원 오디오 재생 장치(100)는 주파수에 따라 렌더링할 수 있으나, 이에 한하지 않고, 다양한 방법으로 렌더링할 수 있다.
단계 S405에서, 삼차원 오디오 재생 장치(100)는 단계 S430에서 렌더링된 신호들을 주파수에 따라 액티브다운 믹스 방식으로 믹싱할 수 있다. 구체적으로, 삼차원 오디오 재생 장치(100)는 저주파 성분를 포함하는 제1 주파수 범위에 대하여는 위상 보정 이후 다운믹싱을 수행하고, 고주파 성분을 포함하는 제2 주파수 범위에 대하여는 다른 방식으로 위상 보정 없이 다운믹싱을 수행할 수 있다. 예를 들면, 삼차원 오디오 재생 장치(100)는 고주파 성분에 대하여는 각 채널별로 렌더링된 신호들의 파워값에 따라 결정된 게인을 적용함으로써 상쇄 간섭에 의해 상쇄된 에너지를 보존될 수 있도록 믹싱하는 파워 보존 방식으로 믹싱할 수 있다.
따라서, 일실시예에 의한 삼차원 오디오 재생 장치(100)는 액티브 다운 믹스 방식을 특정 주파수 범위 예를 들면, 2.8kHz 내지 10 kHz의 고주파 성분에 적용함에 따라 발생될 수 있는 고도감의 저하를 최소화할 수 있다.
도 5는 도 4에 도시된 삼차원 오디오 재생 방법에서 주파수별로 렌더링하고 믹싱하는 방법을 구체적으로 설명하는 흐름도이다.
도 5를 참조하면, 단계 S501에서, 삼차원 오디오 재생 장치(100)는 재생하고자 하는 멀티채널 오디오 신호를 획득할 수 있다. 이때, 삼차원 오디오 재생 장치(100)는 어플라우즈 신호가 삽입되어 있는 경우, 어플라우즈 신호를 분리하여, 어플라우즈 신호의 특징에 따라 채널 렌더링 및 믹싱을 처리할 수 있다.
단계 S503에서, 삼차원 오디오 재생 장치(100)는 단계 501에서 획득한 삼차원 오디오 신호를 오버헤드 채널 신호와 수평 채널의 신호로 분리하여 렌더링 및 믹싱을 각각 수행할 수 있다. 즉, 삼차원 오디오 재생 장치(100)는 오버헤드 채널 신호는 공간 렌더링 및 믹싱, 수평채널 신호는 음색 렌더링 및 믹싱 처리를 수행할 수 있다.
단계 S505에서, 삼차원 오디오 재생 장치(100)는 고도감이 제공될 수 있도록 오버헤드 채널 신호를 HRTF 변형 필터로 필터링할 수 있다.
단계 S507에서, 삼차원 오디오 재생 장치(100)는 오버헤드 채널 신호를 고주파 성분과 저주파 성분의 신호로 분리하여, 렌더링 및 믹싱 처리를 수행할 수 있다.
단계 509에서, 삼차원 오디오 재생 장치(100)는 오버헤드 채널 신호 중 고주파 신호에 대하여, 단계 511에서, 공간 렌더링 방법에 따라 렌더링할 수 있다. 공간 렌더링 방법은 멀티 채널 패닝 방법을 포함할 수 있다. 멀티 채널 패닝이란 멀티채널 오디오 신호의 각 채널 신호들이 재생될 채널들에 배분되는 것을 의미할 수 있다. 이때, 패닝 계수가 적용된 각 채널 신호들이 재생될 채널들에 배분될 수 있다. 고주파 성분의 신호의 경우, 고도감이 올라갈수록 두 귀간의 레벨 차이(Interaural level difference, ILD)가 줄어드는 특성을 제공하기 위해 서라운드 채널에 신호가 배분될 수 있다. 또한, 프론트 채널과 패닝되는 다수의 채널의 개수에 의해 음향 신호의 방향이 정위될 수 있다.
단계 513에서, 삼차원 오디오 재생 장치(100)는 단계 511에서 렌더링된 고주파 신호를 액티브 다운 믹스 방식 이외의 방식으로 믹싱할 수 있다. 예를 들어, 삼차원 오디오 재생 장치(100)는 렌더링된 고주파 신호를 파워 보존 모듈에 따라 믹싱할 수 있다.
또한, 단계 S515에서, 삼차원 오디오 재생 장치(100)는 오버헤드 채널 신호 중 저주파 신호는 상술된 애드 투 클로지스트 채널 패닝방법에 따라 렌더링할 수 있다. 하나의 채널에 많은 신호, 즉 멀티채널 오디오 신호의 여러 개의 채널 신호가 섞이게 되면 각기 다른 위상으로 인해 음질이 상쇄되거나 증폭됨에 따라 음질 열화가 발생될 수 있다. 애드 투 클로지스트 채널 패닝방법에 의하면, 삼차원 오디오 재생 장치(100)는 상술된 음질 열화의 발생을 방지하기 위해 각 채널 수평면에 투영하였을 경우 가장 가까운 채널로 매핑할 수 있다.
멀티채널 오디오 신호가 주파수 신호 또는 필터 뱅크 신호인 경우, 저주파에 해당하는 빈(bin) 또는 밴드(band)는 애드 투 클로지스트 채널 패닝방법, 고주파에 해당하는 빈 또는 밴드는 멀티 채널 패닝 방법에 따라 렌더링될 수 있다. 빈 또는 밴드는 주파수 도메인에서의 소정 단위만큼의 신호 구간을 의미할 수 있다.
단계 S521에서, 삼차원 오디오 재생 장치(100)는 단계 S519에서 렌더링된 수평채널의 신호를 파워 보존 모듈에 따라 믹싱할 수 있다.
단계 S523에서, 삼차원 오디오 재생 장치(100)는 오버헤드 채널 신호와 수평채널 신호의 믹싱된 최종 신호를 출력할 수 있다.
도 6은 일실시예에 의한 액티브 다운 믹싱 방식의 일 예를 나타낸 예시도이다.
신호(610)과 신호(620)이 믹싱되는 경우, 각 신호의 위상이 일치하지 않아 상쇄 간섭이 발생되어 음질이 왜곡될 수 있다. 따라서, 액티브 다운 믹스 방식에 따라 에너지가 상대적으로 적은 신호(610)의 위상을 신호(620)에 맞추어 보정하고, 각 신호를 믹싱할 수 있다. 믹싱된 신호(630)를 참조하면, 신호(610)의 위상이 뒤로 시프트됨에 따라 보강 간섭이 발생될 수 있다.
도 7은 다른 실시예에 따른 삼차원 오디오 디코딩 장치의 구성을 나타내는 블럭도이다. 도 7에 도시된 삼차원 오디오 디코딩 장치는 크게 코어 디코더(710)와 포맷 컨버터(730)를 포함할 수 있다.
도 1을 참조하면, 코어 디코더(710)는 비트스트림을 복호화하여 복수개의 입력채널을 갖는 오디오 신호를 출력할 수 있다. 일실시예에 따르면, 코어 디코더(710)는 USAC(Unified Speech and Audio Coding) 알고리즘으로 동작될 수 있으나, 이에 한정되는 것은 아니다. 이 경우, 코어 디코더(110)는 예를 들면 22.2 채널 포맷의 오디오 신호를 출력할 수 있다. 또한, 코어 디코더(110)는 비트스트림에 포함된 다운믹스된 싱글 혹은 스테레오 채널을 업믹싱하여 예를 들면 22.2 채널 포맷의 오디오 신호를 출력할 수 있다. 여기서, 재생환경 측면에서 볼때 채널은 스피커를 의미할 수 있다.
포맷 컨버터(730)는 채널의 포맷을 변환하는 역할을 수행하기 위한 것으로서, 복수개의 입력채널을 갖는 전송된 채널 구성으로부터 원하는 재생 포맷의 이보다 적은 복수개의 출력채널로 변환하는 다운믹서로 구현될 수 있다. 여기서, 복수개의 입력채널은 복수개의 수평채널과 고도감을 갖는 적어도 하나의 수직채널을 포함할 수 있다. 수직채널은 고도감을 느낄 수 있도록 청취자의 머리 위에 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다. 수평채널은 청취자와 수평하게 위치한 스피커를 통해 음향 신호를 출력할 수 있는 채널을 의미할 수 있다. 한편, 복수개의 출력채널은 모두 수평채널로 구성될 수 있다.
포맷 컨버터(730)는 코어 디코더(710)로부터 제공되는 22.2 채널 포맷의 입력채널을 재생 레이아웃에 대응하여 5.0 혹은 5.1 채널 포맷의 출력채널로 변환할 수 있다. 여기서, 입력채널 혹은 출력채널의 포맷은 다양하게 선택될 수 있다. 한편, 포맷 컨버터(730)는 신호특성에 근거하여 렌더링 타입에 따라서 서로 다른 다운믹스 매트릭스를 사용할 수 있다. 즉, 다운믹서는 서브밴드 도메인 예를 들면 QMF(quadrature mirror filter) 도메인에서 신호에 적응적인 다운믹싱 처리를 수행할 수 있다. 다른 실시예에 따르면, 포맷 컨버터(730)는 재생 레이아웃이 모두 수평 채널로 이루어지는 경우, 입력채널에 대하여 가상 렌더링을 수행하여 고도감을 갖는 오버헤드 음상을 제공할 수 있다. 여기서, 오버헤드 음상은 서라운드 채널 스피커로 제공될 수 있으나, 이에 한정되는 것은 아니다.
한편, 포맷 컨버터(730)는 복수개의 입력채널에 대하여, 채널의 종류에 따라서 서로 다른 렌더링을 수행할 수 있다. 수직채널 즉, 오버헤드 채널인 입력채널의 종류에 따라서 HRTF(Head Related Transfer filter)에 기반한 서로 다른 이퀄라이저를 적용할 수 있다. 또한, 수직채널 즉, 오버헤드 채널인 입력채널의 종류에 따라서 모든 주파수에 대하여 동일한 패닝 계수를 적용하거나, 주파수 범위에 따라서 서로 다른 패닝 계수를 적용할 수 있다.
구체적으로, 입력채널들 중, 특정 수직채널의 경우, 예를 들어 2.8 kHz 이하의 저주파 신호 혹은 10 kHz 이상의 고주파수 신호와 같은 제1 주파수 범위에 대해서는 애드-투-클로지스트-채널(add-to-closest channel) 패닝 방법에 근거하여 렌더링하는 한편, 나머지 2.8 ~ 10 kHz인 제2 주파수 범위에 대해서는 멀티채널 패닝(Multichannel panning) 방법에 근거하여 렌더링할 수 있다. 애드-투-클로지스트 채널 패닝 방법에 의하면, 각 입력채널은 여러 출력채널에 나누어 렌더링하는 대신 복수개의 출력채널들 중 가장 가까운 하나의 출력채널로 패닝될 수 있다. 한편, 멀티 채널 패닝 방법에 의하면, 각 입력채널이 렌더링될 출력채널마다 서로 다르게 설정된 게인이 적용되어 적어도 하나의 수평채널에 패닝될 수 있다.
포맷 컨버터(730)는 복수개의 입력채널이 N개의 수직 채널과 M개의 수평 채널로 이루어지는 경우, N개의 수직 채널 각각을 복수개의 출력채널로 렌더링하고, M개의 수평 채널 각각을 복수개의 출력채널로 렌더링하고, 각 렌더링 결과를 혼합하여 재생 레이아웃에 대응되는 최종 복수개의 출력채널을 생성할 수 있다.
도 8은 일실시예에 따른 오디오 렌더링 장치의 구성을 나타내는 블럭도이다. 도 8에 도시된 오디오 렌더링 장치는 크게 제1 렌더러(810)와 제2 렌더러(830)를 포함할 수 있다. 제1 렌더러(810)와 제2 렌더러(830)는 렌더링 타입에 근거하여 동작할 수 있다. 렌더링 타입은 오디오 장면에 근거하여 엔코더 단에서 결정되어 플래그 형태로 전송될 수 있다. 일실시예에 따르면, 렌더링 타입은 오디오 신호의 대역폭과 코릴레이션 정도에 근거하여 결정될 수 있다. 예를 들어, 오디오 장면이 광대역이면서 프레임에서 매우 디코릴레이티드되어 있는 경우와 그 이외의 경우로 나누어 렌더링 타입을 구분할 수 있다.
도 8을 참조하면, 제1 렌더러(810)는 오디오 장면이 광대역이면서 프레임에서 매우 디코릴레이티드되어 있는 경우, 제1 다운믹스 매트릭스를 이용하여 음색 렌더링(timbral rendering)을 수행할 수 있다. 음색 렌더링은 예를 들면 어플로우즈 혹은 빗소리와 같이 트랜지언트 신호에 적용될 수 있다.
제2 렌더러(830)는 음색 렌더링이 적용되지 않는 나머지 경우, 제2 다운믹스 매트릭스를 이용하여 고도감 렌더링(elevation rendering) 혹은 공간 렌더링(spatial rendering)을 수행함으로써, 복수개의 출력채널에 대하여 고도감을 갖는 음상을 제공할 수 있다.
제1 및 제2 렌더러(810, 830)는 초기화단계에서 주어진 입력채널 포맷과 출력채널 포맷을 위한 다운믹싱 파라미터 즉, 다운믹싱 매트릭스를 생성할 수 있다. 이를 위하여 미리 설계된 변환 규칙(converter rule) 리스트로부터 각 입력채널에 대하여 가장 적절한 매핑 규칙을 선택하는 알고리즘을 적용할 수 있다. 각 규칙은 하나의 입력채널로부터 하나 이상의 출력채널로의 매핑과 관련된 것이다. 여기서, 입력채널은 단일한 출력채널에 매핑되거나, 두개의 출력채널에 매핑되거나, 다수의 출력채널에 매핑되거나, 주파수에 따라서 서로 다른 패닝 계수를 갖는 다수의 출력채널에 매핑될 수 있다.
각 입력채널에 대한 최적의 매핑은 원하는 재생 레이아웃을 구성하는 출력채널들에 따라서 선택될 수 있다. 매핑 결과, 각 입력채널에 적용되는 이퀄라이저와 함께 다운믹스 게인이 정의될 수 있다.
도 9는 다른 실시예에 따른 오디오 렌더링 장치의 구성을 나타내는 블럭도이다. 도 9에 도시된 오디오 렌더링 장치는 크게 필터(910), 위상보정부(930) 및 다운믹서(950)를 포함할 수 있다. 도 9의 오디오 렌더링 장치는 독립적으로 동작하거나 도 7의 포맷 컨버터(730) 혹은 도 8의 제2 렌더러(830)의 구성요소로 포함될 수 있다.
도 9를 참조하면, 필터(910)는 대역통과필터로서 디코더 출력 중 수직 입력채널 신호에 대하여 특정 주파수범위의 신호를 필터링할 수 있다. 일실시예에 따르면, 필터(910)는 2.8 kHz 내지 10 kHz 의 주파수 성분과 그 외의 주파수 성분을 구분할 수 있다. 2.8 kHz 내지 10 kHz 의 주파수 성분은 그대로 다운믹서(950)로, 그외의 주파수 성분은 위상보정부(930)로 제공될 수 있다. 만약, 수평 입력채널인 경우에는 모든 범위의 주파수 성분에 대하여 위상 보정을 수행하기 때문에 필터(910)를 필요로 하지 않을 수 있다.
위상보정부(930)는 2.8 kHz 내지 10 kHz 이외의 주파수 성분에 대하여 위상보정(phase alignment)을 수행할 수 있다. 위상 보정된 주파수 성분 즉, 2.8 kHz 이하 및 10 kHz 이상의 주파수 성분은 다운믹서(950)로 제공될 수 있다.
다운믹서(950)는 필터(910) 혹은 위상보정부(930)로부터 제공되는 주파수 성분에 대하여 다운믹싱을 수행할 수 있다.
도 10은 일실시예에 따른 오디오 렌더링 방법의 동작을 설명하는 흐름도로서, 도 9의 장치에 대응될 수 있다.
도 10을 참조하면, 단계 S1010에서는 멀티채널 오디오 신호를 수신할 수 있다. 구체적으로, 단계 S1010에서는 멀티채널 오디오 신호 중, 오버헤드 채널신호 즉 수직채널 신호를 수신할 수 있다.
단계 S1030에서는 미리 설정된 소정 주파수 범위에 따라서 다운믹싱 방식을 결정할 수 있다.
단계 S1050에서는 오버헤드 채널신호 중 소정 주파수 범위 이외의 성분에 대해서는 위상 보정 후 다운믹싱을 수행할 수 있다.
단계 S1070에서는 오버헤드 채널신호 중 소정 주파수 범위의 성분에 대해서는 위상 보정없이 다운믹싱을 수행할 수 있다.
도 11은 다른 실시예에 따른 오디오 렌더링 방법의 동작을 설명하는 흐름도로서, 도 8의 장치에 대응될 수 있다.
도 11을 참조하면, 단계 S1110에서는 멀티채널 오디오 신호를 수신할 수 있다.
단계 S1130에서는 렌더링 타입을 체크할 수 있다.
단계 S1150에서는 렌더링 타입이 음색 렌더링에 해당하는 경우 제1 다운믹스 매트릭스를 이용하여 다운믹싱을 수행할 수 있다.
단계 S1170에서는 렌더링 타입이 공간 렌더링에 해당하는 경우 제2 다운믹스 매트릭스를 이용하여 다운믹싱을 수행할 수 있다. 공간 렌더링을 위한 제2 다운믹스 매트릭스는 공간 고도감 필터 계수와 멀티채널 패닝 계수로 구성될 수 있다.
이상에서 설명된 실시예들은 본 발명의 구성요소들과 특징들이 소정 형태로 결합된 것이다. 각 구성요소 또는 특징은 별도의 명시적 언급이 없는 한 선택적인 것으로 고려될 수 있다. 각 구성요소 또는 특징은 다른 구성요소나 특징과 결합되지 않은 상태로 실시될 수 있다. 또한, 일부 구성요소들 및/또는 특징들을 결합하여 실시예를 구성하는 것도 가능하다. 실시예들에서 설명되는 동작들의 순서는 변경될 수 있다. 어느 실시예의 일부 구성요소나 특징은 다른 실시예에 포함될 수 있고, 또는 다른 실시예의 대응하는 구성요소 또는 특징과 교체될 수 있다. 이에 따라서 특허청구범위에서 명시적인 인용관계가 있지 않은 청구항들을 결합하여 실시예를 구성하거나 출원후의 보정에 의해 새로운 청구항으로 포함시킬 수 있음은 자명하다.
상기 실시예들은 다양한 수단, 예를 들어 하드웨어, 펌웨어, 소프트웨어 또는 그것들의 결합에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 실시예들은 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 실시예들은 이상에서 설명된 기능 혹은 동작들을 수행하는 모듈, 절차, 함수 등의 형태를 사용하여 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 이상에서 설명된 실시예들에서 사용될 수 있는 데이터 구조, 프로그램 명령, 혹은 데이터 파일은 컴퓨터로 읽을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함하며, 프로세서 내부 혹은 외부에 위치할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 자기 매체(magnetic media), 광기록 매체(optical media), 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 또한, 본 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. "매커니즘", "요소", "수단", "구성"과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.
본 실시예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.
본 명세서(특히 특허청구범위)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 기술적 사상을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (15)

  1. 복수개의 입력채널로 이루어진 멀티채널 신호를 수신하는 단계; 및
    상기 복수개의 입력채널을 고도감을 갖는 복수개의 출력채널로 포맷을 컨버팅하기 위하여, 상기 멀티채널 신호의 주파수 범위에 대응하여 다운믹싱을 수행하는 단계를 포함하는 삼차원 오디오 재생 방법.
  2. 제1 항에 있어서, 상기 다운믹싱을 수행하는 단계는
    상기 멀티채널 신호의 제1 주파수 범위에 대하여 위상보정 이후 다운믹싱을 수행하고, 상기 멀티채널 신호의 나머지 제2 주파수 범위에 대하여 위상보정 없이 다운믹싱을 수행하는 단계를 포함하는 오디오 렌더링 방법.
  3. 제2 항에 있어서, 상기 제1 주파수 범위는 소정 주파수보다 낮은 대역을 포함하는 오디오 렌더링 방법.
  4. 제1 항에 있어서, 상기 복수개의 출력채널은 수평채널로 구성되는 삼차원 오디오 재생 방법.
  5. 제1 항에 있어서, 상기 다운믹싱을 수행하는 단계는
    상기 멀티채널 신호의 특성에 근거하여 서로 다른 다운믹스 매트릭스를 적용하는 삼차원 오디오 재생 방법.
  6. 제5 항에 있어서, 상기 멀티채널 신호의 특성은 대역폭과 코릴레이션 정도를 포함하는 삼차원 오디오 재생 방법.
  7. 제1 항에 있어서, 상기 다운믹싱을 수행하는 단계는
    비트스트림에 포함된 렌더링 타입에 따라서 음색 렌더링과 공간 렌더링 중 하나를 적용하는 삼차원 오디오 재생 방법.
  8. 제7 항에 있어서, 상기 렌더링 타입은 상기 멀티채널 신호의 특성이 트랜지언트한지 여부에 따라서 결정되는 삼차원 오디오 재생 방법.
  9. 제1 항 내지 제8 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  10. 비트스트림을 복호화하는 코어 디코더; 및
    상기 코어 디코더로부터 복수개의 입력채널로 이루어진 멀티채널 신호를 수신하고, 상기 복수개의 입력채널을 고도감을 갖는 복수개의 출력채널로 렌더링하기 위하여 상기 멀티채널 신호의 주파수 범위에 대응하여 다운믹싱을 수행하는 포맷 컨버터를 포함하는 삼차원 오디오 재생 장치.
  11. 제10 항에 있어서, 상기 포맷 컨버터는 상기 멀티채널 신호의 제1 주파수 범위에 대하여 위상보정 이후 다운믹싱을 수행하고, 상기 멀티채널 신호의 나머지 제2 주파수 범위에 대하여 위상보정 없이 다운믹싱을 수행하는 삼차원 오디오 재생 장치.
  12. 제11 항에 있어서, 상기 제1 주파수 범위는 저주파 성분을 포함하는 삼차원 오디오 재생 장치.
  13. 제10 항에 있어서, 상기 복수개의 출력채널은 수평채널로 구성되는 삼차원 오디오 재생 장치.
  14. 제10 항에 있어서, 상기 포맷 컨버터는 상기 비트스트림에 포함된 렌더링 타입에 따라서 음색 렌더링과 공간 렌더링 중 하나를 적용하는 삼차원 오디오 재생 장치.
  15. 제14 항에 있어서, 상기 렌더링 타입은 상기 멀티채널 신호의 특성에 따라서 프레임 단위로 설정되는 삼차원 오디오 재생 장치.
PCT/KR2015/000303 2014-01-10 2015-01-12 삼차원 오디오 재생 방법 및 장치 WO2015105393A1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
BR112016016008-8A BR112016016008B1 (pt) 2014-01-10 2015-01-12 Método para renderizar um sinal de áudio
US15/110,861 US10136236B2 (en) 2014-01-10 2015-01-12 Method and apparatus for reproducing three-dimensional audio
CN201910277101.6A CN109801640B (zh) 2014-01-10 2015-01-12 用于再现三维音频的方法和设备
CN201580012023.7A CN106063297B (zh) 2014-01-10 2015-01-12 用于再现三维音频的方法和设备
EP15734960.6A EP3079379B1 (en) 2014-01-10 2015-01-12 Method and apparatus for reproducing three-dimensional audio
US16/166,589 US10652683B2 (en) 2014-01-10 2018-10-22 Method and apparatus for reproducing three-dimensional audio
US16/781,583 US10863298B2 (en) 2014-01-10 2020-02-04 Method and apparatus for reproducing three-dimensional audio

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140003619A KR102160254B1 (ko) 2014-01-10 2014-01-10 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
KR10-2014-0003619 2014-01-10

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/110,861 A-371-Of-International US10136236B2 (en) 2014-01-10 2015-01-12 Method and apparatus for reproducing three-dimensional audio
US16/166,589 Continuation US10652683B2 (en) 2014-01-10 2018-10-22 Method and apparatus for reproducing three-dimensional audio

Publications (1)

Publication Number Publication Date
WO2015105393A1 true WO2015105393A1 (ko) 2015-07-16

Family

ID=53524156

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/000303 WO2015105393A1 (ko) 2014-01-10 2015-01-12 삼차원 오디오 재생 방법 및 장치

Country Status (7)

Country Link
US (3) US10136236B2 (ko)
EP (1) EP3079379B1 (ko)
KR (1) KR102160254B1 (ko)
CN (2) CN106063297B (ko)
BR (1) BR112016016008B1 (ko)
HU (1) HUE050525T2 (ko)
WO (1) WO2015105393A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10490197B2 (en) 2015-06-17 2019-11-26 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US10607622B2 (en) 2015-06-17 2020-03-31 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
CN113689890A (zh) * 2021-08-09 2021-11-23 北京小米移动软件有限公司 多声道信号的转换方法、装置及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
KR102258784B1 (ko) 2014-04-11 2021-05-31 삼성전자주식회사 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2016182184A1 (ko) * 2015-05-08 2016-11-17 삼성전자 주식회사 입체 음향 재생 방법 및 장치
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
CN107925814B (zh) * 2015-10-14 2020-11-06 华为技术有限公司 生成提升声音印象的方法和设备
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
US10602296B2 (en) * 2017-06-09 2020-03-24 Nokia Technologies Oy Audio object adjustment for phase compensation in 6 degrees of freedom audio
EP3422738A1 (en) * 2017-06-29 2019-01-02 Nxp B.V. Audio processor for vehicle comprising two modes of operation depending on rear seat occupation
KR102119240B1 (ko) * 2018-01-29 2020-06-05 김동준 스테레오 오디오를 바이노럴 오디오로 업 믹스하는 방법 및 이를 위한 장치
US11586411B2 (en) * 2018-08-30 2023-02-21 Hewlett-Packard Development Company, L.P. Spatial characteristics of multi-channel source audio
US11012774B2 (en) * 2018-10-29 2021-05-18 Apple Inc. Spatially biased sound pickup for binaural video recording
EP4256555A1 (en) * 2020-12-02 2023-10-11 Dolby Laboratories Licensing Corporation Immersive voice and audio services (ivas) with adaptive downmix strategies
WO2022158943A1 (ko) * 2021-01-25 2022-07-28 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법
CN113035209B (zh) * 2021-02-25 2023-07-04 北京达佳互联信息技术有限公司 三维音频获取方法和三维音频获取装置
CN116368460A (zh) * 2023-02-14 2023-06-30 北京小米移动软件有限公司 音频处理方法、装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080066121A (ko) * 2007-01-11 2008-07-16 삼신이노텍 주식회사 음 지연과 레벨 감쇄를 통한 서라운드 입체음향 시스템 및그 구현방법
KR20120004916A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20120006010A (ko) * 2009-03-17 2012-01-17 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
KR20120137253A (ko) * 2011-06-09 2012-12-20 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
US20130016843A1 (en) * 2003-10-02 2013-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Compatible multi-channel coding/decoding

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7382888B2 (en) * 2000-12-12 2008-06-03 Bose Corporation Phase shifting audio signal combining
DE602004029872D1 (de) * 2003-03-17 2010-12-16 Koninkl Philips Electronics Nv Verarbeitung von mehrkanalsignalen
US8619998B2 (en) 2006-08-07 2013-12-31 Creative Technology Ltd Spatial audio enhancement processing method and apparatus
WO2009046223A2 (en) 2007-10-03 2009-04-09 Creative Technology Ltd Spatial audio analysis and synthesis for binaural reproduction and format conversion
US8639368B2 (en) 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR20110052562A (ko) * 2008-07-15 2011-05-18 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
CN103366748A (zh) 2010-02-12 2013-10-23 华为技术有限公司 立体声编码的方法、装置
CN101899307A (zh) 2010-03-18 2010-12-01 华东理工大学 一种共掺Er3+,Dy3+的上转换荧光粉及其制备方法
KR20110116079A (ko) * 2010-04-17 2011-10-25 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
BR122021021487B1 (pt) * 2012-09-12 2022-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
JP6300762B2 (ja) 2015-07-28 2018-03-28 富士フイルム株式会社 磁気テープおよびその製造方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130016843A1 (en) * 2003-10-02 2013-01-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Compatible multi-channel coding/decoding
KR20080066121A (ko) * 2007-01-11 2008-07-16 삼신이노텍 주식회사 음 지연과 레벨 감쇄를 통한 서라운드 입체음향 시스템 및그 구현방법
KR20120006010A (ko) * 2009-03-17 2012-01-17 돌비 인터네셔널 에이비 적응형으로 선택가능한 좌/우 또는 미드/사이드 스테레오 코딩과 파라메트릭 스테레오 코딩의 조합에 기초한 진보된 스테레오 코딩
KR20120004916A (ko) * 2010-07-07 2012-01-13 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR20120137253A (ko) * 2011-06-09 2012-12-20 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3079379A4 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10490197B2 (en) 2015-06-17 2019-11-26 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US10607622B2 (en) 2015-06-17 2020-03-31 Samsung Electronics Co., Ltd. Device and method for processing internal channel for low complexity format conversion
US11404068B2 (en) 2015-06-17 2022-08-02 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
US11810583B2 (en) 2015-06-17 2023-11-07 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
CN113689890A (zh) * 2021-08-09 2021-11-23 北京小米移动软件有限公司 多声道信号的转换方法、装置及存储介质

Also Published As

Publication number Publication date
BR112016016008A2 (ko) 2017-08-08
CN106063297B (zh) 2019-05-03
EP3079379A1 (en) 2016-10-12
US20160330560A1 (en) 2016-11-10
KR102160254B1 (ko) 2020-09-25
BR112016016008B1 (pt) 2022-09-13
US20190058959A1 (en) 2019-02-21
US20200228908A1 (en) 2020-07-16
HUE050525T2 (hu) 2020-12-28
CN109801640A (zh) 2019-05-24
US10863298B2 (en) 2020-12-08
US10652683B2 (en) 2020-05-12
EP3079379A4 (en) 2017-01-18
US10136236B2 (en) 2018-11-20
CN109801640B (zh) 2023-04-14
CN106063297A (zh) 2016-10-26
KR20150083734A (ko) 2015-07-20
EP3079379B1 (en) 2020-07-01

Similar Documents

Publication Publication Date Title
WO2015105393A1 (ko) 삼차원 오디오 재생 방법 및 장치
US10674262B2 (en) Merging audio signals with spatial metadata
US10950246B2 (en) Apparatus and method for providing enhanced guided downmix capabilities for 3D audio
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
WO2015156654A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
US8374365B2 (en) Spatial audio analysis and synthesis for binaural reproduction and format conversion
WO2015041476A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015142073A1 (ko) 오디오 신호 처리 방법 및 장치
WO2014157975A1 (ko) 오디오 장치 및 이의 오디오 제공 방법
WO2014021588A1 (ko) 오디오 신호 처리 방법 및 장치
WO2014175669A1 (ko) 음상 정위를 위한 오디오 신호 처리 방법
WO2011139090A2 (en) Method and apparatus for reproducing stereophonic sound
EP3195615B1 (en) Orientation-aware surround sound playback
WO2015147533A2 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
JP2012525051A (ja) オーディオ信号の合成
EP3808106A1 (en) Spatial audio capture, transmission and reproduction
Goodwin et al. Multichannel surround format conversion and generalized upmix
JP6222704B2 (ja) マルチチャネル音声信号をダウンミックスする方法および装置
WO2014021586A1 (ko) 오디오 신호 처리 방법 및 장치
WO2015060696A1 (ko) 입체 음향 재생 방법 및 장치
WO2014112793A1 (ko) 채널 신호를 처리하는 부호화/복호화 장치 및 방법
WO2019229300A1 (en) Spatial audio parameters
WO2015147433A1 (ko) 오디오 신호 처리 장치 및 방법
WO2020032624A1 (ko) 오디오 장치 및 그 제어방법
CN114762040A (zh) 将双耳信号转换为立体声音频信号

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15734960

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2015734960

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015734960

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15110861

Country of ref document: US

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112016016008

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 112016016008

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20160708