WO2015152666A1 - Method and device for decoding audio signal comprising hoa signal - Google Patents

Method and device for decoding audio signal comprising hoa signal Download PDF

Info

Publication number
WO2015152666A1
WO2015152666A1 PCT/KR2015/003334 KR2015003334W WO2015152666A1 WO 2015152666 A1 WO2015152666 A1 WO 2015152666A1 KR 2015003334 W KR2015003334 W KR 2015003334W WO 2015152666 A1 WO2015152666 A1 WO 2015152666A1
Authority
WO
WIPO (PCT)
Prior art keywords
hoa
signal
frequency domain
domain
audio
Prior art date
Application number
PCT/KR2015/003334
Other languages
French (fr)
Korean (ko)
Inventor
전상배
김선민
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2015152666A1 publication Critical patent/WO2015152666A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present invention relates to a method and apparatus for decoding an audio signal comprising a higher order ambisonincs (HOA) signal.
  • HOA ambisonincs
  • high quality multichannel audio signals such as 7.1 channels, 10.2 channels, 13.2 channels, and 22.2 channels are used, which have more channels than the 5.1 audio signals.
  • high-quality multi-channel audio signals are often heard through two-channel stereo speakers or headphones through a personal terminal such as a smartphone or a PC.
  • binaural rendering may be used, which downmixes the multichannel audio signal into the stereo audio signal so that a high quality multichannel audio signal can be listened to in two channels of stereo speakers or headphones.
  • the present invention relates to a method and apparatus for decoding an audio signal including a HOA signal for reducing the amount of computation during binaural rendering.
  • the complexity in the audio decoding stage may be reduced.
  • FIG. 1 is a block diagram illustrating an internal structure of an audio decoder including a HOA decoder according to an embodiment.
  • FIG. 2 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
  • FIG. 3 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to an embodiment.
  • FIG. 4 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to a processing domain of a HOA decoder according to an embodiment.
  • FIG. 5 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
  • An apparatus for decoding an audio signal including a HOA signal comprising: an audio core codec for decoding a bitstream including an audio signal and outputting the HOA signal in a frequency domain or a time domain; And a HOA decoder for rendering and outputting the HOA signal of the frequency domain in the frequency domain.
  • In the frequency domain further comprises a binaural renderer for binaural rendering the signal mixed by the mixer.
  • the audio core codec outputs a HOA signal in the frequency domain when the processing domain of the HOA decoder is neutral or frequency domain, and the HOA decoder renders and outputs a HOA signal in the frequency domain in the frequency domain. .
  • the processing domain of the HOA decoder is determined as a neutral or frequency domain.
  • a method of decoding an audio signal including a HOA signal comprising: decoding the bitstream including an audio signal and outputting the HOA signal in a frequency domain or a time domain; In the frequency domain, rendering and outputting the HOA signal of the frequency domain.
  • any part of the specification is to “include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • a part is “connected” with another part, this includes not only the case where it is “directly connected” but also the case where it is “electrically connected” with another element between them.
  • part refers to a hardware component, such as software, FPGA or ASIC, and “part” plays certain roles. However, “part” is not meant to be limited to software or hardware.
  • the “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors.
  • a “part” refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables.
  • the functionality provided within the components and “parts” may be combined into a smaller number of components and “parts” or further separated into additional components and “parts”.
  • an audio object refers to each of sound components included in an audio signal.
  • One audio signal may include various audio objects.
  • the audio signal generated by recording the performance of an orchestra includes a plurality of audio objects generated from a plurality of musical instruments such as guitar, violin, and oboe.
  • the HOA signal refers to a signal in which the audio signal is represented by coefficients representing a three-dimensional sound field.
  • the HOA signal is one of content types for representing an audio signal such as an object and a channel.
  • the HOA signal may be included in the bitstream in addition to the information about the channel and the object, and may be rendered as a channel through which the audio signal is output by the HOA decoder.
  • the method of rendering the HOA signal is described as a reference, but it is not limited thereto, and the exemplary embodiments described herein may be applied to a method of rendering various types of audio signals.
  • the processing domain refers to a domain in which a corresponding component is operated.
  • the processing domain can be set to one of time domain, frequency domain and neutral.
  • the processing domain of components that can operate in either the time domain or the frequency domain may be set to neutral.
  • the described technique is described based on the Moving Picture Experts Group-H (MPEG-H) standard, but is not limited thereto and may be applied to other audio coding techniques.
  • MPEG-H Moving Picture Experts Group-H
  • FIG. 1 is a block diagram illustrating an internal structure of an audio decoder including a HOA decoder according to an embodiment.
  • the audio decoder 100 of FIG. 1 may include an audio core codec 110, a format converter 120, an object renderer 130, a HOA decoder 140, a mixer 150, and a binaural renderer 160. Can be.
  • the audio decoder 100 is not limited to the components shown in FIG. 1, and may further include other components as necessary.
  • the audio core codec 110 may extract a plurality of channels, objects, and a HOA signal by decoding a bitstream including an audio signal.
  • the audio core codec 110 may be a unified speech and audio coding (USAC) core decoder.
  • the audio core codec 110 may be various types of decoders for decoding a bitstream including an audio signal.
  • the audio core codec 110 may decode the audio signal using a spectral band replication (SBR) technique that obtains a high band signal from a low band signal and a parameter.
  • SBR spectral band replication
  • the audio core codec 110 may output a decoded audio signal in the frequency domain.
  • the audio core codec 110 may output the HOA signal in the frequency domain by decoding the bitstream.
  • the audio core codec 110 demuxes the bit stream and performs T (time) / frequency (F) conversion on the demuxed data to extract channels, objects, HOA signals, etc. from the bit stream in the frequency domain.
  • the audio core codec 110 may convert the HOA signal extracted as a result of performing the main process into the time domain and output the HOA signal of the frequency domain without domain conversion.
  • the audio core codec 110 may include the HOA decoder 140.
  • the HOA signal in the frequency domain may be converted into a value in the time domain according to the processing domain of and output.
  • the processing domain of the HOA decoder 140 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer 160 are the same.
  • the audio core codec 110 converts the domain of the HOA signal with QMF synthesis and the binaural renderer 160 converts the domain of the audio signal with QMF analysis corresponding to QMF synthesis
  • the same method is used. It may be determined that domain conversion is performed. Inverse fast fourier transform (IFFT) and fast fourier transform (FFT) methods may be determined to be the same domain transformation method.
  • IFFT Inverse fast fourier transform
  • FFT fast fourier transform
  • domain conversion is performed in different ways. Can be judged.
  • the HOA decoder 140 When it is determined that the domain transformation is performed in the same manner, respectively, the domain transformation process of the audio core codec 110 and the domain transformation process of the binaural renderer 160 are omitted, and the HOA decoder 140 performs the HOA in the frequency domain.
  • the processing domain of the HOA decoder 140 is the time domain
  • the audio core codec 110 may convert the HOA signal of the decoded frequency domain into a value of the time domain and output the converted signal. If the domain conversion method of the audio core codec 110 and the domain conversion method of the binaural renderer 160 do not correspond to each other, the HOA decoder 140 may operate in the time domain.
  • the audio core codec 110 may output a decoded HOA signal of a frequency domain without domain conversion.
  • the format converter 120 may convert the audio signal to be output to each channel according to the output environment in which the audio signal is to be output.
  • the audio signal to be output through each channel may be input to the format converter 120 as channel information and pre-rendered object information among data output by the audio core codec 110.
  • the output environment in which the audio signal is output may include layout information, performance information, and the like of the speaker to which the audio signal is output. Since the output environment in which the audio signal is output is different from the output environment assumed at the time of encoding, the format converter 120 may convert the audio signal based on the environment information in which the audio signal is actually output.
  • the object renderer 130 may render the audio object at a predetermined spatial position based on metadata regarding the audio object.
  • the HOA decoder 140 may render a HOA signal including the HOA coefficients and the HOA side information output by the audio core codec 110 in multiple channels.
  • HOA coefficients are values representing an audio signal in a three-dimensional sound field space. Based on the HOA side information, the HOA signal can be rendered in multiple channels.
  • the HOA decoder 140 may render the HOA signal and output the rendered HOA signal.
  • the HOA decoder may be referred to as a renderer, a HOA renderer, or the like.
  • the processing domain of HOA decoder 140 may be time domain, frequency domain or neutral.
  • the processing domain of the HOA decoder 140 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer 160 are the same.
  • the HOA decoder 140 may receive the HOA signal of the time domain. As the domain conversion method of the audio core codec 110 and the binaural renderer 160 is determined to be different, the processing domain of the HOA decoder 140 may be determined as the time domain. In addition, the HOA decoder 140 may render the HOA signal in the time domain.
  • the HOA decoder 140 in which the processing domain is the neutral or frequency domain can be operated in the frequency domain. Therefore, the audio core codec 110 may output the HOA signal in the frequency domain to the HOA decoder 140 without domain conversion.
  • the processing domain of the HOA decoder 140 may be determined as the frequency domain or the neutral.
  • the HOA decoder 140 may render the HOA signal in the frequency domain in the frequency domain and output the rendered HOA signal in the frequency domain.
  • the mixer 150 may mix a plurality of audio signals such as a rendered object, a rendered HOA signal, and channel information.
  • the mixer 150 is not limited to the example described above, and may mix various types of audio signals.
  • the mixer 150 may appropriately convert and mix the volume, tone, and the like of the rendered audio signals.
  • the mixer 150 may output a mixed audio signal that may be output to each channel.
  • the mixer 150 may output the mixed audio signal of the frequency domain or the time domain according to the input signal. When the mixer 150 mixes the audio signal of the frequency domain, the mixer 150 may output the mixed audio signal of the frequency domain.
  • the mixer 150 may output the mixed audio signals in the time domain.
  • the binaural renderer 160 may downmix the audio signal mixed by the mixer 150 and binaurally render the 2-channel signal.
  • the binaural renderer 160 performs binaural rendering of the multi-channel mixed audio signal so that the multi-channel mixed audio signal can be output to two-channel stereo speakers or headphones through a terminal device such as a smartphone or a PC. can do.
  • the binaural renderer 160 converts the multi-channel audio signal in the time domain into an audio signal in the frequency domain.
  • the processing domain of the HOA decoder 140 may be determined as the time domain, and the binaural renderer 160 may have time.
  • the audio signal of the domain may be input.
  • the binaural renderer 160 may perform binaural rendering on the audio signal of the domain transformed frequency domain.
  • the binaural renderer 160 may perform binaural rendering on the audio signal of the frequency domain without domain conversion.
  • the processing domain of the HOA decoder 140 may be determined as the frequency domain or the neutral, and the binaural renderer 160 is determined.
  • An audio signal in a frequency domain may be input to the channel.
  • the binaural renderer 160 may generate two channels of binaural signals in the frequency domain by performing binaural rendering.
  • the binaural renderer 160 may convert the domain of the binaural signal into the time domain and output an audio signal of the time domain.
  • the rendered HOA signal output from the HOA decoder 140 is a signal of the frequency domain. Accordingly, the mixer 150 may output the mixed audio signal in the frequency domain, and the audio signal in the frequency domain may be input to the binaural renderer 160. Accordingly, since the binaural renderer 160 may perform binaural rendering without converting the audio signal of the time domain into the frequency domain, the complexity of the audio decoding stage may be reduced.
  • the audio core codec 110 converts the decoded HOA signal of the decoded frequency domain into a time domain value and the binaural renderer 160 converts the time domain audio signal into the frequency domain in the same manner.
  • the HOA decoder 140 may render the HOA signal in the frequency domain. For example, when the audio core codec 110 converts the domain of the HOA signal by QMF synthesis, when the binaural renderer 160 converts the domain of the audio signal by QMF analysis corresponding to QMF synthesis, the audio core The domain conversion process in the codec 110 and the binaural renderer 160 may be omitted, and the HOA decoder 140 may render the HOA signal in the frequency domain.
  • the HOA signal rendered by the HOA decoder 140 is a signal in the frequency domain, and the rendered channels and objects are also signals in the frequency domain.
  • a unified interface in the frequency domain may be provided for the post-rendering process for signals such as HOA signals, channels, objects, and the like.
  • the binaural renderer 160 may binaurally render not only the mixed HOA signal but also the signals of the mixed channel and the object.
  • the mixed channel and object signals that may be input to the binaural renderer 160 may be signals in a frequency domain.
  • the binaural renderer 160 may binaurally render the signals of the mixed channels and objects in the frequency domain.
  • the binaural renderer 240 converts the domain of the mixed HOA signal into the frequency domain, unlike the signals of the channel and the object. After that, you can perform binaural rendering, which is the main process.
  • the binaural renderer 160 receives the mixed HOA signal in the frequency domain. can do. Accordingly, the binaural renderer 160 performs the binaural rendering in the frequency domain on the mixed HOA signal in the frequency domain without mixing the other audio signals in the frequency domain, for example, the channel and object signals. Can be done.
  • the binaural signal in the frequency domain may be converted into a value in the time domain according to F / T conversion.
  • the binaural signal in the frequency domain may be converted into the time domain such that the binaural signal is sequentially output through the audio output device over time.
  • the converted binaural signal of the time domain may be finally output through a two-channel audio output device such as a speaker or a headphone.
  • FIG. 2 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
  • the audio decoder 200 may be a terminal device that can be used by a user.
  • the audio decoder 200 may include a smart television (television), ultra high definition (UHD) TV, a monitor, a personal computer (PC), a notebook computer, a mobile phone, a tablet PC, a navigation terminal, Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
  • the audio decoder 200 may include an audio core codec 210 and a HOA decoder 220.
  • the audio core codec 210 and the HOA decoder 220 of FIG. 2 may correspond to the audio core codec 110 and the HOA decoder 140 of FIG. 1, respectively.
  • the audio core codec 210 may obtain a HOA signal by decoding a bitstream including an audio signal. When decoding data using the SBR technology, the audio core codec 210 may obtain a decoded audio signal in the frequency domain. The audio core codec 210 may convert and output the HOA signal in the frequency domain into a value in the time domain according to the processing domain of the HOA decoder 220. The processing domain of the HOA renderer 220 may be determined depending on whether the domain conversion methods of the audio core codec 210 and the binaural renderer 160 are the same.
  • the audio core codec 210 may convert and output the HOA signal of the decoded frequency domain into a value of the time domain.
  • the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion.
  • the HOA decoder 220 may render the HOA signal output by the audio core codec 210.
  • the processing domain of the HOA decoder 220 is a neutral or frequency domain
  • the HOA signal of the frequency domain input from the audio core codec 210 may be rendered.
  • the HOA decoder 220 may render the HOA signal in the frequency domain and output the HOA signal in the rendered frequency domain.
  • the HOA signal rendered by the HOA decoder 220 may be mixed with other audio signals in the frequency domain and then binaurally rendered and finally output.
  • FIG. 3 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to an embodiment.
  • the audio core codec 210 may decode a bit stream and output a HOA signal in a frequency domain or a time domain.
  • the HOA signal may include a HOA coefficient and HOA side information.
  • the audio core codec 210 obtains a decoded audio signal in the frequency domain, and decodes the decoded HOA signal in the time domain or the frequency domain according to the processing domain of the HOA decoder 220. You can print
  • the audio core codec 210 may output the time domain HOA signal by converting the decoded HOA signal into a value of the time domain.
  • the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion.
  • the processing domain of the HOA decoder 220 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer are the same.
  • the HOA decoder 220 may render the HOA signal in a plurality of channels in the frequency domain or the time domain according to the processing domain of the HOA decoder 220.
  • the HOA decoder 220 may receive a time domain HOA signal from the audio core codec 210.
  • the HOA decoder 220 may output the rendered HOA signal in the time domain.
  • the HOA decoder 220 may receive a HOA signal in the frequency domain from the audio core codec 210.
  • the HOA decoder 220 may render the HOA signal in the frequency domain and output the HOA signal in the rendered frequency domain. Therefore, unlike the HOA decoder 220 in the time domain, the HOA decoder 220 may directly output the rendered HOA signal in the frequency domain without performing a domain conversion process.
  • FIG. 4 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to a processing domain of a HOA decoder according to an embodiment.
  • the audio core codec 210 may obtain a HOA signal in a frequency domain by decoding a bit stream including an audio signal.
  • the audio core codec 210 may obtain a decoded audio signal in the frequency domain.
  • the processing domain of the HOA decoder 220 may be determined depending on whether the audio core codec and the binaural renderer have the same domain conversion method.
  • the processing domain of HOA decoder 220 may be set to one of time domain, frequency domain, and neutral.
  • the processing domain of the HOA decoder 220 may be determined as a frequency domain or a neutral. Therefore, the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion.
  • the HOA decoder 220 may render a plurality of channels in the frequency domain with respect to the HOA signal in the frequency domain output by the audio core codec 210.
  • the processing domain of the HOA decoder 220 may be determined as the time domain.
  • the HOA decoder 220 may render the HOA signal decoded in the time domain.
  • the audio core codec 210 may convert and output a HOA signal in a frequency domain into a HOA signal in a time domain.
  • the HOA decoder 220 may output the HOA signal in the time domain by rendering the HOA signal in the time domain input from the audio core codec 210 in the time domain.
  • the audio decoder 200 may mix the HOA signal of the frequency domain or time domain rendered by the HOA decoder 220 with another audio signal.
  • the audio decoder 200 may further include a mixer 150 for mixing the plurality of audio signals.
  • the audio decoder 200 may binaurally render the mixed signal in the frequency domain or the time domain in the frequency domain.
  • the audio decoder 200 may further include a binaural renderer 160 for performing binaural rendering. Since the binaural renderer 160 may perform binaural rendering in the frequency domain, when the mixed signal of the time domain is received, the binaural renderer 160 may further perform processing for converting the time domain signal into the frequency domain. . However, when the binaural renderer 160 receives the mixed signal of the frequency domain, the binaural renderer may perform binaural rendering without performing a domain conversion process. The binaural renderer 160 may receive the mixed signal of the frequency domain when the HOA decoder 140 operates in the frequency domain.
  • the HOA signal rendered by the HOA decoder 220 is a signal in the frequency domain, and the rendered channels and objects are also signals in the frequency domain.
  • a uniform interface in the frequency domain can be provided for tasks performed by mixer 150 and binaural renderer 160 using audio signals, such as rendered HOA signals, channels, objects, and the like.
  • the computation amount of the task performed in the frequency domain is less than the computation amount of the task performed in the time domain, the computation amount of the task after rendering may be reduced.
  • the binaural rendered binaural signal may be converted to the time domain and output to a device capable of outputting an audio signal such as a speaker or a headphone.
  • FIG. 5 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
  • the audio decoder 500 may include an audio core codec 510, a HOA decoder 520, and a binaural renderer 530.
  • the audio core codec 510 demuxes 511 the bit stream and performs T (time) / frequency (F) conversion on the demuxed data (512), so that channels, objects,
  • the main process 513 for extracting the HOA signal and the like may be performed.
  • the audio core codec 110 may output the HOA signal of the frequency domain extracted as a result of the main process.
  • the HOA decoder 520 may render the HOA signal output by the audio core codec 110 in the frequency domain.
  • the HOA decoder 520 may output the HOA signal in the rendered frequency domain.
  • the binaural renderer 530 may perform binaural rendering in the frequency domain, which is a main process 531 for re-rendering the HOA signal in the rendered frequency domain in two channels.
  • the binaural renderer 530 performs binaural rendering, and then performs F / T conversion (532) to convert a signal in the frequency domain to the time domain and output the signal to a two-channel output device such as a speaker or a headphone. Can be.
  • a domain conversion method for converting the HOA signal output from the audio core codec 510 into the time domain and a domain conversion method for converting the HOA signal of the time domain input from the binaural renderer 530 into the frequency domain 5 the F / T conversion process of the audio core codec 510 and the T / F conversion process of the binaural renderer 530 may be omitted.
  • the HOA decoder 520 may render in the frequency domain instead of rendering in the time domain. Therefore, according to an embodiment, since some processes of the audio core codec 510 and the binaural renderer 530 may be omitted, the amount of computation at the decoding stage may be reduced.
  • the complexity in the audio decoding stage may be reduced.
  • the method according to some embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

Disclosed is a device for decoding an audio signal comprising an HOA signal, comprising: an audio core codec for decoding a bit stream comprising an audio signal to output the HOA signal of a frequency domain or a time domain; and an HOA decoder for rendering and outputting an HOA signal of the frequency domain in the frequency domain.

Description

HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치Method and apparatus for decoding an audio signal comprising a HOA signal
본 발명은 HOA(higher order ambisonincs) 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치에 대한 것이다.The present invention relates to a method and apparatus for decoding an audio signal comprising a higher order ambisonincs (HOA) signal.
멀티미디어 컨텐츠의 품질이 증가됨에 따라 기존에 사용되는 5.1 채널의 오디오 신호보다 채널수가 많은 7.1채널, 10.2채널, 13.2채널, 22.2채널과 같은 고품질의 다채널 오디오 신호가 사용되고 있다. 하지만, 실질적으로 고품질의 다채널 오디오 신호는 스마트폰과 같은 개인형 단말이나 PC 등을 통해 2채널의 스테레오 스피커 또는 헤드폰으로 청취되는 경우가 많다.As the quality of multimedia contents increases, high quality multichannel audio signals such as 7.1 channels, 10.2 channels, 13.2 channels, and 22.2 channels are used, which have more channels than the 5.1 audio signals. However, high-quality multi-channel audio signals are often heard through two-channel stereo speakers or headphones through a personal terminal such as a smartphone or a PC.
따라서, 고품질의 다채널 오디오 신호를 2채널의 스테레오 스피커 또는 헤드폰에서 청취할 수 있도록 다채널 오디오 신호를 스테레오 오디오 신호로 다운믹스하는 바이노럴 렌더링이 이용될 수 있다.Accordingly, binaural rendering may be used, which downmixes the multichannel audio signal into the stereo audio signal so that a high quality multichannel audio signal can be listened to in two channels of stereo speakers or headphones.
그러나, 입력된 오디오 신호의 채널 수가 증가됨에 따라 바이노럴 렌더링 시 연산량이 증가하는 문제가 존재한다.However, there is a problem in that the amount of computation increases during binaural rendering as the number of channels of the input audio signal increases.
본 발명은 바이노럴 렌더링 시 연산량을 감소시키기 위한 HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치에 관한 것이다.The present invention relates to a method and apparatus for decoding an audio signal including a HOA signal for reducing the amount of computation during binaural rendering.
일 실시 예에 의하면, 바이노럴 렌더링 시 시간 도메인 및 주파수 도메인 간 변환이 수행되지 않음에 따라 오디오 디코딩 단에서의 복잡도가 감소될 수 있다.According to an embodiment, as the conversion between the time domain and the frequency domain is not performed during binaural rendering, the complexity in the audio decoding stage may be reduced.
도 1은 일 실시 예에 의한 HOA 디코더를 포함하는 오디오 디코더의 내부 구조를 나타낸 블록도이다.1 is a block diagram illustrating an internal structure of an audio decoder including a HOA decoder according to an embodiment.
도 2는 일 실시 예에 의한 오디오 디코더의 내부 구조를 나타낸 블록도이다.2 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
도 3은 일 실시 예에 의한 HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법을 나타낸 순서도이다.3 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to an embodiment.
도 4는 일 실시 예에 의한 HOA 디코더의 프로세싱 도메인에 따라서 HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법을 나타낸 순서도이다.4 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to a processing domain of a HOA decoder according to an embodiment.
도 5는 일 실시 예에 의한 오디오 디코더의 내부 구조를 나타낸 블록도이다.5 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
일 실시 예에 의한 HOA 신호를 포함하는 오디오 신호를 디코딩하는 장치에 있어서, 오디오 신호를 포함하는 비트스트림을 디코딩하여, 주파수 도메인 또는 시간 도메인의 상기 HOA 신호를 출력하는 오디오 코어 코덱; 및 상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는 HOA 디코더를 포함한다.An apparatus for decoding an audio signal including a HOA signal, according to an embodiment, comprising: an audio core codec for decoding a bitstream including an audio signal and outputting the HOA signal in a frequency domain or a time domain; And a HOA decoder for rendering and outputting the HOA signal of the frequency domain in the frequency domain.
상기 주파수 도메인에서, 상기 렌더링된 주파수 도메인의 HOA 신호를 다른 오디오 신호와 함께 믹싱하는 믹서; 상기 주파수 도메인에서, 상기 믹서에 의해 믹싱된 시그널을 바이노럴 렌더링하는 바이노럴 렌더러를 더 포함한다.A mixer for mixing in the frequency domain a HOA signal in the rendered frequency domain with other audio signals; In the frequency domain, further comprises a binaural renderer for binaural rendering the signal mixed by the mixer.
상기 오디오 코어 코덱은 상기 HOA 디코더의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 상기 주파수 도메인의 HOA 신호를 출력하고, 상기 HOA 디코더는, 상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력한다.The audio core codec outputs a HOA signal in the frequency domain when the processing domain of the HOA decoder is neutral or frequency domain, and the HOA decoder renders and outputs a HOA signal in the frequency domain in the frequency domain. .
상기 오디오 코어 코덱과 바이노럴 렌더러에서의 도메인 변환 방법이 동일한 경우, 상기 HOA 디코더의 프로세싱 도메인은 뉴트럴 또는 주파수 도메인으로 결정된다.When the domain conversion method in the audio core codec and the binaural renderer is the same, the processing domain of the HOA decoder is determined as a neutral or frequency domain.
일 실시 예에 의한, HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법에 있어서, 오디오 신호를 포함하는 비트스트림을 디코딩하여, 주파수 도메인 또는 시간 도메인의 상기 HOA 신호를 출력하는 단계; 상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는 단계를 포함한다.According to an embodiment, a method of decoding an audio signal including a HOA signal, the method comprising: decoding the bitstream including an audio signal and outputting the HOA signal in a frequency domain or a time domain; In the frequency domain, rendering and outputting the HOA signal of the frequency domain.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings. However, in the following description and the accompanying drawings, detailed descriptions of well-known functions or configurations that may obscure the subject matter of the present invention will be omitted. In addition, it should be noted that like elements are denoted by the same reference numerals as much as possible throughout the drawings.
이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.The terms or words used in the specification and claims described below should not be construed as being limited to the ordinary or dictionary meanings, and the inventors are properly defined as terms for explaining their own invention in the best way. It should be interpreted as meaning and concept corresponding to the technical idea of the present invention based on the principle that it can. Therefore, the embodiments described in the present specification and the configuration shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all of the technical ideas of the present invention, and various alternatives may be substituted at the time of the present application. It should be understood that there may be equivalents and variations.
첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.In the accompanying drawings, some components are exaggerated, omitted, or schematically illustrated, and the size of each component does not entirely reflect the actual size. The invention is not limited by the relative size or spacing drawn in the accompanying drawings.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. When any part of the specification is to "include" any component, this means that it may further include other components, except to exclude other components unless otherwise stated. In addition, when a part is "connected" with another part, this includes not only the case where it is "directly connected" but also the case where it is "electrically connected" with another element between them.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.In addition, the term "part" as used herein refers to a hardware component, such as software, FPGA or ASIC, and "part" plays certain roles. However, "part" is not meant to be limited to software or hardware. The “unit” may be configured to be in an addressable storage medium and may be configured to play one or more processors. Thus, as an example, a "part" refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Subroutines, segments of program code, drivers, firmware, microcode, circuits, data, databases, data structures, tables, arrays and variables. The functionality provided within the components and "parts" may be combined into a smaller number of components and "parts" or further separated into additional components and "parts".
또한, 본 명세서에서, 오디오 오브젝트는 오디오 신호에 포함된 음향 성분들 각각을 지칭한다. 하나의 오디오 신호에는 다양한 오디오 오브젝트가 포함될 수 있다. 예를 들어, 오케스트라의 공연 실황을 녹음하여 생성된 오디오 신호에는 기타, 바이올린, 오보에 등의 다수개의 악기로부터 발생한 다수개의 오디오 오브젝트가 포함된다.Also, in the present specification, an audio object refers to each of sound components included in an audio signal. One audio signal may include various audio objects. For example, the audio signal generated by recording the performance of an orchestra includes a plurality of audio objects generated from a plurality of musical instruments such as guitar, violin, and oboe.
또한, 본 명세서에서, HOA 신호는 오디오 신호를 3차원 음장(sound field)을 나타내는 계수들(coefficient)로 나타낸 신호를 의미한다. HOA 신호는 오브젝트 및 채널과 같이 오디오 신호를 표현하기(representing) 위한 컨텐츠 타입 중 하나이다. HOA 신호는 채널 및 오브젝트에 관한 정보에 더하여 비트스트림에 포함될 수 있으며, HOA 디코더에 의해 오디오 신호가 출력되는 채널로 렌더링될 수 있다.In addition, in the present specification, the HOA signal refers to a signal in which the audio signal is represented by coefficients representing a three-dimensional sound field. The HOA signal is one of content types for representing an audio signal such as an object and a channel. The HOA signal may be included in the bitstream in addition to the information about the channel and the object, and may be rendered as a channel through which the audio signal is output by the HOA decoder.
또한, 본 명세서에서, 설명 편의상 HOA 신호를 렌더링하는 방법을 기준으로 설명하였으나, 이에 한하지 않고, 본 명세서에 기재된 일 실시예들은 다양한 형태의 오디오 신호를 렌더링하는 방법에도 적용될 수 있다.In addition, in the present specification, for convenience of description, the method of rendering the HOA signal is described as a reference, but it is not limited thereto, and the exemplary embodiments described herein may be applied to a method of rendering various types of audio signals.
또한, 본 명세서에서, 프로세싱 도메인은 해당 컴포넌트가 오퍼레이팅(operating)되는 도메인을 의미한다. 프로세싱 도메인은 시간 도메인, 주파수 도메인 및 뉴트럴(neutral) 중 하나로 설정될 수 있다. 시간 도메인 또는 주파수 도메인에서 오퍼레이팅할 수 있는 컴포넌트의 프로세싱 도메인은 뉴트럴로 설정될 수 있다.In addition, in the present specification, the processing domain refers to a domain in which a corresponding component is operated. The processing domain can be set to one of time domain, frequency domain and neutral. The processing domain of components that can operate in either the time domain or the frequency domain may be set to neutral.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
일 실시 예에 있어서, 설명된 기술은 MPEG-H(Moving Picture Experts Group-H) 표준에 기초하여 설명되었으나 이에 제한되지 않고, 다른 오디오 코딩 기술에도 적용될 수 있다.In one embodiment, the described technique is described based on the Moving Picture Experts Group-H (MPEG-H) standard, but is not limited thereto and may be applied to other audio coding techniques.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.Hereinafter, exemplary embodiments of the present invention will be described with reference to the accompanying drawings.
도 1은 일 실시 예에 의한 HOA 디코더를 포함하는 오디오 디코더의 내부 구조를 나타낸 블록도이다.1 is a block diagram illustrating an internal structure of an audio decoder including a HOA decoder according to an embodiment.
도 1의 오디오 디코더(100)는 오디오 코어 코덱(110), 포맷 변환부(120), 오브젝트 렌더러(130), HOA 디코더(140), 믹서(150) 및 바이노럴 렌더러(160)를 포함할 수 있다. 오디오 디코더(100)는 도 1에 도시된 구성 요소에 한하지 않고, 필요에 따라 다른 구성 요소를 더 포함할 수 있다.The audio decoder 100 of FIG. 1 may include an audio core codec 110, a format converter 120, an object renderer 130, a HOA decoder 140, a mixer 150, and a binaural renderer 160. Can be. The audio decoder 100 is not limited to the components shown in FIG. 1, and may further include other components as necessary.
오디오 코어 코덱(110)는 오디오 신호를 포함하는 비트스트림을 디코딩하여, 복수의 채널들과 오브젝트들, HOA 신호를 추출할 수 있다. 일 실시 예에 의한 오디오 코어 코덱(110)는 USAC(unified speech and audio coding) 코어 디코더일 수 있다. 이에 한하지 않고, 오디오 코어 코덱(110)는 오디오 신호를 포함하는 비트스트림을 디코딩하기 위한 다양한 형태의 디코더일 수 있다. The audio core codec 110 may extract a plurality of channels, objects, and a HOA signal by decoding a bitstream including an audio signal. The audio core codec 110 according to an embodiment may be a unified speech and audio coding (USAC) core decoder. The audio core codec 110 may be various types of decoders for decoding a bitstream including an audio signal.
일 실시 예에 의한 오디오 코어 코덱(110)는 저대역 신호 및 파라미터로부터 고대역 신호를 획득하는 SBR(spectral band replication) 기술을 이용하여 오디오 신호를 디코딩할 수 있다. SBR 기술을 이용하여 데이터를 디코딩하는 경우, 오디오 코어 코덱(110)는 주파수 도메인의 디코딩된 오디오 신호를 출력할 수 있다. 오디오 코어 코덱(110)는 비트스트림을 디코딩하여, 주파수 도메인의 HOA 신호를 출력할 수 있다. The audio core codec 110 according to an embodiment may decode the audio signal using a spectral band replication (SBR) technique that obtains a high band signal from a low band signal and a parameter. When decoding data using the SBR technology, the audio core codec 110 may output a decoded audio signal in the frequency domain. The audio core codec 110 may output the HOA signal in the frequency domain by decoding the bitstream.
오디오 코어 코덱(110)는 비트 스트림을 디먹싱하고, 디먹싱된 데이터에 대해 T(time)/F(frequency) 변환을 수행하여, 주파수 도메인에서 비트 스트림으로부터 채널, 오브젝트, HOA 신호 등을 추출하기 위한 메인 프로세스를 수행할 수 있다. 오디오 코어 코덱(110)는 메인 프로세스 수행 결과 추출된 HOA 신호를 시간 도메인으로 변환하여 출력하거나, 도메인 변환 없이 주파수 도메인의 HOA 신호를 출력할 수 있다.오디오 코어 코덱(110)는 HOA 디코더(140)의 프로세싱 도메인에 따라 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하여 출력할 수 있다. HOA 디코더(140)의 프로세싱 도메인은 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 동일한지 여부에 따라 결정될 수 있다.The audio core codec 110 demuxes the bit stream and performs T (time) / frequency (F) conversion on the demuxed data to extract channels, objects, HOA signals, etc. from the bit stream in the frequency domain. To perform the main process. The audio core codec 110 may convert the HOA signal extracted as a result of performing the main process into the time domain and output the HOA signal of the frequency domain without domain conversion. The audio core codec 110 may include the HOA decoder 140. The HOA signal in the frequency domain may be converted into a value in the time domain according to the processing domain of and output. The processing domain of the HOA decoder 140 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer 160 are the same.
오디오 코어 코덱(110)에서 출력되는 HOA 신호를 시간 도메인으로 변환하는 도메인 변환 방법과, 바이노럴 렌더러(160)에서 입력된 시간 도메인의 HOA 신호를 주파수 도메인으로 변환하는 도메인 변환 방법이 서로 동일한 방법으로 수행되는지 여부가 판단될 수 있다. A domain conversion method for converting the HOA signal output from the audio core codec 110 to the time domain and a domain conversion method for converting the HOA signal of the time domain input from the binaural renderer 160 to the frequency domain Whether or not it can be determined.
예를 들면, 오디오 코어 코덱(110)가 QMF 합성으로 HOA 신호의 도메인을 변환하고, 바이노럴 렌더러(160)가 QMF 합성과 대응되는 QMF 분석으로 오디오 신호의 도메인을 변환할 때, 서로 동일한 방법으로 도메인 변환이 수행되는 것으로 판단될 수 있다. 또한, IFFT(inverse fast fourier transform) 및 FFT (fast fourier transform) 방법은 서로 동일한 도메인 변환 방법으로 판단될 수 있다. For example, when the audio core codec 110 converts the domain of the HOA signal with QMF synthesis and the binaural renderer 160 converts the domain of the audio signal with QMF analysis corresponding to QMF synthesis, the same method is used. It may be determined that domain conversion is performed. Inverse fast fourier transform (IFFT) and fast fourier transform (FFT) methods may be determined to be the same domain transformation method.
한편, 오디오 코어 코덱(110)가 QMF 합성으로 HOA 신호의 도메인을 변환하고, 바이노럴 렌더러(160)가 FFT 방법으로 HOA 신호의 도메인을 변환하는 경우, 서로 다른 방법으로 도메인 변환이 수행되는 것으로 판단될 수 있다.On the other hand, when the audio core codec 110 converts the domain of the HOA signal by QMF synthesis and the binaural renderer 160 converts the domain of the HOA signal by the FFT method, domain conversion is performed in different ways. Can be judged.
각각 서로 동일한 방법으로 도메인 변환을 수행하는 것으로 판단되면, 오디오 코어 코덱(110)의 도메인 변환 및 바이노럴 렌더러(160)의 도메인 변환 프로세스가 생략되고, HOA 디코더(140)는 주파수 도메인에서, HOA 신호를 렌더링할 수 있다.HOA 디코더(140)의 프로세싱 도메인이 시간 도메인인 경우, 오디오 코어 코덱(110)는 디코딩된 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하여 출력할 수 있다. 오디오 코어 코덱(110)의 도메인 변환 방법과 바이노럴 렌더러(160)의 도메인 변환 방법이 서로 대응되지 않는 경우, HOA 디코더(140)는 시간 도메인에서 동작할 수 있다.When it is determined that the domain transformation is performed in the same manner, respectively, the domain transformation process of the audio core codec 110 and the domain transformation process of the binaural renderer 160 are omitted, and the HOA decoder 140 performs the HOA in the frequency domain. When the processing domain of the HOA decoder 140 is the time domain, the audio core codec 110 may convert the HOA signal of the decoded frequency domain into a value of the time domain and output the converted signal. If the domain conversion method of the audio core codec 110 and the domain conversion method of the binaural renderer 160 do not correspond to each other, the HOA decoder 140 may operate in the time domain.
또한, HOA 디코더(140)의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 오디오 코어 코덱(110)는 도메인 변환 없이 주파수 도메인(frequency domain)의 디코딩된 HOA 신호를 출력할 수 있다.In addition, when the processing domain of the HOA decoder 140 is a neutral or frequency domain, the audio core codec 110 may output a decoded HOA signal of a frequency domain without domain conversion.
포맷 변환부(120)는 오디오 신호가 출력될 출력 환경에 따라 각 채널로 출력될 오디오 신호를 변환할 수 있다. 각 채널로 출력될 오디오 신호는 오디오 코어 코덱(110)에 의해 출력된 데이터 중 채널 정보 및 기 렌더링된(pre-rendered) 오브젝트 정보로써 포맷 변환부(120)에 입력될 수 있다. 오디오 신호가 출력될 출력 환경은 오디오 신호가 출력될 스피커의 레이아웃 정보, 성능 정보 등을 포함할 수 있다. 오디오 신호가 출력될 출력 환경은 인코딩 시 가정한 출력 환경과 상이하므로, 포맷 변환부(120)는 오디오 신호가 실제 출력될 환경 정보에 기초하여 오디오 신호를 변환할 수 있다.The format converter 120 may convert the audio signal to be output to each channel according to the output environment in which the audio signal is to be output. The audio signal to be output through each channel may be input to the format converter 120 as channel information and pre-rendered object information among data output by the audio core codec 110. The output environment in which the audio signal is output may include layout information, performance information, and the like of the speaker to which the audio signal is output. Since the output environment in which the audio signal is output is different from the output environment assumed at the time of encoding, the format converter 120 may convert the audio signal based on the environment information in which the audio signal is actually output.
오브젝트 렌더러(130)는 오디오 오브젝트에 관한 메타 데이터에 기초하여, 오디오 오브젝트를 소정 위치(predefined spatial position)에 렌더링할 수 있다.The object renderer 130 may render the audio object at a predetermined spatial position based on metadata regarding the audio object.
HOA 디코더(140)는 오디오 코어 코덱(110)에 의해 출력된 HOA 계수 및 HOA 사이드 정보(side information)를 포함하는 HOA 신호를 다채널에 렌더링할 수 있다. HOA 계수는, 3차원 음장 공간(sound field)에서 오디오 신호를 나타내는 값들이다. HOA 사이드 정보에 기초하여, HOA 신호가 다수의 채널에 렌더링될 수 있다. HOA 디코더(140)는 HOA 신호를 렌더링하고, 렌더링된 HOA 신호를 출력할 수 있다. HOA 디코더는 렌더러, HOA 렌더러(renderer) 등으로 지칭될 수도 있다.The HOA decoder 140 may render a HOA signal including the HOA coefficients and the HOA side information output by the audio core codec 110 in multiple channels. HOA coefficients are values representing an audio signal in a three-dimensional sound field space. Based on the HOA side information, the HOA signal can be rendered in multiple channels. The HOA decoder 140 may render the HOA signal and output the rendered HOA signal. The HOA decoder may be referred to as a renderer, a HOA renderer, or the like.
HOA 디코더(140)의 프로세싱 도메인은, 시간 도메인, 주파수 도메인 또는 뉴트럴일 수 있다. HOA 디코더(140)의 프로세싱 도메인은 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 동일한지 여부에 따라 결정될 수 있다.The processing domain of HOA decoder 140 may be time domain, frequency domain or neutral. The processing domain of the HOA decoder 140 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer 160 are the same.
HOA 디코더(140)의 프로세싱 도메인이 시간 도메인인 경우, HOA 디코더(140)는 시간 도메인의 HOA 신호를 입력받을 수 있다. 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 상이하다고 판단됨에 따라, HOA 디코더(140)의 프로세싱 도메인이 시간 도메인으로 결정될 수 있다. 그리고, HOA 디코더(140)는 시간 도메인에서, HOA 신호를 렌더링할 수 있다.. When the processing domain of the HOA decoder 140 is the time domain, the HOA decoder 140 may receive the HOA signal of the time domain. As the domain conversion method of the audio core codec 110 and the binaural renderer 160 is determined to be different, the processing domain of the HOA decoder 140 may be determined as the time domain. In addition, the HOA decoder 140 may render the HOA signal in the time domain.
반면, 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 HOA 디코더(140)는 주파수 도메인에서 오퍼레이팅이 가능하다. 따라서, 오디오 코어 코덱(110)는 도메인 변환 없이 주파수 도메인의 HOA 신호를 HOA 디코더(140)로 출력할 수 있다. 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 동일하다고 판단됨에 따라, HOA 디코더(140)의 프로세싱 도메인이 주파수 도메인 또는 뉴트럴로 결정될 수 있다. HOA 디코더(140)는 주파수 도메인의 HOA 신호를 주파수 도메인에서 렌더링하여, 주파수 도메인의 렌더링된 HOA 신호를 출력할 수 있다. On the other hand, the HOA decoder 140 in which the processing domain is the neutral or frequency domain can be operated in the frequency domain. Therefore, the audio core codec 110 may output the HOA signal in the frequency domain to the HOA decoder 140 without domain conversion. As the domain conversion method of the audio core codec 110 and the binaural renderer 160 is determined to be the same, the processing domain of the HOA decoder 140 may be determined as the frequency domain or the neutral. The HOA decoder 140 may render the HOA signal in the frequency domain in the frequency domain and output the rendered HOA signal in the frequency domain.
믹서(150)는 렌더링된 오브젝트, 렌더링된 HOA 신호 및 채널 정보 등 복수 개의 오디오 신호들을 혼합(mixing)할 수 있다. 믹서(150)는 상술된 예에 한하지 않고, 다양한 형태의 오디오 신호들을 혼합할 수 있다. 믹서(150)는 렌더링된 오디오 신호들의 음량, 음색 등을 적절하게 변환하여 믹싱할 수 있다. 믹서(150)는 각 채널로 출력될 수 있는 믹싱된 오디오 신호를 출력할 수 있다. 믹서(150)는 입력된 신호에 따라서, 주파수 도메인 또는 시간 도메인의 믹싱된 오디오 신호를 출력할 수 있다. 믹서(150)는 주파수 도메인의 오디오 신호를 믹싱하는 경우, 주파수 도메인의 믹싱된 오디오 신호를 출력할 수 있다. 믹서(150)는 시간 도메인의 오디오 신호를 믹싱하는 경우, 시간 도메인의 믹싱된 오디오 신호를 출력할 수 있다.The mixer 150 may mix a plurality of audio signals such as a rendered object, a rendered HOA signal, and channel information. The mixer 150 is not limited to the example described above, and may mix various types of audio signals. The mixer 150 may appropriately convert and mix the volume, tone, and the like of the rendered audio signals. The mixer 150 may output a mixed audio signal that may be output to each channel. The mixer 150 may output the mixed audio signal of the frequency domain or the time domain according to the input signal. When the mixer 150 mixes the audio signal of the frequency domain, the mixer 150 may output the mixed audio signal of the frequency domain. When the mixer 150 mixes audio signals in the time domain, the mixer 150 may output the mixed audio signals in the time domain.
바이노럴 렌더러(160)는 믹서(150)에 의해 믹싱된 오디오 신호를 다운믹스하여, 2채널 신호로 바이노럴 렌더링할 수 있다. 다채널로 믹싱된 오디오 신호가 스마트폰, PC 등과 같은 단말 장치를 통해 2채널의 스테레오 스피커 또는 헤드폰으로 출력될 수 있도록 바이노럴 렌더러(160)는 다채널로 믹싱된 오디오 신호를 바이노럴 렌더링할 수 있다.The binaural renderer 160 may downmix the audio signal mixed by the mixer 150 and binaurally render the 2-channel signal. The binaural renderer 160 performs binaural rendering of the multi-channel mixed audio signal so that the multi-channel mixed audio signal can be output to two-channel stereo speakers or headphones through a terminal device such as a smartphone or a PC. can do.
바이노럴 렌더러(160)에 입력된 다채널의 오디오 신호가 시간 도메인인 경우, 바이노럴 렌더러(160)는 시간 도메인의 다채널 오디오 신호를 주파수 도메인의 오디오 신호로 변환한다. 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 상이하다고 판단됨에 따라, HOA 디코더(140)의 프로세싱 도메인이 시간 도메인으로 결정될 수 있고, 바이노럴 렌더러(160)에는 시간 도메인의 오디오 신호가 입력될 수 있다. 바이노럴 렌더러(160)는 도메인 변환된 주파수 도메인의 오디오 신호에 대하여 바이노럴 렌더링을 수행할 수 있다. When the multi-channel audio signal input to the binaural renderer 160 is the time domain, the binaural renderer 160 converts the multi-channel audio signal in the time domain into an audio signal in the frequency domain. As it is determined that the domain conversion methods of the audio core codec 110 and the binaural renderer 160 are different, the processing domain of the HOA decoder 140 may be determined as the time domain, and the binaural renderer 160 may have time. The audio signal of the domain may be input. The binaural renderer 160 may perform binaural rendering on the audio signal of the domain transformed frequency domain.
반면에, 바이노럴 렌더러(160)에 입력된 다채널 오디오 신호가 주파수 도메인인 경우, 바이노럴 렌더러(160)는 도메인 변환 없이 주파수 도메인의 오디오 신호에 대하여 바이노럴 렌더링을 수행할 수 있다. 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 동일하다고 판단됨에 따라, HOA 디코더(140)의 프로세싱 도메인이 주파수 도메인 또는 뉴트럴로 결정될 수 있고, 바이노럴 렌더러(160)에는 주파수 도메인의 오디오 신호가 입력될 수 있다. 바이노럴 렌더러(160)은 바이노럴 렌더링을 수행함으로써, 주파수 도메인의 2채널의 바이노럴 신호를 생성할 수 있다. 그리고, 바이노럴 렌더러(160)는 바이노럴 신호의 도메인을 시간 도메인으로 변환하여 시간 도메인의 오디오 신호를 출력할 수 있다.On the other hand, when the multichannel audio signal input to the binaural renderer 160 is the frequency domain, the binaural renderer 160 may perform binaural rendering on the audio signal of the frequency domain without domain conversion. . As the domain conversion method of the audio core codec 110 and the binaural renderer 160 is determined to be the same, the processing domain of the HOA decoder 140 may be determined as the frequency domain or the neutral, and the binaural renderer 160 is determined. An audio signal in a frequency domain may be input to the channel. The binaural renderer 160 may generate two channels of binaural signals in the frequency domain by performing binaural rendering. The binaural renderer 160 may convert the domain of the binaural signal into the time domain and output an audio signal of the time domain.
일 실시 예에 의하면, HOA 디코더(140)가 주파수 도메인에서 동작하는 경우, HOA 디코더(140)에서 출력되는 렌더링된 HOA 신호는 주파수 도메인의 신호이다. 따라서, 믹서(150)는 주파수 도메인으로 믹싱된 오디오 신호를 출력할 수 있고, 바이노럴 렌더러(160)에는 주파수 도메인의 오디오 신호가 입력될 수 있다. 따라서, 바이노럴 렌더러(160)는 시간 도메인의 오디오 신호를 주파수 도메인으로 변환하는 과정 없이 바이노럴 렌더링을 수행할 수 있으므로, 오디오 디코딩 단에서의 복잡도가 줄어들 수 있다.According to an embodiment, when the HOA decoder 140 operates in the frequency domain, the rendered HOA signal output from the HOA decoder 140 is a signal of the frequency domain. Accordingly, the mixer 150 may output the mixed audio signal in the frequency domain, and the audio signal in the frequency domain may be input to the binaural renderer 160. Accordingly, since the binaural renderer 160 may perform binaural rendering without converting the audio signal of the time domain into the frequency domain, the complexity of the audio decoding stage may be reduced.
오디오 코어 코덱(110)가 디코딩된 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하는 방법과 바이노럴 렌더러(160)에서 시간 도메인의 오디오 신호를 주파수 도메인으로 변환하는 방법이 서로 동일한 방식일 때, HOA 디코더(140)가 주파수 도메인에서 HOA 신호를 렌더링할 수 있다. 예를 들면, 오디오 코어 코덱(110)가 QMF 합성으로 HOA 신호의 도메인을 변환하는 경우, 바이노럴 렌더러(160)에서 QMF 합성과 대응되는 QMF 분석으로 오디오 신호의 도메인을 변환할 때, 오디오 코어 코덱(110) 및 바이노럴 렌더러(160)에서의 도메인 변환 과정을 생략하고, HOA 디코더(140)가 주파수 도메인에서 HOA 신호를 렌더링할 수 있다.When the audio core codec 110 converts the decoded HOA signal of the decoded frequency domain into a time domain value and the binaural renderer 160 converts the time domain audio signal into the frequency domain in the same manner. The HOA decoder 140 may render the HOA signal in the frequency domain. For example, when the audio core codec 110 converts the domain of the HOA signal by QMF synthesis, when the binaural renderer 160 converts the domain of the audio signal by QMF analysis corresponding to QMF synthesis, the audio core The domain conversion process in the codec 110 and the binaural renderer 160 may be omitted, and the HOA decoder 140 may render the HOA signal in the frequency domain.
또한, HOA 디코더(140)가 주파수 도메인에서 동작하는 경우, HOA 디코더(140)에 의해 렌더링된 HOA 신호는 주파수 도메인의 신호이고, 렌더링된 채널 및 오브젝트 역시 주파수 도메인의 신호이다. 따라서, HOA 신호, 채널, 오브젝트 등의 신호에 대한 렌더링 후의 처리 과정에 대하여, 주파수 도메인에서의 통일된 인터페이스가 제공될 수 있다. In addition, when the HOA decoder 140 operates in the frequency domain, the HOA signal rendered by the HOA decoder 140 is a signal in the frequency domain, and the rendered channels and objects are also signals in the frequency domain. Thus, a unified interface in the frequency domain may be provided for the post-rendering process for signals such as HOA signals, channels, objects, and the like.
바이노럴 렌더러(160)는 믹싱된 HOA 신호뿐만 아니라 믹싱된 채널 및 오브젝트의 신호도 함께 바이노럴 렌더링할 수 있다. 바이노럴 렌더러(160)에 입력될 수 있는 믹싱된 채널 및 오브젝트의 신호는 주파수 도메인의 신호일 수 있다. 따라서, 바이노럴 렌더러(160)는 주파수 도메인에서 믹싱된 채널 및 오브젝트의 신호에 대해 바이노럴 렌더링할 수 있다. The binaural renderer 160 may binaurally render not only the mixed HOA signal but also the signals of the mixed channel and the object. The mixed channel and object signals that may be input to the binaural renderer 160 may be signals in a frequency domain. Thus, the binaural renderer 160 may binaurally render the signals of the mixed channels and objects in the frequency domain.
만약, 바이노럴 렌더러(160)에 시간 도메인의 믹싱된 HOA 신호가 입력되는 경우, 바이노럴 렌더러(240)는 채널 및 오브젝트의 신호와는 달리 믹싱된 HOA 신호의 도메인을 주파수 도메인으로 변환한 후 메인 프로세스인 바이노럴 렌더링을 수행할 수 있다. 그러나, HOA 디코더(140)가 주파수 도메인에서 동작하는 경우, HOA 디코더(140)가 주파수 도메인의 렌더링된 HOA 신호를 출력함에 따라서, 바이노럴 렌더러(160)는 주파수 도메인의 믹싱된 HOA 신호를 수신할 수 있다. 따라서, 바이노럴 렌더러(160)는 도메인 변환을 수행하지 않고, 주파수 도메인의 믹싱된 다른 오디오 신호들, 예를 들면, 채널, 오브젝트 신호와 함께 믹싱된 HOA 신호를 주파수 도메인에서 바이노럴 렌더링을 수행할 수 있다.When the mixed HOA signal in the time domain is input to the binaural renderer 160, the binaural renderer 240 converts the domain of the mixed HOA signal into the frequency domain, unlike the signals of the channel and the object. After that, you can perform binaural rendering, which is the main process. However, when the HOA decoder 140 operates in the frequency domain, as the HOA decoder 140 outputs the rendered HOA signal in the frequency domain, the binaural renderer 160 receives the mixed HOA signal in the frequency domain. can do. Accordingly, the binaural renderer 160 performs the binaural rendering in the frequency domain on the mixed HOA signal in the frequency domain without mixing the other audio signals in the frequency domain, for example, the channel and object signals. Can be done.
바이노럴 렌더러(160)에 의해 2채널의 주파수 도메인의 바이노럴 신호가 생성되면, F/T 변환에 따라 주파수 도메인의 바이노럴 신호를 시간 도메인의 값으로 변환할 수 있다. 시간 흐름에 따라 오디오 출력 장치를 통해 바이노럴 신호가 차례대로 출력되도록, 주파수 도메인의 바이노럴 신호는 시간 도메인으로 변환될 수 있다. 변환된 시간 도메인의 바이노럴 신호는 스피커 또는 헤드폰 등의 2채널의 오디오 출력 장치를 통하여 최종적으로 출력될 수 있다.When a binaural signal of two channels in the frequency domain is generated by the binaural renderer 160, the binaural signal in the frequency domain may be converted into a value in the time domain according to F / T conversion. The binaural signal in the frequency domain may be converted into the time domain such that the binaural signal is sequentially output through the audio output device over time. The converted binaural signal of the time domain may be finally output through a two-channel audio output device such as a speaker or a headphone.
도 2는 일 실시 예에 의한 오디오 디코더의 내부 구조를 나타낸 블록도이다.2 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
일 실시 예에 의한 오디오 디코더(200)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 오디오 디코더(200)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다.The audio decoder 200 according to an embodiment may be a terminal device that can be used by a user. For example, the audio decoder 200 may include a smart television (television), ultra high definition (UHD) TV, a monitor, a personal computer (PC), a notebook computer, a mobile phone, a tablet PC, a navigation terminal, Smart phones, personal digital assistants (PDAs), portable multimedia players (PMPs), and digital broadcast receivers.
도 2를 참조하면, 오디오 디코더(200)는 오디오 코어 코덱(210), HOA 디코더(220)를 포함할 수 있다. 도 2의 오디오 코어 코덱(210) 및 HOA 디코더(220)는 도 1의 오디오 코어 코덱(110) 및 HOA 디코더(140)와 각각 대응될 수 있다.Referring to FIG. 2, the audio decoder 200 may include an audio core codec 210 and a HOA decoder 220. The audio core codec 210 and the HOA decoder 220 of FIG. 2 may correspond to the audio core codec 110 and the HOA decoder 140 of FIG. 1, respectively.
오디오 코어 코덱(210)는 오디오 신호를 포함하는 비트스트림을 디코딩하여 HOA 신호를 획득할 수 있다. SBR 기술을 이용하여 데이터를 디코딩하는 경우, 오디오 코어 코덱(210)는 주파수 도메인의 디코딩된 오디오 신호를 획득할 수 있다. 오디오 코어 코덱(210)는 HOA 디코더(220)의 프로세싱 도메인에 따라 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하여 출력할 수 있다. HOA 렌더러(220)의 프로세싱 도메인은 오디오 코어 코덱(210) 및 바이노럴 렌더러(160)의 도메인 변환 방법이 동일한지 여부에 따라 결정될 수 있다.The audio core codec 210 may obtain a HOA signal by decoding a bitstream including an audio signal. When decoding data using the SBR technology, the audio core codec 210 may obtain a decoded audio signal in the frequency domain. The audio core codec 210 may convert and output the HOA signal in the frequency domain into a value in the time domain according to the processing domain of the HOA decoder 220. The processing domain of the HOA renderer 220 may be determined depending on whether the domain conversion methods of the audio core codec 210 and the binaural renderer 160 are the same.
HOA 디코더(220)의 프로세싱 도메인이 시간 도메인인 경우, 오디오 코어 코덱(210)는 디코딩된 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하여 출력할 수 있다. 또한, HOA 디코더(220)의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 오디오 코어 코덱(210)는 도메인 변환 없이 주파수 도메인의 디코딩된 HOA 신호를 출력할 수 있다.When the processing domain of the HOA decoder 220 is the time domain, the audio core codec 210 may convert and output the HOA signal of the decoded frequency domain into a value of the time domain. In addition, when the processing domain of the HOA decoder 220 is a neutral or frequency domain, the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion.
HOA 디코더(220)는 오디오 코어 코덱(210)에 의해 출력된 HOA 신호를 렌더링할 수 있다. The HOA decoder 220 may render the HOA signal output by the audio core codec 210.
한편, HOA 디코더(220)의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 오디오 코어 코덱(210)로부터 입력된 주파수 도메인의 HOA 신호를 렌더링할 수 있다. HOA 디코더(220)는 주파수 도메인의 HOA 신호를 렌더링하고, 렌더링된 주파수 도메인의 HOA 신호를 출력할 수 있다. Meanwhile, when the processing domain of the HOA decoder 220 is a neutral or frequency domain, the HOA signal of the frequency domain input from the audio core codec 210 may be rendered. The HOA decoder 220 may render the HOA signal in the frequency domain and output the HOA signal in the rendered frequency domain.
HOA 디코더(220)에 의해 렌더링된 HOA 신호는 주파수 도메인에서 다른 오디오 신호들과 함께 믹싱된 후, 바이노럴 렌더링되어 최종적으로 출력될 수 있다. The HOA signal rendered by the HOA decoder 220 may be mixed with other audio signals in the frequency domain and then binaurally rendered and finally output.
도 3은 일 실시 예에 의한 HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법을 나타낸 순서도이다.3 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to an embodiment.
도 3을 참조하면, 단계 S310에서, 오디오 코어 코덱(210)는 비트 스트림을 디코딩하여, 주파수 도메인 또는 시간 도메인의 HOA 신호를 출력할 수 있다. HOA 신호는 HOA 계수 및 HOA 사이드 정보를 포함할 수 있다. SBR 기술을 이용하여 데이터를 디코딩하는 경우, 오디오 코어 코덱(210)는 주파수 도메인의 디코딩된 오디오 신호를 획득하고, HOA 디코더(220)의 프로세싱 도메인에 따라 시간 도메인 또는 주파수 도메인의 디코딩된 HOA 신호를 출력할 수 있다. Referring to FIG. 3, in operation S310, the audio core codec 210 may decode a bit stream and output a HOA signal in a frequency domain or a time domain. The HOA signal may include a HOA coefficient and HOA side information. When decoding data using the SBR technique, the audio core codec 210 obtains a decoded audio signal in the frequency domain, and decodes the decoded HOA signal in the time domain or the frequency domain according to the processing domain of the HOA decoder 220. You can print
HOA 디코더(220)의 프로세싱 도메인이 시간 도메인인 경우, 오디오 코어 코덱(210)는 디코딩된 주파수 도메인의 HOA 신호를 시간 도메인의 값으로 변환하여 시간 도메인의 HOA 신호를 출력할 수 있다. 또한, HOA 디코더(220)의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 오디오 코어 코덱(210)는 도메인 변환 없이 주파수 도메인의 디코딩된 HOA 신호를 출력할 수 있다. HOA 디코더(220)의 프로세싱 도메인은 오디오 코어 코덱(110) 및 바이노럴 렌더러의 도메인 변환 방법이 동일한지 여부에 따라 결정될 수 있다.When the processing domain of the HOA decoder 220 is the time domain, the audio core codec 210 may output the time domain HOA signal by converting the decoded HOA signal into a value of the time domain. In addition, when the processing domain of the HOA decoder 220 is a neutral or frequency domain, the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion. The processing domain of the HOA decoder 220 may be determined according to whether the domain conversion methods of the audio core codec 110 and the binaural renderer are the same.
단계 S320에서, HOA 디코더(220)는 HOA 디코더(220)의 프로세싱 도메인에 따라 주파수 도메인 또는 시간 도메인에서 HOA 신호를 복수 개의 채널로 렌더링할 수 있다. In operation S320, the HOA decoder 220 may render the HOA signal in a plurality of channels in the frequency domain or the time domain according to the processing domain of the HOA decoder 220.
HOA 디코더(220)의 프로세싱 도메인이 시간 도메인인 경우, HOA 디코더(220)는 오디오 코어 코덱(210)로부터 시간 도메인의 HOA 신호를 입력받을 수 있다. HOA 디코더(220)는 시간 도메인의 렌더링된 HOA 신호를 출력할 수 있다. When the processing domain of the HOA decoder 220 is the time domain, the HOA decoder 220 may receive a time domain HOA signal from the audio core codec 210. The HOA decoder 220 may output the rendered HOA signal in the time domain.
한편, HOA 디코더(220)의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, HOA 디코더(220)는 오디오 코어 코덱(210)로부터 주파수 도메인의 HOA 신호를 입력받을 수 있다. HOA 디코더(220)는 주파수 도메인의 HOA 신호를 렌더링하고, 렌더링된 주파수 도메인의 HOA 신호를 출력할 수 있다. 따라서, HOA 디코더(220)는 시간 도메인의 HOA 디코더(220)와는 달리 도메인 변환 과정 없이 주파수 도메인의 렌더링된 HOA 신호를 바로 출력할 수 있다.Meanwhile, when the processing domain of the HOA decoder 220 is a neutral or frequency domain, the HOA decoder 220 may receive a HOA signal in the frequency domain from the audio core codec 210. The HOA decoder 220 may render the HOA signal in the frequency domain and output the HOA signal in the rendered frequency domain. Therefore, unlike the HOA decoder 220 in the time domain, the HOA decoder 220 may directly output the rendered HOA signal in the frequency domain without performing a domain conversion process.
도 4는 일 실시 예에 의한 HOA 디코더의 프로세싱 도메인에 따라서 HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법을 나타낸 순서도이다.4 is a flowchart illustrating a method of decoding an audio signal including a HOA signal according to a processing domain of a HOA decoder according to an embodiment.
도 4를 참조하면, 단계 S410에서, 오디오 코어 코덱(210)는 오디오 신호를 포함하는 비트 스트림을 디코딩하여, 주파수 도메인의 HOA 신호를 획득할 수 있다. SBR 기술을 이용하여 데이터를 디코딩하는 경우, 오디오 코어 코덱(210)는 주파수 도메인의 디코딩된 오디오 신호를 획득할 수 있다. Referring to FIG. 4, in step S410, the audio core codec 210 may obtain a HOA signal in a frequency domain by decoding a bit stream including an audio signal. When decoding data using the SBR technology, the audio core codec 210 may obtain a decoded audio signal in the frequency domain.
단계 S420에서, 오디오 코어 코덱 및 바이노럴 렌더러의 도메인 변환 방법이 동일한지 여부에 따라 HOA 디코더(220)의 프로세싱 도메인이 결정될 수 있다. HOA 디코더(220)의 프로세싱 도메인은 시간 도메인, 주파수 도메인 및 뉴트럴 중 하나로 설정될 수 있다.In operation S420, the processing domain of the HOA decoder 220 may be determined depending on whether the audio core codec and the binaural renderer have the same domain conversion method. The processing domain of HOA decoder 220 may be set to one of time domain, frequency domain, and neutral.
단계 S420에서, 오디오 코어 코덱 및 바이노럴 렌더러의 도메인 변환 방법이 동일하다고 판단된 경우, , HOA 디코더(220)의 프로세싱 도메인은 주파수 도메인 또는 뉴트럴로 결정될 수 있다. 따라서, 오디오 코어 코덱(210)는 도메인 변환 없이 주파수 도메인의 디코딩된 HOA 신호를 출력할 수 있다. In operation S420, when it is determined that the domain conversion method of the audio core codec and the binaural renderer is the same, the processing domain of the HOA decoder 220 may be determined as a frequency domain or a neutral. Therefore, the audio core codec 210 may output the decoded HOA signal of the frequency domain without domain conversion.
단계 S430에서, HOA 디코더(220)는 오디오 코어 코덱(210)에 의해 출력된 주파수 도메인의 HOA 신호에 대하여 주파수 도메인에서 복수 개의 채널로 렌더링할 수 있다.In operation S430, the HOA decoder 220 may render a plurality of channels in the frequency domain with respect to the HOA signal in the frequency domain output by the audio core codec 210.
반면에, 단계 S420에서, 오디오 코어 코덱 및 바이노럴 렌더러의 도메인 변환 방법이 동일하다고 판단된 경우, HOA 디코더(220)의 프로세싱 도메인은 시간 도메인으로 결정될 수 있다. HOA 디코더(220)는 시간 도메인에서 디코딩된 HOA 신호를 렌더링할 수 있다.On the other hand, when it is determined in step S420 that the domain conversion method of the audio core codec and the binaural renderer are the same, the processing domain of the HOA decoder 220 may be determined as the time domain. The HOA decoder 220 may render the HOA signal decoded in the time domain.
단계 S440에서, HOA 디코더(220)의 프로세싱 도메인이 시간 도메인 이므로, 오디오 코어 코덱(210)는 주파수 도메인의 HOA 신호를 시간 도메인의 HOA 신호로 변환하여 출력할 수 있다. In operation S440, since the processing domain of the HOA decoder 220 is a time domain, the audio core codec 210 may convert and output a HOA signal in a frequency domain into a HOA signal in a time domain.
단계 S450에서, HOA 디코더(220)는 오디오 코어 코덱(210)로부터 입력된 시간 도메인의 HOA 신호를 시간 도메인에서 렌더링하여 렌더링된 시간 도메인의 HOA 신호를 출력할 수 있다.In operation S450, the HOA decoder 220 may output the HOA signal in the time domain by rendering the HOA signal in the time domain input from the audio core codec 210 in the time domain.
단계 S460에서, 오디오 디코더(200)는 HOA 디코더(220)에 의해 렌더링된 주파수 도메인 또는 시간 도메인의 HOA 신호를 다른 오디오 신호와 함께 믹싱할 수 있다. 오디오 디코더(200)는 복수 개의 오디오 신호를 믹싱하기 위한 믹서(150)를 더 포함할 수 있다.In operation S460, the audio decoder 200 may mix the HOA signal of the frequency domain or time domain rendered by the HOA decoder 220 with another audio signal. The audio decoder 200 may further include a mixer 150 for mixing the plurality of audio signals.
단계 S470에서, 오디오 디코더(200)는 주파수 도메인 또는 시간 도메인의 믹싱된 시그널을 주파수 도메인에서 바이노럴 렌더링할 수 있다. 오디오 디코더(200)는 바이노럴 렌더링을 수행하기 위한 바이노럴 렌더러(160)를 더 포함할 수 있다. 바이노럴 렌더러(160)는 주파수 도메인에서 바이노럴 렌더링을 수행할 수 있으므로, 시간 도메인의 믹싱된 시그널을 수신하는 경우, 시간 도메인의 시그널을 주파수 도메인으로 변환하기 위한 프로세싱을 더 수행할 수 있다. 그러나, 바이노럴 렌더러(160)가 주파수 도메인의 믹싱된 시그널을 수신는 경우, 도메인 변환 과정 없이 바이노럴 렌더링을 수행할 수 있다. 바이노럴 렌더러(160)는 HOA 디코더(140)가 주파수 도메인에서 동작하는 경우, 주파수 도메인의 믹싱된 시그널을 수신할 수 있다.In operation S470, the audio decoder 200 may binaurally render the mixed signal in the frequency domain or the time domain in the frequency domain. The audio decoder 200 may further include a binaural renderer 160 for performing binaural rendering. Since the binaural renderer 160 may perform binaural rendering in the frequency domain, when the mixed signal of the time domain is received, the binaural renderer 160 may further perform processing for converting the time domain signal into the frequency domain. . However, when the binaural renderer 160 receives the mixed signal of the frequency domain, the binaural renderer may perform binaural rendering without performing a domain conversion process. The binaural renderer 160 may receive the mixed signal of the frequency domain when the HOA decoder 140 operates in the frequency domain.
또한, HOA 디코더(220)가 주파수 도메인에서 동작하는 경우, HOA 디코더(220)에 의해 렌더링된 HOA 신호는 주파수 도메인의 신호이고, 렌더링된 채널 및 오브젝트 역시 주파수 도메인의 신호이다. 따라서, 렌더링된 HOA 신호, 채널, 오브젝트 등의 오디오 신호를 이용하여 믹서(150) 및 바이노럴 렌더러(160)에 의해 수행되는 작업에 대하여, 주파수 도메인에서의 통일된 인터페이스가 제공될 수 있다. 또한, 주파수 도메인에서 수행되는 작업의 연산량은 시간 도메인에서 수행되는 작업의 연산량보다 적으므로, 렌더링 후의 작업의 연산량이 감소될 수 있다.In addition, when the HOA decoder 220 operates in the frequency domain, the HOA signal rendered by the HOA decoder 220 is a signal in the frequency domain, and the rendered channels and objects are also signals in the frequency domain. Thus, a uniform interface in the frequency domain can be provided for tasks performed by mixer 150 and binaural renderer 160 using audio signals, such as rendered HOA signals, channels, objects, and the like. In addition, since the computation amount of the task performed in the frequency domain is less than the computation amount of the task performed in the time domain, the computation amount of the task after rendering may be reduced.
더하여, 바이노럴 렌더링된 바이노럴 신호는 시간 도메인으로 변환되어, 스피커 또는 헤드폰 등의 오디오 신호를 출력할 수 있는 디바이스로 출력될 수 있다.In addition, the binaural rendered binaural signal may be converted to the time domain and output to a device capable of outputting an audio signal such as a speaker or a headphone.
도 5는 일 실시 예에 의한 오디오 디코더의 내부 구조를 나타낸 블록도이다.5 is a block diagram illustrating an internal structure of an audio decoder according to an embodiment.
도 5를 참조하면, 오디오 디코더(500)는 오디오 코어 코덱(510), HOA 디코더(520) 및 바이노럴 렌더러(530)를 포함할 수 있다.Referring to FIG. 5, the audio decoder 500 may include an audio core codec 510, a HOA decoder 520, and a binaural renderer 530.
오디오 코어 코덱(510)은 비트 스트림을 디먹싱(511)하고, 디먹싱된 데이터에 대해 T(time)/F(frequency) 변환을 수행(512)하여, 주파수 도메인에서 비트 스트림으로부터 채널, 오브젝트, HOA 신호 등을 추출하기 위한 메인 프로세스(513)를 수행할 수 있다. 오디오 코어 코덱(110)는 메인 프로세스 수행 결과 추출된 주파수 도메인의 HOA 신호를 출력할 수 있다. The audio core codec 510 demuxes 511 the bit stream and performs T (time) / frequency (F) conversion on the demuxed data (512), so that channels, objects, The main process 513 for extracting the HOA signal and the like may be performed. The audio core codec 110 may output the HOA signal of the frequency domain extracted as a result of the main process.
HOA 디코더(520)는 주파수 도메인에서, 오디오 코어 코덱(110)에 의해 출력된 HOA 신호를 렌더링할 수 있다. HOA 디코더(520)는 렌더링된 주파수 도메인의 HOA 신호를 출력할 수 있다.The HOA decoder 520 may render the HOA signal output by the audio core codec 110 in the frequency domain. The HOA decoder 520 may output the HOA signal in the rendered frequency domain.
바이노럴 렌더러(530)는 주파수 도메인에서, 렌더링된 주파수 도메인의 HOA 신호에 대해 2채널로 다시 렌더링하기 위한 메인 프로세스(531)인 바이노럴 렌더링을 수행할 수 있다. 바이노럴 렌더러(530)는 바이노럴 렌더링을 수행한 후, F/T 변환을 수행(532)하여, 주파수 도메인의 신호를 시간 도메인으로 변환하여 스피커, 헤드폰 등의 2채널 출력 장치로 출력할 수 있다.The binaural renderer 530 may perform binaural rendering in the frequency domain, which is a main process 531 for re-rendering the HOA signal in the rendered frequency domain in two channels. The binaural renderer 530 performs binaural rendering, and then performs F / T conversion (532) to convert a signal in the frequency domain to the time domain and output the signal to a two-channel output device such as a speaker or a headphone. Can be.
오디오 코어 코덱(510)에서 출력되는 HOA 신호를 시간 도메인으로 변환하는 도메인 변환 방법과, 바이노럴 렌더러(530)에서 입력된 시간 도메인의 HOA 신호를 주파수 도메인으로 변환하는 도메인 변환 방법이 서로 동일한 방법으로 수행되는 경우, 도 5에 도시된 바와 같이, 오디오 코어 코덱(510)의 F/T 변환 프로세스 및 바이노럴 렌더러(530)의 T/F 변환 프로세스가 생략될 수 있다. 또한, HOA 디코더(520)는 시간 도메인에서 렌더링하는 대신 주파수 도메인에서 렌더링할 수 있다. 따라서, 일 실시 예에 의하면, 오디오 코어 코덱(510) 및 바이노럴 렌더러(530)의 일부 프로세스가 생략될 수 있으므로, 디코딩 단에서의 연산량이 줄어들 수 있다.A domain conversion method for converting the HOA signal output from the audio core codec 510 into the time domain and a domain conversion method for converting the HOA signal of the time domain input from the binaural renderer 530 into the frequency domain 5, the F / T conversion process of the audio core codec 510 and the T / F conversion process of the binaural renderer 530 may be omitted. In addition, the HOA decoder 520 may render in the frequency domain instead of rendering in the time domain. Therefore, according to an embodiment, since some processes of the audio core codec 510 and the binaural renderer 530 may be omitted, the amount of computation at the decoding stage may be reduced.
일 실시 예에 의하면, 바이노럴 렌더링 시 시간 도메인 및 주파수 도메인 간 변환이 수행되지 않음에 따라 오디오 디코딩 단에서의 복잡도가 감소될 수 있다.According to an embodiment, as the conversion between the time domain and the frequency domain is not performed during binaural rendering, the complexity in the audio decoding stage may be reduced.
일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.The method according to some embodiments may be embodied in the form of program instructions that may be executed by various computer means and recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.Although the foregoing description has been focused on the novel features of the invention as applied to various embodiments, those skilled in the art will appreciate that the apparatus and method described above without departing from the scope of the invention. It will be understood that various deletions, substitutions, and changes in form and detail of the invention are possible. Accordingly, the scope of the invention is defined by the appended claims rather than in the foregoing description. All modifications within the scope of equivalents of the claims are to be embraced within the scope of the present invention.

Claims (9)

  1. HOA 신호를 포함하는 오디오 신호를 디코딩하는 장치에 있어서,An apparatus for decoding an audio signal comprising a HOA signal,
    오디오 신호를 포함하는 비트스트림을 디코딩하여, 주파수 도메인 또는 시간 도메인의 상기 HOA 신호를 출력하는 오디오 코어 코덱; 및An audio core codec for decoding a bitstream including an audio signal and outputting the HOA signal in a frequency domain or a time domain; And
    상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는 HOA 디코더를 포함하는, 장치.And a HOA decoder for rendering and outputting a HOA signal in the frequency domain in the frequency domain.
  2. 제1항에 있어서,The method of claim 1,
    상기 주파수 도메인에서, 상기 렌더링된 주파수 도메인의 HOA 신호를 다른 오디오 신호와 함께 믹싱하는 믹서;A mixer for mixing in the frequency domain a HOA signal in the rendered frequency domain with other audio signals;
    상기 주파수 도메인에서, 상기 믹서에 의해 믹싱된 시그널을 바이노럴 렌더링하는 바이노럴 렌더러를 더 포함하는 장치.And a binaural renderer for binaural rendering a signal mixed by the mixer in the frequency domain.
  3. 제1항에 있어서, 상기 오디오 코어 코덱은The method of claim 1, wherein the audio core codec
    상기 HOA 디코더의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 상기 주파수 도메인의 HOA 신호를 출력하고,If the processing domain of the HOA decoder is a neutral or frequency domain, outputs the HOA signal of the frequency domain,
    상기 HOA 디코더는, 상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는, 장치.And the HOA decoder renders and outputs a HOA signal in the frequency domain in the frequency domain.
  4. 제1항에 있어서, The method of claim 1,
    상기 오디오 코어 코덱과 바이노럴 렌더러에서의 도메인 변환 방법이 동일한 경우, 상기 HOA 렌더러의 프로세싱 도메인은 뉴트럴 또는 주파수 도메인으로 결정되는, 장치.And if the domain conversion method in the audio core codec and binaural renderer is the same, the processing domain of the HOA renderer is determined to be a neutral or frequency domain.
  5. HOA 신호를 포함하는 오디오 신호를 디코딩하는 방법에 있어서,A method of decoding an audio signal comprising a HOA signal,
    오디오 신호를 포함하는 비트스트림을 디코딩하여, 주파수 도메인 또는 시간 도메인의 상기 HOA 신호를 출력하는 단계;Decoding a bitstream including an audio signal to output the HOA signal in a frequency domain or a time domain;
    상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는 단계를 포함하는, 방법.In the frequency domain, rendering and outputting a HOA signal in the frequency domain.
  6. 제5항에 있어서,The method of claim 5,
    상기 주파수 도메인에서, 상기 렌더링된 HOA 신호를 다른 오디오 신호와 함께 믹싱하는 단계;In the frequency domain, mixing the rendered HOA signal with another audio signal;
    상기 주파수 도메인에서, 상기 믹서에 의해 믹싱된 시그널을 바이노럴 렌더링하는 단계를 더 포함하는, 방법.In the frequency domain, further comprising binaural rendering a signal mixed by the mixer.
  7. 제5항에 있어서, 상기 HOA 신호를 출력하는 단계는The method of claim 5, wherein outputting the HOA signal
    상기 HOA 디코더의 프로세싱 도메인이 뉴트럴 또는 주파수 도메인인 경우, 상기 주파수 도메인의 상기 HOA 신호를 출력하는 단계를 포함하고, If the processing domain of the HOA decoder is a neutral or frequency domain, outputting the HOA signal in the frequency domain,
    상기 HOA 신호를 렌더링하여 출력하는 단계는, 상기 주파수 도메인에서, 상기 주파수 도메인의 HOA 신호를 렌더링하여 출력하는 단계를 포함하는, 방법.The rendering and outputting of the HOA signal may include rendering and outputting the HOA signal of the frequency domain in the frequency domain.
  8. 제5항에 있어서, The method of claim 5,
    상기 오디오 코어 코덱과 바이노럴 렌더러에서의 도메인 변환 방법이 동일한 경우, 상기 HOA 디코더의 프로세싱 도메인은 뉴트럴 또는 주파수 도메인으로 결정되는, 방법.If the domain conversion method in the audio core codec and binaural renderer is the same, the processing domain of the HOA decoder is determined to be a neutral or frequency domain.
  9. 제5항 내지 제8항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.The computer-readable recording medium according to any one of claims 5 to 8, wherein a program for implementing the method is recorded.
PCT/KR2015/003334 2014-04-02 2015-04-02 Method and device for decoding audio signal comprising hoa signal WO2015152666A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461974081P 2014-04-02 2014-04-02
US61/974,081 2014-04-02

Publications (1)

Publication Number Publication Date
WO2015152666A1 true WO2015152666A1 (en) 2015-10-08

Family

ID=54240887

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/003334 WO2015152666A1 (en) 2014-04-02 2015-04-02 Method and device for decoding audio signal comprising hoa signal

Country Status (1)

Country Link
WO (1) WO2015152666A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110099351A (en) * 2019-04-01 2019-08-06 中车青岛四方机车车辆股份有限公司 A kind of sound field back method, device and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012796A1 (en) * 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
US20110264456A1 (en) * 2008-10-07 2011-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Binaural rendering of a multi-channel audio signal
US20130216070A1 (en) * 2010-11-05 2013-08-22 Florian Keiler Data structure for higher order ambisonics audio data
US20140023196A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090012796A1 (en) * 2006-02-07 2009-01-08 Lg Electronics Inc. Apparatus and Method for Encoding/Decoding Signal
US20110264456A1 (en) * 2008-10-07 2011-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Binaural rendering of a multi-channel audio signal
US20130216070A1 (en) * 2010-11-05 2013-08-22 Florian Keiler Data structure for higher order ambisonics audio data
US20140023196A1 (en) * 2012-07-20 2014-01-23 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SEO, JEONG IL ET AL.: "Current State of Audio Standardization for Realistic Boradcasting", KOREA SOCIETY BROADCAST ENGINEERS MAGAZINE, vol. 19, 1 January 2014 (2014-01-01), pages 37 - 46, Retrieved from the Internet <URL:http://libra.kaist.ac.kr/42493d2/_Lib_Proxy_Url/www.dbpia.co.kr/Journal/ArticleDetail/3361153> *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110099351A (en) * 2019-04-01 2019-08-06 中车青岛四方机车车辆股份有限公司 A kind of sound field back method, device and system
CN110099351B (en) * 2019-04-01 2020-11-03 中车青岛四方机车车辆股份有限公司 Sound field playback method, device and system

Similar Documents

Publication Publication Date Title
US10674262B2 (en) Merging audio signals with spatial metadata
US9530421B2 (en) Encoding and reproduction of three dimensional audio soundtracks
JP6105062B2 (en) System, method, apparatus and computer readable medium for backward compatible audio encoding
KR101759005B1 (en) Loudspeaker position compensation with 3d-audio hierarchical coding
WO2015105393A1 (en) Method and apparatus for reproducing three-dimensional audio
WO2011021845A2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
WO2015152661A1 (en) Method and apparatus for rendering audio object
US11924627B2 (en) Ambience audio representation and associated rendering
KR20120082738A (en) System for multi channel multi track audio and audio processing method thereof
WO2021118107A1 (en) Audio output apparatus and method of controlling thereof
CN110083328A (en) A kind of audio frequency playing method, device, electronic equipment and storage medium
EP1758428A1 (en) Acoustical signal processing apparatus
WO2010150635A1 (en) Acoustic signal processing system, acoustic signal decoding device, and processing method and program therein
WO2015152666A1 (en) Method and device for decoding audio signal comprising hoa signal
WO2014021586A1 (en) Method and device for processing audio signal
WO2015126228A1 (en) Signal classifying method and device, and audio encoding method and device using same
KR20120139666A (en) Portable computer having multiple embedded audio controllers
WO2012087042A2 (en) Broadcast transmitting apparatus and broadcast transmitting method for providing an object-based audio, and broadcast playback apparatus and broadcast playback method
WO2014171791A1 (en) Apparatus and method for processing multi-channel audio signal
CN108028988A (en) Handle the apparatus and method of the inside sound channel of low complexity format conversion
GB2572761A (en) Quantization of spatial audio parameters
WO2014058275A1 (en) Device and method for generating audio data, and device and method for playing audio data
US20120275277A1 (en) Audio mixing method and audio mixing apparatus capable of processing and/or mixing audio inputs individually
WO2014112793A1 (en) Encoding/decoding apparatus for processing channel signal and method therefor
CN112133316A (en) Spatial audio representation and rendering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15772919

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase
122 Ep: pct application non-entry in european phase

Ref document number: 15772919

Country of ref document: EP

Kind code of ref document: A1