WO2023210978A1 - 다채널 오디오 신호 처리 장치 및 방법 - Google Patents

다채널 오디오 신호 처리 장치 및 방법 Download PDF

Info

Publication number
WO2023210978A1
WO2023210978A1 PCT/KR2023/004017 KR2023004017W WO2023210978A1 WO 2023210978 A1 WO2023210978 A1 WO 2023210978A1 KR 2023004017 W KR2023004017 W KR 2023004017W WO 2023210978 A1 WO2023210978 A1 WO 2023210978A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
audio signal
audio
downmix
widx
Prior art date
Application number
PCT/KR2023/004017
Other languages
English (en)
French (fr)
Inventor
황성희
고상철
김경래
김정규
남우현
손윤재
이경근
이태미
정현권
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220137660A external-priority patent/KR20230153226A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2023210978A1 publication Critical patent/WO2023210978A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Definitions

  • This disclosure relates to the field of processing multi-channel audio signals. More specifically, the present disclosure relates to the field of processing audio signals of a sub-channel layout (e.g., a three-dimensional audio channel layout in front of the listener) from multi-channel audio signals.
  • a sub-channel layout e.g., a three-dimensional audio channel layout in front of the listener
  • Audio signals are generally two-dimensional audio signals such as 2-channel, 5.1-channel, 7.1-channel, and 9.1-channel audio signals.
  • a 3D audio signal (n-channel audio signal or multi-channel audio signal; n is an integer greater than 2) is generated to provide a sense of spatial presence of the sound. There is a need to do it.
  • channels are arranged in an omni-direction centered on the listener.
  • OTT services Over-The-Top services
  • increased resolution of TVs, and larger screens on electronic devices such as tablets those who want to experience immersive audio such as theater content in a home environment Viewer needs are increasing. Therefore, there is a need to process audio signals of a 3D audio channel layout in which channels are arranged in front of the listener (3D audio channel layout in front of the listener), considering the sound representation of the object (sound source) on the screen. .
  • an audio processing method may include parsing a bitstream to obtain at least one substream and additional information.
  • the audio processing method may include decompressing at least one substream to obtain at least one audio signal of at least one channel group (CG).
  • CG channel group
  • the audio processing method may include obtaining a multi-channel audio signal by demixing at least one audio signal of at least one channel group based on side information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • an audio processing device may include a memory in which one or more instructions for audio processing are stored, and at least one processor that executes the one or more instructions.
  • At least one processor may parse a bitstream to obtain at least one substream and additional information.
  • At least one processor may obtain at least one audio signal of at least one channel group (CG) by decompressing at least one substream.
  • CG channel group
  • At least one processor may acquire a multi-channel audio signal by demixing at least one audio signal of at least one channel group based on side information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • an audio processing method may include generating downmix parameters using an audio signal.
  • the audio processing method may include downmixing an audio signal along a downmix path determined according to a channel layout (CL) creation rule using a downmix parameter.
  • CL channel layout
  • the audio processing method may include generating at least one channel group according to a channel group (CG) generation rule using a downmixed audio signal.
  • CG channel group
  • the audio processing method may include compressing at least one audio signal of at least one channel group to generate at least one substream.
  • an audio processing method may include generating a bitstream by packetizing at least one substream and side information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • an audio processing device may include a memory in which one or more instructions for audio processing are stored, and at least one processor that executes the one or more instructions.
  • At least one processor may generate downmix parameters using an audio signal.
  • At least one processor may downmix the audio signal along a downmix path determined according to a channel layout (CL) generation rule using the downmix parameter.
  • CL channel layout
  • At least one processor may generate at least one channel group according to a channel group (CG) generation rule using a downmixed audio signal.
  • CG channel group
  • At least one processor may generate at least one substream by compressing the at least one audio signal of at least one channel group.
  • At least one processor may generate a bitstream by packetizing at least one substream and additional information.
  • the additional information of at least one processor may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • FIG. 1A is a diagram for explaining a scalable audio channel layout structure according to an embodiment.
  • FIG. 1B is a diagram for explaining an example of a specific scalable audio channel layout structure.
  • Figure 2 shows the structure of a bitstream according to one embodiment.
  • FIG. 3A is a block diagram showing the configuration of an audio encoding device according to an embodiment.
  • FIG. 3B is a block diagram showing the configuration of an audio encoding device according to an embodiment.
  • Figure 3C is a block diagram showing the configuration of a preprocessor according to an embodiment.
  • FIG. 3D shows a downmix path according to a channel layout creation rule according to an embodiment.
  • Figure 3E shows a downmix mechanism according to one embodiment.
  • FIG. 4A is a block diagram showing the configuration of a multi-channel audio decoding device according to an embodiment.
  • FIG. 4B is a block diagram showing the configuration of a multi-channel audio decoding device according to an embodiment.
  • FIG. 4C is an example of the relationship between a weight index (wIdx) and a fifth downmix parameter (w) according to an embodiment.
  • FIG. 5 is a flowchart of an audio processing method according to one embodiment.
  • FIG. 6 is a flowchart of an audio processing method according to one embodiment.
  • a component when referred to as “connected” or “connected” to another component, the component may be directly connected or directly connected to the other component, but no specific description to the contrary is used. Unless it exists, it should be understood that it may be connected or connected through another component in the middle.
  • components expressed as ' ⁇ unit (unit)', 'module', etc. are two or more components combined into one component, or one component divided into two or more for more detailed functions. It could be.
  • each of the components described below may additionally perform some or all of the functions of other components in addition to the main functions that each component is responsible for, and some of the main functions of each component may be different from other components. Of course, it can be carried out in full charge by an element.
  • multi-channel audio signal may mean an n-channel audio signal (n is an integer greater than 2).
  • a 'mono channel audio signal' may be a one-dimensional audio signal
  • a 'stereo channel audio signal' may be a two-dimensional audio signal
  • a 'multi-channel audio signal' may be a three-dimensional audio signal.
  • 'Channel Layout (CL)' may represent a combination of at least one channel and may specify the spatial arrangement of channels.
  • the channel here is a channel through which audio signals are actually output, so it can be called a presentation channel.
  • the channel layout may be an X.Y.Z channel layout.
  • X may be the number of surround channels
  • Y may be the number of subwoofer channels
  • Z may be the number of height channels (or top channels).
  • the spatial location of each surround channel/subwoofer channel/height channel can be specified by 'channel layout'.
  • the channels of the 'channel layout' can be named as follows.
  • the first surround channel of a 1.0.0 channel layout may be named a mono channel.
  • the first surround channel of the 2.0.0 channel layout may be named the L2 channel, and the second surround channel may be named the R2 channel.
  • L indicates a channel located to the left relative to the listener
  • R represents a channel located to the right relative to the listener
  • 2 indicates a surround channel when there are a total of two surround channels.
  • the first surround channel may be named the L5 channel
  • the second surround channel may be named the R5 channel
  • the third surround channel may be named the C channel
  • the fourth surround channel may be named the Ls5 channel
  • the fifth surround channel may be named the Rs5 channel.
  • C indicates a channel located in the center based on the listener.
  • s means a channel located laterally.
  • the first subwoofer channel in the 5.1.0 channel layout may be named the LFE channel.
  • LFE may mean low frequency effect. That is, the LFE channel may be a channel for outputting low-frequency effect sounds.
  • the names of the surround channels in the 5.1.2 channel layout and 5.1.4 channel layout and the surround channels in the 5.1.0 channel layout may be the same.
  • the names of the subwoofer channels in the 5.1.2 channel layout and 5.1.4 channel layout and the subwoofer channels in the 5.1.0 channel layout may be the same.
  • the first height channel of the 5.1.2 channel layout may be named the Hl5 (or Ltf2) channel
  • the second height channel may be named the Hr5 (or Rtf2) channel.
  • H indicates the height channel.
  • the first height channel in the channel layout is the Hfl (or Ltf4) channel
  • the second height channel is the Hfr (or Rtf4) channel
  • the third height channel is the Hbl (or Ltb4) channel
  • the fourth height channel is the Hbr (or Rtb4) channel.
  • f indicates the front channel centered on the listener
  • b indicates the rear channel.
  • the first surround channel is the L channel
  • the second surround channel is the R channel
  • the third surround channel is the C channel
  • the fourth surround channel is the Ls (or Lss) channel
  • the fifth surround channel is the Rs (or Rss) channel
  • the 6th surround channel may be named the Lb (or Lrs) channel
  • the 7th surround channel may be named the Rb (or Rrs) channel.
  • the first subwoofer channel in the 7.1.0 channel layout may be named the LFE channel.
  • the names of the surround channels in the 7.1.2 channel layout and 7.1.4 channel layout and the surround channels in the 7.1.0 channel layout may be the same.
  • the names of the subwoofer channels in the 7.1.2 channel layout and 7.1.4 channel layout and the subwoofer channel in the 7.1.0 channel layout may be the same.
  • the first height channel of the 7.1.2 channel layout may be named the Hl7 (or Ltf2) channel
  • the second height channel may be named the Hr7 (or Rtf2) channel.
  • the first height channel in the channel layout is the Hfl (or Ltf4) channel
  • the second height channel is the Hfr (or Rtf4) channel
  • the third height channel is the Hbl (or Ltb4) channel
  • the fourth height channel is the Hbr (or Rtb4) channel.
  • the first surround channel of the 3.1.2 channel may be named the L3 channel
  • the second surround channel may be named the R3 channel
  • the third surround channel may be named the C channel.
  • the first subwoofer channel of the 3.1.2 channel may be named the LFE channel.
  • the first height channel of the 3.1.2 channel may be named the Hfl3 (or Ltf3) channel
  • the second height channel may be named the Hfr3 (or Ltb3) channel.
  • channel Hl5 and channel Hl7 may be the same channel.
  • Hr5 channel and Hr7 channel may be the same channel.
  • channel layout Names of channels 1.0.0 Mono 2.0.0 L2/R2 5.1.0 L5/C/R5/Ls5/Rs5/LFE 5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE 5.1.4 L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE 7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE 7.1.2 L/C/R/Ls/Rs/Rs/Lb/Rb/Hl7/Hr7/LFE 7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE 3.1.2 L3/C/R3/Hfr3/Hfr3/LFE
  • '3D audio signal' may refer to an audio signal that can determine the distribution of sound and the location of sound sources in 3D space.
  • '3D audio channel in front of the listener' may refer to a 3D audio channel based on the layout of the audio channel placed in front of the listener.
  • the '3D audio channel in front of the listener' may also be referred to as the 'Front 3D audio channel'.
  • the '3D audio channel in front of the listener' can be referred to as a 'screen centered 3D audio channel' because it is a 3D audio channel based on the layout of the audio channel centered around the screen located in front of the listener.
  • a 'Channel Group (CG)' is a type of data unit and may include a (compressed) audio signal of at least one channel. Specifically, it may include at least one of a base channel group (BCG) that is independent from other channel groups and a dependent channel group (DCG) that is dependent on at least one channel group.
  • BCG base channel group
  • DCG dependent channel group
  • the target channel group to which the dependent channel group depends may be another dependent channel group, and in particular, may be a dependent channel group related to a lower channel layout.
  • the channel group on which the dependent channel group depends may be a basic channel group. Since the 'channel group' includes data of a type of channel group, it can be referred to as a 'data group (Coding Group)'.
  • the dependent channel group is a group used to further expand the number of channels from the channels included in the basic channel group, and may be referred to as an extended channel group (Scalable Channel Group or Extended Channel Group).
  • the audio signal of the 'basic channel group' may include a mono channel audio signal or a stereo channel audio signal. Without being limited thereto, the audio signal of the 'basic channel group' may include the audio signal of the 3D audio channel in front of the listener.
  • the audio signal of the 'subordinate channel group' is the audio signal of the 3D audio channel in front of the listener or the audio signal of the remaining channels excluding the audio signal of the 'basic channel group' among the audio signals of the 3D audio channel omnidirectionally. It can be included.
  • a portion of the audio signal of the remaining channel may be an audio signal obtained by mixing the audio signal of at least one channel (i.e., the audio signal of the mixing channel).
  • the audio signal of the 'basic channel group' may be a mono channel audio signal or a stereo channel audio signal.
  • the 'multi-channel audio signal' that is restored based on the audio signals of the 'basic channel group' and the 'subordinate channel group' may be an audio signal of a 3D audio channel in front of the listener or an audio signal of a 3D audio channel in front of the listener.
  • 'up-mixing' refers to an operation of increasing the number of display channels of an output audio signal compared to the number of display channels of an input audio signal through de-mixing. It can mean.
  • 'de-mixing' is an operation of separating an audio signal of a specific channel from an audio signal in which audio signals of various channels are mixed (i.e., an audio signal of a mixed channel), It can refer to one of the mixing operations.
  • 'demixing' can be implemented as an operation using a 'demixing matrix' (or a corresponding 'downmixing matrix'), and the 'demixing matrix' is a demixing matrix (or a corresponding 'downmixing matrix').
  • ') may include at least one 'demix parameter' (or a corresponding 'downmix parameter').
  • 'demixing' may be implemented as a mathematical operation based on a part of the 'demixing matrix' (or the corresponding 'downmixing matrix'), and is not limited to this, and may be implemented in various ways. . As mentioned above, 'demixing' may be related to 'upmixing'.
  • 'Mixing' generates audio signals of a new channel (i.e., mix channel) by multiplying each of the audio signals of multiple channels by their respective weights and adding up the respective values obtained (i.e., mixing the audio signals of multiple channels). It means all actions performed.
  • 'Mixing' can be divided into narrow sense 'mixing' performed in an audio encoding device and 'demixing' performed in an audio decoding device.
  • 'Mixing' performed in an audio encoding device can be implemented as an operation using a '(down) mixing matrix', and the '(down) mixing matrix' is a coefficient of the (down) mixing matrix and contains at least one '(down) mix. Parameters' may be included.
  • '(down) mixing' may be implemented as a mathematical operation based on part of the '(down) mixing matrix', but is not limited to this and may be implemented in various ways.
  • 'up-mix channel group' refers to a group including at least one upmix channel
  • 'up-mixed channel' refers to the audio signal of the encoded/decoded channel. It may mean a de-mixed channel separated through demixing.
  • An 'up-mix channel group' in a narrow sense may only include 'upmix channels'.
  • an 'up-mix channel group' in a broad sense may include not only 'upmix channels' but also 'encrypted/decoded channels'.
  • 'decoded/decoded channel' refers to an independent channel of an audio signal that has been encoded (compressed) and included in a bitstream, or an independent channel of an audio signal obtained by decoding from a bitstream. At this time, a separate (de)mixing operation is not required to obtain the audio signal of the encoded/decoded channel.
  • the audio signal of the 'up-mix channel group' in the broad sense may be a multi-channel audio signal
  • the output multi-channel audio signal is an audio signal output to a device such as a speaker, and includes at least one multi-channel audio signal ( That is, it may be one of the audio signals of at least one upmix channel group.
  • FIG. 1A is a diagram for explaining a scalable audio channel layout structure according to an embodiment.
  • a conventional 3D audio decoding device receives compressed audio signals of independent channels of a specific channel layout from a bitstream.
  • a conventional 3D audio decoding device uses compressed audio signals of independent channels received from a bitstream to restore audio signals of 3D audio channels omnidirectional to the listener. At this time, only audio signals of a specific channel layout could be restored.
  • a conventional 3D audio decoding device receives compressed audio signals of independent channels (a first independent channel group) of a specific channel layout from a bitstream.
  • a specific channel layout may be a 5.1 channel layout, and in this case, the compressed audio signal of the first independent channel group may be the compressed audio signal of 5 surround channels and 1 subwoofer channel.
  • the conventional 3D audio decoding apparatus additionally received compressed audio signals of other channels (second independent channel group) independent of the first independent channel group.
  • the compressed audio signal of the second independent channel group may be the compressed audio signal of two height channels.
  • the conventional 3D audio decoding device uses the compressed audio signal of the second independent channel group received from the bitstream separately from the compressed audio signal of the first independent channel group received from the bitstream, The audio signal of the 3D audio channel was restored. Accordingly, an audio signal with an increased number of channels was restored.
  • the audio signal of the 3D audio channel omnidirectional to the listener may be a 5.1.2 channel audio signal.
  • legacy audio decoding devices that only support playback of audio signals in stereo channels cannot properly process compressed audio signals included in the bitstream.
  • a conventional 3D audio decoding device that supports reproduction of 3D audio signals also first decompresses the compressed audio signals of the first independent channel group and the second independent channel group in order to reproduce the audio signal of the stereo channel ( decrypted). Then, the conventional 3D audio decoding device performed upmixing of the decompressed and generated audio signal. However, there was the inconvenience of having to perform operations such as upmixing to reproduce audio signals of stereo channels.
  • a scalable channel layout structure that can process compressed audio signals in a legacy audio decoding device is required.
  • a scalable channel layout structure capable of processing compressed audio signals according to the 3D audio channel layout supported for playback is provided. It is required.
  • the scalable channel layout structure refers to a layout structure in which the number of channels can be freely increased from the basic channel layout.
  • the audio decoding apparatus 400 can restore an audio signal with a scalable channel layout structure from a bitstream.
  • the number of channels can be increased from the stereo channel layout 100 to the 3D audio channel layout 110 in front of the listener.
  • the number of channels can be increased from the 3D audio channel layout 110 in front of the listener to the 3D audio channel layout 120 in all directions of the listener.
  • the 3D audio channel layout 110 in front of the listener may be a 3.1.2 channel layout.
  • the three-dimensional audio channel layout 120 in all directions of the listener may be a 5.1.2 or 7.1.2 channel layout.
  • the scalable channel layout that can be implemented in this disclosure is not limited to this.
  • audio signals of conventional stereo channels can be compressed. Since the legacy audio decoding device can decompress the compressed audio signal of the basic channel group from the bitstream, it can smoothly reproduce the audio signal of the conventional stereo channel.
  • audio signals of channels other than the audio signals of the conventional stereo channels among multi-channel audio signals may be compressed.
  • some of the audio signals of the channel group may be audio signals mixed with signals from some independent channels among the audio signals of a specific channel layout.
  • some of the audio signals of the basic channel group and the audio signals of the subordinate channel group may be demixed to generate the audio signal of the upmix channel included in the specific channel layout.
  • the audio signals of the remaining channels are the audio signals of the second subordinate channel group. It can be compressed.
  • the audio decoding device 400 can support playback of an audio signal of the three-dimensional audio channel layout 120 in all directions of the listener.
  • the audio decoding device 400 creates a three-dimensional audio channel layout 120 omnidirectional for the listener based on the audio signals of the basic channel group, the first subordinate channel group, and the audio signals of the second subordinate channel group. ) audio signal can be restored.
  • the legacy audio signal processing device can ignore compressed audio signals of subordinate channel groups that cannot be restored from the bitstream and reproduce only the audio signals of the stereo channel restored from the bitstream.
  • the audio decoding device 400 can process compressed audio signals of the basic channel group and the subordinate channel group to restore the audio signal of a supportable channel layout among the scalable channel layouts.
  • the audio decoding device 400 cannot restore a compressed audio signal related to an unsupported upper channel layout from the bitstream. Accordingly, compressed audio signals related to upper channel layouts not supported by the audio decoding apparatus 400 can be ignored, and only audio signals of supportable channel layouts can be restored from the bitstream.
  • the audio encoding device and audio decoding device 300 and 400 of an embodiment which are devices supporting a scalable channel layout, it is possible to transmit and restore an audio signal in a stereo channel layout.
  • the audio encoding device and the audio decoding device 300 and 400 can transmit and restore an audio signal according to the layout of the stereo channel.
  • the audio encoding/decoding devices 300 and 400 according to one embodiment can freely convert audio signals of the current channel layout into audio signals of a different channel layout. Conversion between channel layouts is possible through mixing/demixing between audio signals of channels included in different channel layouts.
  • the audio encoding/decoding devices 300 and 400 support conversion between various channel layouts, and thus can transmit and reproduce audio signals of various 3D channel layouts.
  • channel independence is not guaranteed between the channel layout in front of the listener and the channel layout in front of the listener, or between the stereo channel layout and the channel layout in front of the listener, but can be freely converted through mixing/demixing of the audio signal. This is possible.
  • the audio encoding/decoding devices 300 and 400 support processing of audio signals of the channel layout in front of the listener, thereby transmitting and restoring audio signals corresponding to speakers placed at the center of the screen, thereby providing a sense of immersion for the listener. This may increase.
  • FIG. 1B is a diagram for explaining an example of a specific scalable audio channel layout structure.
  • the audio encoding device 300 compresses the L2/R2 signal to generate a compressed audio signal (A/B signal) of the basic channel group. You can.
  • the audio encoding device 300 may compress the L2/R2 signal to generate an audio signal of the basic channel group.
  • the audio encoding device 300 compresses the C, LFE, Hfl3, and Hfr3 signals of the subordinate channel group.
  • a compressed audio signal can be generated.
  • the audio decoding device 400 can decompress the compressed audio signal of the basic channel group and restore the L2/R2 signal. Additionally, the audio decoding device 400 can decompress the compressed audio signal of the subordinate channel group and restore the C, LFE, Hfl3, and Hfr3 signals.
  • the audio decoding device 400 can restore the L3 signal of the 3.1.2 channel layout 170 by demixing (1) the L2 signal and the C signal.
  • the audio decoding device 400 can restore the R3 signal of channel 3.1.2 by demixing (2) the R2 signal and the C signal.
  • the audio decoding device 400 can output the L3, R3, C, Lfe, Hfl3, and Hfr3 signals as audio signals of the 3.1.2 channel layout 170.
  • the audio encoding device 300 may additionally compress the L5 and R5 signals to generate a compressed audio signal of the second subordinate channel group. there is.
  • the audio decoding device 400 can decompress the compressed audio signal of the basic channel group to restore the L2/R2 signal, and decompress the compressed audio signal of the first subordinate channel group, C, LFE, Hfl3, and Hfr3 signals can be restored. Additionally, the audio decoding device 400 may restore the L5 and R5 signals by decompressing the compressed audio signal of the second subordinate channel group. Additionally, as described above, the audio decoding device 400 can restore the L3 and R3 signals by demixing some of the decompressed audio signals.
  • the audio decoding device 400 can restore the Ls5 signal by demixing (3) the L3 and L5 signals.
  • the audio decoding device 400 can restore the Rs5 signal by demixing (4) the R3 and R5 signals.
  • the audio decoding device 400 can restore the Hl5 signal by demixing (5) the Hfl3 signal and the Ls5 signal.
  • the audio decoding device 400 can restore the Hr5 signal by demixing (6) the Hfr3 signal and the Rs5 signal.
  • Hfr3 and Hr5 are the front right channels among the height channels, respectively.
  • the audio decoding device 400 can output the Hl5, Hr5, LFE, L, R, C, Ls5, and Rs5 signals as audio signals of the 5.1.2 channel layout 180.
  • the audio encoding device 300 may additionally compress the Hfl, Hfr, Ls, and Rs signals as audio signals of the third subordinate channel group.
  • the audio decoding device 400 decompresses the compressed audio signal of the basic channel group, the compressed audio signal of the first subordinate channel group, and the compressed audio signal of the second subordinate channel group, and demixes (1) Through (2), (3), (4), (5), and (6), Hl5, Hr5, LFE, L, R, C, Ls5, and Rs5 signals can be restored.
  • the audio decoding device 400 may decompress the compressed audio signal of the third subordinate channel group to restore the Hfl, Hfr, Ls, and Rs signals.
  • the audio decoding device 400 can restore the Lb signal of the 7.1.4 channel layout 190 by demixing (7) the Ls5 signal and the Ls signal.
  • the audio decoding device 400 can restore the Rb signal of the 7.1.4 channel layout 190 by demixing the Rs5 signal and the Rs signal (8).
  • the audio decoding device 400 can restore the Hbl signal of the 7.1.4 channel layout 190 by demixing (9) the Hfl signal and the Hl5 signal.
  • the audio decoding device 400 can restore the Hbr signal of the 7.1.4 channel layout 190 by demixing (or mixing) 10 the Hfr signal and the Hr5 signal.
  • the audio decoding device 400 can output Hfl, Hfr, LFE, C, L, R, Ls, Rs, Lb, Rb, Hbl, and Hbr signals as audio signals of the 7.1.4 channel layout (190). .
  • the audio decoding device 400 supports a scalable channel layout in which the number of channels is increased through a demixing operation, so that not only the audio signal of the conventional stereo channel layout, but also the audio signal of the three-dimensional audio channel in front of the listener and the listener Even audio signals of omnidirectional 3D audio channels can be restored.
  • the scalable channel layout structure described above in detail with reference to FIG. 1B is only an example, and the channel layout structure can be implemented scalably in a form including various channel layouts.
  • Figure 2 shows the structure of a bitstream according to one embodiment.
  • a bitstream according to one embodiment may be configured in the form of an open bitstream unit (OBU) packet.
  • OBU open bitstream unit
  • a bitstream according to one embodiment may include OBU, non-timed metadata, and temporal unit.
  • the OBU may be composed of a 1- or 2-byte header that identifies the type of the OBU, and may be located in front of each data included in the bitstream to indicate the start of the data. Depending on the type, the OBU can transmit data such as codec information 220, static metadata 230, demixing information 240, channel group information 250, and substream 260.
  • the first OBU 211 is a stream indicator and may be located at the beginning of the bitstream to indicate the start of the bitstream.
  • the second OBU 212 is an OBU with a payload and may be located at the front of the codec information 220.
  • the third OBU 213 is an OBU with a payload and may be located at the front of the static metadata 230.
  • the fourth OBU 214 is a temporal delimiter and is located at the front of the temporal unit and may indicate the start of the temporal unit.
  • the fifth OBU 215 is an OBU with a payload and may be located at the front of the demixing information 240.
  • the sixth OBU 216 is an OBU with a payload and may be located at the front of the channel group information 250.
  • the seventh OBU 217 is an OBU with a payload and may be located at the front of the substream 260.
  • Non-timed metadata is metadata that does not change over time and may include codec information 220 and static metadata 230.
  • Codec information 220 is information about the codec used to compress the bitstream, for example, codec ID (Codec_ID) (e.g. mp4a), object type (e.g. AAC-LC), stream type It may include information about (stream type) (e.g. video or audio), channel configuration (e.g. 2 channels), etc.
  • codec ID e.g. mp4a
  • object type e.g. AAC-LC
  • stream type It may include information about (stream type) (e.g. video or audio), channel configuration (e.g. 2 channels), etc.
  • Static metadata 230 may include information about the configuration of audio data included in the bitstream, for example, information about the channel layout of the audio data.
  • a temporal unit corresponds to an audio frame and may include demixing information 240, channel group information 250, and at least one substream 260.
  • Demixing information 240 may include information necessary for the audio decoding device 400 to decode the substream 260.
  • the demixing information 240 may include downmix parameter information ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • Channel group information 250 may include information about a channel group created according to a channel group creation rule.
  • the demixing information 240 and the channel group information 250 are metadata of the substream 260, which is a compressed audio signal, and can be referred to as timed metadata because they change over time or according to the frame. there is.
  • the substream 260 is an audio signal compressed by the audio encoding device 300.
  • the audio encoding device 300 may generate a substream 260 by compressing the audio signal of a channel group generated by downmixing the original audio signal, and the audio decoding device 400 may generate a substream ( 260), the audio signal of the channel group can be restored by decompressing, and then multi-channel audio signals can be output through demixing.
  • FIG. 3A is a block diagram showing the configuration of an audio encoding device according to an embodiment.
  • the audio encoding device 300 includes a memory 310 and a processor 330.
  • the audio encoding device 300 can be implemented as a device capable of processing audio, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • the memory 310 and the processor 330 are shown separately in FIG. 3A, the memory 310 and the processor 330 may be implemented through a single hardware module (eg, chip).
  • the processor 330 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 330 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • a dedicated processor it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • Memory 310 may store one or more instructions for audio processing.
  • memory 310 may store a neural network. If the neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network is implemented in memory (e.g., 310) may not be saved.
  • the neural network may be implemented by an external device (e.g., a server). In this case, the audio encoding device 300 may request processing by the neural network from the external device and receive result information based on the neural network from the external device. You can.
  • the processor 330 sequentially processes consecutive frames according to instructions stored in the memory 310 to obtain consecutive encoded (compressed) frames. Consecutive frames may refer to frames that constitute audio.
  • the processor 330 may receive an original audio signal as input, perform an audio processing operation, and output a bitstream including a compressed audio signal (substream).
  • the original audio signal may be a multi-channel audio signal.
  • a compressed audio signal may be a multi-channel audio signal having a number of channels less than or equal to the number of channels of the original audio signal.
  • the bitstream includes a basic channel group and may further include n dependent channel groups (n is an integer greater than or equal to 1). Therefore, the number of channels can be freely increased depending on the number of dependent channel groups.
  • FIG. 3B is a block diagram showing the configuration of an audio encoding device according to an embodiment.
  • the audio encoding device 300 may include a preprocessor 350, a compression unit 370, and an OBU packetization unit 390.
  • the preprocessor 350 may include a downmix parameter generator 351, a downmixer 353, a channel group generator 355, and an additional information generator 357.
  • the audio encoding device 300 may include a memory 310 and a processor 330, and each component 350, 351, 353, 355, and 357 of FIG. 3B. , 370, 390) may be stored in the memory 310 of FIG. 3A.
  • the processor 330 may execute instructions stored in the memory 310.
  • the preprocessor 350 may generate at least one audio signal of at least one channel group using the original audio signal and the user input.
  • the original audio signal may be a multi-channel audio signal
  • the user input may be a target channel layout list to be converted from the original audio signal.
  • the preprocessor 350 Can generate 2-channel audio signals (L2, R2) as the audio signals of the first channel group from the audio signals of the 7.1.4 channel layout, and 4-channel audio signals (C, LFE, Hfl3, Hfr3) can be generated, two-channel audio signals (L5, R5) can be generated as audio signals of the third channel group, and four-channel audio signals (L5, R5) can be generated as audio signals of the fourth channel group.
  • Ls, Rs, Hfl, Hfr) can be generated.
  • the first channel group may be a basic channel group
  • the second channel group, third channel group, and fourth channel group may be a first subordinate channel group, a second subordinate channel group, and a third subordinate channel group, respectively. .
  • the preprocessor 350 including the operations of the downmix parameter generator 351, the downmixer 353, and the channel group generator 355, generates at least one audio signal of at least one channel group from the original audio signal.
  • the specific creation process will be described later with reference to FIGS. 3C to 3E.
  • the additional information generator 357 may generate additional information based on the original audio signal. Additional information is information related to multi-channel audio signals and may be various information for restoration of multi-channel audio signals. For example, the additional information may include at least one of codec information 220, static metadata 230, demixing information 240, and channel group information 250.
  • the additional information may include an audio object signal of a 3D audio channel in front of the listener indicating at least one of the audio signal, location, shape, area, and direction of the audio object (sound source).
  • the additional information may include information about the total number of audio streams including basic channel audio streams and subordinate channel audio streams.
  • the additional information may include downmix gain information. Additional information may include channel mapping table information. Additional information may include volume information. Additional information may include low frequency effect gain (LFE Gain) information. Additional information may include dynamic range control (DRC) information. Additional information may include channel layout rendering information.
  • Additional information includes information on the number of coupled audio streams, information indicating the layout of multiple channels, information on the presence and level of dialogue in the audio signal, information indicating whether low-frequency effect (LFE) is output, and screen.
  • Information about the presence or absence of an audio object information about the presence or absence of an audio signal of a continuous audio channel (or scene based audio signal; or ambisonic audio signal), non-continuous It may include information about the presence or absence of an audio signal of a discrete audio channel (or an object-based audio signal; or a spatial multi-channel audio signal).
  • the additional information may include information about demixing including at least one demix parameter of a demixing matrix for restoring a multi-channel audio signal.
  • information about demixing corresponds to information about (down)mixing
  • information about demixing may include information about (down)mixing.
  • information about demixing may include at least one (down)mix parameter of a (down)mixing matrix. Based on the (down)mix parameters, demix parameters can be obtained.
  • Additional information may be various combinations of the above-described information. That is, the additional information may include at least one piece of information described above.
  • the additional information generator 357 When an audio signal of a subordinate channel corresponding to at least one audio signal of the basic channel group exists, the additional information generator 357 generates subordinate channel audio signal identification information indicating that the audio signal of the subordinate channel exists. You can.
  • the compression unit 370 may generate at least one substream by compressing at least one audio signal of at least one channel group.
  • compression may mean compression based on various audio codecs.
  • compression may include transformation and quantization processes.
  • the OBU packetization unit 390 may generate a bitstream including at least one substream of at least one channel group and additional information. For example, the OBU packetization unit 390 may generate the bitstream of FIG. 2.
  • the OBU packetization unit 390 may generate non-timed metadata including codec information 220 and static metadata 230. As shown in FIG. 2, the OBU packetization unit 390 can packetize the second OBU 212 and the codec information 220, and packetize the third OBU 213 and the static metadata 230. .
  • the OBU packetization unit 390 may generate timed metadata including demixing information 240 and channel group information 250. As shown in FIG. 2, the OBU packetization unit 390 can packetize the fifth OBU 215 and the demixing information 240, and packetize the sixth OBU 216 and the channel group information 250. there is.
  • the OBU packetization unit 390 can packetize each of the seventh OBU 217 and at least one substream.
  • the OBU packetization unit 390's operation of generating timed metadata and packetizing the substream may be performed for each temporal unit (i.e., frame).
  • the OBU packetization unit 390 can generate a bitstream in a format in which the number of channels can be freely increased from the basic channel group.
  • the audio signal of the basic channel group can be restored from the basic channel audio stream, and the multi-channel audio signal with the number of channels increased from the basic channel group can be restored from the basic channel audio stream and the subordinate channel audio stream.
  • the OBU packetization unit 390 can generate a file stream with multiple audio tracks.
  • the OBU packetization unit 390 may generate an audio stream of the first audio track including at least one compressed audio signal of the basic channel group.
  • the OBU packetization unit 390 may generate an audio stream of the second audio track including dependent channel audio signal identification information.
  • the second audio track is an audio track after the first audio track and may be adjacent to each other.
  • the OBU packetization unit 390 encodes the audio of the second audio track including at least one compressed audio signal of the at least one subordinate channel group. Streams can be created.
  • the OBU packetization unit 390 generates the audio signal of the basic channel group next to the audio signal of the first audio track of the basic channel group.
  • An audio stream of the second audio track containing can be generated.
  • Figure 3C is a block diagram showing the configuration of a preprocessor according to an embodiment.
  • the preprocessor 350 may include a downmix parameter generator 351, a downmixer 353, and a channel group generator 355.
  • the downmix parameter generator 351 may include an audio scene classification unit 352 and a height energy quantization unit 354.
  • the downmix parameter generator 351 can generate downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w) using the original audio signal.
  • the audio scene classification unit 352 can generate the first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) using the original audio signal
  • the height energy quantization unit 354 can generate the fifth downmix parameter (w) using the original audio signal.
  • the first downmix parameter ( ⁇ ) and the second downmix parameter ( ⁇ ) may be parameters used when downmixing the number of surround channels from 7 channels to 5 channels.
  • the third downmix parameter ( ⁇ ) may be a parameter used when downmixing the number of height channels from 4 channels to 2 channels.
  • the fourth downmix parameter ( ⁇ ) may be a parameter used when downmixing the number of surround channels from 5 channels to 3 channels.
  • the fifth downmix parameter (w) may be a weight for mixing from the surround channel to the height channel.
  • the audio scene classifier 352 may identify the audio scene type for the original audio signal and generate first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) based on the identified audio scene type. .
  • the audio scene classifier 352 may generate first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) according to the downmixing profile corresponding to the identified audio scene type.
  • the first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) corresponding to a specific audio scene type may be determined in advance. Meanwhile, the audio scene type can be identified on a frame-by-frame basis.
  • the audio scene classifier 352 may downsample the original audio signal and identify the audio scene type based on the downsampled original audio signal.
  • the audio scene classifier 352 may obtain a center channel audio signal from the original audio signal.
  • the audio scene classification unit 352 can identify a dialogue type from the acquired audio signal of the center channel.
  • the audio scene classifier 352 may identify the conversation type using the first neural network for identifying the conversation type.
  • the audio scene classifier 352 may identify the first conversation type as a conversation type when the probability value of the conversation type identified using the first neural network is greater than a predetermined first probability value for the first conversation type. You can.
  • the audio scene classifier 352 may identify the default type as the conversation type when the probability value of the conversation type identified using the first neural network is less than or equal to a predetermined first probability value for the first conversation type.
  • the audio scene classification unit 352 may identify the sound effect type based on the front channel audio signal and the side channel audio signal from the original audio signal.
  • the audio scene classification unit 352 may identify the sound effect type using a second neural network for identifying the sound effect type. Specifically, when the probability value of the sound effect type identified using the second neural network is greater than the predetermined second probability value for the first sound effect type, the audio scene classification unit 352 identifies the sound effect type as the first sound effect type. can do.
  • the audio scene classifier 352 may identify the sound effect type as the default type. .
  • the audio scene classifier 352 may identify the type of audio scene based on at least one of the identified dialogue type and the identified sound effect type. That is, the audio scene classification unit 352 can identify one audio scene type among a plurality of audio scene types.
  • the height energy quantization unit 354 identifies the energy value of the height channel and the energy value of the surround channel of the original audio signal, and performs a fifth downmix based on the relative difference between the energy value of the identified height channel and the energy value of the surround channel.
  • a parameter (w) can be created.
  • the energy value of the surround channel may be a moving average value of the total power for the surround channel.
  • the energy value of the surround channel may be a Root Mean Square Energy (RMSE) value based on a long-term time window.
  • RMSE Root Mean Square Energy
  • the energy value of the height channel may be a short time power value for the height channel.
  • the energy value of the height channel may be an RMSE value based on a short-term time window.
  • the height energy quantization unit 354 identifies the energy value of the height channel and the energy value of the surround channel from the original audio signal, and creates a weight index offset (wIdx_offset) based on the identified energy value of the height channel and the energy value of the surround channel. can be identified.
  • wIdx_offset a weight index offset
  • the height energy quantization unit 354 sets a weight index offset ( wIdx_offset) can be identified as the third value.
  • the third value may be -1.
  • the height energy quantization unit 354 sets the weight
  • the index offset (wIdx_offset) can be identified as the fourth value.
  • the fourth value may be 1.
  • demixing information 240 may include a weight index offset (wIdx_offset).
  • FIG. 3D shows a downmix path according to a channel layout creation rule according to an embodiment.
  • the downmixing unit 353 can downmix the original audio signal along a downmix path determined according to the channel layout creation rule using downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • the channel layout creation rules may be as follows.
  • the number of surround channels in the first channel layout is S i
  • the number of subwoofer channels is W i
  • the number of height channels is H i
  • the number of surround channels in the second channel layout is S i+1
  • the number of subwoofer channels is H i.
  • S i can be less than or equal to S i+1
  • W i can be less than or equal to W i+1
  • H i can be H can be less than or equal to i+1
  • S i is Same as S i+1
  • W i is Same as W i+1
  • H i is Cases equal to H i+1 can be excluded.
  • the number of surround channels in the second channel layout must be greater than the number of surround channels in the first channel layout.
  • the number of subwoofer channels in the second channel layout must be greater than the number of subwoofer channels in the first channel layout.
  • the number of height channels in the second channel layout must be greater than the number of height channels in the first channel layout.
  • the number of surround channels in the second channel layout cannot be smaller than the number of surround channels in the first channel layout.
  • the number of subwoofer channels in the second channel layout cannot be smaller than the number of subwoofer channels in the first channel layout.
  • the number of height channels in the second channel layout cannot be smaller than the number of height channels in the first channel layout.
  • the number of surround channels in the second channel layout is the same as the number of surround channels in the first channel layout
  • the number of subwoofer channels in the second channel layout is the same as the number of subwoofer channels in the first channel layout
  • the number of height channels in the second channel layout cannot be the same as the number of height channels in the first channel layout. That is, all channels in the second channel layout cannot be the same as all channels in the first channel layout.
  • the downmix path can be determined according to the channel layout creation rule described above. That is, 7.1.4 channels can be downmixed to 5.1.4 channels or 7.1.2 channels. 7.1.2 channels can be downmixed to 5.1.2 channels or 7.1.0 channels. 7.1.0 channels can only be downmixed to 5.1.0 channels. 5.1.4 channels can only be downmixed to 5.1.2 channels. 5.1.2 channels can be downmixed to 3.1.2 channels or 5.1.0 channels. 5.1.0 channels can only be downmixed to 2.0.0 channels. Channel 3.1.2 can only be downmixed to channel 2.0.0. Channel 2.0.0 can only be downmixed to channel 1.0.0.
  • Figure 3E shows a downmix mechanism according to one embodiment.
  • the downmixing unit 353 can individually downmix the surround channel and height channel of the original audio signal using downmix parameters. At this time, the downmixing unit 353 can downmix step by step from the starting channel to the target channel.
  • the surround channel (S7) of the 7.x.x channel can be downmixed to the surround channel (S5) of the 5.x.x channel.
  • the L7, C, and R7 channels of S7 can be downmixed to be the same as the L5, C, and R5 channels of S5, respectively.
  • the Lss7 and Lrs7 channels of S7 can be downmixed to the Ls5 channel of S5 using the first downmix parameter ( ⁇ ) and the second downmix parameter ( ⁇ ).
  • the Rss7 and Rrs7 channels of S7 can be downmixed to the Rs5 channel of S5 using the first downmix parameter ( ⁇ ) and the second downmix parameter ( ⁇ ).
  • the surround channel (S5) of the 5.x.x channel can be downmixed to the surround channel (S3) of the 3.x.x channel.
  • the L5 and Ls5 channels of S5 can be downmixed to the L3 channel of S3 using the fourth downmix parameter ( ⁇ ).
  • the C channel of S5 can be downmixed to be the same as the C channel of S3.
  • the R5 and Rs5 channels of S5 can be downmixed to the R3 channel of S3 using the fourth downmix parameter ( ⁇ ).
  • the surround channel (S3) of the 3.x.x channel can be downmixed to the 2.0.0 channel (S2).
  • the L3 and C channels of S3 can be downmixed to the L2 channel of S2.
  • the R3 and C channels of S3 can be downmixed to the R2 channel of S2.
  • the 2.0.0 channel (S2) can be downmixed to the 1.0.0 channel (S1).
  • the L2 and R2 channels of S2 can be downmixed to the Mono channel of S1.
  • the height channel (T4) of the 7.x.4 channel or 5.x.4 channel can be downmixed to the height channel (T2) of the 7.x.2 channel or 5.x.2 channel.
  • the Ltf4 and Ltb4 channels of T4 can be downmixed to the Ltf2 channel of T2 using the third downmix parameter ( ⁇ ).
  • the Rtf4 and Rtb4 channels of T4 can be downmixed to the Rtf2 channel of T2 using the third downmix parameter ( ⁇ ).
  • the height channel (TF2) of the 3.x.2 channel can be created by downmixing the Ls5, Rs5, Ltf2, and Rtf2 channels by combining the surround channel and the height channel through the fifth downmix parameter (w).
  • downmixing from channel 7.1.4 to channel 2.0.0, channel 3.1.2, channel 5.1.2, and channel 7.1.4 can be implemented by an operation using a downmixing matrix as shown in Equation 1.
  • p2 may be 0.707 (i.e., -3dB), and ⁇ , ⁇ , ⁇ , and w may be the first to fifth downmix parameters, respectively.
  • the channel group generator 355 uses the downmixed audio signal to create at least one channel group according to the channel group creation rule.
  • the channel layout creation rules may be as follows.
  • Si+Wi+Hi may be the number of channels for channel group #i.
  • the number of channels for channel group #i may be greater than the number of channels for channel group #i-1.
  • Channel group #i may contain as many original channels (display channels) of CLi as possible.
  • Original channels may follow the following priorities:
  • the priority of the higher channel may be higher than that of other channels.
  • the center channel and LFE channel may have priority over other channels.
  • the priority of the height front channel may be ahead of the priorities of the side channels and the height rear channel.
  • the priority of the side channel may be ahead of the priority of the rear channel. Additionally, the priority of the left channel may be ahead of the priority of the right channel.
  • CL1 may include L2 and R2 channels.
  • CL2 may include C, Hfl3, Hfr3, and LFE channels
  • CL3 may include L5, R5 channels
  • CL4 may include Ls7, Rs7, Hfl, and Hfr channels.
  • FIG. 4A is a block diagram showing the configuration of a multi-channel audio decoding device according to an embodiment.
  • the audio decoding device 400 includes a memory 410 and a processor 430.
  • the audio decoding device 400 can be implemented as a device capable of audio processing, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • the memory 410 and the processor 430 are shown separately in FIG. 4A, the memory 410 and the processor 430 may be implemented through a single hardware module (eg, chip).
  • the processor 430 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 230 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • AP application processor
  • CPU central processing unit
  • GPU graphic processing unit
  • software in the case of a dedicated processor, it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • the processor 430 may be composed of a plurality of processors. In this case, it may be implemented through a combination of dedicated processors, or it may be implemented through a combination of software and multiple general-purpose processors such as AP, CPU, or GPU.
  • Memory 410 may store one or more instructions for audio processing.
  • memory 410 may store a neural network. If the neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network is implemented in memory (e.g., 310) may not be saved.
  • the neural network may be implemented by an external device (e.g., a server), and in this case, the audio decoding device 400 may request processing by the neural network from the external device and receive result information based on the neural network from the external device. You can.
  • the processor 430 sequentially processes consecutive frames according to instructions stored in the memory 410 to obtain consecutive restored frames.
  • Consecutive frames may refer to frames that constitute audio.
  • the processor 430 may receive a bitstream as input, perform audio processing operations, and output a multi-channel audio signal.
  • the bitstream can be implemented in a scalable form so that the number of channels can be increased from the basic channel group.
  • the processor 430 may obtain a compressed audio signal of the basic channel group from the bitstream, and decompress the compressed audio signal of the basic channel group to produce an audio signal of the basic channel group (e.g., a stereo channel audio signal). ) can be restored.
  • the processor 430 may restore the audio signal of the subordinate channel group by decompressing the compressed audio signal of the subordinate channel group from the bitstream.
  • the processor 430 can restore multi-channel audio signals based on the audio signals of the basic channel group and the audio signals of the subordinate channel group.
  • FIG. 4B is a block diagram showing the configuration of a multi-channel audio decoding device according to an embodiment.
  • the audio decoding device 400 may include an OBU parsing unit 450, a decompressing unit 470, and a post-processing unit 490.
  • the audio decoding device 400 may include the memory 410 and the processor 430 of FIG. 4A, and instructions for implementing each component 450, 460, 470, and 480 of FIG. 4B include the memory 410. It can be saved in .
  • the processor 430 may execute instructions stored in the memory 410.
  • the OBU parsing unit 450 may parse the bitstream to obtain at least one substream and additional information of at least one channel group.
  • the OBU parsing unit 450 may obtain non-timed metadata including codec information 220 and static metadata 230. As shown in FIG. 2, the OBU parsing unit 450 may parse the second OBU 212 and codec information 220, and the third OBU 213 and static metadata 230.
  • the OBU parsing unit 450 may obtain timed metadata including demixing information 240 and channel group information 250. As shown in FIG. 2, the OBU parsing unit 450 can parse the fifth OBU 215 and demixing information 240, and parse the sixth OBU 216 and channel group information 250. .
  • the OBU parsing unit 450 may parse each of the seventh OBU 217 and at least one substream.
  • the operation of the OBU parsing unit 450 to obtain timed metadata and the operation to obtain a substream may be performed for each temporal unit (i.e., frame).
  • the decompression unit 470 may decompress at least one substream and restore at least one audio signal of at least one channel group.
  • the decompression unit 470 may restore the audio signal of the basic channel group by decompressing at least one compressed audio signal of the basic channel group.
  • the decompression unit 470 is a separate first decompression unit for decoding the compressed audio signal of each channel group (n channel groups)... , may include an nth compression decompression unit (not shown). At this time, the first compression decompression unit... , the n-th compression decompression unit (not shown) may operate in parallel with each other.
  • the post-processing unit 490 may restore at least one multi-channel audio signal by demixing at least one audio signal of at least one channel group.
  • the post-processing unit 490 includes audio signals (L2, R2) of the first channel group, audio signals (C, LFE, Hfl3, Hfr3) of the second channel group, and audio signals (L5, R5) and the audio signal of the fourth channel group (Ls, Rs, Hfl, Hfr), the audio signal of the 2.0.0 channel layout, the audio signal of the 3.1.2 channel layout, the audio signal of the 5.1.2 channel layout, and The audio signal of the 7.1.4 channel layout can be restored.
  • the post-processing unit 490 may generate an audio signal of an upmix channel group based on the audio signal of the basic channel group and the audio signal of the subordinate channel group.
  • the audio signal of the upmix channel group may be a multi-channel audio signal.
  • a multi-channel audio signal may be generated additionally based on additional information (eg, information about dynamic demixing weight parameters).
  • the post-processing unit 490 may generate an audio signal of an upmix channel by demixing some of the audio signals of the basic channel group and the audio signals of the subordinate channel group. For example, the post-processing unit 490 demixes the audio signals L and R of the basic channel group and some audio signals C of the subordinate channel group to produce audio signals of a de-mixed channel (or upmixed channel). L3 and R3 can be created.
  • the post-processing unit 490 can generate audio signals of some channels among the multi-channel audio signals by bypassing the demixing operation for some of the audio signals of the subordinate channel group. For example, the post-processing unit 490 bypasses the demixing operation for audio signals of channels C, LFE, Hfl3, and Hfr3, which are some audio signals of the subordinate channel group, and performs a demixing operation for audio signals of channels C, LFE, Hfl3, and Hfr3 among multi-channel audio signals. An audio signal of the Hfr3 channel can be generated.
  • the post-processing unit 490 may generate an audio signal of the upmix channel group based on the audio signal of the upmix channel generated through demixing and the audio signal of the subordinate channel group in which the demixing operation was bypassed.
  • the post-processing unit 490 is based on the audio signals of channels L3 and R3, which are audio signals of the demixing channel, and the audio signals of channels C, LFE, Hfl3, and Hfr3, which are audio signals of the subordinate channel group, 3.1.2 Audio signals of channels L3, R3, C, LFE, Hfl3, Hfr3 channels can be generated.
  • the post-processing unit 490 can individually demix the surround channel and the height channel using demix parameters.
  • Demix parameters can be configured to correspond to downmix parameters.
  • the 1.0.0 channel (S1) can be demixed to the 2.0.0 channel (S2).
  • the surround channel (S3) of the 3.x.x channel can be demixed into the surround channel (S5) of the 5.x.x channel.
  • the above surround channel demixing and height channel demixing can be implemented using operations such as Equation 2.
  • ⁇ , ⁇ , ⁇ , ⁇ , and w are the first to fifth downmix parameters, respectively.
  • the post-processing unit 490 may restore at least one multi-channel audio signal by demixing at least one audio signal of at least one channel group using a demix parameter corresponding to a downmix parameter.
  • the post-processing unit 490 can dynamically determine the fifth downmix parameter using the weight index offset (wIdx_offset).
  • the post-processing unit 490 may perform height channel demixing based on the dynamically determined fifth downmix parameter. Demixing from a TF channel to a T2 channel or downmixing from a T2 channel to a TF channel is performed using the audio signal of the surround channel as well as the audio signal of the height channel. At this time, if the audio signal of the surround channel is suddenly added or removed at a too large rate, the user feels a sense of sound heterogeneity. To allow the user to experience natural sound, the post-processing unit 490 may dynamically determine the fifth downmix parameter (w) based on the weight index offset (wIdx_offset).
  • FIG. 4C is an example of the relationship between a weight index (wIdx) and a fifth downmix parameter (w) according to an embodiment.
  • the weight index (wIdx) may be an integer from 0 to 10
  • the fifth downmix parameter (w) may have a value from 0 to 0.5 depending on the value of the weight index (wIdx). You can.
  • the weight index (wIdx) may be reset to 0 in advance before encoding the audio signal.
  • the weight index (wIdx) is a value that is added by accumulating the weight index offset (wIdx_offset) for every frame (temporal unit).
  • weight index (wIdx_offset) For example, if the weight index offset (wIdx_offset) is 1 every frame, the weight index (wIdx) increases by 1, and if the weight index offset (wIdx_offset) is -1 every frame, the weight index (wIdx) increases by 1. may decrease. If the weight index (wIdx) is outside the range of 0 to 10, the weight index (wIdx) may be maintained at 0 or 10.
  • the weight index (wIdx) can be implemented as in Equation 3.
  • wIdx_p is the previous wIdx value.
  • the audio decoding device 400 can provide sound without heterogeneity to the user by gradually adding or removing the audio signal of the surround channel when demixing from the HF2 channel to the H2 channel.
  • the post-processing unit 490 can restore a multi-channel audio signal based on not only the audio signal of the basic channel group and the audio signal of the subordinate channel group, but also additional information. At this time, the additional information may be additional information for restoration of a multi-channel audio signal.
  • the multi-channel post-processing unit 490 may output at least one restored multi-channel audio signal.
  • the post-processing unit 490 generates a first audio signal of a three-dimensional audio channel in front of the listener from at least one audio signal of the basic channel group and at least one audio signal of the at least one subordinate channel group. You can.
  • the post-processing unit 490 may restore a multi-channel audio signal including a second audio signal of a 3D audio channel in front of the listener based on the first audio signal and the audio object signal of the audio channel in front of the listener.
  • the audio object signal may represent at least one of the audio signal, shape, area, location, and direction of the audio object (sound source), and may be obtained from the OBU parsing unit 450.
  • the post-processing unit 490 may control the volume of the audio signal of each channel to a target volume (for example, -24LKFS) based on volume information signaled through the bitstream and output it.
  • a target volume for example, -24LKFS
  • the volume (loudness) of the audio signal of each channel can be measured based on ITU-R BS.1770, and this can be signaled through additional information of the bitstream.
  • the post-processing unit 490 may adjust the level of the audio signal to the level of the original audio signal based on the corresponding downmix gain for the mixed signal.
  • the operation based on the above-described downmix gain can be performed for each channel or channel group.
  • the audio encoding device 300 may signal information about the downmix gain for each channel or channel group through additional information of the bitstream. Accordingly, the audio decoding device 400 may obtain information about the downmix gain for each channel or channel group from the side information of the bitstream, and perform the above-described operation based on the downmix gain.
  • the post-processing unit 490 may perform a demixing operation based on the dynamic demix parameters of the demixing matrix (corresponding to the downmix parameters of the downmixing matrix).
  • the audio encoding device 300 may signal the dynamic demix parameter or the corresponding dynamic downmix parameter through additional information of the bitstream. Some demix parameters may not be signaled and have fixed values.
  • the audio decoding device 400 obtains information about dynamic demix parameters (or information about dynamic downmix parameters) from the side information of the bitstream, and obtains information about the obtained dynamic demix parameters (or information about dynamic downmix parameters).
  • a demixing operation can be performed based on (information about parameters).
  • FIG. 5 is a flowchart of an audio processing method according to one embodiment.
  • the audio processing method may generate downmix parameters using an audio signal.
  • the audio processing method may use the downmix parameters to downmix the audio signal along a downmix path determined according to a channel layout (CL) creation rule.
  • CL channel layout
  • the audio processing method may generate at least one channel group according to a channel group (CG) creation rule using the downmixed audio signal.
  • CG channel group
  • At least one substream 260 may be generated by compressing the at least one audio signal of the at least one channel group.
  • the bitstream 200 can be generated by packetizing the at least one substream 260 and additional information.
  • FIG. 6 is a flowchart of an audio processing method according to one embodiment.
  • step 610 at least one substream 260 and additional information may be obtained by parsing the bitstream 200.
  • step 630 at least one audio signal of at least one channel group (CG) can be obtained by decompressing the at least one substream 260.
  • step 650 based on the additional information, the at least one audio signal of the at least one channel group may be demixed to obtain a multi-channel audio signal.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' simply means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as .
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • the method according to the embodiments disclosed in this document may be provided and included in a computer program product.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may be distributed in the form of a device-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store or between two user devices (e.g. smartphones). It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) may be stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • an audio processing method may include parsing a bitstream to obtain at least one substream and additional information.
  • the audio processing method may include decompressing the at least one substream to obtain at least one audio signal of at least one channel group (CG).
  • CG channel group
  • the audio processing method may include obtaining a multi-channel audio signal by demixing the at least one audio signal of the at least one channel group based on the additional information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • the additional information may further include first to fifth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • acquiring the multi-channel audio signal may include dynamically determining a fifth downmix parameter (w) using the weight index offset (wIdx_offset).
  • acquiring the multi-channel audio signal may include demixing a height channel of the at least one audio signal based on the fifth downmix parameter (w).
  • the step of dynamically determining the fifth downmix parameter (w) using the weight index offset (wIdx_offset) includes accumulating and adding the weight index offset (wIdx_offset) for each frame to determine the weight index (wIdx). ) may include the step of determining.
  • the step of dynamically determining the fifth downmix parameter (w) using the weight index offset (wIdx_offset) includes setting the fifth downmix parameter (w) corresponding to the weight index (wIdx). It may include a step of determining a predetermined value.
  • the step of determining the weight index (wIdx) includes determining the weight index (wIdx) as the first value if the result of accumulating and adding the weight index offset (wIdx_offset) for each frame is less than or equal to the first value. And, if the result of accumulating and adding the weight index offset (wIdx_offset) for each frame is greater than or equal to the second value, the weight index (wIdx) is determined as the second value, and the weight index offset (wIdx_offset) is accumulated for each frame. If the added result is a third value that is greater than the first value and less than the second value, the weight index (wIdx) can be determined as the third value.
  • the bitstream may be configured in the form of an open bitstream unit (OBU) packet.
  • OBU open bitstream unit
  • the bitstream includes non-timed metadata including at least one of codec information and static metadata, and at least one substream including demixing information and the at least one substream. May include temporal units.
  • the audio processing device may include a memory storing one or more instructions for audio processing and at least one processor executing the one or more instructions.
  • the at least one processor may parse a bitstream to obtain at least one substream and additional information.
  • the at least one processor may obtain at least one audio signal of at least one channel group (CG) by decompressing the at least one substream.
  • CG channel group
  • the at least one processor may obtain a multi-channel audio signal by demixing the at least one audio signal of the at least one channel group based on the additional information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the multi-channel audio signal.
  • the additional information may further include first to fifth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • the at least one processor may demix the surround channel of the at least one audio signal based on the first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , and ⁇ ).
  • the at least one processor may dynamically determine the fifth downmix parameter (w) using the weight index offset (wIdx_offset).
  • the at least one processor may demix the height channel of the at least one audio signal based on the fifth downmix parameter (w).
  • the at least one processor may determine the weight index (wIdx) by accumulating and adding the weight index offset (wIdx_offset) for each frame.
  • the at least one processor may determine the fifth downmix parameter (w) to be a predetermined value corresponding to the weight index (wIdx).
  • the at least one processor determines the weight index (wIdx) as the first value if the result of accumulating and adding the weight index offset (wIdx_offset) for each frame is less than the first value, and determines the weight index (wIdx) as the first value every frame. If the result of accumulating and adding the weight index offset (wIdx_offset) for each frame is greater than or equal to the second value, the weight index (wIdx) is determined as the second value, and the result of accumulating and adding the weight index offset (wIdx_offset) for each frame is If the third value is greater than the first value and smaller than the second value, the weight index (wIdx) can be determined as the third value.
  • the bitstream may be configured in the form of an open bitstream unit (OBU) packet.
  • OBU open bitstream unit
  • the bitstream includes non-timed metadata including at least one of codec information and static metadata, and at least one substream including demixing information and the at least one substream. May include temporal units.
  • an audio processing method may include generating downmix parameters using an audio signal.
  • the audio processing method may include downmixing the audio signal along a downmix path determined according to a channel layout (CL) generation rule using the downmix parameter. .
  • CL channel layout
  • the audio processing method may include generating at least one channel group according to a channel group (CG) generation rule using the downmixed audio signal.
  • CG channel group
  • the audio processing method may include compressing the at least one audio signal of the at least one channel group to generate at least one substream.
  • the audio processing method may include generating a bitstream by packetizing the at least one substream and additional information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • the downmix parameters may include first to fifth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • generating the downmix parameters may include identifying an audio scene type for the audio signal.
  • generating the downmix parameters may include generating first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) based on the identified audio scene type. .
  • generating the downmix parameter may include identifying an energy value of a height channel of the audio signal and an energy value of a surround channel of the audio signal.
  • the step of generating the downmix parameter may include generating a fifth downmix parameter (w) based on the relative difference between the energy value of the identified height channel and the energy value of the surround channel. You can.
  • the step of generating the downmix parameter may further include identifying the weight index offset (wIdx_offset) based on the energy value of the identified height channel and the energy value of the surround channel.
  • downmixing the audio signal may include downmixing a surround channel of the audio signal using the first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ). You can.
  • downmixing the audio signal may include downmixing a height channel of the audio signal using the fifth downmix parameter (w).
  • the step of downmixing the height channel includes mixing at least one audio signal included in the surround channel and at least one audio signal included in the height channel through the fifth downmix parameter (w).
  • the step of downmixing the height channel by combining may be further included.
  • the bitstream may be configured in the form of an open bitstream unit (OBU) packet.
  • OBU open bitstream unit
  • the bitstream includes non-timed metadata including at least one of codec information and static metadata, and at least one substream including demixing information and the at least one substream. May include temporal units.
  • the audio processing device may include a memory storing one or more instructions for audio processing and at least one processor executing the one or more instructions.
  • the at least one processor may generate downmix parameters using an audio signal.
  • the at least one processor may downmix the audio signal along a downmix path determined according to a channel layout (CL) generation rule using the downmix parameter.
  • CL channel layout
  • the at least one processor may generate at least one channel group according to a channel group (CG) generation rule using the downmixed audio signal.
  • CG channel group
  • the at least one processor may generate at least one substream by compressing the at least one audio signal of the at least one channel group.
  • the at least one processor may generate a bitstream by packetizing the at least one substream 260 and additional information.
  • the additional information may include a weight index offset (wIdx_offset) identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • wIdx_offset a weight index offset identified based on the energy value of the height channel and the energy value of the surround channel of the audio signal.
  • the downmix parameters may include first to fifth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w).
  • the at least one processor may identify an audio scene type for the audio signal.
  • the at least one processor may generate first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , ⁇ ) based on the identified audio scene type.
  • the at least one processor may identify the energy value of the height channel of the audio signal and the energy value of the surround channel of the audio signal.
  • the at least one processor may generate a fifth downmix parameter (w) based on a relative difference between the energy value of the identified height channel and the energy value of the surround channel.
  • the at least one processor may identify the weight index offset (wIdx_offset) based on the energy value of the identified height channel and the energy value of the surround channel.
  • the at least one processor may downmix the surround channel of the audio signal using the first to fourth downmix parameters ( ⁇ , ⁇ , ⁇ , and ⁇ ).
  • the at least one processor may downmix the height channel of the audio signal using the fifth downmix parameter (w).
  • the at least one processor combines at least one audio signal included in the surround channel and at least one audio signal included in the height channel via the fifth downmix parameter (w)
  • the height channel can be downmixed.
  • the bitstream may be configured in the form of an open bitstream unit (OBU) packet.
  • OBU open bitstream unit
  • the bitstream includes non-timed metadata including at least one of codec information and static metadata, and at least one substream including demixing information and the at least one substream. May include temporal units.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

일 실시예에서, 오디오 처리 방법은 비트스트림을 파싱(parsing)하여 적어도 하나의 서브스트림(substream) 및 부가 정보를 획득하는 단계, 상기 적어도 하나의 서브스트림의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득하는 단계, 및 상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득하는 단계를 포함하고, 상기 부가 정보는 상기 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함한다.

Description

다채널 오디오 신호 처리 장치 및 방법
본 개시는 다채널 오디오 신호를 처리하는 분야에 관한 것이다. 보다 구체적으로, 본 개시는 다채널 오디오 신호로부터 하위 채널 레이아웃(예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃)의 오디오 신호를 처리하는 분야에 관한 것이다.
오디오 신호는 2 채널, 5.1 채널, 7.1 채널 및 9.1 채널의 오디오 신호와 같은 2차원 오디오 신호가 일반적이다.
하지만, 2차원 오디오 신호는 높이 방향의 오디오 정보가 불확실하기 때문에 음향의 공간적인 임체감을 제공하기 위해 3차원 오디오 신호(n 채널 오디오 신호 또는 다채널 오디오 신호; n은 2보다 큰 정수)를 생성할 필요성이 있다.
3차원 오디오 신호를 위한 종래 채널 레이아웃은 청자를 중심으로 전방향(omni-direction)으로 채널이 배치된다. 다만, OTT 서비스(Over-The-Top service)의 확대, TV의 해상도 증가, 태블릿과 같은 전자기기의 화면의 대형화에 따라 홈 환경에서 극장용 콘텐츠와 같은 이머시브 오디오(immersive audio)를 경험하고자 하는 시청자의 니즈(needs)가 증가하고 있다. 따라서 화면상의 객체(음원)의 음상(sound) 표현을 고려하여 청자를 중심으로 전방에 채널이 배치되는 3차원 오디오 채널 레이아웃(청자 전방의 3차원 오디오 채널 레이아웃)의 오디오 신호를 처리할 필요성이 있다.
일 실시예에서, 오디오 처리 방법은 비트스트림을 파싱(parsing)하여 적어도 하나의 서브스트림(substream) 및 부가 정보를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 적어도 하나의 서브스트림의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 부가 정보에 기초하여, 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 부가 정보는 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 오디오 처리 장치는 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리, 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 비트스트림을 파싱하여 적어도 하나의 서브스트림(substream) 및 부가 정보를 획득할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 적어도 하나의 서브스트림의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 부가 정보에 기초하여, 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득할 수 있다.
일 실시예에서, 부가 정보는 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 오디오 신호를 이용하여 다운믹스 파라미터를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 오디오 신호를 다운믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림(substream)을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 적어도 하나의 서브스트림 및 부가 정보를 패킷화함으로써 비트스트림을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 부가 정보는 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 오디오 처리 장치는 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리, 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 오디오 신호를 이용하여 다운믹스 파라미터를 생성할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림을 생성할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 적어도 하나의 서브스트림 및 부가 정보를 패킷화함으로써 비트스트림을 생성할 수 있다.
일 실시예에서, 적어도 하나의 프로세서는, 부가 정보는 상기 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
도 1a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
도 1b는 구체적인 스케일러블 오디오 채널 레이아웃 구조의 일 예를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 비트스트림의 구조를 도시한다.
도 3a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 3b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 3c는 일 실시예에 따른 전처리부의 구성을 도시하는 블록도이다.
도 3d는 일 실시예에 따른 채널 레이아웃 생성 규칙에 따른 다운믹스 경로를 도시한다.
도 3e는 일 실시예에 따른 다운믹스 메커니즘을 도시한다.
도 4a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 4b는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 4c는 일 실시예에 따른 가중치 인덱스(wIdx)와 제5 다운믹스 파라미터(w)의 관계의 일 예시이다.
도 5는 일 실시예에 따른 오디오 처리 방법의 순서도이다.
도 6은 일 실시예에 따른 오디오 처리 방법의 순서도이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
본 개시에서 일 구성요소가 다른 구성요소와 "연결된다"거나 "접속된다" 등으로 언급된 때에는 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 한다.
본 개시에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
본 개시에서, '다채널 오디오 신호'는 n채널(n은 2보다 큰 정수)의 오디오 신호를 의미할 수 있다. '모노 채널 오디오 신호'는 1차원 오디오 신호일 수 있고, '스테레오 채널 오디오 신호'는 2차원 오디오 신호일 수 있고, '다채널 오디오 신호'는 3차원 오디오 신호일 수 있다.
본 개시에서, '채널 레이아웃(Channel Layout, CL)'은 적어도 하나의 채널의 조합을 나타낼 수 있고, 채널들의 공간적인 배치를 특정할 수 있다. 여기서의 채널은 실제로 오디오 신호가 출력되는 채널이므로 표시 채널(presentation channel)이라 할 수 있다.
예를 들어, 채널 레이아웃은 X.Y.Z 채널 레이아웃일 수 있다. 여기서 X는 서라운드 채널의 개수, Y는 서브우퍼 채널의 개수, 그리고 Z는 높이 채널(또는 탑(top) 채널)의 개수일 수 있다. '채널 레이아웃'에 의하여 서라운드 채널/서브우퍼 채널/높이 채널 각각의 공간적인 위치가 특정될 수 있다.
'채널 레이아웃'의 예로, 1.0.0 채널(모노 채널) 레이아웃, 2.0.0 채널(스테레오 채널) 레이아웃, 5.1.0 채널 레이아웃, 5.1.2 채널 레이아웃, 5.1.4 채널 레이아웃, 7.1.0 채널 레이아웃, 7.1.2 채널 레이아웃, 7.1.4 채널 레이아웃, 3.1.2 채널 레이아웃이 있으나, 이에 제한되지 않고, 다양한 채널 레이아웃이 있을 수 있다.
각 채널들의 공간적인 위치를 기초로, 다음과 같이 '채널 레이아웃'의 채널들이 명명될 수 있다.
예를 들어, 1.0.0 채널 레이아웃의 제1 서라운드 채널은 모노 채널(mono channel)로 명명될 수 있다. 2.0.0 채널 레이아웃의 제1 서라운드 채널은 L2 채널로 명명될 수 있고, 제2 서라운드 채널은 R2 채널로 명명될 수 있다.
여기서 "L"은 청자 기준으로 왼쪽에 위치하는 채널임을 나타내고, "R"은 청자 기준으로 오른쪽에 위치하는 채널임을 나타낸다. "2"는 서라운드 채널이 총 2개의 채널인 경우의 서라운드 채널임을 나타낸다.
5.1.0 채널 레이아웃의 제1 서라운드 채널은 L5 채널, 제2 서라운드 채널은 R5 채널, 제3 서라운드 채널은 C 채널, 제4 서라운드 채널은 Ls5 채널, 제5 서라운드 채널은 Rs5 채널로 명명될 수 있다. 여기서 "C"는 청자 기준으로 중심(center)에 위치하는 채널임을 나타낸다. "s"는 측방에 위치하는 채널임을 의미한다.
5.1.0 채널 레이아웃의 제1 서브우퍼 채널은 LFE 채널로 명명될 수 있다. 여기서 LFE는 저주파 효과(low frequency effect)를 의미할 수 있다. 즉, LFE 채널은 저주파 효과음을 출력하기 위한 채널일 수 있다.
5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서라운드 채널과 5.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다.
마찬가지로, 5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서브우퍼 채널과 5.1.0 채널 레이아웃의 서브우퍼 채널의 명칭은 동일할 수 있다.
5.1.2 채널 레이아웃의 제1 높이 채널은 Hl5(또는 Ltf2) 채널, 제2 높이 채널은 Hr5(또는 Rtf2) 채널로 명명될 수 있다. 여기서 H는 높이 채널임을 나타낸다.
5.1.4 채널 레이아웃의 제1 높이 채널은 Hfl(또는 Ltf4) 채널, 제2 높이 채널은 Hfr(또는 Rtf4) 채널, 제3 높이 채널은 Hbl(또는 Ltb4) 채널, 제4 높이 채널은 Hbr(또는 Rtb4) 채널로 명명될 수 있다. 여기서 f는 청자 중심으로 전방 채널, b는 후방 채널임을 나타낸다.
7.1.0 채널 레이아웃의 제1 서라운드 채널은 L 채널, 제2 서라운드 채널은 R 채널, 제3 서라운드 채널은 C 채널, 제4 서라운드 채널은 Ls(또는 Lss) 채널, 제5 서라운드 채널은 Rs(또는 Rss) 채널, 제6 서라운드 채널은 Lb(또는 Lrs) 채널, 제7 서라운드 채널은 Rb(또는 Rrs) 채널로 명명될 수 있다.
7.1.0 채널 레이아웃의 제1 서브우퍼 채널은 LFE 채널로 명명될 수 있다.
7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서라운드 채널과 7.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다.
마찬가지로 7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서브우퍼 채널과 7.1.0 채널 레이아웃의 서브우퍼 채널의 명칭은 동일할 수 있다.
7.1.2 채널 레이아웃의 제1 높이 채널은 Hl7(또는 Ltf2) 채널, 제2 높이 채널은 Hr7(또는 Rtf2) 채널로 명명될 수 있다.
7.1.4 채널 레이아웃의 제1 높이 채널은 Hfl(또는 Ltf4) 채널, 제2 높이 채널은 Hfr(또는 Rtf4) 채널, 제3 높이 채널은 Hbl(또는 Ltb4) 채널, 제4 높이 채널은 Hbr(또는 Rtb4) 채널로 명명될 수 있다.
3.1.2 채널의 제1 서라운드 채널은 L3 채널, 제2 서라운드 채널은 R3 채널, 제3 서라운드 채널은 C 채널로 명명될 수 있다. 3.1.2 채널의 제1 서브우퍼 채널은 LFE 채널로 명명될 수 있다. 3.1.2 채널의 제1 높이 채널은 Hfl3(또는 Ltf3) 채널, 제2 높이 채널은 Hfr3(또는 Ltb3) 채널로 명명될 수 있다.
여기서, 일부 채널은 채널 레이아웃에 따라 달리 명명되나 동일한 채널을 나타낼 수 있다. 예를 들어, Hl5 채널과 Hl7 채널은 동일한 채널일 수 있다. 마찬가지로, Hr5 채널과 Hr7 채널은 동일한 채널일 수 있다.
전술한 레이아웃에 대한 채널 레이아웃의 채널들의 명칭을 정리하면 하기 표 1과 같다.
채널 레이아웃 채널들의 명칭
1.0.0 Mono
2.0.0 L2/R2
5.1.0 L5/C/R5/Ls5/Rs5/LFE
5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE
5.1.4 L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE
7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE
7.1.2 L/C/R/Ls/Rs/Lb/Rb/Hl7/Hr7/LFE
7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE
3.1.2 L3/C/R3/Hfl3/Hfr3/LFE
본 개시에서, '3차원 오디오 신호'는 3차원 공간에서의 사운드의 분포와 음원들의 위치를 알아낼 수 있는 오디오 신호를 의미할 수 있다. 본 개시에서, '청자 전방 3차원 오디오 채널'은 청자의 전방에 배치되는 오디오 채널의 레이아웃에 기초한 3차원 오디오 채널을 의미할 수 있다. '청자 전방 3차원 오디오 채널'은 '프론트 3D(Front 3D) 오디오 채널'로 지칭될 수도 있다. 특히, '청자 전방 3차원 오디오 채널'은 청자 전방에 위치하는 화면을 중심으로 배치되는 오디오 채널의 레이아웃에 기초한 3차원 오디오 채널이기 때문에 '화면 중심(screen centered) 3차원 오디오 채널'이라고 지칭될 수 있다.본 개시에서, '청자 전방향(Omni-direction) 3차원 오디오 채널'은 청자 중심으로 전방향으로 배치되는 오디오 채널의 레이아웃에 기초한 3차원 오디오 채널을 의미할 수 있다. '청자 전방향 3차원 오디오 채널'은 '풀 3D(Full 3D) 오디오 채널'로 지칭될 수도 있다. 여기서 전방향은 전방, 측방 및 후방을 모두 포함하는 방향을 의미할 수 있다. 특히, '청자 전방향 3차원 오디오 채널'은 청자를 중심으로 전방향으로 배치되는 오디오 채널의 레이아웃에 기초한 3차원 오디오 채널이기 때문에 '청자 중심(listener centered) 3차원 오디오 채널'이라고 지칭될 수 있다.
본 개시에서, '채널 그룹(Channel Group, CG)'은 일종의 데이터 단위로, 적어도 하나의 채널의 (압축) 오디오 신호를 포함할 수 있다. 구체적으로, 다른 채널 그룹과 독립적인 기본 채널 그룹(Base Channel Group, BCG)과, 적어도 하나의 채널 그룹에 종속하는 종속 채널 그룹(Dependent Channel Group, DCG) 중 적어도 하나를 포함할 수 있다. 이때, 종속 채널 그룹이 종속하는 대상 채널 그룹은 다른 종속 채널 그룹일 수 있고, 특히, 하위의 채널 레이아웃과 관련된 종속 채널 그룹일 수 있다. 또는, 종속 채널 그룹이 종속하는 채널 그룹은 기본 채널 그룹일 수 있다. '채널 그룹'은 일종의 채널 그룹의 데이터를 포함하므로, '데이터 그룹(Coding Group)'으로 칭할 수 있다. 종속 채널 그룹은 기본 채널 그룹에 포함된 채널로부터, 채널의 개수를 추가적으로 확장하기 위해 이용되는 그룹으로, 확장 채널 그룹(Scalable Channel Group 또는 Extended Channel Group)로 칭할 수 있다.
'기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호를 포함할 수 있다. 이에 제한되지 않고, '기본 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호를 포함할 수도 있다.
예를 들어, '종속 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호 중 '기본 채널 그룹'의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 포함할 수 있다. 이때, 상기 나머지 채널의 오디오 신호의 일부는 적어도 하나의 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹싱 채널의 오디오 신호)일 수 있다.
예를 들어, '기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호일 수 있다. '기본 채널 그룹' 및 '종속 채널 그룹'의 오디오 신호를 기초로 복원되는 '다채널 오디오 신호'는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호일 수 있다.
본 개시에서, '업믹싱(up-mixing)'은 디믹싱(de-mixing)을 통하여, 입력된 오디오 신호의 표시 채널의 개수에 비해, 출력되는 오디오 신호의 표시 채널의 개수가 늘어나게 되는 동작을 의미할 수 있다.
본 개시에서, '디믹싱(de-mixing)'은 다양한 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹스 채널(mixed channel)의 오디오 신호)로부터, 특정 채널의 오디오 신호를 분리하는 동작으로, 믹싱 동작 중 하나를 의미할 수 있다. 이때, '디믹싱'은 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')을 이용한 연산으로 구현될 수 있고, '디믹싱 행렬'은 디믹싱 행렬(또는 이에 대응되는 '다운믹싱 행렬')의 계수로서 적어도 하나의 '디믹스 파라미터'(또는 이에 대응되는 '다운믹스 파라미터')를 포함할 수 있다. 또는, '디믹싱'은 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다. 전술한 바와 같이, '디믹싱'은 '업믹싱'과 관련될 수 있다.
'믹싱'은 복수의 채널의 오디오 신호 각각에 각각의 대응 가중치를 곱하여 획득된 각각의 값들을 합하여(즉, 복수의 채널의 오디오 신호를 섞어) 새로운 채널(즉, 믹스 채널)의 오디오 신호를 생성하는 모든 동작을 의미한다.
'믹싱'은 오디오 부호화 장치에서 수행되는 좁은 의미의 '믹싱'과, 오디오 복호화 장치에서 수행되는 '디믹싱'으로 구분될 수 있다.
오디오 부호화 장치에서 수행되는 '믹싱'은 '(다운)믹싱 매트릭스'를 이용한 연산으로 구현될 수 있고, '(다운)믹싱 매트릭스'는 (다운)믹싱 매트릭스의 계수로서 적어도 하나의 '(다운)믹스 파라미터'를 포함할 수 있다. 또는, '(다운)믹싱'은 '(다운)믹싱 매트릭스'의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다.
본 개시에서, '업믹스(up-mix) 채널 그룹'은 적어도 하나의 업믹스 채널을 포함하는 그룹을 의미하고, '업믹스(up-mixed) 채널'은 부/복호화된 채널의 오디오 신호에 대한 디믹싱을 통해 분리된 디믹스 채널(de-mixed channel)을 의미할 수 있다. 좁은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'만을 포함할 수 있다. 하지만, 넓은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'뿐 아니라, '부/복호화된 채널'을 더 포함할 수 있다. 여기서, '부/복호화된 채널'이란, 부호화(압축)되어 비트스트림에 포함된 오디오 신호의 독립 채널 또는 비트스트림으로부터 복호화되어 획득된 오디오 신호의 독립 채널을 의미한다. 이때, 부/복호화된 채널의 오디오 신호를 획득하기 위해 별도의 (디)믹싱 동작은 필요하지 않다.
넓은 의미의 '업믹스(up-mix) 채널 그룹'의 오디오 신호는 다채널 오디오 신호일 수 있고, 출력 다채널 오디오 신호는 스피커와 같은 장치로 출력되는 오디오 신호로, 적어도 하나의 다채널 오디오 신호(즉, 적어도 하나의 업믹스 채널 그룹의 오디오 신호) 중 하나일 수 있다.
본 개시에서, '다운 믹싱(down-mixing)'은 믹싱(mixing)을 통하여, 입력된 오디오 신호의 표시 채널의 개수에 비해, 출력되는 오디오 신호의 표시 채널의 개수가 줄어들게 되는 동작을 의미할 수 있다.
도 1a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들의 압축 오디오 신호를 비트스트림으로부터 수신하였다. 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 독립 채널들의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 이때, 특정 채널 레이아웃의 오디오 신호만이 복원될 수 있었다.
또는, 종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들(제1 독립 채널 그룹)의 압축 오디오 신호를 비트스트림으로부터 수신하였다.
예를 들어, 특정 채널 레이아웃은 5.1 채널 레이아웃일 수 있고, 이때, 제1 독립 채널 그룹의 압축 오디오 신호는 5개의 서라운드 채널 및 1개의 서브우퍼 채널의 압축 오디오 신호일 수 있다.
여기서, 채널의 개수의 증가를 위해, 종래의 3차원 오디오 복호화 장치는, 추가적으로 제1 독립 채널 그룹과 독립적인 다른 채널들(제2 독립 채널 그룹)의 압축 오디오 신호를 수신하였다. 예를 들어, 제2 독립 채널 그룹의 압축 오디오 신호는 2개의 높이 채널의 압축 오디오 신호일 수 있다.
즉, 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 제1 독립 채널 그룹의 압축 오디오 신호와 별개로, 비트스트림으로부터 수신한 제2 독립 채널 그룹의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 따라서, 채널의 개수가 증가된 오디오 신호가 복원되었다. 여기서, 청자 전방향의 3차원 오디오 채널의 오디오 신호는 5.1.2 채널의 오디오 신호일 수 있다.
반면에, 스테레오 채널의 오디오 신호의 재생만을 지원하는 레거시 오디오 복호화 장치는 상기 비트스트림에 포함된 압축 오디오 신호를 제대로 처리하지 못하였다.
또한, 3차원 오디오 신호의 재생을 지원하는 종래의 3차원 오디오 복호화 장치도, 스테레오 채널의 오디오 신호를 재생하기 위해, 먼저 제1 독립 채널 그룹 및 제2 독립 채널 그룹의 압축 오디오 신호를 압축 해제(복호화)하였다. 그러고 나서, 종래의 3차원 오디오 복호화 장치는, 압축해제 하여 생성된 오디오 신호를 업믹싱을 수행하였다. 하지만, 스테레오 채널의 오디오 신호를 재생하기 위해 업믹싱과 같은 동작이 반드시 수행되어야 하는 번거로움이 있었다.
따라서, 레거시 오디오 복호화 장치에서 압축 오디오 신호를 처리할 수 있는 스케일러블 채널 레이아웃 구조가 요구된다. 게다가, 일 실시예에 따른 3차원 오디오 신호의 재생을 지원하는 오디오 복호화 장치(400)에서, 재생 지원되는 3차원 오디오 채널 레이아웃에 따라, 압축 오디오 신호를 처리할 수 있는, 스케일러블 채널 레이아웃 구조가 요구된다. 여기서, 스케일러블 채널 레이아웃 구조는 기본 채널 레이아웃으로부터 자유롭게 채널 개수의 증가가 가능한 레이아웃 구조를 의미한다.
일 실시예에 따른 오디오 복호화 장치(400)는 비트스트림으로부터 스케일러블 채널 레이아웃 구조의 오디오 신호를 복원할 수 있다. 일 실시예에 따른 스케일러블 채널 레이아웃 구조에 따르면, 스테레오 채널 레이아웃(100)으로부터 청자 전방의 3차원 오디오 채널 레이아웃(110)으로 채널 개수의 증가가 가능하다. 더 나아가, 스케일러블 채널 레이아웃 구조에 따르면, 청자 전방의 3차원 오디오 채널 레이아웃(110)으로부터 청자 전방향의 3차원 오디오 채널 레이아웃(120)으로, 채널 개수의 증가가 가능하다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(110)은 3.1.2 채널 레이아웃일 수 있다. 청자 전방향의 3차원 오디오 채널 레이아웃(120)은 5.1.2 또는 7.1.2 채널 레이아웃일 수 있다. 하지만 본 개시에서 구현 가능한 스케일러블 채널 레이아웃은 이에 한정되지는 않는다.
기본 채널 그룹으로서, 종래 스테레오 채널의 오디오 신호가 압축될 수 있다. 레거시 오디오 복호화 장치는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 압축 해제할 수 있기 때문에, 종래 스테레오 채널의 오디오 신호를 원활하게 재생할 수 있다.
추가적으로, 종속 채널 그룹으로서, 다채널 오디오 신호 중 종래 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가 압축될 수 있다.
다만, 채널의 개수를 증가시키는 과정에서, 채널 그룹의 오디오 신호의 일부는, 특정 채널 레이아웃의 오디오 신호 중 일부 독립 채널의 신호가 믹싱된 오디오 신호일 수 있다.
따라서, 오디오 복호화 장치(400)에서 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부가 디믹싱되어, 특정 채널 레이아웃에 포함된 업믹스 채널의 오디오 신호가 생성될 수 있다.
한편, 하나 이상의 종속 채널 그룹이 존재할 수 있다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(110)의 오디오 신호 중 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제1 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호 중 기본 채널 그룹과 제1 종속 채널 그룹으로부터 복원된 채널들의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제2 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
일 실시예에 따른 오디오 복호화 장치(400)는, 청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호에 대한 재생을 지원할 수 있다.
따라서, 일 실시예에 따른 오디오 복호화 장치(400)는 기본 채널 그룹의 오디오 신호, 제1 종속 채널 그룹 및 제2 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방향의 3차원 오디오 채널 레이아웃(120)의 오디오 신호를 복원할 수 있다.
레거시 오디오 신호 처리 장치는 비트스트림으로부터 복원하지 못하는 종속 채널 그룹의 압축 오디오 신호를 무시하고, 비트스트림으로부터 복원된 스테레오 채널의 오디오 신호만을 재생할 수 있다.
마찬가지로, 오디오 복호화 장치(400)는 기본 채널 그룹 및 종속 채널 그룹의 압축 오디오 신호를 처리하여, 스케일러블 채널 레이아웃 중에서 지원가능한 채널 레이아웃의 오디오 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 비트스트림으로부터, 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 복원하지 못한다. 따라서, 오디오 복호화 장치(400)에서 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 무시하고, 지원가능한 채널 레이아웃의 오디오 신호만을 비트스트림으로부터 복원할 수 있다.
특히, 종래의 오디오 부호화 장치 및 오디오 복호화 장치는 특정 채널 레이아웃의 독립적인 채널의 오디오 신호만을 압축 및 압축 해제하였다. 따라서, 제한적인 채널 레이아웃의 오디오 신호의 압축과 압축 해제만이 가능하였다.
하지만, 스케일러블 채널 레이아웃을 지원하는 장치인 일 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(300, 400)에 의하면, 스테레오 채널의 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 또한, 일 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(300, 400)에 의하면, 청자 전방의 3차원 채널 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 나아가, 일 실시예의 오디오 부호화 장치 및 오디오 복호화 장치(300, 400)에 의하면, 청자 전방향의 3차원 채널 레이아웃의 오디오 신호를 전송 및 복원이 가능할 수 있다.
즉, 일 실시예에 따른 오디오 부호화 장치 및 오디오 복호화 장치(300, 400)는 스테레오 채널의 레이아웃에 따른 오디오 신호를 전송 및 복원할 수 있다. 뿐만 아니라, 일 실시예에 따른 오디오 부호화/복호화 장치(300, 400)는 현재 채널 레이아웃의 오디오 신호들을 다른 채널 레이아웃의 오디오 신호들로 자유로이 변환할 수 있다. 서로 다른 채널 레이아웃에 포함된 채널들의 오디오 신호 간의 믹싱/디믹싱을 통하여 채널 레이아웃들 간의 변환이 가능하다.
일 실시예에 따른 오디오 부호화/복호화 장치(300, 400)는 다양한 채널 레이아웃들 간의 변환을 지원하므로, 다양한 3차원 채널 레이아웃들의 오디오 신호를 전송 및 재생할 수 있다. 즉, 청자 전방의 채널 레이아웃과 청자 전방향의 채널 레이아웃 사이, 또는, 스테레오 채널 레이아웃과 청자 전방의 채널 레이아웃 사이에는, 채널의 독립성이 보장되지는 않지만, 오디오 신호의 믹싱/디믹싱을 통하여 자유로이 변환이 가능하다.
일 실시예에 따른 오디오 부호화/복호화 장치(300, 400)는, 청자 전방의 채널 레이아웃의 오디오 신호의 처리를 지원하므로, 화면 중심으로 배치된 스피커에 대응되는 오디오 신호를 전송 및 복원함으로써 청자의 몰입감이 증대될 수 있다.
일 실시예에 따른 오디오 부호화/복호화 장치(300, 400)의 구체적인 동작은 도 3a 내지 도 4c를 참고하여 후술하기로 한다.
도 1b는 구체적인 스케일러블 오디오 채널 레이아웃 구조의 일 예를 설명하기 위한 도면이다.
도 1b를 참조하면, 스테레오 채널 레이아웃(160)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(300)는 L2/R2 신호를 압축하여 기본 채널 그룹의 압축 오디오 신호(A/B 신호)를 생성할 수 있다.
이때, 오디오 부호화 장치(300)는 L2/R2 신호를 압축하여 기본 채널 그룹의 오디오 신호를 생성할 수 있다.
또한, 청자 전방 3차원 오디오 채널 중 하나인 3.1.2 채널의 레이아웃(170)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(300)는 C, LFE, Hfl3, Hfr3 신호를 압축하여 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다. 오디오 복호화 장치(400)는 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있다. 또한, 오디오 복호화 장치(400)는 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다.
오디오 복호화 장치(400)는 L2 신호 및 C 신호를 디믹싱(1)하여 3.1.2 채널 레이아웃(170)의 L3 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 R2 신호 및 C 신호를 디믹싱(2)하여 3.1.2 채널의 R3 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(400)는 L3, R3, C, Lfe, Hfl3, Hfr3 신호를, 3.1.2 채널 레이아웃(170)의 오디오 신호로 출력할 수 있다.
한편, 청자 전방향 5.1.2 채널 레이아웃(180)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(300)는 L5, R5 신호를 추가적으로 압축하여, 제2 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(400)는 기본 채널 그룹의 압축된 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있고, 제1 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다. 추가적으로, 오디오 복호화 장치(400)는 제2 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여 L5, R5 신호를 복원할 수 있다. 또한, 전술한 바와 같이, 오디오 복호화 장치(400)는 압축 해제된 오디오 신호 중 일부의 신호를 디믹싱하여, L3 및 R3 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(400)는 L3 및 L5 신호를 디믹싱(3)하여 Ls5 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 R3 및 R5 신호를 디믹싱(4)하여 Rs5 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 Hfl3 신호 및 Ls5 신호를 디믹싱(5)하여 Hl5 신호를 복원할 수 있다.
오디오 복호화 장치(400)는 Hfr3 신호 및 Rs5 신호를 디믹싱(6)하여 Hr5 신호를 복원할 수 있다. Hfr3 및 Hr5는 각각 높이 채널 중 전방의 오른쪽 채널이다.
결국, 오디오 복호화 장치(400)는 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 5.1.2 채널 레이아웃(180)의 오디오 신호로 출력할 수 있다.
한편, 7.1.4 채널 레이아웃(190)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(300)는 Hfl, Hfr, Ls, Rs 신호를 제3 종속 채널 그룹의 오디오 신호로서 추가적으로 압축할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(400)는 기본 채널 그룹의 압축 오디오 신호, 제1 종속 채널 그룹의 압축 오디오 신호 및 제2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하고, 디믹싱 (1), (2), (3), (4), (5) 및 (6)을 통해 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(400)는 제3 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 Hfl, Hfr, Ls, Rs 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 Ls5 신호 및 Ls 신호를 디믹싱(7)하여 7.1.4 채널 레이아웃(190)의 Lb 신호를 복원할 수 있다.
오디오 복호화 장치(400)는 Rs5 신호 및 Rs 신호를 디믹싱(8)하여 7.1.4 채널 레이아웃(190)의 Rb 신호를 복원할 수 있다. 오디오 복호화 장치(400)는 Hfl 신호 및 Hl5 신호를 디믹싱(9)하여 7.1.4 채널 레이아웃(190)의 Hbl 신호를 복원할 수 있다.
오디오 복호화 장치(400)는 Hfr 신호 및 Hr5 신호를 디믹싱(또는 믹싱)(10)하여 7.1.4 채널 레이아웃(190)의 Hbr 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(400)는 Hfl, Hfr, LFE, C, L, R, Ls, Rs, Lb, Rb, Hbl, Hbr 신호를 7.1.4 채널 레이아웃(190)의 오디오 신호로 출력할 수 있다.
따라서, 오디오 복호화 장치(400)는 디믹싱 동작을 통해 채널의 개수가 증가되는 스케일러블 채널 레이아웃을 지원함으로써, 종래 스테레오 채널 레이아웃의 오디오 신호뿐 아니라, 청자 전방의 3차원 오디오 채널의 오디오 신호 및 청자 전방향 3차원 오디오 채널의 오디오 신호까지 복원할 수 있다.
이상, 도 1b를 참조하여 구체적으로 설명한 스케일러블 채널 레이아웃 구조는 일 예에 불과하고, 다양한 채널 레이아웃을 포함하는 형태로, 채널 레이아웃 구조가 스케일러블하게 구현될 수 있다.
도 2는 일 실시예에 따른 비트스트림의 구조를 도시한다.
일 실시예에 따른 비트스트림은 OBU(open bitstream unit) 패킷의 형태로 구성될 수 있다.
일 실시예에 따른 비트스트림은 OBU, 논타임드 메타데이터(non-timed metadata) 및 템포럴 유닛(temporal unit)을 포함할 수 있다.
OBU는, OBU의 타입을 식별할 수 있는, 1 또는 2 바이트의 헤더로 구성될 수 있으며, 비트스트림에 포함된 각 데이터의 앞에 위치하여 해당 데이터의 시작을 알릴 수 있다. OBU는 타입에 따라 코덱 정보(220), 정적 메타데이터(230), 디믹싱 정보(240), 채널 그룹 정보(250) 및 서브스트림(260) 등의 데이터를 전달할 수 있다.
예를 들어, 제1 OBU(211)는 스트림 인디케이터(stream indicator)로서 비트스트림의 제일 앞부분에 위치하여 비트스트림의 시작을 나타낼 수 있다. 제2 OBU(212)는 페이로드(payload)를 갖는 OBU로서 코덱 정보(220)의 앞부분에 위치할 수 있다. 제3 OBU(213)는 페이로드를 갖는 OBU로서 정적 메타데이터(230)의 앞부분에 위치할 수 있다. 제4 OBU(214)는 템포럴 딜리미터(temporal delimitor)로서 템포럴 유닛의 제일 앞부분에 위치하여 템포럴 유닛의 시작을 나타낼 수 있다. 제5 OBU(215)는 페이로드를 갖는 OBU로서 디믹싱 정보(240)의 앞부분에 위치할 수 있다. 제6 OBU(216)는 페이로드를 갖는 OBU로서 채널 그룹 정보(250)의 앞부분에 위치할 수 있다. 제7 OBU(217)는 페이로드를 갖는 OBU로서 서브스트림(260)의 앞부분에 위치할 수 있다.
논타임드 메타데이터는 시간에 따라 변화하지 않는 메타데이터로서 코덱 정보(220) 및 정적 메타데이터(230)를 포함할 수 있다.
코덱 정보(220)는 비트스트림을 압축하는데 사용된 코덱에 관한 정보로서, 예를 들어, 코덱 아이디(Codec_ID)(예: mp4a), 오브젝트 타입(object type)(예: AAC-LC), 스트림 타입(stream type)(예: 비디오 또는 오디오), 채널 구성(예: 2채널) 등에 관한 정보를 포함할 수 있다.
정적 메타데이터(230)는 비트스트림에 포함된 오디오 데이터의 구성에 관한 정보를 포함할 수 있으며, 예를 들어, 오디오 데이터의 채널 레이아웃에 관한 정보를 포함할 수 있다.
템포럴 유닛은 오디오의 프레임에 대응하는 것으로서, 디믹싱 정보(240), 채널 그룹 정보(250) 및 적어도 하나의 서브스트림(260)을 포함할 수 있다.
디믹싱 정보(240)는 오디오 복호화 장치(400)가 서브스트림(260)을 복호화하기 위해 필요한 정보를 포함할 수 있다. 예를 들어, 디믹싱 정보(240)는 다운믹스 파라미터 정보(α, β, γ, δ, w)를 포함할 수 있다.
채널 그룹 정보(250)는 채널 그룹 생성 규칙에 따라 생성된 채널 그룹에 관한 정보를 포함할 수 있다.
디믹싱 정보(240)와 채널 그룹 정보(250)는 압축된 오디오 신호인 스브스트림(260)의 메타데이터이며, 시간에 따라 또는 프레임에 따라 변화하므로 타임드 메타데이터(timed metadata)라고 지칭될 수 있다.
서브스트림(260)은 오디오 부호화 장치(300)에 의해 압축된 오디오 신호이다. 후술하는 바와 같이, 오디오 부호화 장치(300)는 원본 오디오 신호를 다운믹싱하여 생성된 채널 그룹의 오디오 신호를 압축하여 서브스트림(260)을 생성할 수 있고, 오디오 복호화 장치(400)는 서브스트림(260)의 압축을 해제하여 채널 그룹의 오디오 신호를 복원한 후 디믹싱을 통해 다채널 오디오 신호를 출력할 수 있다.
도 3a는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
오디오 부호화 장치(300)는 메모리(310) 및 프로세서(330)를 포함한다. 오디오 부호화 장치(300)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 3a에는 메모리(310) 및 프로세서(330)가 개별적으로 도시되어 있으나, 메모리(310) 및 프로세서(330)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(330)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(330)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(330)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(310)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(310)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(310)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 부호화 장치(300)는 외부 장치에 신경망에 의한 처리를 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(330)는 메모리(310)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 부호화(압축) 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(330)는 원본 오디오 신호를 입력으로 하여, 오디오 처리 동작을 수행하여 압축 오디오 신호(서브스트림)를 포함하는 비트스트림을 출력할 수 있다. 이때, 원본 오디오 신호는 다채널 오디오 신호일 수 있다. 압축 오디오 신호는 원본 오디오 신호의 채널의 개수보다 작거나 같은 개수의 채널을 갖는 다채널 오디오 신호일 수 있다.
이때, 비트스트림은 기본 채널 그룹을 포함하고, 나아가, n개의 종속 채널 그룹(n은 1보다 크거나 같은 정수)을 포함할 수 있다. 따라서, 종속 채널 그룹의 개수에 따라, 채널의 개수를 자유롭게 증가시킬 수 있다.
도 3b는 일 실시예에 따른 오디오 부호화 장치의 구성을 도시하는 블록도이다.
도 3b를 참조하면, 오디오 부호화 장치(300)는 전처리부(350), 압축부(370) 및 OBU 패킷화부(390)를 포함할 수 있다. 전처리부(350)는 다운믹스 파라미터 생성부(351), 다운믹싱부(353), 채널 그룹 생성부(355) 및 부가정보 생성부(357)를 포함할 수 있다.
도 3a를 다시 참조하면, 전술한 바와 같이, 오디오 부호화 장치(300)는 메모리(310) 및 프로세서(330)를 포함할 수 있고, 도 3b의 각 구성요소(350, 351, 353, 355, 357, 370, 390)를 구현하기 위한 인스트럭션은 도 3a의 메모리(310)에 저장될 수 있다.
프로세서(330)는 메모리(310)에 저장된 인스트럭션을 실행할 수 있다.
전처리부(350)는 원본 오디오 신호 및 사용자 입력을 이용하여 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 생성할 수 있다. 여기서, 원본 오디오 신호는 다채널 오디오 신호일 수 있고, 사용자 입력은 원본 오디오 신호로부터 변환하고자 하는 타겟 채널 레이아웃 리스트일 수 있다.
예를 들어, 원본 오디오 신호가 7.1.4 채널 레이아웃의 오디오 신호이고, 변환하고자 하는 채널 레이아웃이 2.0.0 채널, 3.1.2 채널, 5.1.2 채널 및 7.1.4 채널인 경우 전처리부(350)는 7.1.4 채널 레이아웃의 오디오 신호에서 제1 채널 그룹의 오디오 신호로서 2채널의 오디오 신호(L2, R2)를 생성할 수 있고, 제2 채널 그룹의 오디오 신호로서 4채널의 오디오 신호(C, LFE, Hfl3, Hfr3)를 생성할 수 있고, 제3 채널 그룹의 오디오 신호로서 2채널의 오디오 신호(L5, R5)를 생성할 수 있고, 제4 채널 그룹의 오디오 신호로서 4채널의 오디오 신호(Ls, Rs, Hfl, Hfr)를 생성할 수 있다. 여기서, 제1 채널 그룹은 기본 채널 그룹일 수 있고, 제2 채널 그룹, 제3 채널 그룹 및 제4 채널 그룹은 각각 제1 종속 채널 그룹, 제2 종속 채널 그룹 및 제3 종속 채널 그룹일 수 있다.
다운믹스 파라미터 생성부(351), 다운믹싱부(353) 및 채널 그룹 생성부(355)의 동작을 포함하여 전처리부(350)가 원본 오디오 신호로부터 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 생성하는 구체적인 과정은 도 3c 내지 도 3e를 참조하여 후술하기로 한다.
부가 정보 생성부(357)는 원본 오디오 신호를 기초로 부가 정보를 생성할 수 있다. 부가 정보는 다채널 오디오 신호와 관련된 정보로서, 다채널 오디오 신호의 복원을 위한 다양한 정보일 수 있다. 예를 들어, 부가 정보는 코덱 정보(220), 정적 메타데이터(230), 디믹싱 정보(240) 및 채널그룹 정보(250) 중 적어도 하나를 포함할 수 있다.
예를 들어, 부가 정보는 오디오 객체(음원)의 오디오 신호, 위치, 모양, 면적, 방향 중 적어도 하나를 나타내는 청자 전방의 3차원 오디오 채널의 오디오 객체 신호를 포함할 수 있다. 또는 부가 정보는 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림을 포함하는 오디오 스트림의 총 개수에 관한 정보를 포함할 수 있다. 또한, 부가 정보는 다운믹스 이득 정보를 포함할 수 있다. 부가 정보는 채널 맵핑 테이블 정보를 포함할 수 있다. 부가 정보는 음량 정보를 포함할 수 있다. 부가 정보는 저주파 효과 이득(Low Frequency Effect Gain, LFE Gain) 정보를 포함할 수 있다. 부가 정보는 동적 범위 제어(Dynamic Range Control, DRC) 정보를 포함할 수 있다. 부가 정보는 채널 레이아웃 렌더링 정보를 포함할 수 있다. 부가 정보는 그 외 커플링된 오디오 스트림의 개수 정보, 다채널의 레이아웃을 나타내는 정보, 오디오 신호 내 대화(Dialogue) 존재 여부 및 대화 레벨에 관한 정보, 저주파 효과(LFE) 출력 여부를 나타내는 정보, 화면 상 오디오 객체의 존재 여부에 관한 정보, 연속적인 오디오 채널의 오디오 신호(audio signal of continuous audio channel; 또는 씬 기반(scene based) 오디오 신호; 또는 앰비소닉 오디오 신호)의 존재 여부에 관한 정보, 비연속적인 오디오 채널의 오디오 신호(audio signal of discrete audio channel; 또는 객체 기반 오디오 신호; 또는 공간적인 멀티 채널(spatial multi-channel)의 오디오 신호)의 존재 여부에 관한 정보를 포함할 수 있다. 부가 정보는 다채널 오디오 신호를 복원하기 위한, 디믹싱 행렬의 적어도 하나의 디믹스 파라미터를 포함하는 디믹싱에 관한 정보를 포함할 수 있다. 디믹싱과 (다운)믹싱은 서로 대응되는 동작이므로, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보에 대응되고, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보를 포함할 수 있다. 예를 들어, 디믹싱에 관한 정보는 (다운)믹싱 행렬의 적어도 하나의 (다운)믹스 파라미터를 포함할 수 있다. (다운)믹스 파라미터를 기초로, 디믹스 파라미터가 획득될 수 있다.
부가 정보는 전술한 정보들의 다양한 조합일 수 있다. 즉, 부가 정보는 전술한 적어도 하나의 정보를 포함할 수 있다.
부가 정보 생성부(357)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는, 종속 채널의 오디오 신호가 존재하는 경우, 종속 채널의 오디오 신호가 존재함을 나타내는 종속 채널 오디오 신호 식별 정보를 생성할 수 있다.
압축부(370)는 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림을 생성할 수 있다. 여기서, 압축은 다양한 오디오 코덱에 기초한 압축을 의미할 수 있다. 예를 들어, 압축은 변환 및 양자화 프로세스를 포함할 수 있다.
OBU 패킷화부(390)는 적어도 하나의 채널 그룹의 적어도 하나의 서브스트림 및 부가 정보를 포함하는 비트스트림을 생성할 수 있다. 예를 들어, OBU 패킷화부(390)는 도 2의 비트스트림을 생성할 수 있다.
비트스트림을 생성하기 위하여, OBU 패킷화부(390)는 코덱 정보(220) 및 정적 메타데이터(230)를 포함하는 논타임드 메타데이터를 생성할 수 있다. 도 2에 도시된 바와 같이, OBU 패킷화부(390)는 제2 OBU(212)와 코덱 정보(220)를 패킷화하고, 제3 OBU(213)와 정적 메타데이터(230)를 패킷화할 수 있다.
다음으로, OBU 패킷화부(390)는 디믹싱 정보(240) 및 채널 그룹 정보(250)를 포함하는 타임드 메타데이터를 생성할 수 있다. 도 2에 도시된 바와 같이, OBU 패킷화부(390)는 제5 OBU(215)와 디믹싱 정보(240)를 패킷화하고, 제6 OBU(216)와 채널그룹 정보(250)를 패킷화할 수 있다.
다음으로, OBU 패킷화부(390)는 제7 OBU(217)와 적어도 하나의 서브스트림 각각을 패킷화할 수 있다.
OBU 패킷화부(390)가 타임드 메타데이터를 생성하는 동작과 서브스트림을 패킷화하는 동작은 각 템포럴 유닛(즉, 프레임)마다 수행될 수 있다.
OBU 패킷화부(390)는 기본 채널 그룹으로부터 채널의 개수를 자유롭게 증가시킬 수 있는 형태의 비트스트림을 생성할 수 있다.
즉, 기본 채널 오디오 스트림으로부터 기본 채널 그룹의 오디오 신호가 복원될 수 있고, 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림으로부터, 기본 채널 그룹으로부터 채널의 개수가 증가된 다채널 오디오 신호가 복원될 수 있다.
한편, OBU 패킷화부(390)는 복수의 오디오 트랙을 갖는 파일 스트림을 생성할 수 있다. OBU 패킷화부(390)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제1 오디오 트랙의 오디오 스트림을 생성할 수 있다. OBU 패킷화부(390)는 종속 채널 오디오 신호 식별 정보를 포함하는 제2 오디오 트랙의 오디오 스트림을 생성할 수 있다. 이때, 제2 오디오 트랙은 제1 오디오 트랙 이후의 오디오 트랙으로, 서로 인접할 수 있다.
OBU 패킷화부(390)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하는 경우, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
한편, OBU 패킷화부(390)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하지 않는 경우, 기본 채널 그룹의 제1 오디오 트랙의 오디오 신호의 다음 기본 채널 그룹의 오디오 신호를 포함하는 제2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
도 3c는 일 실시예에 따른 전처리부의 구성을 도시하는 블록도이다.
도 3c를 참조하면, 전처리부(350)는 다운믹스 파라미터 생성부(351), 다운믹싱부(353) 및 채널 그룹 생성부(355)를 포함할 수 있다. 다운믹스 파라미터 생성부(351)는 오디오 씬 분류부(352) 및 높이 에너지 양자화부(354)를 포함할 수 있다.
다운믹스 파라미터 생성부(351)는 원본 오디오 신호를 이용하여 다운믹스 파라미터(α, β, γ, δ, w)를 생성할 수 있다. 구체적으로, 오디오 씬(audio scene) 분류부(352)는 원본 오디오 신호를 이용하여 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성할 수 있고, 높이 에너지 양자화부(354)는 원본 오디오 신호를 이용하여 제5 다운믹스 파라미터(w)를 생성할 수 있다. 제1 다운믹스 파라미터(α) 및 제2 다운믹스 파라미터(β)는 서라운드 채널의 개수를 7채널에서 5채널로 다운믹싱할 때 이용되는 파라미터일 수 있다. 제3 다운믹스 파라미터(γ)는 높이 채널의 개수를 4채널에서 2채널로 다운믹싱할 때 이용되는 파라미터일 수 있다. 제4 다운믹스 파라미터(δ)는 서라운드 채널의 개수를 5채널에서 3채널로 다운믹싱할 때 이용되는 파라미터일 수 있다. 제5 다운믹스 파라미터(w)는 서라운드 채널에서 높이 채널로의 믹싱을 위한 가중치일 수 있다.
오디오 씬 분류부(352)는 원본 오디오 신호에 대한 오디오 씬 타입을 식별하고, 식별한 오디오 씬 타입에 기초하여 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성할 수 있다. 예를 들어, 오디오 씬 분류부(352)는 식별한 오디오 씬 타입에 대응하는 다운믹싱 프로파일에 따라 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성할 수 있다. 특정 오디오 씬 타입에 대응하는 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)는 미리 결정될 수 있다. 한편, 오디오 씬 타입은 프레임마다 식별될 수 있다.
오디오 씬 분류부(352)는 원본 오디오 신호를 다운샘플링하고, 다운샘플링된 원본 오디오 신호를 기초로, 오디오 씬 타입을 식별할 수 있다.
오디오 씬 분류부(352)는 원본 오디오 신호로부터 센터 채널(center channel)의 오디오 신호를 획득할 수 있다. 오디오 씬 분류부(352)는 획득된 센터 채널의 오디오 신호로부터 대화 타입(Dialog type)을 식별할 수 있다. 이때, 오디오 씬 분류부(352)는 대화 타입을 식별하기 위한 제1 뉴럴 네트워크를 이용하여 대화 타입을 식별할 수 있다. 구체적으로, 오디오 씬 분류부(352)는 제1 뉴럴 네트워크를 이용하여 식별된 대화 타입의 확률값이 제1 대화 타입에 대한 소정의 제1 확률값보다 큰 경우, 제1 대화 타입을 대화 타입으로 식별할 수 있다.
오디오 씬 분류부(352)는 제1 뉴럴 네트워크를 이용하여 식별된 대화 타입의 확률값이 제1 대화 타입에 대한 소정의 제1 확률값보다 작거나 같은 경우, 대화 타입으로 디폴트 타입을 식별할 수 있다.
오디오 씬 분류부(352)는 원본 오디오 신호로부터 프론트 채널(front channel)의 오디오 신호 및 사이드 채널(side channel)의 오디오 신호를 기초로, 효과음 타입을 식별할 수 있다.
오디오 씬 분류부(352)는 효과음 타입을 식별하기 위한 제2 뉴럴 네트워크를 이용하여 효과음 타입을 식별할 수 있다. 구체적으로, 오디오씬 분류부(352)는 제2 뉴럴 네트워크를 이용하여 식별된 효과음 타입의 확률 값이 제1 효과음 타입에 대한 소정의 제2 확률값보다 큰 경우, 효과음 타입을 제1 효과음 타입으로 식별할 수 있다.
오디오 씬 분류부(352)는 제2 뉴럴 네트워크를 이용하여 식별된 효과음 타입의 확률 값이 제1 효과음 타입에 대한 소정의 제2 확률값보다 작거나 같은 경우, 효과음 타입을 디폴트 타입으로 식별할 수 있다.
오디오 씬 분류부(352)는 식별된 대화 타입 및 식별된 효과음 타입 중 적어도 하나를 기초로, 오디오 씬의 타입을 식별할 수 있다. 즉, 오디오 씬 분류부(352)는 복수의 오디오 씬의 타입 중 하나의 오디오 씬의 타입을 식별할 수 있다.
높이 에너지 양자화부(354)는 원본 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값을 식별하고, 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 상대적인 차이에 기초하여 제5 다운믹스 파라미터(w)를 생성할 수 있다. 예를 들어, 서라운드 채널의 에너지 값은 서라운드 채널에 대한 총 전력(total power)의 이동 평균(moving average) 값일 수 있다. 구체적으로, 서라운드 채널의 에너지 값은 롱텀 시간 윈도우(Long-term time window)에 기초한 RMSE(Root Mean Square Energy) 값일 수 있다. 예를 들어, 높이 채널의 에너지 값은 높이 채널에 대한 숏 타임 전력값(short time power value)일 수 있다. 구체적으로, 높이 채널의 에너지 값은 숏텀 시간 윈도우(Short-term time window)에 기초한 RMSE 값일 수 있다.
높이 에너지 양자화부(354)는 원본 오디오 신호로부터 높이 채널의 에너지 값과 서라운드 채널의 에너지 값을 식별하고, 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 가중치 인덱스 오프셋(wIdx_offset)을 식별할 수 있다.
높이 에너지 양자화부(354)는 높이 채널의 에너지 값이 소정의 제1 값보다 크거나, 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 비율이 소정의 제2 값보다 큰 경우, 가중치 인덱스 오프셋(wIdx_offset)을 제3 값으로 식별할 수 있다. 예를 들어, 제3 값은 -1일 수 있다.
높이 에너지 양자화부(354)는 높이 채널의 에너지 값이 소정의 제1 값보다 작거나 같고, 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 비율이 소정의 제2 값보다 작거나 같은 경우, 가중치 인덱스 오프셋(wIdx_offset)을 제4 값으로 식별할 수 있다. 예를 들어, 제4 값은 1일 수 있다.
한편, 디믹싱 정보(240)는 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
도 3d는 일 실시예에 따른 채널 레이아웃 생성 규칙에 따른 다운믹스 경로를 도시한다.
다운믹싱부(353)는 다운믹스 파라미터(α, β, γ, δ, w)를 이용하여 채널 레이아웃 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 원본 오디오 신호를 다운믹싱 할 수 있다.
채널 레이아웃 생성 규칙은 다음과 같을 수 있다.
제1 채널 레이아웃의 서라운드 채널의 개수가 Si, 서브 우퍼 채널의 개수가 Wi, 높이 채널의 개수가 Hi이고, 제2 채널 레이아웃의 서라운드 채널의 개수가 Si+1, 서브 우퍼 채널의 개수가 Wi+1, 높이 채널의 개수가 Hi+1일 때, Si는 Si+1보다 작거나 같을 수 있고, Wi는 Wi+1보다 작거나 같을 수 있고, Hi은 Hi+1보다 작거나 같을 수 있다. 여기서, Si Si+1과 동일하고, Wi Wi+1과 동일하고, Hi Hi+1과 동일한 경우는 제외될 수 있다.
즉, 제2 채널 레이아웃의 서라운드 채널의 개수는 제1 채널 레이아웃의 서라운드 채널의 개수보다 많아야 한다. 또는, 제2 채널 레이아웃의 서브우퍼 채널의 개수는 제1 채널 레이아웃의 서브우퍼 채널의 개수보다 많아야 한다. 또는, 제2 채널 레이아웃의 높이채널의 개수는 제1 채널 레이아웃의 높이채널의 개수보다 많아야 한다.
또한, 제2 채널 레이아웃의 서라운드 채널의 개수는 제1 채널 레이아웃의 서라운드 채널의 개수보다 작을 수 없다. 마찬가지로 제2 채널 레이아웃의 서브우퍼채널의 개수는 제1 채널 레이아웃의 서브우퍼채널의 개수보다 작을 수 없다. 제2 채널 레이아웃의 높이채널의 개수는 제1 채널 레이아웃의 높이채널의 개수보다 작을 수 없다.
또한, 제2 채널 레이아웃의 서라운드 채널의 개수가 제1 채널 레이아웃의 서라운드 채널의 개수와 동일하면서, 제2 채널 레이아웃의 서브우퍼 채널의 개수가 제1 채널 레이아웃의 서브우퍼 채널의 개수와 동일하고, 또한, 제2 채널 레이아웃의 높이 채널의 개수가 제1 채널 레이아웃의 높이 채널의 개수와 동일할 수 없다. 즉, 제2 채널 레이아웃의 모든 채널들이 제1 채널 레이아웃의 모든 채널과 동일할 수 없다.
도 3d를 참조하면, 전술한 채널 레이아웃 생성 규칙에 따라 다운믹스 경로가 결정될 수 있다. 즉, 7.1.4 채널은 5.1.4 채널 또는 7.1.2 채널로 다운믹싱 될 수 있다. 7.1.2 채널은 5.1.2 채널 또는 7.1.0 채널로 다운믹싱 될 수 있다. 7.1.0 채널은 5.1.0 채널로만 다운믹싱 될 수 있다. 5.1.4 채널은 5.1.2 채널로만 다운믹싱 될 수 있다. 5.1.2 채널은 3.1.2 채널 또는 5.1.0 채널로 다운믹싱 될 수 있다. 5.1.0 채널은 2.0.0 채널로만 다운믹싱 될 수 있다. 3.1.2 채널은 2.0.0 채널로만 다운믹싱 될 수 있다. 2.0.0 채널은 1.0.0 채널로만 다운믹싱 될 수 있다.
도 3e는 일 실시예에 따른 다운믹스 메커니즘을 도시한다.
도 3e에 도시된 바와 같이, 다운믹싱부(353)는 다운믹스 파라미터를 이용하여 원본 오디오 신호의 서라운드 채널과 높이 채널을 개별적으로 다운믹싱 할 수 있다. 이때, 다운믹싱부(353)는 출발 채널에서 목표 채널까지 단계별로 다운믹싱 할 수 있다.
7.x.x 채널의 서라운드 채널(S7)은 5.x.x 채널의 서라운드 채널(S5)로 다운믹싱 될 수 있다. 이때 S7의 L7, C, R7 채널은 각각 S5의 L5, C, R5 채널과 동일하도록 다운믹싱 될 수 있다. S7의 Lss7, Lrs7 채널은 제1 다운믹스 파라미터(α) 및 제2 다운믹스 파라미터(β)를 이용하여 S5의 Ls5 채널로 다운믹싱 될 수 있다. S7의 Rss7, Rrs7 채널은 제1 다운믹스 파라미터(α) 및 제2 다운믹스 파라미터(β)를 이용하여 S5의 Rs5 채널로 다운믹싱 될 수 있다.
5.x.x 채널의 서라운드 채널(S5)은 3.x.x 채널의 서라운드 채널(S3)로 다운믹싱 될 수 있다. 이때 S5의 L5, Ls5 채널은 제4 다운믹스 파라미터(δ)를 이용하여 S3의 L3 채널로 다운믹싱 될 수 있다. S5의 C 채널은 S3의 C 채널과 동일하도록 다운믹싱 될 수 있다. S5의 R5, Rs5 채널은 제4 다운믹스 파라미터(δ)를 이용하여 S3의 R3 채널로 다운믹싱 될 수 있다.
3.x.x 채널의 서라운드 채널(S3)은 2.0.0 채널(S2)로 다운믹싱 될 수 있다. 이때 S3의 L3, C 채널은 S2의 L2 채널로 다운믹싱 될 수 있다. S3의 R3, C 채널은 S2의 R2 채널로 다운믹싱 될 수 있다.
2.0.0 채널(S2)은 1.0.0 채널(S1)로 다운믹싱 될 수 있다. 이때 S2의 L2, R2 채널은 S1의 Mono 채널로 다운믹싱 될 수 있다.
한편, 7.x.4 채널 또는 5.x.4 채널의 높이 채널(T4)은 7.x.2 채널 또는 5.x.2 채널의 높이 채널(T2)로 다운믹싱 될 수 있다. 이때 T4의 Ltf4, Ltb4 채널은 제3 다운믹스 파라미터(γ)를 이용하여 T2의 Ltf2 채널로 다운믹싱 될 수 있다. T4의 Rtf4, Rtb4 채널은 제3 다운믹스 파라미터(γ)를 이용하여 T2의 Rtf2 채널로 다운믹싱 될 수 있다.
3.x.2 채널의 높이 채널(TF2)은 서라운드 채널과 높이 채널을 제5 다운믹스 파라미터(w)를 매개로 결합하여 Ls5, Rs5, Ltf2, Rtf2 채널을 다운믹싱 함으로써 생성될 수 있다.
예를 들어, 7.1.4 채널에서 2.0.0 채널, 3.1.2 채널, 5.1.2 채널 및 7.1.4 채널로의 다운믹싱은 수학식 1과 같이 다운믹싱 매트릭스를 이용한 연산으로 구현될 수 있다.
Figure PCTKR2023004017-appb-img-000001
여기서, p2는 0.707(즉, -3dB)일 수 있고, α, β, γ, δ, w는 각각 제1 내지 제5 다운믹스 파라미터일 수 있다.
채널 그룹 생성부(355)는 다운믹싱된 오디오 신호를 이용하여 채널 그룹 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성한다.
채널 레이아웃 생성 규칙은 다음과 같을 수 있다.
채널 레이아웃 CLi(i=1부터 n사이의 정수, CLi은 Si.Wi.Hi임)에 대하여, Si+Wi+Hi는 채널 그룹 #i에 대한 채널들의 개수일 수 있다. 채널 그룹 #i에 대한 채널들의 개수는 채널 그룹 #i-1에 대한 채널들의 개수보다 많을 수 있다.
채널 그룹 #i는 가능한 많은 CLi의 원본 채널들(표시 채널들)을 포함할 수 있다. 원본 채널들은 다음 우선순위를 따를 수 있다.
만약 Hi-1이 0이면, 다른 채널들보다 높이 채널의 우선순위가 앞설 수 있다. 다른 채널들보다 센터 채널 및 LFE 채널의 우선순위가 앞설 수 있다.
높이 전방 채널의 우선순위가 사이드 채널 및 높이 후방 채널의 우선순위보다 앞설 수 있다.
사이드 채널의 우선 순위가 후방 채널의 우선순위보다 앞설 수 있다. 또한, 좌측 채널의 우선순위가 우측 채널의 우선순위보다 앞설 수 있다.
예를 들어, n이 4이고, CL1은 2.0.0 채널, CL2는 3.1.2 채널, CL3은 5.1.2 채널, CL4는 7.1.4 채널인 경우, CL1은 L2, R2 채널을 포함할 수 있고, CL2는 C, Hfl3, Hfr3, LFE 채널을 포함할 수 있고, CL3은 L5, R5 채널을 포함할 수 있고, CL4는 Ls7, Rs7, Hfl, Hfr 채널을 포함할 수 있다.
도 4a는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
오디오 복호화 장치(400)는 메모리(410) 및 프로세서(430)를 포함한다. 오디오 복호화 장치(400)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 4a에는 메모리(410) 및 프로세서(430)가 개별적으로 도시되어 있으나, 메모리(410) 및 프로세서(430)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(430)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(230)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다
프로세서(430)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(410)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(410)는 신경망을 저장할 수 있다. 신경망이 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 신경망이 메모리(310)에 저장되지 않을 수 있다. 신경망은 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 복호화 장치(400)는 외부 장치에 신경망에 의한 처리를 요청하고, 외부 장치로부터 신경망에 기초한 결과 정보를 수신할 수 있다.
프로세서(430)는 메모리(410)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 복원 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(430)는 비트스트림을 입력으로 하여, 오디오 처리 동작을 수행하여 다채널 오디오 신호를 출력할 수 있다. 이때, 비트스트림은 기본 채널 그룹으로부터 채널의 개수를 증가시킬 수 있도록 스케일러블한 형태로 구현될 수 있다. 예를 들어, 프로세서(430)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 득할 수 있고, 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호(예를 들어, 스테레오 채널 오디오 신호)를 복원할 수 있다. 추가적으로, 프로세서(430)는 비트스트림으로부터 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(430)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 다채널의 오디오 신호를 복원할 수 있다.
도 4b는 일 실시예에 따른 다채널 오디오 복호화 장치의 구성을 도시하는 블록도이다.
도 4b를 참조하면, 오디오 복호화 장치(400)는 OBU 파싱부(450), 압축해제부(470) 및 후처리부(490)를 포함할 수 있다.
오디오 복호화 장치(400)는 도 4a의 메모리(410) 및 프로세서(430)를 포함할 수 있고, 도 4b의 각 구성요소(450, 460, 470, 480)를 구현하기 위한 인스트럭션은 메모리(410)에 저장될 수 있다. 프로세서(430)는 메모리(410)에 저장된 인스트럭션을 실행할 수 있다.
OBU 파싱부(450)는 비트스트림을 파싱하여 적어도 하나의 채널 그룹의 적어도 하나의 서브스트림 및 부가 정보를 획득할 수 있다.
부가 정보를 획득하기 위하여, OBU 파싱부(450)는 코덱 정보(220) 및 정적 메타데이터(230)를 포함하는 논타임드 메타데이터를 획득할 수 있다. 도 2에 도시된 바와 같이, OBU 파싱부(450)는 제2 OBU(212)와 코덱 정보(220)를 파싱하고, 제3 OBU(213)와 정적 메타데이터(230)를 파싱할 수 있다.
다음으로, OBU 파싱부(450)는 디믹싱 정보(240) 및 채널 그룹 정보(250)를 포함하는 타임드 메타데이터를 획득할 수 있다. 도 2에 도시된 바와 같이, OBU 파싱부(450)는 제5 OBU(215)와 디믹싱 정보(240)를 파싱하고, 제6 OBU(216)와 채널그룹 정보(250)를 파싱할 수 있다.
다음으로, OBU 파싱부(450)는 제7 OBU(217)와 적어도 하나의 서브스트림 각각을 파싱할 수 있다.
OBU 파싱부(450)가 타임드 메타데이터를 획득하는 동작과 서브스트림을 획득하는 동작은 각 템포럴 유닛(즉, 프레임)마다 수행될 수 있다.
압축 해제부(470)는 적어도 하나의 서브스트림을 압축 해제하여 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
압축 해제부(470)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축해제하여 기본 채널 그룹의 오디오 신호를 복원할 수 있다.
압축 해제부(470)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
이때, 압축 해제부(470)는 각 채널 그룹(n개의 채널 그룹)의 압축 오디오 신호를 복호화하기 위한 별도의 제1 압축 해제부, …, 제n 압축 해제부(미도시)를 포함할 수 있다. 이때, 제1 압축 해제부, …, 제n 압축 해제부(미도시)는 서로 병렬적으로 동작할 수 있다.
후처리부(490)는 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱하여 적어도 하나의 다채널 오디오 신호를 복원할 수 있다.
예를 들어, 후처리부(490)는 제1 채널 그룹의 오디오 신호(L2, R2), 제2 채널 그룹의 오디오 신호(C, LFE, Hfl3, Hfr3), 제3 채널 그룹의 오디오 신호(L5, R5) 및 제4 채널 그룹의 오디오 신호(Ls, Rs, Hfl, Hfr)를 기초로, 2.0.0 채널 레이아웃의 오디오 신호, 3.1.2 채널 레이아웃의 오디오 신호, 5.1.2 채널 레이아웃의 오디오 신호 및 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
후처리부(490)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 이때, 업믹스 채널 그룹의 오디오 신호는 다채널 오디오 신호일 수 있다. 이때, 추가적으로, 부가 정보(예를 들어, 동적 디믹싱 가중치 파라미터에 관한 정보)를 더 기초로 하여, 다채널 오디오 신호가 생성될 수 있다.
후처리부(490)는 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부를 디믹싱하여, 업믹스 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 후처리부(490)는 기본 채널 그룹의 오디오 신호 L, R과 종속 채널 그룹의 일부 오디오 신호인 C를 디믹싱하여, 디믹스 채널(de-mixed channel; 또는 upmixed channel)의 오디오 신호 L3 및 R3를 생성할 수 있다.
후처리부(490)는 종속 채널 그룹의 오디오 신호 중 일부에 대하여 디믹싱 동작을 바이패스함으로써, 다채널 오디오 신호 중 일부 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 후처리부(490)는 종속 채널 그룹의 일부 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호에 대하여 디믹싱 동작을 바이패스하여, 다채널 오디오 신호 중 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
결국, 후처리부(490)는 디믹싱을 통해 생성된 업믹스 채널의 오디오 신호 및 디믹싱 동작이 바이패스된 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 예를 들어, 후처리부(490)는 디믹싱 채널의 오디오 신호인 L3, R3 채널의 오디오 신호와 종속 채널 그룹의 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 기초로, 3.1.2 채널의 오디오 신호 L3, R3, C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
후처리부(490)는 디믹스 파라미터를 이용하여 서라운드 채널과 높이 채널을 개별적으로 디믹싱 할 수 있다. 디믹스 파라미터는 다운믹스 파라미터에 대응되도록 구성될 수 있다.
1.0.0 채널(S1)은 2.0.0 채널(S2)로 디믹싱 될 수 있다.
2.0.0 채널(S2)은 3.x.x 채널의 서라운드 채널(S3)로 디믹싱 될 수 있다.
3.x.x 채널의 서라운드 채널(S3)은 5.x.x 채널의 서라운드 채널(S5)로 디믹싱 될 수 있다.
5.x.x 채널의 서라운드 채널(S5)은 7.x.x 채널의 서라운드 채널(S7)로 디믹싱 될 수 있다.
3.x.2 채널의 높이 채널(TF2)은 7.x.2 채널 또는 5.x.2 채널의 높이 채널(T2)로 디믹싱 될 수 있다.
7.x.2 채널 또는 5.x.2 채널의 높이 채널(T2)은 7.x.4 채널 또는 5.x.4 채널의 높이 채널(T4)로 디믹싱 될 수 있다.
이상의 서라운드 채널 디믹싱 및 높이 채널 디믹싱은 수학식 2와 같은 연산으로 구현될 수 있다.
Figure PCTKR2023004017-appb-img-000002
Figure PCTKR2023004017-appb-img-000003
Figure PCTKR2023004017-appb-img-000004
Figure PCTKR2023004017-appb-img-000005
Figure PCTKR2023004017-appb-img-000006
Figure PCTKR2023004017-appb-img-000007
Figure PCTKR2023004017-appb-img-000008
Figure PCTKR2023004017-appb-img-000009
Figure PCTKR2023004017-appb-img-000010
Figure PCTKR2023004017-appb-img-000011
Figure PCTKR2023004017-appb-img-000012
여기서, α, β, γ, δ, w는 각각 제1 내지 제5 다운믹스 파라미터이다.
후처리부(490)는, 다운믹스 파라미터에 대응되는, 디믹스 파라미터를 이용하여 적어도 하나의 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱하여 적어도 하나의 다채널 오디오 신호를 복원할 수 있다.
후처리부(490)는 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터를 동적으로 결정할 수 있다. 후처리부(490)는 동적으로 결정된 제5 다운믹스 파라미터에 기초하여 높이 채널 디믹싱을 수행할 수 있다. TF 채널에서 T2 채널로의 디믹싱 또는 T2 채널에서 TF 채널로의 다운믹싱은 높이 채널의 오디오 신호뿐만 아니라 서라운드 채널의 오디오 신호를 이용하여 수행된다. 이때 서라운드 채널의 오디오 신호가 갑자기 너무 큰 비율로 부가되거나 제거되는 경우 사용자는 소리의 이질감을 느낀다. 사용자가 자연스러운 소리를 경험할 수 있도록, 후처리부(490)는 가중치 인덱스 오프셋(wIdx_offset)에 기반하여 제5 다운믹스 파라미터(w)를 동적으로 결정할 수 있다.
도 4c는 일 실시예에 따른 가중치 인덱스(wIdx)와 제5 다운믹스 파라미터(w)의 관계의 일 예시이다.
도 4c를 참조하면, 예를 들어, 가중치 인덱스(wIdx)는 0부터 10까지의 정수일 수 있으며, 제5 다운믹스 파라미터(w)는 가중치 인덱스(wIdx)의 값에 따라 0부터 0.5의 값을 가질 수 있다. 가중치 인덱스(wIdx)는 오디호 부호화 전 미리 0으로 리셋될 수 있다. 가중치 인덱스(wIdx)는 매 프레임(템포럴 유닛)마다 가중치 인덱스 오프셋(wIdx_offset)이 누적하여 더해지는 값이다. 예를 들어, 매 프레임마다 가중치 인덱스 오프셋(wIdx_offset)이 1인 경우 가중치 인덱스(wIdx)가 1만큼 증가하고, 매 프레임마다 가중치 인덱스 오프셋(wIdx_offset)이 -1인 경우 가중치 인덱스(wIdx)가 1만큼 감소할 수 있다. 만약 가중치 인덱스(wIdx)가 0~10의 범위를 벗어난다면, 가중치 인덱스(wIdx)는 0 또는 10으로 유지될 수 있다. 가중치 인덱스(wIdx)는 수학식 3과 같이 구현될 수 있다.
Figure PCTKR2023004017-appb-img-000013
Figure PCTKR2023004017-appb-img-000014
여기서, wIdx_p는 이전 wIdx 값이다.
일 실시예에 따르면, 오디오 복호화 장치(400)는 HF2 채널에서 H2 채널로 디믹싱할 때 서라운드 채널의 오디오 신호를 점진적으로 부가 또는 제거함으로써 사용자에게 이질감 없는 음향을 제공할 수 있다.
후처리부(490)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호뿐 아니라, 부가 정보를 기초로, 다채널 오디오 신호를 복원할 수 있다. 이때, 부가 정보는 다채널 오디오 신호의 복원을 위한 부가 정보일 수 있다. 다채널 후처리부(490)는 복원된 적어도 하나의 다채널 오디오 신호를 출력할 수 있다.
일 실시예에 따른 후처리부(490)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 상기 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호로부터 청자 전방의 3차원 오디오 채널의 제1 오디오 신호를 생성할 수 있다. 후처리부(490)는 제1 오디오 신호 및 청자 전방의 오디오 채널의 오디오 객체 신호를 기초로, 청자 전방의 3차원 오디오 채널의 제2 오디오 신호를 포함하는 다채널 오디오 신호를 복원할 수 있다. 이 때, 오디오 객체 신호는 오디오 객체(음원)의 오디오 신호, 모양, 면적, 위치, 방향 중 적어도 하나를 나타낼 수 있고, OBU 파싱부(450)로부터 획득될 수 있다.
또한 후처리부(490)는 비트스트림을 통해 시그널링된 음량 정보를 기초로, 각 채널의 오디오 신호의 음량을 타겟 음량(예를 들어, -24LKFS)으로 제어하여 출력할 수 있다. 각 채널의 오디오 신호에 대한 음량(라우드니스; Loudness)는 ITU-R BS.1770을 기초로 측정될 수 있고, 이는 비트스트림의 부가 정보를 통해 시그널링될 수 있다.
한편, 오디오 부호화 장치(300)에서 여러 채널의 신호가 믹싱되어 생성된 오디오 신호는, 클리핑 방지를 위해 다운믹스 이득을 이용하여 오디오 신호의 레벨이 낮춰진 상태이다. 후처리부(490)는 믹싱되어 생성된 신호에 대해, 대응하는 다운믹스 이득에 기초하여 오디오 신호의 레벨을 원본 오디오 신호의 레벨에 맞출 수 있다.
한편, 전술된 다운믹스 이득에 기초한 동작은 채널별로 또는 채널 그룹별로 이루어질 수 있다. 이때, 오디오 부호화 장치(300)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 따라서, 오디오 복호화 장치(400)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보를 비트스트림의 부가 정보로부터 획득하고, 다운믹스 이득에 기초하여 전술된 동작을 수행할 수 있다.
한편, 후처리부(490)는 (다운믹싱 매트릭스의 다운믹스 파라미터에 대응하는) 디믹싱 매트릭스의 동적 디믹스 파라미터를 기초로, 디믹싱 동작을 수행할 수 있다. 이때, 오디오 부호화 장치(300)는 동적 디믹스 파라미터 또는 이에 대응하는 동적 다운믹스 파라미터는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 일부 디믹스 파라미터는 시그널링되지 않고, 고정된 값을 가질 수 있다.
따라서, 오디오 복호화 장치(400)는 동적 디믹스 파라미터에 관한 정보(또는 동적 다운믹스 파라미터에 관한 정보)를 비트스트림의 부가 정보로부터 획득하고, 획득된 동적 디믹스 파라미터에 관한 정보(또는 동적 다운믹스 파라미터에 관한 정보)를 기초로, 디믹싱 동작을 수행할 수 있다.
도 5는 일 실시예에 따른 오디오 처리 방법의 순서도이다.
단계 510에서, 오디오 처리 방법은 오디오 신호를 이용하여 다운믹스 파라미터를 생성할 수 있다.
단계 530에서, 오디오 처리 방법은 상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱할 수 있다.
단계 550에서, 오디오 처리 방법은 상기 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성할 수 있다.
단계 570에서, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림(substream)(260)을 생성할 수 있다.
단계 590에서, 상기 적어도 하나의 서브스트림(260) 및 부가 정보를 패킷화함으로써 비트스트림(200)을 생성할 수 있다.
도 6은 일 실시예에 따른 오디오 처리 방법의 순서도이다.
단계 610에서, 비트스트림(200)을 파싱(parsing)하여 적어도 하나의 서브스트림(substream)(260) 및 부가 정보를 획득할 수 있다.
단계 630에서, 상기 적어도 하나의 서브스트림(260)의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득할 수 있다.
단계 650에서, 상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득할 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 일 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 애플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 애플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
일 실시예에서, 오디오 처리 방법은 비트스트림을 파싱(parsing)하여 적어도 하나의 서브스트림(substream) 및 부가 정보를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 적어도 하나의 서브스트림의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득하는 단계를 포함할 수 있다.
일 실시예에서, 상기 부가 정보는 상기 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 상기 부가 정보는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 더 포함할 수 있다.
일 실시예에서, 상기 다채널 오디오 신호를 획득하는 단계는, 상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)에 기초하여 상기 적어도 하나의 오디오 신호의 서라운드 채널을 디믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다채널 오디오 신호를 획득하는 단계는, 상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다채널 오디오 신호를 획득하는 단계는, 상기 제5 다운믹스 파라미터(w)에 기초하여 상기 적어도 하나의 오디오 신호의 높이 채널을 디믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정하는 단계는, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더함으로써 가중치 인덱스(wIdx)를 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정하는 단계는, 상기 제5 다운믹스 파라미터(w)를 상기 가중치 인덱스(wIdx)에 대응하는 미리 결정된 값으로 결정하는 단계를 포함할 수 있다.
일 실시예에서, 상기 가중치 인덱스(wIdx)를 결정하는 단계는 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값 이하이면 상기 가중치 인덱스(wIdx)를 상기 제1 값으로 결정하고, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제2 값 이상이면 상기 가중치 인덱스(wIdx)를 상기 제2 값으로 결정하고, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값보다 크고 제2 값보다 작은 제3 값이면 상기 가중치 인덱스(wIdx)를 상기 제3 값으로 결정할 수 있다.
일 실시예에서, 상기 비트스트림은 OBU(open bitstream unit) 패킷의 형태로 구성될 수 있다.
일 실시예에서, 상기 비트스트림은 코덱 정보 및 정적 메타데이터 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및 디믹싱 정보 및 상기 적어도 하나의 서브스트림을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함할 수 있다.
일 실시예에서, 오디오 처리 장치는 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 비트스트림을 파싱하여 적어도 하나의 서브스트림(substream) 및 부가 정보를 획득할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 서브스트림의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득할 수 있다.
일 실시예에서, 상기 부가 정보는 상기 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 상기 부가 정보는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 더 포함할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)에 기초하여 상기 적어도 하나의 오디오 신호의 서라운드 채널을 디믹싱할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 제5 다운믹스 파라미터(w)에 기초하여 상기 적어도 하나의 오디오 신호의 높이 채널을 디믹싱할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더함으로써 가중치 인덱스(wIdx)를 결정할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 제5 다운믹스 파라미터(w)를 상기 가중치 인덱스(wIdx)에 대응하는 미리 결정된 값으로 결정할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값 이하이면 상기 가중치 인덱스(wIdx)를 상기 제1 값으로 결정하고, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제2 값 이상이면 상기 가중치 인덱스(wIdx)를 상기 제2 값으로 결정하고, 매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값보다 크고 제2 값보다 작은 제3 값이면 상기 가중치 인덱스(wIdx)를 상기 제3 값으로 결정할 수 있다.
일 실시예에서, 상기 비트스트림은 OBU(open bitstream unit) 패킷의 형태로 구성될 수 있다.
일 실시예에서, 상기 비트스트림은 코덱 정보 및 정적 메타데이터 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및 디믹싱 정보 및 상기 적어도 하나의 서브스트림을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함할 수 있다.
일 실시예에서, 오디오 처리 방법은 오디오 신호를 이용하여 다운믹스 파라미터를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림(substream)을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 처리 방법은 상기 적어도 하나의 서브스트림 및 부가 정보를 패킷화함으로써 비트스트림을 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 부가 정보는 상기 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터를 생성하는 단계는, 상기 오디오 신호에 대한 오디오 씬 타입을 식별하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터를 생성하는 단계는, 상기 식별한 오디오 씬 타입에 기초하여 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터를 생성하는 단계는, 상기 오디오 신호의 높이 채널의 에너지 값과 상기 오디오 신호의 서라운드 채널의 에너지 값을 식별하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터를 생성하는 단계는, 상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 상대적인 차이에 기초하여 제5 다운믹스 파라미터(w)를 생성하는 단계를 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터를 생성하는 단계는, 상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 상기 가중치 인덱스 오프셋(wIdx_offset)을 식별하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 오디오 신호를 다운믹싱하는 단계는, 상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 이용하여 상기 오디오 신호의 서라운드 채널을 다운믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 상기 오디오 신호를 다운믹싱하는 단계는, 상기 제5 다운믹스 파라미터(w)를 이용하여 상기 오디오 신호의 높이 채널을 다운믹싱하는 단계를 포함할 수 있다.
일 실시예에서, 상기 높이 채널을 다운믹싱하는 단계는, 상기 서라운드 채널에 포함된 적어도 하나의 오디오 신호와 상기 높이 채널에 포함된 적어도 하나의 오디오 신호를 상기 제5 다운믹스 파라미터(w)를 매개로 결합하여 상기 높이 채널을 다운믹싱하는 단계를 더 포함할 수 있다.
일 실시예에서, 상기 비트스트림은 OBU(open bitstream unit) 패킷의 형태로 구성될 수 있다.
일 실시예에서, 상기 비트스트림은 코덱 정보 및 정적 메타데이터 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및 디믹싱 정보 및 상기 적어도 하나의 서브스트림을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함할 수 있다.
일 실시예에서, 오디오 처리 장치는 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 오디오 신호를 이용하여 다운믹스 파라미터를 생성할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림을 생성할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 적어도 하나의 서브스트림(260) 및 부가 정보를 패킷화함으로써 비트스트림을 생성할 수 있다.
일 실시예에서, 상기 부가 정보는 상기 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함할 수 있다.
일 실시예에서, 상기 다운믹스 파라미터는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 포함할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 오디오 신호에 대한 오디오 씬 타입을 식별할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 식별한 오디오 씬 타입에 기초하여 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 오디오 신호의 높이 채널의 에너지 값과 상기 오디오 신호의 서라운드 채널의 에너지 값을 식별할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 상대적인 차이에 기초하여 제5 다운믹스 파라미터(w)를 생성할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 상기 가중치 인덱스 오프셋(wIdx_offset)을 식별할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 이용하여 상기 오디오 신호의 서라운드 채널을 다운믹싱할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 제5 다운믹스 파라미터(w)를 이용하여 상기 오디오 신호의 높이 채널을 다운믹싱할 수 있다.
일 실시예에서, 상기 적어도 하나의 프로세서는, 상기 서라운드 채널에 포함된 적어도 하나의 오디오 신호와 상기 높이 채널에 포함된 적어도 하나의 오디오 신호를 상기 제5 다운믹스 파라미터(w)를 매개로 결합하여 상기 높이 채널을 다운믹싱할 수 있다.
일 실시예에서, 상기 비트스트림은 OBU(open bitstream unit) 패킷의 형태로 구성될 수 있다.
일 실시예에서, 상기 비트스트림은 코덱 정보 및 정적 메타데이터 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및 디믹싱 정보 및 상기 적어도 하나의 서브스트림을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함할 수 있다.

Claims (14)

  1. 비트스트림(200)을 파싱(parsing)하여 적어도 하나의 서브스트림(substream)(260) 및 부가 정보를 획득하는 단계;
    상기 적어도 하나의 서브스트림(260)의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득하는 단계; 및
    상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득하는 단계를 포함하고,
    상기 부가 정보는 상기 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함하는, 오디오 처리 방법.
  2. 제1항에 있어서,
    상기 부가 정보는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 더 포함하고,
    상기 다채널 오디오 신호를 획득하는 단계는,
    상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)에 기초하여 상기 적어도 하나의 오디오 신호의 서라운드 채널을 디믹싱하는 단계,
    상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정하는 단계, 및
    상기 제5 다운믹스 파라미터(w)에 기초하여 상기 적어도 하나의 오디오 신호의 높이 채널을 디믹싱하는 단계를 포함하는, 오디오 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 가중치 인덱스 오프셋(wIdx_offset)을 이용하여 제5 다운믹스 파라미터(w)를 동적으로 결정하는 단계는,
    매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더함으로써 가중치 인덱스(wIdx)를 결정하는 단계,
    상기 제5 다운믹스 파라미터(w)를 상기 가중치 인덱스(wIdx)에 대응하는 미리 결정된 값으로 결정하는 단계를 포함하는, 오디오 처리 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 가중치 인덱스(wIdx)를 결정하는 단계는,
    매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값 이하이면 상기 가중치 인덱스(wIdx)를 상기 제1 값으로 결정하고,
    매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제2 값 이상이면 상기 가중치 인덱스(wIdx)를 상기 제2 값으로 결정하고,
    매 프레임마다 상기 가중치 인덱스 오프셋(wIdx_offset)을 누적하여 더한 결과가 제1 값보다 크고 제2 값보다 작은 제3 값이면 상기 가중치 인덱스(wIdx)를 상기 제3 값으로 결정하는, 오디오 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 비트스트림(200)은 OBU(open bitstream unit) 패킷의 형태로 구성되고,
    코덱 정보(220) 및 정적 메타데이터(230) 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및
    디믹싱 정보(240) 및 상기 적어도 하나의 서브스트림(260)을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함하는, 오디오 처리 방법.
  6. 오디오 신호를 이용하여 다운믹스 파라미터를 생성하는 단계;
    상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱하는 단계;
    상기 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성하는 단계;
    상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림(substream)(260)을 생성하는 단계; 및
    상기 적어도 하나의 서브스트림(260) 및 부가 정보를 패킷화함으로써 비트스트림(200)을 생성하는 단계를 포함하고,
    상기 부가 정보는 상기 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함하는, 오디오 처리 방법.
  7. 제6항에 있어서,
    상기 다운믹스 파라미터는 제1 내지 제5 다운믹스 파라미터(α, β, γ, δ, w)를 포함하고,
    상기 다운믹스 파라미터를 생성하는 단계는,
    상기 오디오 신호에 대한 오디오 씬 타입을 식별하는 단계,
    상기 식별한 오디오 씬 타입에 기초하여 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 생성하는 단계,
    상기 오디오 신호의 높이 채널의 에너지 값과 상기 오디오 신호의 서라운드 채널의 에너지 값을 식별하는 단계, 및
    상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값의 상대적인 차이에 기초하여 제5 다운믹스 파라미터(w)를 생성하는 단계를 포함하는, 오디오 처리 방법.
  8. 제6항 또는 제7항에 있어서,
    상기 다운믹스 파라미터를 생성하는 단계는,
    상기 식별된 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 상기 가중치 인덱스 오프셋(wIdx_offset)을 식별하는 단계를 더 포함하는, 오디오 처리 방법.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서,
    상기 오디오 신호를 다운믹싱하는 단계는,
    상기 제1 내지 제4 다운믹스 파라미터(α, β, γ, δ)를 이용하여 상기 오디오 신호의 서라운드 채널을 다운믹싱하는 단계, 및
    상기 제5 다운믹스 파라미터(w)를 이용하여 상기 오디오 신호의 높이 채널을 다운믹싱하는 단계를 포함하는, 오디오 처리 방법.
  10. 제6항 내지 제9항 중 어느 한 항에 있어서,
    상기 높이 채널을 다운믹싱하는 단계는,
    상기 서라운드 채널에 포함된 적어도 하나의 오디오 신호와 상기 높이 채널에 포함된 적어도 하나의 오디오 신호를 상기 제5 다운믹스 파라미터(w)를 매개로 결합하여 상기 높이 채널을 다운믹싱하는 단계를 더 포함하는, 오디오 처리 방법.
  11. 제6항 내지 제10항 중 어느 한 항에 있어서,
    상기 비트스트림(200)은 OBU(open bitstream unit) 패킷의 형태로 구성되고,
    코덱 정보(220) 및 정적 메타데이터(230) 중 적어도 하나를 포함하는 논타임드 메타데이터(non-timed metadata), 및
    디믹싱 정보(240) 및 상기 적어도 하나의 서브스트림(260)을 포함하는 적어도 하나의 템포럴 유닛(temporal unit)을 포함하는, 오디오 처리 방법.
  12. 프로세서에 의해 실행될 때, 상기 프로세서가 제1항 내지 제11항 중 어느 한 항의 방법을 수행하도록 하는 컴퓨터 프로그램을 저장하는 컴퓨터로 판독 가능한 기록매체.
  13. 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리(410); 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(430)를 포함하고,
    상기 적어도 하나의 프로세서(430)는,
    비트스트림(200)을 파싱하여 적어도 하나의 서브스트림(substream)(260) 및 부가 정보를 획득하고,
    상기 적어도 하나의 서브스트림(260)의 압축을 해제하여 적어도 하나의 채널 그룹(Channel Group, CG)의 적어도 하나의 오디오 신호를 획득하고, 그리고
    상기 부가 정보에 기초하여, 상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 디믹싱하여 다채널 오디오 신호를 획득하고,
    상기 부가 정보는 상기 다채널 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함하는, 오디오 처리 장치.
  14. 오디오 처리를 위한 하나 이상의 인스트럭션이 저장된 메모리(310); 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(330)를 포함하고,
    상기 적어도 하나의 프로세서(330)는,
    오디오 신호를 이용하여 다운믹스 파라미터를 생성하고,
    상기 다운믹스 파라미터를 이용하여, 채널 레이아웃(Channel Layout, CL) 생성 규칙에 따라 결정되는 다운믹스 경로를 따라 상기 오디오 신호를 다운믹싱하고,
    상기 다운믹싱된 오디오 신호를 이용하여 채널 그룹(Channel Group, CG) 생성 규칙에 따라 적어도 하나의 채널 그룹을 생성하고,
    상기 적어도 하나의 채널 그룹의 상기 적어도 하나의 오디오 신호를 압축하여 적어도 하나의 서브스트림(260)을 생성하고, 그리고
    상기 적어도 하나의 서브스트림(260) 및 부가 정보를 패킷화함으로써 비트스트림(200)을 생성하고,
    상기 부가 정보는 상기 오디오 신호의 높이 채널의 에너지 값과 서라운드 채널의 에너지 값에 기초하여 식별된 가중치 인덱스 오프셋(wIdx_offset)을 포함하는, 오디오 처리 장치.
PCT/KR2023/004017 2022-04-28 2023-03-27 다채널 오디오 신호 처리 장치 및 방법 WO2023210978A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220053112 2022-04-28
KR10-2022-0053112 2022-04-28
KR1020220137660A KR20230153226A (ko) 2022-04-28 2022-10-24 다채널 오디오 신호 처리 장치 및 방법
KR10-2022-0137660 2022-10-24

Publications (1)

Publication Number Publication Date
WO2023210978A1 true WO2023210978A1 (ko) 2023-11-02

Family

ID=88519246

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/004017 WO2023210978A1 (ko) 2022-04-28 2023-03-27 다채널 오디오 신호 처리 장치 및 방법

Country Status (1)

Country Link
WO (1) WO2023210978A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070043651A (ko) * 2005-10-20 2007-04-25 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US20180350375A1 (en) * 2013-07-22 2018-12-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
KR20200105640A (ko) * 2013-04-19 2020-09-08 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
KR102294767B1 (ko) * 2013-11-27 2021-08-27 디티에스, 인코포레이티드 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
KR20210124283A (ko) * 2019-01-21 2021-10-14 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 공간 오디오 표현을 인코딩하기 위한 장치 및 방법 또는 인코딩된 오디오 신호를 트랜스포트 메타데이터를 이용하여 디코딩하기 위한 장치 및 방법 및 연관된 컴퓨터 프로그램들

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070043651A (ko) * 2005-10-20 2007-04-25 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
KR20200105640A (ko) * 2013-04-19 2020-09-08 한국전자통신연구원 다채널 오디오 신호 처리 장치 및 방법
US20180350375A1 (en) * 2013-07-22 2018-12-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
KR102294767B1 (ko) * 2013-11-27 2021-08-27 디티에스, 인코포레이티드 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
KR20210124283A (ko) * 2019-01-21 2021-10-14 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 공간 오디오 표현을 인코딩하기 위한 장치 및 방법 또는 인코딩된 오디오 신호를 트랜스포트 메타데이터를 이용하여 디코딩하기 위한 장치 및 방법 및 연관된 컴퓨터 프로그램들

Similar Documents

Publication Publication Date Title
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2010107269A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2018074677A1 (ko) 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
WO2009131391A1 (en) Method for generating and playing object-based audio contents and computer readable recording medium for recoding data having file format structure for object-based audio service
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2018139884A1 (en) Method for processing vr audio and corresponding equipment
WO2022158943A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2014148844A1 (ko) 단말 장치 및 그의 오디오 신호 출력 방법
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2020145659A1 (en) Signal processing device and image display apparatus including the same
WO2014148845A1 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2021172834A1 (en) Apparatus and method for performing artificial intelligence encoding and artificial intelligence decoding on image by using pre-processing
WO2019017579A1 (ko) 디스플레이 장치, 디스플레이 방법 및 디스플레이 시스템
WO2022050785A1 (ko) 디스플레이 기기 및 그의 동작 방법
WO2016204581A1 (ko) 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2022164229A1 (ko) 오디오 처리 장치 및 방법
WO2014148848A2 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2013062213A1 (en) Media card, media apparatus, content server and method for operating the same
WO2023210978A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2021010562A1 (en) Electronic apparatus and controlling method thereof
WO2019199040A1 (ko) 메타데이터를 이용하는 오디오 신호 처리 방법 및 장치
WO2013168952A1 (ko) 인터 레이어 예측 방법 및 이를 이용하는 장치
WO2023219292A1 (ko) 장면 분류를 위한 오디오 처리 방법 및 장치
WO2022245076A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2019103289A1 (ko) 음파 통신 플랫폼, 음파 신호를 이용한 통신 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23796627

Country of ref document: EP

Kind code of ref document: A1