WO2023219292A1 - 장면 분류를 위한 오디오 처리 방법 및 장치 - Google Patents

장면 분류를 위한 오디오 처리 방법 및 장치 Download PDF

Info

Publication number
WO2023219292A1
WO2023219292A1 PCT/KR2023/005182 KR2023005182W WO2023219292A1 WO 2023219292 A1 WO2023219292 A1 WO 2023219292A1 KR 2023005182 W KR2023005182 W KR 2023005182W WO 2023219292 A1 WO2023219292 A1 WO 2023219292A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
audio
audio signal
signal
layout
Prior art date
Application number
PCT/KR2023/005182
Other languages
English (en)
French (fr)
Inventor
김경래
남우현
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220137649A external-priority patent/KR20230157225A/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US18/195,121 priority Critical patent/US20230360665A1/en
Publication of WO2023219292A1 publication Critical patent/WO2023219292A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • This disclosure relates to an audio processing method and apparatus for scene classification. More specifically, the present disclosure relates to a method and device for classifying scenes of an audio signal and processing the audio signal according to the scene classification results.
  • OTT services Over-The-Top services
  • TV resolutions increase, and screens on electronic devices such as tablets become larger, viewers who want to experience immersive sound like theater content in a home environment. needs are increasing.
  • an audio scene classification module that has a structure that requires low delay time for scene classification of audio signals, high classification accuracy, and low complexity due to an increase in the number of scene types.
  • a method and device that uses a scene classification result in processing an audio signal of a sub-channel layout from a multi-channel audio signal can be provided.
  • a method and device for downmixing or upmixing multi-channel audio signals according to the scene classification results may be provided.
  • An audio processing method includes obtaining a first audio signal corresponding to a first frame, using a first neural network that inputs the first audio signal, and providing a first feature ( extracting a feature vector, the first feature vector, and at least one second feature vector extracted from at least one second audio signal corresponding to at least one second frame temporally previous to the first frame.
  • An audio processing device may include a memory that stores one or more instructions, and at least one processor that executes one or more instructions stored in the memory. At least one processor acquires a first audio signal corresponding to a first frame, extracts a first feature vector using a first neural network using the first audio signal as an input, and , a temporal correlation vector indicating similarity between the first feature vector and at least one second feature vector extracted from at least one second audio signal corresponding to at least one second frame temporally previous to the first frame. (temporal correlation vector) and classify the scene of the first audio signal using a second neural network using the first feature vector, the at least one second feature vector, and the temporal correlation vector as input.
  • the one or more instructions may be executed.
  • An audio processing method includes obtaining downmixing-related information including a downmixed audio signal corresponding to an original audio signal and a scene classification result from a bitstream, based on the downmixing-related information. It may include demixing a downmixed audio signal, and restoring an audio signal including at least one channel based on the demixed audio signal.
  • the scene classification result may include a first feature vector corresponding to a first frame of the original audio signal, and at least one second frame temporally preceding the first frame of the original audio signal. It can be obtained based on the temporal correlation vector between two feature vectors.
  • An audio processing device may include a memory that stores one or more instructions, and at least one processor that executes one or more instructions stored in the memory. At least one processor acquires downmixing-related information including an audio signal downmixed from an original audio signal and a scene classification result, demixes the downmixed audio signal based on the downmixing-related information, and performs the demixing. The one or more instructions for restoring an audio signal based on the mixed audio signal may be executed.
  • the scene classification result may include a first feature vector corresponding to a first frame of the original audio signal, and at least one second frame temporally preceding the first frame of the original audio signal. It can be obtained based on the temporal correlation vector between two feature vectors.
  • a computer-readable recording medium recording a program to be executed on a computer is provided.
  • 1A is a block diagram illustrating an audio scene classifier according to one embodiment.
  • FIG. 1B is a block diagram for explaining the specific operation of the feature extractor of FIG. 1A.
  • FIG. 1C is a block diagram for explaining the specific operation of the time correlation analyzer of FIG. 1A.
  • FIG. 1D is a block diagram for explaining the specific operation of the measuring device of FIG. 1A.
  • FIG. 2A is a block diagram illustrating a multi-channel audio signal processor according to one embodiment.
  • Figure 2b is a diagram showing scene classification results according to one embodiment.
  • FIG. 3A is a diagram for explaining a scalable audio channel layout structure according to an embodiment.
  • FIG. 3B is a diagram for explaining an exemplary scalable audio channel layout structure.
  • FIG. 4A is a block diagram illustrating an audio encoding device according to an embodiment.
  • FIG. 4B is a block diagram illustrating an audio encoding device according to an embodiment.
  • FIG. 4C is a block diagram illustrating a multi-channel audio signal processor according to one embodiment.
  • Figure 4d is a diagram for explaining the specific operation of the audio signal classifier.
  • FIG. 5A is a block diagram illustrating a multi-channel audio decoding device according to an embodiment.
  • FIG. 5B is a block diagram illustrating a multi-channel audio decoding device according to an embodiment.
  • FIG. 5C is a block diagram illustrating a multi-channel audio signal restorer according to one embodiment.
  • Figure 5D is a block diagram illustrating an upmix channel audio generator according to one embodiment.
  • FIG. 6A is a block diagram illustrating an audio encoding device according to an embodiment.
  • FIG. 6B is a block diagram illustrating an error removal-related information generator according to an embodiment.
  • FIG. 7A is a block diagram illustrating an audio decoding device according to an embodiment.
  • FIG. 7B is a block diagram illustrating a multi-channel audio signal restorer according to an embodiment.
  • FIG. 8A is a diagram illustrating the transmission order and rules of audio streams within each channel group by an audio encoding device according to an embodiment.
  • Figures 8b and 8c are diagrams to explain a mechanism for step-by-step downmixing according to an embodiment.
  • FIG. 9A is a block diagram illustrating an audio encoding device according to an embodiment.
  • FIG. 9B is a block diagram illustrating an audio encoding device according to an embodiment.
  • FIG. 10A is a block diagram illustrating an audio decoding device according to an embodiment.
  • FIG. 10B is a block diagram illustrating an audio decoding device according to an embodiment.
  • Figure 11 is a block diagram illustrating an audio processing device according to an embodiment.
  • Figure 12 is a block diagram illustrating an audio processing device according to an embodiment.
  • Figure 13 is a flowchart illustrating an audio processing method according to an embodiment.
  • Figure 14A is a flowchart illustrating an audio processing method according to one embodiment.
  • FIG. 14B is a flowchart illustrating an audio processing method according to one embodiment.
  • Figure 15 is a flowchart illustrating an audio processing method according to an embodiment.
  • Figure 16 is a flowchart illustrating an audio processing method according to an embodiment.
  • Figure 17 is a flowchart illustrating an audio processing method according to an embodiment.
  • Figure 18 is a block diagram illustrating an audio processing device according to an embodiment.
  • 'DNN (deep neural network)' or 'neural network' is a representative example of an artificial neural network model that simulates brain nerves, and is not limited to an artificial neural network model using a specific algorithm.
  • a 'parameter' is a value used in the calculation process of each layer forming a neural network and may include, for example, a weight (and bias) used when applying an input value to a certain calculation equation.
  • Parameters can be expressed in matrix form.
  • a parameter in the form of a matrix may be referred to as a 'kernel' or 'filter'.
  • Parameters are values set as a result of training, and can be updated through separate training data as needed.
  • 'hyperparameter' is a value that changes according to the user or manufacturer's settings to learn a neural network, for example, the number of layers, the number of neurons included in each layer, activation function, learning rate, optimizer, It may include, but is not limited to, batch size, number of repetitions, dropout probability, etc.
  • 'audio processing device' refers to any device that processes an input audio signal by inputting an audio signal.
  • 'audio processing device' may include 'audio scene classifier', 'audio encoding device', and/or It may include an ‘audio decoding device’.
  • 'multi-channel audio signal' may mean an n-channel audio signal (n is an integer greater than 2).
  • a 'mono channel audio signal' may be a one-dimensional audio signal
  • a 'stereo channel audio signal' may be a two-dimensional audio signal
  • a 'multi-channel audio signal' may be a three-dimensional audio signal.
  • 'channel (speaker) layout' may represent a combination of at least one channel and may specify the spatial arrangement of channels (speakers). Since the channel here is a channel through which audio signals are actually output, it can be referred to as a presentation channel.
  • the channel layout may be an X.Y.Z channel layout.
  • X may be the number of surround channels
  • Y may be the number of subwoofer channels
  • Z may be the number of height channels.
  • 'channel layout' the spatial location of each surround channel/subwoofer channel/height channel can be specified.
  • Examples of 'channel (speaker) layout' include 1.0.0 channel (mono channel) layout, 2.0.0 channel (stereo channel) layout, 5.1.0 channel layout, 5.1.2 channel layout, 5.1.4 channel layout, 7.1. There is a 0 layout, 7.1.2 layout, and 3.1.2 channel layout, but it is not limited to this and there may be various channel layouts.
  • the channels of the 'channel (speaker) layout' can be named as follows.
  • the first surround channel of a 1.0.0 channel layout may be named Mono Channel.
  • the first surround channel of the 2.0.0 channel layout may be named the L2 channel, and the second surround channel may be named the R2 channel.
  • L indicates a channel located to the left relative to the listener
  • R represents a channel located to the right relative to the listener
  • 2 indicates a surround channel when there are a total of two surround channels.
  • L may also be referred to as “FL” and “R” may also be referred to as “FR”.
  • the first surround channel may be named the L5 channel
  • the second surround channel may be named the R5 channel
  • the third surround channel may be named the C channel
  • the fourth surround channel may be named the Ls5 channel
  • the fifth surround channel may be named the Rs5 channel.
  • C indicates a channel located in the center based on the listener.
  • s means a channel located laterally.
  • the first subwoofer channel in the 5.1.0 channel layout may be named the LFE channel.
  • LFE may mean low frequency effect. That is, the LFE channel may be a channel for outputting low-frequency effect sounds.
  • the names of the surround channels in the 5.1.2 channel layout and 5.1.4 channel layout and the surround channels in the 5.1.0 channel layout may be the same.
  • the names of the subwoofer channels in the 5.1.2 channel layout and 5.1.4 channel layout and the subwoofer channels in the 5.1.0 channel layout may be the same.
  • the first height channel of the 5.1.2 channel layout may be named Hl5.
  • H represents the height channel.
  • the second height channel may be named Hr5.
  • the first height channel may be named the Hfl channel
  • the second height channel may be named Hfr
  • the third height channel may be named the Hbl channel
  • the fourth height channel may be named the Hbr channel.
  • f indicates the front channel centered on the listener
  • b indicates the rear channel.
  • the 1st surround channel is the L channel
  • the 2nd surround channel is the R channel
  • the 3rd surround channel is the C channel
  • the 4th surround channel is the Ls channel
  • the 5th surround channel is the Rs5 channel
  • the 6th surround channel may be named the Lb channel
  • the seventh surround channel may be named the Rb channel.
  • the names of the surround channels in the 7.1.2 channel layout and 7.1.4 channel layout and the surround channels in the 7.1.0 channel layout may be the same.
  • the names of the subwoofer channels in the 7.1.2 channel layout and 7.1.4 channel layout and the subwoofer channels in the 7.1.0 channel layout may be the same.
  • the first height channel of the 7.1.2 channel layout may be named the Hl7 channel
  • the second height channel may be named the Hr7 channel.
  • the first height channel of the 7.1.4 channel layout may be named the Hfl channel
  • the second height channel may be named the Hfr channel
  • the third height channel may be named the Hbl channel
  • the fourth height channel may be named the Hbr channel.
  • the first surround channel of the 3.1.2 channel may be named the L3 channel
  • the second surround channel may be named the R3 channel
  • the third surround channel may be named the C channel.
  • the first subwoofer channel of the 3.1.2 channel may be named the LFE channel.
  • the first height channel of the 3.1.2 channel may be named Hfl3 channel (Tl channel)
  • the second height channel may be named Hfr3 channel (Tr channel).
  • channel Hl5 and channel Hl7 may be the same channel.
  • Hr5 channel and Hr7 channel may be the same channel.
  • the L2 channel is the L'' channel
  • the R2 channel is the R'' channel
  • the L3 channel is the ML3 channel (L' channel)
  • the R3 channel is the MR3 channel (R' channel)
  • the Hfl3 channel is the MHL3 channel
  • the Hfr3 channel can be named as MHR3 channel
  • Ls5 channel as MSL5 channel (Ls' channel)
  • Rs5 channel as MSR5 channel
  • Hl5 channel as MHL5 channel (Hl')
  • Hr5 channel as MHR5 channel (Hr')
  • C channel as MC channel.
  • channel layout Names of channels 1.0.0 Mono 2.0.0 L2/R2 5.1.0 L5/C/R5/Ls5/Rs5/LFE 5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE 5.1.4 L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE 7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE 7.1.2 L/C/R/Ls/Rs/Rs/Lb/Rb/Hl7/Hr7/LFE 7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE 3.1.2 L3/C/R3/Hfr3/Hfr3/LFE
  • the 'Transmission Channel' is a channel for transmitting compressed audio signals.
  • Part of the 'Transmission Channel' may be the same as the 'Presentation Channel', but is not limited to this.
  • the other part may be a channel (mix channel) of an audio signal in which the audio signal of the display channel is mixed.
  • the 'Transmission Channel' is a channel containing the audio signal of the 'Presentation Channel', but some of the channels may be the same as the presentation channel, and the rest may be channels (mix channels) different from the presentation channel.
  • ‘Transmission Channel’ can be named separately from ‘Display Channel’. For example, if the transmission channel is the A/B channel, the A/B channel can contain the audio signal of the L2/R2 channel.
  • the transmission channel is a T/P/Q channel
  • the T/P/Q channel can contain audio signals of the C/LFE/Hfl3 and Hfr3 channels.
  • the transmission channel is an S/U/V channel
  • the S/U/V channel can contain audio signals of the L, R/Ls, Rs/Hfl, and Hfr channels.
  • '3D audio signal' may refer to an audio signal that can determine the distribution of sound and the location of sound sources in 3D space.
  • '3D audio channel in front of the listener' may mean a 3D audio channel based on the layout of the audio channel placed in front of the listener.
  • the '3D audio channel in front of the listener' may also be referred to as the 'Front 3D audio channel'.
  • the '3D audio channel in front of the listener' is a 3D audio channel based on the layout of the audio channel centered around the screen located in front of the listener, so it is called a 'screen centered 3D audio channel'. It can be called
  • 'omni-direction 3D audio channel' may refer to a 3D audio channel based on the layout of audio channels arranged omnidirectionally centered on the listener.
  • 'Listener omnidirectional 3D audio channel' may also be referred to as 'Full 3D audio channel'.
  • the omnidirectional direction may mean a direction including front, side, and rear.
  • the 'listener omni-directional 3D audio channel' is a 3D audio channel based on the layout of the audio channel arranged in omni-direction centered on the listener
  • the 'Listener centered 3D audio channel' It can be called an ‘audio channel’.
  • a 'Channel Group' is a type of data unit and may include (compressed) audio signals of at least one channel. Specifically, it may include at least one of a base channel group that is independent from other channel groups and a dependent channel group that is dependent on at least one channel group. At this time, the target channel group to which the dependent channel group depends may be another dependent channel group, and in particular, may be a dependent channel group related to a lower channel layout. Alternatively, the channel group on which the dependent channel group depends may be a basic channel group. Since the 'Channel Group' includes data of a type of channel group, it can be referred to as a 'Data Group (Coding Group)'.
  • a dependent channel group is a group used to further expand the number of channels from the channels included in the basic channel group, and may be referred to as an extended channel group (Scalable Channel Group or Extended Channel Group).
  • the audio signal of the 'basic channel group' may include a mono channel audio signal or a stereo channel audio signal. Without being limited thereto, the audio signal of the 'basic channel group' may include the audio signal of the 3D audio channel in front of the listener.
  • the audio signal of the 'subordinate channel group' is the audio signal of the 3D audio channel in front of the listener or the audio signal of the remaining channels excluding the audio signal of the 'basic channel group' among the audio signals of the 3D audio channel omnidirectionally. It can be included.
  • a portion of the audio signal of the remaining channel may be an audio signal obtained by mixing the audio signal of at least one channel (i.e., the audio signal of the mixing channel).
  • the audio signal of the 'basic channel group' may be an audio signal of a mono channel or an audio signal of a stereo channel.
  • the 'signal' may be an audio signal of a 3D audio channel in front of the listener or an audio signal of a 3D audio channel omnidirectional to the listener.
  • 'up-mixing' refers to the operation of increasing the number of display channels of the output audio signal compared to the number of display channels of the input audio signal through de-mixing. It can mean.
  • 'de-mixing' is an operation of separating the audio signal of a specific channel from the audio signal in which the audio signals of various channels are mixed (i.e., the audio signal of the mixed channel), It can refer to one of the mixing operations.
  • 'demixing' can be implemented as an operation using a 'demixing matrix' (or a corresponding 'downmixing matrix'), and the 'demixing matrix' is a demixing matrix (or a corresponding 'downmixing matrix').
  • ') may include at least one 'demixing weight parameter' (or a corresponding 'downmixing weight parameter').
  • 'Demixing weight parameter' may also be referred to as 'demixing parameter', and 'downmixing weight parameter' may also be referred to as 'downmixing parameter'.
  • 'demixing' may be implemented as a mathematical operation based on a part of the 'demixing matrix' (or the corresponding 'downmixing matrix'), and is not limited to this, and may be implemented in various ways. . As mentioned above, 'demixing' may be related to 'upmixing'.
  • 'Mixing' generates audio signals of a new channel (i.e., mix channel) by multiplying each of the audio signals of multiple channels by their respective weights and adding up the respective values obtained (i.e., mixing the audio signals of multiple channels). It means all actions performed.
  • 'Mixing' can be divided into narrow sense 'mixing' performed in an audio encoding device and 'demixing' performed in an audio decoding device.
  • 'Mixing' performed in an audio encoding device can be implemented as an operation using a '(down)mixing matrix', and the '(down)mixing matrix' is a coefficient of the (down)mixing matrix, and at least one '(down)mixing matrix' is used. May include ‘weight parameters’.
  • '(down) mixing' may be implemented as a mathematical operation based on a part of the '(down) mixing matrix', but is not limited to this and may be implemented in various ways.
  • 'up-mix channel group' refers to a group including at least one upmix channel
  • 'up-mixed channel' refers to the audio signal of the encoded/decoded channel. It may mean a de-mixed channel separated through demixing.
  • An 'up-mix channel group' in a narrow sense may only include 'upmix channels'.
  • an 'up-mix channel group' in a broad sense may include not only 'upmix channels' but also 'encrypted/decoded channels'.
  • 'decoded/decoded channel' refers to an independent channel of an audio signal that has been encoded (compressed) and included in a bitstream, or an independent channel of an audio signal obtained by decoding from a bitstream. At this time, a separate (de)mixing operation is not required to obtain the audio signal of the encoded/decoded channel.
  • the audio signal of the 'up-mix channel group' in the broad sense may be a multi-channel audio signal
  • the output multi-channel audio signal is an audio signal output to a device such as a speaker, and includes at least one multi-channel audio signal ( That is, it may be one of the audio signals of at least one upmix channel group.
  • 'down-mixing' may refer to an operation in which the number of display channels of an output audio signal is reduced compared to the number of display channels of an input audio signal through mixing. .
  • 'factor for error removal' may be a factor for removing errors in an audio signal generated due to lossy coding.
  • Errors in signals generated due to lossy encoding may include errors due to quantization, specifically, errors due to encoding (quantization) based on psycho-acoustic characteristics.
  • 'Factor for error removal' may be referred to as 'Coding Error Removal Factor (CER Factor)' or 'Error Cancellation Ratio'.
  • CER Factor 'Coding Error Removal Factor
  • 'scale factor' the 'scale factor'.
  • 'frame' may refer to a unit of dividing an audio signal in the time domain.
  • frame t (t is a natural number) may be referred to as the 'current frame'.
  • t may be a natural number that distinguishes each of a series of frames.
  • Frame t-N (N is a natural number less than t) may be referred to as the 'previous frame'.
  • the size (or spacing) of the frame may be predefined by the manufacturer or user's settings.
  • the audio scene classifier 100 may include a feature extractor 110, a temporal correlation analyzer 120, and a measurer 130.
  • the audio scene classifier 100 can classify scenes corresponding to a series of frames of an audio signal.
  • the audio scene classifier 100 may classify each of a series of frames of an audio signal into a dialogue type, music type, or sound effect type.
  • the present disclosure is not limited to this, and the type and number of types of scenes that the audio scene classifier 100 can classify may be changed depending on the manufacturer or user's settings.
  • the audio scene classifier 100 may use data corresponding to at least one previous frame to classify the scene of the current frame of the audio signal. For example, the audio scene classifier 100 may classify the scene of the current frame using the similarity between data corresponding to at least one previous frame and data corresponding to the current frame.
  • the feature extractor 110 may obtain (or receive) a first audio signal (ASt) corresponding to the first frame (or may be referred to as the current frame).
  • the first audio signal ASt may be data (eg, a spectrogram) visualizing the corresponding voice data, but is not limited thereto.
  • the feature extractor 110 may extract features of the first audio signal (ASt).
  • the feature extractor 110 may extract the first feature vector (Ft) based on the first audio signal (ASt). For example, the feature extractor 110 may extract the first feature vector (Ft) using a first neural network that inputs the first audio signal (ASt).
  • the feature extractor 110 may transmit the first feature vector (Ft) to the time correlation analyzer 120. The specific functions and operations of the first neural network are described in detail in FIG. 1B.
  • the temporal correlation analyzer 120 may obtain (or calculate) similarity between features corresponding to a plurality of frames.
  • the time correlation analyzer 120 may receive a first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-N).
  • the time correlation analyzer 120 may obtain a time correlation vector (TCt) based on the first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-N).
  • At least one second feature vector (Ft-1, ..., Ft-N) corresponds to at least one second frame (or may be referred to as a previous frame) temporally earlier than the first frame. It can be extracted from the second audio signal.
  • the second frame may be at least one of a series of frames temporally preceding the first frame.
  • the number of second feature vectors may be N.
  • N may be a natural number.
  • the time correlation vector (TCt) may indicate similarity between the first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-N).
  • the measuring device 130 can classify the scene of the first audio signal (ASt).
  • the measurer 130 may receive a first feature vector (Ft), at least one second feature vector (Ft-1, ..., Ft-M), and a time correlation vector (TCt).
  • M may be a natural number. In one embodiment, M may be equal to or less than N. When M is smaller than N, the scene of the first audio signal (ASt) can be classified with a smaller amount of calculation than when M and N are equal.
  • the measuring device 130 operates a second neural network that takes as input a first feature vector (Ft), at least one second feature vector (Ft-1, ..., Ft-M), and a time correlation vector (TCt). Using this, the scene of the first audio signal (ASt) can be classified.
  • the measuring device 130 may output a scene classification result (SCt) corresponding to the first audio signal (ASt).
  • SCt scene classification result
  • the audio scene classifier 100 is composed of a single module including a feature extractor 110, a temporal correlation analyzer 120, and a meter 130 regardless of the number of scene types, thereby determining the scene type. As the number increases, delay time may not occur.
  • FIG. 1B is a block diagram for explaining the specific operation of the feature extractor 110 of FIG. 1A.
  • the feature extractor 110 may include a first neural network 112 .
  • the first neural network 112 may input the first audio signal (ASt) and output the first feature vector (Ft). Content that overlaps with the content described in FIG. 1A will be omitted.
  • the feature extractor 110 may obtain the first audio signal ASt.
  • the feature extractor 110 may receive the first audio signal ASt in the form of a spectrogram.
  • the audio scene classifier 100 may further include a preprocessor 140.
  • the preprocessor 140 may acquire (or receive) a multi-channel audio signal (MCAS).
  • the preprocessor 140 may obtain a signal corresponding to the first frame (ft) of the multi-channel audio signal (MCAS).
  • the frame e.g., the first frame (ft)
  • the frame is It can have as much size as
  • the preprocessor 140 may extract a first audio signal (ASt) including at least one channel signal among signals corresponding to the first frame (ft).
  • a multi-channel audio signal MCAS
  • the preprocessor 140 may extract a first audio signal (ASt) including k channel signals less than i among i channel signals of the multi-channel audio signal (MCAS). (i, k are natural numbers)
  • the preprocessor 140 may transform a multi-channel audio signal (MCAS) into the time-frequency domain. For example, the preprocessor 140 may generate a spectrogram based on a multi-channel audio signal (MCAS). The preprocessor 140 may generate a spectrogram for each of at least one channel signal among the multi-channel audio signal (MCAS). That is, the preprocessor 140 may generate the first audio signal ASt expressed as a vector with time, frequency, and channel as dimensions.
  • MCAS multi-channel audio signal
  • MCAS multi-channel audio signal
  • a multi-channel audio signal may have a 7.1.4 channel layout.
  • a multi-channel audio signal may have L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE channel signals.
  • i may be 12.
  • the preprocessor 140 extracts the L/C/R/Ls/Rs signal from the L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE channel signals. You can.
  • k may be 5.
  • the first audio signal ASt may include sub-audio signals (eg, ASt_1, ASt_2, ASt_3, ASt_4, ASt_5) corresponding to each of the channels.
  • the preprocessor 140 may downmix a multi-channel audio signal into five channel signals (eg, L/C/R/Ls/Rs signals). In one embodiment, the preprocessor 140 may downmix a multi-channel audio signal (MCAS) into a stereo signal. In one embodiment, the preprocessor 140 may transform the downmixed signal into the time-frequency domain.
  • MCAS multi-channel audio signal
  • the first neural network 112 may include at least one convolutional layer, a pooling layer, and a fully-connected layer.
  • the convolutional layer obtains feature data by processing input data with a filter of a predetermined size.
  • an activation function may be used before passing feature data from a convolutional layer to the next layer.
  • the activation function may be a sigmoid function, Tanh function, softmax function, or ReLU function, but the present disclosure is not limited thereto.
  • the parameters of the filter of the convolutional layer can be optimized through a training process described later.
  • the pooling layer is a layer that takes and outputs only the feature values of some samples out of the feature values of all samples of feature data in order to reduce the size of the input data.
  • the pooling layer may be a max pooling layer.
  • a fully-connected layer is a layer in which neurons in one layer are connected to all neurons in the next layer, and is a layer for classifying features. Before data is output from the fully-connected layer, an activation function may be used.
  • the first neural network 112 is shown as consisting of three convolutional layers, three pooling layers, and one fully-connected layer, but this is an example and the present disclosure is not limited thereto. Accordingly, the number of convolutional layers, pooling layers, and fully-connected layers included in the first neural network 112 may be varied. Likewise, the number and size of filters used in each convolutional layer may vary, and the connection order and method between each layer may also vary.
  • the first neural network 112 may receive the first audio signal (ASt).
  • the first neural network 112 may extract (generate or acquire) the first feature vector (Ft) by using the first audio signal (ASt) as an input.
  • the first feature vector (Ft) may be stored in memory (not shown).
  • the first feature vector (Ft) stored in memory (not shown) may be used in the process of acquiring a time correlation vector (eg, TCt+1) corresponding to the next frame (eg, Ft+1).
  • the first neural network 112 may be trained to output a feature vector corresponding to each of the audio signals by inputting a dataset consisting of vectorized audio signals. That is, as learning is repeated, the parameters of the first neural network 112 for outputting the feature vector may be updated.
  • FIG. 1C is a block diagram for explaining the specific operation of the time correlation analyzer 120 of FIG. 1A. Content that overlaps with the content described in FIGS. 1A and 1B will be omitted. For example, the description below assumes that M is 5, but the present disclosure is not limited thereto. Since M is assumed to be 5, N can of course be equal to or greater than 5.
  • the temporal correlation analyzer 120 may receive a first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-5). there is.
  • the time correlation analyzer 120 may perform an inner product for each of the first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-5).
  • the time correlation analyzer 120 may perform a dot product of the first feature vector (Ft) and the first feature vector (Ft) (i.e., a dot product of the first feature vector (Ft) itself).
  • the time correlation analyzer 120 generates inner product values for each of the first feature vector (Ft) and at least one second feature vector (Ft-1, ..., Ft-5), and the first feature vector.
  • a time correlation vector (TCt) containing the inner product of (Ft) and the first feature vector (Ft) may be obtained.
  • FIG. 1D is a block diagram for explaining the specific operation of the measuring device 130 of FIG. 1A. Content that overlaps with the content described in FIGS. 1A to 1C will be omitted.
  • the meter 130 may include a concatenation function 132 and a second neural network 134.
  • the measurer 130 may classify the scene corresponding to the first audio signal (ASt) using a feature vector of the current frame, at least one feature vector of at least one previous frame, and a temporal correlation vector corresponding to the current frame. there is.
  • the measurer 130 may receive a first feature vector (Ft), at least one second feature vector (Ft-1, ..., Ft-5), and a time correlation vector (TCt).
  • the connection function 132 may connect a first feature vector (Ft), at least one second feature vector (Ft-1, ..., Ft-5), and a time correlation vector (TCt).
  • the concatenation function 132 can output a concatenated vector.
  • the second neural network 134 may include at least one fully-connected layer and an Argmax function. Before data is output from the fully-connected layer, an activation function may be used. At least one fully-connected layer can output a probability value for a predefined scene type using a connected vector. In one embodiment, an activation function (eg, softmax function) may be used to extract probability values.
  • the Argmax function can output the scene type (i.e., scene classification result (SCt)) with the highest probability value among predefined scene types (e.g., dialogue type, music type, sound effect type).
  • the second neural network 134 is shown as consisting of two fully-connected layers and the argmax function, but this is an example and the present disclosure is not limited thereto. Accordingly, the number of fully-connected layers included in the second neural network 134 can be varied in various ways. Likewise, the connection order and method between each layer can also be changed in various ways.
  • the second neural network 134 may receive the connected vector.
  • the second neural network 134 may output a scene classification result (SCt) using the connected vector as an input.
  • SCt scene classification result
  • a second neural network that takes as input a first feature vector (Ft), at least one second feature vector (Ft-1, ..., Ft-5), and a temporal correlation vector (TCt). Using 134, the scene of the first audio signal (ASt) can be classified.
  • the second neural network 134 may be trained to classify scenes corresponding to each audio signal by using a dataset consisting of a feature vector and a temporal correlation vector as input. That is, as learning is repeated, the parameters of the second neural network 134 for outputting the feature vector may be updated.
  • the first neural network 112 and the second neural network 134 may be jointly learned.
  • the audio scene classifier 100 may be treated and learned as a single neural network.
  • FIG. 2A is a block diagram illustrating a multi-channel audio signal processor according to one embodiment.
  • the multi-channel audio signal processor 200 may include an audio scene classifier 210 and a downmix channel audio generator 220.
  • Audio scene classifier 210 may include a feature extractor 212, a temporal correlation analyzer 214, and a meter 216.
  • the functions and operations of the audio scene classifier 210, feature extractor 212, temporal correlation analyzer 214, and time correlation meter 216 are similar to those of the audio scene classifier 100, feature extractor 110, and temporal correlation analyzer 216 of FIGS. 1A to 1D. Since the functions and operations of the analyzer 120 and the measuring device 130 are similar, redundant content will be omitted.
  • the multi-channel audio signal processor 200 may obtain (or receive) a multi-channel audio signal corresponding to a plurality of frames including a first frame and at least one second frame.
  • a multi-channel audio signal may include multiple channel signals.
  • the multi-channel audio signal processor 200 may extract a first audio signal including at least one channel signal among the multi-channel audio signals.
  • the audio scene classifier 210 may classify the scene of the first audio signal.
  • the downmix channel audio generator 220 may downmix the multi-channel audio signal corresponding to the first frame based on the scene classification result (SCt).
  • the downmix channel audio generator 220 may obtain a downmixing profile 222 corresponding to the scene classification result (SCt).
  • the downmixing profile 222 may include downmixing parameters for mixing a multi-channel audio signal into a multi-channel audio signal with a different channel layout.
  • the downmix channel audio generator 220 converts a multi-channel audio signal (hereinafter, a first multi-channel audio signal) into a multi-channel audio signal (hereinafter, a second multi-channel audio signal) with a different channel layout based on the downmixing profile.
  • Downmixing parameters for mixing can be obtained.
  • the downmixing profile 222 may be different depending on the scene classification result (SCt), the channel layout of the first multi-channel audio signal, and the channel layout of the second multi-channel audio signal.
  • the downmix channel audio generator 220 may downmix the first multi-channel audio signal corresponding to the first frame according to the channel layout of the second multi-channel audio signal based on the downmixing parameters. Downmixing profiles and/or downmixing parameters may be predetermined.
  • the downmix channel audio generator 220 may generate a downmixed audio signal (ie, a second multi-channel audio signal) as a result of downmixing.
  • the downmixed audio signal is also called a second multi-channel audio signal, but may be a mono signal consisting of one channel.
  • Figure 2b is a diagram showing scene classification results according to one embodiment.
  • the audio scene classifiers 100 and 210 may extract the first audio signal (ASt) from the multi-channel audio signal (MCAS).
  • the first audio signal ASt may include C/L/R/SL/SR channel signals of a multi-channel audio signal (MCAS).
  • the first audio signal (ASt) may correspond to the first frame.
  • the audio scene classifiers 100 and 210 may classify the scene corresponding to the first audio signal ASt.
  • the scene corresponding to the first audio signal ASt may be classified into one of a dialogue type, a sound effect type, or a music type.
  • the classification accuracy of the audio scene classifiers 100 and 200 according to one embodiment is summarized in Table 2 below.
  • the audio scene classifiers 100 and 210 classify the first audio signal (ASt) as a conversation type with 98.0% accuracy. predict.
  • the audio scene classifiers 100 and 210 predict the first audio signal ASt to be the sound effect type with an accuracy of 85.1%.
  • the audio scene classifier (100, 210) predicts the first audio signal (ASt) as the music type with an accuracy of 89.9%.
  • the average classification accuracy of the audio scene classifiers 100 and 210 is 95.8%, and scenes corresponding to specific frames of the audio signal can be classified with improved accuracy.
  • FIG. 3A is a diagram for explaining a scalable audio channel layout structure according to an embodiment.
  • a conventional 3D audio decoding device receives compressed audio signals of independent channels of a specific channel layout from a bitstream.
  • a conventional 3D audio decoding device uses compressed audio signals of independent channels received from a bitstream to restore audio signals of 3D audio channels omnidirectional to the listener. At this time, only audio signals of a specific channel layout could be restored.
  • a conventional 3D audio decoding device receives compressed audio signals of independent channels (a first independent channel group) of a specific channel layout from a bitstream.
  • a specific channel layout may be a 5.1 channel layout, and in this case, the compressed audio signal of the first independent channel group may be the compressed audio signal of 5 surround channels and 1 subwoofer channel.
  • the conventional 3D audio decoding apparatus additionally received compressed audio signals of other channels (second independent channel group) independent of the first independent channel group.
  • the compressed audio signal of the second independent channel group may be the compressed audio signal of two height channels.
  • the conventional 3D audio decoding device uses the compressed audio signal of the second independent channel group received from the bitstream separately from the compressed audio signal of the first independent channel group received from the bitstream, The audio signal of the 3D audio channel was restored. Accordingly, an audio signal with an increased number of channels was restored.
  • the audio signal of the 3D audio channel omnidirectional to the listener may be a 5.1.2 channel audio signal.
  • legacy audio decoding devices that only support playback of audio signals in stereo channels cannot properly process compressed audio signals included in the bitstream.
  • a conventional 3D audio decoding device that supports reproduction of 3D audio signals also first decompresses the compressed audio signals of the first independent channel group and the second independent channel group to reproduce the audio signal of the stereo channel ( decrypted). Then, the conventional 3D audio decoding device performed upmixing of the decompressed and generated audio signal. However, there was the inconvenience of having to perform operations such as upmixing to reproduce audio signals of stereo channels.
  • a scalable channel layout structure that can process compressed audio signals in a legacy audio decoding device is required.
  • a scalable channel layout structure capable of processing compressed audio signals according to the 3D audio channel layout supported for playback is provided. It is required.
  • the scalable channel layout structure refers to a layout structure in which the number of channels can be freely increased from the basic channel layout.
  • Audio decoding devices 500 and 700 can restore an audio signal with a scalable channel layout structure from a bitstream.
  • the number of channels can be increased from the stereo channel layout 300 to the 3D audio channel layout 310 in front of the listener.
  • the number of channels can be increased from the 3D audio channel layout 310 in front of the listener to the 3D audio channel layout 320 in all directions of the listener.
  • the 3D audio channel layout 310 in front of the listener may be a 3.1.2 channel layout.
  • the listener's omnidirectional 3D audio channel layout 320 may be a 5.1.2 or 7.1.2 channel layout.
  • the scalable channel layout that can be implemented in this disclosure is not limited to this.
  • audio signals of conventional stereo channels can be compressed. Since the legacy audio decoding device can decompress the compressed audio signal of the basic channel group from the bitstream, it can smoothly reproduce the audio signal of the conventional stereo channel.
  • audio signals of channels other than the audio signals of the conventional stereo channels among multi-channel audio signals may be compressed.
  • some of the audio signals of the channel group may be audio signals mixed with signals from some independent channels among the audio signals of a specific channel layout.
  • some of the audio signals of the basic channel group and the audio signals of the subordinate channel group may be demixed to generate the audio signal of the upmix channel included in the specific channel layout.
  • one or more dependent channel groups may exist.
  • the audio signals of the channels other than the stereo channel audio signals may be compressed as audio signals of the first subordinate channel group.
  • the audio signals of the remaining channels are the audio signals of the second subordinate channel group. It can be compressed.
  • the audio decoding devices 500 and 700 may support playback of audio signals of the three-dimensional audio channel layout 320 in all directions of the listener.
  • the audio decoding devices 500 and 700 create a three-dimensional audio channel layout 320 in the omnidirectional direction of the listener based on the audio signals of the basic channel group, the first subordinate channel group, and the audio signals of the second subordinate channel group. ) audio signal can be restored.
  • the legacy audio signal processing device can ignore compressed audio signals of subordinate channel groups that cannot be restored from the bitstream and reproduce only the audio signals of the stereo channel restored from the bitstream.
  • the audio decoding devices 500 and 700 can process compressed audio signals of the basic channel group and the subordinate channel group to restore the audio signal of a supportable channel layout among the scalable channel layouts.
  • the audio decoding devices 500 and 700 cannot restore compressed audio signals related to an unsupported upper channel layout from the bitstream. Accordingly, compressed audio signals related to upper channel layouts not supported by the audio decoding devices 500 and 700 can be ignored, and only audio signals of supportable channel layouts can be restored from the bitstream.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 which are devices that support scalable channel layout, it is possible to transmit and restore audio signals of a stereo channel layout.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 of one embodiment it is possible to transmit and restore an audio signal with a 3D channel layout in front of the listener.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 can transmit and restore audio signals according to the layout of the stereo channel.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 can freely convert audio signals of the current channel layout into audio signals of a different channel layout. Conversion between channel layouts is possible through mixing/demixing between audio signals of channels included in different channel layouts.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 according to an embodiment support conversion between various channel layouts, so they can transmit and reproduce audio signals of various 3D channel layouts.
  • channel independence is not guaranteed between the channel layout in front of the listener and the channel layout in front of the listener, or between the stereo channel layout and the channel layout in front of the listener, but can be freely converted through mixing/demixing of the audio signal. This is possible.
  • the audio encoding devices 400 and 600 and the audio decoding devices 500 and 700 support processing of audio signals of the channel layout in front of the listener, by transmitting and restoring audio signals corresponding to speakers placed at the center of the screen.
  • the listener's sense of immersion can increase.
  • FIG. 3B is a diagram for explaining an exemplary scalable audio channel layout structure.
  • the audio encoding devices 400 and 600 compress the L2/R2 signal to generate a compressed audio signal (A/B signal) of the basic channel group. You can.
  • the audio encoding devices 400 and 600 may compress the L2/R2 signal and generate an audio signal of the basic channel group.
  • the audio encoding devices 400 and 600 compress the C, LFE, Hfl3, and Hfr3 signals and convert them into the subchannel group.
  • a compressed audio signal can be generated.
  • the audio decoding devices 500 and 700 may decompress the compressed audio signal of the basic channel group and restore the L2/R2 signal. Additionally, the audio decoding devices 500 and 700 can decompress the compressed audio signal of the subordinate channel group and restore the C, LFE, Hfl3, and Hfr3 signals.
  • the audio decoding devices 500 and 700 can restore the L3 signal of the 3.1.2 channel layout 370 by demixing the L2 signal and the C signal (1).
  • the audio decoding devices 500 and 700 can restore the R3 signal of channel 3.1.2 by demixing (2) the R2 signal and the C signal.
  • the audio decoding devices 500 and 700 can output the L3, R3, C, Lfe, Hfl3, and Hfr3 signals as audio signals of the 3.1.2 channel layout 370.
  • the audio encoding devices 400 and 600 may additionally compress the L5 and R5 signals to generate compressed audio signals of the second subordinate channel group. there is.
  • the audio decoding devices 500 and 700 can decompress the compressed audio signal of the basic channel group to restore the L2/R2 signal, and decompress the compressed audio signal of the first subordinate channel group, C, LFE, Hfl3, and Hfr3 signals can be restored. Additionally, the audio decoding devices 500 and 700 may restore the L5 and R5 signals by decompressing the compressed audio signal of the second subordinate channel group. Additionally, as described above, the audio decoding devices 500 and 700 can restore the L3 and R3 signals by demixing some of the decompressed audio signals.
  • the audio decoding devices 500 and 700 may restore the Ls5 signal by demixing (3) the L3 and L5 signals.
  • the audio decoding devices 500 and 700 can restore the Rs5 signal by demixing (4) the R3 and R5 signals.
  • the audio decoding devices 500 and 700 may restore the Hl5 signal by demixing (5) the Hfl3 signal and the Ls5 signal.
  • the audio decoding devices 500 and 700 can restore the Hr5 signal by demixing (6) the Hfr3 signal and the Rs5 signal.
  • Hfr3 and Hr5 are the front right channels among the height channels, respectively.
  • the audio decoding devices 500 and 700 can output Hl5, Hr5, LFE, L, R, C, Ls5, and Rs5 signals as audio signals of the 5.1.2 channel layout 380.
  • the audio encoding devices 400 and 600 may additionally compress the Hfl, Hfr, Ls, and Rs signals as audio signals of the third subordinate channel group.
  • the audio decoding devices 500 and 700 decompress the compressed audio signal of the basic channel group, the compressed audio signal of the first subordinate channel group, and the compressed audio signal of the second subordinate channel group, and perform demixing (1), Hl5, Hr5, LFE, L, R, C, Ls5, and Rs5 signals can be restored through (2), (3), (4), (5), and (6).
  • the audio decoding devices 500 and 700 may decompress the compressed audio signal of the third subordinate channel group and restore the Hfl, Hfr, Ls, and Rs signals.
  • the audio decoding devices 500 and 700 can restore the Lb signal of the 7.1.4 channel layout 390 by demixing the Ls5 signal and the Ls signal (7).
  • the audio decoding devices 500 and 700 can restore the Rb signal of the 7.1.4 channel layout 190 by demixing the Rs5 signal and the Rs signal (8).
  • the audio decoding devices 500 and 700 can restore the Hbl signal of the 7.1.4 channel layout 190 by demixing (9) the Hfl signal and the Hl5 signal.
  • the audio decoding devices 500 and 700 can restore the Hbr signal of the 7.1.4 channel layout 190 by demixing (or mixing) the Hfr signal and the Hr5 signal (10).
  • the audio decoding devices 500 and 700 can output Hfl, Hfr, LFE, C, L, R, Ls, Rs, Lb, Rb, Hbl, and Hbr signals as audio signals in a 7.1.4 channel layout (390). .
  • the audio decoding devices 500 and 700 support a scalable channel layout in which the number of channels is increased through a demixing operation, so that not only the audio signal of the conventional stereo channel layout, but also the audio signal of the three-dimensional audio channel in front of the listener and the listener Even audio signals of omnidirectional 3D audio channels can be restored.
  • the scalable channel layout structure described above in detail with reference to FIG. 3B is only an example, and the channel layout structure can be implemented scalably in a form including various channel layouts.
  • FIG. 4A is a block diagram illustrating an audio encoding device according to an embodiment.
  • the audio encoding device 400 may include a memory 410 and a processor 430.
  • the audio encoding device 400 can be implemented as a device capable of audio processing, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • the memory 410 and the processor 430 are shown separately in FIG. 4A, the memory 410 and the processor 430 may be implemented through a single hardware module (eg, chip).
  • the processor 430 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 430 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • a dedicated processor it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • the processor 430 may be composed of a plurality of processors. In this case, it may be implemented through a combination of dedicated processors, or it may be implemented through a combination of software and multiple general-purpose processors such as AP, CPU, or GPU.
  • Memory 410 may store one or more instructions for audio processing.
  • memory 410 may store a neural network.
  • a neural network When a neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network It may not be stored in memory 410.
  • a neural network may be implemented by an external device (eg, a server), and in this case, the audio encoding device 400 may request and receive result information based on the neural network from the external device.
  • the processor 430 sequentially processes consecutive frames according to instructions stored in the memory 410 to obtain consecutive encoded (compressed) frames.
  • Consecutive frames may refer to frames that constitute audio.
  • the processor 430 may receive an original audio signal as an input, perform an audio processing operation, and output a bitstream including a compressed audio signal.
  • the original audio signal may be a multi-channel audio signal.
  • a compressed audio signal may be a multi-channel audio signal having a number of channels less than or equal to the number of channels of the original audio signal.
  • the processor 430 may perform at least some of the functions of the audio scene classifiers 100 and 210 and the multi-channel audio signal processor 200 of FIGS. 1A to 2A.
  • the bitstream includes a basic channel group and may further include n dependent channel groups (n is an integer greater than or equal to 1). Therefore, the number of channels can be freely increased depending on the number of dependent channel groups.
  • FIG. 4B is a block diagram illustrating an audio encoding device according to an embodiment.
  • the audio encoding device 400 may include a multi-channel audio encoder 450, a bitstream generator 480, and an additional information generator 485.
  • the multi-channel audio encoder 450 may include a multi-channel audio signal processor 460 and a compressor 470.
  • the audio encoding device 400 may include a memory 410 and a processor 430, and each component 450, 460, 470, 480, and 485 of FIG. 4B. ) may be stored in the memory 410 of FIG. 4A.
  • the processor 430 may execute instructions stored in the memory 410.
  • the components 450, 460, 470, 480, and 485 shown in FIG. 4B classify operations performed by the processor 430 by executing a program (or instruction) stored in the memory 410 according to function. You can. Accordingly, the operations described below as being performed by the components 450, 460, 470, 480, and 485 shown in FIG. 4B can be viewed as being actually performed by the processor 430.
  • the multi-channel audio signal processor 460 may obtain at least one audio signal of the basic channel group and at least one audio signal of at least one subordinate channel group from the original audio signal. For example, if the original audio signal is an audio signal of a 7.1.4 channel layout, the multi-channel audio signal processor 460 converts the audio signal of 2 channels (stereo channels) into the basic channel from the audio signal of the 7.1.4 channel layout. It can be acquired as a group audio signal.
  • the multi-channel audio signal processor 460 excludes the 2-channel audio signal from the audio signal of the 3.1.2-channel layout and processes the remaining audio signals.
  • the audio signal of the channel may be acquired as the audio signal of the first subordinate channel group.
  • audio signals of some channels of the first subordinate channel group may be demixed to generate audio signals of de-mixed channels.
  • the multi-channel audio signal processor 460 restores the audio signal of the 5.1.2 channel layout, which is one of the three-dimensional audio channels in front and behind the listener, of the basic channel group and the first subordinate channel group from the audio signal of the 5.1.2 channel layout.
  • the audio signals of the remaining channels, excluding the audio signal, can be obtained as the audio signals of the second subordinate channel group.
  • audio signals of some channels of the second subordinate channel group may be demixed to generate audio signals of de-mixed channels.
  • the multi-channel audio signal processor 460 is configured to restore the basic channel group, the first subordinate channel group, and the first subordinate channel group from the audio signal of the 7.1.4 layout.
  • the audio signals of the remaining channels, excluding the audio signals of the second subordinate channel group, can be obtained as the audio signals of the third subordinate channel group.
  • audio signals of de-mixed channels may be obtained.
  • the compressor 470 may compress the audio signal of the basic channel group and the audio signal of the subordinate channel group. That is, the compressor 470 may obtain at least one compressed audio signal of the basic channel group by compressing at least one audio signal of the basic channel group.
  • compression may mean compression based on various audio codecs.
  • compression may include transformation and quantization processes.
  • the audio signal of the basic channel group may be a mono or stereo signal.
  • the audio signal of the basic channel group may include the audio signal of the first channel generated by mixing the audio signals L and C_1 of the left stereo channel.
  • C_1 may be an audio signal of the center channel in front of the listener that has been compressed and then decompressed.
  • "X_Y" the name of the channel
  • "Y” may indicate that it is decoded, upmixed, a factor for error removal is applied (scaled), or an LFE gain is applied.
  • the decoded signal may be expressed as “X_1”, and the signal generated by upmixing the decoded signal (upmixed signal) may be expressed as “X_2”.
  • a signal to which LFE gain is applied to a decoded LFE signal can also be expressed as 'X_2'.
  • a signal to which a factor for error removal is applied (scaled) to an upmixed signal can be expressed as 'X_3'.
  • the audio signal of the basic channel group may include the audio signal of the second channel generated by mixing the audio signals R and C_1 of the right stereo channel.
  • the compressor 470 may compress at least one audio signal of at least one subordinate channel group to obtain at least one compressed audio signal of at least one subordinate channel group.
  • the additional information generator 485 may generate additional information based on at least one of the original audio signal, the compressed audio signal of the basic channel group, and the compressed audio signal of the subordinate channel group. At this time, the additional information is information related to the multi-channel audio signal and may be various information for restoration of the multi-channel audio signal.
  • the additional information may include an audio object signal of a 3D audio channel in front of the listener indicating at least one of the audio signal, location, shape, area, and direction of the audio object (sound source).
  • the additional information may include information about the total number of audio streams including basic channel audio streams and subordinate channel audio streams.
  • the additional information may include downmix gain information. Additional information may include channel mapping table information. Additional information may include volume information. Additional information may include low frequency effect gain (LFE Gain) information. Additional information may include dynamic range control (DRC) information. Additional information may include channel layout rendering information.
  • Additional information includes information on the number of coupled audio streams, information indicating the layout of multiple channels, information on the presence and level of dialogue in the audio signal, information indicating whether low-frequency effect (LFE) is output, and screen.
  • Information about the presence or absence of an audio object information about the presence or absence of an audio signal of a continuous audio channel (or scene based audio signal; or ambisonic audio signal), non-continuous It may include information about the presence or absence of an audio signal of a discrete audio channel (or an object-based audio signal; or a spatial multi-channel audio signal).
  • the additional information may include information about demixing, including at least one demixing weight parameter of a demixing matrix, for restoring a multi-channel audio signal.
  • information about demixing corresponds to information about (down)mixing
  • information about demixing may include information about (down)mixing.
  • information about demixing may include at least one (down)mixing weight parameter of a (down)mixing matrix. Based on the (down)mixing weight parameters, the demixing weight parameters may be obtained.
  • Additional information may be various combinations of the above-described information. That is, the additional information may include at least one piece of information described above.
  • the additional information generator 485 may generate subordinate channel audio signal identification information indicating the presence of the audio signal of the subordinate channel when the audio signal of the subordinate channel exists, corresponding to at least one audio signal of the basic channel group. there is.
  • the bitstream generator 480 may generate a bitstream including a compressed audio signal of a basic channel group and a compressed audio signal of a subordinate channel group.
  • the bitstream generator 480 may generate a bitstream that further includes additional information generated by the additional information generator 485.
  • bitstream generator 480 may generate a base channel audio stream and a dependent channel audio stream.
  • the basic channel audio stream may include the compressed audio signal of the basic channel group
  • the subordinate channel audio stream may include the compressed audio signal of the subordinate channel group.
  • Bitstream generator 480 may generate a bitstream including a base channel audio stream and a plurality of dependent channel audio streams.
  • the plurality of dependent channel audio streams may include n dependent channel audio streams (n is an integer greater than 1).
  • the basic channel audio stream may include a mono channel audio signal or a stereo channel compressed audio signal.
  • the number of surround channels is Sn-1
  • the number of subwoofer channels is Wn-1
  • the number of height channels is Sn-1.
  • the number of surround channels is Sn
  • the number of subwoofer channels is Wn
  • the number of height channels is Hn.
  • Sn-1 may be less than or equal to Sn
  • Wn-1 may be less than or equal to Wn
  • Hn-1 may be less than or equal to Hn.
  • Sn-1 is the same as Sn
  • Wn-1 is the same as Wn
  • Hn-1 is the same as Hn
  • the number of surround channels in the second multi-channel layout must be greater than the number of surround channels in the first multi-channel layout.
  • the number of subwoofer channels in the second multi-channel layout must be greater than the number of subwoofer channels in the first multi-channel layout.
  • the number of height channels in the second multi-channel layout must be greater than the number of height channels in the first multi-channel layout.
  • the number of surround channels in the second multi-channel layout cannot be smaller than the number of surround channels in the first multi-channel layout.
  • the number of subwoofer channels in the second multi-channel layout cannot be smaller than the number of subwoofer channels in the first multi-channel layout.
  • the number of height channels in the second multi-channel layout cannot be smaller than the number of height channels in the first multi-channel layout.
  • the number of surround channels in the second multi-channel layout is the same as the number of surround channels in the first multi-channel layout
  • the number of subwoofer channels in the second multi-channel layout is equal to the number of subwoofer channels in the first multi-channel layout. is the same as, and also, the number of height channels of the second multi-channel layout cannot be the same as the number of height channels of the first multi-channel layout. That is, all channels of the second multi-channel layout cannot be the same as all channels of the first multi-channel layout.
  • the second channel layout may be a 7.1.4 channel layout.
  • bitstream generator 480 may generate metadata including additional information.
  • bitstream generator 480 may generate a bitstream that includes a base channel audio stream, a dependent channel audio stream, and metadata.
  • the bitstream generator 480 can generate a bitstream in which the number of channels can be freely increased from the basic channel group.
  • the audio signal of the basic channel group can be restored from the basic channel audio stream, and the multi-channel audio signal with the number of channels increased from the basic channel group can be restored from the basic channel audio stream and the subordinate channel audio stream.
  • the bitstream generator 480 can generate a file stream with multiple audio tracks.
  • the bitstream generator 480 may generate an audio stream of the first audio track including at least one compressed audio signal of the basic channel group.
  • Bitstream generator 480 may generate an audio stream of the second audio track that includes dependent channel audio signal identification information.
  • the second audio track is an audio track after the first audio track and may be adjacent to each other.
  • the bitstream generator 480 When there is a dependent channel audio signal corresponding to at least one audio signal of the basic channel group, the bitstream generator 480 generates audio of the second audio track including at least one compressed audio signal of the at least one dependent channel group. Streams can be created.
  • the bitstream generator 480 generates an audio signal of the basic channel group next to the audio signal of the first audio track of the basic channel group.
  • An audio stream of the second audio track containing can be generated.
  • FIG. 4C is a block diagram illustrating a multi-channel audio signal processor according to one embodiment.
  • the multi-channel audio signal processor 460 may include a channel layout identifier 461, a downmix channel audio generator 462, and an audio signal classifier 466.
  • the channel layout identifier 461 can identify at least one channel layout from the original audio signal. At this time, at least one channel layout may include a plurality of hierarchical channel layouts.
  • the channel layout identifier 461 can identify the channel layout of the original audio signal. Additionally, the channel layout identifier 461 can identify a lower channel layout than the channel layout of the original audio signal. For example, if the original audio signal is an audio signal of a 7.1.4 channel layout, the channel layout identifier 461 identifies the 7.1.4 channel layout, and the 5.1.2 channel layout, which is a lower channel layout than the 7.1.4 channel layout. , 3.1.2 channel layout and 2 channel layout can be identified.
  • the upper channel layout refers to a layout in which the number of at least one channel among surround channels/subwoofer channels/height channels is greater than that of the lower channel layout.
  • the upper/lower channel layout may be determined depending on whether the number of surround channels is large or small, and if the number of surround channels is the same, the upper/lower channel layout may be determined depending on whether the number of subwoofer channels is large or small. When the number of subwoofer channels and the number of subwoofer channels are the same, the upper/lower channel layout may be determined depending on whether the number of height channels is large or small.
  • the identified channel layout may include a target channel layout.
  • the target channel layout may refer to the highest channel layout of the audio signal included in the finally output bitstream.
  • the target channel layout may be a channel layout of the original audio signal, or a channel layout lower than the channel layout of the original audio signal.
  • the channel layout identified from the original audio signal may be hierarchically determined from the channel layout of the original audio signal.
  • the channel layout identifier 461 may identify at least one channel layout among predetermined channel layouts.
  • the channel layout identifier 461 is a 7.1.4 channel layout, which is the layout of the original audio signal, and 7.1.4 channel layout, 5.1.4 channel layout, 5.1.2 channel layout, which are some of the predetermined channel layouts. Can identify 3.1.2-channel layout and 2-channel layout.
  • the channel layout identifier 461 generates a first downmix channel audio generator 463, a second downmix channel audio generator 464, ... an N-th downmix channel audio generator 465, based on the identified channel layout.
  • a control signal is transmitted to the downmix channel audio generator corresponding to at least one channel layout identified among the downmix channel audio generator 462, based on the at least one channel layout identified in the channel layout identifier 461, Downmix channel audio can be created from the original audio signal.
  • the downmix channel audio generator 462 may generate downmix channel audio from the original audio signal using a downmixing matrix including at least one downmixing weight parameter.
  • the downmix channel audio generator 462 selects the nth channel layout immediately below the channel layout of the original audio signal from the original audio signal. -You can create downmix channel audio of the first channel layout. By repeating this process, the downmix channel audio generator 462 can generate downmix channel audio of channel layouts below the current channel layout.
  • the downmix channel audio generator 462 includes a first downmix channel audio generator 463, a second downmix channel audio generator 464,..., an n-1 downmix channel audio generator (Mido) Poetry) may be included.
  • n-1 can be less than or equal to N.
  • the n-1th downmix channel audio generator may generate an audio signal of the n-1th channel layout from the original audio signal.
  • the n-2th downmix channel audio generator may generate an audio signal of the n-2th channel layout from the original audio signal.
  • the first downmix channel audio generator 463 can generate an audio signal of the first channel layout from the original audio signal.
  • the audio signal of the first channel layout may be the audio signal of the basic channel group.
  • each downmix channel audio generator (463, 464,..., 465) can be connected in a cascade manner. That is, each of the downmix channel audio generators 463, 464,..., 465 can be connected in such a way that the output of the upper downmix channel audio generator becomes the input of the lower downmix channel audio generator.
  • an audio signal of the n-1th channel layout may be output from an n-1th downmix channel audio generator (not shown) by using the original audio signal as an input, and the audio signal of the n-1th channel layout may be output from the n-1th downmix channel audio generator (not shown).
  • the n-2 downmix channel audio may be input to an n-2 downmix channel audio generator (not shown), and the n-2 downmix channel audio may be generated from the n-2 downmix channel audio generator (not shown).
  • each downmix channel audio generator (463, 464,..., 465) can be connected to output an audio signal of each channel layout.
  • the audio signal classifier 466 may obtain the audio signal of the basic channel group and the audio signal of the subordinate channel group based on the audio signal of at least one channel layout. At this time, the audio signal classifier 466 may mix the audio signal of at least one channel included in the audio signal of at least one channel layout through the mixer 467. The audio signal classifier 466 may classify the mixed audio signal into at least one of a basic channel group signal and a subordinate channel group audio signal.
  • Figure 4d is a diagram for explaining the specific operation of the audio signal classifier.
  • the downmix channel audio generator 462 of FIG. 4C converts the original audio signal of the 7.1.4 channel layout 490 into the audio signal of the 5.1.2 channel layout 491, which is the audio signal of the lower channel layout.
  • an audio signal of a 3.1.2 channel layout (492), an audio signal of a 2-channel layout (493), and an audio signal of a mono channel layout (494) can be obtained. Since each downmix channel audio generator (463, 464,..., 465) of the downmix channel audio generator 462 is connected in a cascade manner, it is possible to sequentially acquire the audio signal of the lower channel layout from the current channel layout. You can.
  • the audio signal classifier 466 of FIG. 4C may classify the audio signal of the mono channel layout 494 as the audio signal of the basic channel group 495.
  • the audio signal classifier 466 may classify the audio signal of the L2 channel, which is part of the audio signals of the 2-channel layout 493, as the audio signal of subordinate channel group #1 (496). Meanwhile, since the audio signal of the L2 channel and the audio signal of the R2 channel are mixed to generate the audio signal of the mono channel layout 494, conversely, the audio decoding devices 500 and 700 mix the audio signal of the mono channel layout 494 and the audio signal of the mono channel layout 494. The audio signal of the R2 channel can be restored by demixing the audio signal of the L2 channel. Therefore, the audio signal of channel R2 may not be classified as an audio signal of a separate channel group.
  • the audio signal classifier 466 classifies the audio signal of the Hfl3 channel, the audio signal of the C channel, the audio signal of the LFE channel, and the audio signal of the Hfr3 channel among the audio signals of the 3.1.2 channel layout 492 into dependent channel group #2 (497 ) can be classified as an audio signal. Since the audio signal of the L3 channel and the audio signal of the Hfl3 channel are mixed to generate the audio signal of the L2 channel, conversely, the audio decoding devices 500 and 700 are dependent on the audio signal of the L2 channel of subordinate channel group #1 (496). The audio signal of the L3 channel can be restored by demixing the audio signal of the Hfl3 channel of channel group #2 (497).
  • the audio signal of the L3 channel may not be classified as an audio signal of a specific channel group.
  • the R3 channel may not be classified as an audio signal of a specific channel group.
  • the audio signal classifier 466 divides the L channel audio signal and the R channel audio signal, which are audio signals of some channels of the 5.1.2 channel layout 491, into audio signals of the R channel. It can be transmitted as an audio signal of subordinate channel group #3 (498). Meanwhile, the audio signal of one of the channels Ls5, Hl5, Rs5, and Hr5 is one of the audio signals of the 5.1.2 channel layout 491, but is not classified as an audio signal of a separate subordinate channel group.
  • signals of channels such as Ls5, Hl5, Rs5, and Hr5 are not only audio signals of the channel in front of the listener, but are also at least one of the audio channels in front, side, and rear of the listener among the audio signals of the 7.1.4 channel layout 490. It is a signal in which audio signals of one channel are mixed. Rather than classifying and compressing the mixed signal into the audio signal of a subordinate channel group, if the audio signal of the audio channel in front of the listener among the original audio signals is compressed as is, the sound quality of the audio signal in the audio channel in front of the listener can be improved. As a result, the listener may feel that the sound quality of the reproduced audio signal has been improved.
  • Ls5 or Hl5 instead of L may be classified as the audio signal of subordinate channel group #3 (498), and Rs5 or Hr5 instead of R may be classified as the audio signal of subordinate channel group #3 (498). there is.
  • the audio signal classifier 466 can classify the signals of the Ls, Hfl, Rs, and Hfr channels among the audio signals of the 7.1.4 channel layout 490 as audio signals of subordinate channel group #4 (499).
  • Lb instead of Ls, Hbl instead of Hfl, Rb instead of Rs, and Hbr instead of Hfr are not classified as audio signals of subordinate channel group #4 (499).
  • the audio signal of the 7.1.4 channel layout 490 rather than classifying and compressing the audio signal of the audio channel behind the listener as the audio signal of the channel group, the audio signal of the audio channel close to the front of the listener among the original audio signals is compressed as is.
  • audio signals of channels such as Lb instead of Ls, Hbl instead of Hfl, Rb instead of Rs, and Hbr instead of Hfr may be classified as audio signals of subordinate channel group #4 (499).
  • the downmix channel audio generator 462 of FIG. 4C can generate audio signals (downmix channel audio) of a plurality of sub-layouts based on the plurality of sub-channel layouts identified from the original audio signal layout.
  • the audio signal classifier 466 in FIG. 2C classifies the audio signal of the basic channel group 495 and the subordinate channel groups #1, #2, #3, and #4 ( 496,497,498,499) audio signals can be classified.
  • the audio signal of the classified channel may be classified as an audio signal of the channel group, with a portion of the audio signal of the independent channel among the audio signals of each channel according to each channel layout.
  • the audio decoding devices 500 and 700 can restore audio signals that are not classified by the audio signal classifier 466 through demixing.
  • the audio signal of the left channel is classified as an audio signal of a specific channel group based on the listener
  • the audio signal of the right channel corresponding to the left channel may also be classified as an audio signal of the corresponding channel group. That is, audio signals of coupled channels can be classified as audio signals of one channel group.
  • the audio signal of the stereo channel layout is classified as the audio signal of the basic channel group 495, all audio signals of the coupled channels may be classified as the audio signal of one channel group.
  • the audio signal of the mono channel layout is classified as the audio signal of the basic channel group 495, as an exception, only one of the audio signals of the stereo channel is subordinate channel group #1. It can be classified as an audio signal of (496).
  • the method of classifying the audio signal of the channel group is not limited to the content described above with reference to FIG. 4D, and may be performed using various methods.
  • the audio signals of the channel group can be classified in various ways. You can.
  • FIG. 5A is a block diagram illustrating a multi-channel audio decoding device according to an embodiment.
  • the audio decoding device 500 may include a memory 510 and a processor 530.
  • the audio decoding device 500 can be implemented as a device capable of audio processing, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • the memory 510 and the processor 530 are shown separately in FIG. 5A, the memory 510 and the processor 530 may be implemented through a single hardware module (eg, chip).
  • the processor 530 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 530 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • a dedicated processor it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • the processor 530 may be comprised of a plurality of processors. In this case, it may be implemented through a combination of dedicated processors, or it may be implemented through a combination of software and multiple general-purpose processors such as AP, CPU, or GPU.
  • Memory 510 may store one or more instructions for audio processing.
  • memory 510 may store a neural network.
  • a neural network When a neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network It may not be stored in memory 510.
  • a neural network may be implemented by an external device (eg, a server), and in this case, the audio decoding device 500 may request and receive result information based on the neural network from the external device.
  • the processor 530 sequentially processes consecutive frames according to instructions stored in the memory 510 to obtain consecutive restored frames.
  • Consecutive frames may refer to frames that constitute audio.
  • the processor 530 may receive a bitstream as input, perform audio processing operations, and output a multi-channel audio signal.
  • the bitstream can be implemented in a scalable form so that the number of channels can be increased from the basic channel group.
  • the processor 530 may obtain the compressed audio signal of the basic channel group from the bitstream, decompress the compressed audio signal of the basic channel group, and decompress the audio signal of the basic channel group (e.g., stereo channel audio). signal) can be restored.
  • the processor 530 may restore the audio signal of the subordinate channel group by decompressing the compressed audio signal of the subordinate channel group from the bitstream.
  • the processor 530 may restore multi-channel audio signals based on the audio signals of the basic channel group and the audio signals of the subordinate channel group.
  • the processor 530 may restore the audio signal of the first subordinate channel group by decompressing the compressed audio signal of the first subordinate channel group from the bitstream.
  • the processor 530 may restore the audio signal of the second subordinate channel group by decompressing the compressed audio signal of the second subordinate channel group.
  • the processor 530 may restore a multi-channel audio signal with an increased number of channels based on the audio signal of the basic channel group and the audio signals of the first subordinate channel group and the second subordinate channel group. Similarly, decompress the compressed audio signals of up to n dependent channel groups (n is an integer greater than 2), and further increase the number of channels based on the audio signals of the basic channel group and the audio signals of n dependent channel groups. It is possible to restore multi-channel audio signals with increased .
  • FIG. 5B is a block diagram illustrating a multi-channel audio decoding device according to an embodiment.
  • the audio decoding device 500 may include an information obtainer 550 and a multi-channel audio decoder 560.
  • the multi-channel audio decoder 560 may include a decompressor 570 and a multi-channel audio signal restorer 580.
  • the audio decoding device 500 may include a memory 510 and a processor 530 of FIG. 5A, and instructions for implementing each component 550, 560, 570, and 580 of FIG. 5B include the memory 510. It can be saved in .
  • the processor 530 may execute instructions stored in the memory 510.
  • the components 550, 560, 570, and 580 shown in FIG. 5B may be classified according to function by performing operations performed by the processor 530 executing a program (or instruction) stored in the memory 510. . Accordingly, the operations described below as being performed by the components 550, 560, 570, and 580 shown in FIG. 5B can be viewed as actually being performed by the processor 530.
  • the information obtainer 550 may obtain the compressed audio signal of the basic channel group from the bitstream. That is, the information obtainer 550 may classify a basic channel audio stream including at least one compressed audio signal of the basic channel group from the bitstream.
  • the information obtainer 550 may obtain at least one compressed audio signal of at least one subordinate channel group from the bitstream. That is, the information obtainer 550 may classify at least one subordinate channel audio stream including at least one compressed audio signal of the subordinate channel group from the bitstream.
  • the bitstream may include a basic channel audio stream and a plurality of subordinate channel streams.
  • the plurality of dependent channel audio streams may include a first dependent channel audio stream and a second dependent channel audio stream.
  • the multi-channel first audio signal restored through the basic channel audio stream and the first subordinate channel audio stream and the multi-channel audio signal restored through the basic channel audio stream, the first subordinate channel audio stream, and the second subordinate channel audio stream.
  • the limitations of channels of the second audio signal will now be explained.
  • the number of surround channels is Sn-1
  • the number of subwoofer channels is Wn-1
  • the number of height channels is Sn-1.
  • the number of surround channels is Sn
  • the number of subwoofer channels is Wn
  • the number of height channels is Hn.
  • Sn-1 may be less than or equal to Sn
  • Wn-1 may be less than or equal to Wn
  • Hn-1 may be less than or equal to Hn.
  • the number of surround channels in the second multi-channel layout must be greater than the number of surround channels in the first multi-channel layout.
  • the number of subwoofer channels in the second multi-channel layout must be greater than the number of subwoofer channels in the first multi-channel layout.
  • the number of height channels in the second multi-channel layout must be greater than the number of height channels in the first multi-channel layout.
  • the number of surround channels in the second multi-channel layout cannot be smaller than the number of surround channels in the first multi-channel layout.
  • the number of subwoofer channels in the second multi-channel layout cannot be smaller than the number of subwoofer channels in the first multi-channel layout.
  • the number of height channels in the second multi-channel layout cannot be smaller than the number of height channels in the first multi-channel layout.
  • the number of surround channels in the second multi-channel layout is the same as the number of surround channels in the first multi-channel layout
  • the number of subwoofer channels in the second multi-channel layout is equal to the number of subwoofer channels in the first multi-channel layout. is the same as, and also, the number of height channels of the second multi-channel layout cannot be the same as the number of height channels of the first multi-channel layout. That is, all channels of the second multi-channel layout cannot be the same as all channels of the first multi-channel layout.
  • the second multi-channel layout may be 7.1.4 channels.
  • the bitstream may be composed of a file stream with a plurality of audio tracks including a first audio track and a second audio track.
  • the information obtainer 550 acquires at least one compressed audio signal of at least one subordinate channel group according to the additional information included in the audio track will be described.
  • the information obtainer 550 may obtain at least one compressed audio signal of the basic channel group from the first audio track.
  • the information obtainer 550 may obtain dependent channel audio signal identification information from the second audio track adjacent to the first audio track.
  • the information obtainer 550 may obtain at least one audio signal of at least one dependent channel group from the second audio track. You can.
  • the information obtainer 550 may obtain the next audio signal of the basic channel group from the second audio track.
  • the information obtainer 550 may obtain additional information related to restoration of multi-channel audio from the bitstream. That is, the information obtainer 550 can classify metadata including the additional information from a bitstream and obtain additional information from the classified metadata.
  • the decompressor 570 may restore the audio signal of the basic channel group by decompressing at least one compressed audio signal of the basic channel group.
  • the decompressor 570 may restore at least one audio signal of at least one subordinate channel group by decompressing at least one compressed audio signal of at least one subordinate channel group.
  • the decompressor 570 may include a separate first decompressor, ..., an nth decompressor (not shown) for decoding the compressed audio signal of each channel group (n channel groups). You can.
  • the first decompressor, ..., and the nth decompressor (not shown) may operate in parallel with each other.
  • the multi-channel audio signal restorer 580 may restore a multi-channel audio signal based on at least one audio signal of the basic channel group and at least one audio signal of at least one subordinate channel group.
  • the multi-channel audio signal restorer 580 is based on the audio signal of the basic channel group and the audio signal of the first subordinate channel group, in front of the listener.
  • the audio signal of a 3D audio channel can be restored.
  • the 3D audio channel in front of the listener may be 3.1.2 channel.
  • the multi-channel audio signal restorer 580 restores the audio signal of the listener's omni-directional audio channel based on the audio signal of the basic channel group, the audio signal of the first subordinate channel group, and the audio signal of the second subordinate channel group. can do.
  • the listener's omnidirectional 3D audio channel may be 5.1.2 channels or 7.1.4 channels.
  • the multi-channel audio signal restorer 580 can restore a multi-channel audio signal based on not only the audio signal of the basic channel group and the audio signal of the subordinate channel group, but also additional information. At this time, the additional information may be additional information for restoration of a multi-channel audio signal.
  • the multi-channel audio signal restorer 580 may output at least one restored multi-channel audio signal.
  • the multi-channel audio signal restorer 580 is configured to restore first audio of a three-dimensional audio channel in front of the listener from at least one audio signal of the basic channel group and at least one audio signal of the at least one subordinate channel group.
  • a signal can be generated.
  • the multi-channel audio signal restorer 580 restores a multi-channel audio signal including a second audio signal of a three-dimensional audio channel in front of the listener based on the first audio signal and the audio object signal of the audio channel in front of the listener. You can.
  • the audio object signal may represent at least one of the audio signal, shape, area, location, and direction of the audio object (sound source), and may be obtained from the information obtainer 550.
  • FIG. 5C is a block diagram illustrating a multi-channel audio signal restorer according to one embodiment.
  • the multi-channel audio signal restorer 580 may include an upmix channel group audio generator 581 and a renderer 586.
  • the upmix channel group audio generator 581 may generate the audio signal of the upmix channel group based on the audio signal of the basic channel group and the audio signal of the subordinate channel group. At this time, the audio signal of the upmix channel group may be a multi-channel audio signal. At this time, a multi-channel audio signal may be generated additionally based on additional information (eg, information about dynamic demixing weight parameters).
  • the upmix channel group audio generator 581 may generate an audio signal of an upmix channel by demixing some of the audio signals of the basic channel group and the audio signals of the subordinate channel group. For example, by demixing the audio signals L and R of the basic channel group and some audio signals C of the subordinate channel group, audio signals L3 and R3 of the de-mixed channel (or upmixed channel) can be generated. You can.
  • the upmix channel group audio generator 581 can generate audio signals of some channels among multi-channel audio signals by bypassing the demixing operation for some of the audio signals of the subordinate channel group. For example, the upmix channel group audio generator 581 bypasses the demixing operation for the audio signals of channels C, LFE, Hfl3, and Hfr3, which are some audio signals of the subordinate channel group, and produces C, Audio signals of LFE, Hfl3, and Hfr3 channels can be generated.
  • the upmix channel group audio generator 581 generates the audio signal of the upmix channel group based on the audio signal of the upmix channel generated through demixing and the audio signal of the subordinate channel group in which the demixing operation was bypassed. can be created.
  • the upmix channel group audio generator 581 is based on the audio signals of the L3 and R3 channels, which are the audio signals of the demixing channel, and the audio signals of the C, LFE, Hfl3, and Hfr3 channels, which are the audio signals of the subordinate channel group.
  • 3.1.2 channel audio signals L3, R3, C, LFE, Hfl3, Hfr3 channel audio signals can be generated.
  • the renderer 586 may include a volume control unit 388 and a limiter 389.
  • the multi-channel audio signal input to the renderer 586 may be a multi-channel audio signal with at least one channel layout. At this time, the multi-channel audio signal input to the renderer 586 may be a pulse-code modulation (PCM) signal.
  • PCM pulse-code modulation
  • the volume (loudness) of the audio signal of each channel can be measured based on ITU-R BS.1770, and this can be signaled through the additional information of the bitstream.
  • the volume control unit 388 may control the volume of the audio signal of each channel to a target volume (for example, -24LKFS) and output the volume based on volume information signaled through the bitstream.
  • a target volume for example, -24LKFS
  • the limiter 389 may limit the true peak level of the audio signal (eg, limit to -1 dBTP) after volume control.
  • the post-processing components 588 and 589 included in the renderer 586 have been described, but the scope is not limited thereto, and at least one component may be omitted and the order of each component may be changed depending on the case. there is.
  • the multi-channel audio signal outputter 590 may output at least one post-processed multi-channel audio signal.
  • the multi-channel audio signal outputter 590 receives a post-processed multi-channel audio signal as an input according to the target channel layout, and outputs the audio signal of each channel of the multi-channel audio signal to an audio output device corresponding to each channel. It can be output as .
  • Audio output devices may include various types of speakers.
  • Figure 5D is a block diagram illustrating an upmix channel audio generator according to one embodiment.
  • the upmix channel group audio generator 581 may include a demixer 582.
  • the demixer 582 may include a first demixer 583, a second demixer 584,..., an N-th demixer 585.
  • the demixer 582 converts audio signals of new channels (upmix channels or demix channels) from audio signals of some channels (decoded channels) of the audio signals of the basic channel group and the audio signals of the subordinate channel group. It can be obtained. That is, the demixer 582 can obtain an audio signal of one upmix channel from at least one audio signal in which several channels are mixed. The demixer 582 can output an audio signal of a specific layout including the audio signal of the upmix channel and the audio signal of the decoded channel.
  • the demixing operation of the audio signal of the basic channel group may be bypassed in the demixer 582 and output as the audio signal of the first channel layout.
  • the first demixer 583 may demix audio signals of some channels by receiving the audio signal of the basic channel group and the audio signal of the first subordinate channel group as input. At this time, an audio signal of a demix channel (or upmix channel) may be generated. The first demixer 583 may generate an audio signal of an independent channel by bypassing the mixing operation of the audio signal of the remaining channel. The first demixer 583 may output an audio signal of a second channel layout, which is a signal including an audio signal of an upmix channel and an audio signal of an independent channel.
  • the second demixer 584 demixes the audio signals of some channels among the audio signals of the second channel layout and the audio signals of the second subordinate channels, thereby converting the audio signals of the demix channel (or upmix channel). can be created.
  • the second demixer 584 may generate an audio signal of an independent channel by bypassing the mixing operation of the audio signal of the remaining channel.
  • the second demixer 584 may output an audio signal of a third channel layout, including an audio signal of an upmix channel and an audio signal of an independent channel.
  • the nth demixer (not shown) operates on the basis of the audio signal of the n-1th channel layout and the audio signal of the n-1th subordinate channel group. Audio signals of the channel layout can be output. n can be less than or equal to N.
  • the N-th demixer 585 may output an audio signal of the N-th channel layout based on the audio signal of the N-1th channel layout and the audio signal of the N-1 subordinate channel group.
  • audio signal of the lower channel layout is directly input to each demixer (583, 584,..., 585), but the audio signal of the channel layout output through the renderer 586 of FIG. 5C is input to each demixer (583, 584,..., 585). It can be entered in (583,584,..,585). That is, audio signals of the post-processed sub-channel layout can be input to each demixer (583, 584,..., 585).
  • each demixer (583, 584,..., 585) is connected in cascade to output audio signals of each channel layout.
  • an audio signal of a specific layout may be output from the audio signal of the basic channel group and the audio signal of at least one subordinate channel group.
  • the level of the audio signal generated by mixing signals from multiple channels in the audio encoding devices 400 and 600 is lowered using a downmix gain to prevent clipping.
  • the audio decoding devices 500 and 700 may adjust the level of the audio signal to the level of the original audio signal based on the corresponding downmix gain for the mixed signal.
  • the operation based on the above-described downmix gain can be performed for each channel or channel group.
  • the audio encoding devices 400 and 600 may signal information about the downmix gain for each channel or channel group through additional information of the bitstream. Accordingly, the audio decoding devices 500 and 700 may obtain information about the downmix gain for each channel or channel group from the side information of the bitstream, and perform the above-described operation based on the downmix gain.
  • the demixer 582 may perform a demixing operation based on the dynamic demixing weight parameter of the demixing matrix (corresponding to the downmixing weight parameter of the downmixing matrix).
  • the audio encoding devices 400 and 600 may signal the dynamic demixing weight parameter or the corresponding dynamic downmixing weight parameter through the side information of the bitstream.
  • Some demixing weight parameters are not signaled and may have fixed values.
  • the audio decoding devices 500 and 700 obtain information about dynamic demixing weight parameters (or information about dynamic downmixing weight parameters) from the side information of the bitstream, and information about the obtained dynamic demixing weight parameters (or A demixing operation can be performed based on (information about dynamic downmixing weight parameters).
  • FIG. 6A is a block diagram illustrating an audio encoding device according to an embodiment.
  • the audio encoding device 600 may include a multi-channel audio encoder 650, a bitstream generator 680, and an error removal-related information generator 690.
  • the multi-channel audio encoder 650 may include a multi-channel audio signal processor 660 and a compressor 670.
  • each component 650, 660, 670, 680, and 690 of FIG. 6A may be implemented by the memory 410 and processor 430 of FIG. 4A.
  • the audio encoding device 400 may include a memory 410 and a processor 430, and instructions for implementing each component 650, 660, 670, 680, and 690 of FIG. 6A are It may be stored in memory 410 of FIG. 4A.
  • the processor 430 may execute instructions stored in the memory 410.
  • the components 650, 660, 670, 680, and 690 shown in FIG. 6A classify operations performed by the processor 430 by executing a program (or instruction) stored in the memory 410 according to function. You can. Accordingly, the operations described below as being performed by the components 650, 660, 670, 680, and 690 shown in FIG. 6A can be viewed as being actually performed by the processor 430.
  • multi-channel audio encoder 650 multi-channel audio signal processor 660, compressor 670, and bitstream generator 680 of FIG. 6A are similar to those of the multi-channel audio encoder 450 and multi-channel audio signal processor of FIG. 4B. Since each corresponds to the operations of 460, compressor 470, and bitstream generator 480, the detailed description will be replaced with the description of FIG. 4B.
  • the error removal-related information generator 690 may be included in the additional information generator 485 of FIG. 4B, but is not limited thereto and may exist separately.
  • the error removal-related information generator 690 may determine a factor (eg, scaling factor) for error removal based on the first power value and the second power value.
  • the first power value may be the energy value of one channel of the original audio signal or the audio signal of one channel obtained by downmixing from the original audio signal.
  • the second power value may be the power value of the audio signal of one upmix channel among the audio signals of the upmix channel group.
  • the audio signal of the upmix channel group may be an audio signal obtained by demixing the basic channel restoration signal and the subordinate channel restoration signal.
  • the error removal-related information generator 690 can determine a factor for error removal for each channel.
  • the error removal-related information generator 690 may generate error removal-related information including information on factors for the determined error removal.
  • the bitstream generator 680 may generate a bitstream that further includes information related to error removal. The specific operation of the error removal-related information generator 690 will be described later with reference to FIG. 6B.
  • FIG. 6B is a block diagram illustrating an error removal-related information generator according to an embodiment.
  • the error removal-related information generator 690 may include a decompressor 692, a demixer 694, an RMS value determiner 696, and an error removal factor determiner 698.
  • the decompressor 692 may decompress the compressed audio signal of the basic channel group and generate a basic channel restoration signal. Additionally, the decompressor 692 may generate a dependent channel restoration signal by decompressing the compressed audio signal of the dependent channel group.
  • the demixer 694 may generate an audio signal of an upmix channel group by demixing the basic channel restoration signal and the dependent channel restoration signal. Specifically, the demixer 694 may generate audio signals of an upmix channel (or demix channel) by demixing audio signals of some channels among the audio signals of the basic channel group and the subordinate channel group. Additionally, the demixer 694 may bypass the demixing operation for some of the audio signals of the basic channel group and the subordinate channel group.
  • the demixer 694 may acquire the audio signal of the upmix channel group including the audio signal of the upmix channel and the audio signal for which the demixing operation has been bypassed.
  • the RMS value determiner 696 may determine the RMS value of the first audio signal of one upmix channel from the upmix channel group.
  • the RMS value determiner 696 may determine the RMS value of the second audio signal of one channel of the original audio signal or the RMS value of the second audio signal of one channel of the audio signal downmixed from the original audio signal.
  • the channel of the first audio signal and the channel of the second audio signal represent the same channel within a predetermined channel layout.
  • the error removal factor determiner 698 may determine a factor for error removal based on the RMS value of the first audio signal and the RMS value of the second audio signal. For example, a value generated by dividing the RMS value of the first audio signal by the RMS value of the second audio signal may be obtained as the factor value for error removal.
  • the error removal factor determiner 698 may generate information regarding the determined factor for error removal.
  • the error removal factor determiner 698 may output information related to error removal including information on factors for error removal.
  • FIG. 7A is a block diagram illustrating an audio decoding device according to an embodiment.
  • the audio decoding device 700 includes an information obtainer 750, a multi-channel audio decoder 760, a decompressor 770, a multi-channel audio signal restorer 780, and error removal related information. It may include an acquirer 755.
  • each component 750, 755, 760, 770, and 780 of FIG. 7A may be implemented by the memory 510 and processor 530 of FIG. 5A.
  • the audio decoding device 500 may include a memory 510 and a processor 430, and instructions for implementing each component 750, 755, 760, 770, and 780 of FIG. 7A are It may be stored in memory 510 of FIG. 5A.
  • the processor 530 may execute instructions stored in the memory 510.
  • the components 750, 755, 760, 770, and 780 shown in FIG. 7A classify operations performed by the processor 530 by executing a program (or instruction) stored in the memory 510 according to function. You can. Accordingly, the operations described below as being performed by the components 750, 755, 760, 770, and 780 shown in FIG. 7A can be viewed as actually being performed by the processor 530.
  • the operations of the information information acquirer 750, decompressor 770, and multi-channel audio signal restorer 780 of FIG. 7A are similar to those of the information acquirer 550, decompressor 570, and multi-channel audio signal of FIG. 5B. Since each operation of the signal restorer 580 is included, the overlapping description will be replaced with the description of FIG. 5B. Hereinafter, parts that do not overlap with Figure 5b will be described.
  • the information obtainer 750 may obtain metadata from the bitstream.
  • the error removal-related information obtainer 755 may obtain information related to error removal from metadata included in the bitstream.
  • the information about the factor for error removal included in the error-related information may be a factor for error removal of the audio signal of an upmix channel of one of the upmix channel groups.
  • the error removal-related information obtainer 755 may be included in the information obtainer 750.
  • the multi-channel audio signal restorer 780 may generate an audio signal of the upmix channel group based on at least one audio signal of the basic channel and at least one audio signal of the subordinate channel group.
  • the audio signal of the upmix channel group may be a multi-channel audio signal.
  • the multi-channel audio signal restorer 780 can restore the audio signal of one upmix channel included in the upmix channel group by applying a factor for error removal to the audio signal of the one upmix channel.
  • the multi-channel audio signal restorer 780 can output a multi-channel audio signal including the restored audio signal of the one upmix channel.
  • FIG. 7B is a block diagram illustrating a multi-channel audio signal restorer according to an embodiment.
  • the multi-channel audio signal restorer 780 may include an upmix channel group audio generator 781 and a renderer 783.
  • the renderer 783 may include an error remover 784, a volume controller 785 and a limiter 786, and a multi-channel audio signal outputter 787.
  • the upmix channel group audio generator 781, error remover 784, volume controller 785, limiter 786, and multi-channel audio signal outputter 787 of FIG. 7B are similar to the upmix channel group audio generator 581 of FIG. 5C. ), the volume controller 588, the limiter 589, and the multi-channel audio signal outputter 590, so the overlapping description will be replaced with the description of FIG. 5C. Hereinafter, parts that do not overlap with FIG. 5C will be described.
  • the error remover 784 removes the error of the first channel from the audio signal of the first upmix channel among the upmix channel group of the multi-channel audio signal and the error removal factor of the first upmix channel. It can be restored.
  • the factor for error removal is based on the RMS value of the audio signal of the first channel of the original audio signal or the audio signal downmixed from the original audio signal and the RMS value of the audio signal of the first upmix channel among the upmix channel group. It can be a value.
  • the first channel and the first upmix channel may represent the same channel in a predetermined channel layout.
  • the error remover 784 determines that the RMS value of the audio signal of the first upmix channel among the current upmix channel group is the original audio signal or the first channel of the audio signal downmixed from the original audio signal. By setting the RMS value of the audio signal to , errors due to encoding can be removed.
  • the error remover 784 may perform smoothing on the factor for error removal and determine the factor for error removal used in the section adjacent to the frame boundary.
  • the section adjacent to the frame boundary refers to the end section of the previous frame based on the boundary and the beginning section of the next frame based on the boundary.
  • Each section may include a predetermined number of samples.
  • smoothing refers to the operation of converting a factor for removing errors between discontinuous adjacent audio frames in a frame boundary section into a factor for continuous error removal.
  • the multi-channel audio signal outputter 787 can output a multi-channel audio signal including an error-removed audio signal of one channel.
  • At least one of the post-processing components 785 and 786 included in the renderer 783 may be omitted, and the post-processing components 784, 785, and 786 including the error remover 784.
  • the order may change depending on the case.
  • the audio encoding devices 400 and 600 can generate bitstreams.
  • the audio encoding devices 400 and 600 can transmit the generated bitstream.
  • the bitstream may be generated in the form of a file stream.
  • Audio decoding devices 500 and 700 can receive a bitstream.
  • the audio decoding devices 500 and 700 can restore multi-channel audio signals based on information obtained from the received bitstream.
  • the bitstream may be included in a predetermined file container.
  • the predetermined file container may be a media container for MPEG-4 for compressing various multimedia digital data, such as an MP4 (MPEG-4 Part 14) container.
  • FIG. 8A is a diagram illustrating the transmission order and rules of audio streams within each channel group by an audio encoding device according to an embodiment.
  • the audio stream transmission order and rules within each channel group may be as follows.
  • the audio encoding devices 400 and 600 may transmit the coupled stream first and then transmit the uncoupled stream.
  • the audio encoding devices 400 and 600 may first transmit the coupled stream for the surround channel and then transmit the coupled stream for the height channel.
  • the audio encoding devices 400 and 600 may first transmit the coupled stream for the front channel and then transmit the coupled stream for the side or rear channel.
  • the audio encoding devices 400 and 600 may transmit the stream for the center channel first, and then transmit the streams for the LFE channel and other channels.
  • other channels may exist when the basic channel group includes only mono channel signals.
  • the other channel may be either the right channel L2 or the left channel R2 of the stereo channel.
  • the audio encoding devices 400 and 600 can compress the audio signals of the coupled channels into one pair.
  • the audio encoding devices 400 and 600 may transmit a coupled stream containing audio signals compressed as a pair.
  • coupled channels refer to channels that are left and right symmetrical, such as L/R channels, Ls/Rs, Lb/Rb, Hfl/Hfr, Hbl/Hbr, etc.
  • the audio encoding devices 400 and 600 compress the L1 signal and R1 signal, which are two-channel audio signals, and the compressed L1 signal and R1 signal are included in the bitstream of the basic channel group (BCG). Can be included in the C1 bitstream.
  • BCG basic channel group
  • the audio encoding devices 400 and 600 can compress the 4-channel audio signal into the audio signal of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the Hfl3 signal and the Hfr signal, and the compressed Hfl3 signal and Hfr3 signal may be included in the C2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the C signal, and the compressed C signal may be included in the M1 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the LFE signal, and the compressed LFE signal may be included in the M2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio decoding devices 500 and 700 can restore an audio signal of a 3.1.2 channel layout based on the compressed audio signals of the basic channel group and subordinate channel group #1.
  • Subordinate channel group #2 Next, the audio encoding devices 400 and 600 can compress the 6-channel audio signal into the audio signal of subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the L signal and the R signal, and the compressed L signal and R signal may be included in the C3 bitstream among the bitstreams of subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the Ls signal and the Rs signal, and the compressed Ls signal and Rs signal may be included in the C4 bitstream among the bitstreams of subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the Hfl signal and the Hfr signal, and the compressed Hfl signal and Hfr signal may be included in the C5 bitstream among the bitstreams of subordinate channel group #2.
  • the audio decoding devices 500 and 700 can restore the audio signal of the 7.1.4 channel layout based on the compressed audio signals of the basic channel group, subordinate channel group #1, and subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the L2 signal and R2 signal, which are two-channel audio signals, and the compressed L2 signal and R2 signal may be included in the C1 bitstream among the bitstreams of the basic channel group.
  • the audio encoding devices 400 and 600 can compress the 6-channel audio signal into the audio signal of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the L signal and the R signal, and the compressed L signal and R signal may be included in the C2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the Ls signal and the Rs signal, and the compressed Ls signal and Rs signal may be included in the C3 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the C signal, and the compressed C signal may be included in the M1 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the LFE signal, and the compressed LFE signal may be included in the M2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio decoding devices 500 and 700 can restore the audio signal of the 7.1.0 channel layout based on the compressed audio signal of the basic channel group and subordinate channel group #1.
  • the audio encoding devices 400 and 600 can compress the 4-channel audio signal into the audio signal of subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the Hfl signal and the Hfr signal, and the compressed Hfl signal and Hfr signal may be included in the C4 bitstream among the bitstreams of subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the Hbl signal and the Hbr signal, and the compressed Hbl signal and Hbr signal may be included in the C5 bitstream among the bitstreams of subordinate channel group #2.
  • the audio decoding devices 500 and 700 can restore the audio signal of the 7.1.4 channel layout based on the compressed audio signals of the basic channel group, subordinate channel group #1, and subordinate channel group #2.
  • the audio encoding devices 400 and 600 compress the L2 signal and R2 signal, which are two-channel audio signals, and the compressed L2 signal and R2 signal may be included in the C1 bitstream among the bitstreams of the basic channel group.
  • the audio encoding devices 400 and 600 can compress the 10-channel audio signal into the audio signal of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the L signal and the R signal, and the compressed L signal and R signal may be included in the C2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the Ls signal and the Rs signal, and the compressed Ls signal and Rs signal may be included in the C3 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the Hfl signal and the Hfr signal, and the compressed Hfl signal and Hfr signal may be included in the C4 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the Hbl signal and the Hbr signal, and the compressed Hbl signal and Hbr signal may be included in the C5 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the C signal, and the compressed C signal may be included in the M1 bitstream among the bitstreams of subordinate channel group #1.
  • the audio encoding devices 400 and 600 compress the LFE signal, and the compressed LFE signal may be included in the M2 bitstream among the bitstreams of subordinate channel group #1.
  • the audio decoding devices 500 and 700 can restore the audio signal of the 7.1.4 channel layout based on the compressed audio signal of the basic channel group and subordinate channel group #1.
  • the audio decoding devices 500 and 700 can perform demixing step by step using at least one upmixing unit. Demixing is performed based on audio signals of channels included in at least one channel group.
  • the 1.x to 2.x upmixing unit can demix the audio signal of the right channel from the audio signal of the mixed mono channel, which is the right channel.
  • the 2.x to 3.x upmixing unit may demix the audio signal of the center channel from the audio signal of the L2 channel and the audio signal of the R2 channel, which are the mixed center channel.
  • the 2.x to 3.x upmixing unit mixes the L3 channel and the R3 channel from the audio signal of the L2 channel, the audio signal of the R2 channel, and the audio signal of the C channel. You can demix the audio signal of a channel.
  • the 3.x to 5.x upmixing unit mixes the audio signal of the L3 channel and the R3 channel, which are the mixed Ls5/Rs5 channels, the audio signal of the L(5) channel, and the R(5) channel.
  • the audio signals of the Ls5 channel and Rs5 channel can be demixed from the audio signals of the channels.
  • the 5.x to 7.x upmixing unit (fourth upmixing unit) produces the audio signals of the Lb channel and the Rb channel from the audio signal of the Ls5 channel, the audio signal of the Ls7 channel, and the audio signal of the Rs7 channel, which are the mixed Lb/Rb channels. Audio signals can be demixed.
  • the x.x.2(FH) to x.x.2(H) upmixing unit mixes the audio signal of the Hfl3 channel, which is the mixed Ls/Rs channel, the audio signal of the Hfr3 channel, the audio signal of the L3 channel, and the L5 channel.
  • the audio signals of the Hl channel and the Hr channel can be demixed from the audio signal, the audio signal of the R3 channel, and the audio signal of the R5 channel.
  • the x.x.2(H) to x.x.4 upmixing unit (the 5th upmixing unit) produces Hbl channel and The audio signal of the Hbr channel can be demixed.
  • the audio decoding devices 500 and 700 may perform demixing into a 3.1.2 channel layout using the first upmixer.
  • the audio decoding devices 500 and 700 use the second and third mixing units for the surround channel and the fourth and fifth upmixing units for the height channel to convert the audio to the 7.1.4 channel layout. Demixing can be performed.
  • the audio decoding devices 500 and 700 may perform demixing to a 7.1.0 channel layout using the first mixing unit, second mixing unit, and third mixing unit.
  • the audio decoding devices 500 and 700 may not perform demixing from the 7.1.0 channel layout to the 7.1.4 channel layout.
  • the audio decoding devices 500 and 700 may perform demixing into a 7.1.4 channel layout using the first mixing unit, second mixing unit, and third mixing unit.
  • the audio decoding devices 500 and 700 may not perform demixing on the height channel.
  • Si+Wi+Hi may be the number of channels for channel group #i.
  • the number of channels for channel group #i may be greater than the number of channels for channel group #i-1.
  • Channel group #i may contain as many of Cli's original channels (display channels) as possible.
  • Original channels may follow the following priorities:
  • the priority of the high channel may be higher than that of other channels.
  • the center channel and LFE channel may have priority over other channels.
  • the priority of the height front channel may be ahead of the priorities of the side channels and the height rear channel.
  • the priority of the side channel may be ahead of the priority of the rear channel. Additionally, the priority of the left channel may be ahead of the priority of the right channel.
  • n 4
  • CL0 is a stereo channel
  • CL1 is a 3.1.2 channel
  • CL2 is a 5.1.2 channel
  • CL3 is a 7.1.4 channel
  • a channel group can be created as follows.
  • the audio encoding devices 400 and 600 can generate a basic channel group including A(L2) and B(R2) signals.
  • the audio encoding devices 400 and 600 may generate dependent channel group #3 including V1 (Hfl) and V2 (Hfr) signals, U1 (Ls), and U2 (Rs).
  • the audio decoding devices 500 and 700 can restore 7.1.4 channel audio signals from decompressed audio signals using a downmixing matrix.
  • the downmixing matrix may include, for example, downmixing weight parameters as shown in Table 3 below.
  • cw is the center weight, which can be 0 if the channel layout of the basic channel group is a 3.1.2 channel layout, and can be 1 if the layout of the basic channel group is a 2-channel layout.
  • w may be a surround-to-height mixing weight.
  • ⁇ , ⁇ , ⁇ , and ⁇ are downmixing weight parameters and may be variable.
  • the audio encoding devices 400 and 600 may generate a bitstream including downmixing weight parameter information such as ⁇ , ⁇ , ⁇ , ⁇ , and w, and the audio decoding devices 500 and 700 may generate downmixing weight parameter information from the bitstream. It can be obtained.
  • weight parameter information of the downmixing matrix may be in the form of an index.
  • the weight parameter information of the downmixing matrix may be index information representing one downmixing (or demixing) weight parameter set among a plurality of downmixing (or demixing) weight parameter sets.
  • at least one downmixing (or demixing) weight parameter corresponding to one downmixing (or demixing) weight parameter set may exist in the form of a LUT.
  • the weight parameter information of the downmixing (or demixing) matrix may be information representing one downmixing (or demixing) weight parameter set among a plurality of downmixing (or demixing) weight parameter sets, and one In the LUT corresponding to the downmixing (or demixing) weight parameter set, at least one of ⁇ , ⁇ , ⁇ , ⁇ , and w may be predefined. Accordingly, the audio decoding devices 500 and 700 can obtain ⁇ , ⁇ , ⁇ , ⁇ , and w corresponding to one downmixing (demixing) weight parameter set.
  • a matrix for downmixing from a first channel layout to an audio signal of a second channel layout may include a plurality of matrices. For example, it may include a first matrix for downmixing from a first channel layout to a third channel layout and a second matrix for downmixing from a third channel layout to a second channel layout.
  • the matrix for downmixing from a 7.1.4 channel layout to an audio signal of a 3.1.2 channel layout is the matrix for downmixing from a 7.1.4 channel layout to an audio signal of a 5.1.4 channel layout. It may include a first matrix and a second matrix for downmixing from a 5.1.4 channel layout to an audio signal of a 3.1.2 channel layout.
  • Tables 4 and 5 are the first and second matrices for downmixing from a 7.1.4 channel layout to an audio signal of a 3.1.2 channel layout based on content-based downmix parameters and surround-to-height based weights.
  • ⁇ , ⁇ , ⁇ , and ⁇ are one of the downmixing parameters, and w may mean surround to height weight.
  • demixing weight parameters ⁇ and ⁇ can be used.
  • the demixing weight parameter ⁇ For upmixing from the x.x.2(H) channel to the x.x.4 channel, the demixing weight parameter ⁇ can be used.
  • a demixing weight parameter ⁇ For upmixing from a 3.x channel to a 5.x channel, a demixing weight parameter ⁇ can be used.
  • demixing weight parameters w and ⁇ can be used.
  • demixing weight parameter -3dB For upmixing from 2.x channel to 3.x channel, demixing weight parameter -3dB can be used. That is, the demixing weight parameter may be a fixed number and may not be signaled.
  • a demixing weight parameter of -6dB can be used for upmixing to 1.x channels and 2.x channels. That is, the demixing weight parameter may be a fixed number and may not be signaled.
  • the demixing weight parameter used for demixing may be a parameter included in one type among a plurality of types.
  • the demixing weight parameters ⁇ , ⁇ , ⁇ , and ⁇ of Type 1 may be 0dB, 0dB, -3dB, and -3dB.
  • the demixing weight parameters ⁇ , ⁇ , ⁇ , and ⁇ of Type 2 may be -3dB, -3dB, -3dB, and -3dB.
  • the demixing weight parameters ⁇ , ⁇ , ⁇ , and ⁇ of Type 3 can be 0dB, -1.25dB, -1.25dB, and -1.25dB.
  • Type 1 indicates when the audio signal is a general audio signal
  • Type 2 indicates when the audio signal includes dialogue (dialogue type)
  • Type 3 indicates when sound effects exist in the audio signal (sound effect type). It can be.
  • the audio encoding devices 400 and 600 may analyze the audio signal and determine one type among a plurality of types according to the analyzed audio signal.
  • the audio encoding devices 400 and 600 may perform downmixing on the original audio using the determined type of demixing weight parameter to generate an audio signal of a lower channel layout.
  • the audio encoding devices 400 and 600 may generate a bitstream including index information indicating one type among a plurality of types.
  • the audio decoding devices 500 and 700 may obtain index information from the bitstream and identify one type among a plurality of types based on the obtained index information.
  • the audio decoding devices 500 and 700 may restore the audio signal of a specific channel layout by upmixing the audio signal of the decompressed channel group using the identified demixing weight parameter of one type.
  • the audio signal generated according to downmixing can be expressed by Equation 1 below. That is, instead of being limited to operations using a downmixing matrix, downmixing can be performed based on operations using mathematical equations in the form of a first-order polynomial, and each downmixed audio signal can be generated.
  • ⁇ and ⁇ may be values used when downmixing the number of surround channels from 7 channels to 5 channels.
  • ⁇ or ⁇ may be one of 1 (i.e., 0 dB), 0.866 (i.e., -1.25 dB), or 0.707 (i.e., -3 dB).
  • may be a value used when downmixing the number of surround channels from 5 channels to 3 channels.
  • can be either 0.866 or 0.707.
  • w' may be a value used when downmixing from H2 (eg, a height channel of a 5.1.2 channel layout or a 7.1.2 channel layout) to Hf2 (a height channel of a 3.1.2 channel layout).
  • demixing is not limited to operations using a demixing matrix, but is performed step by step based on operations using mathematical expressions in the form of a first-order polynomial (the calculation process of each mathematical expression corresponds to one demixing process). And each demixed audio signal can be generated.
  • w' is for downmixing from H2 (e.g., the height channel in a 5.1.2-channel layout or 7.1.2-channel layout) to Hf2 (the height channel in a 3.1.2-channel layout) or Hf2 (the height channel in a 3.1.2-channel layout). ) may be a value used when demixing from H2 (e.g., the height channel of a 5.1.2 channel layout or a 7.1.2 channel layout).
  • the sum w value and the w' corresponding to the sum w value may be updated according to w.
  • w can be -1 or 1, and can be transmitted per frame.
  • the sum w value increases by 1, and if w is -1 for each frame, it can decrease by 1. if When the sum w value increases or decreases by 1, if it is outside the range of 0 to 10, The sum w value can remain at 0 or 10.
  • Table 5 showing the relationship between w' and sum w is as follows. That is, the w' value is gradually updated for each frame and can be used when demixing from Hf2 to H2.
  • demixing may be performed by integrating a plurality of demixing process steps.
  • the signal of the Ls5 channel or Rs5 channel demixed from the two surround channels of L2 and R2 can be expressed as Equation 3, which summarizes the second to fifth equations of Equation 2.
  • Equation 4 the signal of the Hl or Hr channel demixed from the two surround channels of L2 and R2 can be expressed as Equation 4, which summarizes the second and third equations and the eighth and ninth equations of Equation 2.
  • Figures 8b and 8c are diagrams to explain a mechanism for step-by-step downmixing according to an embodiment. Stepwise downmixing for the surround and height channels may have a mechanism as shown in Figures 8b and 8c, for example.
  • Downmixing-related information may be index information indicating one of a plurality of modes based on combinations of five predetermined downmixing weight parameters (or demixing weight parameters). For example, as shown in Table 7, downmixing weight parameters corresponding to a plurality of modes may be predetermined.
  • Mode Downmixing weight parameters ( ⁇ , ⁇ , ⁇ , ⁇ , w) (or demixing weight parameters) One (1, 1, 0.707, 0.707, -1) 2 (0.707, 0.707, 0.707, -1) 3 (1, 0.866, 0.866, 0.866, -1) 4 (1, 1, 0.707, 0.707, 1) 5 (0.707, 0.707, 0.707, 1) 6 (1, 0.866, 0.866, 0.866, 1)
  • FIG. 9A is a block diagram illustrating an audio encoding device according to an embodiment.
  • the audio encoding device 900 may include a memory 910 and a processor 930.
  • the audio encoding device 900 can be implemented as a device capable of audio processing, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • memory 910 and the processor 930 are shown separately in FIG. 9A, the memory 910 and the processor 930 may be implemented through a single hardware module (eg, chip).
  • the processor 930 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 930 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • a dedicated processor it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • the processor 930 may be comprised of a plurality of processors. In this case, it may be implemented through a combination of dedicated processors, or it may be implemented through a combination of software and multiple general-purpose processors such as AP, CPU, or GPU.
  • Memory 910 may store one or more instructions for audio processing.
  • memory 910 may store a neural network.
  • a neural network When a neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network It may not be stored in memory 910.
  • a neural network may be implemented by an external device (eg, a server), and in this case, the audio encoding device 900 may request and receive result information based on the neural network from the external device.
  • the processor 930 sequentially processes consecutive frames according to instructions stored in the memory 910 to obtain consecutive encoded (compressed) frames.
  • Consecutive frames may refer to frames that constitute audio.
  • the processor 930 may input an original audio signal, perform an audio processing operation, and output a bitstream including a compressed audio signal.
  • the original audio signal may be a multi-channel audio signal.
  • a compressed audio signal may be a multi-channel audio signal having channels less than or equal to the number of channels of the original audio signal.
  • the bitstream may include compressed audio signals of the basic channel group, and may further include compressed audio signals of n subordinate channel groups (n is an integer greater than or equal to 1). Therefore, the number of channels can be freely increased depending on the number of dependent channel groups.
  • FIG. 9B is a block diagram illustrating an audio encoding device according to an embodiment.
  • the audio encoding device 900 may include a multi-channel audio encoder 950, a bitstream generator 980, and an additional information generator 985.
  • the multi-channel audio encoder 950 may include a multi-channel audio signal processor 960 and a compressor 970.
  • the audio encoding device 900 may include a memory 910 and a processor 930, and instructions for implementing each component (950, 960, 961, 962, 963, 964, 965, 967, 970, 980, 985) of FIG. 9B are shown in FIG. It may be stored in the memory 910 of 9a.
  • the processor 930 may execute instructions stored in the memory 910.
  • the components 950, 960, 961, 962, 963, 964, 965, 967, 970, 980, and 985 shown in FIG. 9B may be classified according to function by performing operations performed by the processor 930 executing a program (or instruction) stored in the memory 910.
  • the multi-channel audio signal processor 960 obtains (e.g., generates) at least one audio signal of the basic channel group and at least one audio signal of at least one subordinate channel group from the multi-channel audio signal (i.e., the original audio signal). can do.
  • the multi-channel audio signal processor 960 may include an audio scene classifier 961, a downmix channel audio generator 965, and an audio signal classifier 967. Since the operations of the audio scene classifier 961 and the downmix channel audio generator 965 correspond to the operations of the audio scene classifiers 100 and 210 and the downmix channel audio generator 220 of FIGS. 1A to 2A, the detailed description is provided in FIG. 1A It will be replaced with the explanation of to 2a.
  • the audio scene classifier 961 may include a feature extractor 962, a temporal correlation analyzer 963, and a meter 964.
  • the operations of the feature extractor 962, the time correlation analyzer 963, and the meter 964 correspond to the operations of the feature extractors 110 and 212, the time correlation analyzers 120 and 214, and the meters 130 and 216 of FIGS. 1A to 2A, respectively. , the detailed description will be replaced with the description of FIGS. 1A to 2A.
  • the audio scene classifier 961 can classify scenes corresponding to multi-channel audio signals.
  • the audio scene classifier 961 can classify scenes for each frame of a multi-channel audio signal.
  • the audio scene classifier 961 can downsample a multi-channel audio signal and classify a scene corresponding to the multi-channel audio signal based on the down-sampled multi-channel audio signal.
  • the audio scene classifier 961 operates from multi-channel audio signals to center channel audio signals (e.g., C-channel signals), front channel audio signals (e.g., L-channel signals), , R channel signal) and side channel audio signals (eg, SL channel signal, SR channel signal) can be acquired.
  • the audio scene classifier 961 classifies the multi-channel audio signal as a dialogue type, effect type, or effect type, based on the acquired center channel audio signal, front channel audio signal, and side channel audio signal. It can be classified by music type.
  • the present disclosure is not limited thereto, and multi-channel audio signals may be classified into various scene types with different characteristics (eg, frequency, intensity, spectrum, etc.).
  • the audio scene classifier 961 may classify a multi-channel audio signal as a default type.
  • the default type represents a type other than the predetermined scene type.
  • the audio scene classifier 961 may determine the scene type of the multi-channel audio signal using a neural network (eg, a first neural network and a second neural network) for classifying the scene. Specifically, the audio scene classifier 961 can obtain a probability value corresponding to a predetermined scene type using a neural network. The audio scene classifier 961 can determine the scene type of the multi-channel audio signal as the scene type with the highest probability value. The audio scene classifier 961 may output the determined scene type (i.e., scene classification result (SCt)).
  • SCt scene classification result
  • the downmix channel audio generator 965 can downmix multi-channel audio signals according to a predetermined channel layout based on the scene classification result (SCt).
  • the downmix channel audio generator 965 may generate an audio signal (i.e., a downmixed audio signal) with a predetermined channel layout as a result of downmixing.
  • the downmix channel audio generator 965 may receive the scene classification result (SCt).
  • the downmix channel audio generator 965 may obtain a downmixing profile 966 corresponding to the scene classification result (SCt).
  • the downmix channel audio generator 965 may obtain downmixing parameters for mixing a multi-channel audio signal into a multi-channel audio signal with a different channel layout, based on the downmixing profile.
  • the downmix channel audio generator 965 can downmix multi-channel audio signals based on downmixing parameters.
  • the downmix channel audio generator 965 can downmix a 7.1.4 channel audio signal into a 3.1.2 channel audio signal using a downmixing matrix.
  • the downmixing parameters included in the downmixing matrix e.g., , ,
  • the downmixing profile 966 may include data corresponding to a downmixing matrix and downmixing parameter settings. The specific operation for downmixing by the downmix channel audio generator 965 is similar to what was explained using Equation 1, so it is omitted.
  • the audio signal classifier 967 may generate at least one audio signal of a basic channel group and at least one audio signal of at least one subordinate channel group based on the downmixed audio signal.
  • the compressor 970 may compress the audio signal of the basic channel group and the audio signal of the subordinate channel group. That is, the compressor 970 may obtain at least one compressed audio signal of the basic channel group by compressing at least one audio signal of the basic channel group.
  • compression may mean compression based on various audio codecs.
  • compression may include transformation and quantization processes.
  • the compressor 970 may compress at least one audio signal of at least one subordinate channel group to obtain at least one compressed audio signal of at least one subordinate channel group.
  • the additional information generator 985 may generate additional information including the scene classification result (SCt).
  • the bitstream generator 980 may generate a bitstream including a compressed audio signal of a basic channel group and a compressed audio signal of a subordinate channel group.
  • the bitstream generator 980 may generate a bitstream that further includes additional information generated by the additional information generator 985.
  • the bitstream generator 980 can generate a primary audio stream and a secondary audio stream.
  • the primary audio stream may include compressed audio signals of the primary channel group
  • the secondary audio stream may include compressed audio signals of the subordinate channel group.
  • bitstream generator 980 may generate metadata including additional information.
  • bitstream generator 980 may generate a bitstream that includes a primary audio stream, a secondary audio stream, and metadata.
  • the audio encoding device 900 can of course perform the operations and functions of the audio encoding devices 400 and 600 described in FIGS. 4A to 4D, 6A, and 6B.
  • FIG. 10A is a block diagram illustrating an audio decoding device according to an embodiment.
  • the audio decoding device 1000 may include a memory 1010 and a processor 1030.
  • the audio decoding device 1000 can be implemented as a device capable of processing audio, such as a server, TV, camera, mobile phone, tablet PC, or laptop.
  • memory 1010 and the processor 1030 are shown separately in FIG. 10A, the memory 1010 and the processor 1030 may be implemented through a single hardware module (eg, chip).
  • the processor 1030 may be implemented as a dedicated processor for neural network-based audio processing.
  • the processor 1030 may be implemented through a combination of a general-purpose processor, such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU), and software.
  • a dedicated processor it may include a memory for implementing an embodiment of the present disclosure, or a memory processing unit for using an external memory.
  • the processor 1030 may be composed of a plurality of processors. In this case, it may be implemented through a combination of dedicated processors, or it may be implemented through a combination of software and multiple general-purpose processors such as AP, CPU, or GPU.
  • Memory 1010 may store one or more instructions for audio processing.
  • memory 1010 may store a neural network.
  • a neural network When a neural network is implemented in the form of a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU), the neural network It may not be stored in memory 1010.
  • a neural network may be implemented by an external device (eg, a server), and in this case, the audio decoding device 1000 may request and receive result information based on the neural network from the external device.
  • the processor 1030 sequentially processes consecutive frames according to instructions stored in the memory 1010 to obtain consecutive restored frames.
  • Consecutive frames may refer to frames that constitute audio.
  • the processor 1030 can receive a bitstream as input, perform audio processing operations, and output multi-channel audio signals.
  • the bitstream can be implemented in a scalable form so that the number of channels can be increased from the basic channel group.
  • the processor 1030 may obtain a compressed audio signal of the basic channel group from the bitstream, decompress the compressed audio signal of the basic channel group, and decompress the audio signal of the basic channel group (e.g., stereo channel audio signal) can be restored.
  • the processor 1030 may restore the audio signal of the subordinate channel group by decompressing the compressed audio signal of the subordinate channel group from the bitstream.
  • the processor 1030 can restore multi-channel audio signals based on the audio signals of the basic channel group and the audio signals of the subordinate channel group.
  • the processor 1030 may restore the audio signal of the first subordinate channel group by decompressing the compressed audio signal of the first subordinate channel group from the bitstream.
  • the processor 1030 may restore the audio signal of the second subordinate channel group by decompressing the compressed audio signal of the second subordinate channel group.
  • the processor 1030 may restore a multi-channel audio signal with an increased number of channels based on the audio signal of the basic channel group and the audio signals of the first subordinate channel group and the second subordinate channel group. Similarly, decompress the compressed audio signals of up to n dependent channel groups (n is an integer greater than 2), and further increase the number of channels based on the audio signals of the basic channel group and the audio signals of n dependent channel groups. It is possible to restore multi-channel audio signals with increased .
  • FIG. 10B is a block diagram illustrating an audio decoding device according to an embodiment.
  • the audio decoding device 1000 may include an information obtainer 1050 and a multi-channel audio decoder 1060.
  • the multi-channel audio decoder 1060 may include a decompressor 1070 and a multi-channel audio signal restorer 1080.
  • the multi-channel audio signal restorer 1080 may include an upmix channel group audio generator 1081, a demixing parameter identifier 1082, and a multi-channel audio signal outputter 1083.
  • the audio decoding device 1000 may include a memory 1010 and a processor 1030 of FIG. 10A, and may include components 1050, 1060, 1070, 1080, 1081, 1082, and 1083 of FIG. 10B. Instructions may be stored in memory 1010.
  • the processor 1030 may execute instructions stored in the memory 1010.
  • the processor 1030 may execute instructions stored in the memory 1010.
  • the components 1050, 1060, 1070, 1080, 1081, 1082, and 1083 shown in FIG. 10B function as functions of operations performed by the processor 1030 by executing a program (or instruction) stored in the memory 1010. It may be classified accordingly. Accordingly, the operations described below as being performed by the components 1050, 1060, 1070, 1080, 1081, 1082, and 1083 shown in FIG. 10B can be viewed as being actually performed by the processor 1030.
  • the information obtainer 1050 may acquire downmixing-related information corresponding to the downmixed audio signal corresponding to the original audio signal and the scene classification result.
  • the scene classification result is the time between the first feature vector corresponding to the first frame of the original audio signal and at least one second feature vector corresponding to at least one second frame temporally earlier than the first frame of the original audio signal. It can be obtained based on the correlation vector. The specific process by which the scene classification result is obtained is described in FIGS. 1A and 2B and will be omitted below.
  • the information obtainer 1050 may obtain a primary audio stream and at least one auxiliary audio stream from a bitstream.
  • the basic audio stream may include at least one compressed audio signal of the basic channel group.
  • the auxiliary audio stream may obtain at least one compressed audio signal of at least one subordinate channel group.
  • the information obtainer 1050 may obtain metadata from the bitstream. Metadata may include additional information.
  • metadata may be downmixing-related information including scene classification results for multi-channel audio signals (i.e., original audio signals). Downmixing-related information may be index information indicating one of a plurality of scene types. Downmixing-related information may be obtained for each frame, but may be obtained periodically for various data units. Alternatively, downmixing-related information may be obtained aperiodically whenever the scene changes.
  • the decompressor 1070 may obtain the audio signal of the basic channel group by decompressing at least one compressed audio signal of the basic channel group included in the basic audio stream.
  • the decompressor 1070 may obtain at least one audio signal of at least one subordinate channel group from at least one compressed audio signal of at least one subordinate channel group included in the auxiliary audio stream.
  • the demixing parameter identifier 1082 can identify demixing parameters based on downmixing-related information. That is, the demixing parameter identifier 1082 can identify the demixing parameter corresponding to the scene classification result. That is, the demixing parameter identifier 1082 can identify one scene type among a plurality of scene types based on the index information for the scene classification result, and sets a demixing parameter corresponding to the identified one scene type. can be identified. Demixing parameters corresponding to each of the plurality of scene types may be determined in advance and stored in memory.
  • the upmix channel group audio generator 1081 demixes at least one audio signal of the basic channel group and at least one audio signal of at least one subordinate channel group according to the demixing parameter to produce at least one upmix channel group audio.
  • a signal can be generated (or restored).
  • the upmix channel group audio signal may be an audio signal including at least one channel.
  • the upmix channel group audio signal may be a multi-channel audio signal.
  • the multi-channel audio signal outputter 1083 can output at least one upmix channel group audio signal (i.e., an output multi-channel audio signal).
  • the audio decoding device 1000 can of course perform the operations and functions of the audio decoding devices 500 and 700 described in FIGS. 5A to 5D, 7A, and 7B.
  • the audio decoding device 1000 has described an operation of demixing a downmixed audio signal using downmixing-related information generated in frame units, but the output channel layout (e.g., 5.1.2 channel layout, An audio signal of a higher channel layout (e.g., 7.1.4 channel layout) may be restored than an audio signal of a 3.1.2 channel layout or binaural 2-channel layout. That is, there are cases where the audio signal of the output layout cannot be restored through demixing.
  • the output channel layout e.g., 5.1.2 channel layout
  • An audio signal of a higher channel layout e.g., 7.1.4 channel layout
  • the audio decoding device 1000 can restore the audio signal of the output channel layout by downmixing the audio signal of the restored upper channel layout using downmixing-related information generated in units of frames.
  • the downmixing-related information transmitted from the audio encoding device 900 is not limited to being used in the demixing operation of the audio decoding device 1000, and may also be used in the downmixing operation as the case may be.
  • the transmitting flag information on a frame basis and for upper audio data units (e.g., parameter sampling units) containing k frames (k is an integer greater than 1), downmixing-related information is provided. It can be signaled.
  • information about the size of the upper audio data unit and downmixing-related information obtained from the upper audio data unit may be signaled through the bitstream.
  • Information about the size of the upper audio data unit may be information about the value of k.
  • downmixing-related information may not be obtained on a frame-by-frame basis included in the higher-order audio data unit.
  • downmixing-related information may be obtained from the first frame included in the upper audio data unit, and downmixing-related information may not be obtained from the first or subsequent frames of the upper audio data unit.
  • a flag may be obtained in a frame after the first frame of the upper audio data unit.
  • downmixing-related information may be additionally obtained.
  • downmixing-related information updated through the flag can be used.
  • the original sound effect can be maintained through appropriate downmixing or upmixing processing according to the scene classification result.
  • audio signals can be dynamically mixed so that surround channel audio and height channel audio can be expressed well on a large screen. That is, when the audio being played is concentrated in the surround, the surround effect can be maximized by distributing the audio signals of the surround channels (Ls, Rs) not only to the L/R channels but also to the height channel.
  • the surround effect can be maximized by distributing the audio signals of the surround channels (Ls, Rs) not only to the L/R channels but also to the height channel.
  • horizontal and vertical sounds can be distinguished and the surround and height effects can be expressed in a balanced manner at the same time. .
  • Figure 11 is a block diagram illustrating an audio processing device according to an embodiment.
  • the audio processing device 1100 may include an audio scene classifier 1110, an audio noise cancellation (ANC) mode selector 1120, and a noise canceller 1130.
  • the audio processing device 1100 can cancel out surrounding sounds while outputting an input audio signal.
  • ANC audio noise cancellation
  • the audio scene classifier 1110 can acquire ambient sound (ASt).
  • the audio scene classifier 1110 can classify scenes of ambient sounds (ASt).
  • the audio scene classifier 1110 can classify the degree of a dangerous situation corresponding to the ambient sound (ASt). Since the configuration, operation, and function of the audio scene classifier 1110 correspond to the configuration, operation, and function of the audio scene classifier 100 described in FIGS. 1A to 1D, detailed descriptions are omitted.
  • the audio processing device 1100 may further include a preprocessor (not shown).
  • a preprocessor can receive ambient sound (ASt).
  • a preprocessor can convert the ambient sound (ASt) into the time-frequency domain.
  • a preprocessor may generate a spectrogram corresponding to the ambient sound (ASt).
  • the preprocessor transmits the converted ambient sound (e.g., spectrogram) to the audio scene classifier 1110, and the audio scene classifier 1110 classifies the scene of the ambient sound (ASt) based on the converted ambient sound. Can be classified.
  • the ANC mode selector 1120 may select a mode of active noise cancellation based on the scene classification result (SCt). For example, ANC mode selector 1120 may select a first mode of active noise cancellation based on a first degree of risk situation and select a second mode of active noise cancellation based on a second degree of risk situation. there is. Illustratively, when the degree of a dangerous situation is large, the ANC mode selector 1120 selects a first mode that performs noise canceling with a stronger intensity, and the degree of the dangerous situation is greater than the degree of the dangerous situation corresponding to the first mode. If is small, a second mode that performs noise canceling with a weaker intensity can be selected. The ANC mode selector 1120 may transmit data (MD) corresponding to the selected mode to the noise canceller 1130.
  • MD data
  • the noise canceller 1130 can cancel out ambient sounds (ASt).
  • the noise canceller 1130 can determine the degree to which it cancels out ambient sound (ASt) depending on the selected mode.
  • the noise canceller 1130 may generate an opposite signal that cancels out the surrounding sound (ASt) according to the selected mode.
  • the audio processing device 1100 may further include an audio outputter (not shown).
  • An audio outputter (not shown) can simultaneously output an input audio signal and an opposite signal.
  • the audio scene classifier 1110 classifies the scene of the ambient sound (ASt) with a low delay time, noise cancellation according to the scene can be quickly performed.
  • Figure 12 is a block diagram illustrating an audio processing device according to an embodiment.
  • the audio processing device 1200 may include an audio scene classifier 1210 and a sound field controller 1220.
  • the audio scene classifier 1210 may classify the scene of the first audio signal (ASt).
  • the first audio signal (ASt) is the current frame among audio signals (e.g., multi-channel audio signal, stereo audio signal) provided through a streaming service (e.g., over-the-top (OTT) service). It may be an audio signal corresponding to (first frame). Since the configuration, operation, and function of the audio scene classifier 1110 correspond to the configuration, operation, and function of the audio scene classifier 100 described in FIGS. 1A to 1D, detailed descriptions are omitted.
  • the sound field controller 1220 may adjust the sound field corresponding to the first audio signal ASt based on the scene classification result. For example, the sound field controller 1220 may obtain sound field control parameters corresponding to the scene classification result. Sound field control parameters may be predetermined by user or manufacturer settings. Sound field control parameters may vary for each scene type. The sound field controller 1220 may adjust the sound field to suit the scene type by modifying the frequency, intensity, spectrum, etc. of the first audio signal ASt based on the sound field control parameters.
  • the audio processing device 1200 may further include an audio outputter (not shown).
  • An audio outputter (not shown) may output an adaptive audio signal in which the sound field of the first audio signal ASt is adjusted.
  • the audio scene classifier 1210 classifies scenes of the audio signal with a low delay time
  • the sound field can be adjusted in quick response to scene changes.
  • FIG. 13 is a flowchart illustrating an audio processing method according to an embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 1A to 1D.
  • the audio scene classifier 100 or the multi-channel audio signal processor 200 may be referred to as an audio processing device.
  • the audio processing device may acquire the first audio signal corresponding to the first frame.
  • the audio processing device may extract the first feature vector using the first neural network that inputs the first audio signal.
  • step S1330 the audio processing device determines the similarity between the first feature vector and at least one second feature vector extracted from at least one second audio signal corresponding to at least one second frame temporally previous to the first frame.
  • a time correlation vector representing can be obtained.
  • the scene of the first audio signal may be classified using a second neural network that inputs the first feature vector, at least one second feature vector, and a temporal correlation vector.
  • FIG 14A is a flowchart illustrating an audio processing method according to one embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 1A to 2A and FIG. 13.
  • the audio scene classifier 100 or the multi-channel audio signal processor 200 may be referred to as an audio processing device.
  • Steps S1410, S1420, S1430, and S1440 of FIG. 14A may correspond to steps S1310, S1320, S1330, and S1340 of FIG. 13, respectively. Therefore, content that overlaps with the content described in FIG. 13 will be omitted.
  • Step S1410 of FIG. 14A may include steps S1412 and S1414.
  • the audio processing device may acquire a multi-channel audio signal corresponding to a plurality of frames including a first frame and at least one second frame.
  • the audio processing device may extract a first audio signal including at least one channel signal among multi-channel audio signals corresponding to the first frame.
  • the audio processing device may downmix a multi-channel audio signal into a first audio signal.
  • the audio processing device may downmix the multi-channel audio signal corresponding to the first frame based on the scene classification result.
  • FIG. 14B is a flowchart illustrating an audio processing method according to one embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 1A to 2A and FIG. 14A.
  • the audio scene classifier 100 or the multi-channel audio signal processor 200 may be referred to as an audio processing device.
  • step S1450 of FIG. 14A may include steps S1452, S1454, and S1456.
  • step S1452 the audio processing device may obtain a downmixing profile corresponding to the scene classification result.
  • the audio processing device may obtain downmixing parameters for mixing a multi-channel audio signal into a multi-channel audio signal with a different channel layout, based on the downmixing profile.
  • the audio processing device may downmix the multi-channel audio signal corresponding to the first frame according to the channel layout based on the downmixing parameters.
  • FIG. 15 is a flowchart illustrating an audio processing method according to an embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 10A and 10B.
  • the audio decoding device 1000 may be referred to as an audio processing device.
  • the audio processing device may obtain downmixing-related information including a downmixed audio signal corresponding to the original audio signal and a scene classification result from the bitstream.
  • the audio processing device may demix the downmixed audio signal based on downmixing-related information.
  • step S1530 an audio signal including at least one channel may be restored based on the demixed audio signal.
  • FIGS. 1A to 1D, 11, and 13 are flowchart illustrating an audio processing method according to an embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 1A to 1D, 11, and 13.
  • Steps S1610, S1620, S1630, and S1640 of FIG. 16 may correspond to steps S1310, S1320, S1330, and S1340 of FIG. 13, respectively. Therefore, content that overlaps with the content described in FIG. 13 will be omitted.
  • the audio processing device may select one of the active noise cancellation modes based on the scene classification result. In one embodiment, the audio processing device may generate an opposing signal to cancel the first audio signal based on the selected mode.
  • FIG. 17 is a flowchart illustrating an audio processing method according to an embodiment. For convenience of explanation, the audio processing method will be described with reference to FIGS. 1A to 1D, 12, and 13.
  • Steps S1710, S1720, S1730, and S1740 of FIG. 17 may correspond to steps S1310, S1320, S1330, and S1340 of FIG. 13, respectively. Therefore, content that overlaps with the content described in FIG. 13 will be omitted.
  • the audio processing device may adjust the sound field of the first audio signal based on the scene classification result.
  • an audio processing device can output a conditioned signal.
  • FIG. 18 is a block diagram illustrating an audio processing device according to an embodiment.
  • the audio processing device 1800 may be a speaker device that reproduces audio, or may be a separate server device.
  • the audio processing method according to the embodiments introduced in this specification may be performed by a speaker device, may be performed by a separate server device, and may be performed jointly by the speaker device and a separate server device (audio processing The processes included in the method may be performed separately by a plurality of devices.
  • the audio processing device 1800 of FIG. 18 performs an audio processing method.
  • the process is not limited to this, and a separate server device exists, and of course, the separate server device may perform part or all of the process. Accordingly, operations performed by the audio processing device 1800 in the embodiments described below should be interpreted as being performed by a separate computing device such as a server device, even if there is no specific explanation.
  • the audio processing device 1800 may include a memory 1810, a processor 1830, an input/output interface 1850, and a communication interface 1870.
  • the components of the audio processing device 1800 are not limited to the above-described examples, and the audio processing device 1800 may include more components or fewer components than the above-described components. It may be possible.
  • at least some of the memory 1810, the processor 1830, the input/output interface 1850, and the communication interface 1870 may be implemented in the form of a single chip, and the processor 1830 may include one or more processors. It may also include .
  • the memory 1810 is a component for storing various programs or data, and may be composed of storage media such as ROM, RAM, hard disk, CD-ROM, and DVD, or a combination of storage media.
  • the memory 1810 may not exist separately but may be configured to be included in the processor 1830.
  • the memory 1810 may be comprised of volatile memory, non-volatile memory, or a combination of volatile memory and non-volatile memory. Programs for performing operations according to embodiments described later may be stored in the memory 1810.
  • the memory 1810 may provide stored data to the processor 1830 according to a request from the processor 1830.
  • the processor 1830 is a component that controls a series of processes so that the audio processing device 1800 operates according to the embodiments described in FIGS. 1A to 17, and may be comprised of one or more processors.
  • one or more processors may be a general-purpose processor such as a CPU, AP, or DSP (Digital Signal Processor), a graphics-specific processor such as a GPU or VPU (Vision Processing Unit), or an artificial intelligence-specific processor such as an NPU.
  • the artificial intelligence dedicated processors may be designed with a hardware structure specialized for processing a specific artificial intelligence model (eg, neural network model).
  • the processor 1830 can write data to the memory 1810 or read data stored in the memory 1810, and in particular, executes a program stored in the memory 1810 to data according to predefined operation rules or an artificial intelligence model. can be processed. Accordingly, the processor 1830 can perform the operations described in the above-described embodiments, and the operations described as performed by the audio processing device 1800 in the above-described embodiments are performed by the processor 1830 unless otherwise specified. It can be seen as being carried out.
  • the input/output interface 1850 includes an input interface (e.g. touch screen, hard button, microphone, etc.) for receiving control commands or information from the user, and the execution result of an operation under the user's control or the state of the audio processing device 1800. It may include an output interface (e.g. display panel, speaker, etc.) for displaying. According to one embodiment, the input/output interface 1850 may display a video being played and receive an input from the user for enlarging some areas of the video or selecting a specific object included in the video.
  • an input interface e.g. touch screen, hard button, microphone, etc.
  • an output interface e.g. display panel, speaker, etc.
  • the input/output interface 1850 may display a video being played and receive an input from the user for enlarging some areas of the video or selecting a specific object included in the video.
  • the communication interface 1870 is a component for transmitting and receiving signals (control commands and data, etc.) with an external device wired or wirelessly, and may be configured to include a communication chipset that supports various communication protocols.
  • the communication interface 1870 may receive a signal from the outside and output it to the processor 1830, or may transmit a signal output from the processor 1830 to the outside.
  • FIGS. 1A to 2A, 11, and 12 e.g., 110, 112, 120, 130, 132, 134, 140, 210, 212, 214, 216, 220, 1110, 1120, 1130, 1210, 1220
  • Program (or instruction) stored in The operations performed by executing may be classified according to function. Accordingly, the operations described as being performed by the components shown in FIGS. 1A to 2A, 11, and 12 can actually be viewed as being performed by the processor 1830.
  • the audio processing device 1800 of FIG. 18 may correspond to the audio encoding device 400 and 900 of FIGS. 4A and 9A or the audio decoding device 500 and 1000 of FIGS. 5A and 10A, and FIGS. 3A to 10B. At least some of the functions of the audio encoding device (400, 600, 900) or the audio decoding device (500, 700, 1000) described in can be performed.
  • an audio processing method may include obtaining a first audio signal corresponding to a first frame.
  • the audio processing method may include extracting a first feature vector using a first neural network that inputs the first audio signal.
  • the audio processing method represents a degree of similarity between the first feature vector and at least one second feature vector extracted from at least one second audio signal corresponding to at least one second frame temporally previous to the first frame. It may include obtaining a temporal correlation vector.
  • the audio processing method may include classifying a scene of the first audio signal using a second neural network that takes the first feature vector, the at least one second feature vector, and the temporal correlation vector as input. You can.
  • obtaining the first audio signal may include obtaining a multi-channel audio signal corresponding to a plurality of frames including the first frame and the at least one second frame. You can. Obtaining the first audio signal may include extracting the first audio signal including at least one channel signal among the multi-channel audio signals corresponding to the first frame. According to one embodiment, computing resources can be efficiently used by using some channels of the multi-channel audio signal to classify scenes corresponding to the multi-channel audio signal.
  • the audio processing method may further include downmixing the multi-channel audio signal corresponding to the first frame based on the scene classification result.
  • the downmixing step may include obtaining a downmixing profile corresponding to the scene classification result.
  • downmixing parameters for mixing the multi-channel audio signal into a multi-channel audio signal with a different channel layout may be obtained based on the downmixing profile.
  • the downmixing may include downmixing the multi-channel audio signal corresponding to the first frame according to the channel layout based on the downmixing parameters.
  • an audio signal with a small channel layout can be efficiently generated by downmixing a multi-channel audio signal according to the scene type.
  • the temporal correlation vector includes a first inner product value between the first feature vector and the at least one second feature vector and a second inner product value between the first feature vector and the first feature vector.
  • the second neural network may receive as input a value obtained by concatenating the first feature vector, the at least one second feature vector, and the temporal correlation vector.
  • the at least one second feature vector may include N second feature vectors.
  • the second neural network may receive as input a value obtained by concatenating the first feature vector, M second feature vectors among the N second feature vectors, and the time correlation vector.
  • N and M are natural numbers, and N is a natural number greater than M.
  • computing resources can be used efficiently by inputting relatively small-sized data into a neural network.
  • the classifying step may include classifying the scene of the first audio signal into a dialogue type, music type, or sound effect type.
  • the audio processing method may further include selecting one of active noise cancellation modes based on the scene classification result.
  • the classifying step may include classifying the degree of a dangerous situation corresponding to the first audio signal.
  • the selecting step includes selecting the first mode of the active noise cancellation based on a first degree of risk situation, and selecting the second mode of the active noise cancellation based on a second degree of risk situation. can do.
  • whether to cancel the surrounding sounds is determined according to the scene classification results, so that the user can quickly recognize a dangerous situation through the surrounding sounds.
  • the audio processing method may further include adjusting the sound field of the first audio signal based on the scene classification result.
  • a richer listening experience can be provided to the user by adjusting the sound field according to the scene corresponding to the audio signal.
  • the audio processing device may include a memory that stores one or more instructions.
  • the audio processing device may include at least one processor that executes one or more instructions stored in the memory.
  • At least one processor may execute the one or more instructions for obtaining a first audio signal corresponding to the first frame.
  • At least one processor may execute the one or more instructions for extracting a first feature vector using a first neural network that receives the first audio signal as an input.
  • At least one processor determines the similarity between the first feature vector and at least one second feature vector extracted from at least one second audio signal corresponding to at least one second frame temporally previous to the first frame.
  • One or more of the above instructions may be executed to obtain a temporal correlation vector representing a temporal correlation vector.
  • At least one processor classifies a scene of the first audio signal using a second neural network that takes the first feature vector, the at least one second feature vector, and the temporal correlation vector as input.
  • the above instructions can be executed.
  • the audio processing method may include obtaining downmixing-related information including a downmixed audio signal corresponding to the original audio signal and a scene classification result from a bitstream.
  • the audio processing method may include demixing the downmixed audio signal based on the downmixing related information.
  • the audio processing method may include restoring an audio signal including at least one channel based on the demixed audio signal.
  • the scene classification result may include a first feature vector corresponding to a first frame of the original audio signal, and at least one second frame temporally preceding the first frame of the original audio signal. It can be obtained based on the temporal correlation vector between two feature vectors.
  • the audio processing device may include a memory that stores one or more instructions.
  • the audio processing device may include at least one processor that executes one or more instructions stored in the memory.
  • At least one processor may execute the one or more instructions for obtaining downmixing-related information including a downmixed audio signal and a scene classification result from the original audio signal.
  • At least one processor may execute the one or more instructions for demixing the downmixed audio signal based on the downmixing related information.
  • At least one processor may execute the one or more instructions for restoring an audio signal based on the demixed audio signal.
  • the scene classification result may include a first feature vector corresponding to a first frame of the original audio signal, and at least one second frame temporally preceding the first frame of the original audio signal. It can be obtained based on the temporal correlation vector between two feature vectors.
  • the above-described embodiments of the present disclosure can be written as programs or instructions that can be executed on a computer, and the written programs or instructions can be stored in a storage medium.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves), and this term refers to cases where data is semi-permanently stored in a storage medium and temporarily. There is no distinction between storage cases.
  • a 'non-transitory storage medium' may include a buffer where data is temporarily stored.
  • Computer program products are commodities and can be traded between sellers and buyers.
  • a computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or through an application store or between two user devices (e.g. smartphones). It may be distributed in person or online (e.g., downloaded or uploaded). In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) is stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • a machine-readable storage medium such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.
  • the model related to the neural network described above can be implemented as a software module.
  • the neural network model may be stored in a computer-readable recording medium.
  • neural network model may be integrated in the form of a hardware chip and become part of the above-mentioned device.
  • neural network models may be built on a dedicated hardware chip for artificial intelligence, or as part of an existing general-purpose processor (e.g., CPU or application processor) or dedicated graphics processor (e.g., GPU). It may be produced.
  • general-purpose processor e.g., CPU or application processor
  • dedicated graphics processor e.g., GPU
  • neural network models may be provided in the form of downloadable software.
  • a computer program product may include a product in the form of a software program (e.g., a downloadable application) distributed electronically through a manufacturer or electronic marketplace. For electronic distribution, at least a portion of the software program may be stored on a storage medium or created temporarily.
  • the storage medium may be a storage medium of a manufacturer or an electronic market server, or a relay server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Stereophonic System (AREA)

Abstract

본 개시의 일 실시예에 따른 오디오 처리 방법은, 제1 프레임에 대응하는 제1 오디오 신호를 획득하는 단계, 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크를 이용하여, 제1 특징 벡터를 추출하는 단계, 제1 특징 벡터와, 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터를 획득하는 단계, 및 제1 특징 벡터, 적어도 하나의 제2 특징 벡터, 및 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 제1 오디오 신호의 장면을 분류하는 단계를 포함할 수 있다.

Description

장면 분류를 위한 오디오 처리 방법 및 장치
본 개시는 장면 분류를 위한 오디오 처리 방법 및 장치에 관한 것이다. 보다 구체적으로, 본 개시는 오디오 신호의 장면을 분류하여 장면 분류 결과에 따라 오디오 신호를 처리하는 방법 및 장치에 관한 것이다.
OTT 서비스(Over-The-Top service)의 확대, TV의 해상도 증가, 태블릿과 같은 전자 기기의 화면의 대형화에 따라, 홈 환경에서 극장용 컨텐츠와 같은 이머시브 사운드(Immersive Sound)를 경험하고자 하는 시청자의 니즈(Needs)가 증가하고 있다. 이러한 시청자의 니즈를 충족시키 위하여 오디오 신호의 장면을 분류하여 장면 타입에 따라 오디오 신호를 처리할 필요성이 있다.
또한, 화면상의 객체(음원)의 음상(Sound) 표현을 고려하여, 청자를 중심으로 전방에 채널이 배치되는 3차원 오디오 채널 레이아웃(청자 전방의 3차원 오디오 채널 레이아웃)의 오디오 신호를 처리할 필요성이 있다. 3차원 오디오 채널 레이아웃의 오디오 신호를 처리함에 있어서 오디오 신호의 장면을 분류하여 효과적인 다운믹싱을 수행할 필요성이 있다.
따라서, 오디오 신호의 장면 분류에 소요되는 지연시간이 적고, 분류 정확도가 높고, 장면 타입의 개수 증가에 따른 복잡도가 낮은 구조를 갖는, 오디오 장면 분류 모듈에 대한 필요성이 대두되고 있다.
다채널 오디오 신호로부터 하위 채널 레이아웃의 오디오 신호를 처리함에 있어서 장면 분류 결과를 이용하는 방법 및 장치가 제공될 수 있다.
장면 분류 결과에 따라 다채널 오디오 신호를 다운믹싱 또는 업믹싱하는 방법 및 장치가 제공될 수 있다.
일 실시예에 따른 오디오 처리 방법은, 제1 프레임에 대응하는 제1 오디오 신호를 획득하는 단계, 상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하는 단계, 상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하는 단계, 및 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는 단계를 포함할 수 있다.
일 실시예에 따른 오디오 처리 장치는, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 제1 프레임에 대응하는 제1 오디오 신호를 획득하고, 상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하고, 상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하고, 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다.
일 실시예에 따른 오디오 처리 방법은, 비트스트림으로부터, 원본 오디오 신호에 대응하는 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득하는 단계, 상기 다운믹싱 관련 정보에 기초하여 상기 다운믹싱된 오디오 신호를 디믹싱하는 단계, 및 상기 디믹싱된 오디오 신호에 기초하여 적어도 하나의 채널을 포함하는 오디오 신호를 복원하는 단계를 포함할 수 있다. 상기 장면 분류 결과는, 상기 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 상기 원본 오디오 신호의 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득될 수 있다.
일 실시예에 따른 오디오 처리 장치는, 하나 이상의 인스트럭션을 저장하는 메모리, 및 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 원본 오디오 신호로부터 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득하고, 상기 다운믹싱 관련 정보에 기초하여 상기 다운믹싱된 오디오 신호를 디믹싱하고, 상기 디믹싱된 오디오 신호에 기초하여 오디오 신호를 복원하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 장면 분류 결과는, 상기 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 상기 원본 오디오 신호의 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득될 수 있다.
일 실시 예에 따르면, 본 개시의 기술적 과제를 해결하기 위하여, 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
본 개시의 실시예들의 상술한 또는 다른 측면, 특징, 이점은 첨부된 도면들과 함께 아래 설명으로부터 더욱 명백해질 것이며, 첨부된 도면들은 다음과 같다.
도 1a는 일 실시예에 따른 오디오 장면 분류기를 도시하는 블록도이다.
도 1b는 도 1a의 특징 추출기의 구체적인 동작을 설명하기 위한 블록도이다.
도 1c는 도 1a의 시간 상관 분석기의 구체적인 동작을 설명하기 위한 블록도이다.
도 1d는 도 1a의 측정기의 구체적인 동작을 설명하기 위한 블록도이다.
도 2a는 일 실시예에 따른 다채널 오디오 신호 처리기를 도시하는 블록이다.
도 2b는 일 실시예에 따른 장면 분류 결과를 보여주는 도면이다.
도 3a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
도 3b는 예시적인 스케일러블 오디오 채널 레이아웃 구조를 설명하기 위한 도면이다.
도 4a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 4b는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 4c는 일 실시예에 따른 다채널 오디오 신호 처리기를 도시하는 블록도이다.
도 4d는 오디오 신호 분류기의 구체적인 동작을 설명하기 위한 도면이다.
도 5a는 일 실시예에 따른 다채널 오디오 복호화 장치를 도시하는 블록도이다.
도 5b는 일 실시예에 따른 다채널 오디오 복호화 장치를 도시하는 블록도이다.
도 5c는 일 실시예에 따른 다채널 오디오 신호 복원기를 도시하는 블록도이다.
도 5d는 일 실시예에 따른 업믹스 채널 오디오 생성기를 도시하는 블록도이다.
도 6a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 6b는 일 실시예에 따른 에러 제거 관련 정보 생성기를 도시하는 블록도이다.
도 7a는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
도 7b는 일 실시예에 따른 다채널 오디오 신호 복원기를 도시하는 블록도이다.
도 8a는, 일 실시예에 따른 오디오 부호화 장치가 각 채널 그룹 내 오디오 스트림의 전송 순서 및 규칙을 설명하기 위한 도면이다.
도 8b 및 8c는 일 실시예에 따른 단계적인 다운믹싱에 대한 메커니즘을 설명하기 위한 도면이다.
도 9a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 9b는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 10a는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
도 10b는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
도 11은 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다.
도 12는 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다.
도 13은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 14a는 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 14b는 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 15은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 16은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 17은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다.
도 18은 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 또한, 본 명세서에서 사용되는 '제1' 또는 '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용할 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 실시 예들에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 명세서에서 'DNN(deep neural network)' 혹은 '뉴럴 네트워크'는 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
본 명세서에서 '파라미터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치(및 바이어스)를 포함할 수 있다. 파라미터는 행렬 형태로 표현될 수 있다. 예를 들어, 행렬 형태의 파라미터는 '커널' 또는 '필터'로 지칭될 수 있다. 파라미터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
본 명세서에서 '하이퍼파라미터'는 뉴럴 네트워크를 학습하기 위해 사용자 또는 제조사의 설정에 따라 변경되는 값으로서 예를 들어, 레이어의 개수, 각 레이어에 포함되는 뉴런의 개수, 활성화 함수, 학습률, 옵티마이저, 배치(batch)의 크기, 반복 횟수, 드롭아웃 확률 등을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 명세서에서 '오디오 처리 장치'는 오디오 신호를 입력으로 하여 입력된 오디오 신호를 처리하는 임의의 장치를 의미하며, 예컨대 '오디오 처리 장치'는 '오디오 장면 분류기', '오디오 부호화 장치' 및/또는 '오디오 복호화 장치'를 포함할 수 있다.
본 명세서에서 '다채널 오디오 신호'는 n채널(n은, 2보다 큰 정수)의 오디오 신호를 의미할 수 있다. '모노 채널 오디오 신호'는 1차원 오디오 신호이고, 또는 '스테레오 채널 오디오 신호'는 2차원 오디오 신호일 수 있고, '다채널 오디오 신호'는 3차원 오디오 신호일 수 있다.
본 명세서에서 '채널(스피커) 레이아웃'은 적어도 하나의 채널의 조합을 나타낼 수 있고, 채널들(스피커들)의 공간적인 배치를 특정할 수 있다. 여기서의 채널은 실제로 오디오 신호가 출력되는 채널이므로, 표시 채널(presentation channel)이라 할 수 있다.
예를 들어, 채널 레이아웃은 X.Y.Z 채널 레이아웃일 수 있다. 여기서, X는 서라운드 채널의 개수, Y는 서브우퍼 채널의 개수, Z는 높이 채널의 개수일 수 있다. '채널 레이아웃'에 의하여, 서라운드 채널/서브우퍼 채널/높이 채널 각각의 공간적인 위치가 특정될 수 있다.
'채널(스피커) 레이아웃'의 예로, 1.0.0 채널(모노 채널) 레이아웃, 2.0.0 채널(스테레오 채널) 레이아웃, 5.1.0 채널 레이아웃, 5.1.2 채널 레이아웃, 5.1.4 채널 레이아웃, 7.1.0 레이아웃, 7.1.2 레이아웃, 3.1.2 채널 레이아웃이 있으나, 이에 제한되지 않고, 다양한 채널 레이아웃이 있을 수 있다.
'채널(스피커) 레이아웃'에 의해 특정되는 채널들의 명칭은 다양할 수 있으나, 설명의 편의상 통일하기로 한다.
각 채널들의 공간적인 위치를 기초로, 다음과 같이 '채널(스피커) 레이아웃'의 채널들이 명명될 수 있다.
예를 들어, 1.0.0 채널 레이아웃의 제 1 서라운드 채널은 모노 채널(Mono Channel)로 명명될 수 있다. 2.0.0 채널 레이아웃의 제 1 서라운드 채널은 L2 채널로 명명될 수 있고, 제 2 서라운드 채널은 R2 채널로 명명될 수 있다.
여기서 "L"은 청자 기준으로 왼쪽에 위치하는 채널임을 나타내고, "R"은 청자 기준으로 오른쪽에 위치하는 채널임을 나타낸다. "2"는 서라운드 채널이 총 2개의 채널인 경우의 서라운드 채널임을 나타낸다. "L"은 "FL"로도 지칭될 수 있고, "R"은 "FR"로도 지칭될 수 있다.
5.1.0 채널 레이아웃의 제 1 서라운드 채널은 L5 채널, 제 2 서라운드 채널은 R5 채널, 제 3 서라운드 채널은 C 채널, 제 4 서라운드 채널은 Ls5 채널, 제 5 서라운드 채널은 Rs5 채널로 명명될 수 있다. 여기서 "C"는 청자 기준으로 중심(Center)에 위치하는 채널임을 나타낸다. "s"는 측방에 위치하는 채널임을 의미한다. 5.1.0 채널 레이아웃의 제 1 서브 우퍼 채널은 LFE 채널로 명명될 수 있다. 여기서, LFE는 저주파 효과(Low Frequency Effect)를 의미할 수 있다. 즉, LFE 채널은 저주파 효과음을 출력하기 위한 채널일 수 있다.
5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서라운드 채널과 5.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다. 마찬가지로, 5.1.2 채널 레이아웃 및 5.1.4 채널 레이아웃의 서브 우퍼 채널과 5.1.0 채널 레이아웃의 서브 우퍼 채널의 명칭은 동일할 수 있다.
5.1.2 채널 레이아웃의 제 1 높이 채널은 Hl5로 명명될 수 있다. 여기서 H는 높이 채널을 나타낸다. 제 2 높이 채널은 Hr5로 명명될 수 있다.
한편, 5.1.4 채널 레이아웃의 제 1 높이 채널은 Hfl 채널, 제 2 높이 채널은 Hfr, 제 3 높이 채널은 Hbl 채널, 제 4 높이 채널은 Hbr 채널로 명명될 수 있다. 여기서, f는 청자 중심으로 전방 채널, b는 후방 채널임을 나타낸다.
7.1.0 채널 레이아웃의 제 1 서라운드 채널은 L 채널, 제 2 서라운드 채널은 R 채널, 제 3 서라운드 채널은 C 채널, 제 4 서라운드 채널은 Ls 채널, 제 5 서라운드 채널은 Rs5 채널, 제 6 서라운드 채널은 Lb 채널, 제 7 서라운드 채널은 Rb 채널로 명명될 수 있다.
7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서라운드 채널과 7.1.0 채널 레이아웃의 서라운드 채널의 명칭은 동일할 수 있다. 마찬가지로, 7.1.2 채널 레이아웃 및 7.1.4 채널 레이아웃의 서브 우퍼 채널과 7.1.0 채널 레이아웃의 서브 우퍼 채널의 명칭은 동일할 수 있다.
7.1.2 채널 레이아웃의 제 1 높이 채널은 Hl7 채널, 제 2 높이 채널은 Hr7 채널로 명명될 수 있다.
7.1.4 채널 레이아웃의 제 1 높이 채널은 Hfl 채널, 제 2 높이 채널은 Hfr 채널, 제 3 높이 채널은 Hbl 채널, 제 4 높이 채널은 Hbr 채널로 명명될 수 있다.
3.1.2 채널의 제 1 서라운드 채널은 L3 채널, 제 2 서라운드 채널은 R3 채널, 제 3 서라운드 채널은 C 채널로 명명될 수 있다. 3.1.2 채널의 제 1 서브우퍼 채널은 LFE 채널로 명명될 수 있다. 3.1.2 채널의 제 1 높이 채널은 Hfl3 채널(Tl 채널), 제 2 높이 채널은 Hfr3 채널(Tr 채널)로 명명될 수 있다.
여기서, 일부 채널은 채널 레이아웃에 따라 달리 명명되나, 동일한 채널을 나타낼 수 있다. 예를 들어, Hl5 채널과 Hl7 채널은 동일한 채널일 수 있다. 마찬가지로, Hr5 채널과 Hr7 채널은 동일한 채널일 수 있다.
한편, 전술한 채널들의 명칭에 제한되지 않고, 다양한 채널의 명칭이 이용될 수 있다.
예를 들어, L2 채널은 L'' 채널, R2 채널은 R'' 채널, L3 채널은 ML3 채널(L' 채널), R3 채널은 MR3 채널(R' 채널), Hfl3 채널은 MHL3 채널, Hfr3 채널은 MHR3 채널, Ls5 채널은 MSL5 채널(Ls' 채널), Rs5 채널은 MSR5 채널, Hl5 채널은 MHL5 채널(Hl'), Hr5 채널은 MHR5 채널(Hr'), C 채널은 MC 채널로 명명될 수 있다.
전술한 레이아웃에 대한 채널 레이아웃의 채널들의 명칭을 정리하면, 하기 표 1과 같다.
채널 레이아웃 채널들의 명칭
1.0.0 Mono
2.0.0 L2/R2
5.1.0 L5/C/R5/Ls5/Rs5/LFE
5.1.2 L5/C/R5/Ls5/Rs5/Hl5/Hr5/LFE
5.1.4  L5/C/R5/Ls5/Rs5/Hfl/Hfr/Hbl/Hbr/LFE
7.1.0 L/C/R/Ls/Rs/Lb/Rb/LFE
7.1.2 L/C/R/Ls/Rs/Lb/Rb/Hl7/Hr7/LFE
7.1.4 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE
3.1.2  L3/C/R3/Hfl3/Hfr3/LFE
한편, '전송 채널(Transmission Channel)'은 압축된 오디오 신호를 전송하기 위한 채널로, '전송 채널(Transmission Channel)'의 일부는 '표시 채널(Presentation channel)'과 동일할 수 있으나, 이에 제한되지 않고, 다른 일부는 표시 채널의 오디오 신호가 믹싱된 오디오 신호의 채널(믹스 채널)일 수 있다. 즉, '전송 채널(Transmission Channel)'은 '표시 채널(Presentation channel)'의 오디오 신호를 담은 채널이나, 일부는 표시 채널과 동일하고, 나머지는 표시 채널과 다른 채널(믹스 채널)일 수 있다. '전송 채널(Transmission Channel)'은 '표시 채널'과 구별하여 명명될 수 있다. 예를 들어, 전송 채널이 A/B 채널인 경우, A/B 채널은 L2/R2 채널의 오디오 신호를 담을 수 있다. 전송 채널이 T/P/Q 채널인 경우, T/P/Q 채널은 C/LFE/Hfl3,Hfr3 채널의 오디오 신호를 담을 수 있다. 전송 채널이 S/U/V 채널 인 경우, S/U/V 채널은 L,R/Ls,Rs/Hfl,Hfr 채널의 오디오 신호를 담을 수 있다.
본 명세서에서, '3차원 오디오 신호'는 3차원 공간에서의 사운드의 분포와 음원들의 위치를 알아낼 수 있는 오디오 신호를 의미할 수 있다.
본 명세서에서, '청자 전방 3차원 오디오 채널'은, 청자의 전방에 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널을 의미할 수 있다. '청자 전방 3차원 오디오 채널'은 '프론트 3D(Front 3D) 오디오 채널'로 지칭될 수도 있다. 특히, '청자 전방 3차원 오디오 채널'은, 청자 전방에 위치하는 화면을 중심으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널이기 때문에, '화면 중심(screen centered) 3차원 오디오 채널'이라고 칭할 수 있다.
본 명세서에서, '청자 전방향(Omni-direction) 3차원 오디오 채널'은, 청자 중심으로 전방향으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널을 의미할 수 있다. '청자 전방향 3차원 오디오 채널'은 '풀 3D(Full 3D) 오디오 채널'로 지칭될 수도 있다. 여기서 전방향은 전방, 측방 및 후방을 모두 포함하는 방향을 의미할 수 있다. 특히, '청자 전방향 3차원 오디오 채널'은, 청자를 중심으로 전방향(Omni-direction)으로 배치되는 오디오 채널의 레이아웃에 기초한, 3차원 오디오 채널이기 때문에, '청자 중심(Listener centered) 3차원 오디오 채널'이라고 칭할 수 있다.
본 명세서에서, '채널 그룹(Channel Group)'은 일종의 데이터 단위로, 적어도 하나의 채널의 (압축) 오디오 신호를 포함할 수 있다. 구체적으로, 다른 채널 그룹과 독립적인 기본 채널 그룹(Base Channel Group)과, 적어도 하나의 채널 그룹에 종속하는 종속 채널 그룹(Dependent Channel Group) 중 적어도 하나를 포함할 수 있다. 이때, 종속 채널 그룹이 종속하는 대상 채널 그룹은 다른 종속 채널 그룹일 수 있고, 특히, 하위의 채널 레이아웃과 관련된 종속 채널 그룹일 수 있다. 또는, 종속 채널 그룹이 종속하는 채널 그룹은 기본 채널 그룹일 수 있다. '채널 그룹(Channel Group)'은 일종의 채널 그룹의 데이터를 포함하므로, '데이터 그룹(Coding Group)'으로 칭할 수 있다. 종속 채널 그룹(Dependent Channel Group)은 기본 채널 그룹에 포함된 채널로부터, 채널의 개수를 추가적으로 확장하기 위해 이용되는 그룹으로, 확장 채널 그룹(Scalable Channel Group 또는 Extended Channel Group)로 칭할 수 있다.
'기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호를 포함할 수 있다. 이에 제한되지 않고, '기본 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호를 포함할 수도 있다.
예를 들어, '종속 채널 그룹'의 오디오 신호는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호 중 '기본 채널 그룹'의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 포함할 수 있다. 이때, 상기 나머지 채널의 오디오 신호의 일부는 적어도 하나의 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹싱 채널의 오디오 신호)일 수 있다.
예를 들어, '기본 채널 그룹'의 오디오 신호는 모노 채널의 오디오 신호 또는 스테레오 채널의 오디오 신호일 수 있다.'기본 채널 그룹' 및 '종속 채널 그룹'의 오디오 신호를 기초로 복원되는 '다채널 오디오 신호'는 청자 전방 3차원 오디오 채널의 오디오 신호 또는 청자 전방향 3차원 오디오 채널의 오디오 신호일 수 있다.
본 명세서에서, '업믹싱(up-mixing)'는 디믹싱(de-mixing)을 통하여, 입력된 오디오 신호의 표시 채널의 개수에 비해, 출력되는 오디오 신호의 표시 채널의 개수가 늘어나게 되는 동작을 의미할 수 있다.
본 명세서에서, '디믹싱(de-mixing)'는 다양한 채널의 오디오 신호가 믹싱된 오디오 신호(즉, 믹스 채널(mixed channel)의 오디오 신호)로부터, 특정 채널의 오디오 신호를 분리하는 동작으로, 믹싱 동작 중 하나를 의미할 수 있다. 이때, '디믹싱'는 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')를 이용한 연산으로 구현될 수 있고, '디믹싱 행렬'는 디믹싱 행렬(또는 이에 대응되는 '다운믹싱 행렬')의 계수로서 적어도 하나의 '디믹싱 가중치 파라미터' (또는 이에 대응되는 '다운믹싱 가중치 파라미터')를 포함할 수 있다. '디믹싱 가중치 파라미터'는 '디믹싱 파라미터'로도 지칭될 수 있고, '다운믹싱 가중치 파라미터'는 '다운믹싱 파라미터'로도 지칭될 수 있다. 또는, '디믹싱'는 '디믹싱 행렬'(또는 이에 대응되는 '다운믹싱 행렬')의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다. 전술한 바와 같이, '디믹싱'는 '업믹싱'와 관련될 수 있다.
'믹싱'은 복수의 채널의 오디오 신호 각각에 각각의 대응 가중치를 곱하여 획득된 각각의 값들을 합하여(즉, 복수의 채널의 오디오 신호를 섞어) 새로운 채널(즉, 믹스 채널)의 오디오 신호를 생성하는 모든 동작을 의미한다.
'믹싱'은 오디오 부호화 장치에서 수행되는 좁은 의미의 '믹싱'과, 오디오 복호화 장치에서 수행되는 '디믹싱'으로 구분될 수 있다.
오디오 부호화 장치에서 수행되는 '믹싱'은 '(다운)믹싱 행렬'를 이용한 연산으로 구현될 수 있고, '(다운)믹싱 행렬'는 (다운)믹싱 행렬의 계수로서 적어도 하나의 '(다운)믹싱 가중치 파라미터'를 포함할 수 있다. 또는, '(다운)믹싱'는 '(다운)믹싱 행렬'의 일부를 기초로 한 수학식 연산으로 구현될 수 있고, 이에 제한되지 않고, 다양한 방식으로 구현될 수 있다.
본 명세서에서, '업믹스(up-mix) 채널 그룹'은 적어도 하나의 업믹스 채널을 포함하는 그룹을 의미하고, '업믹스(up-mixed) 채널'은 부/복호화된 채널의 오디오 신호에 대한 디믹싱을 통해 분리된 디믹스 채널(de-mixed channel)을 의미할 수 있다. 좁은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'만을 포함할 수 있다. 하지만, 넓은 의미의 '업믹스(up-mix) 채널 그룹'은 '업믹스 채널'뿐 아니라, '부/복호화된 채널'을 더 포함할 수 있다. 여기서, '부/복호화된 채널'이란, 부호화(압축)되어 비트스트림에 포함된 오디오 신호의 독립 채널 또는 비트스트림으로부터 복호화되어 획득된 오디오 신호의 독립 채널을 의미한다. 이때, 부/복호화된 채널의 오디오 신호를 획득하기 위해 별도의 (디)믹싱 동작은 필요하지 않다.
넓은 의미의 '업믹스(up-mix) 채널 그룹'의 오디오 신호는 다채널 오디오 신호일 수 있고, 출력 다채널 오디오 신호는 스피커와 같은 장치로 출력되는 오디오 신호로, 적어도 하나의 다채널 오디오 신호(즉, 적어도 하나의 업믹스 채널 그룹의 오디오 신호) 중 하나일 수 있다.
본 명세서에서, '다운 믹싱(down-mixing)'는 믹싱(mixing)을 통해 입력된 오디오 신호의 표시 채널의 개수에 비하여, 출력되는 오디오 신호의 표시 채널의 개수가 줄어들게 되는 동작을 의미할 수 있다.
본 명세서에서, '에러 제거(Error Removal)를 위한 펙터(factor)'은 손실 부호화(Lossy Coding)로 인하여 생성된 오디오 신호의 에러를 제거하기 위한 펙터일 수 있다.
손실 부호화로 인하여 생성된 신호의 에러는 양자화로 인한 에러, 구체적으로, 심리청각특성(Phycho-acoustic characteristic)에 기초한 부호화(양자화)로 인한 에러 등을 포함할 수 있다. '에러 제거를 위한 펙터'는 '부호화 에러 제거 펙터(Coding Error Removal Factor; CER Factor)' 또는 '에러 제거 비율(Error Cancellation Ratio)' 등으로 칭할 수 있다. 특히, 에러 제거 동작은 실질적으로 스케일 동작에 대응되므로, '에러 제거를 위한 펙터'는 '스케일 펙터'로 칭할 수 있다.
본 명세서에서, '프레임'은 시간 도메인에서 오디오 신호를 나눈 단위를 의미할 수 있다. 예를 들어, 프레임 t (t는 자연수)가 '현재 프레임'으로 지칭될 수 있다. 여기서, t는 일련의 프레임들 각각을 구분하는 자연수일 수 있다. 프레임 t-N (N은 t보다 작은 자연수)은 '이전 프레임'으로 지칭될 수 있다. 프레임의 크기(또는 간격)는 제조사 또는 사용자의 설정에 의해 미리 정의될 수 있다.
도 1a는 일 실시예에 따른 오디오 장면 분류기를 도시하는 블록도이다. 도 1a를 참조하면, 오디오 장면 분류기(100)는 특징 추출기(110), 시간 상관 분석기(120), 및 측정기(130)를 포함할 수 있다.
오디오 장면 분류기(100)는 오디오 신호의 일련의 프레임들에 대응하는 장면을 분류할 수 있다. 예를 들어, 오디오 장면 분류기(100)는 오디오 신호의 일련의 프레임들 각각을 대화 타입, 음악 타입, 또는 효과음 타입으로 분류할 수 있다. 그러나 본 개시가 이에 제한되는 것은 아니며, 오디오 장면 분류기(100)가 분류할 수 있는 장면의 타입과 타입의 개수는 제조사 또는 사용자의 설정에 의해 변경될 수 있다.
오디오 장면 분류기(100)는 오디오 신호의 현재 프레임의 장면을 분류하기 위해 적어도 하나의 이전 프레임에 대응하는 데이터를 이용할 수 있다. 예를 들어, 오디오 장면 분류기(100)는 적어도 하나의 이전 프레임에 대응하는 데이터와 현재 프레임에 대응하는 데이터의 유사도를 이용하여 현재 프레임의 장면을 분류할 수 있다.
특징 추출기(110)는 제1 프레임(또는 현재 프레임으로 지칭될 수 있음)에 대응하는 제1 오디오 신호(ASt)를 획득(또는 수신)할 수 있다. 여기서, 제1 오디오 신호(ASt)는 대응하는 음성 데이터를 시각화한 데이터(예컨대, 스펙트로그램)일 수 있으나, 이에 제한되는 것은 아니다.
특징 추출기(110)는 제1 오디오 신호(ASt)의 특징을 추출할 수 있다. 특징 추출기(110)는 제1 오디오 신호(ASt)에 기초하여 제1 특징 벡터(Ft)를 추출할 수 있다. 예를 들어, 특징 추출기(110)는 제1 오디오 신호(ASt)를 입력으로 하는 제1 뉴럴 네트워크를 이용하여, 제1 특징 벡터(Ft)를 추출할 수 있다. 특징 추출기(110)는 제1 특징 벡터(Ft)를 시간 상관 분석기(120)에 전달할 수 있다. 제1 뉴럴 네트워크의 구체적인 기능 및 동작은 도 1b에서 상세하게 설명한다.
시간 상관 분석기(120)는 복수의 프레임들에 대응하는 특징들 간의 유사도를 획득(또는 계산)할 수 있다. 시간 상관 분석기(120)는 제1 특징 벡터(Ft) 및 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-N)를 수신할 수 있다. 시간 상관 분석기(120)는 제1 특징 벡터(Ft) 및 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-N)에 기초하여 시간 상관 벡터(TCt)를 획득할 수 있다. 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-N)는 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임(또는 이전 프레임으로 지칭될 수 있음)에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출될 수 있다. 즉, 제2 프레임은 제1 프레임보다 시간적으로 이전의 일련의 프레임들 중 적어도 하나일 수 있다. 제2 특징 벡터의 개수는 N 일 수 있다. 여기서, N은 자연수일 수 있다. 시간 상관 벡터(TCt)는, 제1 특징 벡터(Ft) 및 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-N) 간의 유사도를 나타낼 수 있다.
측정기(130)는 제1 오디오 신호(ASt)의 장면을 분류할 수 있다. 측정기(130)는 제1 특징 벡터(Ft), 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-M), 및 시간 상관 벡터(TCt)를 수신할 수 있다. 여기서, M은 자연수일 수 있다. 일 실시예에 있어서, M은 N과 같거나 작을 수 있다. M이 N보다 작은 경우, M과 N이 같은 경우보다 더 적은 연산량으로 제1 오디오 신호(ASt)의 장면이 분류될 수 있다.
측정기(130)는 제1 특징 벡터(Ft), 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-M), 및 시간 상관 벡터(TCt)를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 제1 오디오 신호(ASt)의 장면을 분류할 수 있다. 측정기(130)는 제1 오디오 신호(ASt)에 대응하는 장면 분류 결과(SCt)를 출력할 수 있다. 제2 뉴럴 네트워크의 구체적인 기능 및 동작은 도 1d에서 상세하게 설명한다.
일 실시예에 따르면, 오디오 장면 분류기(100)는 장면 타입의 개수와 무관하게 특징 추출기(110), 시간 상관 분석기(120), 및 측정기(130)를 포함하는 단일의 모듈로 구성됨으로써, 장면 타입의 개수가 증가함에 따른 지연시간이 발생하지 않을 수 있다.
도 1b는 도 1a의 특징 추출기(110)의 구체적인 동작을 설명하기 위한 블록도이다. 특징 추출기(110)는 제1 뉴럴 네트워크(112)를 포함할 수 있다. 제1 뉴럴 네트워크(112)는 제1 오디오 신호(ASt)를 입력으로 하여 제1 특징 벡터(Ft)를 출력할 수 있다. 도 1a에서 설명한 내용과 중복되는 내용은 생략한다.
도 1b와 함께, 도 1a를 참조하면, 특징 추출기(110)는 제1 오디오 신호(ASt)를 획득할 수 있다. 예를 들어, 특징 추출기(110)는 제1 오디오 신호(ASt)를 스펙트로그램의 형태로 입력 받을 수 있다.
일 실시예에 있어서, 오디오 장면 분류기(100)는 전처리기(140)를 더 포함할 수 있다. 전처리기(140)는 다채널 오디오 신호(MCAS)를 획득(또는 수신)할 수 있다. 전처리기(140)는 다채널 오디오 신호(MCAS) 중 제1 프레임(ft)에 대응하는 신호를 획득할 수 있다. 프레임(예컨대, 제1 프레임(ft))은
Figure PCTKR2023005182-appb-img-000001
만큼의 크기를 가질 수 있다.
일 실시예에 있어서, 전처리기(140)는 제1 프레임(ft)에 대응하는 신호 중 적어도 하나의 채널 신호를 포함하는 제1 오디오 신호(ASt)를 추출할 수 있다. 예를 들어, 다채널 오디오 신호(MCAS)는 i 개의 채널 신호들을 포함할 수 있다. 전처리기(140)는 다채널 오디오 신호(MCAS)의 i 개의 채널 신호들 중 i 보다 적은 수의 k 개의 채널 신호를 포함하는 제1 오디오 신호(ASt)를 추출할 수 있다. (i, k 는 자연수)
일 실시예에 있어서, 전처리기(140)는 다채널 오디오 신호(MCAS)를 시간-주파수 도메인으로 변환(transform)할 수 있다. 예를 들어, 전처리기(140)는 다채널 오디오 신호(MCAS)에 기초하여 스펙트로그램을 생성할 수 있다. 전처리기(140)는 다채널 오디오 신호(MCAS) 중 적어도 하나의 채널 신호 각각에 대한 스펙트로그램을 생성할 수 있다. 즉, 전처리기(140)는 시간, 주파수, 및 채널을 차원으로 하는 벡터로 표현되는 제1 오디오 신호(ASt)를 생성할 수 있다.
일 실시예에 있어서, 다채널 오디오 신호(MCAS)는 7.1.4 채널 레이아웃을 가질 수 있다. 표 1을 참조하면, 다채널 오디오 신호는 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE 채널 신호들을 가질 수 있다. 이 경우, i는 12일 수 있다. 예를 들어, 전처리기(140)는 L/C/R/Ls/Rs/Lb/Rb/Hfl/Hfr/Hbl/Hbr/LFE 채널 신호들 중 L/C/R/Ls/Rs 신호를 추출할 수 있다. 이 경우, k는 5일 수 있다. 따라서, 제1 오디오 신호(ASt)는 채널들 각각에 대응하는 서브 오디오 신호들(예컨대, ASt_1, ASt_2, ASt_3, ASt_4, ASt_5)를 포함할 수 있다.
일 실시예에 있어서, 전처리기(140)는 다채널 오디오 신호를 5 개의 채널 신호(예컨대, L/C/R/Ls/Rs 신호)로 다운믹싱할 수 있다. 일 실시예에 있어서, 전처리기(140)는 다채널 오디오 신호(MCAS)를 스테레오 신호로 다운믹싱할 수 있다. 일 실시예에 있어서, 전처리기(140)는 다운믹싱된 신호를 시간-주파수 도메인으로 변환(transform)할 수 있다.
제1 뉴럴 네트워크(112)는 적어도 하나의 컨볼루셔널(convolutional) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 컨볼루셔널 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 특징 데이터를 획득한다. 컨볼루셔널 레이어에서 다음 레이어로 특징 데이터를 전달하기 전에, 활성화 함수(activation function)가 이용될 수 있다. 예를 들어, 활성화 함수는 시그모이드 함수, Tanh 함수, 소프트맥스 함수, ReLU 함수일 수 있으나, 본 개시는 이에 제한되지 않는다. 컨볼루셔널 레이어의 필터의 파라미터들은 후술하는 훈련 과정을 통해 최적화될 수 있다. 풀링 레이어는 입력 데이터의 크기를 줄이기 위해, 특징 데이터의 전체 샘플의 특징 값 중 일부 샘플의 특징 값만을 취하여 출력하기 위한 레이어로, 최대 풀링 레이어(Max Pooling Layer) 및 평균 풀링 레이어(Average Pooling Layer) 등을 포함할 수 있다. 일 실시예에 있어서, 풀링 레이어는 최대 풀링 레이어일 수 있다. 풀리-커넥티드 레이어는 한 레이어의 뉴런이 그 다음 레이어의 모든 뉴런과 연결된 레이어로, 특징을 분류하기 위한 레이어이다. 풀리-커넥티드 레이어에서 데이터가 출력되기 전에, 활성화 함수(activation function)가 이용될 수 있다.
도 1b에서, 제1 뉴럴 네트워크(112)는 컨볼루셔널 레이어 3 개, 풀링 레이어 3 개, 풀리-커넥티드 레이어 1 개로 구성되는 것으로 도시되었으나, 이는 일 예시이며, 본 개시는 이에 제한되지 않는다. 따라서, 제1 뉴럴 네트워크(112)에 포함되는 컨볼루셔널 레이어, 풀링 레이어, 풀리-커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
제1 뉴럴 네트워크(112)는 제1 오디오 신호(ASt)를 수신할 수 있다. 제1 뉴럴 네트워크(112)는 제1 오디오 신호(ASt)를 입력으로 하여 제1 특징 벡터(Ft)를 추출(생성 또는 획득)할 수 있다. 일 실시예에 있어서, 제1 특징 벡터(Ft)는 메모리(미도시)에 저장될 수 있다. 메모리(미도시)에 저장된 제1 특징 벡터(Ft)는 다음 프레임(예컨대, Ft+1)에 대응하는 시간 상관 벡터(예컨대, TCt+1)을 획득하는 과정에서 활용될 수 있다.
일 실시예에 있어서, 제1 뉴럴 네트워크(112)는 벡터화된 오디오 신호들로 구성되는 데이터셋을 입력으로 하여 오디오 신호들 각각에 대응하는 특징 벡터를 출력하도록 학습될 수 있다. 즉, 학습이 반복됨에 따라, 특징 벡터를 출력하기 위한 제1 뉴럴 네트워크(112)의 파라미터가 갱신될 수 있다.
도 1c는 도 1a의 시간 상관 분석기(120)의 구체적인 동작을 설명하기 위한 블록도이다. 도 1a 및 1b에서 설명한 내용과 중복되는 내용은 생략한다. 예를 들어, M이 5인 경우를 가정하여 이하 설명하나, 본 개시는 이에 한정되지 않는다. M이 5인 경우를 가정하므로, N은 5와 같거나 클 수 있음은 물론이다.
도 1c와 함께, 도 1a를 참조하면, 시간 상관 분석기(120)는 제1 특징 벡터(Ft) 및 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5)를 수신할 수 있다. 시간 상관 분석기(120)는 제1 특징 벡터(Ft)와 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5) 각각에 대한 내적(inner product)을 수행할 수 있다. 시간 상관 분석기(120)는 제1 특징 벡터(Ft)와 제1 특징 벡터(Ft)에 대한 내적(즉, 제1 특징 벡터(Ft) 자신에 대한 내적)을 수행할 수 있다. 시간 상관 분석기(120)는 제1 특징 벡터(Ft)와 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5) 각각에 대한 내적(inner product) 값과, 제1 특징 벡터(Ft)와 제1 특징 벡터(Ft)에 대한 내적 값을 포함하는 시간 상관 벡터(TCt)를 획득할 수 있다.
도 1d는 도 1a의 측정기(130)의 구체적인 동작을 설명하기 위한 블록도이다. 도 1a 내지 1c에서 설명한 내용과 중복되는 내용은 생략한다.
도 1d와 함께, 도 1a를 참조하면, 측정기(130)는 연결(concatenation) 함수(132) 및 제2 뉴럴 네트워크(134)를 포함할 수 있다. 측정기(130)는 현재 프레임의 특징 벡터, 적어도 하나의 이전 프레임의 적어도 하나의 특징 벡터, 및 현재 프레임에 대응하는 시간 상관 벡터를 이용하여 제1 오디오 신호(ASt)에 대응하는 장면을 분류할 수 있다. 측정기(130)는 제1 특징 벡터(Ft), 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5), 및 시간 상관 벡터(TCt)를 수신할 수 있다.
연결 함수(132)는 제1 특징 벡터(Ft), 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5), 및 시간 상관 벡터(TCt)를 연결할 수 있다. 연결 함수(132)는 연결된 벡터를 출력할 수 있다.
제2 뉴럴 네트워크(134)는 적어도 하나의 풀리-커넥티드 레이어 및 Argmax 함수를 포함할 수 있다. 풀리-커넥티드 레이어에서 데이터가 출력되기 전에, 활성화 함수(activation function)가 이용될 수 있다. 적어도 하나의 풀리-커넥티드 레이어는 연결된 벡터를 이용하여 미리 정의된 장면 타입에 대한 확률 값을 출력할 수 있다. 일 실시예에 있어서, 확률 값을 추출하기 위한 활성화 함수(예컨대, softmax 함수)가 이용될 수 있다. Argmax 함수는 미리 정의된 장면 타입(예컨대, 대화 타입, 음악 타입, 효과음 타입) 중 가장 높은 확률 값을 갖는 장면 타입(즉, 장면 분류 결과(SCt))을 출력할 수 있다.
도 1d에서, 제2 뉴럴 네트워크(134)는 풀리-커넥티드 레이어 2 개와 argmax 함수로 구성되는 것으로 도시되었으나, 이는 일 예시이며, 본 개시는 이에 제한되지 않는다. 따라서, 제2 뉴럴 네트워크(134)에 포함되는 풀리-커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
제2 뉴럴 네트워크(134)는 연결된 벡터를 수신할 수 있다. 제2 뉴럴 네트워크(134)는 연결된 벡터를 입력으로 하여 장면 분류 결과(SCt)를 출력할 수 있다. 일 실시예에 있어서, 제1 특징 벡터(Ft), 적어도 하나의 제2 특징 벡터(Ft-1, ..., Ft-5), 및 시간 상관 벡터(TCt)를 입력으로 하는 제2 뉴럴 네트워크(134)를 이용하여, 상기 제1 오디오 신호(ASt)의 장면이 분류될 수 있다.
일 실시예에 있어서, 제2 뉴럴 네트워크(134)는 특징 벡터 및 시간 상관 벡터로 구성되는 데이터셋을 입력으로 하여 오디오 신호들 각각에 대응하는 장면을 분류하도록 학습될 수 있다. 즉, 학습이 반복됨에 따라, 특징 벡터를 출력하기 위한 제2 뉴럴 네트워크(134)의 파라미터가 갱신될 수 있다. 일 실시예에 있어서, 제1 뉴럴 네트워크(112)와 제2 뉴럴 네트워크(134)가 공동으로 학습될 수 있다. 예를 들어, 오디오 장면 분류기(100)는 하나의 뉴럴 네트워크로 취급되어 학습될 수 있다.
도 2a는 일 실시예에 따른 다채널 오디오 신호 처리기를 도시하는 블록도이다.
도 2a를 참조하면, 다채널 오디오 신호 처리기(200)는 오디오 장면 분류기(210) 및 다운믹스 채널 오디오 생성기(220)를 포함할 수 있다. 오디오 장면 분류기(210)는 특징 추출기(212), 시간 상관 분석기(214), 및 측정기(216)를 포함할 수 있다. 오디오 장면 분류기(210), 특징 추출기(212), 시간 상관 분석기(214), 및 측정기(216)의 기능 및 동작은 도 1a 내지 1d의 오디오 장면 분류기(100), 특징 추출기(110), 시간 상관 분석기(120), 및 측정기(130)의 기능 및 동작과 유사하므로, 중복되는 내용은 생략한다.
다채널 오디오 신호 처리기(200)는 제1 프레임 및 적어도 하나의 제2 프레임을 포함하는 복수의 프레임들에 대응하는 다채널 오디오 신호를 획득(또는 수신)할 수 있다. 다채널 오디오 신호는 복수의 채널 신호들을 포함할 수 있다. 다채널 오디오 신호 처리기(200)는 다채널 오디오 신호 중 적어도 하나의 채널 신호를 포함하는 제1 오디오 신호를 추출할 수 있다.
오디오 장면 분류기(210)는 제1 오디오 신호의 장면을 분류할 수 있다.
다운믹스 채널 오디오 생성기(220)는 장면 분류 결과(SCt)에 기초하여 제1 프레임에 대응하는 다채널 오디오 신호를 다운믹싱할 수 있다. 다운믹스 채널 오디오 생성기(220)는 장면 분류 결과(SCt)에 대응하는 다운믹싱 프로파일(222)를 획득할 수 있다. 예를 들어, 다운믹싱 프로파일(222)은 다채널 오디오 신호에서 다른 채널 레이아웃을 갖는 다채널 오디오 신호로 믹싱하기 위한 다운믹싱 파라미터들을 포함할 수 있다. 다운믹스 채널 오디오 생성기(220)는 다운믹싱 프로파일에 기초하여 다채널 오디오 신호(이하, 제1 다채널 오디오 신호)를 다른 채널 레이아웃을 갖는 다채널 오디오 신호(이하, 제2 다채널 오디오 신호)로 믹싱하기 위한 다운믹싱 파라미터를 획득할 수 있다. 예를 들어, 다운믹싱 프로파일(222)은 장면 분류 결과(SCt), 제1 다채널 오디오 신호의 채널 레이아웃, 및 제2 다채널 오디오 신호의 채널 레이아웃에 따라 다를 수 있다.
다운믹스 채널 오디오 생성기(220)는 다운믹싱 파라미터에 기초하여 제1 프레임에 대응하는 제1 다채널 오디오 신호를 제2 다채널 오디오 신호의 채널 레이아웃에 따라 다운믹싱할 수 있다. 다운믹싱 프로파일 및/또는 다운믹싱 파라미터는 미리 결정될 수 있다. 다운믹스 채널 오디오 생성기(220)는 다운믹싱의 결과로, 다운믹싱된 오디오 신호(즉, 제2 다채널 오디오 신호)를 생성할 수 있다. 본 명세서에서, 다운믹싱된 오디오 신호는 제2 다채널 오디오 신호로도 명명되었으나, 하나의 채널로 구성된 모노 신호일 수 있다.
도 2b는 일 실시예에 따른 장면 분류 결과를 보여주는 도면이다. 도 2b와 함께, 도 1a 내지 2a를 참조하면, 오디오 장면 분류기(100, 210)는 다채널 오디오 신호(MCAS)로부터 제1 오디오 신호(ASt)를 추출할 수 있다. 예를 들어, 제1 오디오 신호(ASt)는 다채널 오디오 신호(MCAS)의 C/L/R/SL/SR 채널 신호들을 포함할 수 있다. 제1 오디오 신호(ASt)는 제1 프레임에 대응할 수 있다.
오디오 장면 분류기(100, 210)는 제1 오디오 신호(ASt)에 대응하는 장면을 분류할 수 있다. 예를 들어, 제1 오디오 신호(ASt)에 대응하는 장면은 대화 타입, 효과음 타입, 또는 음악 타입 중 하나의 타입으로 분류될 수 있다. 일 실시예에 따른 오디오 장면 분류기(100, 200)의 분류 정확도를 정리하면, 하기 표 2와 같다.

Prediction
대화 효과음 음악
Ground Truth 대화 98.0% 1.1% 0.1%
효과음 0.9% 85.1% 14.0%
음악 6.2% 3.9% 89.9%
표 2를 참조하면, 제1 오디오 신호(ASt)의 그라운드 트루스(ground truth)가 대화 타입인 경우, 오디오 장면 분류기(100, 210)는 98.0%의 정확도로 제1 오디오 신호(ASt)를 대화 타입으로 예측한다. 제1 오디오 신호(ASt)의 그라운드 트루스가 효과음 타입인 경우, 오디오 장면 분류기(100, 210)는 85.1%의 정확도로 제1 오디오 신호(ASt)를 효과음 타입으로 예측한다. 제1 오디오 신호(ASt)의 그라운드 트루스가 음악 타입인 경우, 오디오 장면 분류기(100, 210)는 89.9%의 정확도로 제1 오디오 신호(ASt)를 음악 타입으로 예측한다. 오디오 장면 분류기(100, 210)의 평균 분류 정확도는 95.8%로, 오디오 신호의 특정 프레임에 대응하는 장면이 향상된 정확도로 분류될 수 있다.
도 3a는 일 실시예에 따른 스케일러블 오디오 채널 레이아웃 구조(scalable channel layout structure)를 설명하기 위한 도면이다.
종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들의 압축 오디오 신호를 비트스트림으로부터 수신하였다. 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 독립 채널들의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 이때, 특정 채널 레이아웃의 오디오 신호만이 복원될 수 있었다.
또는, 종래의 3차원 오디오 복호화 장치는, 특정 채널 레이아웃의 독립 채널들(제 1 독립 채널 그룹)의 압축 오디오 신호를 비트스트림으로부터 수신하였다. 예를 들어, 특정 채널 레이아웃은 5.1 채널 레이아웃일 수 있고, 이때, 제 1 독립 채널 그룹의 압축 오디오 신호는 5개의 서라운드 채널 및 1개의 서브우퍼 채널의 압축 오디오 신호일 수 있다.
여기서, 채널의 개수의 증가를 위해, 종래의 3차원 오디오 복호화 장치는, 추가적으로 제 1 독립 채널 그룹과 독립적인 다른 채널들(제 2 독립 채널 그룹)의 압축 오디오 신호를 수신하였다. 예를 들어, 제 2 독립 채널 그룹의 압축 오디오 신호는 2개의 높이 채널의 압축 오디오 신호일 수 있다.
즉, 종래의 3차원 오디오 복호화 장치는, 비트스트림으로부터 수신한 제 1 독립 채널 그룹의 압축 오디오 신호와 별개로, 비트스트림으로부터 수신한 제 2 독립 채널 그룹의 압축 오디오 신호를 이용하여, 청자 전방향의 3차원 오디오 채널의 오디오 신호를 복원하였다. 따라서, 채널의 개수가 증가된 오디오 신호가 복원되었다. 여기서, 청자 전방향의 3차원 오디오 채널의 오디오 신호는 5.1.2 채널의 오디오 신호일 수 있다.
반면에, 스테레오 채널의 오디오 신호의 재생만을 지원하는 레거시 오디오 복호화 장치는 상기 비트스트림에 포함된 압축 오디오 신호를 제대로 처리하지 못하였다.
또한, 3차원 오디오 신호의 재생을 지원하는 종래의 3차원 오디오 복호화 장치도, 스테레오 채널의 오디오 신호를 재생하기 위해, 먼저 제 1 독립 채널 그룹 및 제 2 독립 채널 그룹의 압축 오디오 신호를 압축 해제(복호화)하였다. 그러고 나서, 종래의 3차원 오디오 복호화 장치는, 압축해제 하여 생성된 오디오 신호를 업믹싱을 수행하였다. 하지만, 스테레오 채널의 오디오 신호를 재생하기 위해 업믹싱과 같은 동작이 반드시 수행되어야 하는 번거로움이 있었다.
따라서, 레거시 오디오 복호화 장치에서 압축 오디오 신호를 처리할 수 있는 스케일러블 채널 레이아웃 구조가 요구된다. 게다가, 일 실시예에 따른 3차원 오디오 신호의 재생을 지원하는 오디오 복호화 장치(500,700)에서, 재생 지원되는 3차원 오디오 채널 레이아웃에 따라, 압축 오디오 신호를 처리할 수 있는, 스케일러블 채널 레이아웃 구조가 요구된다. 여기서, 스케일러블 채널 레이아웃 구조는 기본 채널 레이아웃으로부터 자유롭게 채널 개수의 증가가 가능한 레이아웃 구조를 의미한다.
일 실시예에 따른 오디오 복호화 장치(500,700)는 비트스트림으로부터 스케일러블 채널 레이아웃 구조의 오디오 신호를 복원할 수 있다. 일 실시예에 따른 스케일러블 채널 레이아웃 구조에 따르면, 스테레오 채널 레이아웃(300)으로부터 청자 전방의 3차원 오디오 채널 레이아웃(310)으로 채널 개수의 증가가 가능하다. 더 나아가, 스케일러블 채널 레이아웃 구조에 따르면, 청자 전방의 3차원 오디오 채널 레이아웃(310)으로부터 청자 전방향의 3차원 오디오 채널 레이아웃(320)으로, 채널 개수의 증가가 가능하다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(310)는 3.1.2 채널 레이아웃일 수 있다. 청자 전방향의 3차원 오디오 채널 레이아웃(320)는 5.1.2 또는 7.1.2 채널 레이아웃일 수 있다. 하지만 본 개시에서 구현 가능한 스케일러블 채널 레이아웃은 이에 한정되지는 않는다.
기본 채널 그룹으로서, 종래 스테레오 채널의 오디오 신호가 압축될 수 있다. 레거시 오디오 복호화 장치는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 압축 해제할 수 있기 때문에, 종래 스테레오 채널의 오디오 신호를 원활하게 재생할 수 있다.
추가적으로, 종속 채널 그룹으로서, 다채널 오디오 신호 중 종래 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가 압축될 수 있다.
다만, 채널의 개수를 증가시키는 과정에서, 채널 그룹의 오디오 신호의 일부는, 특정 채널 레이아웃의 오디오 신호 중 일부 독립 채널의 신호가 믹싱된 오디오 신호일 수 있다.
따라서, 오디오 복호화 장치(500,700)에서 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부는 디믹싱되어, 특정 채널 레이아웃에 포함된 업믹스 채널의 오디오 신호가 생성될 수 있다.
한편, 하나 이상의 종속 채널 그룹이 존재할 수 있다. 예를 들어, 청자 전방의 3차원 오디오 채널 레이아웃(310)의 오디오 신호 중 스테레오 채널의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제 1 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
청자 전방향의 3차원 오디오 채널 레이아웃(320)의 오디오 신호 중 기본 채널 그룹과 제 1 종속 채널 그룹으로부터 복원된 채널들의 오디오 신호를 제외한 나머지 채널의 오디오 신호가, 제 2 종속 채널 그룹의 오디오 신호로서 압축될 수 있다.
일 실시예에 따른 오디오 복호화 장치(500,700)는, 청자 전방향의 3차원 오디오 채널 레이아웃(320)의 오디오 신호에 대한 재생을 지원할 수 있다.
따라서, 일 실시예에 따른 오디오 복호화 장치(500,700)는 기본 채널 그룹의 오디오 신호, 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방향의 3차원 오디오 채널 레이아웃(320)의 오디오 신호를 복원할 수 있다.
레거시 오디오 신호 처리 장치는 비트스트림으로부터 복원하지 못하는 종속 채널 그룹의 압축 오디오 신호를 무시하고, 비트스트림으로부터 복원된 스테레오 채널의 오디오 신호만을 재생할 수 있다.
마찬가지로, 오디오 복호화 장치(500,700)는 기본 채널 그룹 및 종속 채널 그룹의 압축 오디오 신호를 처리하여, 스케일러블 채널 레이아웃 중에서 지원가능한 채널 레이아웃의 오디오 신호를 복원할 수 있다. 오디오 복호화 장치(500,700)는 비트스트림으로부터, 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 복원하지 못한다. 따라서, 오디오 복호화 장치(500,700)에서 지원하지 않는 상위 채널 레이아웃에 관한 압축 오디오 신호를 무시하고, 지원가능한 채널 레이아웃의 오디오 신호만을 비트스트림으로부터 복원할 수 있다.
특히, 종래의 오디오 부호화 장치 및 오디오 복호화 장치는 특정 채널 레이아웃의 독립적인 채널의 오디오 신호만을 압축 및 압축 해제하였다. 따라서, 제한적인 채널 레이아웃의 오디오 신호의 압축과 압축 해제만이 가능하였다.
하지만, 스케일러블 채널 레이아웃을 지원하는 장치인 일 실시예의 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)에 의하면, 스테레오 채널의 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 또한, 일 실시예의 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)에 의하면, 청자 전방의 3차원 채널 레이아웃의 오디오 신호의 전송 및 복원이 가능하다. 나아가, 일 실시예의 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)에 의하면, 청자 전방향의 3차원 채널 레이아웃의 오디오 신호를 전송 및 복원이 가능할 수 있다.
즉, 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)는 스테레오 채널의 레이아웃에 따른 오디오 신호를 전송 및 복원할 수 있다. 그뿐 아니라, 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)는 현재 채널 레이아웃의 오디오 신호들을 다른 채널 레이아웃의 오디오 신호들로 자유로이 변환할 수 있다. 서로 다른 채널 레이아웃에 포함된 채널들의 오디오 신호 간의 믹싱/디믹싱을 통하여 채널 레이아웃들 간의 변환이 가능하다. 일 실시예에 따른 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)는 다양한 채널 레이아웃들 간의 변환을 지원하므로, 다양한 3차원 채널 레이아웃들의 오디오 신호를 전송 및 재생할 수 있다. 즉, 청자 전방의 채널 레이아웃과 청자 전방향의 채널 레이아웃 사이, 또는, 스테레오 채널 레이아웃과 청자 전방의 채널 레이아웃 사이에는, 채널의 독립성이 보장되지는 않지만, 오디오 신호의 믹싱/디믹싱을 통하여 자유로이 변환이 가능하다.
일 실시예에 따른 오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)는, 청자 전방의 채널 레이아웃의 오디오 신호의 처리를 지원하므로, 화면 중심으로 배치된 스피커에 대응되는 오디오 신호를 전송 및 복원함으로써 청자의 몰입감이 증대될 수 있다.
오디오 부호화 장치(400,600) 및 오디오 복호화 장치(500,700)의 구체적인 동작은 도 4a 내지 도 7b를 참고하여 후술하기로 한다.
도 3b는 예시적인 스케일러블 오디오 채널 레이아웃 구조를 설명하기 위한 도면이다.
도 3b를 참조하면, 스테레오 채널 레이아웃(360)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(400,600)는 L2/R2 신호를 압축하여 기본 채널 그룹의 압축 오디오 신호(A/B 신호)를 생성할 수 있다.
이때, 오디오 부호화 장치(400,600)는 L2/R2 신호를 압축하여 기본 채널 그룹의 오디오 신호를 생성할 수 있다.
또한, 청자 전방 3차원 오디오 채널 중 하나인 3.1.2 채널의 레이아웃(370)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(400,600)는 C, LFE, Hfl3, Hfr3 신호를 압축하여 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다. 오디오 복호화 장치(500,700)는 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있다. 또한, 오디오 복호화 장치(500,700)는 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 L2 신호 및 C 신호를 디믹싱(1)하여 3.1.2 채널 레이아웃(370)의 L3 신호를 복원할 수 있다. 오디오 복호화 장치(500,700)는 R2 신호 및 C 신호를 디믹싱(2)하여 3.1.2 채널의 R3 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(500,700)는 L3, R3, C, Lfe, Hfl3, Hfr3 신호를, 3.1.2 채널 레이아웃(370)의 오디오 신호로 출력할 수 있다.
한편, 청자 전방향 5.1.2 채널 레이아웃(380)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(400,600)는 L5, R5 신호를 추가적으로 압축하여, 제 2 종속 채널 그룹의 압축 오디오 신호를 생성할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(500,700)는 기본 채널 그룹의 압축된 오디오 신호를 압축 해제하여, L2/R2 신호를 복원할 수 있고, 제 1 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여, C, LFE, Hfl3, Hfr3 신호를 복원할 수 있다. 추가적으로, 오디오 복호화 장치(500,700)는 제 2 종속 채널 그룹의 압축된 오디오 신호를 압축 해제하여 L5, R5 신호를 복원할 수 있다. 또한, 전술한 바와 같이, 오디오 복호화 장치(500,700)는 압축 해제된 오디오 신호 중 일부의 신호를 디믹싱하여, L3 및 R3 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(500,700)는 L3 및 L5 신호를 디믹싱(3)하여 Ls5 신호를 복원할 수 있다. 오디오 복호화 장치(500,700)는 R3 및 R5 신호를 디믹싱(4)하여 Rs5 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 Hfl3 신호 및 Ls5 신호를 디믹싱(5)하여 Hl5 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 Hfr3 신호 및 Rs5 신호를 디믹싱(6)하여 Hr5 신호를 복원할 수 있다. Hfr3 및 Hr5는 각각 높이 채널 중 전방의 오른쪽 채널이다.
결국, 오디오 복호화 장치(500,700)는 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 5.1.2 채널 레이아웃(380)의 오디오 신호로 출력할 수 있다.
한편, 7.1.4 채널 레이아웃(390)의 오디오 신호를 전송하기 위해, 오디오 부호화 장치(400,600)는 Hfl, Hfr, Ls, Rs 신호를 제 3 종속 채널 그룹의 오디오 신호로서 추가적으로 압축할 수 있다.
전술한 바와 같이, 오디오 복호화 장치(500,700)는 기본 채널 그룹의 압축 오디오 신호, 제 1 종속 채널 그룹의 압축 오디오 신호 및 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하고, 디믹싱 (1),(2),(3),(4),(5) 및 (6)을 통해 Hl5, Hr5, LFE, L, R, C, Ls5, Rs5 신호를 복원할 수 있다.
추가적으로, 오디오 복호화 장치(500,700)는 제 3 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 Hfl, Hfr, Ls, Rs 신호를 복원할 수 있다. 오디오 복호화 장치(500,700)는 Ls5 신호 및 Ls 신호를 디믹싱(7)하여 7.1.4 채널 레이아웃(390)의 Lb 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 Rs5 신호 및 Rs 신호를 디믹싱(8)하여 7.1.4 채널 레이아웃(190)의 Rb 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 Hfl 신호 및 Hl5 신호를 디믹싱(9)하여 7.1.4 채널 레이아웃(190)의 Hbl 신호를 복원할 수 있다.
오디오 복호화 장치(500,700)는 Hfr 신호 및 Hr5 신호를 디믹싱(또는 믹싱)(10)하여 7.1.4 채널 레이아웃(190)의 Hbr 신호를 복원할 수 있다.
결국, 오디오 복호화 장치(500,700)는 Hfl, Hfr, LFE, C, L, R, Ls, Rs, Lb, Rb, Hbl, Hbr 신호를 7.1.4 채널 레이아웃(390)의 오디오 신호로 출력할 수 있다.
따라서, 오디오 복호화 장치(500,700)는 디믹싱 동작을 통해 채널의 개수가 증가되는 스케일러블 채널 레이아웃을 지원함으로써, 종래 스테레오 채널 레이아웃의 오디오 신호뿐 아니라, 청자 전방의 3차원 오디오 채널의 오디오 신호 및 청자 전방향 3차원 오디오 채널의 오디오 신호까지 복원할 수 있다.
이상, 도 3b를 참조하여 구체적으로 설명한 스케일러블 채널 레이아웃 구조는 일 예에 불과하고, 다양한 채널 레이아웃을 포함하는 형태로, 채널 레이아웃 구조가 스케일러블하게 구현될 수 있다.
도 4a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
오디오 부호화 장치(400)는 메모리(410) 및 프로세서(430)를 포함할 수 있다. 오디오 부호화 장치(400)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 4a에는 메모리(410) 및 프로세서(430)가 개별적으로 도시되어 있으나, 메모리(410) 및 프로세서(430)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(430)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(430)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(430)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(410)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(410)는 뉴럴 네트워크를 저장할 수 있다. 뉴럴 네트워크가 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 뉴럴 네트워크가 메모리(410)에 저장되지 않을 수 있다. 뉴럴 네트워크는 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 부호화 장치(400)는 요청하고, 외부 장치로부터 뉴럴 네트워크에 기초한 결과 정보를 수신할 수 있다.
프로세서(430)는 메모리(410)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 부호화(압축) 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(430)는 원본 오디오 신호를 입력으로 하여, 오디오 처리 동작을 수행하여 압축 오디오 신호를 포함하는 비트스트림을 출력할 수 있다. 이때, 원본 오디오 신호는 다채널 오디오 신호일 수 있다.  압축 오디오 신호는 원본 오디오 신호의 채널의 개수보다 작거나 같은 개수의 채널을 갖는 다채널 오디오 신호일 수 있다.
프로세서(430)는 도 1a 내지 2a의 오디오 장면 분류기(100,210) 및 다채널 오디오 신호 처리기(200)의 기능 중 적어도 일부를 수행할 수 있다.
이때, 비트스트림은 기본 채널 그룹을 포함하고, 나아가, n개의 종속 채널 그룹(n은 1보다 크거나 같은 정수)을 포함할 수 있다. 따라서, 종속 채널 그룹의 개수에 따라, 채널의 개수를 자유롭게 증가시킬 수 있다.
도 4b는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 4b를 참조하면, 오디오 부호화 장치(400)는 다채널 오디오 부호화기(450), 비트스트림 생성기(480) 및 부가 정보 생성기(485)를 포함할 수 있다. 다채널 오디오 부호화기(450)는 다채널 오디오 신호 처리기(460) 및 압축기(470)을 포함할 수 있다.
도 4a를 다시 참조하면, 전술한 바와 같이, 오디오 부호화 장치(400)는 메모리(410) 및 프로세서(430)를 포함할 수 있고, 도 4b의 각 구성요소(450, 460, 470, 480, 485)를 구현하기 위한 인스트럭션은 도 4a의 메모리(410)에 저장될 수 있다. 프로세서(430)는 메모리(410)에 저장된 인스트럭션을 실행할 수 있다. 도 4b에 도시된 구성요소들(450, 460, 470, 480, 485)은, 프로세서(430)에서 메모리(410)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 4b에 도시된 구성요소들(450, 460, 470, 480, 485)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(430)가 수행하는 것으로 볼 수 있다.
다채널 오디오 신호 처리기(460)는 원본 오디오 신호로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다. 예를 들어, 원본 오디오 신호가 7.1.4 채널 레이아웃의 오디오 신호인 경우, 다채널 오디오 신호 처리기(460)는 7.1.4 채널 레이아웃의 오디오 신호에서, 2채널(스테레오 채널)의 오디오 신호를 기본 채널 그룹의 오디오 신호로서 획득할 수 있다.
다채널 오디오 신호 처리기(460)는 청자 전방의 3차원 오디오 채널 중 하나인 3.1.2 채널 레이아웃의 오디오 신호를 복원하기 위해, 3.1.2 채널 레이아웃의 오디오 신호에서 2채널의 오디오 신호를 제외한, 나머지 채널의 오디오 신호를 제 1 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 이때, 제 1 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호를 생성할 수 있다.
다채널 오디오 신호 처리기(460)는 청자 전후방 3차원 오디오 채널 중 하나인 5.1.2 채널 레이아웃의 오디오 신호를 복원하기 위해, 5.1.2 채널 레이아웃의 오디오 신호에서 기본 채널 그룹 및 제 1 종속 채널 그룹의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 제 2 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 이때, 제 2 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호를 생성할 수 있다.
다채널 오디오 신호 처리기(460)는 청자 전방향 3차원 오디오 채널 중 7.1.4 채널 레이아웃의 오디오 신호를 복원하기 위해, 7.1.4 레이아웃의 오디오 신호에서, 기본 채널 그룹, 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 제외한 나머지 채널의 오디오 신호를 제 3 종속 채널 그룹의 오디오 신호로서 획득할 수 있다. 마찬가지로, 제 3 종속 채널 그룹의 일부 채널의 오디오 신호를 디믹싱하여, 디믹싱된 채널(de-mixed channel)의 오디오 신호가 획득될 수 있다.
다채널 오디오 신호 처리기(460)의 구체적인 동작은 도 4c를 참조하여 후술하겠다.
압축기(470)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 압축할 수 있다. 즉, 압축기(470)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 여기서 압축이란, 다양한 오디오 코덱에 기초한 압축을 의미할 수 있다. 예를 들어, 압축은, 변환 및 양자화 프로세스를 포함할 수 있다.
여기서, 기본 채널 그룹의 오디오 신호는 모노 또는 스테레오 신호일 수 있다. 또는, 기본 채널 그룹의 오디오 신호는 좌측 스테레오 채널의 오디오 신호 L과 C_1를 믹싱하여 생성된 제 1 채널의 오디오 신호를 포함할 수 있다. 여기서, C_1는 압축후 압축해제된, 청자 전방의 중심(Center) 채널의 오디오 신호일 수 있다. 오디오 신호의 명칭("X_Y")에서 "X"는 채널의 명칭, "Y"는 복호화되거나, 업믹싱되거나, 에러 제거를 위한 펙터가 적용됨(스케일됨) 또는 LFE 이득이 적용됨을 나타낼 수 있다. 예를 들어, 복호화된 신호는 "X_1"으로 표현되고, 복호화된 신호를 업믹싱하여 생성된 신호(업믹싱된 신호)는 "X_2"으로 표현될 수 있다. 또는, 복호화된 LFE 신호에 LFE 이득이 적용된 신호도 'X_2"으로 표현될 수 있다. 업믹싱된 신호에 에러 제거를 위한 펙터가 적용된(스케일된) 신호는 "X_3"으로 표현될 수 있다.
또한, 기본 채널 그룹의 오디오 신호는 우측 스테레오 채널의 오디오 신호 R과 C_1를 믹싱하여 생성된 제 2 채널의 오디오 신호를 포함할 수 있다.
또한, 압축기(470)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
부가 정보 생성기(485)는 원본 오디오 신호, 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호 중 적어도 하나를 기초로, 부가 정보를 생성할 수 있다. 이때, 부가 정보는 다채널 오디오 신호와 관련된 정보로, 다채널 오디오 신호의 복원을 위한 다양한 정보일 수 있다.
예를 들어, 부가 정보는 오디오 객체(음원)의 오디오 신호, 위치, 모양, 면적, 방향 중 적어도 하나를 나타내는 청자 전방의 3차원 오디오 채널의 오디오 객체 신호를 포함할 수 있다. 또는 부가 정보는 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림을 포함하는 오디오 스트림의 총 개수에 관한 정보를 포함할 수 있다. 또한, 부가 정보는 다운믹스 이득 정보를 포함할 수 있다. 부가 정보는 채널 맵핑 테이블 정보를 포함할 수 있다. 부가 정보는 음량 정보를 포함할 수 있다. 부가 정보는 저주파 효과 이득(Low Frequency Effect Gain; LFE Gain) 정보를 포함할 수 있다. 부가 정보는 동적 범위 제어(Dynamic Range Control;DRC) 정보를 포함할 수 있다. 부가 정보는 채널 레이아웃 렌더링 정보를 포함할 수 있다. 부가 정보는 그 외 커플링된 오디오 스트림의 개수 정보, 다채널의 레이아웃을 나타내는 정보, 오디오 신호 내 대화(Dialogue) 존재 여부 및 대화 레벨에 관한 정보, 저주파 효과(LFE) 출력 여부를 나타내는 정보, 화면 상 오디오 객체의 존재 여부에 관한 정보, 연속적인 오디오 채널의 오디오 신호(audio signal of continuous audio channel; 또는 장면 기반(scene based) 오디오 신호; 또는 앰비소닉 오디오 신호)의 존재 여부에 관한 정보, 비연속적인 오디오 채널의 오디오 신호(audio signal of discrete audio channel; 또는 객체 기반 오디오 신호; 또는 공간적인 멀티 채널(spatial multi-channel)의 오디오 신호)의 존재 여부에 관한 정보를 포함할 수 있다. 부가 정보는 다채널 오디오 신호를 복원하기 위한, 디믹싱 행렬의 적어도 하나의 디믹싱 가중치 파라미터를 포함하는 디믹싱에 관한 정보를 포함할 수 있다. 디믹싱과 (다운)믹싱은 서로 대응되는 동작이므로, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보에 대응되고, 디믹싱에 관한 정보는 (다운)믹싱에 관한 정보를 포함할 수 있다. 예를 들어, 디믹싱에 관한 정보는 (다운)믹싱 행렬의 적어도 하나의 (다운)믹싱 가중치 파라미터를 포함할 수 있다. (다운)믹싱 가중치 파라미터를 기초로, 디믹싱 가중치 파라미터가 획득될 수 있다.
부가 정보는 전술한 정보들의 다양한 조합일 수 있다. 즉, 부가 정보는 전술한 적어도 하나의 정보를 포함할 수 있다.
부가 정보 생성기(485)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는, 종속 채널의 오디오 신호가 존재하는 경우, 종속 채널의 오디오 신호가 존재함을 나타내는 종속 채널 오디오 신호 식별 정보를 생성할 수 있다.
비트스트림 생성기(480)은 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다. 비트스트림 생성기(480)는 부가 정보 생성기(485)에서 생성된 부가 정보를 더 포함하는 비트스트림을 생성할 수 있다.
구체적으로, 비트스트림 생성기(480)는 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림을 생성할 수 있다. 기본 채널 오디오 스트림은 기본 채널 그룹의 압축 오디오 신호를 포함할 수 있고, 종속 채널 오디오 스트림은 종속 채널 그룹의 압축 오디오 신호를 포함할 수 있다.
비트스트림 생성기(480)는 기본 채널 오디오 스트림 및 복수의 종속 채널 오디오 스트림을 포함하는 비트스트림을 생성할 수 있다. 복수의 종속 채널 오디오 스트림은 n개의 종속 채널 오디오 스트림(n은 1보다 큰 정수)을 포함할 수 있다. 이때, 기본 채널 오디오 스트림은 모노 채널의 오디오 신호 또는 스테레오 채널의 압축 오디오 신호를 포함할 수 있다.
예를 들어, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 제 1 다채널 레이아웃의 채널 중 서라운드 채널의 개수는 Sn-1, 서브 우퍼 채널의 개수는 Wn-1, 높이 채널의 개수는 Hn-1일 수 있다. 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 제 2 다채널 레이아웃 중 서라운드 채널의 개수는 Sn, 서브 우퍼 채널의 개수는 Wn, 높이 채널의 개수는 Hn일 수 있다.
이때, Sn-1은 Sn보다 작거나 같고, Wn-1은 Wn보다 작거나 같을 수 있고, Hn-1은 Hn보다 작거나 같을 수 있다. 여기서, Sn-1이 Sn과 동일하고, Wn-1이 Wn과 동일하고, Hn-1이 Hn과 동일한 경우는 제외될 수 있다.
즉, 제 2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수는 제 1 다채널 레이아웃의 서브우퍼 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 많아야 한다.
또한, 제 2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 작을 수 없다. 마찬가지로 제 2 다채널 레이아웃의 서브우퍼채널의 개수는 제 1 다채널 레이아웃의 서브우퍼채널의 개수보다 작을 수 없다. 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 작을 수 없다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수가 제 1 다채널 레이아웃의 서라운드 채널의 개수와 동일하면서, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수가 제 1 다채널 레이아웃의 서브우퍼 채널의 개수와 동일하고, 또한, 제 2 다채널 레이아웃의 높이 채널의 개수가 제 1 다채널 레이아웃의 높이 채널의 개수와 동일할 수 없다. 즉, 제 2 다채널 레이아웃의 모든 채널들이 제 1 다채널 레이아웃의 모든 채널과 동일할 수 없다.
구체적인 일 예로, 제 1 다채널 레이아웃이 5.1.2 채널 레이아웃이라고 하면, 제 2 채널 레이아웃은 7.1.4 채널 레이아웃일 수 있다.
또한, 비트스트림 생성기(480)는 부가 정보를 포함하는 메타 데이터를 생성할 수 있다.
결국, 비트스트림 생성기(480)는 기본 채널 오디오 스트림, 종속 채널 오디오 스트림 및 메타 데이터를 포함하는 비트스트림을 생성할 수 있다.
비트스트림 생성기(480)는 기본 채널 그룹으로부터 채널의 개수를 자유롭게 증가시킬 수 있는 형태의 비트스트림을 생성할 수 있다.
즉, 기본 채널 오디오 스트림으로부터 기본 채널 그룹의 오디오 신호가 복원될 수 있고, 기본 채널 오디오 스트림 및 종속 채널 오디오 스트림으로부터, 기본 채널 그룹으로부터 채널의 개수가 증가된 다채널 오디오 신호가 복원될 수 있다.
한편, 비트스트림 생성기(480)는 복수의 오디오 트랙을 갖는 파일 스트림을 생성할 수 있다. 비트스트림 생성기(480)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제 1 오디오 트랙의 오디오 스트림을 생성할 수 있다. 비트스트림 생성기(480)는 종속 채널 오디오 신호 식별 정보를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다. 이때, 제 2 오디오 트랙은 제 1 오디오 트랙 이후의 오디오 트랙으로, 서로 인접할 수 있다.
비트스트림 생성기(480)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하는 경우, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
한편, 비트스트림 생성기(480)는 기본 채널 그룹의 적어도 하나의 오디오 신호에 대응하는 종속 채널 오디오 신호가 존재하지 않는 경우, 기본 채널 그룹의 제 1 오디오 트랙의 오디오 신호의 다음 기본 채널 그룹의 오디오 신호를 포함하는 제 2 오디오 트랙의 오디오 스트림을 생성할 수 있다.
도 4c는 일 실시예에 따른 다채널 오디오 신호 처리기를 도시하는 블록도이다.
도 4c를 참조하면, 다채널 오디오 신호 처리기(460)는 채널 레이아웃 식별기(461), 다운믹스 채널 오디오 생성기(462) 및 오디오 신호 분류기(466)를 포함할 수 있다.
채널 레이아웃 식별기(461)는 원본 오디오 신호로부터, 적어도 하나의 채널 레이아웃을 식별할 수 있다. 이때, 적어도 하나의 채널 레이아웃은 계층적인 복수의 채널 레이아웃을 포함할 수 있다. 채널 레이아웃 식별기(461)는 원본 오디오 신호의 채널 레이아웃을 식별할 수 있다. 또한, 채널 레이아웃 식별기(461)는 원본 오디오 신호의 채널 레이아웃보다 하위 채널 레이아웃을 식별할 수 있다. 예를 들어, 원본 오디오 신호가 7.1.4 채널 레이아웃의 오디오 신호인 경우, 채널 레이아웃 식별기(461)는 7.1.4 채널 레이아웃을 식별하고, 7.1.4 채널 레이아웃보다 하위 채널 레이아웃인 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 및 2 채널 레이아웃 등을 식별할 수 있다. 상위 채널 레이아웃은 하위 채널 레이아웃보다 서라운드 채널/서브우퍼 채널/높이 채널 중 적어도 하나의 채널 개수가 많은 레이아웃을 의미한다. 서라운드 채널의 개수가 많고 적은지에 따라, 상위/하위 채널 레이아웃이 결정될 수 있고, 서라운드 채널의 개수가 동일한 경우, 서브우퍼 채널의 개수가 많고 적은지에 따라 상위/하위 채널 레이아웃이 결정될 수 있다. 서브 우퍼 채널의 개수 및 서브 우퍼의 채널의 개수가 동일한 경우, 높이 채널의 개수가 많고 적은지에 따라 상위/하위 채널 레이아웃이 결정될 수 있다.
또한, 식별된 채널 레이아웃은 타겟 채널 레이아웃을 포함할 수 있다. 타겟 채널 레이아웃이란, 최종적으로 출력되는 비트스트림에 포함된 오디오 신호의 최상위 채널 레이아웃을 의미할 수 있다. 타겟 채널 레이아웃은 원본 오디오 신호의 채널 레이아웃, 또는 원본 오디오 신호의 채널 레이아웃보다 하위 채널 레이아웃일 수 있다.
구체적으로, 원본 오디오 신호로부터 식별되는 채널 레이아웃은 원본 오디오 신호의 채널 레이아웃으로부터 계층적으로 결정될 수 있다. 이때, 채널 레이아웃 식별기(461)는 미리 결정된 채널 레이아웃들 중 적어도 하나의 채널 레이아웃을 식별할 수 있다. 예를 들어, 채널 레이아웃 식별기(461)는 원본 오디오 신호의 레이아웃인 7.1.4 채널 레이아웃로부터, 미리 결정된 채널의 레이아웃들 중 일부인 7.1.4 채널 레이아웃, 5.1.4 채널 레이아웃, 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 및 2 채널 레이아웃을 식별할 수 있다.
채널 레이아웃 식별기(461)는 식별된 채널 레이아웃을 기초로, 제 1 다운믹스 채널 오디오 생성기(463), 제 2 다운믹스 채널 오디오 생성기(464), ... 제 N 다운믹스 채널 오디오 생성기(465) 중 식별된 적어도 하나의 채널 레이아웃에 대응하는 다운믹스 채널 오디오 생성기로 제어 신호를 전달하고, 다운믹스 채널 오디오 생성기(462)는 채널 레이아웃 식별기(461)에서 식별된 적어도 하나의 채널 레이아웃을 기초로, 원본 오디오 신호로부터 다운믹스 채널 오디오를 생성할 수 있다. 다운믹스 채널 오디오 생성기(462)는 적어도 하나의 다운믹싱 가중치 파라미터를 포함하는 다운믹싱 행렬을 이용하여, 원본 오디오 신호로부터 다운믹스 채널 오디오를 생성할 수 있다.
예를 들어, 원본 오디오 신호의 채널 레이아웃이 미리 결정된 채널 레이아웃들 중 오름차순으로 n번째 채널 레이아웃일 때, 다운믹스 채널 오디오 생성기(462)는 원본 오디오 신호로부터 원본 오디오 신호의 채널 레이아웃의 바로 하위의 n-1번째의 채널 레이아웃의 다운믹스 채널 오디오를 생성할 수 있다. 이러한 과정을 반복하여, 다운믹스 채널 오디오 생성기(462)는 현재 채널 레이아웃의 하위의 채널 레이아웃들의 다운믹스 채널 오디오들을 생성할 수 있다.
예를 들어, 다운믹스 채널 오디오 생성기(462)는 제 1 다운믹스 채널 오디오 생성기(463), 제 2 다운믹스 채널 오디오 생성기(464),..., 제 n-1 다운믹스 채널 오디오 생성기(미도시)를 포함할 수 있다. n-1은 N보다 작거나 같을 수 있다.
이때, 제 n-1 다운믹스 채널 오디오 생성기(미도시)는 원본 오디오 신호로부터 제 n-1 채널 레이아웃의 오디오 신호를 생성할 수 있다. 또한, 제 n-2 다운믹스 채널 오디오 생성기(미도시)는 원본 오디오 신호로부터 제 n-2 채널 레이아웃의 오디오 신호를 생성할 수 있다. 이와 같은 방식으로, 제 1 다운믹스 채널 오디오 생성기(463)는 원본 오디오 신호로부터 제 1 채널 레이아웃의 오디오 신호를 생성할 수 있다. 이때, 제 1 채널 레이아웃의 오디오 신호는 기본 채널 그룹의 오디오 신호일 수 있다.
한편, 각 다운믹스 채널 오디오 생성기(463,464,...,465)는 캐스케이드한 방식으로 연결될 수 있다. 즉, 각 다운믹스 채널 오디오 생성기(463,464,...,465)는  상위 다운믹스 채널 오디오 생성부의 출력이 하위 다운믹스 채널 오디오 생성부의 입력이 되는 식으로 연결될 수 있다. 예를 들어, 원본 오디오 신호를 입력으로 하여 제 n-1 다운믹스 채널 오디오 생성기(미도시)로부터 제 n-1 채널 레이아웃의 오디오 신호가 출력될 수 있고, 제 n-1 채널 레이아웃의 오디오 신호는 제 n-2 다운믹스 채널 오디오 생성기(미도시)로 입력되고 제 n-2 다운믹스 채널 오디오 생성기(미도시)로부터 제 n-2 다운믹스 채널 오디오가 생성될 수 있다. 이런 식으로, 각 다운믹스 채널 오디오 생성기(463,464,...,465) 간에 연결되어, 각 채널 레이아웃의 오디오 신호를 출력할 수 있다.
오디오 신호 분류기(466)는 적어도 하나의 채널 레이아웃의 오디오 신호를 기초로, 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 획득할 수 있다. 이때, 오디오 신호 분류기(466)는 믹싱기(467)를 통해 적어도 하나의 채널 레이아웃의 오디오 신호에 포함된 적어도 하나의 채널의 오디오 신호를 믹싱할 수 있다. 오디오 신호 분류기(466)는 믹싱된 오디오 신호를 기본 채널 그룹의 신호 및 종속 채널 그룹의 오디오 신호 중 적어도 하나로 분류할 수 있다.
도 4d는 오디오 신호 분류기의 구체적인 동작을 설명하기 위한 도면이다.
도 4d를 참조하면, 도 4c의 다운믹스 채널 오디오 생성기(462)는 7.1.4 채널 레이아웃(490)의 원본 오디오 신호로부터, 하위 채널 레이아웃의 오디오 신호인 5.1.2 채널 레이아웃(491)의 오디오 신호, 3.1.2 채널 레이아웃(492)의 오디오 신호 및 2 채널 레이아웃(493)의 오디오 신호 및 모노 채널 레이아웃(494)의 오디오 신호를 획득할 수 있다. 다운믹스 채널 오디오 생성기(462)의 각 다운믹스 채널 오디오 생성기(463,464,...,465)는 캐스케이드한 방식으로 연결되어 있기 때문에, 순차적으로, 현재 채널 레이아웃으로부터 하위 채널 레이아웃의 오디오 신호를 획득할 수 있다.
도 4c의 오디오 신호 분류기(466)는 모노 채널 레이아웃(494)의 오디오 신호를 기본 채널 그룹(495)의 오디오 신호로 분류할 수 있다.
오디오 신호 분류기(466)는 2 채널 레이아웃(493)의 오디오 신호 중 일부인 L2 채널의 오디오 신호를 종속 채널 그룹 #1(496)의 오디오 신호로 분류할 수 있다. 한편, L2 채널의 오디오 신호와 R2 채널의 오디오 신호가 믹싱되어 모노 채널 레이아웃(494)의 오디오 신호가 생성되기 때문에, 역으로, 오디오 복호화 장치(500,700)는 모노 채널 레이아웃(494)의 오디오 신호와 L2 채널의 오디오 신호를 디믹싱하여 R2 채널의 오디오 신호를 복원할 수 있다. 따라서 R2 채널의 오디오 신호는 별도의 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
오디오 신호 분류기(466)는 3.1.2 채널 레이아웃(492)의 오디오 신호 중 Hfl3 채널의 오디오 신호, C 채널의 오디오 신호, LFE 채널의 오디오 신호 및 Hfr3 채널의 오디오 신호를 종속 채널 그룹 #2(497)의 오디오 신호로 분류할 수 있다. L3 채널의 오디오 신호와 Hfl3 채널의 오디오 신호가 믹싱되어 L2 채널의 오디오 신호가 생성되기 때문에, 역으로, 오디오 복호화 장치(500,700)는 종속 채널 그룹 #1(496)의 L2 채널의 오디오 신호와 종속 채널 그룹 #2(497)의 Hfl3 채널의 오디오 신호를 디믹싱하여 L3 채널의 오디오 신호를 복원할 수 있다.
따라서, 3.1.2 채널 레이아웃(492)의 오디오 신호 중 L3 채널 의 오디오 신호는 특정 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
R3 채널도 마찬가지의 이유로, 특정 채널 그룹의 오디오 신호로 분류되지 않을 수 있다.
오디오 신호 분류기(466)는 5.1.2 채널 레이아웃(491)의 오디오 신호를 전송하기 위해, 5.1.2 채널 레이아웃(491)의 일부 채널의 오디오 신호인 L 채널의 오디오 신호와 R 채널의 오디오 신호를 종속 채널 그룹 #3(498)의 오디오 신호로 전송할 수 있다. 한편, Ls5, Hl5, Rs5, Hr5 중 하나의 채널의 오디오 신호는 5.1.2 채널 레이아웃(491)의 오디오 신호 중 하나이나, 별도의 종속 채널 그룹의 오디오 신호로 분류되지 않는다.  이유는, Ls5, Hl5, Rs5, Hr5와 같은 채널의 신호들은 청자 전방의 채널 오디오 신호가 아닐 뿐 아니라, 7.1.4 채널 레이아웃(490)의 오디오 신호 중 청자 전방, 측방, 후방의 오디오 채널 중 적어도 하나 채널의 오디오 신호가 믹싱된 신호이다. 믹싱된 신호를 종속 채널 그룹의 오디오 신호로 분류하여 압축하기 보다는, 원본 오디오 신호 중 청자 전방의 오디오 채널의 오디오 신호를 그대로 압축하면, 청자 전방의 오디오 채널의 오디오 신호의 음질이 향상될 수 있다. 이로 인해, 청자 입장에서 재생되는 오디오 신호의 음질이 보다 향상된 것처럼 느낄 수 있다.
하지만, 경우에 따라, L 대신 Ls5 또는 Hl5가 종속 채널 그룹 #3(498)의 오디오 신호로 분류될 수 있고, R 대신 Rs5또는 Hr5가 종속 채널 그룹 #3(498)의 오디오 신호로 분류될 수 있다.
오디오 신호 분류기(466)는 7.1.4 채널 레이아웃(490)의 오디오 신호 중 Ls,Hfl,Rs,Hfr 채널의 신호를 종속 채널 그룹 #4(499)의 오디오 신호로 분류할 수 있다. 이때, Ls 대신 Lb, Hfl 대신 Hbl, Rs 대신 Rb, Hfr 대신 Hbr는 종속 채널 그룹 #4(499)의 오디오 신호로 분류되지 않는다. 7.1.4 채널 레이아웃(490)의 오디오 신호에서 청자 후방의 오디오 채널 오디오 신호를 채널 그룹의 오디오 신호로 분류하여 압축하기 보다는, 원본 오디오 신호 중 청자 전방에 가까운 측방의 오디오 채널의 오디오 신호를 그대로 압축하면 청자 전방에 가까운 측방의 오디오 채널의 오디오 신호의 음질이 향상될 수 있다. 따라서, 청자 입장에서 재생되는 오디오 신호의 음질이 보다 향상된 것처럼 느낄 수 있다. 하지만, 경우에 따라, Ls 대신 Lb, Hfl 대신 Hbl, Rs 대신 Rb, Hfr 대신 Hbr 채널의 오디오 신호가 종속 채널 그룹 #4(499)의 오디오 신호로 분류될 수 있다.
결국, 도 4c의 다운믹스 채널 오디오 생성기(462)는 원본 오디오 신호 레이아웃으로부터 식별된 복수의 하위 채널 레이아웃을 기초로, 복수의 하위 레이아웃의 오디오 신호(다운믹스 채널 오디오)를 생성할 수 있다. 도 2c의 오디오 신호 분류기(466)는 원본 오디오 신호 및 복수의 하위 레이아웃의 오디오 신호를 기초로, 기본 채널 그룹(495)의 오디오 신호 및 종속 채널 그룹 #1,#2,#3,#4(496,497,498,499)의 오디오 신호를 분류할 수 있다. 이때, 분류되는 채널의 오디오 신호는 각 채널 레이아웃에 따른 각 채널의 오디오 신호 중 독립 채널의 오디오 신호의 일부를 채널 그룹의 오디오 신호로 분류할 수 있다. 오디오 복호화 장치(500,700)는 오디오 신호 분류기(466)에서 분류되지 않는 오디오 신호는 디믹싱을 통해 복원할 수 있다. 한편, 청자 중심으로 좌측 채널의 오디오 신호가 특정 채널 그룹의 오디오 신호로 분류된다면, 좌측 채널에 대응하는 우측 채널의 오디오 신호도 해당 채널 그룹의 오디오 신호로 분류될 수 있다. 즉, 커플링된 채널들의 오디오 신호는 하나의 채널 그룹의 오디오 신호로 분류될 수 있다.
스테레오 채널 레이아웃의 오디오 신호가 기본 채널 그룹(495)의 오디오 신호로 분류된 경우에는, 커플링된 채널들의 오디오 신호는 모두 하나의 채널 그룹의 오디오 신호로 분류될 수 있다. 하지만, 도 4d를 참조하여 전술한 바와 같이, 모노 채널 레이아웃의 오디오 신호가 기본 채널 그룹(495)의 오디오 신호로 분류된 경우에는, 예외적으로, 스테레오 채널의 오디오 신호 중 하나만이 종속 채널 그룹 #1(496)의 오디오 신호로 분류될 수 있다. 다만, 채널 그룹의 오디오 신호의 분류 방법은 도 4d를 참조하여 상술한 내용에 제한되지 않고, 다양한 방법에 의할 수 있다. 즉, 분류된 채널 그룹의 오디오 신호를 디믹싱하고, 디믹싱된 오디오 신호로부터 채널 그룹의 오디오 신호로 분류되지 않은 채널의 오디오 신호를 복원할 수만 있다면, 다양한 형태로 채널 그룹의 오디오 신호가 분류될 수 있다.
도 5a는 일 실시예에 따른 다채널 오디오 복호화 장치를 도시하는 블록도이다.
오디오 복호화 장치(500)는 메모리(510) 및 프로세서(530)를 포함할 수 있다. 오디오 복호화 장치(500)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 5a에는 메모리(510) 및 프로세서(530)가 개별적으로 도시되어 있으나, 메모리(510) 및 프로세서(530)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(530)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(530)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다
프로세서(530)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(510)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(510)는 뉴럴 네트워크를 저장할 수 있다. 뉴럴 네트워크가 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 뉴럴 네트워크가 메모리(510)에 저장되지 않을 수 있다. 뉴럴 네트워크는 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 복호화 장치(500)는 요청하고, 외부 장치로부터 뉴럴 네트워크에 기초한 결과 정보를 수신할 수 있다.
프로세서(530)는 메모리(510)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 복원 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(530)는 비트스트림을 입력으로 하여, 오디오 처리 동작을 수행하여 다채널 오디오 신호를 출력할 수 있다. 이때, 비트스트림은 기본 채널 그룹으로부터 채널의 개수를 증가시킬 수 있도록 스케일러블한 형태로 구현될 수 있다. 예를 들어, 프로세서(530)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있고, 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호(예를 들어, 스테레오 채널 오디오 신호)를 복원할 수 있다. 추가적으로, 프로세서(530)는 비트스트림으로부터 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(530)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 다채널의 오디오 신호를 복원할 수 있다.
한편, 프로세서(530)는 비트스트림으로부터 제 1 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 1 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(530)는 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 2 종속 채널 그룹의 오디오 신호를 복원할 수 있다.
프로세서(530)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 보다 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다. 이와 유사하게 n개의 종속 채널 그룹(n은 2보다 큰 정수)까지의 압축 오디오 신호를 압축 해제하고, 기본 채널 그룹의 오디오 신호 및 n개의 종속 채널 그룹의 오디오 신호를 기초로, 더욱 더 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다.
도 5b는 일 실시예에 따른 다채널 오디오 복호화 장치를 도시하는 블록도이다.
도 5b를 참조하면, 오디오 복호화 장치(500)는 정보 획득기(550), 다채널 오디오 복호화기(560)을 포함할 수 있다. 다채널 오디오 복호화기(560)는 압축 해제기(570) 및 다채널 오디오 신호 복원기(580)을 포함할 수 있다.
오디오 복호화 장치(500)는 도 5a의 메모리(510) 및 프로세서(530)를 포함할 수 있고, 도 5b의 각 구성요소(550, 560, 570, 580)를 구현하기 위한 인스트럭션은 메모리(510)에 저장될 수 있다. 프로세서(530)는 메모리(510)에 저장된 인스트럭션을 실행할 수 있다. 도 5b에 도시된 구성요소들(550, 560, 570, 580)은, 프로세서(530)에서 메모리(510)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 5b에 도시된 구성요소들(550, 560, 570, 580)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(530)가 수행하는 것으로 볼 수 있다.
정보 획득기(550)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있다. 즉, 정보 획득기(550)는 비트스트림으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 기본 채널 오디오 스트림을 분류할 수 있다.
또한, 정보 획득기(550)는 비트스트림으로부터 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 즉, 정보 획득기(550)는 비트스트림으로부터 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함하는 적어도 하나의 종속 채널 오디오 스트림을 분류할 수 있다.
한편, 비트스트림은 기본 채널 오디오 스트림 및 복수의 종속 채널 스트림을 포함할 수 있다. 복수의 종속 채널 오디오 스트림은 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 포함할 수 있다.
이때, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 다채널의 제 1 오디오 신호와 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 다채널의 제 2 오디오 신호의 채널들의 제한에 대하여 설명하기로 한다.
예를 들어, 기본 채널 오디오 스트림 및 제 1 종속 채널 오디오 스트림을 통해 복원된 제1 다채널 레이아웃의 채널 중 서라운드 채널의 개수는 Sn-1, 서브 우퍼 채널의 개수는 Wn-1, 높이 채널의 개수는 Hn-1일 수 있다. 기본 채널 오디오 스트림, 제 1 종속 채널 오디오 스트림 및 제 2 종속 채널 오디오 스트림을 통해 복원된 제2 다채널 레이아웃 중 서라운드 채널의 개수는 Sn, 서브 우퍼 채널의 개수는 Wn, 높이 채널의 개수는 Hn일 수 있다. 이때, Sn-1은 Sn보다 작거나 같고, Wn-1은 Wn보다 작거나 같을 수 있고, Hn-1은 Hn보다 작거나 같을 수 있다. 여기서, Sn-1이 Sn과 동일하고, Wn-1이 Wn과 동일하고, Hn-1이 Hn과 동일한 경우는 제외될 수 있다.
즉, 제2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 많아야 한다. 또는, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수는 제1 다채널 레이아웃의 서브우퍼 채널의 개수보다 많아야 한다. 또는, 제2 다채널 레이아웃의 높이채널의 개수는 제1 다채널 레이아웃의 높이채널의 개수보다 많아야 한다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수는 제 1 다채널 레이아웃의 서라운드 채널의 개수보다 작을 수 없다. 마찬가지로 제 2 다채널 레이아웃의 서브우퍼채널의 개수는 제 1 다채널 레이아웃의 서브우퍼채널의 개수보다 작을 수 없다. 제 2 다채널 레이아웃의 높이채널의 개수는 제 1 다채널 레이아웃의 높이채널의 개수보다 작을 수 없다.
또한, 제2 다채널 레이아웃의 서라운드 채널의 개수가 제 1 다채널 레이아웃의 서라운드 채널의 개수와 동일하면서, 제 2 다채널 레이아웃의 서브우퍼 채널의 개수가 제 1 다채널 레이아웃의 서브우퍼 채널의 개수와 동일하고, 또한, 제 2 다채널 레이아웃의 높이 채널의 개수가 제 1 다채널 레이아웃의 높이 채널의 개수와 동일할 수 없다. 즉, 제 2 다채널 레이아웃의 모든 채널들이 제 1 다채널 레이아웃의 모든 채널과 동일할 수 없다.
구체적인 일 예로, 제 1 다채널 레이아웃이 5.1.2 채널이라고 하면, 제 2 다채널 레이아웃은 7.1.4 채널일 수 있다.
한편, 비트스트림은 제 1 오디오 트랙 및 제 2 오디오 트랙을 포함하는 복수의 오디오 트랙을 갖는 파일 스트림으로 구성될 수 있다. 이하, 정보 획득기(550)가 오디오 트랙에 포함된 부가 정보에 따라, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득하는 과정을 설명한다.
정보 획득기(550)는 제 1 오디오 트랙으로부터 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
정보 획득기(550)는 제 1 오디오 트랙에 인접하는 제 2 오디오 트랙으로부터, 종속 채널 오디오 신호 식별 정보를 획득할 수 있다.
종속 채널 오디오 신호 식별 정보는 제 2 오디오 트랙에 종속 채널 오디오 신호가 존재함을 나타내는 경우, 정보 획득기(550)는 제 2 오디오 트랙으로부터 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
종속 채널 오디오 신호 식별 정보는 상기 제 2 오디오 트랙에 종속 채널 오디오 신호가 존재하지 않음을 나타내는 경우, 정보 획득기(550)는 제 2 오디오 트랙으로부터 기본 채널 그룹의 다음 오디오 신호를 획득할 수 있다.
정보 획득기(550)는 비트스트림으로부터 다채널 오디오의 복원과 관련된 부가 정보를 획득할 수 있다. 즉, 정보 획득기(550)는 비트스트림으로부터 상기 부가 정보를 포함하는 메타 데이터를 분류하고, 분류된 메타 데이터로부터 부가 정보를 획득할 수 있다.
압축 해제기(570)는 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축해제하여 기본 채널 그룹의 오디오 신호를 복원할 수 있다.
압축 해제기(570)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축 해제하여 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 복원할 수 있다.
이때, 압축 해제기(570)은 각 채널 그룹(n개의 채널 그룹)의 압축 오디오 신호를 복호화하기 위한 별도의 제 1 압축 해제기, ... , 제 n 압축 해제기(미도시)를 포함할 수 있다. 이때, 제 1 압축 해제기, ... , 제 n 압축 해제기(미도시)는 서로 병렬적으로 동작할 수 있다.
다채널 오디오 신호 복원기(580)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 다채널 오디오 신호를 복원할 수 있다.
예를 들어, 다채널 오디오 신호 복원기(580)는 기본 채널 그룹의 오디오 신호가 스테레오 채널의 오디오 신호인 경우, 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방 3차원 오디오 채널의 오디오 신호를 복원할 수 있다. 예를 들어, 청자 전방 3차원 오디오 채널은 3.1.2 채널일 수 있다.
또는, 다채널 오디오 신호 복원기(580)는 기본 채널 그룹의 오디오 신호, 제 1 종속 채널 그룹의 오디오 신호 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 청자 전방향 오디오 채널의 오디오 신호를 복원할 수 있다. 예를 들어, 청자 전방향 3차원 오디오 채널은 5.1.2 채널 또는 7.1.4 채널일 수 있다.
다채널 오디오 신호 복원기(580)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호뿐 아니라, 부가 정보를 기초로, 다채널 오디오 신호를 복원할 수 있다. 이때, 부가 정보는 다채널 오디오 신호의 복원을 위한 부가 정보일 수 있다. 다채널 오디오 신호 복원기(580)는 복원된 적어도 하나의 다채널 오디오 신호를 출력할 수 있다.
일 실시예에 따른 다채널 오디오 신호 복원기(580)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 상기 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호로부터 청자 전방의 3차원 오디오 채널의 제 1 오디오 신호를 생성할 수 있다. 다채널 오디오 신호 복원기(580)는 제 1 오디오 신호 및 청자 전방의 오디오 채널의 오디오 객체 신호를 기초로, 청자 전방의 3차원 오디오 채널의 제 2 오디오 신호를 포함하는 다채널 오디오 신호를 복원할 수 있다. 이 때, 오디오 객체 신호는 오디오 객체(음원)의 오디오 신호, 모양, 면적, 위치, 방향 중 적어도 하나를 나타낼 수 있고, 정보 획득기(550)으로부터 획득될 수 있다.
다채널 오디오 신호 복원기(580)의 구체적인 동작은 도 5c를 참조하여 후술하겠다.
도 5c는 일 실시예에 따른 다채널 오디오 신호 복원기를 도시하는 블록도이다.
도 5c를 참조하면, 다채널 오디오 신호 복원기(580)는 업믹스 채널 그룹 오디오 생성기(581) 및 렌더링기(586)을 포함할 수 있다.
업믹스 채널 그룹 오디오 생성기(581)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 이때, 업믹스 채널 그룹의 오디오 신호는 다채널 오디오 신호일 수 있다. 이때, 추가적으로, 부가 정보(예를 들어, 동적 디믹싱 가중치 파라미터에 관한 정보)를 더 기초로 하여, 다채널 오디오 신호가 생성될 수 있다.
업믹스 채널 그룹 오디오 생성기(581)는 기본 채널 그룹의 오디오 신호와 종속 채널 그룹의 오디오 신호 중 일부를 디믹싱하여, 업믹스 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 기본 채널 그룹의 오디오 신호 L, R과 종속 채널 그룹의 일부 오디오 신호인 C를 디믹싱하여, 디믹스 채널(de-mixed channel; 또는 upmixed channel)의 오디오 신호 L3 및 R3를 생성할 수 있다.
업믹스 채널 그룹 오디오 생성기(581)는 종속 채널 그룹의 오디오 신호 중 일부에 대하여 디믹싱 동작을 바이패스함으로써, 다채널 오디오 신호 중 일부 채널의 오디오 신호를 생성할 수 있다. 예를 들어, 업믹스 채널 그룹 오디오 생성기(581)는 종속 채널 그룹의 일부 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호에 대하여 디믹싱 동작을 바이패스하여, 다채널 오디오 신호 중 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
결국, 업믹스 채널 그룹 오디오 생성기(581)는 디믹싱을 통해 생성된 업믹스 채널의 오디오 신호 및 디믹싱 동작이 바이패스된 종속 채널 그룹의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 예를 들어, 업믹스 채널 그룹 오디오 생성기(581)는 디믹싱 채널의 오디오 신호인 L3, R3 채널의 오디오 신호와 종속 채널 그룹의 오디오 신호인 C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 기초로, 3.1.2 채널의 오디오 신호 L3, R3, C, LFE, Hfl3, Hfr3 채널의 오디오 신호를 생성할 수 있다.
업믹스 채널 그룹 오디오 생성기(581)의 구체적인 동작은 도 3d를 참조하여 후술하기로 한다.
렌더링기(586)는 음량 제어부(388), 및 리미터(389)를 포함할 수 있다. 렌더링기(586)는 입력이 되는 다채널 오디오 신호는 적어도 하나의 채널 레이아웃의 다채널 오디오 신호일 수 있다. 이때, 렌더링기(586)의 입력이 되는 다채널 오디오 신호는 PCM(Pulse-code modulation) 신호일 수 있다.
한편, 각 채널의 오디오 신호에 대한 음량(라우드니스; Loudness)는 ITU-R BS.1770을 기초로 측정될 수 있고, 이는 비트스트림의 부가 정보를 통해 시그널링될 수 있다.
음량 제어부(388)는 비트스트림을 통해 시그널링된 음량 정보를 기초로, 각 채널의 오디오 신호의 음량을 타겟 음량(예를 들어, -24LKFS)로 제어하여 출력할 수 있다.
한편, 트루 피크(True Peak)는 ITU-R BS.1770을 기초로 측정될 수 있다.
리미터(389)는 음량 제어 후에, 오디오 신호의 트루 피크 레벨을 제한(예를 들어, -1dBTP로 제한)할 수 있다.
이상, 렌더링기(586)에 포함된 후처리 구성요소(588,589)에 대하여, 설명하였으나, 이에 제한되지 않고, 적어도 하나의 구성요소가 생략될 수 있고, 각 구성요소의 순서가 경우에 따라 바뀔 수 있다.
다채널 오디오 신호 출력기(590)는 후처리된 적어도 하나의 다채널 오디오 신호를 출력할 수 있다. 예를 들어, 다채널 오디오 신호 출력기(590)는 타겟 채널 레이아웃에 따라, 후처리된 다채널 오디오 신호를 입력으로 하여, 다채널 오디오 신호의 각 채널의 오디오 신호를 각 채널에 대응하는 오디오 출력 장치로 출력할 수 있다. 오디오 출력 장치는 다양한 종류의 스피커를 포함할 수 있다.
도 5d는 일 실시예에 따른 업믹스 채널 오디오 생성기를 도시하는 블록도이다.
도 5d를 참조하면, 업믹스 채널 그룹 오디오 생성기(581)는 디믹싱기(582)를 포함할 수 있다. 디믹싱기(582)는 제 1 디믹싱기(583), 제 2 디믹싱기(584),..., 제 N 디믹싱기(585)를 포함할 수 있다.
디믹싱기(582)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호의 채널들(복호화된 채널) 중 일부 채널의 오디오 신호로부터 새로운 채널(업믹스 채널 또는 디믹스 채널)의 오디오 신호를 획득할 수 있다. 즉, 디믹싱기(582)는 여러 채널이 믹싱된 적어도 하나의 오디오 신호로부터 하나의 업믹스 채널의 오디오 신호를 획득할 수 있다. 디믹싱기(582)는 업믹스 채널의 오디오 신호와 복호화된 채널의 오디오 신호를 포함하는 특정 레이아웃의 오디오 신호를 출력할 수 있다.
예를 들어, 기본 채널 그룹의 오디오 신호는 디믹싱기(582)에서 디믹싱 동작이 바이패스되어 제 1 채널 레이아웃의 오디오 신호로 출력될 수 있다.
제 1 디믹싱기(583)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹의 오디오 신호를 입력으로 하여, 일부의 채널의 오디오 신호를 디믹싱할 수 있다. 이때, 디믹스 채널(또는 업믹스 채널)의 오디오 신호를 생성될 수 있다. 제 1 디믹싱기(583)는 나머지 채널의 오디오 신호의 믹싱 동작을 바이패스하여 독립 채널의 오디오 신호를 생성할 수 있다. 제 1 디믹싱기(583)는 업믹스 채널의 오디오 신호 및 독립 채널의 오디오 신호를 포함하는 신호인 제 2 채널 레이아웃의 오디오 신호를 출력할 수 있다.
제 2 디믹싱기(584)는 제 2 채널 레이아웃의 오디오 신호 및 제 2 종속 채널의 오디오 신호 중에서, 일부의 채널의 오디오 신호를 디믹싱함으로써, 디믹스 채널(또는 업믹스 채널)의 오디오 신호를 생성할 수 있다. 제2 디믹싱기(584)는 나머지 채널의 오디오 신호의 믹싱 동작을 바이패스하여 독립 채널의 오디오 신호를 생성할 수 있다. 제 2 디믹싱기(584)는 업믹스 채널의 오디오 신호 및 독립 채널의 오디오 신호를 포함하는, 제 3 채널 레이아웃의 오디오 신호를 출력할 수 있다.
제 n 디믹싱기(미도시)는 제2 디믹싱기(584)의 동작과 유사하게, 제 n-1 채널 레이아웃의 오디오 신호 및 제 n-1 종속 채널 그룹의 오디오 신호를 기초로, 제 n 채널 레이아웃의 오디오 신호를 출력할 수 있다. n은 N보다 작거나 같을 수 있다.
제 N 디믹싱기(585)는 제 N-1 채널 레이아웃의 오디오 신호 및 제 N-1 종속 채널 그룹의 오디오 신호를 기초로, 제 N 채널 레이아웃의 오디오 신호를 출력할 수 있다.
하위 채널 레이아웃의 오디오 신호가 각 디믹싱기(583,584,..,585)에 바로 입력되는 것으로 도시되어 있으나, 도 5c의 렌더링기(586)를 거쳐 출력되는 채널 레이아웃의 오디오 신호가 각 디믹싱기(583,584,..,585)에 입력될 수 있다. 즉, 후처리된 하위 채널 레이아웃의 오디오 신호가 각 디믹싱기(583,584,..,585)에 입력될 수 있다.
도 5d를 통해 각 디믹싱기(583,584,..,585)가 캐스케이드한 방식으로 연결되어 각 채널 레이아웃의 오디오 신호를 출력하는 내용을 설명하였다.
하지만, 각 디믹싱기(583,584,..,585)가 캐스케이드한 방식으로 연결되지 않고도, 기본 채널 그룹의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 오디오 신호로부터, 특정 레이아웃의 오디오 신호를 출력할 수도 있다.
한편, 오디오 부호화 장치(400,600)에서 여러 채널의 신호가 믹싱되어 생성된 오디오 신호는, 클리핑 방지를 위해 다운믹스 이득을 이용하여 오디오 신호의 레벨이 낮춰진 상태이다. 오디오 복호화 장치(500, 700)는 믹싱되어 생성된 신호에 대해, 대응하는 다운믹스 이득에 기초하여 오디오 신호의 레벨을 원본 오디오 신호의 레벨에 맞출 수 있다.
한편, 전술된 다운믹스 이득에 기초한 동작은 채널별로 또는 채널 그룹별로 이루어질 수 있다. 이때, 오디오 부호화 장치(400,600)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 따라서, 오디오 복호화 장치(500, 700)는 채널별로 또는 채널 그룹별로 다운믹스 이득에 관한 정보를 비트스트림의 부가 정보로부터 획득하고, 다운믹스 이득에 기초하여 전술된 동작을 수행할 수 있다.
한편, 디믹싱기(582)는 (다운믹싱 행렬의 다운믹싱 가중치 파라미터에 대응하는) 디믹싱 행렬의 동적 디믹싱 가중치 파라미터를 기초로, 디믹싱 동작을 수행할 수 있다. 이때, 오디오 부호화 장치(400,600)는 동적 디믹싱 가중치 파라미터 또는 이에 대응하는 동적 다운믹싱 가중치 파라미터는 비트스트림의 부가 정보를 통해, 시그널링할 수 있다. 일부 디믹싱 가중치 파라미터는 시그널링되지 않고, 고정된 값을 가질 수 있다.
따라서, 오디오 복호화 장치(500,700)는 동적 디믹싱 가중치 파라미터에 관한 정보(또는 동적 다운믹싱 가중치 파라미터에 관한 정보)를 비트스트림의 부가 정보로부터 획득하고, 획득된 동적 디믹싱 가중치 파라미터에 관한 정보(또는 동적 다운믹싱 가중치 파라미터에 관한 정보)를 기초로, 디믹싱 동작을 수행할 수 있다.
도 6a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
도 6a를 참조하면, 오디오 부호화 장치(600)은 다채널 오디오 부호화기(650), 비트스트림 생성기(680) 및 에러 제거 관련 정보 생성기(690)를 포함할 수 있다. 다채널 오디오 부호화기(650)는 다채널 오디오 신호 처리기(660) 및 압축기(670)를 포함할 수 있다.
도 4a를 다시 참조하면, 도 6a의 각 구성요소(650, 660, 670, 680, 690)는 도 4a의 메모리(410) 및 프로세서(430)에 의해 구현될 수 있다. 전술한 바와 같이, 오디오 부호화 장치(400)는 메모리(410) 및 프로세서(430)를 포함할 수 있고, 도 6a의 각 구성요소(650, 660, 670, 680, 690)를 구현하기 위한 인스트럭션은 도 4a의 메모리(410)에 저장될 수 있다. 프로세서(430)는 메모리(410)에 저장된 인스트럭션을 실행할 수 있다. 도 6a에 도시된 구성요소들(650, 660, 670, 680, 690)은, 프로세서(430)에서 메모리(410)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 6a에 도시된 구성요소들(650, 660, 670, 680, 690)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(430)가 수행하는 것으로 볼 수 있다.
도 6a의 다채널 오디오 부호화기(650), 다채널 오디오 신호 처리기(660), 압축기(670) 및 비트스트림 생성기(680)의 동작은 도 4b의 다채널 오디오 부호화기(450), 다채널 오디오 신호 처리기(460), 압축기(470), 비트스트림 생성기(480)의 동작에 각각 대응되므로, 구체적인 설명은 도 4b의 설명으로 대체하기로 한다.
에러 제거 관련 정보 생성기(690)는 도 4b의 부가 정보 생성기(485)에 포함된 구성일 수 있으나, 이에 제한되지 않고, 별도로도 존재할 수 있다.
에러 제거 관련 정보 생성기(690)는 제 1 전력 값과, 제 2 전력 값을 기초로 에러 제거를 위한 펙터(예를 들어, 스케일링 펙터)를 결정할 수 있다. 이때, 제 1 전력 값은 원본 오디오 신호의 하나의 채널 또는 원본 오디오 신호로부터 다운믹싱함으로써 획득된 하나의 채널의 오디오 신호의 에너지 값일 수 있다. 제 2 전력 값은 업믹스 채널 그룹의 오디오 신호 중 하나의 업믹스 채널의 오디오 신호의 전력 값일 수 있다. 업믹스 채널 그룹의 오디오 신호는 기본 채널 복원 신호 및 종속 채널 복원 신호를 디믹스함으로써 획득된 오디오 신호일 수 있다. 
에러 제거 관련 정보 생성기(690)는 채널 별로 에러 제거를 위한 펙터를 결정할 수 있다.
에러 제거 관련 정보 생성기(690)는 결정된 에러 제거를 위한 펙터에 관한 정보를 포함하는 에러 제거와 관련된 정보를 생성할 수 있다. 비트스트림 생성기(680)는 에러 제거와 관련된 정보를 더 포함하는 비트스트림을 생성할 수 있다. 에러 제거 관련 정보 생성기(690)의 구체적인 동작은 도 6b를 참조하여 후술하기로 한다.
도 6b는 일 실시예에 따른 에러 제거 관련 정보 생성기를 도시하는 블록도이다.
도 6b를 참조하면, 에러 제거 관련 정보 생성기(690)는, 압축 해제기(692), 디믹싱기(694), RMS 값 결정기(696) 및 에러 제거 펙터 결정기(698)을 포함할 수 있다.
압축 해제기(692)는 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여, 기본 채널 복원 신호를 생성할 수 있다. 또한, 압축 해제기(692)는 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 복원 신호를 생성할 수 있다.
디믹싱기(694)는 기본 채널 복원 신호 및 종속 채널 복원 신호를 디믹싱하여 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 구체적으로, 디믹싱기(694)는 기본 채널 그룹 및 종속 채널 그룹의 오디오 신호 중 일부 채널의 오디오 신호를 디믹싱하여, 업믹스 채널(또는 디믹스 채널)의 오디오 신호를 생성할 수 있다. 또한, 디믹싱기(694)는 기본 채널 그룹 및 종속 채널 그룹의 오디오 신호 중 일부의 오디오 신호에 대한 디믹싱 동작을 바이패스할 수 있다.
디믹싱기(694)는 업믹스 채널의 오디오 신호와 디믹싱 동작이 바이패스된 오디오 신호를 포함하는 업믹스 채널 그룹의 오디오 신호를 획득할 수 있다.
RMS 값 결정기(696)는 업믹스 채널 그룹 중 하나의 업믹스 채널의 제 1 오디오 신호의 RMS 값을 결정할 수 있다. RMS 값 결정기(696)는 원본 오디오 신호의 하나의 채널의 제 2 오디오 신호의 RMS 값 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 하나의 채널의 제 2 오디오 신호의 RMS 값을 결정할 수 있다. 이때, 제 1 오디오 신호의 채널과, 제 2 오디오 신호의 채널은 소정의 채널 레이아웃 내 동일한 채널을 나타낸다.
에러 제거 펙터 결정기(698)는 제 1 오디오 신호의 RMS 값 및 제 2 오디오 신호의 RMS 값을 기초로, 에러 제거를 위한 펙터를 결정할 수 있다. 예를 들어, 제 1 오디오 신호의 RMS 값을 제 2 오디오 신호의 RMS 값으로 나누어 생성된 값이 에러 제거를 위한 펙터의 값으로 획득될 수 있다. 에러 제거 펙터 결정기(698)는 결정된 에러 제거를 위한 펙터에 관한 정보를 생성할 수 있다. 에러 제거 펙터 결정기(698)는 에러 제거를 위한 펙터에 관한 정보를 포함하는 에러 제거와 관련된 정보를 출력할 수 있다.
도 7a는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
도 7a를 참조하면, 오디오 복호화 장치(700)은 정보 획득기(750), 다채널 오디오 복호화기(760), 압축 해제기(770), 다채널 오디오 신호 복원기(780) 및 에러 제거 관련 정보 획득기(755)를 포함할 수 있다.
도 5a를 다시 참조하면, 도 7a의 각 구성요소(750, 755, 760, 770, 780)는 도 5a의 메모리(510) 및 프로세서(530)에 의해 구현될 수 있다. 전술한 바와 같이, 오디오 복호화 장치(500)는 메모리(510) 및 프로세서(430)를 포함할 수 있고, 도 7a의 각 구성요소(750, 755, 760, 770, 780)를 구현하기 위한 인스트럭션은 도 5a의 메모리(510)에 저장될 수 있다. 프로세서(530)는 메모리(510)에 저장된 인스트럭션을 실행할 수 있다. 도 7a에 도시된 구성요소들(750, 755, 760, 770, 780)은, 프로세서(530)에서 메모리(510)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 7a에 도시된 구성요소들(750, 755, 760, 770, 780)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(530)가 수행하는 것으로 볼 수 있다.
도 7a의 정보 정보 획득기(750), 압축 해제기(770) 및 다채널 오디오 신호 복원기(780)의 동작은 도 5b의 정보 획득기(550), 압축 해제기(570) 및 다채널 오디오 신호 복원기(580)의 동작을 각각 포함하므로, 중복되는 설명은 도 5b의 설명으로 대체하기로 한다. 이하, 도 5b와 중복되지 않는 부분에 대하여 설명한다.
정보 획득기(750)는 비트스트림으로부터 메타 데이터를 획득할 수 있다.
에러 제거 관련 정보 획득기(755)는 비트스트림에 포함된 메타 데이터로부터 에러 제거와 관련된 정보를 획득할 수 있다. 여기서, 에러와 관련된 정보에 포함된 에러 제거를 위한 펙터에 관한 정보는 업믹스 채널 그룹 중 하나의 업믹스 채널의 오디오 신호의 에러 제거를 위한 펙터일 수 있다. 에러 제거 관련 정보 획득기(755)는 정보 획득기(750)에 포함될 수 있다.
다채널 오디오 신호 복원기(780)는 기본 채널의 적어도 하나의 오디오 신호 및 적어도 종속 채널 그룹의 적어도 하나의 오디오 신호를 기초로, 업믹스 채널 그룹의 오디오 신호를 생성할 수 있다. 업믹스 채널 그룹의 오디오 신호는 다채널 오디오 신호일 수 있다. 다채널 오디오 신호 복원기(780)는 업믹스 채널 그룹에 포함된 하나의 업믹스 채널의 오디오 신호에 에러 제거를 위한 펙터를 적용하여 상기 하나의 업믹스 채널의 오디오 신호를 복원할 수 있다.
다채널 오디오 신호 복원기(780)는 상기 하나의 업믹스 채널의복원된 오디오 신호를 포함하는 다채널 오디오 신호를 출력할 수 있다.
도 7b는 일 실시예에 따른 다채널 오디오 신호 복원기를 도시하는 블록도이다.
다채널 오디오 신호 복원기(780)는 업믹스 채널 그룹 오디오 생성기(781) 및 렌더링기(783)을 포함할 수 있다. 렌더링기(783)는 에러 제거기(784), 음량 제어기(785) 및 리미터(786), 및 다채널 오디오 신호 출력기(787)를 포함할 수 있다.
도 7b의 업믹스 채널 그룹 오디오 생성기(781), 에러 제거기(784), 음량 제어기(785), 리미터(786) 및 다채널 오디오 신호 출력기(787)는 도 5c의 업믹스 채널 그룹 오디오 생성기(581), 음량 제어기(588), 리미터(589), 및 다채널 오디오 신호 출력기(590)의 동작을 포함하므로, 중복되는 설명은 도 5c의 설명으로 대체하기로 한다. 이하, 도 5c와 중복되지 않는 부분에 대하여 설명한다.
에러 제거기(784)는 다채널 오디오 신호의 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호 및 제 1 업믹스 채널의 에러 제거를 위한 펙터를 기초로, 제 1 채널의 에러 제거된 오디오 신호를 복원할 수 있다. 이때, 에러 제거를 위한 펙터는 원본 오디오 신호 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 제 1 채널의 오디오 신호의 RMS 값과 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호의 RMS 값에 기초한 값일 수 있다. 제 1 채널과 제 1 업믹스 채널은 소정의 채널 레이아웃의 동일한 채널을 나타낼 수 있다. 에러 제거기(784)는 에러 제거를 위한 펙터를 기초로, 현재 업믹스 채널 그룹 중 제 1 업믹스 채널의 오디오 신호의 RMS 값이 원본 오디오 신호 또는 원본 오디오 신호로부터 다운믹싱된 오디오 신호의 제 1 채널의 오디오 신호의 RMS 값이 되도록 하여, 부호화로 인한 에러가 제거될 수 있다.
한편, 인접하는 오디오 프레임들 간의 에러 제거를 위한 펙터가 다를 수 있다. 이때, 이전 프레임의 끝 구간과 다음 프레임의 처음 구간에서 불연속적인 에러 제거를 위한 펙터로 인하여, 오디오 신호가 튀는 현상이 발생할 수 있다.
따라서, 에러 제거기(784)는 에러 제거를 위한 펙터에 대한 스무딩을 수행하여 프레임 경계 인접 구간에 이용되는 에러 제거를 위한 펙터를 결정할 수 있다. 프레임 경계 인접 구간은 경계를 기준으로 이전 프레임의 끝 구간과 경계를 기준으로 다음 프레임의 처음 구간을 의미한다. 각 구간은 소정의 개수의 샘플을 포함할 수 있다.
여기서, 스무딩이란, 프레임 경계 구간에서 불연속적인 인접 오디오 프레임 간 에러 제거를 위한 펙터를 연속적인 에러 제거를 위한 펙터로 변환하는 동작을 의미한다.
다채널 오디오 신호 출력기(787)는 하나의 채널의 에러 제거된 오디오 신호를 포함하는 다채널 오디오 신호를 출력할 수 있다.
한편, 렌더링기(783)에 포함된 후처리 구성요소(785, 786) 중 적어도 하나의 구성요소가 생략될 수 있고, 에러 제거기(784)를 포함하는 후처리 구성요소(784, 785, 786)의 순서가 경우에 따라 바뀔 수 있다.
전술한 바와 같이, 오디오 부호화 장치(400,600)는 비트스트림을 생성할 수 있다. 오디오 부호화 장치(400,600)는 생성된 비트스트림을 전송할 수 있다.
이때, 비트스트림은 파일 스트림 형태로 생성될 수 있다. 오디오 복호화 장치(500,700)는 비트스트림을 수신할 수 있다. 오디오 복호화 장치(500,700)는 수신된 비트스트림으로부터 획득된 정보를 기초로, 다채널 오디오 신호를 복원할 수 있다. 이때, 비트스트림은 소정의 파일 컨테이너에 포함될 수 있다. 예를 들어, 소정의 파일 컨테이너는 MP4(MPEG-4 Part 14) 컨테이너 등과 같이, 다양한 멀티미디어 디지털 데이터를 압축하기 위한 MPEG-4 용 미디어 컨테이너일 수 있다.
도 8a는, 일 실시예에 따른 오디오 부호화 장치가 각 채널 그룹 내 오디오 스트림의 전송 순서 및 규칙을 설명하기 위한 도면이다.
스케일러블 포맷에서 각 채널 그룹 내 오디오 스트림 전송 순서 및 규칙은 다음과 같을 수 있다.
오디오 부호화 장치(400,600)는 커플링된 스트림을 먼저 전송하고, 커플링되지 않은 스트림을 전송할 수 있다.
오디오 부호화 장치(400,600)는 서라운드 채널에 대한 커플링된 스트림을 먼저 전송하고, 높이 채널에 대한 커플링된 스트림을 전송할 수 있다.
오디오 부호화 장치(400,600)는 전방 채널에 대한 커플링된 스트림을 먼저 전송하고, 측방이나 후방 채널에 대한 커플링된 스트림을 전송할 수 있다.
오디오 부호화 장치(400,600)는 커플링되지 않은 스트림을 전송하는 경우, 센터 채널에 대한 스트림을 먼저 전송하고, LFE 채널 및 다른 채널들에 대한 스트림을 전송할 수 있다. 여기서, 다른 채널은 기본 채널 그룹이 모노 채널 신호만을 포함하는 경우에 존재할 수 있다. 이때, 다른 채널은 스테레오 채널의 오른쪽 채널 L2 또는 왼쪽 채널 R2 중 하나일 수 있다.
그리고, 오디오 부호화 장치(400,600)는 커플링된 채널의 오디오 신호를 하나의 쌍으로 압축할 수 있다. 오디오 부호화 장치(400,600)는 하나의 쌍으로 압축된 오디오 신호를 포함하는, 커플링된 스트림을 전송할 수 있다. 예를 들어, 커플링된 채널은 L/R 채널, Ls/Rs, Lb/Rb, Hfl/Hfr, Hbl/Hbr 등과 같이, 좌우로 대칭적인 채널을 의미한다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 1의 비트스트림(810) 내 각 채널 그룹의 스트림 구성에 대하여 설명한다.
도 8a를 참조하면, 예를 들어, 오디오 부호화 장치(400,600)는 2채널의 오디오 신호인 L1 신호 및 R1 신호를 압축하고, 압축된 L1 신호 및 R1 신호가 기본 채널 그룹(BCG)의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(400,600)는 4채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(400,600)는 Hfl3 신호 및 Hfr 신호를 압축하고, 압축된 Hfl3 신호 및 Hfr3 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(500,700)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로, 3.1.2 채널 레이아웃의 오디오 신호를 복원할 수 있다.
종속 채널 그룹 #2 다음으로, 오디오 부호화 장치(400,600)는 6채널의 오디오 신호를 종속 채널 그룹 #2의 오디오 신호로 압축할 수 있다.
먼저, 오디오 부호화 장치(400,600)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #2의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
C3 비트스트림 다음으로, 오디오 부호화 장치(400,600)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #2의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
C4 비트스트림 다음으로, 오디오 부호화 장치(400,600)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #2의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 복호화 장치(500,700)는 기본 채널 그룹, 종속 채널 그룹 #1 및 종속 채널 그룹 #2의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 2의 비트스트림(820) 내 각 채널 그룹의 스트림 구성에 대하여 설명한다.
먼저 오디오 부호화 장치(400,600)는 2채널의 오디오 신호인 L2 신호 및 R2 신호를 압축하고, 압축된 L2 신호 및 R2 신호가 기본 채널 그룹의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(400,600)는 6채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(400,600)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #1의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(500,700)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로 7.1.0 채널 레이아웃의 오디오 신호를 복원할 수 있다.
종속 채널 그룹 #1 다음으로, 오디오 부호화 장치(400,600)는 4채널의 오디오 신호를 종속 채널 그룹 #2의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(400,600)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #2의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 Hbl 신호 및 Hbr 신호를 압축하고, 압축된 Hbl 신호 및 Hbr 신호는 종속 채널 그룹 #2의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 복호화 장치(500,700)는 기본 채널 그룹, 종속 채널 그룹 #1 및 종속 채널 그룹 #2의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
이하, 전술된 각 채널 그룹 내 스트림의 전송 순서 및 규칙에 따라, Case 3의 비트스트림(830) 내 각 채널 그룹의 스트림 구성에 대하여 설명한다.
먼저 오디오 부호화 장치(400,600)는 2채널의 오디오 신호인 L2 신호 및 R2 신호를 압축하고, 압축된 L2 신호 및 R2 신호가 기본 채널 그룹의 비트스트림 중 C1 비트스트림에 포함될 수 있다.
기본 채널 그룹 다음으로, 오디오 부호화 장치(400,600)는 10채널의 오디오 신호를 종속 채널 그룹 #1의 오디오 신호로 압축할 수 있다.
오디오 부호화 장치(400,600)는 L 신호 및 R 신호를 압축하고, 압축된 L 신호 및 R 신호는 종속 채널 그룹 #1의 비트스트림 중 C2 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 Ls 신호 및 Rs 신호를 압축하고, 압축된 Ls 신호 및 Rs 신호는 종속 채널 그룹 #1의 비트스트림 중 C3 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 Hfl 신호 및 Hfr 신호를 압축하고, 압축된 Hfl 신호 및 Hfr 신호는 종속 채널 그룹 #1의 비트스트림 중 C4 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 Hbl 신호 및 Hbr 신호를 압축하고, 압축된 Hbl 신호 및 Hbr 신호는 종속 채널 그룹 #1의 비트스트림 중 C5 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 C 신호를 압축하고, 압축된 C 신호는 종속 채널 그룹 #1의 비트스트림 중 M1 비트스트림에 포함될 수 있다.
오디오 부호화 장치(400,600)는 LFE 신호를 압축하고, 압축된 LFE 신호는 종속 채널 그룹 #1의 비트스트림 중 M2 비트스트림에 포함될 수 있다.
오디오 복호화 장치(500,700)는 기본 채널 그룹 및 종속 채널 그룹 #1의 압축 오디오 신호를 기초로 7.1.4 채널 레이아웃의 오디오 신호를 복원할 수 있다.
한편, 오디오 복호화 장치(500,700)는 적어도 하나의 업믹싱부를 이용하여, 단계적으로 디믹싱을 수행할 수 있다. 디믹싱은 적어도 하나의 채널 그룹에 포함된 채널들의 오디오 신호에 기초하여 수행된다.
예를 들어, 1.x to 2.x 업믹싱부(제 1 업믹싱부)는 믹싱된 오른쪽 채널인 모노 채널의 오디오 신호로부터 오른쪽 채널의 오디오 신호를 디믹싱할 수 있다.
또는, 2.x to 3.x 업믹싱부(제 2 업믹싱부)는 믹싱된 센터 채널인 L2 채널의 오디오 신호 및 R2 채널의 오디오 신호로부터 센터 채널의 오디오 신호를 디믹싱할 수 있다. 또는, 2.x to 3.x 업믹싱부(제 2 업믹싱부)는 믹싱된 L3 채널 및 R3 채널의 L2 채널의 오디오 신호 및 R2 채널의 오디오 신호 및 C 채널의 오디오 신호로부터 L3 채널 및 R3 채널의 오디오 신호를 디믹싱할 수 있다.
3.x to 5.x 업믹싱부(제 3 업믹싱부)는 믹싱된 Ls5/Rs5 채널인 L3 채널의 오디오 신호 및 R3 채널의 오디오 신호, L(5) 채널의 오디오 신호 및 R(5) 채널의 오디오 신호로부터 Ls5 채널 및 Rs5 채널의 오디오 신호를 디믹싱할 수 있다.
5.x to 7.x 업믹싱부(제 4 업믹싱부)는 믹싱된 Lb/Rb 채널인 Ls5 채널의 오디오 신호, Ls7 채널의 오디오 신호 및 Rs7 채널의 오디오 신호로부터, Lb 채널 및 Rb 채널의 오디오 신호를 디믹싱할 수 있다.
x.x.2(FH) to x.x.2(H) 업믹싱부(제 4 업믹싱부)는 믹싱된 Ls/Rs 채널인 Hfl3 채널의 오디오 신호 및 Hfr3 채널의 오디오 신호, L3 채널의 오디오 신호, L5 채널의 오디오 신호, R3 채널의 오디오 신호, R5 채널의 오디오 신호로부터 Hl 채널 및 Hr 채널의 오디오 신호를 디믹싱할 수 있다.
x.x.2(H) to x.x.4 업믹싱부(제 5 업믹싱부)는 믹싱된 Hbl/Hbr 채널인 Hl 채널의 오디오 신호 및 Hr 채널의 오디오 신호 및 Hfl 및 Hfr의 채널의 오디오 신호로부터 Hbl 채널 및 Hbr 채널의 오디오 신호를 디믹싱할 수 있다.
예를 들어, 오디오 복호화 장치(500,700)는 제 1 업믹싱부를 이용하여 3.1.2 채널의 레이아웃으로의 디믹싱을 수행할 수 있다.
또한, 오디오 복호화 장치(500,700)는 서라운드 채널에 대한 제 2 업믹싱부 및 제 3 믹싱부를 이용하고, 높이 채널에 대한 제 4 업믹싱부 및 제 5 업믹싱부를 이용하여 7.1.4 채널 레이아웃으로의 디믹싱을 수행할 수 있다.
또는, 오디오 복호화 장치(500,700)는 제 1 믹싱부, 제 2 믹싱부 및 제 3 믹싱부를 이용하여 7.1.0 채널 레이아웃으로의 디믹싱을 수행할 수 있다. 오디오 복호화 장치(500,700)는 7.1.0 채널 레이아웃으로부터 7.1.4 채널 레이아웃으로의 디믹싱을 수행하지 않을 수 있다.
또는, 오디오 복호화 장치(500,700)는 제 1 믹싱부, 제 2 믹싱부 및 제 3 믹싱부를 이용하여 7.1.4 채널 레이아웃으로의 디믹싱을 수행할 수 있다. 오디오 복호화 장치(500,700)는 높이 채널에 대한 디믹싱을 수행하지 않을 수 있다.
이하, 오디오 부호화 장치(400,600)가 채널 그룹을 생성하는 규칙을 설명한다. 스케일러블 포맷에 대한 채널 레이아웃 CLi(i=0부터 n사이의 정수, Cli은 Si.Wi.Hi임)에 대하여, Si+Wi+Hi는 채널 그룹 #i에 대한 채널들의 개수일 수 있다. 채널 그룹 #i에 대한 채널들의 개수는 채널 그룹 #i-1에 대한 채널들의 개수보다 많을 수 있다.
채널 그룹 #i는 가능한 많은 Cli의 원본 채널들(표시 채널들)을 포함할 수 있다. 원본 채널들은 다음 우선순위를 따를 수 있다.
만약 Hi-1이 0이면, 다른 채널들보다 높이 채널의 우선순위가 앞설 수 있다. 다른 채널들보다 센터 채널 및 LFE 채널의 우선순위가 앞설 수 있다.
높이 전방 채널의 우선순위가 사이드 채널 및 높이 후방 채널의 우선순위보다 앞설 수 있다.
사이드 채널의 우선 순위가 후방 채널의 우선순위보다 앞설 수 있다. 또한, 좌측 채널의 우선순위가 우측 채널의 우선순위보다 앞설 수 있다.
예를 들어, n이 4이고, CL0는 스테레오 채널, CL1은 3.1.2 채널, CL2는 5.1.2 채널, CL3는 7.1.4 채널인 경우, 다음과 같이 채널 그룹이 생성될 수 있다.
오디오 부호화 장치(400,600)는 A(L2), B(R2) 신호를 포함하는 기본 채널 그룹을 생성할 수 있다. 오디오 부호화 장치(400,600)는 Q1(Hfl3), Q2(Hfr3), T(=C), P(=LFE) 신호를 포함하는 종속 채널 그룹 #1을 생성할 수 있다. 오디오 부호화 장치(400,600)는 S1(=L), S2(=R) 신호를 포함하는 종속 채널 그룹 #2를 생성할 수 있다.
오디오 부호화 장치(400,600)는 V1(Hfl) 및 V2(Hfr) 신호, U1(Ls) 및 U2(Rs)를 포함하는 종속 채널 그룹 #3을 생성할 수 있다.
한편, 오디오 복호화 장치(500,700)는 다운믹싱 행렬을 이용하여 압축 해제된 오디오 신호들로부터 7.1.4 채널의 오디오 신호를 복원할 수 있다. 이때, 다운믹싱 행렬은 예를 들어, 하기와 같은 표 3과 같은 다운믹싱 가중치 파라미터를 포함할 수 있다.
L R C LFE Ls Rs Lb Rb Hfl Hfr Hbl Hbr
A(L2/L3) 1 cw δ*α δ*β
B(L2/L3) 1 c2 δ*α δ*β
T(C) 1
P(LFE) 1
Q1(Hfl3) w*δ*α w*δ*β 1 γ
Q2(Hfr3) w*δ*α w*δ*β 1 γ
S1(L) 1
S2(R) 1
U1(Ls7) 1
U2(Rs7) 1
V1(Hfl3) 1
여기서 cw는 중심 가중치(center weight)로, 기본 채널 그룹의 채널 레이아웃이 3.1.2 채널 레이아웃인 경우, 0이고, 기본 채널의 그룹의 레이아웃이 2채널 레이아웃인 경우, 1일 수 있다. 또한, w는 서라운드-투-높이 믹싱 가중치(surround-to-height mixing weight)일 수 있다. 또한, α, β, γ, δ는 다운믹싱 가중치 파라미터로, 가변적일 수 있다. 오디오 부호화 장치(400,600)는 α, β, γ, δ, w와 같은 다운믹싱 가중치 파라미터 정보를 포함하는 비트스트림을 생성할 수 있고, 오디오 복호화 장치(500,700)는 비트스트림으로부터 다운믹싱 가중치 파라미터 정보를 획득할 수 있다.
한편, 다운믹싱 행렬(또는 디믹싱 행렬)의 가중치 파라미터 정보는 인덱스 형태일 수 있다. 예를 들어, 다운믹싱 행렬(또는 디믹싱 행렬)의 가중치 파라미터 정보는 복수의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋 중 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋을 나타내는 인덱스 정보일 수 있고, 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋에 대응하는 적어도 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터가 LUT 형태로 존재할 수 있다. 예를 들어, 다운믹싱(또는 디믹싱) 행렬의 가중치 파라미터 정보는 복수의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋 중 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋을 나타내는 정보일 수 있고, 하나의 다운믹싱(또는 디믹싱) 가중치 파라미터 셋에 대응하는 LUT에는, α, β, γ, δ, w 중 적어도 하나가 미리 정의되어 있을 수 있다. 따라서, 오디오 복호화 장치(500,700)는 하나의 다운믹싱(디믹싱) 가중치 파라미터 셋에 대응하는 α, β, γ, δ, w를 획득할 수 있다.
제 1 채널 레이아웃으로부터 제 2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 행렬은 복수의 행렬을 포함할 수 있다. 예를 들어, 제 1 채널 레이아웃으로부터 제 3 채널 레이아웃으로의 다운 믹싱을 위한 제 1 행렬 및 제 3 채널 레이아웃으로부터 제 2 채널 레이아웃으로의 다운 믹싱을 위한 제 2 행렬을 포함할 수 있다.
구체적으로, 예를 들어, 7.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 행렬은 7.1.4 채널 레이아웃으로부터 5.1.4 채널의 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 1 행렬 및 5.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 2 행렬을 포함할 수 있다.
표 4 및 5는 컨텐츠 기반 다운믹스 파라미터 및 서라운드 투 높이 기반 가중치에 기초한 7.1.4 채널 레이아웃으로부터 3.1.2 채널 레이아웃의 오디오 신호로의 다운믹싱을 위한 제 1 행렬 및 제 2 행렬이다.
L R C Lfe Ls Rs Lb Rb
Ls5 α β
Rs5 α β
제 1 행렬(7.1 to 5.1 다운믹싱 행렬)
L R C Lfe Ls5 Rs5 Hfl Hfr Hbl Hbr
L3 1 0 0 0 γ 0 0 0 0 0
R3 0 1 0 0 0 γ 0 0 0 0
C 0 0 1 0 0 0 0 0 0 0
Lfe 0 0 0 1 0 0 0 0 0 0
Hfl3 0 0 0 0 γ *w 0 0 0 δ 0
Hfr3 0 0 0 0 0 γ *w 0 0 0 δ
제 2 행렬(5.1.4 to 3.1.2 다운믹싱 행렬)
여기서, α, β, γ, δ는 다운믹싱 파라미터 중 하나이고, w는 surround to height weight를 의미할 수 있다. 5.x 채널에서 7.x 채널로의 업믹싱(또는 디믹싱)을 위해, 디믹싱 가중치 파라미터 α, β가 이용될 수 있다.
x.x.2(H) 채널에서 x.x.4 채널로의 업믹싱을 위해, 디믹싱 가중치 파라미터 γ 가 이용될 수 있다.
3.x 채널에서 5.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라미터 δ가 이용될 수 있다.
x.x.2(FH) 채널에서 x.x.2(H) 채널로의 업믹싱을 위해, 디믹싱 가중치 파라미터 w 및δ가 이용될 수 있다.
2.x 채널에서 3.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라미터 -3dB가 이용될 수 있다. 즉, 디믹싱 가중치 파라미터는 고정수일 수 있고, 시그널링되지 않을 수 있다.
또한, 1.x 채널 및 2.x 채널로의 업믹싱을 위해, 디믹싱 가중치 파라미터 -6dB가 이용될 수 있다. 즉, 디믹싱 가중치 파라미터는 고정수일 수 있고, 시그널링되지 않을 수 있다.
한편, 디믹싱에 이용되는 디믹싱 가중치 파라미터는 복수의 타입 중 하나의 타입에 포함된 파라미터일 수 있다. 예를 들어, Type 1의 디믹싱 가중치 파라미터 α, β, γ, δ는 0dB, 0dB, -3dB, -3dB일 수 있다. Type 2의 디믹싱 가중치 파라미터 α, β, γ, δ는 -3dB, -3dB, -3dB, -3dB일 수 있다. Type 3의 디믹싱 가중치 파라미터 α, β, γ, δ는 0dB, -1.25dB, -1.25dB, -1.25dB일 수 있다. Type 1은 오디오 신호가 일반적인 오디오 신호인 경우를 나타내는 타입, Type2는 오디오 신호에 대화가 포함된 경우를 나타내는 타입(대화 타입), Type3는 오디오 신호에 효과음이 존재하는 경우를 나타내는 타입(효과음 타입)일 수 있다.
오디오 부호화 장치(400,600)는 오디오 신호를 분석하고, 분석된 오디오 신호에 따라, 복수의 타입 중 하나의 타입을 결정할 수 있다. 오디오 부호화 장치(400,600)는 결정된 하나의 타입의 디믹싱 가중치 파라미터를 이용하여, 원본 오디오에 대한 다운믹싱을 수행하여, 하위 채널 레이아웃의 오디오 신호를 생성할 수 있다.
오디오 부호화 장치(400,600)는 복수의 타입 중 하나의 타입을 나타내는 인덱스 정보를 포함하는 비트스트림을 생성할 수 있다. 오디오 복호화 장치(500,700)는 비트스트림으로부터 인덱스 정보를 획득하고, 획득된 인덱스 정보를 기초로 복수의 타입 중 하나의 타입을 식별할 수 있다. 오디오 복호화 장치(500,700)는 식별된 하나의 타입의 디믹싱 가중치 파라미터를 이용하여, 압축 해제된 채널 그룹의 오디오 신호를 업믹싱하여 특정 채널 레이아웃의 오디오 신호를 복원할 수 있다.
또는, 다운믹싱에 따라 생성된 오디오 신호는 다음과 같은 수학식 1로 표현될 수 있다. 즉, 다운믹싱 행렬을 이용한 연산에 제한되지 않고, 1차 다항식 형태의 수학식을 이용한 연산을 기초로, 다운믹싱이 수행되고, 다운믹싱된 각각의 오디오 신호가 생성될 수 있다.
Figure PCTKR2023005182-appb-img-000002
Figure PCTKR2023005182-appb-img-000003
Figure PCTKR2023005182-appb-img-000004
Figure PCTKR2023005182-appb-img-000005
Figure PCTKR2023005182-appb-img-000006
Figure PCTKR2023005182-appb-img-000007
Figure PCTKR2023005182-appb-img-000008
Figure PCTKR2023005182-appb-img-000009
Figure PCTKR2023005182-appb-img-000010
Figure PCTKR2023005182-appb-img-000011
Figure PCTKR2023005182-appb-img-000012
여기서, p1은 0.5(즉, -6dB), p2는 0.707(즉, -3dB)일 수 있다. α 및 β는 서라운드 채널의 개수를 7채널에서 5채널로 다운믹싱할 때 이용되는 값일 수 있다. 예를 들어, α 또는 β는 1(즉, 0dB), 0.866(즉, -1.25dB), 0.707(즉, -3dB) 중 하나일 수 있다.
Figure PCTKR2023005182-appb-img-000013
는 높이 채널의 개수를 4채널에서 5채널로 다운믹싱할 때 이용되는 값일 수 있다. 예를 들어,
Figure PCTKR2023005182-appb-img-000014
는 0.866 또는 0.707 중 하나일 수 있다. δ는 서라운드 채널의 개수를 5채널에서 3채널로 다운믹싱할 때 이용되는 값일 수 있다. δ는 0.866 또는 0.707 중 하나일 수 있다. w'는 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)에서 Hf2(3.1.2 채널 레이아웃의 높이 채널)로 다운믹싱할 때, 이용되는 값일 수 있다.
이와 유사하게, 디믹싱에 따라 생성되는 오디오 신호는 다음과 같은 수학식 2으로 표현될 수 있다. 즉, 디믹싱 행렬을 이용한 연산에 제한되지 않고, 1차 다항식 형태의 수학식을 이용한 연산을 기초로, 단계적으로 디믹싱이 수행(각 수학식의 연산 프로세스가 하나의 디믹싱 프로세스에 대응됨)되고, 디믹싱된 각각의 오디오 신호가 생성될 수 있다.
Figure PCTKR2023005182-appb-img-000015
Figure PCTKR2023005182-appb-img-000016
Figure PCTKR2023005182-appb-img-000017
Figure PCTKR2023005182-appb-img-000018
Figure PCTKR2023005182-appb-img-000019
Figure PCTKR2023005182-appb-img-000020
Figure PCTKR2023005182-appb-img-000021
Figure PCTKR2023005182-appb-img-000022
Figure PCTKR2023005182-appb-img-000023
Figure PCTKR2023005182-appb-img-000024
Figure PCTKR2023005182-appb-img-000025
w'는 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)에서 Hf2(3.1.2 채널 레이아웃의 높이 채널)로 다운믹싱 또는 Hf2(3.1.2 채널 레이아웃의 높이 채널)로부터 H2(예를 들어, 5.1.2 채널 레이아웃 또는 7.1.2 채널 레이아웃의 높이 채널)로 디믹싱할 때, 이용되는 값일 수 있다.
sumw 값 및 sumw 값 에 대응되는 w'는 w에 따라 업데이트될 수 있다. w는 -1 또는 1일 수 있고, 프레임마다 전송될 수 있다.
예를 들어, 최초의 sumw 값은 0이고, 프레임마다 w가 1인 경우, sumw 값이 1만큼 증가하고, 프레임마다 w가 -1인 경우, 1만큼 감소할 수 있다. 만약 sumw 값이 1만큼 증가 또는 감소할 때, 0~10의 범위를 벗어난다면, sumw 값은 0 또는 10으로 유지될 수 있다. w' 및 sumw의 관계를 나타내는 표 5는 다음과 같다. 즉, 프레임마다 w' 값이 점진적으로 업데이트되어 Hf2로부터 H2로 디믹싱할 때 이용될 수 있다.
sumw 0 1 2 3 4 5
w' 0 0.0179 0.0391 0.0658 0.1038 0.25
sumw 6 7 8 9 10  
w' 0.3962 0.4342 0.4609 0.4821 0.5  
이에 제한되지 않고, 복수의 디믹싱 프로세스 단계를 통합하여 디믹싱이 수행될 수 있다. 예를 들어, L2, R2 의 서라운드 2채널로부터 디믹싱된 Ls5 채널 또는 Rs5 채널의 신호는 수학식 2의 두번째 수학식 내지 다섯번째 수학식을 정리한 수학식 3로 표현될 수 있다.
Figure PCTKR2023005182-appb-img-000026
Figure PCTKR2023005182-appb-img-000027
또한 L2, R2 의 서라운드 2채널로부터 디믹싱된 Hl 또는 Hr 채널의 신호는 수학식 2의 두번째,세번째 수학식 및 여떫번째 및 아홉번째 수학식을 정리한 수학식 4로 표현될 수 있다.
Figure PCTKR2023005182-appb-img-000028
Figure PCTKR2023005182-appb-img-000029
도 8b 및 8c는 일 실시예에 따른 단계적인 다운믹싱에 대한 메커니즘을 설명하기 위한 도면이다. 서라운드 채널 및 높이 채널에 대한 단계적인 다운믹싱은 예컨대 도 8b 및 8c에서 도시된 바와 같은 메커니즘을 가질 수 있다.
다운믹싱 관련 정보(또는 디믹싱 관련 정보)는 미리 결정된 5개의 다운믹싱 가중치 파라미터(또는 디믹싱 가중치 파라미터)의 조합들에 기초한 복수의 모드들 중 하나를 나타내는 인덱스 정보일 수 있다. 예를 들어, 표 7과 같이, 복수의 모드에 대응되는 다운믹싱 가중치 파라미터가 미리 결정되어 있을 수 있다.
Mode 다운믹싱 가중치 파라미터 (α,β,γ, δ, w) (또는 디믹싱 가중치 파라미터)
1 (1, 1, 0.707, 0.707, -1)
2 (0.707, 0.707, 0.707, 0.707, -1)
3 (1, 0.866, 0.866, 0.866, -1)
4 (1, 1, 0.707, 0.707, 1)
5 (0.707, 0.707, 0.707, 0.707, 1)
6 (1, 0.866, 0.866, 0.866, 1)
이하에서는 도 9a 내지 도 10b를 참조하여, 오디오 신호의 장면 분류 결과를 기초로 다운믹싱 또는 디믹싱을 수행하기 위한 오디오 부호화 과정 및 오디오 복호화 과정에 대해 설명한다. 이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 9a는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
오디오 부호화 장치(900)는 메모리(910) 및 프로세서(930)를 포함할 수 있다. 오디오 부호화 장치(900)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 9a에는 메모리(910) 및 프로세서(930)가 개별적으로 도시되어 있으나, 메모리(910) 및 프로세서(930)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(930)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(930)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
프로세서(930)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(910)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(910)는 뉴럴 네트워크를 저장할 수 있다. 뉴럴 네트워크가 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 뉴럴 네트워크가 메모리(910)에 저장되지 않을 수 있다. 뉴럴 네트워크는 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 부호화 장치(900)는 요청하고, 외부 장치로부터 뉴럴 네트워크에 기초한 결과 정보를 수신할 수 있다.
프로세서(930)는 메모리(910)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 부호화(압축) 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(930)는 원본 오디오 신호를 입력으로 하여, 오디오 처리 동작을 수행하여 압축 오디오 신호를 포함하는 비트스트림을 출력할 수 있다. 이때, 원본 오디오 신호는 다채널 오디오 신호일 수 있다. 압축 오디오 신호는 원본 오디오 신호의 채널의 개수보다 작거나 같은 채널을 갖는 다채널 오디오 신호일 수 있다. 이때, 비트스트림은 기본 채널 그룹의 압축 오디오 신호를 포함하고, 나아가, n개의 종속 채널 그룹(n은 1보다 크거나 같은 정수)의 압축 오디오 신호를 포함할 수 있다. 따라서, 종속 채널 그룹의 개수에 따라, 채널의 개수를 자유롭게 증가시킬 수 있다.
도 9b는 일 실시예에 따른 오디오 부호화 장치를 도시하는 블록도이다.
오디오 부호화 장치(900)는 다채널 오디오 부호화기(950), 비트스트림 생성기(980) 및 부가 정보 생성기(985)를 포함할 수 있다. 다채널 오디오 부호화기(950)는 다채널 오디오 신호 처리기(960) 및 압축기(970)을 포함할 수 있다.
도 9a를 다시 참조하면, 전술한 바와 같이, 오디오 부호화 장치(900)는 메모리(910) 및 프로세서(930)를 포함할 수 있고, 도 9b의 각 구성요소(950,960,961,962,963,964,965,967,970,980,985)를 구현하기 위한 인스트럭션은 도 9a의 메모리(910)에 저장될 수 있다. 프로세서(930)는 메모리(910)에 저장된 인스트럭션을 실행할 수 있다. 도 9b에 도시된 구성요소들(950,960,961,962,963,964,965,967,970,980,985)은, 프로세서(930)에서 메모리(910)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 9b에 도시된 구성요소들(950,960,961,962,963,964,965,967,970,980,985)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(930)가 수행하는 것으로 볼 수 있다.
다채널 오디오 신호 처리기(960)는 다채널 오디오 신호(즉, 원본 오디오 신호)로부터 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득(예컨대, 생성)할 수 있다.
다채널 오디오 신호 처리기(960)는 오디오 장면 분류기(961), 다운믹스 채널 오디오 생성기(965), 및 오디오 신호 분류기(967)을 포함할 수 있다. 오디오 장면 분류기(961) 및 다운믹스 채널 오디오 생성기(965)의 동작은 도 1a 내지 2a의 오디오 장면 분류기(100,210) 및 다운믹스 채널 오디오 생성기(220)의 동작에 각각 대응되므로, 구체적인 설명은 도 1a 내지 2a의 설명으로 대체하기로 한다.
오디오 장면 분류기(961)는 특징 추출기(962), 시간 상관 분석기(963), 및 측정기(964)를 포함할 수 있다. 특징 추출기(962), 시간 상관 분석기(963), 및 측정기(964)의 동작은 도 1a 내지 2a의 특징 추출기(110,212), 시간 상관 분석기(120,214), 및 측정기(130,216)의 동작에 각각 대응되므로, 구체적인 설명은 도 1a 내지 2a의 설명으로 대체하기로 한다.
오디오 장면 분류기(961)는 다채널 오디오 신호에 대응하는 장면을 분류할 수 있다. 오디오 장면 분류기(961)는 다채널 오디오 신호의 프레임마다 장면을 분류할 수 있다.
오디오 장면 분류기(961)는 다채널 오디오 신호를 다운샘플링하고, 다운샘플링된 다채널 오디오 신호를 기초로, 다채널 오디오 신호에 대응하는 장면을 분류할 수 있다.
일 실시예에 있어서, 오디오 장면 분류기(961)는 다채널 오디오 신호부터 센터 채널(center channel)의 오디오 신호(예컨대, C 채널 신호), 프론트 채널(front channel)의 오디오 신호(예컨대, L 채널 신호, R 채널 신호) 및 사이드 채널(side channel)의 오디오 신호(예컨대, SL 채널 신호, SR 채널 신호)를 획득할 수 있다. 오디오 장면 분류기(961)는 획득된 센터 채널의 오디오 신호, 프론트 채널의 오디오 신호 및 사이드 채널의 오디오 신호에 기초하여, 다채널 오디오 신호를 대화 타입(Dialog type), 효과음 타입(Effect type), 또는 음악 타입(Music type)으로 분류할 수 있다. 그러나, 본 개시는 이에 제한되지 않고, 다채널 오디오 신호는 서로 다른 특성(예컨대, 주파수, 세기, 스펙트럼 등)을 갖는 다양한 장면 타입으로 분류될 수 있다. 일 실시예에 있어서, 오디오 장면 분류기(961)는 다채널 오디오 신호를 디폴트 타입(Default type)으로 분류할 수 있다. 여기서, 디폴트 타입은 미리 결정된 장면 타입 외의 타입을 나타낸다.
오디오 장면 분류기(961)는 장면을 분류하기 위한 뉴럴 네트워크(예컨대, 제1 뉴럴 네트워크 및 제2 뉴럴 네트워크)를 이용하여 다채널 오디오 신호의 장면 타입을 결정할 수 있다. 구체적으로, 오디오 장면 분류기(961)는 뉴럴 네트워크를 이용하여 미리 결정된 장면 타입에 대응하는 확률 값을 획득할 수 있다. 오디오 장면 분류기(961)는 가장 높은 확률 값을 갖는 장면 타입으로 다채널 오디오 신호의 장면 타입을 결정할 수 있다. 오디오 장면 분류기(961)는 결정된 장면 타입(즉, 장면 분류 결과(SCt))을 출력할 수 있다.
다운믹스 채널 오디오 생성기(965)는 장면 분류 결과(SCt)를 기초로, 다채널 오디오 신호를 미리 결정된 채널 레이아웃에 따라 다운믹싱할 수 있다. 다운믹스 채널 오디오 생성기(965)는 다운믹싱의 결과로, 미리 결정된 채널 레이아웃의 오디오 신호(즉, 다운믹싱된 오디오 신호)를 생성할 수 있다. 구체적으로, 다운믹스 채널 오디오 생성기(965)는 장면 분류 결과(SCt)를 수신할 수 있다. 다운믹스 채널 오디오 생성기(965)는 장면 분류 결과(SCt)에 대응하는 다운믹싱 프로파일(966)을 획득할 수 있다. 다운믹스 채널 오디오 생성기(965)는 다운믹싱 프로파일에 기초하여, 다채널 오디오 신호를 다른 채널 레이아웃을 갖는 다채널 오디오 신호로 믹싱하기 위한 다운믹싱 파라미터를 획득할 수 있다. 다운믹스 채널 오디오 생성기(965)는 다운믹싱 파라미터에 기초하여 다채널 오디오 신호를 다운믹싱할 수 있다.
다운믹싱 행렬 (입력) 7.1.4채널 오디오 신호
L R C LFE SL SR BL BR HFL HFR HBL HBR
(출력) 3.1.2 채널 오디오 신호
Lbot 1 0 0 0
Figure PCTKR2023005182-appb-img-000030
0
Figure PCTKR2023005182-appb-img-000031
0 0 0 0 0
Rbot 0 1 0 0 0
Figure PCTKR2023005182-appb-img-000032
0
Figure PCTKR2023005182-appb-img-000033
0 0 0 0
C 0 0 1 0 0 0 0 0 0 0 0 0
LFE 0 0 0 1 0 0 0 0 0 0 0 0
Ltop 0 0 0 0
Figure PCTKR2023005182-appb-img-000034
0
Figure PCTKR2023005182-appb-img-000035
0 1 0
Figure PCTKR2023005182-appb-img-000036
0
Rtop 0 0 0 0 0
Figure PCTKR2023005182-appb-img-000037
0
Figure PCTKR2023005182-appb-img-000038
0 1 0
Figure PCTKR2023005182-appb-img-000039
다운믹싱
파라미터 세팅
Figure PCTKR2023005182-appb-img-000040
Figure PCTKR2023005182-appb-img-000041
Figure PCTKR2023005182-appb-img-000042
대화 0.707 0.707 0.707
효과음 0.866 0.750 0.866
음악 0.500 0.500 0.707
표 8을 참조하면, 예를 들어, 다운믹스 채널 오디오 생성기(965)는 다운믹싱 행렬을 이용하여 7.1.4 채널의 오디오 신호를 3.1.2 채널의 오디오 신호로 다운믹싱할 수 있다. 표 9를 함께 참조하면, 다운믹싱 행렬에 포함되는 다운믹싱 파라미터들(예컨대,
Figure PCTKR2023005182-appb-img-000043
,
Figure PCTKR2023005182-appb-img-000044
,
Figure PCTKR2023005182-appb-img-000045
)은 장면 타입에 따라 다르게 설정될 수 있다. 다운믹싱 프로파일(966)은 다운믹싱 행렬 및 다운믹싱 파라미터 세팅에 대응하는 데이터를 포함할 수 있다. 다운믹스 채널 오디오 생성기(965)가 다운믹싱하는 구체적인 연산은, 수학식 1을 이용하여 설명한 바와 유사하므로 생략한다.
오디오 신호 분류기(967)는 다운믹싱된 오디오 신호를 기초로, 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 생성할 수 있다.
압축기(970)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 압축할 수 있다. 즉, 압축기(970)는 기본 채널 그룹의 적어도 하나의 오디오 신호를 압축하여 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다. 여기서 압축이란, 다양한 오디오 코덱에 기초한 압축을 의미할 수 있다. 예를 들어, 압축은, 변환 및 양자화 프로세스를 포함할 수 있다.
또한, 압축기(970)는 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 압축하여, 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
부가 정보 생성기(985)는 장면 분류 결과(SCt)를 포함하는 부가 정보를 생성할 수 있다.
비트스트림 생성기(980)은 기본 채널 그룹의 압축 오디오 신호 및 종속 채널 그룹의 압축 오디오 신호를 포함하는 비트스트림을 생성할 수 있다.
비트스트림 생성기(980)는 부가 정보 생성기(985)에서 생성된 부가 정보를 더 포함하는 비트스트림을 생성할 수 있다.
구체적으로, 비트스트림 생성기(980)는 기본 오디오 스트림 및 보조 오디오 스트림을 생성할 수 있다. 기본 오디오 스트림은 기본 채널 그룹의 압축 오디오 신호를 포함할 수 있고, 보조 오디오 스트림은 종속 채널 그룹의 압축 오디오 신호를 포함할 수 있다.
또한, 비트스트림 생성기(980)는 부가 정보를 포함하는 메타 데이터를 생성할 수 있다. 결국, 비트스트림 생성기(980)는 기본 오디오 스트림, 보조 오디오 스트림 및 메타 데이터를 포함하는 비트스트림을 생성할 수 있다.
도 9a 및 9b에서 설명하지 않았더라도, 오디오 부호화 장치(900)는, 도 4a 내지 4d, 6a 및 6b에서 설명한 오디오 부호화 장치(400,600)의 동작, 기능을 수행할 수 있음은 물론이다.
도 10a는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
오디오 복호화 장치(1000)는 메모리(1010) 및 프로세서(1030)를 포함할 수 있다. 오디오 복호화 장치(1000)는 서버, TV, 카메라, 휴대폰, 태블릿 PC, 노트북 등 오디오 처리가 가능한 기기로 구현될 수 있다.
도 10a에는 메모리(1010) 및 프로세서(1030)가 개별적으로 도시되어 있으나, 메모리(1010) 및 프로세서(1030)는 하나의 하드웨어 모듈(예를 들어, 칩)을 통해 구현될 수 있다.
프로세서(1030)는 신경망 기반의 오디오 처리를 위한 전용 프로세서로 구현될 수 있다. 또는, 프로세서(1030)는 AP(application processor), CPU(central processing unit) 또는 GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다
프로세서(1030)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP, CPU 또는 GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
메모리(1010)는 오디오 처리를 위한 하나 이상의 인스트럭션을 저장할 수 있다. 일 실시예에서, 메모리(1010)는 뉴럴 네트워크를 저장할 수 있다. 뉴럴 네트워크가 인공 지능을 위한 전용 하드웨어 칩 형태로 구현되거나, 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 구현되는 경우에는, 뉴럴 네트워크가 메모리(1010)에 저장되지 않을 수 있다. 뉴럴 네트워크는 외부 장치(예를 들어, 서버)에 의해 구현될 수 있고, 이 경우, 오디오 복호화 장치(1000)는 요청하고, 외부 장치로부터 뉴럴 네트워크에 기초한 결과 정보를 수신할 수 있다.
프로세서(1030)는 메모리(1010)에 저장된 인스트럭션에 따라 연속된 프레임들을 순차적으로 처리하여 연속된 복원 프레임들을 획득한다. 연속된 프레임은 오디오를 구성하는 프레임들을 의미할 수 있다.
프로세서(1030)는 비트스트림을 입력으로 하여, 오디오 처리 동작을 수행하여 다채널 오디오 신호를 출력할 수 있다. 이때, 비트스트림은 기본 채널 그룹으로부터 채널의 개수를 증가시킬 수 있도록 스케일러블한 형태로 구현될 수 있다. 예를 들어, 프로세서(1030)는 비트스트림으로부터 기본 채널 그룹의 압축 오디오 신호를 획득할 수 있고, 기본 채널 그룹의 압축 오디오 신호를 압축 해제하여 기본 채널 그룹의 오디오 신호(예를 들어, 스테레오 채널 오디오 신호)를 복원할 수 있다. 추가적으로, 프로세서(1030)는 비트스트림으로부터 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(1030)는 기본 채널 그룹의 오디오 신호 및 종속 채널 그룹의 오디오 신호를 기초로, 다채널의 오디오 신호를 복원할 수 있다.
한편, 프로세서(1030)는 비트스트림으로부터 제 1 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 1 종속 채널 그룹의 오디오 신호를 복원할 수 있다. 프로세서(1030)는 제 2 종속 채널 그룹의 압축 오디오 신호를 압축 해제하여 제 2 종속 채널 그룹의 오디오 신호를 복원할 수 있다.
프로세서(1030)는 기본 채널 그룹의 오디오 신호 및 제 1 종속 채널 그룹 및 제 2 종속 채널 그룹의 오디오 신호를 기초로, 보다 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다. 이와 유사하게 n개의 종속 채널 그룹(n은 2보다 큰 정수)까지의 압축 오디오 신호를 압축 해제하고, 기본 채널 그룹의 오디오 신호 및 n개의 종속 채널 그룹의 오디오 신호를 기초로, 더욱 더 채널의 개수가 증가된 다채널의 오디오 신호를 복원할 수 있다.
도 10b는 일 실시예에 따른 오디오 복호화 장치를 도시하는 블록도이다.
도 10b를 참조하면, 오디오 복호화 장치(1000)는 정보 획득기(1050) 및 다채널 오디오 복호화기(1060)를 포함할 수 있다. 다채널 오디오 복호화기(1060)은 압축 해제기(1070) 및 다채널 오디오 신호 복원기(1080)을 포함할 수 있다. 다채널 오디오 신호 복원기(1080)는 업믹스 채널 그룹 오디오 생성기(1081), 디믹싱 파라미터 식별기(1082), 및 다채널 오디오 신호 출력기(1083)을 포함할 수 있다.
오디오 복호화 장치(1000)는 도 10a의 메모리(1010) 및 프로세서(1030)를 포함할 수 있고, 도 10b의 각 구성요소(1050, 1060, 1070, 1080, 1081, 1082, 1083)를 구현하기 위한 인스트럭션은 메모리(1010)에 저장될 수 있다. 프로세서(1030)는 메모리(1010)에 저장된 인스트럭션을 실행할 수 있다. 프로세서(1030)는 메모리(1010)에 저장된 인스트럭션을 실행할 수 있다. 도 10b에 도시된 구성요소들(1050, 1060, 1070, 1080, 1081, 1082, 1083)은, 프로세서(1030)에서 메모리(1010)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 이하에서 도 10b에 도시된 구성요소들(1050, 1060, 1070, 1080, 1081, 1082, 1083)이 수행한다고 설명되는 동작들은, 실제로는 프로세서(1030)가 수행하는 것으로 볼 수 있다.
정보 획득기(1050)는 원본 오디오 신호에 대응하는 다운믹싱된 오디오 신호 및 장면 분류 결과에 대응하는 다운믹싱 관련 정보를 획득할 수 있다. 장면 분류 결과는 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 원본 오디오 신호의 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득될 수 있다. 장면 분류 결과가 획득되는 구체적인 과정은 도 1a 내지 2b에서 설명한 바 이하 생략한다.
구체적으로, 정보 획득기(1050)는 비트스트림으로부터 기본 오디오 스트림 및 적어도 하나의 보조 오디오 스트림을 획득할 수 있다. 기본 오디오 스트림은 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 포함할 수 있다. 보조 오디오 스트림은 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호를 획득할 수 있다.
정보 획득기(1050)는 비트스트림으로부터 메타 데이터를 획득할 수 있다. 메타 데이터는 부가 정보를 포함할 수 있다. 예를 들어, 메타 데이터는 다채널 오디오 신호(즉, 원본 오디오 신호)에 대한 장면 분류 결과를 포함하는 다운믹싱 관련 정보일 수 있다. 다운믹싱 관련 정보는 복수의 장면 타입들 중 하나를 나타내는 인덱스 정보일 수 있다. 다운믹싱 관련 정보는 프레임마다 획득될 수 있으나, 다양한 데이터 단위에 대하여 주기적으로 획득될 수 있다. 또는, 다운믹싱 관련 정보는 장면이 변경될 때마다, 비주기적으로 획득될 수 있다.
압축 해제기(1070)는 기본 오디오 스트림에 포함된 기본 채널 그룹의 적어도 하나의 압축 오디오 신호를 압축해제하여 기본 채널 그룹의 오디오 신호를 획득할 수 있다. 압축 해제기(1070)는 보조 오디오 스트림에 포함된 적어도 하나의 종속 채널 그룹의 적어도 하나의 압축 오디오 신호로부터, 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 획득할 수 있다.
디믹싱 파라미터 식별기(1082)는 다운믹싱 관련 정보를 기초로, 디믹싱 파라미터를 식별할 수 있다. 즉, 디믹싱 파라미터 식별기(1082)는 장면 분류 결과에 대응하는 디믹싱 파라미터를 식별할 수 있다. 즉, 디믹싱 파라미터 식별기(1082)는 장면 분류 결과에 대한 인덱스 정보를 기초로, 복수의 장면 타입들 중 하나의 장면 타입을 식별할 수 있고, 식별된 하나의 장면 타입에 대응하는 디믹싱 파라미터를 식별할 수 있다. 복수의 장면 타입들 각각에 대응하는 디믹싱 파라미터는 미리 결정되어 메모리에 저장될 수 있다.
업믹스 채널 그룹 오디오 생성기(1081)는 기본 채널 그룹의 적어도 하나의 오디오 신호 및 적어도 하나의 종속 채널 그룹의 적어도 하나의 오디오 신호를 디믹싱 파라미터에 따라 디믹싱하여, 적어도 하나의 업믹스 채널 그룹 오디오 신호를 생성(또는 복원)할 수 있다. 일 실시예에 있어서, 업믹스 채널 그룹 오디오 신호는 적어도 하나의 채널을 포함하는 오디오 신호일 수 있다. 일 실시예에 있어서, 업믹스 채널 그룹 오디오 신호는 다채널 오디오 신호일 수 있다.
다채널 오디오 신호 출력기(1083)는 적어도 하나의 업믹스 채널 그룹 오디오 신호(즉, 출력 다채널 오디오 신호)를 출력할 수 있다.
도 10a 및 10b에서 설명하지 않았더라도, 오디오 복호화 장치(1000)는, 도 5a 내지 5d, 7a 및 7b에서 설명한 오디오 복호화 장치(500,700)의 동작, 기능을 수행할 수 있음은 물론이다.
이상, 오디오 복호화 장치(1000)는 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 다운믹싱된 오디오 신호를 디믹싱하는 동작을 설명하였으나, 출력 채널 레이아웃(예를 들어, 5.1.2 채널 레이아웃, 3.1.2 채널 레이아웃 또는 바이노럴(Binaural) 2채널 레이아웃)의 오디오 신호보다 상위 채널 레이아웃(예를 들어, 7.1.4 채널 레이아웃)의 오디오 신호가 복원될 수 있다. 즉, 디믹싱을 통해 출력 레이아웃의 오디오 신호가 복원될 수 없는 경우가 있다.
이 경우, 오디오 복호화 장치(1000)는 프레임 단위로 생성된 다운믹싱 관련 정보를 이용하여, 복원된 상위 채널 레이아웃의 오디오 신호를 다운믹싱하여 출력 채널 레이아웃의 오디오 신호를 복원할 수 있다. 결국, 오디오 부호화 장치(900)에서 송신된 다운믹싱 관련 정보는 오디오 복호화 장치(1000)의 디믹싱 동작에서 이용되는 것에 제한되지 않고, 경우에 따라 다운믹싱 동작에서도 이용될 수 있다.
다만, 프레임 단위로 플래그 정보를 전송하는 것에 제한되지 않고, k(k는 1보다 큰 정수)의 프레임을 포함하는 상위 오디오 데이터 단위(예를 들어, 파라미터 샘플링 단위)에 대하여, 다운믹싱 관련 정보가 시그널링될 수 있다. 이 경우, 상위 오디오 데이터 단위의 크기에 관한 정보 및 상위 오디오 데이터 단위로부터 획득된 다운믹싱 관련 정보가 비트스트림을 통해 시그널링될 수 있다. 상위 오디오 데이터 단위의 크기에 관한 정보는 k 값에 관한 정보일 수 있다.
상위 오디오 데이터 단위에서 다운믹싱 관련 정보가 획득되면, 상위 데이터 단위에 포함된 프레임 단위로 다운믹싱 관련 정보가 획득되지 않을 수 있다. 예를 들어, 상위 오디오 데이터 단위에 포함된 첫번째 프레임에서 다운믹싱 관련 정보가 획득되고, 상위 오디오 데이터 단위의 첫번째 이후의 프레임에서 다운믹싱 관련 정보가 획득되지 않을 수 있다.
한편, 상위 오디오 데이터 단위의 첫번째 프레임 이후의 프레임에서, 플래그가 획득될 수 있다.
플래그를 기초로, 이전 프레임과 현재 프레임의 장면 타입이 동일하지 않다고 식별된 경우, 추가적으로, 다운믹싱 관련 정보가 획득될 수 있다. 상위 오디오 데이터 단위 내 플래그를 획득한 프레임 이후의 프레임에서는, 플래그를 통해 업데이트된 다운믹싱 관련 정보가 이용될 수 있다.
한편, 이전 프레임과 현재 프레임의 장면 타입이 동일한 경우, 현재 프레임에 대한 플래그는 획득되지 않고, 이전에 획득된 다운믹싱 관련 정보가 이용될 수 있다.
일 실시예에 따르면, 장면 분류 결과에 따라 적합한 다운믹싱 또는 업믹싱 처리를 통하여, 원본 음향 효과를 유지할 수 있다.
일 실시예에 따르면, 서라운드 채널의 오디오와 높이 채널의 오디오를 대 화면에서 잘 표현될 수 있도록, 다이나믹하게 오디오 신호를 믹싱할 수 있다. 즉, 재생되는 오디오가 서라운드에 집중되는 경우, 서라운드 채널(Ls,Rs)의 오디오 신호를 L/R 채널뿐 아니라, 높이 채널에도 배분하여 서라운드 효과가 극대화될 수 있다. 또는, 서라운드 채널(Ls,Rs)의 오디오 신호를 L/R 채널에 믹싱하고, 높이 채널에 믹싱하지 않음으로써, 수평 사운드와 수직 사운드를 구분하여, 서라운드 효과와 높이 효과를 동시에 균형감있게 표현할 수 있다.
도 11은 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다.
오디오 처리 장치(1100)는 오디오 장면 분류기(1110), ANC(Audio Noise Cancellation) 모드 선택기(1120), 및 노이즈 캔슬러(1130)를 포함할 수 있다. 오디오 처리 장치(1100)는 입력 오디오 신호를 출력함과 동시에 주변 소리를 상쇄시킬 수 있다.
오디오 장면 분류기(1110)는 주변 소리(ASt)를 획득할 수 있다. 오디오 장면 분류기(1110)는 주변 소리(ASt)의 장면을 분류할 수 있다. 예를 들어, 오디오 장면 분류기(1110)는 주변 소리(ASt)에 대응하는 위험 상황의 정도를 분류할 수 있다. 오디오 장면 분류기(1110)의 구성, 동작, 기능은 도 1a 내지 1d에서 설명한 오디오 장면 분류기(100)의 구성, 동작, 기능에 대응되므로, 구체적인 설명은 생략한다.
도시되지 않았지만, 오디오 처리 장치(1100)는 전처리기(미도시)를 더 포함할 수 있다. 전처리기(미도시)는 주변 소리(ASt)를 수신할 수 있다. 전처리기(미도시)는 주변 소리(ASt)를 시간-주파수 도메인으로 변환할 수 있다. 일 실시예에 있어서, 전처리기(미도시)는 주변 소리(ASt)에 대응하는 스펙트로그램을 생성할 수 있다. 전처리기(미도시)는 변환된 주변 소리(예컨대, 스펙트로그램)를 오디오 장면 분류기(1110)에 전달하고, 오디오 장면 분류기(1110)는 변환된 주변 소리에 기초하여 주변 소리(ASt)의 장면을 분류할 수 있다.
ANC 모드 선택기(1120)는 장면 분류 결과(SCt)에 기초하여 액티브 노이즈 캔슬의 모드를 선택할 수 있다. 예를 들어, ANC 모드 선택기(1120)는 제1 정도의 위험 상황에 기초하여 액티브 노이즈 캔슬의 제1 모드를 선택하고, 제2 정도의 위험 상황에 기초하여 액티브 노이즈 캔슬의 제2 모드를 선택할 수 있다. 예시적으로, ANC 모드 선택기(1120)는 위험 상황의 정도가 큰 경우, 더 강한 강도의 노이즈 캔슬링을 수행하는 제1 모드를 선택하고, 제1 모드에 대응하는 위험 상황의 정도 보다 위험 상황의 정도가 작은 경우, 더 약한 강도의 노이즈 캔슬링을 수행하는 제2 모드를 선택할 수 있다. ANC 모드 선택기(1120)는 선택된 모드에 대응하는 데이터(MD)를 노이즈 캔슬러(1130)에 전달할 수 있다.
노이즈 캔슬러(1130)는 주변 소리(ASt)를 상쇄시킬 수 있다. 노이즈 캔슬러(1130)는 선택된 모드에 따라 주변 소리(ASt)를 상쇄시키는 정도를 결정할 수 있다. 노이즈 캔슬러(1130)는 선택된 모드에 따라 주변 소리(ASt)를 상쇄시키는 반대 신호를 생성할 수 있다.
도시되지 않았지만, 오디오 처리 장치(1100)는 오디오 출력기(미도시)를 더 포함할 수 있다. 오디오 출력기(미도시)는 입력 오디오 신호와 반대 신호를 동시에 출력할 수 있다.
일 실시예에 따르면, 오디오 장면 분류기(1110)가 적은 지연 시간으로 주변 소리(ASt)의 장면을 분류함에 따라, 장면에 따른 노이즈 캔슬링이 신속하게 수행될 수 있다.
도 12는 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다.
오디오 처리 장치(1200)는 오디오 장면 분류기(1210), 및 음장 제어기(1220)를 포함할 수 있다.
오디오 장면 분류기(1210)는 제1 오디오 신호(ASt)의 장면을 분류할 수 있다. 예를 들어, 제1 오디오 신호(ASt)는 스트리밍(streaming) 서비스(예컨대, OTT(over-the-top) 서비스)로 제공되는 오디오 신호(예컨대, 다채널 오디오 신호, 스테레오 오디오 신호) 중 현재 프레임(제1 프레임)에 대응하는 오디오 신호일 수 있다. 오디오 장면 분류기(1110)의 구성, 동작, 기능은 도 1a 내지 1d에서 설명한 오디오 장면 분류기(100)의 구성, 동작, 기능에 대응되므로, 구체적인 설명은 생략한다.
음장 제어기(1220)는 장면 분류 결과에 기초하여, 제1 오디오 신호(ASt)에 대응하는 음장(sound field)을 조정할 수 있다. 예를 들어, 음장 제어기(1220)는 장면 분류 결과에 대응하는 음장 제어 파라미터를 획득할 수 있다. 음장 제어 파라미터는 사용자 또는 제조사의 설정에 의해 미리 결정될 수 있다. 음장 제어 파라미터는 장면 타입마다 다를 수 있다. 음장 제어기(1220)는 음장 제어 파라미터에 기초하여 제1 오디오 신호(ASt)의 주파수, 세기, 스펙트럼 등을 변형함으로써 장면 타입에 맞도록 음장을 조정할 수 있다.
도시되지 않았지만, 오디오 처리 장치(1200)는 오디오 출력기(미도시)를 더 포함할 수 있다. 오디오 출력기(미도시)는 제1 오디오 신호(ASt)의 음장이 조정된 어댑티브(adaptive) 오디오 신호를 출력할 수 있다.
일 실시예에 따르면, 오디오 장면 분류기(1210)가 적은 지연 시간으로 오디오 신호의 장면을 분류함에 따라, 장면 전환에 빠르게 대응하여 음장을 조정할 수 있다.
도 13은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 1a 내지 1d를 참조하여 오디오 처리 방법을 설명한다. 오디오 장면 분류기(100) 또는 다채널 오디오 신호 처리기(200)는 오디오 처리 장치로 지칭될 수 있다.
S1310 단계에서, 오디오 처리 장치는 제1 프레임에 대응하는 제1 오디오 신호를 획득할 수 있다.
S1320 단계에서, 오디오 처리 장치는 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크를 이용하여 제1 특징 벡터를 추출할 수 있다.
S1330 단계에서, 오디오 처리 장치는 제1 특징 벡터와, 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터를 획득할 수 있다.
S1340 단계에서, 제1 특징 벡터, 적어도 하나의 제2 특징 벡터, 및 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 제1 오디오 신호의 장면을 분류할 수 있다.
도 14a는 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 1a 내지 2a, 및 도 13을 참조하여 오디오 처리 방법을 설명한다. 오디오 장면 분류기(100) 또는 다채널 오디오 신호 처리기(200)는 오디오 처리 장치로 지칭될 수 있다.
도 14a의 S1410, S1420, S1430, S1440 단계들은 각각 도 13의 S1310, S1320, S1330, S1340 단계들에 대응할 수 있다. 따라서, 도 13에서 설명한 내용과 중복되는 내용은 생략한다.
도 14a의 S1410 단계는 S1412 단계 및 S1414 단계를 포함할 수 있다.
S1412 단계에서, 오디오 처리 장치는 제1 프레임 및 적어도 하나의 제2 프레임을 포함하는 복수의 프레임들에 대응하는 다채널 오디오 신호를 획득할 수 있다.
S1414 단계에서, 오디오 처리 장치는 제1 프레임에 대응하는 다채널 오디오 신호 중 적어도 하나의 채널 신호를 포함하는 제1 오디오 신호를 추출할 수 있다. 일 실시예에 있어서, 오디오 처리 장치는 다채널 오디오 신호에서 제1 오디오 신호로 다운믹싱할 수 있다.
S1450 단계에서, 오디오 처리 장치는 장면 분류 결과에 기초하여 제1 프레임에 대응하는 다채널 오디오 신호를 다운믹싱할 수 있다.
도 14b는 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 1a 내지 2a, 및 도 14a를 참조하여 오디오 처리 방법을 설명한다. 오디오 장면 분류기(100) 또는 다채널 오디오 신호 처리기(200)는 오디오 처리 장치로 지칭될 수 있다.
일 실시예에 있어서, 도 14a의 S1450 단계는 S1452, S1454, S1456 단계를 포함할 수 있다.
S1452 단계에서, 오디오 처리 장치는 장면 분류 결과에 대응하는 다운믹싱 프로파일을 획득할 수 있다.
S1454 단계에서, 오디오 처리 장치는 다운믹싱 프로파일에 기초하여, 다채널 오디오 신호를 다른 채널 레이아웃을 갖는 다채널 오디오 신호로 믹싱하기 위한 다운믹싱 파라미터를 획득할 수 있다.
S1456 단계에서, 오디오 처리 장치는 다운믹싱 파라미터에 기초하여 제1 프레임에 대응하는 다채널 오디오 신호를 채널 레이아웃에 따라 다운믹싱할 수 있다.
도 15은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 10a 및 10b를 참조하여 오디오 처리 방법을 설명한다. 오디오 복호화 장치(1000)는 오디오 처리 장치로 지칭될 수 있다.
S1510 단계에서, 오디오 처리 장치는 비트스트림으로부터, 원본 오디오 신호에 대응하는 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득할 수 있다.
S1520 단계에서, 오디오 처리 장치는 다운 믹싱 관련 정보에 기초하여 다운믹싱된 오디오 신호를 디믹싱할 수 있다.
S1530 단계에서, 디믹싱된 오디오 신호에 기초하여 적어도 하나의 채널을 포함하는 오디오 신호를 복원할 수 있다.
도 16은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 1a 내지 1d, 도 11, 도 13을 참조하여 오디오 처리 방법을 설명한다.
도 16의 S1610, S1620, S1630, S1640 단계들은 각각 도 13의 S1310, S1320, S1330, S1340 단계들에 대응할 수 있다. 따라서, 도 13에서 설명한 내용과 중복되는 내용은 생략한다.
S1650 단계에서, 오디오 처리 장치는 장면 분류 결과에 기초하여 액티브 노이즈 캔슬의 모드들 중 하나를 선택할 수 있다. 일 실시예에 있어서, 오디오 처리 장치는 선택된 모드에 기초하여 제1 오디오 신호를 상쇄시키기 위한 반대 신호를 생성할 수 있다.
도 17은 일 실시예에 따른 오디오 처리 방법을 도시하는 흐름도이다. 설명의 편의를 위해, 도 1a 내지 1d, 도 12, 도 13을 참조하여 오디오 처리 방법을 설명한다.
도 17의 S1710, S1720, S1730, S1740 단계들은 각각 도 13의 S1310, S1320, S1330, S1340 단계들에 대응할 수 있다. 따라서, 도 13에서 설명한 내용과 중복되는 내용은 생략한다.
S1750 단계에서, 오디오 처리 장치는 장면 분류 결과에 기초하여 제1 오디오 신호의 음장을 조정할 수 있다. 일 실시예에 있어서, 오디오 처리 장치는 조정된 신호를 출력할 수 있다.
도 18은 일 실시예에 따른 오디오 처리 장치를 도시하는 블록도이다. 도 18을 참조하면, 오디오 처리 장치(1800)는 오디오를 재생하는 스피커 장치일 수도 있고, 별도의 서버 장치일 수도 있다. 본 명세서에서 소개되는 실시예들에 따른 오디오 처리 방법은, 스피커 장치에 의해 수행될 수도 있고, 별도의 서버 장치에 의해서 수행될 수도 있으며, 스피커 장치 및 별도의 서버 장치에 의해 공동으로 수행 (오디오 처리 방법에 포함되는 프로세스들을 복수의 장치들이 나누어서 수행) 될 수도 있다.
이하에서는 설명의 편의를 위해 도 18의 오디오 처리 장치(1800)가 오디오 처리 방법을 수행하는 것으로 가정하여 설명한다. 그러나, 앞서 설명한 바와 같이 이에 한정되지 않고, 별도의 서버 장치가 존재하고, 별도의 서버 장치가 프로세스의 일부 또는 전부를 수행할 수도 있음은 물론이다. 따라서, 이하에서 설명되는 실시예들에서 오디오 처리 장치(1800)가 수행하는 동작들은, 별다른 설명이 없더라도 서버 장치 등과 같은 별도의 컴퓨팅 장치에 의해 수행될 수도 있다고 해석되어야 한다.
도 18을 참조하면, 일 실시예에 따른 오디오 처리 장치(1800)는 메모리(1810), 프로세서(1830), 입출력 인터페이스(1850), 및 통신 인터페이스(1870)을 포함할 수 있다. 다만, 오디오 처리 장치(1800)의 구성 요소는 전술한 예에 한정되는 것은 아니고, 오디오 처리 장치(1800)는 전술한 구성 요소들보다 더 많은 구성 요소를 포함하거나, 또는 더 적은 구성 요소를 포함할 수도 있다. 일 실시예에 있어서, 메모리(1810), 프로세서(1830), 입출력 인터페이스(1850), 및 통신 인터페이스(1870) 중 적어도 일부는 하나의 칩 형태로 구현될 수도 있으며, 프로세서(1830)는 하나 이상의 프로세서를 포함할 수도 있다.
메모리(1810)는 다양한 프로그램이나 데이터를 저장하기 위한 구성으로서, 롬(ROM), 램(RAM), 하드디스크, CD-ROM 및 DVD 등과 같은 저장 매체 또는 저장 매체들의 조합으로 구성될 수 있다. 메모리(1810)는 별도로 존재하지 않고 프로세서(1830)에 포함되도록 구성될 수도 있다. 메모리(1810)는 휘발성 메모리, 비휘발성 메모리 또는 휘발성 메모리와 비휘발성 메모리의 조합으로 구성될 수도 있다. 메모리(1810)에는 이후에서 설명되는 실시예들에 따른 동작들을 수행하기 위한 프로그램이 저장될 수 있다. 메모리(1810)는 프로세서(1830)의 요청에 따라 저장된 데이터를 프로세서(1830)에 제공할 수도 있다.
프로세서(1830)는 도 1a 내지 17에서 설명된 실시예들에 따라 오디오 처리 장치(1800)가 동작하도록 일련의 과정을 제어하는 구성으로서, 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 예를 들어, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델(예컨대, 뉴럴 네트워크 모델)의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
프로세서(1830)는 메모리(1810)에 데이터를 기록하거나, 메모리(1810)에 저장된 데이터를 읽을 수 있으며, 특히 메모리(1810)에 저장된 프로그램을 실행함으로써 미리 정의된 동작 규칙 또는 인공지능 모델에 따라 데이터를 처리할 수 있다. 따라서, 프로세서(1830)는 상술한 실시예들에서 설명되는 동작들을 수행할 수 있으며, 상술한 실시예들에서 오디오 처리 장치(1800)가 수행한다고 설명되는 동작들은 특별한 설명이 없는 한 프로세서(1830)가 수행하는 것으로 볼 수 있다.
입출력 인터페이스(1850)는 사용자로부터 제어 명령이나 정보 등을 입력받기 위한 입력 인터페이스(e.g. 터치 스크린, 하드 버튼, 마이크 등)와, 사용자의 제어에 따른 동작의 실행 결과나 오디오 처리 장치(1800)의 상태를 표시하기 위한 출력 인터페이스(e.g. 디스플레이 패널, 스피커 등)를 포함할 수 있다. 일 실시예에 따르면, 입출력 인터페이스(1850)는 재생되는 동영상을 표시하고, 사용자로부터 동영상 중 일부 영역을 확대하거나, 동영상에 포함된 특정 객체를 선택하기 위한 입력을 수신할 수 있다.
통신 인터페이스(1870)는 외부의 장치와 유선 또는 무선으로 신호(제어 명령 및 데이터 등)를 송수신하기 위한 구성으로서, 다양한 통신 프로토콜을 지원하는 통신 칩셋을 포함하도록 구성될 수 있다. 통신 인터페이스(1870)는 외부로부터 신호를 수신하여 프로세서(1830)로 출력하거나, 프로세서(1830)로부터 출력된 신호를 외부로 전송할 수 있다.
도 1a 내지 2a, 11, 12에 도시된 구성 요소들(예컨대, 110,112,120,130,132,134,140,210,212,214,216,220,1110,1120,1130,1210,1220)은, 도 18의 프로세서(1830)에서 메모리(1810)에 저장된 프로그램(또는 인스트럭션)을 실행함으로써 수행되는 동작들을 기능에 따라 분류한 것일 수 있다. 따라서, 도 1a 내지 2a, 11, 12에 도시된 구성 요소들이 수행한다고 설명되는 동작들은, 실제로는 프로세서(1830)가 수행하는 것으로 볼 수 있다.
일 실시예에 있어서, 도 18의 오디오 처리 장치(1800)는 도 4a 및 9a의 오디오 부호화 장치(400,900) 또는 도 5a 및 10a의 오디오 복호화 장치(500,1000)에 대응할 수 있으며, 도 3a 내지 10b에서 설명된 오디오 부호화 장치(400,600,900) 또는 오디오 복호화 장치(500,700,1000)의 기능 중 적어도 일부를 수행할 수 있다.
일 실시예에 있어서, 오디오 처리 방법은 제1 프레임에 대응하는 제1 오디오 신호를 획득하는 단계를 포함할 수 있다. 오디오 처리 방법은 상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하는 단계를 포함할 수 있다. 오디오 처리 방법은 상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하는 단계를 포함할 수 있다. 오디오 처리 방법은 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는 단계를 포함할 수 있다.
일 실시예에 있어서, 상기 제1 오디오 신호를 획득하는 단계는, 상기 제1 프레임 및 상기 적어도 하나의 제2 프레임을 포함하는 복수의 프레임들에 대응하는 다채널 오디오 신호를 획득하는 단계를 포함할 수 있다. 상기 제1 오디오 신호를 획득하는 단계는, 상기 제1 프레임에 대응하는 상기 다채널 오디오 신호 중 적어도 하나의 채널 신호를 포함하는 상기 제1 오디오 신호를 추출하는 단계를 포함할 수 있다. 일 실시예에 따르면, 다채널 오디오 신호에 대응하는 장면 분류를 위해, 다채널 오디오 신호 중 일부 채널을 이용함으로써 컴퓨팅 자원을 효율적으로 사용할 수 있다.
일 실시예에 있어서, 오디오 처리 방법은 상기 장면 분류 결과에 기초하여 상기 제1 프레임에 대응하는 상기 다채널 오디오 신호를 다운믹싱하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 다운믹싱하는 단계는, 상기 장면 분류 결과에 대응하는 다운믹싱 프로파일을 획득하는 단계를 포함할 수 있다. 상기 다운믹싱하는 단계는, 상기 다운믹싱 프로파일에 기초하여, 상기 다채널 오디오 신호를 다른 채널 레이아웃을 갖는 다채널 오디오 신호로 믹싱하기 위한 다운믹싱 파라미터를 획득할 수 있다. 상기 다운믹싱하는 단계는, 상기 다운믹싱 파라미터에 기초하여 상기 제1 프레임에 대응하는 상기 다채널 오디오 신호를 상기 채널 레이아웃에 따라 다운믹싱하는 단계를 포함할 수 있다. 일 실시예에 따르면, 장면 타입에 따라 다채널 오디오 신호를 다운믹싱함으로써 적은 채널 레이아웃을 갖는 오디오 신호를 효율적으로 생성할 수 있다.
일 실시예에 있어서, 상기 시간 상관 벡터는, 상기 제1 특징 벡터와 상기 적어도 하나의 제2 특징 벡터 간의 제1 내적(inner product) 값 및 상기 제1 특징 벡터와 상기 제1 특징 벡터 간의 제2 내적 값을 포함할 수 있다.
일 실시예에 있어서, 상기 제2 뉴럴 네트워크는, 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 연결(concatenating)한 값을 입력으로 할 수 있다.
일 실시예에 있어서, 상기 적어도 하나의 제2 특징 벡터가 N 개의 제2 특징 벡터를 포함할 수 있다. 상기 제2 뉴럴 네트워크는, 상기 제1 특징 벡터, 상기 N 개의 제2 특징 벡터 중 M 개의 제2 특징 벡터, 및 상기 시간 상관 벡터를 연결(concatenating)한 값을 입력으로 할 수 있다. 여기서, N과 M은 자연수이고, N은 M보다 큰 자연수이다. 일 실시예에 따르면, 뉴럴 네트워크에 상대적으로 작은 크기의 데이터를 입력함으로써, 컴퓨팅 자원을 효율적으로 사용할 수 있다.
일 실시예에 있어서, 상기 분류하는 단계는, 상기 제1 오디오 신호의 장면을 대화 타입, 음악 타입, 또는 효과음 타입으로 분류하는 단계를 포함할 수 있다.
일 실시예에 있어서, 오디오 처리 방법은 상기 장면 분류 결과에 기초하여, 액티브 노이즈 캔슬(Active Noise Cancellation)의 모드들 중 하나를 선택하는 단계를 더 포함할 수 있다.
일 실시예에 있어서, 상기 분류하는 단계는, 상기 제1 오디오 신호에 대응하는 위험 상황의 정도를 분류하는 단계를 포함할 수 있다. 상기 선택하는 단계는, 제1 정도의 위험 상황에 기초하여 상기 액티브 노이즈 캔슬의 제1 모드를 선택하고, 제2 정도의 위험 상황에 기초하여 상기 액티브 노이즈 캔슬의 제2 모드를 선택하는 단계를 포함할 수 있다. 일 실시예에 따르면, 장면 분류 결과에 따라 주변 소리를 상쇄시킬지가 결정됨으로써, 사용자가 주변 소리를 통해 위험 상황을 빠르게 인지할 수 있다.
일 실시예에 있어서, 오디오 처리 방법은 상기 장면 분류 결과에 기초하여, 상기 제1 오디오 신호의 음장을 조정하는 단계를 더 포함할 수 있다. 일 실시예에 따르면, 오디오 신호에 대응하는 장면에 따라 음장이 조정됨으로써 사용자에게 보다 풍부한 청취감이 제공될 수 있다.
일 실시예에 있어서, 오디오 처리 장치는 하나 이상의 인스트럭션을 저장하는 메모리를 포함할 수 있다. 오디오 처리 장치는 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 제1 프레임에 대응하는 제1 오디오 신호를 획득하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는 상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는 상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다.
일 실시예에 있어서, 오디오 처리 방법은, 비트스트림으로부터, 원본 오디오 신호에 대응하는 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득하는 단계를 포함할 수 있다. 오디오 처리 방법은, 상기 다운믹싱 관련 정보에 기초하여 상기 다운믹싱된 오디오 신호를 디믹싱하는 단계를 포함할 수 있다. 오디오 처리 방법은, 상기 디믹싱된 오디오 신호에 기초하여 적어도 하나의 채널을 포함하는 오디오 신호를 복원하는 단계를 포함할 수 있다. 상기 장면 분류 결과는, 상기 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 상기 원본 오디오 신호의 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득될 수 있다.
일 실시예에 있어서, 오디오 처리 장치는 하나 이상의 인스트럭션을 저장하는 메모리를 포함할 수 있다. 오디오 처리 장치는 상기 메모리에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는 원본 오디오 신호로부터 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는 상기 다운믹싱 관련 정보에 기초하여 상기 다운믹싱된 오디오 신호를 디믹싱하는 상기 하나 이상의 인스트럭션을 실행할 수 있다. 적어도 하나의 프로세서는 상기 디믹싱된 오디오 신호에 기초하여 오디오 신호를 복원하는, 상기 하나 이상의 인스트럭션을 실행할 수 있다. 상기 장면 분류 결과는, 상기 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 상기 원본 오디오 신호의 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득될 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램 또는 인스트럭션으로 작성가능하고, 작성된 프로그램 또는 인스트럭션은 저장매체에 저장될 수 있다.
기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, 비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
한편, 상술한 뉴럴 네트워크와 관련된 모델은, 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(예를 들어, 명령어(instruction)를 포함하는 프로그램 모듈)로 구현되는 경우, 뉴럴 네트워크 모델은 컴퓨터로 읽을 수 있는 판독 가능한 기록매체에 저장될 수 있다.
또한, 뉴럴 네트워크 모델은 하드웨어 칩 형태로 집적되어 전술한 장치의 일부가 될 수도 있다. 예를 들어, 뉴럴 네트워크 모델은 인공 지능을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예를 들어, CPU 또는 애플리케이션 프로세서) 또는 그래픽 전용 프로세서(예를 들어, GPU)의 일부로 제작될 수도 있다.
또한, 뉴럴 네트워크 모델은 다운로드 가능한 소프트웨어 형태로 제공될 수도 있다. 컴퓨터 프로그램 제품은 제조사 또는 전자 마켓을 통해 전자적으로 배포되는 소프트웨어 프로그램 형태의 상품(예를 들어, 다운로드 가능한 애플리케이션)을 포함할 수 있다. 전자적 배포를 위하여, 소프트웨어 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사 또는 전자 마켓의 서버, 또는 중계 서버의 저장매체가 될 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims (15)

  1. 장면 분류를 위한 오디오 처리 방법에 있어서,
    제1 프레임에 대응하는 제1 오디오 신호를 획득하는 단계(S1310; S1410; S1610; S1710);
    상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하는 단계(S1320; S1420; S1620; S1720);
    상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하는 단계(S1330; S1430; S1630; S1730); 및
    상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는 단계(S1340; S1440; S1640; S1740)를 포함하는, 오디오 처리 방법.
  2. 제1항에 있어서,
    상기 제1 오디오 신호를 획득하는 단계(S1410)는:
    상기 제1 프레임 및 상기 적어도 하나의 제2 프레임을 포함하는 복수의 프레임들에 대응하는 다채널 오디오 신호를 획득하는 단계(S1412); 및
    상기 제1 프레임에 대응하는 상기 다채널 오디오 신호 중 적어도 하나의 채널 신호를 포함하는 상기 제1 오디오 신호를 추출하는 단계(S1414)를 포함하는, 오디오 처리 방법.
  3. 제2항에 있어서,
    상기 장면 분류 결과에 기초하여 상기 제1 프레임에 대응하는 상기 다채널 오디오 신호를 다운믹싱하는 단계(S1450)를 더 포함하는, 오디오 처리 방법.
  4. 제3항에 있어서,
    상기 다운믹싱하는 단계는:
    상기 장면 분류 결과에 대응하는 다운믹싱 프로파일을 획득하는 단계(S1452);
    상기 다운믹싱 프로파일에 기초하여, 상기 다채널 오디오 신호를 다른 채널 레이아웃을 갖는 다채널 오디오 신호로 믹싱하기 위한 다운믹싱 파라미터를 획득하는 단계(S1454); 및
    상기 다운믹싱 파라미터에 기초하여 상기 제1 프레임에 대응하는 상기 다채널 오디오 신호를 상기 채널 레이아웃에 따라 다운믹싱하는 단계(S1456)를 포함하는, 오디오 처리 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 시간 상관 벡터는, 상기 제1 특징 벡터와 상기 적어도 하나의 제2 특징 벡터 간의 제1 내적(inner product) 값 및 상기 제1 특징 벡터와 상기 제1 특징 벡터 간의 제2 내적 값을 포함하는, 오디오 처리 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 제2 뉴럴 네트워크는, 상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 연결(concatenating)한 값을 입력으로 하는, 오디오 처리 방법.
  7. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 적어도 하나의 제2 특징 벡터가 N 개의 제2 특징 벡터를 포함하고,
    상기 제2 뉴럴 네트워크는, 상기 제1 특징 벡터, 상기 N 개의 제2 특징 벡터 중 M 개의 제2 특징 벡터, 및 상기 시간 상관 벡터를 연결(concatenating)한 값을 입력으로 하는, 오디오 처리 방법.
    (N과 M은 자연수이고, N은 M 보다 큰 자연수)
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 분류하는 단계(S1340; S1440; S1640; S1740)는:
    상기 제1 오디오 신호의 장면을 대화 타입, 음악 타입, 또는 효과음 타입으로 분류하는 단계를 포함하는, 오디오 처리 방법.
  9. 제1항, 제5항 내지 제8항 중 어느 한 항에 있어서,
    상기 장면 분류 결과에 기초하여, 액티브 노이즈 캔슬(Active Noise Cancellation)의 모드들 중 하나를 선택하는 단계(S1650)를 더 포함하는, 오디오 처리 방법.
  10. 제9항에 있어서,
    상기 분류하는 단계는:
    상기 제1 오디오 신호에 대응하는 위험 상황의 정도를 분류하는 단계를 포함하고,
    상기 선택하는 단계는:
    제1 정도의 위험 상황에 기초하여 상기 액티브 노이즈 캔슬의 제1 모드를 선택하고, 제2 정도의 위험 상황에 기초하여 상기 액티브 노이즈 캔슬의 제2 모드를 선택하는 단계를 포함하는, 오디오 처리 방법.
  11. 제1항, 제5항 내지 제8항 중 어느 한 항에 있어서,
    상기 장면 분류 결과에 기초하여, 상기 제1 오디오 신호의 음장을 조정하는 단계(S1750)를 더 포함하는, 오디오 처리 방법.
  12. 장면 분류를 위한 오디오 처리 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리(1810); 및
    상기 메모리(1810)에 저장된 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서(1830)를 포함하되, 상기 적어도 하나의 프로세서(1830)는:
    제1 프레임에 대응하는 제1 오디오 신호를 획득하고,
    상기 제1 오디오 신호를 입력으로 하는 제1 뉴럴 네트워크(neural network)를 이용하여, 제1 특징(feature) 벡터를 추출하고,
    상기 제1 특징 벡터와, 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 오디오 신호로부터 추출된 적어도 하나의 제2 특징 벡터 간의 유사도를 나타내는 시간 상관 벡터(temporal correlation vector)를 획득하고,
    상기 제1 특징 벡터, 상기 적어도 하나의 제2 특징 벡터, 및 상기 시간 상관 벡터를 입력으로 하는 제2 뉴럴 네트워크를 이용하여, 상기 제1 오디오 신호의 장면을 분류하는, 상기 하나 이상의 인스트럭션을 실행하는, 오디오 처리 장치.
  13. 제12항에 있어서,
    상기 적어도 하나의 프로세서(1830)는:
    상기 장면 분류 결과에 기초하여, 액티브 노이즈 캔슬(Active Noise Cancellation)의 모드들 중 하나를 선택하는, 상기 하나 이상의 인스트럭션을 더 실행하는, 오디오 처리 장치.
  14. 제12항에 있어서,
    상기 적어도 하나의 프로세서(1830)는:
    상기 장면 분류 결과에 기초하여, 상기 제1 오디오 신호의 음장을 조정하는, 상기 하나 이상의 인스트럭션을 더 실행하는, 오디오 처리 장치.
  15. 장면 분류를 위한 오디오 처리 방법에 있어서,
    비트스트림으로부터, 원본 오디오 신호에 대응하는 다운믹싱된 오디오 신호 및 장면 분류 결과를 포함하는 다운믹싱 관련 정보를 획득하는 단계(S1510);
    상기 다운믹싱 관련 정보에 기초하여 상기 다운믹싱된 오디오 신호를 디믹싱하는 단계(S1520); 및
    상기 디믹싱된 오디오 신호에 기초하여 적어도 하나의 채널을 포함하는 오디오 신호를 복원하는 단계(S1530)를 포함하되,
    상기 장면 분류 결과는, 상기 원본 오디오 신호의 제1 프레임에 대응하는 제1 특징 벡터와, 상기 원본 오디오 신호의 상기 제1 프레임보다 시간적으로 이전의 적어도 하나의 제2 프레임에 대응하는 적어도 하나의 제2 특징 벡터 간의 시간 상관 벡터에 기초하여 획득된, 오디오 처리 방법.
PCT/KR2023/005182 2022-05-09 2023-04-17 장면 분류를 위한 오디오 처리 방법 및 장치 WO2023219292A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/195,121 US20230360665A1 (en) 2022-05-09 2023-05-09 Method and apparatus for processing audio for scene classification

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20220056887 2022-05-09
KR10-2022-0056887 2022-05-09
KR1020220137649A KR20230157225A (ko) 2022-05-09 2022-10-24 장면 분류를 위한 오디오 처리 방법 및 장치
KR10-2022-0137649 2022-10-24

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/195,121 Continuation US20230360665A1 (en) 2022-05-09 2023-05-09 Method and apparatus for processing audio for scene classification

Publications (1)

Publication Number Publication Date
WO2023219292A1 true WO2023219292A1 (ko) 2023-11-16

Family

ID=88730588

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/005182 WO2023219292A1 (ko) 2022-05-09 2023-04-17 장면 분류를 위한 오디오 처리 방법 및 장치

Country Status (1)

Country Link
WO (1) WO2023219292A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140017342A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
KR20190042730A (ko) * 2016-09-06 2019-04-24 딥마인드 테크놀로지스 리미티드 신경망을 사용하여 오디오 생성
KR20200063290A (ko) * 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
KR20220005386A (ko) * 2020-07-06 2022-01-13 한국전자통신연구원 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140017342A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
KR20190042730A (ko) * 2016-09-06 2019-04-24 딥마인드 테크놀로지스 리미티드 신경망을 사용하여 오디오 생성
KR20200063290A (ko) * 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
KR20220005386A (ko) * 2020-07-06 2022-01-13 한국전자통신연구원 신경망 모델을 이용한 오디오 신호의 부호화 및 복호화 방법 및 이를 수행하는 부호화기 및 복호화기

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KO SANG-SUN, CHO HYE-SEUNG, KIM HYOUNG-GOOK: "Polyphonic sound event detection using multi-channel audio features and gated recurrent neural networks", THE JOURNAL OF THE ACOUSTICAL SOCIETY OF KOREA, THE ACOUSTICAL SOCIETY OF KOREA, SEOUL, vol. 36, no. 4, 31 December 2017 (2017-12-31), Seoul, pages 267 - 272, XP093006497, ISSN: 1225-4428, DOI: 10.7776/ASK.2017.36.4.267 *

Similar Documents

Publication Publication Date Title
WO2016024847A1 (ko) 음향 신호를 생성하고 재생하는 방법 및 장치
WO2015199508A1 (ko) 음향 신호의 렌더링 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
WO2018074677A1 (ko) 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치
WO2022158943A1 (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2010107269A2 (ko) 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2020080698A1 (ko) 영상의 주관적 품질을 평가하는 방법 및 장치
WO2013183977A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2014046526A1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
WO2012091464A1 (ko) 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2020145659A1 (en) Signal processing device and image display apparatus including the same
WO2014148844A1 (ko) 단말 장치 및 그의 오디오 신호 출력 방법
WO2019107868A1 (en) Apparatus and method for outputting audio signal, and display apparatus using the same
WO2019031652A1 (ko) 3차원 오디오 재생 방법 및 재생 장치
WO2019103584A1 (ko) 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
WO2016195455A1 (ko) 그래프 기반 변환을 이용하여 비디오 신호를 처리하는 방법 및 장치
WO2018139884A1 (en) Method for processing vr audio and corresponding equipment
WO2014148845A1 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2021091178A1 (en) Artificial intelligence (ai) encoding apparatus and operating method thereof and ai decoding apparatus and operating method thereof
WO2022164229A1 (ko) 오디오 처리 장치 및 방법
WO2016204581A1 (ko) 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
WO2014148848A2 (ko) 오디오 신호 크기 제어 방법 및 장치
WO2023219292A1 (ko) 장면 분류를 위한 오디오 처리 방법 및 장치
WO2021010562A1 (en) Electronic apparatus and controlling method thereof
WO2021086065A1 (en) Electronic device and operating method thereof
WO2022245076A1 (ko) 다채널 오디오 신호 처리 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23803715

Country of ref document: EP

Kind code of ref document: A1