WO2019083055A1 - 기계학습을 이용한 오디오 복원 방법 및 장치 - Google Patents

기계학습을 이용한 오디오 복원 방법 및 장치

Info

Publication number
WO2019083055A1
WO2019083055A1 PCT/KR2017/011786 KR2017011786W WO2019083055A1 WO 2019083055 A1 WO2019083055 A1 WO 2019083055A1 KR 2017011786 W KR2017011786 W KR 2017011786W WO 2019083055 A1 WO2019083055 A1 WO 2019083055A1
Authority
WO
WIPO (PCT)
Prior art keywords
parameter
decoding
unit
machine learning
audio signal
Prior art date
Application number
PCT/KR2017/011786
Other languages
English (en)
French (fr)
Inventor
성호상
정종훈
주기현
오은미
류종엽
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020207006359A priority Critical patent/KR102551359B1/ko
Priority to CN201780095363.XA priority patent/CN111164682A/zh
Priority to PCT/KR2017/011786 priority patent/WO2019083055A1/ko
Priority to US16/652,759 priority patent/US11545162B2/en
Priority to EP17929628.0A priority patent/EP3667663A4/en
Publication of WO2019083055A1 publication Critical patent/WO2019083055A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Definitions

  • the present invention relates to an audio decompression method and apparatus, and more particularly, to an audio decompression method and apparatus for restoring a decoding parameter or an audio signal obtained from a bitstream using machine learning to provide an improved sound quality.
  • An audio codec technology capable of transmitting, reproducing and storing high quality contents has been developed. According to the ultra high quality technology, it is possible to transmit, reproduce and store audio of a resolution of 24bit / 192khz.
  • the resolution of 24bit / 192khz means that the original audio is sampled at 192kHz and that one sampled signal can be expressed in 2 ⁇ 24 steps using 24 bits.
  • AI Artificial intelligence
  • AI is a computer system that implements human-level intelligence. Unlike existing Rule-based smart systems, AI is a system in which machines learn, judge and become smart. Artificial intelligence systems are increasingly recognized and improving their understanding of user preferences as they are used, and existing rule-based smart systems are gradually being replaced by deep-run-based artificial intelligence systems.
  • Machine learning is an algorithm technology that classifies / learns the characteristics of input data by itself.
  • Element technology is a technology that simulates functions such as recognition and judgment of human brain using machine learning algorithms such as deep learning. Understanding, reasoning / prediction, knowledge representation, and motion control.
  • Linguistic understanding is a technology for recognizing, applying, and processing human language / characters, including natural language processing, machine translation, dialogue system, query response, speech recognition / synthesis, and the like.
  • Visual understanding is a technology for recognizing and processing objects as human vision, including object recognition, object tracking, image search, human recognition, scene understanding, spatial understanding, and image enhancement.
  • Inference prediction is a technique for judging and logically inferring and predicting information, including knowledge / probability based reasoning, optimization prediction, preference base planning, and recommendation.
  • Knowledge representation is a technology for automating human experience information into knowledge data, including knowledge building (data generation / classification) and knowledge management (data utilization).
  • the motion control is a technique for controlling the autonomous travel of the vehicle and the motion of the robot, and includes motion control (navigation, collision, traveling), operation control (behavior control), and the like.
  • the present disclosure performs machine learning using various decoding parameters of the original audio and audio codec to obtain reconstructed decoding parameters.
  • this scheme can restore higher quality audio using restored decoding parameters.
  • the present disclosure provides a method and apparatus for reconstructing a decoding parameter or an audio signal obtained from a bitstream using machine learning.
  • An audio decompression method includes decoding a bitstream and obtaining a plurality of decoding parameters for a current frame, generating a plurality of decoding parameters based on a first parameter included in the plurality of decoding parameters, Determining a characteristic of a second parameter included in decryption parameters and associated with a first parameter, applying a machine learning model to at least one of a plurality of decryption parameters, a second parameter, reconstructed second parameter, and decoding the audio signal based on the reconstructed second parameter.
  • the step of decoding the audio signal includes the steps of obtaining a corrected second parameter by correcting the restored second parameter based on the characteristic of the second parameter, And decrypting the audio signal based on the second parameter.
  • the step of determining the characteristic of the second parameter includes the step of determining a range of the second parameter based on the first parameter, wherein the acquiring step includes acquiring, as the corrected second parameter, a value in a range closest to the restored second parameter when the restored second parameter is not in the range.
  • the step of determining a characteristic of a second parameter comprises determining a characteristic of a second parameter based on at least one of a first parameter and a second parameter, And determining a characteristic of the second parameter using the second parameter.
  • acquiring the reconstructed second parameter includes: determining candidates of a second parameter based on a property of a second parameter; And selecting one of the two parameter candidates.
  • the step of acquiring the reconstructed second parameter acquires the reconstructed second parameter of the current frame based further on at least one of the plurality of reconstructing parameters of the previous frame
  • the method comprising the steps of:
  • a machine learning model is generated by mechanically learning at least one of an original audio signal and a plurality of decryption parameters.
  • an audio decompression method includes decoding a bitstream and obtaining a plurality of decoding parameters for a current frame, decoding an audio signal based on the plurality of decoding parameters, Selecting one of the plurality of machine learning models based on at least one of the decoding parameters and the decoded audio signal and reconstructing the decoded audio signal using the selected machine learning model And a control unit.
  • a machine learning model is generated by mechanically learning a decoded audio signal and an original audio signal.
  • the step of selecting a machine learning model comprises the steps of determining a start frequency of a bandwidth extension based on at least one of a plurality of decryption parameters, And selecting a machine learning model of the decoded audio signal based on the frequency and the frequency of the decoded audio signal.
  • the step of selecting a machine learning model comprises obtaining a gain of a current frame based on at least one of a plurality of decryption parameters, Selecting a machine learning model for a transient signal if the difference between the average of the gain of the current frame and the average of the gains is greater than a threshold value; Determining if the window type included in the plurality of decoding parameters is a short, if the difference value is smaller than a threshold value; selecting a machine learning model for the transient signal when the window type is short, If the type is not short, then the machine learning model for the stationary signal is selected. And a system.
  • an audio decompression apparatus includes a memory for storing a received bitstream, and a decoding unit for decoding a bitstream to obtain a plurality of decoding parameters for a current frame and storing the decoding parameters in a plurality of decoding parameters Determining a characteristic of a second parameter included in the plurality of decoding parameters and associated with the first parameter based on the first parameter, and determining at least one of the characteristics of the plurality of decoding parameters, the second parameter, and the second parameter And at least one processor for applying a machine learning model to obtain a reconstructed second parameter and decoding the audio signal based on the reconstructed second parameter.
  • At least one processor corrects a restored second parameter based on a characteristic of a second parameter to obtain a corrected second parameter, And decodes the audio signal based on the audio signal.
  • At least one processor is configured to use a pre-trained machine learning model based on at least one of a first parameter and a second parameter to generate a second parameter And the characteristic of the light source is determined.
  • At least one processor determines the candidates of the second parameter based on the characteristics of the second parameter, and selects one of the candidates of the second parameter based on the machine learning model And obtaining the restored second parameter.
  • At least one processor is configured to obtain a reconstructed second parameter of a current frame based further on at least one of a plurality of decoding parameters of a previous frame.
  • At least one processor is characterized in that the machine learning model is generated by machine learning at least one of an original audio signal and a plurality of decoding parameters.
  • an audio decompression apparatus includes a memory for storing a received bitstream, a decoding unit for decoding a bitstream to obtain a plurality of decoding parameters for a current frame, Decodes the audio signal, selects one of the plurality of machine learning models based on at least one of the plurality of decoding parameters and the decoded audio signal, and decodes the decoded audio signal using the selected machine learning model And at least one processor for reconstructing the image.
  • the program for implementing the audio restoration method as described above can be recorded in a computer-readable recording medium.
  • FIG. 1 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • FIG. 2 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • FIG. 3 shows a flowchart of an audio decompression method according to an embodiment.
  • FIG. 4 shows a block diagram for machine learning in accordance with one embodiment.
  • FIG. 5 shows a prediction of the characteristics of the decoding parameters according to an embodiment.
  • Figure 6 shows a prediction of the characteristics of a decoding parameter according to an embodiment.
  • FIG. 7 shows a flowchart of an audio decompression method according to an embodiment.
  • Figure 8 shows the decoding parameters according to an embodiment.
  • FIG. 9 illustrates a change in the decoding parameter according to an embodiment.
  • FIG. 10 illustrates a change in decoding parameters when the number of bits is increased according to an embodiment.
  • FIG. 11 shows a change in the decoding parameter according to an embodiment.
  • FIG. 12 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • FIG. 13 shows a flowchart of an audio decompression method according to an embodiment
  • FIG. 14 shows a flowchart of an audio restoration method according to an embodiment.
  • FIG. 15 shows a flowchart of an audio decompression method according to an embodiment.
  • part used in the specification means software or hardware component, and " part " However, “ part " is not meant to be limited to software or hardware. &Quot; Part " may be configured to reside on an addressable storage medium and may be configured to play back one or more processors.
  • part (s) refers to components such as software components, object oriented software components, class components and task components, and processes, Subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, databases, data structures, tables, arrays and variables.
  • the functions provided in the components and " parts " may be combined into a smaller number of components and “ parts “ or further separated into additional components and " parts ".
  • processor should be broadly interpreted to include a general purpose processor, a central processing unit (CPU), a microprocessor, a digital signal processor (DSP), a controller, a microcontroller, a state machine, In some circumstances, a “ processor " may refer to an application specific integrated circuit (ASIC), a programmable logic device (PLD), a field programmable gate array (FPGA)
  • ASIC application specific integrated circuit
  • PLD programmable logic device
  • FPGA field programmable gate array
  • processor refers to a combination of processing devices, such as, for example, a combination of a DSP and a microprocessor, a combination of a plurality of microprocessors, a combination of one or more microprocessors in conjunction with a DSP core, It can also be called.
  • memory should be broadly interpreted to include any electronic component capable of storing electronic information.
  • the terminology memory may be any suitable memory such as random access memory (RAM), read-only memory (ROM), non-volatile random access memory (NVRAM), programmable read-only memory (PROM), erase- May refer to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • RAM random access memory
  • ROM read-only memory
  • NVRAM non-volatile random access memory
  • PROM programmable read-only memory
  • erase- May to various types of processor-readable media such as erasable programmable read-only memory (PROM), flash memory, magnetic or optical data storage devices, registers, and the like.
  • a memory is said to be in electronic communication with a processor if the processor can read information from and / or write information to the memory.
  • the memory integrated in the processor is in electronic communication with the processor.
  • FIG. 1 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • the audio decompression apparatus 100 may include a receiving unit 110 and a decoder 120.
  • the receiving unit 110 may receive the bit stream.
  • the decoding unit 120 may output the decoded audio signal based on the received bitstream.
  • the audio restoration apparatus 100 will be described in detail with reference to FIG.
  • FIG. 2 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • the audio decompression apparatus 100 may include a codec information derivation unit 210 and at least one decoding unit.
  • the codec information derivation unit 210 may correspond to the receiving unit 110 of FIG.
  • the at least one decoding unit may include at least one of a first decoding unit 221, a second decoding unit 222, and an Nth decoding unit. At least one of the first decoding unit 221, the second decoding unit 222, and the Nth decoding unit may correspond to the decoding unit 120 of FIG.
  • the codec information derivation unit 210 may receive the bitstream.
  • the bit stream can be generated in the encoding apparatus.
  • the encoding apparatus can compress the original audio into a bit stream.
  • the codec information derivation unit 210 may receive the bitstream from the encoding unit or the storage medium through wired / wireless communication.
  • the codec information derivation unit 210 may store the bitstream in a memory.
  • the codec information derivation unit 210 may extract various information from the bitstream.
  • Various information may include codec information.
  • the codec information may include information about the technique used for the original audio to be encoded.
  • the techniques used to encode the original audio may be MP3, AAC, HE-AAC, and the like.
  • the codec information derivation unit 210 may select one of the at least one decoding unit based on the codec information.
  • At least one decoding unit may include a first decoding unit 221, a second decoding unit 222, and an Nth decoding unit 223.
  • the decoding unit selected by the codec information derivation unit 210 among the at least one decoding unit can decode the audio signal based on the bitstream.
  • the N-th decoding unit 223 will be described for convenience of explanation.
  • the first decoding unit 221 and the second decoding unit 222 may have a similar structure to the Nth decoding unit 223.
  • the N-th decoding unit 223 may include an audio signal decoding unit 230.
  • the audio signal decoding unit 230 may include a lossless decoding unit 231, an inverse quantization unit 232, a stereo reconstruction unit 233 and an inverse transformation unit 234.
  • the lossless decoding unit 231 can receive the bitstream.
  • the lossless decoding unit 231 may decode the bitstream and output at least one decoding parameter.
  • the lossless decoding unit 231 can decode the bitstream without loss of information.
  • the inverse quantization unit 232 can receive at least one decoding parameter from the lossless decoding unit.
  • the inverse quantization unit 232 can dequantize at least one decoding parameter.
  • the dequantized decoding parameter may be a mono signal.
  • the stereo signal reconstruction unit 233 can reconstruct the stereo signal based on the inverse quantized decoding parameter.
  • the inverse transform unit 234 may convert the stereo signal in the frequency domain and output the decoded audio signal in the time domain.
  • the decoding parameter may include at least one of a spectral bin, a scale factor gain, a global gain, spectral data, and a window type.
  • Decoding parameters may be parameters used in codecs such as MP3, AAC, HE-AAC.
  • the decryption parameter is not limited to a specific codec, but may have a decryption parameter having a similar function even if the name is different.
  • the decoding parameter may be transmitted on a frame-by-frame basis. A frame is a unit of dividing the original audio signal in the time domain.
  • the spectral bin may correspond to the magnitude of the signal along the frequency in the frequency domain.
  • the scale factor gain and the global gain are values for scaling the spectral bean.
  • the scale factor may have a different value for each of a plurality of bands included in one frame.
  • the global gain can have the same value for all bands in one frame.
  • the audio decompression apparatus 100 may obtain the audio signal in the frequency domain by multiplying the spectral bin, the scale factor gain, and the global gain.
  • the spectral data is information indicating the characteristics of the spectral bean.
  • the spectral data may represent the sign of the spectral bean.
  • the spectral data may also indicate whether the spectral bin is zero.
  • the window type may represent a characteristic of the original audio signal. And may correspond to a time interval for converting the original audio signal of the time domain into the frequency domain. If the original audio signal is a stationary signal with little change, the window type can represent "long”. If the original audio signal is a transient signal with significant changes, the window type may indicate "short".
  • the Nth decoding unit 123 may include at least one of the parameter characteristic determination unit 240 and the parameter recovery unit 250.
  • the parameter characteristic determination unit 240 may receive at least one decoding parameter and determine the characteristics of the at least one decoding parameter.
  • the parameter characteristic determination unit 240 can use the machine learning to determine the characteristics of the at least one decoding parameter.
  • the parameter characteristic determination unit 240 may use the first decoding parameter included in the at least one decoding parameter to determine the characteristics of the second decoding parameter included in the at least one decoding parameter.
  • the parameter characteristic determination unit 240 may also output at least one of the characteristics of the decoding parameter and the decoding parameter to the parameter restoring unit 250.
  • the parameter characteristic determination unit 240 will be described in detail with reference to FIG. 4 to FIG.
  • the parameter restoring unit 250 may receive at least one decoding parameter from the lossless decoding unit 231.
  • the parameter restoring unit 250 may restore at least one decoding parameter.
  • the parameter reconstruction unit 250 may use a mechine learning model to reconstruct at least one decoding parameter.
  • the audio signal decoding unit 230 can output a decoded audio signal close to the original audio based on the restored at least one decoding parameter.
  • the parameter restoring unit 250 may receive at least one decoding parameter and a characteristic of the decoding parameter from the parameter characteristic determining unit 240.
  • the parameter restoring unit 250 may apply the machine learning model to the characteristics of at least one decoding parameter and the decoding parameter to output the restored parameter.
  • the parameter restoring unit 250 may apply the machine learning model to at least one decoding parameter to output the restored parameter.
  • the parameter restoring unit 250 can correct the restored parameter based on the parameter characteristic.
  • the parameter restoring unit 250 may output the corrected parameter.
  • the audio signal decoding unit 130 can output a decoded audio signal close to the original audio based on the corrected parameter.
  • the parameter restoring unit 250 may output at least one of the restored decoded and corrected parameters to the parameter characteristic determining unit 240 or the parameter restoring unit 250. At least one of the parameter characteristic determination unit 240 and the parameter restoring unit 250 may receive at least one of the decoded parameter and the corrected parameter of the previous frame. The parameter characteristic determination unit 240 may output the parameter characteristic of the current frame based on at least one of the at least one decoding parameter and the corrected parameter of the previous frame. The parameter restoring unit 250 may obtain restored parameters of the current frame based on at least one of the at least one decoded parameter and the corrected parameter of the previous frame.
  • FIG. 3 shows a flowchart of an audio decompression method according to an embodiment.
  • the audio decompression apparatus 100 may decode the bitstream and obtain a plurality of decoding parameters for the current frame.
  • the audio decompression apparatus 100 may determine the characteristics of the second parameter.
  • the audio decompression apparatus 100 may obtain the restored second parameter using a machine learning model.
  • the audio decompression apparatus 100 may decode the audio signal based on the restored second parameter.
  • the audio decompression apparatus 100 may decode the bitstream and obtain a plurality of decoding parameters for the current frame (operation 310).
  • the lossless decoding unit 231 can obtain a plurality of decoding parameters by decoding the bitstream.
  • the lossless decoding unit 231 can output the decoding parameters to the inverse quantization unit 232, the parameter characteristic determination unit 240, or the parameter restoration unit 250.
  • the audio decompression apparatus 100 may analyze the decryption parameter and determine where to output the decryption parameter.
  • the audio decompression apparatus 100 may determine where to output the decryption parameters according to a predetermined rule.
  • the bitstream may include information on where the decoding parameter is to be output.
  • the audio decompression apparatus 100 can determine where to output the decoding parameters based on the information included in the bitstream.
  • the audio decompression apparatus 100 may not modify at least one decoding parameter if it can guarantee high sound quality without modifying at least one decoding parameter among the plurality of decoding parameters.
  • the lossless decoding unit 231 can output at least one decoding parameter to the inverse quantization unit 232. [ At least one parameter may not be modified because it does not pass through the parameter characteristic determination unit 240 or the parameter restoration unit 250.
  • the audio decompression apparatus 100 does not use the parameter characteristic determination unit 240 and the parameter decompression unit 250 for some decoding parameters, and thus can efficiently use computing resources.
  • the audio decompression apparatus 100 may determine to modify at least one decoding parameter.
  • the lossless decoding unit 231 can output at least one decoding parameter to the parameter restoring unit 250.
  • the audio decompression apparatus 100 can obtain the reconstructed decoding parameter based on the decoding parameter using the machine learning model.
  • the audio decompression apparatus 100 may decode the audio signal based on the reconstructed decoding parameter.
  • the audio restoration apparatus 100 can provide an audio signal of improved sound quality based on the restored decryption parameter.
  • the machine learning model will be described in more detail with reference to FIG.
  • the audio decompression apparatus 100 may decide to modify a plurality of decryption parameters.
  • the lossless decoding unit 231 may output a plurality of decoding parameters to the parameter characteristic determination unit 240.
  • the parameter characteristic determination unit 240 may determine a characteristic of the second parameter included in the plurality of decoding parameters based on the first parameter included in the plurality of decoding parameters (operation 320).
  • the second parameter may be associated with the first parameter.
  • the first parameter may directly or indirectly indicate the characteristics of the second parameter.
  • the first parameter may be at least one of scale factor gain, global gain, spectral data and window type for the second parameter.
  • the first parameter may be a parameter adjacent to the second parameter. Also, the first parameter may be a parameter included in the same band or frame as the second parameter. The first parameter may be a band including the second parameter or a parameter included in a band or a frame adjacent to the frame.
  • the present disclosure distinguishes the first parameter and the second parameter for convenience of explanation, the first parameter may be the same as the second parameter. That is, the parameter characteristic determination unit 240 can determine the characteristics of the second parameter from the second parameter itself.
  • the parameter restoring unit 250 may obtain a second parameter reconstructed by applying the machine learning model to at least one of the plurality of decoding parameters, the second parameter, and the second parameter (step 330).
  • the audio decompression apparatus 100 may decode the audio signal based on the restored second parameter (step 340).
  • the decoded audio signal based on the second parameter restored by applying the machine learning model can provide excellent sound quality.
  • the machine learning model will be described in more detail with reference to FIG.
  • FIG. 4 shows a block diagram for machine learning in accordance with one embodiment.
  • the data learning unit 410 and the data application unit 420 may be performed at different times.
  • the data learning unit 410 can operate in advance of the data application unit 420.
  • the parameter characteristic determination unit 240 and the parameter recovery unit 250 may include at least one of the data learning unit 410 and the data application unit 420.
  • the data learning unit 410 may include a data acquisition unit 411, a preprocessing unit 412, and a machine learning unit 413. [ The data learning unit 410 receives the input data 431 and outputs the machine learning model 432 as a training process.
  • the data acquisition unit 411 can receive input data.
  • the input data 431 may include at least one of an original audio signal and decoding parameters.
  • the original audio signal may be an audio signal recorded in high quality.
  • the original audio signal can be expressed in the frequency domain or the time domain.
  • the decoding parameters may be the result of encoding the original audio signal. Some information may be lost while encoding the original audio signal. That is, the audio signal decoded from the plurality of decoding parameters may have a lower sound quality than the original audio signal.
  • the preprocessing unit 412 can preprocess the acquired data so that the input data 431 can be used for learning.
  • the preprocessing section 412 can process input data into a predetermined format so that the machine learning section 413, which will be described later, can use the input data 431.
  • the original audio signal and the plurality of decoding parameters have different formats, the original audio signal or a plurality of decoding parameters may be converted to match the format.
  • the codec information of the original audio signal and the plurality of decoding parameters may be modified so as to be compatible with each other.
  • the original audio signal and a plurality of decoding parameters are represented in different domains, they can be modified to be displayed on the same domain.
  • the preprocessing section 412 can select data necessary for learning from the input data 431. [ The selected data may be provided to the machine learning unit 413.
  • the preprocessing unit 412 can select data necessary for learning from the preprocessed data according to a preset reference.
  • the preprocessing unit 312 can also select data according to a predetermined criterion by learning by the machine learning unit 413, which will be described later.
  • the machine learning unit 413 can output the machine learning model 432 based on the selected input data.
  • the selected input data may be at least one of a plurality of decoding parameters of the original audio signal.
  • the machine learning model 432 may be a criterion for restoring at least one parameter among a plurality of decryption parameters.
  • the machine learning unit 413 can learn such that the difference between the audio signal decoded by the reconstructed decoding parameter and the original audio signal is minimized.
  • the machine learning unit 413 can learn a criterion as to which input data 431 should be used to restore at least one parameter among a plurality of decryption parameters.
  • the machine learning section 413 can learn the machine learning model using the input data 431.
  • the machine learning model 432 may be a pre-trained model.
  • the machine learning model 432 may be a pre-trained model that receives basic learning data (e.g., at least one decoding parameter).
  • the basic learning data may be initial data for building a pre-trained model.
  • the machine learning model 432 can be selected in consideration of the application field of the recognition model, the purpose of learning, or the computer performance of the apparatus.
  • the machine learning model may be, for example, a model based on a neural network.
  • models such as Deep Neural Network (DNN), Recurrent Neural Network (RNN), and Bidirectional Recurrent Deep Neural Network (BRDNN) may be used as a machine learning model.
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • the machine learning unit 414 determines a data recognition model that is highly relevant to the input data 431 or the basic learning data, .
  • the input data 431 or the basic learning data may be pre-classified according to the type of data, and the data recognition model may be pre-built according to the type of data.
  • the input data 431 or the basic learning data may include various types of data such as an area where data is generated, a time at which data was generated, a size of data, a genre of data, It can be classified as a standard.
  • the machine learning unit 413 can learn a data recognition model using, for example, a learning algorithm including an error back-propagation method or a gradient descent method.
  • the machine learning unit 413 can learn the machine learning model 432 through supervised learning using the input data 431 as an input value, for example. In addition, the machine learning unit 413 learns, for example, the type of data necessary for the situation determination without any further guidance, so that the machine learning unit 413 can learn machine learning The model can be learned. Further, the machine learning unit 413 can learn the machine learning model 432 through reinforcement learning using, for example, feedback as to whether the result of the situation determination based on learning is correct.
  • the machine learning unit 413 can perform the machine learning using Equations (1) and (2) as follows.
  • x is the selected input data used in the machine learning model
  • y is the probability of each candidate
  • i is the index of the candidates
  • j is the index of the selected input data used in the machine learning model
  • I is a weighting matrix
  • b is a deflection parameter.
  • the machine learning unit 413 can obtain the predicted data using an arbitrary weight W and an arbitrary deflection parameter b.
  • the predicted data may be reconstructed decoding parameters.
  • the machine learning unit 413 can calculate the cost of y.
  • the cost may be the difference between the actual data and the predicted data.
  • the cost may be the difference between the data associated with the original audio signal and the data associated with the reconstructed decoding parameter.
  • the machine learning unit 413 can update the weight W and the deflection parameter b so that the cost is minimized.
  • the machine learning unit 413 can obtain the weight and the deflection parameter at the minimum cost.
  • the machine learning unit 413 can represent a weight and a deflection parameter at a minimum cost in a matrix.
  • the machine learning unit 413 can acquire the machine learning model 432 using at least one of the weight and the parameter when the cost is minimum.
  • the machine learning model 432 may correspond to a matrix of weights and a matrix of parameters.
  • the machine learning unit 313 can store the learned machine learning model 432.
  • the machine learning unit 413 can store the learned machine learning model 432 in the memory of the data data learning unit 410.
  • the machine learning unit 413 may store the learned machine learning model 432 in the memory of the data application unit 420 to be described later.
  • the machine learning unit 413 may store the learned machine learning model 432 in an electronic device or in a memory of a server connected via a wired or wireless network.
  • the memory in which the learned machine learning model 432 is stored may also store instructions or data associated with, for example, at least one other component of the electronic device.
  • the memory may also store software and / or programs.
  • the program may include, for example, a kernel, a middleware, an application programming interface (API), and / or an application program (or " application ").
  • the model evaluation unit (not shown) inputs the evaluation data to the machine learning model 432, and when the result output from the evaluation data does not satisfy the predetermined criterion, the machine learning unit 413 can re-learn .
  • the evaluation data may be predetermined data for evaluating the machine learning model 432.
  • the model evaluation unit (not shown) satisfies a predetermined criterion when the number or ratio of evaluation data whose results are not correct out of the results of using the learned machine learning model for evaluation data exceeds a predetermined threshold value It can be evaluated as not successful.
  • a predetermined criterion is defined as a ratio of 2%, and the learned machine learning model outputs an incorrect result for evaluation data exceeding 20 out of a total of 1000 evaluation data, 432) may not be appropriate.
  • the model evaluating unit can evaluate whether each of the learned machine learning models satisfies a predetermined criterion, and determine a model satisfying a predetermined criterion as a final machine learning model. In this case, when there are a plurality of models satisfying the predetermined criterion, the model evaluation unit can determine any one or a predetermined number of models preset in descending order of the evaluation score as the final machine learning model 432.
  • At least one of the data acquisition unit 411, the preprocessing unit 412, the machine learning unit 413 and the model evaluation unit in the data learning unit 410 is fabricated in at least one hardware chip form, .
  • at least one of the data acquisition unit 411, the preprocessing unit 412, the machine learning unit 413, and the model evaluation unit may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI) , Or may be mounted on a variety of electronic devices, such as those manufactured as part of an existing general purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU).
  • AI artificial intelligence
  • the data acquisition unit 411, the preprocessing unit 412, the machine learning unit 413, and the model evaluation unit may be mounted on one electronic device, or may be mounted on separate electronic devices, respectively.
  • some of the data acquisition unit 411, the preprocessing unit 412, the machine learning unit 413, and the model evaluation unit may be included in the electronic device, and some of them may be included in the server.
  • At least one of the data acquisition unit 411, the preprocessing unit 412, the machine learning unit 413, and the model evaluation unit may be implemented as a software module.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS operating system
  • OS Operating System
  • some of the at least one software module may be provided by an Operating System (OS)
  • OS Operating System
  • the data data application unit 420 may include a data obtaining unit 421, a preprocessing unit 422, and a result providing unit 423.
  • the test process may be that the data data application unit 420 receives the input data 441 and the machine learning model 432 and outputs the output data 442.
  • the data acquisition unit 421 can acquire input data.
  • the input data 441 may include at least one decoding parameter for decoding the audio signal.
  • the preprocessing unit 422 can preprocess the input data 441 so that the input data 441 can be used.
  • the preprocessing unit 422 can process the input data 441 into a predetermined format so that the result providing unit 423 to be described later can use the input data 441. [
  • the preprocessing unit 422 can select data to be used in the result providing unit 423 from among the preprocessed input data.
  • the preprocessing unit 422 can select at least one decoding parameter to be used for improving the sound quality of the audio signal among the preprocessed input data.
  • the selected data may be provided to the result provider 423.
  • the preprocessing unit 422 may select some or all of the preprocessed input data according to a set criterion for improving the sound quality of the audio signal.
  • the preprocessing section 422 can also select data according to a predetermined reference by learning by the machine learning section 413.
  • the result provider 423 may apply the data selected by the preprocessor 422 to the machine learning model 432 to output the output data 442.
  • the output data 442 may be a reconstructed decoding parameter to provide improved sound quality.
  • the audio decompression apparatus 100 can output a decoded audio signal close to the original audio signal based on the restored decoding parameter.
  • the result provider 423 may also provide the output data 442 to the preprocessor 422.
  • the preprocessor may preprocess the output data 442 and provide it to the result provider 423.
  • the output data 442 may be a reconstructed decoding parameter of the previous frame.
  • the result deliverer 423 may provide the preprocessor 422 with output data 442 for the previous frame.
  • the preprocessing unit 422 may provide the reconstructed decoding parameter of the previous frame to the result providing unit 423 together with the selected decoding parameter of the current frame.
  • the result providing unit 423 may generate the output data 442 for the current frame by reflecting the information on the previous frame as well as the restored decoding parameters of the current frame.
  • the output data 442 for the current frame may be at least one of a reconstructed decoding parameter or a corrected decoding parameter of the current frame.
  • the audio restoration apparatus 100 can provide audio with improved sound quality based on the output data 442 for the current frame.
  • the model update unit may cause the machine learning model 432 to be updated based on the evaluation of the output data 342 provided by the result providing unit 423.
  • the model updating unit may cause the machine learning unit 413 to update the machine learning model 432 by providing the machine learning unit 413 with the output data 442 provided by the result providing unit 423 .
  • At least one of the data obtaining unit 421, the preprocessing unit 422, the result providing unit 423, and the model updating unit in the data application unit 420 may be manufactured in at least one hardware chip form, .
  • at least one of the data acquiring unit 421, the preprocessing unit 422, the result providing unit 423, and the model updating unit may be manufactured in the form of a dedicated hardware chip for artificial intelligence (AI) , Or may be mounted on a variety of electronic devices, such as those manufactured as part of an existing general purpose processor (e.g., a CPU or an application processor) or a graphics-only processor (e.g., a GPU).
  • AI artificial intelligence
  • the data acquiring unit 421, the preprocessing unit 422, the result providing unit 423, and the model updating unit may be mounted on one electronic device or on separate electronic devices, respectively.
  • some of the data acquisition unit 421, the preprocessing unit 422, the recognition result providing unit 423, and the model updating unit may be included in the electronic device, and some of the model updating unit may be included in the server.
  • At least one of the data obtaining unit 421, the preprocessing unit 422, the result providing unit 423, and the model updating unit may be implemented as a software module.
  • the result providing unit 423 and the model updating unit is implemented as a software module (or a program module including an instruction) May be stored in a computer-readable, non-transitory computer readable media.
  • the at least one software module may be provided by an operating system (OS) or by a predetermined application.
  • OS Operating System
  • OS Operating System
  • FIG. 1 operations of the audio decompression apparatus 100 of FIG. 1, the data learning unit 410 of FIG. 4, and the data application unit 420 will be described in detail with reference to FIGS. 5 to 11.
  • FIG. 1 operations of the audio decompression apparatus 100 of FIG. 1, the data learning unit 410 of FIG. 4, and the data application unit 420 will be described in detail with reference to FIGS. 5 to 11.
  • FIG. 1 operations of the audio decompression apparatus 100 of FIG. 1, the data learning unit 410 of FIG. 4, and the data application unit 420 will be described in detail with reference to FIGS. 5 to 11.
  • FIG. 1 operations of the audio decompression apparatus 100 of FIG. 1, the data learning unit 410 of FIG. 4, and the data application unit 420 will be described in detail with reference to FIGS. 5 to 11.
  • FIG. 5 shows a prediction of the characteristics of the decoding parameters according to an embodiment.
  • the parameter characteristic determination unit 240 can determine the characteristics of the decoding parameters.
  • the audio decompression apparatus 100 can reduce the amount of computation because it is not necessary to perform processing on parameters that do not satisfy the characteristics of the decryption parameter.
  • the audio decompression apparatus 100 can prevent the reconstructed decoding parameter from deriving a sound quality worse than the input decoding parameter.
  • the graph 510 may indicate the magnitude of the signal according to the frequency for one frame.
  • the plurality of decoding parameters obtained by the audio decompression apparatus 100 based on the bitstream may include a magnitude value of the signal according to the frequency.
  • the magnitude value of the signal may correspond to a spectral bin.
  • the plurality of decryption parameters may include a first parameter and a second parameter.
  • the parameter characteristic determination unit 140 can determine the characteristics of the second parameter based on the first parameter.
  • the first parameter may be a parameter adjacent to the second parameter.
  • the audio restoration apparatus 100 can determine the characteristics of the second parameter based on the trend of the first parameter.
  • the characteristic of the second parameter may be a range of the second parameter.
  • the second parameter may be the magnitude value 513 of the signal at frequency f3.
  • the first parameter may be the magnitude values 511, 512, 514, and 515 of the signals corresponding to the frequencies f1, f2, f4, and f5.
  • the audio decompression apparatus 100 may determine that the magnitude values 511, 12, 514, and 515 of the signals corresponding to the first parameter are upward trends. Therefore, the audio decompression apparatus 100 can determine the range of the magnitude value 513 of the signal corresponding to the second parameter between the signal value 512 and the signal value 514.
  • the parameter characteristic determination unit 240 of FIG. 2 may include the data learning unit 410 of FIG.
  • the machine learning model 432 may be pre-trained by the data learning unit 410.
  • the data learning unit 410 of the parameter characteristic determination unit 240 can receive information corresponding to the original audio signal.
  • the information corresponding to the original audio signal may be information obtained by encoding the original audio signal itself or the original audio signal with high quality.
  • the data learning unit 410 of the parameter characteristic determination unit 240 can also receive the decoding parameters.
  • the parameters received by the data learning unit 410 of the parameter characteristic determination unit 240 may correspond to at least one frame.
  • the data learning unit 410 of the parameter characteristic determination unit 240 can also output the machine learning model 432 based on the operations of the data acquisition unit 411, the preprocessing unit 412, and the machine learning unit 413 have.
  • the data learning unit 410 of the machine learning model 432 may be a machine learning model 432 for determining the characteristics of the second parameter based on the first parameter.
  • the machine learning model 432 may be given as a weight for each of the at least one first parameters.
  • the parameter characteristic determination unit 240 may include the data application unit 420 shown in FIG.
  • the parameter characteristic determination unit 240 can determine the characteristics of the second parameter based on at least one of the first parameter and the second parameter.
  • the parameter characteristic determination unit 240 may use a pre-trained machine learning model to determine the characteristics of the second parameter.
  • the data application unit 420 of the parameter property determination unit 240 may receive at least one of the first parameter and the second parameter included in the plurality of decoding parameters of the current frame.
  • the data application unit 420 of the parameter property determination unit 240 may receive the machine learning model 432 from the data learning unit 410 of the parameter property determination unit 240.
  • the data application unit 420 of the parameter property determination unit 240 can determine the characteristics of the second parameter based on the operations of the data acquisition unit 421, the preprocessing unit 422, and the result provision unit 423.
  • the data application unit 420 of the parameter property determination unit 240 may determine the characteristics of the second parameter by applying the machine learning model 432 to at least one of the first parameter and the second parameter.
  • the audio decompression apparatus 100 can restore the second parameter not included in the bitstream to provide high bit rate audio.
  • the second parameter of the audio decompression apparatus 100 may be the magnitude value of the signal at the frequency f0.
  • the bitstream may not include information on the size of the signal at the frequency f0.
  • the audio restoration apparatus 100 can estimate the characteristics of the signal at the frequency f0 based on the first parameter.
  • the first parameter may be the magnitude values 511, 512, 513, 514, and 515 of the signals corresponding to the frequencies f1, f2, f3, f4, and f5.
  • the audio decompression apparatus 100 may determine that the magnitude values 511, 512, 513, 514, and 515 of the signal corresponding to the first parameter are upward trends. Therefore, the audio decompression apparatus can determine the range of the magnitude value of the signal corresponding to the second parameter to be between the signal value 514 and the signal value 515.
  • the audio restoration apparatus 100 may include at least one of the data learning unit 410 and the data application unit 420 shown in FIG. Since the operation of the data learning unit 410 or the data application unit 420 has already been described, a detailed description thereof will be omitted here.
  • the second parameter may be the magnitude value 523 of the signal at frequency f3.
  • the first parameter may be the signal magnitude values 521, 522, 524, and 525 corresponding to the frequencies f1, f2, f4, and f5.
  • the audio decompression apparatus 100 can determine that the magnitude values 521, 522, 524, and 525 of the signals corresponding to the first parameter are rising and descending trends. Since the signal value 524 corresponding to the frequency f4 is larger than the signal value 522 corresponding to the frequency f2, the audio decompression apparatus 100 sets the range of the signal size value 523 corresponding to the second parameter to the signal (524). ≪ / RTI >
  • the second parameter may be the magnitude value 533 of the signal at frequency f3.
  • the first parameter may be signal magnitude values 531, 532, 534, and 535 corresponding to frequencies f1, f2, f4, and f5.
  • the audio decompression apparatus 100 can determine that the magnitude values 531, 532, 534, and 535 of the signal corresponding to the first parameter are the rising trend after the falling. Since the signal value 534 corresponding to the frequency f4 is smaller than the signal value 532 corresponding to the frequency f2, the audio decompression apparatus 100 sets the range of the signal size value 533 corresponding to the second parameter to the signal (534). ≪ / RTI >
  • the second parameter may be the magnitude value 543 of the signal at frequency f3.
  • the first parameter may be the magnitude values 541, 542, 544, and 545 of the signals corresponding to the frequencies f1, f2, f4, and f5.
  • the audio decompression apparatus 100 may determine that the magnitude values 541, 542, 544, and 545 of the signals corresponding to the first parameter are falling trends.
  • the audio decompression apparatus 100 can determine the range of the magnitude value of the signal corresponding to the second parameter between the signal value 542 and the signal value 544.
  • Figure 6 shows a prediction of the characteristics of a decoding parameter according to an embodiment.
  • a plurality of frames may be used to determine the characteristics of the decoding parameters for one frame of the audio decompressor 100.
  • the audio restoration apparatus 100 may use frames one frame before to determine the characteristics of the decoding parameters for one frame.
  • the audio decompression apparatus 100 may be configured to decode at least one of a frame n-2, a frame n-1 610, a frame n 620, or a frame n-1 to determine the characteristics of at least one decoding parameter included in the frame n + At least one decoding parameter included in frame n + 1 630 may be used.
  • the audio decompression apparatus 100 can obtain decoding parameters from the bitstream.
  • the audio decompression apparatus 100 may obtain the graphs 640, 650, and 660 based on the decoding parameters in a plurality of frames.
  • Graph 640 may represent the decoding parameters for frame n-1 610 in the frequency domain.
  • the decryption parameters shown in graph 640 may indicate the magnitude of the signal along the frequency.
  • the graph 650 may represent the magnitude of the signal for frequency n (620) in the frequency domain.
  • the graph 660 may indicate the magnitude of the signal in frequency domain for frequency n + 1 630.
  • the audio decompression apparatus 100 may determine the characteristics of the magnitudes of the signals included in the graph 660 based on the magnitudes of the at least one signal included in the graph 640, the graph 650 and the graph 660.
  • the audio decompression apparatus 100 is configured to reconstruct a signal 640 included in the graph 660 based on the magnitude of at least one signal included in the graph 640, the graph 650, Gt; 662 < / RTI >
  • the audio decompression apparatus 100 can confirm the trend of the signal sizes 641, 642, and 643 of the graph 640.
  • the audio decompression apparatus 100 can also confirm trends of the signal sizes 651, 652, and 653 of the graph 650. The trend may be to rise and then descend near f3.
  • the audio restoration device 100 may also determine the trend of the graph 660 based on the graph 640 and the graph 650.
  • the audio decompression apparatus 100 can also determine that the size 662 of the signal is greater than or equal to the size 661 of the signal and the size 663 of the signal.
  • the audio decompression apparatus 100 is configured to reconstruct the audio signal f0 (x, y) included in the graph 660 based on the magnitude of at least one signal included in the graph 640, the graph 650 and the graph 660. [ Can be determined.
  • the audio decompression apparatus 100 can confirm trends of signal sizes in the graph 640.
  • the audio decompression apparatus 100 can also confirm the trends of the signal sizes of the graph 650. The trend may be to descend near f0.
  • the audio restoration device 100 may also determine the trend of the graph 660 based on the graph 640 and the graph 650.
  • the audio decompression apparatus 100 can also determine that the magnitude of the signal at f0 is less than or equal to the magnitude of the signal at f4 and greater than or equal to the magnitude of the signal at f5.
  • the audio restoration apparatus 100 may include at least one of the data learning unit 410 and the data application unit 420 shown in FIG. Since the operation of the data learning unit 410 or the data application unit 420 has already been described, a detailed description thereof will be omitted here.
  • frames prior to one frame may be used to determine the characteristics of the decoding parameters included in one frame of the audio decompression apparatus 100.
  • the audio decompression apparatus 100 can determine the characteristics of the signal according to the specific frequency included in the current frame based on the signal according to the specific frequency included in the previous frame.
  • the audio decompression apparatus 100 decodes the decoded parameters according to the specific frequency included in the current frame based on the distribution range, average value, intermediate value, median, minimum value, maximum value, Can be determined.
  • the audio decompression apparatus 100 may determine the characteristics of the magnitude 662 of the signal contained in the graph 660 based on the magnitude of the at least one signal included in the graph 640 and the graph 650 have.
  • the audio decompression apparatus 100 is able to reconstruct the audio signal at the frequency f3 of the graph 660 based on the magnitude 642 of the signal at the frequency f3 of the graph 640 and the magnitude 652 of the signal at the frequency f3 of the graph 650
  • the characteristics of the signal size 662 can be determined.
  • the characteristics of signal magnitude 662 may be based on distribution range, mean value, median, median, minimum, maximum, deviation, or sign of signal magnitude 642 and signal magnitude 652.
  • the audio decompression apparatus 100 can obtain the decoding parameters from the bitstream.
  • the decryption parameter may include a second parameter. Further, the characteristic of the second parameter can be determined based on the already determined parameter rather than the decryption parameter.
  • the quantization step size may not be included in the decoding parameter.
  • the second parameter may correspond to the magnitude of the signal according to the frequency for one frame.
  • the magnitude value of the signal may correspond to a spectral bin.
  • the audio decompression apparatus 100 can also determine the range of the spectral bin based on the quantization step size.
  • the quantization step size is a range of the size of a signal determined by one spectral bin.
  • the quantization step size may vary from frequency to frequency. In the audio frequency domain, the quantization step size can be dense. In an area other than the audio frequency domain, the quantization step size may be affected. Thus, knowing the frequency value corresponding to the spectral bin, the quantization step size can be determined.
  • the range of spectral bins can also be determined based on the quantization step size.
  • the audio decompression apparatus 100 can obtain the decoding parameters from the bitstream.
  • the decryption parameter may include a first parameter and a second parameter.
  • the characteristic of the second parameter may be determined based on the first parameter.
  • the characteristic of the second parameter may be a range of the second parameter.
  • the first parameter may include a scale factor and a masking threshold value.
  • the quantization step size may be determined based on the scale factor and the masking threshold.
  • the scale factor is a value for scaling the spectral bin as described above.
  • the scale factor may have a different value for each of a plurality of bands included in one frame.
  • the masking threshold is the minimum size of the current signal for the current signal to be heard when noise is present.
  • the masking threshold may vary depending on the frequency and type of masker. The masking threshold can also be increased when the frequency of the masker and the current signal is close.
  • the current signal may be present at f0, and there may be a masker signal at f1 close to f0.
  • the masking threshold at f0 can be determined by the mask of f1. If the magnitude of the current signal at f0 is less than the masking threshold, the current signal may be an inaudible sound. Therefore, the audio decompression apparatus 100 can ignore the current signal at f0 in the encoding or decoding process. On the other hand, if the magnitude of the current signal at f0 is greater than the masking threshold, the current signal may be audible. Therefore, the audio decompression apparatus 100 can not ignore the current signal at f0 in the encoding or decoding process.
  • the audio decompression apparatus 100 may set the quantization step size to a smaller value among the scale factor and the masking threshold value.
  • the audio decompression apparatus 100 can also determine the range of the spectral bin based on the quantization step size.
  • FIG. 7 shows a flowchart of an audio decompression method according to an embodiment.
  • the audio decompression apparatus 100 may decode the bitstream to obtain a plurality of decoding parameters of the current frame for decoding the audio signal.
  • the audio decompression apparatus 100 may determine the characteristics of the second parameter included in the plurality of decryption parameters based on the first parameter included in the plurality of decryption parameters.
  • the audio decompression apparatus 100 may use the machine learning model to obtain the restored second parameter based on at least one of the plurality of decryption parameters.
  • the audio decompression apparatus 100 may correct the second parameter based on the characteristics of the second parameter to obtain the corrected second parameter.
  • the audio decompression apparatus 100 may decode the audio signal based on the corrected second parameter.
  • Steps 710 and 750 may be performed by the audio signal decoding unit 230.
  • Step 720 may be performed by the parameter characteristic determination unit 240.
  • steps 730 to 740 may be performed by the parameter restoring unit 250.
  • the data learning unit 410 and the data application unit 420 of the parameter restoring unit 250 may receive the characteristics of the second parameter as an input. That is, the parameter restoring unit 250 can perform the machine learning on the basis of the characteristic of the second parameter.
  • the data learning unit 410 of the parameter restoring unit 250 may output the machine learning model 432 by reflecting the characteristic of the second parameter.
  • the data application unit 420 of the parameter restoring unit 250 may output the output data 442 by reflecting the characteristics of the second parameter.
  • the data learning unit 410 and the data application unit 420 of the parameter restoring unit 250 may not receive the property of the second parameter as an input. That is, the parameter restoring unit 250 only performs the machine learning based on the decryption parameter, and may not perform the machine learning on the basis of the characteristics of the second parameter.
  • the data learning unit 410 of the parameter restoring unit 250 can output the machine learning model 432 without reflecting the characteristics of the second parameter.
  • the data application unit 420 of the parameter restoring unit 250 may output the output data 442 without reflecting the characteristics of the second parameter.
  • the output data 442 may be a restored second parameter.
  • the parameter restoring unit 250 can determine whether the restored second parameter is suitable for the characteristic of the second parameter. If the restored second parameter matches the characteristic of the second parameter, the parameter restoring unit 250 may output the restored parameter to the audio signal decoding unit 230. [ If the restored second parameter does not match the characteristic of the second parameter, the parameter restoring unit 250 may correct the restored second parameter based on the characteristic of the second parameter to obtain the corrected second parameter. The parameter restoring unit 250 may output the corrected parameter to the audio signal decoding unit 230. [
  • the characteristic of the second parameter may be a range of the second parameter.
  • the audio restoration apparatus 100 can determine the range of the second parameter based on the first parameter.
  • the audio decompression apparatus 100 may obtain a value of a range closest to the restored second parameter as a corrected second parameter when the restored second parameter is not within the range of the second parameter. This will be described in more detail with reference to FIG.
  • Figure 8 shows the decoding parameters according to an embodiment.
  • the graph 800 shows the magnitude of the signal according to the frequency of the original audio signal in the frequency domain.
  • the graph 800 may correspond to one frame of the original audio signal.
  • the original audio signal appears as a curve 805 with a continuous waveform.
  • the original audio signal can be sampled at frequencies f1, f2, f3 and f4.
  • the magnitude of the original audio signal can be represented by dots 801, 802, 803, and 804.
  • the original audio signal can be encoded.
  • the audio decompression apparatus 100 can generate a decoding parameter by decoding the encoded original audio signal.
  • Graph 810 shows the magnitude of the signal along the frequency.
  • the dotted line 815 shown in the graph 810 may correspond to the original audio signal.
  • the points 811, 812, 813, and 814 shown in the graph 810 may correspond to decryption parameters.
  • the decoding parameter may be output from the lossless decoding unit 231 of the audio decompression apparatus 100. [ At least one of the original audio signal and decoding parameters may be scaled and displayed in graph 810.
  • the dotted line 815 may be different from the points 811, 812, 813, 814.
  • the difference between the dotted line 815 and the dots 811, 812, 813 and 814 may be due to the error caused by encoding and decoding of the original audio signal.
  • the audio decompression apparatus 100 can determine the characteristics of the decoding parameters corresponding to the dots 811, 812, 813 and 814. [ The audio decompression apparatus 100 may use a machine learning model to determine the characteristics of the decryption parameters. The determination of the decryption parameter characteristics has already been described with reference to FIG. 5 and FIG. 6, and a detailed description thereof will be omitted.
  • the decoding parameter may be a spectral bin.
  • the characteristic of the decoding parameter may also be a range of spectral bins.
  • a range of spectral bins determined by the audio restoration apparatus 100 may be represented as a graph 830.
  • the arrow mark 835 indicates a possible range of the point 831 corresponding to the spectral bin.
  • the arrow mark 836 represents the possible range of the point 832 corresponding to the spectral bin.
  • the arrow mark 837 indicates the possible range of the point 833 corresponding to the spectral bin.
  • the arrow mark 838 represents the possible range of the point 834 corresponding to the spectral bin.
  • the audio restoration apparatus 100 can determine the characteristics of the signal at f0 between f2 and f3. The audio restoration apparatus 100 may not receive the decryption parameter for f0. The audio restoration apparatus 100 can determine the characteristics of the decryption parameters at f0 based on the decryption parameters associated with f0.
  • the audio decompression apparatus 100 may not receive information related to the size of the spectral bean at f0.
  • the audio decompression apparatus 100 can determine the range of the magnitude of the signal at f0 using the spectral bin of the frequency adjacent to f0 and the spectral bin of the frame adjacent to the current frame. This is described in detail with reference to FIG. 5 and FIG. 6, and a detailed description thereof will be omitted.
  • the audio restoration apparatus 100 may restore the decoding parameters.
  • the audio restoration apparatus 100 can use a machine learning model.
  • the audio decompression apparatus 100 may apply at least one of a decoding parameter and a decoding parameter to the machine learning model.
  • the restored decoding parameters of the audio decompression apparatus 100 are the same as those of the graph 850.
  • the dots 851, 852, 853, 854, and 855 represent restored decoding parameters.
  • the reconstructed decoding parameter may have a larger error than the decoding parameter before reconstruction. For example, point 834 corresponding to a spectral bin in graph 830 is close to the original audio signal, but point 854 corresponding to a spectral bin in graph 850 is far from the original audio signal 860 Can be.
  • the audio restoration apparatus 100 can correct the decoding parameter.
  • the audio decompression apparatus 100 can determine whether the decryption parameter is within a possible range of the decryption parameter.
  • the audio decompression apparatus 100 can correct the decryption parameter when the decryption parameter is not within the possible range of the decryption parameter.
  • the corrected decoding parameter may be within a possible range of the decoding parameter.
  • graph 870 represents the corrected spectral bean.
  • the points 871, 872, 873, 875 corresponding to the spectral bin may be within the possible range of the spectral bean. However, the point 874 corresponding to the spectral bin may be outside the possible range 878 of the spectral bin.
  • the audio restoration apparatus 100 obtains the value of the nearest spectral bin 878 as the corrected spectral bin .
  • the audio decompression apparatus 100 resets the maximum value of the range 878 to a point corresponding to the corrected spectral bin when the point 874 corresponding to the restored spectral bin is a value larger than the maximum value of the range 878 880). That is, the audio decompression apparatus 100 may correct the point 874 corresponding to the restored spectral bin to a point 880.
  • Point 880 may correspond to the corrected spectral bin.
  • the audio decompression apparatus 100 can decode the audio signal based on the corrected decoding parameter.
  • the sampling rate of the audio signal can be improved by the point 875 corresponding to the spectral bin recovered at the frequency f0.
  • the point 880 corresponding to the spectral bin reconstructed at the frequency f4 the size of the audio signal can be accurately represented. Since the corrected decoding parameter is close to the original audio signal in the frequency domain, the decoded audio signal may be close to the original audio signal.
  • FIG. 9 illustrates a change in the decoding parameter according to an embodiment.
  • Graph 910 illustrates graph 810 of FIG.
  • Graph 910 shows the magnitude of the signal along the frequency.
  • the dotted line 915 shown in the graph 910 may correspond to the original audio signal.
  • the points 911, 912, 913, and 914 shown in the graph 910 may correspond to decryption parameters. At least one of the original audio signal and the decoding parameters may be scaled and displayed in the graph 910.
  • the audio decompression apparatus 100 can determine the characteristics of the decryption parameters corresponding to the dots 911, 912, 913, and 914.
  • the audio decompression apparatus 100 may use a machine learning model to determine the characteristics of the decryption parameters. The determination of the characteristics of the decoding parameters has already been described with reference to FIG. 5 and FIG. 6, and a detailed description thereof will be omitted.
  • the decoding parameter may be a spectral bin.
  • the characteristic of the decoding parameter may also be a range of spectral bins. The range of spectral bins determined by the audio decompression apparatus 100 may appear as a graph 930. [
  • the audio decompression apparatus 100 can determine the candidates for finely adjusting the spectral bin.
  • the audio decompression apparatus 100 may represent the spectral bin using a plurality of bits. Also, as the number of bits for expressing the spectral bin increases, the audio decompression apparatus 100 can finely represent the spectral bin.
  • the audio decompression apparatus 100 may increase the number of bits for expressing the spectral bean in order to finely adjust the spectral bin. The case of increasing the number of bits for expressing the spectral bin will be described with reference to FIG.
  • FIG. 10 illustrates a change in decoding parameters when the number of bits is increased according to an embodiment.
  • the audio decompression apparatus 100 may use two bits to represent the quantized decoding parameters.
  • the audio decompression apparatus 100 can display the quantization decoded parameters using '00', '01', '10' and '11'. That is, the size of the decoding parameter that can be represented by the audio decompression apparatus 100 is four.
  • the audio decompression apparatus 100 may assign the minimum value that the decoding parameter may have to '00'. Also, the audio decompression apparatus 100 can allocate the maximum value that the decoding parameter can have to '11'.
  • the size of the decoding parameter received by the audio decompression apparatus 100 may be the same as the point 1020.
  • the size of the decryption parameter may be '01'.
  • the actual size of the decoded parameters before quantization may be the same as the asterisks 1011, 1012, and 1013.
  • the error range may be the same as the arrow 1031.
  • the error range may be the same as the arrow 1032.
  • the error range may be the same as the arrow 1033.
  • the audio decompression apparatus 100 may use three bits to represent the quantized decryption parameters.
  • the audio decompression apparatus 100 can quantize the decoded parameters using '000', '001', '010', '011', '100', '101', '110', and '111' have. That is, the size of the decoding parameter that the audio restoration apparatus 100 can display is eight.
  • the audio restoration apparatus 100 may assign the minimum value that the decoding parameter may have to '000'. Also, the audio decompression apparatus 100 may allocate the maximum value that the decoding parameter can have to '111'.
  • the size of the decoding parameter received by the audio decompression apparatus 100 may be the same as the points 1071, 1072, and 1073.
  • the sizes of the decoding parameters may be '001', '101', and '011', respectively.
  • the actual size of the decryption parameter may be the same as the asterisks 1061, 1062, 1063. If the actual size of the decryption parameter is the same as the asterisk 1061, the error range may be the same as the arrow 1081. [ If the actual size of the decryption parameter is the same as the asterisk 1062, the error range may be the same as the arrow 1082. [ If the actual size of the decoding parameter is the same as the asterisk 1063, the error range may be the same as the arrow 1083.
  • the error of the decoding parameter displayed on the graph 1050 is relatively smaller than the error of the decoding parameter displayed on the graph 1000.
  • the decoding parameters can be expressed finely.
  • the audio decompression apparatus 100 may determine candidates for finely adjusting the decoding parameters.
  • the audio decompression apparatus may additionally use one bit to represent the decoding parameter.
  • candidates 951, 952, and 953 corresponding to one decoding parameter 931 of the graph 930 can be determined.
  • the audio decompression apparatus 100 may use the characteristics of the decryption parameter to determine the decryption parameter candidates 951, 952, 953.
  • the property of the decoding parameter may be a range 954 of the decoding parameter.
  • the candidates 951, 952, 953 may be within the range 954 of the decryption parameter.
  • the audio restoration apparatus 100 can select one of the decryption parameter candidates 951, 952, and 953 based on the machine learning model.
  • the audio restoration apparatus 100 may include at least one of a data learning unit 410 and a data application unit 420.
  • the audio decompression apparatus 100 may apply at least one of the decoding parameter of the current frame and the decoding parameter of the previous frame to the machine learning model to select one of the decoding parameters.
  • the machine learning model can be pre-trained.
  • the decryption parameter may include a first parameter and a second parameter.
  • the audio decompression apparatus 100 may use the first parameter associated with the second parameter to select one of the candidates of the second parameter.
  • the audio decompression apparatus 100 may obtain the selected decoding parameter 961.
  • the audio decompression apparatus 100 can also obtain the decoded audio signal based on the selected decryption parameter 961.
  • the audio decompression apparatus may additionally use 2 bits to represent decoding parameters. It is also possible to determine the candidates 971, 972, 973, 974, 975 corresponding to one decoding parameter 931 of the graph 930. The candidates 971, 972, 973, 974, and 975 have finer values than the candidates 951, 952, and 953 of the graph 950.
  • the audio decompression apparatus 100 can recover accurate decoding parameters when using 2 bits rather than 1 bit.
  • the audio decompression apparatus 100 may use the characteristics of the decryption parameters to determine the decryption parameter candidates 971, 972, 973, 974, 975.
  • the property of the decoding parameter may be the range 977 of the decoding parameter.
  • Candidates 971, 972, 973, 974, 975 may be within a range 976 of decryption parameters.
  • the audio decompression apparatus 100 can select one of the decryption parameter candidates 971, 972, 973, 974, and 975 based on the machine learning model.
  • the audio decompression apparatus 100 may apply at least one of the decoding parameter of the current frame and the decoding parameter of the previous frame to the machine learning model to select one of the decoding parameters.
  • the decryption parameter may include a first parameter and a second parameter.
  • the audio decompression apparatus 100 may use the first parameter associated with the second parameter to select one of the candidates of the second parameter.
  • the audio decompression apparatus 100 may obtain the selected decryption parameter 981.
  • the selected decryption parameter 981 may be a more accurate value than the selected decryption parameter 961 of the graph 960. That is, the selected decoding parameter 981 may be closer to the dotted line corresponding to the original audio signal than the selected decoding parameter 961.
  • the audio decompression apparatus 100 may also obtain the decoded audio signal based on the selected decoding parameter 981.
  • FIG. 11 shows a change in the decoding parameter according to an embodiment.
  • the audio restoration apparatus 100 may receive the bit stream.
  • the audio decompression apparatus 100 can obtain decoding parameters based on the bitstream.
  • the audio restoration apparatus 100 can determine the characteristics of the decryption parameter.
  • the characteristic of the decoding parameter may be a sign.
  • the decoding parameter may have a size of 0, and the size of 0 may be a characteristic of a decoding parameter.
  • the decoding parameter may be spectral data.
  • the spectral data may represent the sign of the spectral bin.
  • the spectral data may also indicate whether the spectral bin is zero.
  • Spectral data may be included in the bitstream.
  • the audio restoration apparatus 100 can also generate spectral data based on the bitstream.
  • the decryption parameter may include a first parameter and a second parameter.
  • the audio restoration apparatus 100 can determine the characteristics of the second parameter based on the first parameter.
  • the first parameter may be spectral data.
  • the second parameter may be a spectral bin.
  • the graph 1110 indicates the size of the decoding parameter according to the frequency.
  • the decoding parameter may be a spectral bin.
  • the decoding parameters may have various codes.
  • the decoding parameter 1111 may have a negative sign.
  • the decryption parameter 1113 may have a positive sign.
  • the audio restoration apparatus 100 may determine the sign of the decryption parameter as the characteristics of the decryption parameters 1111 and 1113.
  • Decryption parameter 1112 may have a size of zero.
  • the audio decompression apparatus 100 can determine the size of 0 as a characteristic of the decryption parameter 1112. [
  • the audio decompression apparatus 100 may apply decryption parameters to the machine learning model to determine decrypted decryption parameters.
  • the graph 1130 indicates the size of the reconstructed decoding parameter according to the frequency.
  • the audio decompression apparatus 100 may restore the decoding parameters 1111, 1112, and 1113 to obtain the decompressed decoding parameters 1131, 1132, and 1133.
  • the reconstructed decoding parameters 1131 and 1133 may have different signs from the decoding parameters 1111 and 1113.
  • the recovered decoding parameter 1132 may have a value other than 0, unlike the decoding parameter 1112.
  • the audio decompression apparatus 100 can obtain the corrected decoding parameter by correcting the reconstructed decoding parameter based on the characteristics of the decoding parameter.
  • the audio decompression apparatus 100 can correct the reconstructed decoding parameter based on the sign of the decoding parameter. Referring to the graph 1150, the audio decompression apparatus 100 can obtain the corrected decoding parameters 1151 and 1153 by correcting the signs of the reconstructed decoding parameters 1131 and 1133.
  • the audio decompression apparatus 100 can also obtain the corrected decoding parameter 1152 by correcting the size of the reconstructed decoding parameter 1132 to zero.
  • the audio decompression apparatus 100 can obtain the reconstructed decoding parameters by applying a machine learning model to the characteristics of the decoding parameters and the decoding parameters. That is, the audio decompression apparatus 100 may obtain the reconstructed parameters according to the graph 1150 based on the decoding parameters according to the graph 1110.
  • FIG. 12 shows a block diagram of an audio decompression apparatus 100 according to an embodiment.
  • the audio decompression apparatus 100 may include a codec information derivation unit 1210, an audio signal decoding unit 1220, a bitstream analyzing unit 1230, a decompression method selection unit 1240, and at least one decompression unit.
  • the codec information derivation unit 1210 may correspond to the reception unit 110 of FIG.
  • the codec information derivation unit 1210 may correspond to the codec information derivation unit 210 of FIG.
  • the codec information derivation unit 1210 may receive the bitstream and determine which technique the bitstream is encoded using.
  • the techniques used to encode the original audio may be MP3, AAC, HE-AAC, and the like.
  • the audio signal decoding unit 1220 decodes the audio signal based on the bit stream.
  • the audio signal decoding unit 1220 may correspond to the audio signal decoding unit 230 of FIG.
  • the audio signal decoding unit 1220 may include a lossless decoding unit, an inverse quantization unit, a stereo signal restoration unit, and an inverse transform unit.
  • the audio signal decoding unit 1220 can output the restored audio signal based on the codec information received from the codec information derivation unit 1210.
  • the bitstream analyzing unit 1230 can obtain the decoding parameters for the current frame based on the bitstream.
  • the bitstream analyzing unit 1230 can recognize the characteristics of the restored audio signal based on the decoding parameters.
  • the bitstream analyzing unit 1230 can transmit information on the characteristics of the signal to the restoration method selection unit 1240.
  • the decoding parameter may include at least one of a spectral bin, a scale factor gain, a global gain, a window type, a buffer level, Temporal Noise Shaping (TNS) information, and Perceptual Noise Substitution (PNS) information.
  • a spectral bin a scale factor gain
  • a global gain a global gain
  • a window type a window type
  • a buffer level a temporary noise Shaping
  • PPS Perceptual Noise Substitution
  • the spectral bin may correspond to the magnitude of the signal along the frequency in the frequency domain.
  • the audio encoding apparatus can transmit accurate spectral beans only for a human-sensitive frequency range in order to reduce data. In addition, it is possible to transmit a spectral bean or an inaccurate spectral bean for a high-frequency region which is hard to be heard by human beings or a low-frequency region which is hard for human beings to hear.
  • the audio decompression apparatus 100 may apply a bandwidth extension technique to an area to which the spectral bin is not transmitted.
  • the bitstream analyzing unit 1230 can analyze the spectral bin and determine the frequency region in which the spectral bin is correctly transmitted and the frequency region in which the spectral bin is incorrectly transmitted.
  • the bitstream analyzing unit 1230 can transmit information on the frequency to the restoration method selecting unit 1240.
  • bandwidth extension techniques can generally be applied to high frequency regions.
  • the bitstream analyzer 1230 can determine the minimum frequency value of the frequency domain in which the spectral bin was transmitted incorrectly as the start frequency.
  • the bitstream analyzer 1230 may determine that the bandwidth extension technique should be applied from the start frequency.
  • the bitstream analyzing unit 1230 can transmit the start frequency to the restoration method selecting unit 1240.
  • the scale factor gain and the global gain are values for scaling the spectral bean.
  • the bitstream analyzing unit 1230 can analyze the scale factor gain and the global gain to obtain the characteristics of the reconstructed audio signal. For example, the bitstream analyzing unit 1230 can determine that the current frame is a transient signal when the scale factor gain and the global gain of the current frame change abruptly. Also, the bitstream analyzer 1230 can determine that the frames are stationary signals when there is little change in the scale factor gain and the global gain of the frames. The bitstream analyzing unit 1230 can transmit information on whether the frames are a stationary signal or a transient signal to the restoration method selecting unit 1240. [
  • the bitstream analyzing unit 1230 can determine that the current frame is a stationary signal when the window type of the current frame indicates " long. &Quot; The bitstream analyzing unit 1230 can determine that the current frame is a transient signal when the window type of the current frame indicates " short. &Quot; The bitstream analyzing unit 1230 can transmit information on whether the frames are a stationary signal or a transient signal to the restoration method selecting unit 1240.
  • the buffer level is information on the size of the available bits remaining after coding the frame.
  • the buffer level is used when coding using Variable Bit Rate (VBR). If the frame of the original audio is a stationary signal with no change, the audio encoding apparatus can encode the original audio using fewer bits. However, if the original audio frame is a complicated transient signal, the audio encoding apparatus can encode the original audio using many bits.
  • the audio coding apparatus has residual bits that are obtained by coding the stationary signal, and can be used for coding the transient signal at a later time. That is, a high buffer level of the current frame means that the current frame is a stationary signal. Also, a low buffer level of the current frame means that the current frame is a transient signal.
  • the bitstream analyzing unit 1230 can transmit information on whether the frames are a stationary signal or a transient signal to the restoration method selecting unit 1240.
  • Temporal Noise Shaping (TNS) information is information for reducing pre-echo.
  • TNS Temporal Noise Shaping
  • the start position of an attack signal in the time domain can be known.
  • the attack signal means a loud sound that suddenly appears. Since the bitstream analyzing unit 1230 can know the start position of the attack signal by TNS, the bitstream analyzing unit 1230 can determine that it is a stationary signal before the start position. Further, the bitstream analyzing unit 1230 can determine that it is a transient signal after the start position
  • the Perceptual Noise Substitution (PNS) information indicates information on a hole in the frequency domain.
  • a hole refers to a portion where a spectral bin is not transmitted to save bits of a bit stream, and is filled with random noise upon decoding.
  • the bit stream analyzing unit 1230 may transmit information on the position of the hole to the restoration method selecting unit 1240.
  • the restoration method selection unit 1240 may receive the decoded audio signal and the characteristics of the decoded parameter.
  • the restoration method selection unit 1240 can select a method for restoring the decoded audio signal.
  • the audio signal decoded by one of the at least one decompression unit may be reconstructed based on the selection of the reconstruction method selection unit 1240.
  • the at least one decompression unit may include a first decompression unit 1250, a second decompression unit 1260, and an Nth decompression unit. At least one of the first reconstruction unit 1250, the second reconstruction unit 1260, and the Nth reconstruction unit may use a machine learning model.
  • the machine learning model may be a model generated by mechanically learning at least one of an original audio signal, a decoded audio signal, and a decoding parameter.
  • At least one of the first decompression unit 1250, the second decompression unit 1260 and the Nth decompression unit may include a data acquisition unit 1251, a preprocessor 1252, and a result provision unit 1253.
  • At least one of the first restoration unit 1250, the second restoration unit 1260, and the Nth restoration unit may include the data learning unit 410 of FIG.
  • At least one of the first decompression unit 1250, the second decompression unit 1260 and the Nth decompression unit may receive at least one of the decoded audio signal and the decoding parameter.
  • the characteristics of the decoded parameter may be information on the frequency region in which the spectral bin is correctly transmitted and the frequency region in which the spectral bin is transmitted incorrectly.
  • the reconstruction method selection unit 1240 can determine to restore the decoded audio signal based on at least one of the decoded parameter and the decoded audio signal.
  • the restoration method selection unit 1240 may determine to restore the decoded audio signal using the first restoration unit 1250.
  • the first reconstruction unit 1250 can output the reconstructed audio signal using a machine learning model.
  • the reconstruction method selection unit 1240 may determine to restore the audio signal using the bandwidth extension technique.
  • Bandwidth extension techniques include Spectral Band Replication (SBR).
  • the restoration method selection unit 1240 may determine to restore the decoded audio signal using the second restoration unit 1260. [ The second reconstruction unit 1260 can output the reconstructed audio signal using the band extension technique improved by the machine learning model.
  • the characteristic of the decoded parameter may be information on whether the frame is a stationary signal or a transient signal. If the frame is a stationary signal, the restoration method selection unit 1240 may use the first restoration unit 1250 for the stationary signal. If the frame is a transient signal, the reconstruction method selection unit 1240 may use the second reconstruction unit 1260 for the transient signal. The first reconstructing unit 1250 or the second reconstructing unit 1260 may output the reconstructed audio signal.
  • the characteristic of the decoded parameter may be information on the position of the hole.
  • the decompression method selection unit 1240 can determine to restore the decoded audio signal based on the decoded parameter and the decoded audio signal.
  • the restoration method selection unit 1240 may determine to restore the decoded audio signal using the first restoration unit 1250.
  • the first reconstruction unit 1250 can output the reconstructed audio signal using a machine learning model.
  • the reconstruction method selection unit 1240 may use the second reconstruction unit 1260 for the signals of the positions of the holes.
  • the second reconstruction unit 1260 can output the reconstructed audio signal using a machine learning model.
  • the restoration method selecting unit 1240 can select a method of restoring the decoded audio signal according to the characteristics of the audio signal, so that the audio restoring apparatus 100 can efficiently recover the audio signal.
  • FIG. 13 shows a flowchart of an audio decompression method according to an embodiment
  • the audio decompression apparatus 100 decodes the bitstream to obtain a plurality of decoding parameters for the current frame.
  • the audio decompression apparatus 100 decodes the audio signal based on the plurality of decoding parameters.
  • the audio decompression apparatus 100 selects one of the plurality of machine learning models based on at least one of the plurality of decoding parameters and the decoded audio signal.
  • the audio decompression apparatus 100 reconstructs the decoded audio signal using the selected machine learning model.
  • the audio restoration apparatus 100 according to FIG. 13 and the audio restoration apparatus 100 according to FIG. 3 have a common point in that they can improve the soundness of the decoded audio signal.
  • the audio decompression apparatus 100 shown in FIG. 13 is less dependent on the decoding parameter, the versatility can be high.
  • FIG. 14 shows a flowchart of an audio restoration method according to an embodiment.
  • the codec information derivation unit 1210 can receive the bitstream.
  • the audio signal decoding unit 1220 can output the decoded audio signal based on the bit stream.
  • the bitstream analyzing unit 1230 can acquire the characteristics of the decoding parameters based on the bitstream. For example, the bitstream analyzer 1230 may determine a start frequency of a bandwidth extension based on at least one of a plurality of decoding parameters (step 1410).
  • the audio encoding apparatus can accurately transmit a spectral bin for a frequency region smaller than the frequency f. However, since the frequency region larger than the frequency (f) is a region that is difficult for human beings to hear, the audio encoding apparatus can transmit the spectral bean poorly or not.
  • the codec information derivation unit 1210 can determine the start frequency f of the bandwidth extension based on the spectral bin. The codec information derivation unit 1210 may output the start frequency f of the bandwidth extension to the reconstruction method selection unit 1240.
  • the restoration method selection unit 1240 can select a machine learning model of the decoded audio signal based on the start frequency and the frequency of the decoded audio signal.
  • the restoration method selection unit 1240 may compare the frequency of the decoded audio signal with the start frequency f (step 1420). In addition, the restoration method selecting unit 1240 can select the decoding method based on the comparison.
  • the restoration method selection unit 1240 can select a predetermined machine learning model.
  • the predetermined machine learning model can be pre-trained by the decoded audio signal and the original audio signal.
  • the audio restoration apparatus 100 may restore the decoded audio signal using the machine learning model (step 1430).
  • the restoration method selection unit 1240 may determine to restore the decoded audio signal using the bandwidth extension technique. For example, the restoration method selection unit 1240 may select a machine learning model to which the bandwidth extension technique is applied. The machine learning model may be pre-trained using at least one of a parameter associated with the bandwidth extension technique, a decoded audio signal, and an original audio signal. The audio restoration apparatus 100 may restore the decoded audio signal using the machine learning model to which the bandwidth extension technique is applied (operation 1440).
  • FIG. 15 shows a flowchart of an audio decompression method according to an embodiment.
  • the codec information derivation unit 1210 can receive the bitstream.
  • the audio signal decoding unit 1220 can output the decoded audio signal based on the bit stream.
  • the bitstream analyzing unit 1230 can acquire the characteristics of the decoding parameters based on the bitstream. For example, the bitstream analyzing unit 1230 may obtain the gain A of the current frame based on at least one of the plurality of decoding parameters (Step 1510). In addition, the bitstream analyzing unit 1230 may obtain an average of the gains of the current frame and frames adjacent to the current frame (step 1520).
  • the restoration method selection unit 1240 may compare the difference value between the current frame gain and the average value of the gains with a threshold value (step 1530). Also, the restoration method selection unit 1240 may select a machine learning model for a transient signal when the difference between the gain of the current frame and the average value of the gains is greater than the threshold value. Also, the audio restoration apparatus 100 may restore the decoded audio signal using the machine learning model for the transient signal (step 1550).
  • the restoration method selection unit 1240 can determine whether the window type included in the plurality of decoding parameters is short when the difference between the gain of the current frame and the average value of the gains is smaller than the threshold value ). If the window type is short, the restoration method selection unit 1240 may select a machine learning model for the transient signal (step 1550). The restoration method selection unit 1240 can select a machine learning model for a stationary signal when the window type is not short. The audio decompression apparatus 100 may restore the decoded audio signal using a machine learning model for the stasis signal (step 1560).
  • the machine learning model for the transient signal can be machine-learned based on the original audio signal and the decoded audio signal classified as transients.
  • the machine learning model for the stationary signal can be machine learned based on the original audio signal and the decoded audio signal classified as stationary. Since the stationary signal and the transient signal are different from each other in characteristics, the audio restoration apparatus 100 separately learns the stationary signal and the transient signal, and thus can more efficiently decode the decoded audio signal.
  • the above-described embodiments of the present invention can be embodied in a general-purpose digital computer that can be embodied as a program that can be executed by a computer and operates the program using a computer-readable recording medium.
  • the computer-readable recording medium includes a storage medium such as a magnetic storage medium (e.g., ROM, floppy disk, hard disk, etc.), optical reading medium (e.g., CD ROM,

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 개시는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하여 향상된 음질을 제공하기 위한 오디오 복원 방법 및 장치에 관한 것이다. 오디오 복원 방법은 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 및 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화한다.

Description

기계학습을 이용한 오디오 복원 방법 및 장치
본 명세서는 오디오 복원 방법 및 장치에 관한 것으로 보다 상세하게는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하여 향상된 음질을 제공하기 위한 오디오 복원 방법 및 장치에 관한 것이다.
고음질의 컨텐트를 전송, 재생, 저장할 수 있는 오디오 코덱 기술이 개발되어 왔으며, 현재 초고음질 기술에 의하면 24bit/192khz의 해상도의 오디오를 전송, 재생, 저장이 가능하다. 24bit/192khz의 해상도는 오리지널 오디오를 192khz로 샘플링 하며, 샘플링된 하나의 신호는 24 bit를 사용하여 2^24단계로 표현될 수 있다는 것을 의미한다.
하지만 고음질의 컨텐트를 전송하기 위해서는 고대역폭의 데이터 전송이 필요한 경우가 있다. 또한 고음질의 컨텐트는 서비스가격이 높은 경우가 많고, 고음질 코덱을 사용해야 하기 때문에 로열티 문제가 생기는 경우가 있다. 또한, 고음질 서비스는 최근에 제공되기 시작했으므로, 고음질로 녹음된 음원이 존재하지 않는 경우가 있다. 따라서 저음질의 음원을 고음질로 복원하는 기술의 필요성이 증대되고 있다. 저음질의 음원을 고음질로 복원하기 위해서는 인공지능이 사용될 수 있다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 Rule 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 Rule 기반 스마트 시스템은 점차 딥러닝 기반 인공지능 시스템으로 대체되고 있다.
인공지능 기술은 기계학습(딥러닝) 및 기계학습을 활용한 요소 기술들로 구성된다. 기계학습은 입력 데이터들의 특징을 스스로 분류/학습하는 알고리즘 기술이며, 요소기술은 딥러닝 등의 기계학습 알고리즘을 활용하여 인간 두뇌의 인지, 판단 등의 기능을 모사하는 기술로서, 언어적 이해, 시각적 이해, 추론/예측, 지식 표현, 동작 제어 등의 기술 분야로 구성된다.
인공지능 기술이 응용되는 다양한 분야는 다음과 같다. 언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리, 기계 번역, 대화시스템, 질의 응답, 음성 인식/합성 등을 포함한다. 시각적 이해는 사물을 인간의 시각처럼 인식하여 처리하는 기술로서, 객체 인식, 객체 추적, 영상 검색, 사람 인식, 장면 이해, 공간 이해, 영상 개선 등을 포함한다. 추론 예측은 정보를 판단하여 논리적으로 추론하고 예측하는 기술로서, 지식/확률 기반 추론, 최적화 예측, 선호 기반 계획, 추천 등을 포함한다. 지식 표현은 인간의 경험정보를 지식데이터로 자동화 처리하는 기술로서, 지식 구축(데이터 생성/분류), 지식 관리(데이터 활용) 등을 포함한다. 동작 제어는 차량의 자율 주행, 로봇의 움직임을 제어하는 기술로서, 움직임 제어(항법, 충돌, 주행), 조작 제어(행동 제어) 등을 포함한다.
본 개시는 오리지널 오디오와 오디오 코덱의 다양한 복호화 파라미터들을 이용하여 기계학습을 수행하여 복원된 복호화 파라미터들을 획득한다. 또한, 본 개세는 복원된 복호화 파라미터들을 이용하여 더 높은 음질의 오디오를 복원할 수 있다.
본 개시는 비트스트림으로부터 획득된 복호화 파라미터 또는 오디오 신호를 기계학습을 이용하여 복원하는 방법 및 장치를 제공한다.
본 개시의 일 실시예에 따른 오디오 복원 방법은 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하는 단계, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하는 단계, 및 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 오디오 신호를 복호화하는 단계는, 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하는 단계, 및 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 제 2 파라미터의 특성을 결정하는 단계는 제 1 파라미터에 기초하여, 제 2 파라미터의 범위를 결정하는 단계를 포함하고, 보정된 제 2 파라미터를 획득하는 단계는 복원된 제 2 파라미터가 범위에 있지 않을 경우, 복원된 제 2 파라미터와 가장 가까운 범위의 값을 보정된 제 2 파라미터로 획득하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 제 2 파라미터의 특성을 결정하는 단계는, 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 제 2 파라미터의 특성을 결정하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 복원된 제 2 파라미터를 획득하는 단계는, 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하는 단계, 및 기계학습모델에 기초하여 제 2 파라미터의 후보들 중 하나를 선택하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 복원된 제 2 파라미터를 획득하는 단계는, 이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 현재 프레임의 복원된 제 2 파라미터를 획득하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델은 오리지널 오디오 신호 및 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 한다.
본 개시의 다른 실시예에 따른 오디오 복원 방법는, 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계, 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하는 단계, 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하는 단계, 및 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원하는(reconstructing) 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델은 복호화된 오디오 신호 및 오리지널 오디오 신호를 기계학습하여 생성되는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델을 선택하는 단계는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정하는 단계, 및 시작 주파수 및 복호화된 오디오 신호의 주파수에 기초하여 복호화된 오디오 신호의 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 방법에 따르면, 기계학습모델을 선택하는 단계는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인을 획득하는 단계, 현재 프레임 및 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득하는 단계, 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택하는 단계, 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 작은 경우, 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정하는 단계, 윈도우 타입이 쇼트인 경우 트랜지언트 신호를 위한 기계학습모델을 선택하는 단계, 및 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치는, 수신된 비트스트림을 저장하는 메모리, 및 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되며 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 적어도 하나의 프로세서를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는, 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하고, 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 제 2 파라미터의 특성을 결정하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하고, 기계학습모델에 기초하여 제 2 파라미터의 후보들 중 하나를 선택하여 복원된 제 2 파라미터를 획득하 는 단계를 포함하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 현재 프레임의 복원된 제 2 파라미터를 획득하는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치에 따르면, 적어도 하나의 프로세서는 기계학습모델은 오리지널 오디오 신호 및 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 오디오 복원 장치는, 수신된 비트스트림을 저장하는 메모리, 및 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하고, 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하고, 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원하는(reconstructing) 적어도 하나의 프로세서를 포함하는 것을 특징으로 한다.
또한, 상술한 바와 같은 오디오 복원 방법을 구현하기 위한 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.
도 1은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
도 2은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
도 3는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
도 4은 일 실시예에 따른 기계학습에 대한 블록도를 도시한다.
도 5는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.
도 6는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.
도 7는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
도 8은 일 실시예에 따른 복호화 파라미터를 도시한다.
도 9은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.
도 10은 일 실시예에 따라 비트의 수를 늘린 경우 복호화 파라미터의 변화를 도시한다.
도 11은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.
도 12 는 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
도 13은 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다
도 14는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
도 15는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시가 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다. 또한 복수의 표현은 문맥상 명백하게 복수인 것으로 특정하지 않는 한, 단수의 표현을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어 또는 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
본 개시의 일 실시예에 따르면 "부"는 프로세서 및 메모리로 구현될 수 있다. 용어 "프로세서" 는 범용 프로세서, 중앙 처리 장치 (CPU), 마이크로프로세서, 디지털 신호 프로세서 (DSP), 제어기, 마이크로제어기, 상태 머신, 및 등을 포함하도록 넓게 해석되어야 한다. 몇몇 환경에서는, "프로세서" 는 주문형 반도체 (ASIC), 프로그램가능 로직 디바이스 (PLD), 필드 프로그램가능 게이트 어레이 (FPGA), 등을 지칭할 수도 있다. 용어 "프로세서" 는, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들의 조합, DSP 코어와 결합한 하나 이상의 마이크로프로세서들의 조합, 또는 임의의 다른 그러한 구성들의 조합과 같은 처리 디바이스들의 조합을 지칭할 수도 있다.
용어 "메모리" 는 전자 정보를 저장 가능한 임의의 전자 컴포넌트를 포함하도록 넓게 해석되어야 한다. 용어 메모리는 임의 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 비-휘발성 임의 액세스 메모리 (NVRAM), 프로그램가능 판독-전용 메모리 (PROM), 소거-프로그램가능 판독 전용 메모리 (EPROM), 전기적으로 소거가능 PROM (EEPROM), 플래쉬 메모리, 자기 또는 광학 데이터 저장장치, 레지스터들, 등과 같은 프로세서-판독가능 매체의 다양한 유형들을 지칭할 수도 있다. 프로세서가 메모리에 메모리로부터 정보를 판독하고/하거나 메모리에 정보를 기록할 수 있다면 메모리는 프로세서와 전자 통신 상태에 있다고 불린다. 프로세서에 집적된 메모리는 프로세서와 전자 통신 상태에 있다.
아래에서는 첨부한 도면을 참고하여 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 개시를을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
고음질의 컨텐트는 서비스가격이 높은 경우가 많고, 고음질 코덱을 사용해야 하기 때문에 로열티 문제가 생기는 경우가 있다. 또한, 고음질 서비스는 최근에 제공되기 시작했으므로, 고음질로 녹음된 오디오가 존재하지 않는 경우가 있다. 따라서 저음질로 부호화된 오디오를 고음질로 복원하는 기술의 필요성이 증대되고 있다. 저음질로 부호화된 오디도를 고음질로 복원하기 위해서 사용될 수 있는 방법들 중 하나는 기계학습을 사용하는 방법이다. 이하에서는 코덱의 복호화 파라미터들과 기계학습을 통하여 복호화된 오디오의 음질을 향상시키는 방법을 도 1 내지 도 15와 함께 설명한다.
도 1은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
오디오 복원 장치(100)는 수신부(110) 및 복호화부(decoder)(120)를 포함할 수 있다. 수신부(110)는 비트스트림을 수신할 수 있다. 복호화부(120)는 수신된 비트스트림에 기초하여 복호화된 오디오 신호를 출력할 수 있다. 이하에서는 도 2와 함께 오디오 복원 장치(100)를 보다 자세하게 설명한다.
도 2은 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
오디오 복원 장치(100)는 코덱 정보 도출부(210), 적어도 하나의 복호화부를 포함할 수 있다. 코덱 정보 도출부(210)는 도 1 의 수신부(110)에 동일 대응될 수 있다. 적어도 하나의 복호화부는 제 1 복호화부(221), 제 2 복호화부(222) 및 제 N 복호화부 중 적어도 하나를 포함할 수 있다. 제 1 복호화부(221), 제 2 복호화부(222) 및 제 N 복호화부 중 적어도 하나는 도 1 의 복호화부(120)에 동일대 대응될 수 있다.
코덱 정보 도출부(210)는 비트스트림을 수신할 수 있다. 비트스트림은 부호화 장치에서 생성될 수 있다. 부호화 장치는 오리지널 오디오를 부호화하여 비트스트림으로 압축할 수 있다. 코덱 정보 도출부(210)는 비트스트림을 부호화부 또는 저장매체로부터 유무선 통신을 통하여 수신할 수 있다. 코덱 정보 도출부(210)는 비트스트림을 메모리에 저장할 수 있다. 코덱 정보 도출부(210)는 비트스트림으로부터 다양한 정보를 추출할 수 있다. 다양한 정보는 코덱 정보를 포함할 수 있다. 코덱 정보는 오리지널 오디오가 부호화되기 위하여 사용된 기술에 대한 정보를 포함할 수 있다. 오리지널 오디오가 부호화되기 위하여 사용된 기술에는 MP3, AAC, HE-AAC등이 있을 수 있다. 코덱 정보 도출부(210)는 코덱 정보에 기초하여 적어도 하나의 복호화부 중 하나의 복호화부를 선택할 수 있다.
적어도 하나의 복호화부는 제 1 복호화부(221), 제 2 복호화부(222), 제N복호화부(223)를 포함할 수 있다. 적어도 하나의 복호화부 중 코덱 정보 도출부(210)에 의하여 선택된 복호화부가 비트스트림에 기초하여 오디오 신호를 복호화할 수 있다. 이하에서는 설명의 편의를 위하여 제N복호화부(223)에 대하여 설명한다. 제 1 복호화부(221) 및 제 2 복호화부(222)는 제N복호화부(223)와 유사한 구조를 가질 수 있다.
제N복호화부(223)는 오디오 신호 복호화부(230)를 포함할 수 있다. 오디오 신호 복호화부(230)는 무손실 복호화부(231), 역양자화부(232), 스테레오 복원부(233) 및 역변환부(234)를 포함할 수 있다.
무손실 복호화부(231)는 비트스트림을 수신할 수 있다. 무손실 복호화부(231)는 비트스트림을 복호화하여 적어도 하나의 복호화 파라미터를 출력할 수 있다. 무손실 복호화부(231)는 정보의 손실 없이 비트스트림을 복호화할 수 있다. 역양자화부(232)는 무손실 복호화부로부터 적어도 하나의 복호화 파라미터를 수신할 수 있다. 역양자화부(232)는 적어도 하나의 복호화 파라미터를 역양자화할 수 있다. 역양자화된 복호화 파라미터는 모노 신호일 수 있다. 스테레오 신호 복원부(233)는 역양자화된 복호화 파라미터에 기초하여 스테레오 신호를 복원할 수 있다. 역변환부(234)는 주파수 도메인의 스테레오 신호를 변환하여 시간 도메인의 복호화된 오디오 신호를 출력할 수 있다.
복호화 파라미터는 스펙트럴 빈(Spectral bin), 스케일 팩터 게인(Scalefactor gain), 글로벌 게인(Global gain), 스펙트럴 데이터(Spectral data), 윈도우 타입(window type) 중 적어도 하나를 포함할 수 있다. 복호화 파라미터는 MP3, AAC, HE-AAC 와 같은 코덱에서 사용되는 파라미터 일 수 있다. 하지만 복호화 파라미터는 특정 코덱에 한정되는 것은 아니며, 명칭은 달라도 유사한 기능을 하는 복호화 파라미터가 있을 수 있다. 복호화 파라미터는 프레임 단위로 전송될 수 있다. 프레임은 시간 도메인에서 오리지널 오디오 신호를 나눈 단위이다.
스펙트럴 빈은 주파수 도메인에서 주파수에 따른 신호의 크기에 대응될 수 있다.
스케일 팩터 게인 및 글로벌 게인은 스펙트럴 빈을 스케일하기 위한 값이다. 스케일 팩터는 하나의 프레임에 포한된 복수의 밴드들 별로 다른 값을 가질 수 있다.
글로벌 게인은 하나의 프레임에서 모든 밴드에 대하여 동일한 값을 가질 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈, 스케일 팩터 게인 및 글로벌 게인을 곱하여 주파수 도메인의 오디오 신호를 획득할 수 있다.
스펙트럴 데이터는 스펙트럴 빈의 특성을 나타내는 정보이다. 스펙트럴 데이터는 스펙트럴 빈의 부호를 나타낼 수 있다. 또한 스펙트럴 데이터는 스펙트럴 빈이 0인지 여부를 나타낼 수 있다.
윈도우 타입은 오리지널 오디오 신호의 특성(characteristic)을 나타낼 수 있다. 시간 도메인의 오리지널 오디오 신호를 주파수 도메인으로 변환하기 위한 시간 간격에 대응될 수 있다. 오리지널 오디오 신호가 변화가 거의 없는 스테이셔너리 신호인 경우 윈도우 타입은 "긺(long)"을 나타낼 수 있다. 오리지널 오디오 신호가 변화가 심한 트랜지언트(transient) 신호인 경우 윈도우 타입은 "짧음(short)"를 나타낼 수 있다.
제N복호화부(123)는 파라미터 특성 결정부(240) 및 파라미터 복원부(250) 중 적어도 하나를 포함할 수 있다. 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터를 수신하여 적어도 하나의 복호화 파라미터의 특성을 결정할 수 있다. 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터의 특성을 결정하기 위하여 기계학습을 이용할 수 있다. 또한 파라미터 특성 결정부(240)는 적어도 하나의 복호화 파라미터에 포함된 제 2 복호화 파라미터의 특성을 결정하기 위하여 적어도 하나의 복호화 파라미터에 포함된 제 1 복호화 파라미터를 이용할 수 있다. 또한 파라미터 특성 결정부(240)는 복호화 파라미터의 특성 및 복호화 파라미터 중 적어도 하나를 파라미터 복원부(250)로 출력할 수 있다. 파라미터 특성 결정부(240)에 대해서는 도 4 내지 도 6와 함께 자세히 설명한다.
본 개시의 일 실시예에 따르면 파라미터 복원부(250)는 무손실 복호화부(231)로부터 적어도 하나의 복호화 파라미터를 수신할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터를 복원할 수 있다. 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터를 복원하기 위하여 기계학습(mechine learning) 모델을 이용할 수 있다. 오디오 신호 복호화부(230)는 복원된 적어도 하나의 복호화 파라미터에 기초하여 오리지널 오디오에 가까운 복호화된 오디오 신호를 출력할 수 있다.
본 개시의 다른 실시예에 따르면 파라미터 복원부(250)는 파라미터 특성 결정부(240)로부터 적어도 하나의 복호화 파라미터 및 복호화 파라미터의 특성을 수신할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터 및 복호화 파라미터의 특성에 기계학습모델을 적용하여 복원된 파라미터를 출력할 수 있다. 또한 파라미터 복원부(250)는 적어도 하나의 복호화 파라미터에 기계학습모델을 적용하여 복원된 파라미터를 출력할 수 있다. 파라미터 복원부(250)는 파라미터 특성에 기초하여 복원된 파라미터를 보정할 수 있다. 파라미터 복원부(250)는 보정된 파라미터를 출력할 수 있다. 오디오 신호 복호화부(130)는 보정된 파라미터에 기초하여 오리지널 오디오에 가까운 복호화된 오디오 신호를 출력할 수 있다.
파라미터 복원부(250)는 복원된 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나를 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)로 출력할 수 있다. 파라미터 특성 결정부(240) 및 파라미터 복원부(250) 중 적어도 하나는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나를 수신할 수 있다. 파라미터 특성 결정부(240)는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나에 기초하여 현재 프레임의 파라미터 특성을 출력할 수 있다. 파라미터 복원부(250)는 이전 프레임의 적어도 하나의 복호화 파라미터 및 보정된 파라미터 중 적어도 하나에 기초하여 현재 프레임의 복원된 파라미터를 획득할 수 있다.
이하 도 3 내지 도 11을 참조하여 파라미터 특성 결정부(240) 및 파라미터 복원부(250)에 대하여 자세히 설명한다.
도 3는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
단계 310에서, 오디오 복원 장치(100)는 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득할 수 있다. 단계 320에서, 오디오 복원 장치(100)는 제 2 파라미터의 특성을 결정할 수 있다. 단계 330에서, 오디오 복원 장치(100)는 기계학습모델을 이용하여 복원된 제 2 파라미터를 획득할 수 있다. 단계 340에서, 오디오 복원 장치(100)는 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화 할 수 있다.
오디오 복원 장치(100)는 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득할 수 있다(310 단계). 무손실 복호화부(231)는 비트스트림을 복호화하여 복수의 복호화 파라미터들을 획득할 수 있다. 무손실 복호화부(231)는 복호화 파라미터를 역양자화부(232), 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)로 출력할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터를 분석하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다. 본 개시의 일 실시예에 따라, 오디오 복원 장치(100)는 미리 결정된 규칙에 의하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다. 다만 이에 한정되는 것은 아니며, 비트스트림은 복호화 파라미터가 어디로 출력되어야 하는지에 대한 정보를 포함하고 있을 수 있다. 오디오 복원 장치(100)는 비트스트림에 포함된 정보에 기초하여 복호화 파라미터를 어디로 출력할지 결정할 수 있다.
오디오 복원 장치(100)는 복수의 복호화 파라미터들 중 적어도 하나의 복호화 파라미터를 수정하지 않아도 높은 음질을 보장할 수 있는 경우, 적어도 하나의 복호화 파라미터를 수정하지 않을 수 있다. 무손실 복호화부(231)는 적어도 하나의 복호화 파라미터를 역양자화부(232)로 출력할 수 있다. 적어도 하나의 파라미터는 파라미터 특성 결정부(240) 또는 파라미터 복원부(250)를 거치지 않으므로 수정되지 않을 수 있다. 오디오 복원 장치(100)는 일부 복호화 파라미터에 대하여 파라미터 특성 결정부(240) 및 파라미터 복원부(250)를 사용하지 않으므로 컴퓨팅 자원을 효율적으로 사용할 수 있다.
본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 적어도 하나의 복호화 파라미터를 수정할 것을 결정할 수 있다. 무손실 복호화부(231)는 적어도 하나의 복호화 파라미터를 파라미터 복원부(250)로 출력할 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용하여 복호화 파라미터에 기초하여 복원된 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 오디오 신호를 복호화할 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 향상된 음질의 오디오 신호를 제공할 수 있다. 기계학습모델에 대해서는 도 4와 함께 보다 자세히 설명한다.
본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 복수의 복호화 파라미터들을 수정할 것을 결정할 수 있다. 무손실 복호화부(231)는 복수의 복호화 파라미터들을 파라미터 특성 결정부(240)로 출력할 수 있다.
파라미터 특성 결정부(240)는 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 복수의 복호화 파라미터들에 포함되는 제 2 파라미터의 특성을 결정할 수 있다(320 단계). 제 2 파라미터는 제 1 파라미터에 연관되어 있을 수 있다. 또한, 제 1 파라미터는 제 2 파라미터의 특성을 직접적 또는 간접적으로 나타낼 수 있다. 예를 들어 제 1 파라미터는 제 2 파라미터에 대한 스케일 팩터 게인, 글로벌 게인, 스펙트럴 데이터 및 윈도우 타입 중 적어도 하나 일 수 있다.
제 1 파라미터는 제 2 파라미터에 인접한 파라미터일 수 있다. 또한, 제 1 파라미터는 제 2 파라미터와 동일한 밴드 또는 프레임에 포함된 파라미터일 수 있다. 또한 제 1 파라미터는 제 2 파라미터가 포함된 밴드 또는 프레임에 인접한 밴드 또는 프레임에 포함된 파라미터일 수 있다.
또한, 본 개시는 설명의 편의를 위하여 제 1 파라미터 및 제 2 파라미터를 구분하였으나, 제 1 파라미터는 제 2 파라미터와 동일할 수 있다. 즉, 파라미터 특성 결정부(240)는 제 2 파라미터 자체로부터 제 2 파라미터의 특성을 결정할 수 있다.
파라미터 복원부(250)는 복수의 복호화 파라미터들, 제 2 파라미터 및 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득할 수 있다(330 단계). 오디오 복원 장치(100)는 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화할 수 있다(340 단계). 기계학습모델을 적용하여 복원된 제 2 파라미터에 기초한 복호화된 오디오 신호는 뛰어난 음질을 제공할 수 있다. 기계학습모델에 대해서는 도 4과 함께 보다 자세히 설명한다.
도 4은 일 실시예에 따른 기계학습에 대한 블록도를 도시한다.
데이터학습부(410) 및 데이터적용부(420)는 서로 다른 시간에 수행될 수 있다. 예를 들어 데이터학습부(410)가 데이터적용부(420)보다 미리 동작할 수 있다. 파라미터 특성 결정부(240) 및 파라미터 복원부(250)는 데이터학습부(410) 및 데이터적용부(420) 중 적어도 하나를 포함할 수 있다.
도 4를 참조하면, 일 실시예에 따른 데이터학습부(410)는 데이터획득부(411), 전처리부(412) 및 기계학습부(413)를 포함할 수 있다. 데이터학습부(410)가 입력데이터(431)를 수신하여 기계학습모델(432)을 출력하는 것을 트레이닝 과정이라고 할 수 있다.
데이터획득부(411)는 입력데이터를 수신할 수 있다. 입력데이터(431)는 오리지널 오디오 신호 및 복호화 파라미터들 중 적어도 하나를 포함할 수 있다. 오리지널 오디오 신호는 고음질로 녹음된 오디오 신호일 수 있다. 오리지널 오디오 신호는 주파수 도메인 또는 시간 도메인에서 표현될 수 있다. 복호화 파라미터들은 오리지널 오디오 신호를 부호화한 결과일 수 있다. 오리지널 오디오 신호를 부호화하면서 일부 정보가 손실될 수 있다. 즉, 복수의 복호화 파라미터들로부터 복호화된 오디오 신호는 오리지널 오디오 신호에 비하여 저음질일 수 있다.
전처리부(412)는 입력데이터(431)가 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 전처리부(412)는 후술할 기계학습부(413)가 입력데이터(431)를 이용할 수 있도록, 입력데이터를 기 설정된 포맷으로 가공할 수 있다. 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 포맷을 가지고 있는 경우, 오리지널 오디오 신호 또는 복수의 복호화 파라미터들을 변환하여 포맷을 맞출 수 있다. 예를 들어, 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 코덱에 관련된 경우 서로 호환되도록 오리지널 오디오 신호 및 복수의 복호화 파라미터들의 코덱정보를 수정할 수 있다. 또한 오리지널 오디오 신호 및 복수의 복호화 파라미터들이 서로 다른 도메인 상에서 표현된 경우, 동일 도메인 상에서 표현되도록 수정할 수 있다.
전처리부(412)는 입력데이터(431) 중에서 학습에 필요한 데이터를 선택할 수 있다. 선택된 데이터는 기계학습부(413)에 제공될 수 있다. 전처리부(412)는 기 설정된 기준에 따라, 전처리된 데이터 중에서 학습에 필요한 데이터를 선택할 수 있다. 또한, 전처리부(312)는 후술할 기계학습부(413)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다. 입력데이터가 방대한 경우 데이터 처리에 시간이 많이 걸리므로, 입력데이터(431) 중 일부 데이터를 선택하는 경우 데이터 처리의 효율성을 높일 수 있다.
기계학습부(413)는 선택된 입력데이터에 기초하여 기계학습모델(432)을 출력할 수 있다. 선택된 입력데이터는 오리지널 오디오 신호 복수의 복호화 파라미터들 중 적어도 하나일 수 있다. 기계학습모델(432)은 복수의 복호화 파라미터 중 적어도 하나의 파라미터를 복원하기 위한 기준일 수 있다. 기계학습부(413)는 복원된 복호화 파라미터에 의하여 복호화된 오디오 신호와 오리지널 오디오 신호의 차이가 최소가 되도록 학습할 수 있다. 또한, 기계학습부(413)는 복수의 복호화 파라미터 중 적어도 하나의 파라미터를 복원하기 위하여 어떤 입력데이터(431)를 이용해야 하는 지에 대한 기준을 학습할 수 있다.
또한, 기계학습부(413)는 입력데이터(431)를 이용하여 기계학습모델을 학습할 수 있다. 이 경우, 기계학습모델(432)은 프리-트레이닝된(pre-trained) 모델일 수 있다. 예를 들어, 기계학습모델(432)은 기본 학습 데이터(예를 들어, 적어도 하나의 복호화 파라미터)를 입력 받아 프리-트레이닝된 모델일 수 있다. 기본 학습 데이터는 프리-트레이닝된 모델을 구축하기 위한 초기 데이터일 수 있다.
기계학습모델(432)은, 인식 모델의 적용 분야, 학습의 목적 또는 장치의 컴퓨터 성능 등을 고려하여 선택될 수 있다. 기계학습모델은, 예를 들어, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 예컨대, DNN(Deep Neural Network), RNN(Recurrent Neural Network), BRDNN(Bidirectional Recurrent Deep Neural Network)과 같은 모델이 기계학습모델로서 사용될 수 있으나, 이에 한정되지 않는다.
다양한 실시예에 따르면, 기계학습부(414)는 미리 구축된 기계학습모델이 복수 개가 존재하는 경우, 입력데이터(431) 또는 기본 학습 데이터와 관련성이 큰 데이터 인식 모델을 학습할 데이터 인식 모델로 결정할 수 있다. 이 경우, 입력데이터(431) 또는 기본 학습 데이터는 데이터의 타입 별로 기 분류되어 있을 수 있으며, 데이터 인식 모델은 데이터의 타입 별로 미리 구축되어 있을 수 있다. 예를 들어, 입력데이터(431) 또는 기본 학습 데이터는 데이터가 생성된 지역, 데이터가 생성된 시간, 데이터의 크기, 데이터의 장르, 데이터의 생성자, 데이터 내의 오브젝트의 종류, 데이터의 포멧 등과 같은 다양한 기준으로 기 분류되어 있을 수 있다.
또한, 기계학습부(413)는, 예를 들어, 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient descent)을 포함하는 학습 알고리즘 등을 이용하여 데이터 인식 모델을 학습시킬 수 있다.
또한, 기계학습부(413)는, 예를 들어, 입력데이터(431)를 입력 값으로 하는 지도 학습(supervised learning) 을 통하여, 기계학습모델(432)을 학습시킬 수 있다. 또한, 기계학습부(413)는, 예를 들어, 별다른 지도없이 상황 판단을 위해 필요한 데이터의 종류를 스스로 학습함으로써, 상황 판단을 위한 기준을 발견하는 비지도 학습(unsupervised learning)을 통하여, 기계학습모델을 학습시킬 수 있다. 또한, 기계학습부(413)는, 예를 들어, 학습에 따른 상황 판단의 결과가 올바른 지에 대한 피드백을 이용하는 강화 학습(reinforcement learning)을 통하여, 기계학습모델(432)을 학습시킬 수 있다.
기계학습부(413)는 이하와 같은 수식 1 및 수식 2 을 이용하여 기계학습을 수행할 수 있다.
[수식1]
Figure PCTKR2017011786-appb-I000001
[수식2]
Figure PCTKR2017011786-appb-I000002
여기서, x는 기계학습모델에 이용되는 선택된 입력데이터고, y는 각 후보들의 확률이고, i는 후보들의 인덱스이고, j는 기계학습모델에 이용되는 선택된 입력데이터의 인덱스이고, W는 입력데이터에 대한 가중치 매트릭스이고, b는 편향 매개변수이다.
기계학습부(413)는 임의의 가중치(W) 및 임의의 편향 매개 변수(b)를 이용하여 예측된 데이터를 획득할 수 있다. 예측된 데이터는 복원된 복호화 파라미터일 수 있다. 기계학습부(413)는 y의 코스트를 계산할 수 있다. 코스트는 실제데이터와 예측된 데이터의 차이일 수 있다. 예를 들어 코스트는 오리지널 오디오 신호에 관련된 데이터와 복원된 복호화 파라미터와 관련된 데이터의 차이일 수 있다. 기계학습부(413)는 코스트가 최소가 되도록 가중치(W) 및 편향 매개 변수(b)를 업데이트 할 수 있다.
기계학습부(413)는 최소의 코스트일 때의 가중치 및 편향 매개 변수를 획득할 수 있다. 기계학습부(413)는 최소의 코스트일 때의 가중치 및 편향 매개 변수를 매트릭스로 나타낼 수 있다. 기계학습부(413)는 코스트가 최소일 때의 가중치 및 매개 변수 중 적어도 하나를 이용하여 기계학습모델(432)을 획득할 수 있다. 기계학습모델(432)은 가중치의 매트릭스 및 매개 변수의 매트릭스에 대응될 수 있다.
또한, 기계학습모델(432)이 학습되면, 기계학습부(313)는 학습된 기계학습모델(432)을 저장할 수 있다. 이 경우, 기계학습부(413)는 학습된 기계학습모델(432)을 데이터 데이터학습부(410)의 메모리에 저장할 수 있다. 또는, 기계학습부(413)는 학습된 기계학습모델(432)을 후술할 데이터적용부(420)의 메모리에 저장할 수 있다. 또는, 기계학습부(413)는 학습된 기계학습모델(432)을 전자 장치 또는 유선 또는 무선 네트워크로 연결되는 서버의 메모리에 저장할 수도 있다.
이 경우, 학습된 기계학습모델(432)이 저장되는 메모리는, 예를 들면, 전자 장치의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 함께 저장할 수도 있다. 또한, 메모리는 소프트웨어 및/또는 프로그램을 저장할 수도 있다. 프로그램은, 예를 들면, 커널, 미들웨어, 어플리케이션 프로그래밍 인터페이스(API) 및/또는 어플리케이션 프로그램(또는 "어플리케이션") 등을 포함할 수 있다.
모델 평가부(미도시)는 기계학습모델(432)에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 결과가 소정 기준을 만족하지 못하는 경우, 기계학습부(413)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 기계학습모델(432)을 평가하기 위한 기 설정된 데이터일 수 있다.
예를 들어, 모델 평가부(미도시)는 평가 데이터에 대한 학습된 기계학습모델을 이용한 결과 중에서, 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정된 임계치를 초과하는 경우 소정 기준을 만족하지 못한 것으로 평가할 수 있다. 예컨대, 소정 기준이 비율 2%로 정의되는 경우, 학습된 기계학습모델이 총 1000개의 평가 데이터 중의 20개를 초과하는 평가 데이터에 대하여 잘못된 결과를 출력하는 경우, 모델 평가부는 학습된 기계학습모델(432)이 적합하지 않은 것으로 평가할 수 있다.
한편, 학습된 기계학습모델이 복수 개가 존재하는 경우, 모델 평가부는 각각의 학습된 기계학습모델에 대하여 소정 기준을 만족하는지를 평가하고, 소정 기준을 만족하는 모델을 최종 기계학습모델로서 결정할 수 있다. 이 경우, 소정 기준을 만족하는 모델이 복수 개인 경우, 모델 평가부는 평가 점수가 높은 순으로 미리 설정된 어느 하나 또는 소정 개수의 모델을 최종 기계학습모델(432)로서 결정할 수 있다.
한편, 데이터학습부(410) 내의 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터획득부(411), 전처리부(412), 기계학습부(413) 및 모델 평가부 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
도 4을 참조하면, 일부 실시예에 따른 데이터 데이터적용부(420)는 데이터획득부(421), 전처리부(422), 결과제공부(423)를 포함할 수 있다. 데이터 데이터적용부(420)가 입력데이터(441) 및 기계학습모델(432)을 수신하여 출력 데이터(442)를 출력하는 것을 테스트 과정이라고 할 수 있다.
데이터획득부(421)는 입력데이터를 획득할 수 있다. 입력데이터(441)는 오디오 신호를 복호화하기 위한 적어도 하나의 복호화 파라미터를 포함할 수 있다. 전처리부(422)는 입력데이터(441)가 이용될 수 있도록, 입력데이터(441)를 전처리할 수 있다. 전처리부(422)는 후술할 결과제공부(423)가 입력데이터(441)를 이용할 수 있도록, 입력데이터(441)를 기 설정된 포맷으로 가공할 수 있다.
전처리부(422)는 전처리된 입력데이터 중에서 결과제공부(423)에서 사용할 데이터를 선택할 수 있다. 전처리부(422)는 전처리된 입력데이터 중 오디오 신호의 음질을 향상시키기 위해 이용할 적어도 하나의 복호화 파라미터를 선택할 수 있다. 선택된 데이터는 결과제공부(423)에게 제공될 수 있다. 전처리부(422)는 오디오 신호의 음질을 향상시키기 위한 설정된 기준에 따라, 전처리된 입력데이터 중에서 일부 또는 전부를 선택할 수 있다. 또한, 전처리부(422)는 기계학습부(413)에 의한 학습에 의해 기 설정된 기준에 따라 데이터를 선택할 수도 있다.
결과제공부(423)는 전처리부(422)에 의해 선택된 데이터를 기계학습모델(432)에 적용하여 출력 데이터(442)를 출력할 수 있다. 출력된 데이터(442)는 향상된 음질을 제공하기 위한 복원된 복호화 파라미터일 수 있다. 오디오 복원 장치(100)는 복원된 복호화 파라미터에 기초하여 오리지널 오디오 신호에 가까운 복호화된 오디오 신호를 출력할 수 있다.
또한 결과제공부(423)는 출력 데이터(442)를 전처리부(422)에 제공할 수 있다. 전처리부는 출력 데이터(442)를 전처리기하고, 결과제공부(423)에 제공할 수 있다. 예를 들어 출력 데이터(442)는 이전 프레임의 복원된 복호화 파라미터일 수 있다. 결과제공부(423)는 이전 프레임에 대한 출력 데이터(442)를 전처리부(422)에 제공할 수 있다. 전처리부(422)는 현재 프레임의 선택된 복호화 파라미터와 함께 이전 프레임의 복원된 복호화 파라미터를 결과제공부(423)에 제공할 수 있다. 결과제공부(423)는 현재 프레임의 복원된 복호화 파라미터 뿐 아니라 이전 프레임에 대한 정보를 반영하여 현재 프레임에 대한 출력 데이터(442)를 생성할 수 있다. 현재 프레임에 대한 출력 데이터(442)는 현재 프레임의 복원된 복호화 파라미터 또는 보정된 복호화 파라미터 중 적어도 하나 일 수 있다. 오디오 복원 장치(100)는 현재 프레임에 대한 출력 데이터(442)에 기초하여 보다 향상된 음질의 오디오를 제공할 수 있다.
모델 갱신부(미도시)는 결과제공부(423)에 의해 제공되는 출력 데이터(342)에 대한 평가에 기초하여, 기계학습모델(432)이 갱신되도록할 수 있다. 예를 들어, 모델 갱신부는 결과제공부(423)에 의해 제공되는 출력 데이터(442)를 기계학습부(413)에게 제공함으로써, 기계학습부(413)가 기계학습모델(432)을 갱신하도록 할 수 있다.
한편, 데이터적용부(420) 내의 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는, 적어도 하나의 하드웨어 칩 형태로 제작되어 전자 장치에 탑재될 수 있다. 예를 들어, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는 인공 지능(AI; artificial intelligence)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 또는 기존의 범용 프로세서(예: CPU 또는 application processor) 또는 그래픽 전용 프로세서(예: GPU)의 일부로 제작되어 전술한 각종 전자 장치에 탑재될 수도 있다.
또한, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부는 하나의 전자 장치에 탑재될 수도 있으며, 또는 별개의 전자 장치들에 각각 탑재될 수도 있다. 예를 들어, 데이터획득부(421), 전처리부(422), 인식 결과제공부(423) 및 모델 갱신부 중 일부는 전자 장치에 포함되고, 나머지 일부는 서버에 포함될 수 있다.
또한, 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나는 소프트웨어 모듈로 구현될 수 있다. 데이터획득부(421), 전처리부(422), 결과제공부(423) 및 모델 갱신부 중 적어도 하나가 소프트웨어 모듈(또는, 인스터력션(instruction) 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록매체(non-transitory computer readable media)에 저장될 수 있다. 또한, 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 소정의 애플리케이션에 의해 제공될 수 있다. 또는, 적어도 하나의 소프트웨어 모듈 중 일부는 OS(Operating System)에 의해 제공되고, 나머지 일부는 소정의 애플리케이션에 의해 제공될 수 있다.
이하에서는 도 1의 오디오 복원 장치(100) 및 도 4 의 데이터학습부(410) 및 데이터적용부(420)의 동작을 도 5 내지 도 11과 함께 더 자세히 설명한다.
도 5는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.
파라미터 특성 결정부(240)는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 만족하지 않는 파라미터에 대하여 처리를 할 필요가 없으므로 연산량을 줄일 수 있다. 또한, 오디오 복원 장치(100)는 복원된 복호화 파라미터가 입력된 복호화 파라미터보다 나쁜 음질을 도출하는 것을 방지할 수 있다.
그래프(510)는 한 프레임에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 오디오 복원 장치(100)가 비트스트림에 기초하여 획득한 복수의 복호화 파라미터들은 주파수에 따른 신호의 크기값을 포함할 수 있다. 예를 들어 신호의 크기값은 스펙트럴 빈에 대응될 수 있다.
복수의 복호화 파라미터들은 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 파라미터 특성 결정부(140)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 1 파라미터는 제 2 파라미터에 인접한 파라미터일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터의 추세 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 2 파라미터의 특성은 제 2 파라미터의 범위일 수 있다.
본 개시의 일 실시예에 따르면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(513)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(511, 512, 514, 515)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(511, 12, 514, 515)이 상승 추세임을 결정할 수 있다. 따라서 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(513)의 범위를 신호값(512) 및 신호값(514) 사이로 결정할 수 있다.
또한, 도 2 의 파라미터 특성 결정부(240)는 도 4의 데이터학습부(410)를 포함할 수 있다. 기계학습모델(432)은 데이터학습부(410)에 의하여 프리-트레이닝될(pre-trained) 수 있다.
예를 들어, 파라미터 특성 결정부(240)의 데이터학습부(410)는 오리지널 오디오 신호에 대응하는 정보를 수신할 수 있다. 오리지널 오디오 신호에 대응하는 정보는 오리지널 오디오 신호 자체 또는 오리지널 오디오 신호를 고음질로 부호화한 정보일 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)는 복호화 파라미터를 수신할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)가 수신한 파라미터들은 적어도 하나의 프레임에 대응할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터학습부(410)는 데이터획득부(411), 전처리부(412) 및 기계학습부(413)의 동작에 기초하여 기계학습모델(432)을 출력할 수 있다. 기계학습모델(432)의 데이터학습부(410)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정하기 위한 기계학습모델(432)일 수 있다. 예를 들어 기계학습모델(432)은 적어도 하나의 제 1 파라미터들 각각에 대한 가중치로 주어질 수 있다.
또한 파라미터 특성 결정부(240)는 도 4의 데이터적용부(420)를 포함할 수 있다. 파라미터 특성 결정부(240)는 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 파라미터 특성 결정부(240)는 제 2 파라미터의 특성을 결정하기 위하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용할 수 있다.
예를 들어, 파라미터 특성 결정부(240)의 데이터적용부(420)는 현재 프레임의 복수의 복호화 파라미터에 포함된 제 1 파라미터 및 제 2 파라미터 중 적어도 하나를 수신할 수 있다. 또한 파라미터 특성 결정부(240)의 데이터적용부(420)는 파라미터 특성 결정부(240)의 데이터학습부(410)로부터 기계학습모델(432)을 수신할 수 있다. 파라미터 특성 결정부(240)의 데이터적용부(420)는 데이터획득부(421), 전처리부(422) 및 결과제공부(423)의 동작에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 예를 들어 파라미터 특성 결정부(240)의 데이터적용부(420)는 제 1 파라미터 및 제 2 파라미터 중 적어도 하나에 기계학습모델(432)을 적용하여 제 2 파라미터의 특성을 결정할 수 있다.
본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 비트스트림에 포함되지 않은 제 2 파라미터를 복원하여 비트레이트가 높은 오디오를 제공할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터는 주파수 f0에서의 신호의 크기값일 수 있다. 비트스트림은 주파수 f0에서의 신호의 크기에 대한 정보를 포함하지 않을 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여 주파수 f0에서의 신호의 특성을 추정할 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f3, f4 및 f5에 대응되는 신호의 크기값들(511, 512, 513, 514, 515)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(511, 512, 513, 514, 515)이 상승 추세임을 결정할 수 있다. 따라서 오디오 복원 장치는 제 2 파라미터에 대응되는 신호의 크기값의 범위를 신호값(514) 및 신호값(515) 사이로 결정할 수 있다. 오디오 복원 장치(100)는 도 4의 데이터학습부(410) 또는 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 데이터학습부(410) 또는 데이터적용부(420)의 동작에 대해서는 이미 설명한 바 있으므로 여기에서는 자세한 설명을 생략한다.
또한 그래프(520)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(523)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(521, 522, 524, 525)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(521, 522, 524, 525)이 상승 후 하강 추세임을 결정할 수 있다. 또한 주파수 f2에 대응되는 신호값(522)보다 주파수 f4에 대응되는 신호값(524)이 크므로, 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(523)의 범위를 신호값(524)보다 크거나 같다고 결정할 수 있다.
또한 그래프(530)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(533)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(531, 532, 534, 535)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(531, 532, 534, 535)이 하강 후 상승 추세임을 결정할 수 있다. 또한 주파수 f2에 대응되는 신호값(532)보다 주파수 f4에 대응되는 신호값(534)이 작으므로, 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값(533)의 범위를 신호값(534)보다 작거나 같다고 결정할 수 있다.
또한 그래프(540)를 참조하면, 제 2 파라미터는 주파수 f3에서의 신호의 크기값(543)일 수 있다. 또한 제 1 파라미터는 주파수 f1, f2, f4 및 f5에 대응되는 신호의 크기값들(541, 542, 544, 545)일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 대응되는 신호의 크기값들(541, 542, 544, 545)이 하강 추세임을 결정할 수 있다. 또한 오디오 복원 장치(100)는 제 2 파라미터에 대응되는 신호의 크기값의 범위를 신호값(542) 및 신호값(544) 사이로 결정할 수 있다.
도 6는 일 실시예에 따른 복호화 파라미터의 특성의 예측을 도시한다.
오디오 복원 장치(100) 하나의 프레임에 대한 복호화 파라미터의 특성을 결정하기 위하여 복수의 프레임들을 이용할 수 있다. 오디오 복원 장치(100) 하나의 프레임에 대한 복호화 파라미터의 특성을 결정하기 위하여 하나의 프레임 이전의 프레임들을 이용할 수 있다. 예를 들어 오디오 복원 장치(100)는 프레임 n+1(630)에 포함된 적어도 하나의 복호화 파라미터의 특성을 결정하기 위하여 프레임 n-2, 프레임 n-1(610), 프레임 n(620) 또는 프레임 n+1(630)에 포함된 적어도 하나의 복호화 파라미터을 이용할 수 있다.
오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복수의 프레임에서의 복호화 파라미터에 기초하여 그래프들(640, 650, 660)을 획득할 수 있다. 그래프(640)는 주파수 도메인에서 프레임 n-1(610)에 대한 복호화 파라미터를 나타낼 수 있다. 그래프(640)에 나타난 복호화 파라미터는 주파수에 따른 신호의 크기를 나타낼 수 있다. 그래프(650)는 주파수 도메인에서 프레임 n(620)에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 그래프(660)는 주파수 도메인에서 프레임 n+1(630)에 대한 주파수에 따른 신호의 크기를 나타낼 수 있다. 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기의 특성을 결정할 수 있다.
본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기(662)의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)의 신호의 크기들(641, 642, 643)의 추세를 확인할 수 있다. 또한 오디오 복원 장치(100)는 그래프(650)의 신호의 크기들(651, 652, 653)의 추세를 확인할 수 있다. 추세는 f3 부근에서 상승 후 하강하는 것일 수 있다. 또한 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 기초하여 그래프(660)의 추세를 결정할 수 있다. 또한, 오디오 복원 장치(100)는 신호의 크기(662)가 신호의 크기(661) 및 신호의 크기(663)보다 크거나 같음을 결정할 수 있다.
본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 그래프(640), 그래프(650) 및 그래프(660)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 f0에서의 신호의 크기의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)에서 신호의 크기들의 추세를 확인할 수 있다. 또한 오디오 복원 장치(100)는 그래프(650)의 신호의 크기들의 추세를 확인할 수 있다. 추세는 f0 부근에서 하강하는 것일 수 있다. 또한 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 기초하여 그래프(660)의 추세를 결정할 수 있다. 또한, 오디오 복원 장치(100)는 f0에서의 신호의 크기가 f4에서의 신호의 크기보다 작거나 같고 f5에서의 신호의 크기보다 크거나 같음을 결정할 수 있다. 오디오 복원 장치(100)는 도3의 데이터학습부(410) 또는 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 데이터학습부(410) 또는 데이터적용부(420)의 동작에 대해서는 이미 설명한 바 있으므로 여기에서는 자세한 설명을 생략한다.
본 개시의 일 실시예에 따르면, 오디오 복원 장치(100) 하나의 프레임에 포함된 복호화 파라미터의 특성을 결정하기 위하여 하나의 프레임 이전의 프레임들을 이용할 수 있다. 오디오 복원 장치(100)는 이전 프레임에 포함된 특정 주파수에 따른 신호에 기초하여 현재 프레임에 포함된 특정 주파수에 따른 신호의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 이전 프레임에 포함된 특정 주파수에 따른 신호의 분포 범위, 평균값, 중간값, 중앙값, 최소값, 최대값, 편차 또는 부호 등에 기초하여 현재 프레임에 포함된 특정 주파수에 따른 복호화 파라미터의 특성을 결정할 수 있다.
예를 들어, 오디오 복원 장치(100)는 그래프(640) 및 그래프(650)에 포함된 적어도 하나의 신호의 크기에 기초하여 그래프(660)에 포함된 신호의 크기(662)의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 그래프(640)의 주파수 f3에서의 신호의 크기(642) 및 그래프(650)의 주파수 f3에서의 신호의 크기(652)에 기초하여 그래프(660)의 주파수 f3에서의 신호의 크기(662)의 특성을 결정할 수 있다. 신호의 크기(662)의 특성은 신호의 크기(642) 및 신호의 크기(652)의 분포 범위, 평균값, 중간값, 중앙값, 최소값, 최대값, 편차 또는 부호 등에 기초할 수 있다.
본 개시의 일 실시예에 따르면 오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 복호화 파라미터는 제 2 파라미터를 포함할 수 있다. 또한 제 2 파라미터의 특성은 복호화 파라미터가 아닌 이미 결정된 파라미터에 기초하여 결정될 수 있다.
예를 들어 양자화 스텝 사이즈는 복호화 파라미터에 포함되지 않을 수 있다. 제 2 파라미터는 하나의 프레임에 대한 주파수에 따른 신호의 크기에 대응할 수 있다. 신호의 크기값은 스펙트럴 빈에 대응될 수 있다. 또한 오디오 복원 장치(100)는 양자화 스텝 사이즈에 기초하여 스펙트럴 빈의 범위를 결정할 수 있다. 양자화 스텝 사이즈는 하나의 스펙트럴 빈으로 결정되는 신호의 크기의 범위이다. 양자화 스텝 사이즈는 주파수마다 다를 수 있다. 가청 주파수 영역에서는 양자화 스텝사이즈가 조밀할 수 있다. 가청 주파수 영역이 아닌 영역에서는 양자화 스텝사이즈가 성길 수 있다. 따라서 스펙트럴 빈에 대응하는 주파수 값을 알면, 양자화 스텝사이즈가 결정될 수 있다. 또한 양자화 스텝사이즈에 기초하여 스펙트럴 빈의 범위가 결정될 수 있다.
본 개시의 다른 실시예에 따르면 오디오 복원 장치(100)는 비트스트림으로부터 복호화 파라미터를 획득할 수 있다. 복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 제 2 파라미터의 특성은 제 1 파라미터에 기초하여 결정될 수 있다. 제 2 파라미터의 특성은 제 2 파라미터의 범위일 수 있다.
예를 들어 제 1 파라미터는 스케일 팩터 및 마스킹 임계값을 포함할 수 있다. 양자화 스텝 사이즈는 스케일 팩터 및 마스킹 임계값에 기초하여 결정될 수 있다. 스케일 팩터는 이미 설명한 바와 스펙트럴 빈을 스케일하기 위한 값이다. 스케일 팩터는 하나의 프레임에 포한된 복수의 밴드들 별로 다른 값을 가질 수 있다. 마스킹 임계값은 마스커라는 노이즈가 존재 할 때 현재 신호가 들리기 위한 현재 신호의 최소 크기이다. 마스킹 임계값은 주파수 및 마스커의 종류에 따라 다를 수 있다. 또한 마스킹 임계값은 마스커 및 현재 신호의 주파수가 근접할 때 커질 수 있다.
예를 들어 현재 신호가 f0에 존재하고, f0에 근접한 f1에 마스커 신호가 있을 수 있다. f1의 마스커에 의하여 f0에서의 마스킹 임계값이 정해질 수 있다. f0의 현재 신호의 크기가 마스킹 임계값보다 작은 경우 현재 신호는 들리지 않는 소리 일 수 있다. 따라서 오디오 복원 장치(100)는 부호화 또는 복호화 과정에서 f0에서의 현재 신호를 무시할 수 있다. 반면에 f0의 현재 신호의 크기가 마스킹 임계값보다 큰 경우 현재 신호는 들리는 소리 일 수 있다. 따라서 오디오 복원 장치(100)는 부호화 또는 복호화 과정에서 f0에서의 현재 신호를 무시할 수 없다.
오디오 복원 장치(100)는 양자화 스텝 사이즈를 스케일 팩터 및 마스킹 임계값 중 작은 값으로 설정할 수 있다. 또한 오디오 복원 장치(100)는 양자화 스텝사이즈에 기초하여 스펙트럴 빈의 범위를 결정할 수 있다.
도 7는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
단계 710에서 오디오 복원 장치(100)는 비트스트림을 복호화하여 오디오 신호를 복호화하기 위한 현재 프레임의 복수의 복호화 파라미터들을 획득할 수 있다. 단계 720에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들에 포함된 제 1 파라미터에 기초하여 복수의 복호화 파라미터들에 포함된 제 2 파라미터의 특성을 결정할 수 있다. 단계 730에서 오디오 복원 장치(100)는 기계학습모델을 이용하여 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 복원된 제 2 파라미터를 획득할 수 있다. 단계 740에서 오디오 복원 장치(100)는 제 2 파라미터의 특성에 기초하여 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득할 수 있다. 단계 750에서 오디오 복원 장치(100)는 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화할 수 있다.
710 단계 및 750 단계는 오디오 신호 복호화부(230)에 의하여 수행될 수 있다. 720 단계는 파라미터 특성 결정부(240)에 의하여 수행될 수 있다. 또한 730 단계 내지 740 단계는 파라미터 복원부(250)에 의하여 수행될 수 있다.
본 개시의 일 실시예에 따라 도 3을 다시 참조하면, 파라미터 복원부(250)의 데이터학습부(410) 및 데이터적용부(420)는 제 2 파라미터의 특성을 입력으로 수신할 수 있다. 즉, 파라미터 복원부(250)는 제 2 파라미터의 특성에 기초하여 기계학습할 수 있다. 파라미터 복원부(250)의 데이터학습부(410)는 제 2 파라미터의 특성을 반영하여 기계학습모델(432)을 출력할 수 있다. 또한 파라미터 복원부(250)의 데이터적용부(420)는 제 2 파라미터의 특성을 반영하여 출력 데이터(442)를 출력할 수 있다.
본 개시의 다른 실시예에 따라 도 7을 참조하면, 파라미터 복원부(250)의 데이터학습부(410) 및 데이터적용부(420)는 제 2 파라미터의 특성을 입력으로 수신하지 않을 수 있다. 즉, 파라미터 복원부(250)는 복호화 파라미터에 기초하여 기계학습할 뿐, 제 2 파라미터의 특성에 기초하여 기계학습하지 않을 수 있다. 파라미터 복원부(250)의 데이터학습부(410)는 제 2 파라미터의 특성을 반영하지 않고 기계학습모델(432)을 출력할 수 있다. 또한 파라미터 복원부(250)의 데이터적용부(420)는 제 2 파라미터의 특성을 반영하지 않고 출력 데이터(442)를 출력할 수 있다.
출력 데이터(442)는 복원된 제 2 파라미터일 수 있다. 파라미터 복원부(250)는 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞는지 결정할 수 있다. 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞는 경우, 파라미터 복원부(250)는 복원된 파라미터를 오디오 신호 복호화부(230)로 출력할 수 있다. 복원된 제 2 파라미터가 제 2 파라미터의 특성에 맞지 않는 경우, 파라미터 복원부(250)는 제 2 파라미터의 특성에 기초하여 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득할 수 있다. 파라미터 복원부(250)는 보정된 파라미터를 오디오 신호 복호화부(230)로 출력할 수 있다.
예를 들어, 제 2 파라미터의 특성은 제 2 파라미터의 범위 일 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여, 제 2 파라미터의 범위를 결정할 수 있다. 오디오 복원 장치(100)는 복원된 제 2 파라미터가 제 2 파라미터의 범위 내에 있지 않을 경우, 복원된 제 2 파라미터와 가장 가까운 범위의 값을 보정된 제 2 파라미터로 획득할 수 있다. 이에 대해서는 도 8과 함께 더 자세히 설명한다.
도 8은 일 실시예에 따른 복호화 파라미터를 도시한다.
그래프(800)는 주파수 도메인에서 오리지널 오디오 신호의 주파수에 따른 신호의 크기를 나타낸다. 그래프(800)는 오리지널 오디오 신호의 하나의 프레임에 대응될 수 있다. 오리지널 오디오 신호는 연속적인 파형을 가진 곡선(805)으로 나타난다. 오리지널 오디오 신호는 주파수 f1, f2, f3 및 f4 에서 샘플링될 수 있다. 주파수 f1, f2, f3 및 f4에서 오리지널 오디오 신호의 크기는 점들(801, 802, 803, 804)로 나타낼 수 있다. 오리지널 오디오 신호는 부호화 될 수 있다. 오디오 복원 장치(100)는 부호화된 오리지널 오디오 신호를 복호화하여 복호화 파라미터를 생성할 수 있다.
그래프(810)는 주파수에 따른 신호의 크기를 나타낸다. 그래프(810)에 표시된 점선(815)은 오리지널 오디오 신호에 대응될 수 있다. 또한 그래프(810)에 표시된 점들(811, 812, 813, 814)는 복호화 파라미터에 대응될 수 있다. 복호화 파라미터는 오디오 복원 장치(100)의 무손실 복호화부(231)에서 출력될 수 있다. 오리지널 오디오 신호 및 복호화 파라미터 중 적어도 하나는 스케일되어 그래프(810)에 표시될 수 있다.
그래프(810)에 나타난 바와 같이 점선(815)은 점들(811, 812, 813, 814)과 차이가 있을 수 있다. 점선(815)과 점들(811, 812, 813, 814)의 차이는 오리지널 오디오 신호가 부호화 및 복호화되면서 생긴 오차 때문일 수 있다.
오디오 복원 장치(100)는 점들(811, 812, 813, 814)에 대응되는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정하기 위하여 기계학습모델을 이용할 수 있다. 복호화 파라미터의 특성 결정에 대해서는 도 5 및 도 6에서 이미 설명한 바 있으므로 자세한 설명은 생략한다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 또한 복호화 파라미터의 특성은 스펙트럴 빈의 범위 일 수 있다.
오디오 복원 장치(100)가 결정한 스펙트럴 빈의 범위는 그래프(830)와 같이 나타날 수 있다. 즉, 화살 표시(835)는 스펙트럴 빈에 대응하는 점(831)의 존재 가능한 범위를 나타낸다. 화살 표시(836)는 스펙트럴 빈에 대응하는 점(832)의 존재 가능한 범위를 나타낸다. 화살 표시(837)는 스펙트럴 빈에 대응하는 점(833)의 존재 가능한 범위를 나타낸다. 화살 표시(838)는 스펙트럴 빈에 대응하는 점(834)의 존재 가능한 범위를 나타낸다.
오디오 복원 장치(100)는 f2 및 f3 사이의 f0에서의 신호의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 f0에 대한 복호화 파라미터를 수신하지 않을 수 있다. 오디오 복원 장치(100)는 f0에 관련된 복호화 파라미터에 기초하여 f0에서의 복호화 파라미터의 특성을 결정할 수 있다.
예를 들어, 오디오 복원 장치(100)는 f0에서의 스펙트럴 빈의 크기에 관련된 정보를 수신하지 않을 수 있다. 오디오 복원 장치(100)는 f0 에 인접한 주파수의 스펙트럴 빈 및 현재 프레임에 인접한 프레임의 스펙트럴 빈을 이용하여 f0에서의 신호의 크기의 범위를 결정할 수 있다. 이에 대해서는 도 5 및 도 6 에서 자세히 설명하였으므로 자세한 설명은 생략한다.
오디오 복원 장치(100)는 복호화 파라미터를 복원할 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용할 수 있다. 복호화 파라미터를 복원하기 위하여, 오디오 복원 장치(100)는 기계학습모델에 복호화 파라미터 및 복호화 파라미터의 특성 중 적어도 하나를 적용할 수 있다.
오디오 복원 장치(100)가 복원한 복호화 파라미터를 나타내면 그래프(850)와 같다. 점들(851, 852, 853, 854, 855)은 복원한 복호화 파라미터들을 나타낸다. 복원한 복호화 파라미터는 복원 전의 복호화 파라미터보다 오차가 클 수 있다. 예를 들어 그래프(830)에서 스펙트럴 빈에 대응하는 점(834)은 오리지널 오디오 신호에 가까웠으나, 그래프(850)에서 스펙트럴 빈에 대응하는 점(854)은 오리지널 오디오 신호(860)에서 멀어질 수 있다.
오디오 복원 장치(100)는 복호화 파라미터를 보정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터가 복호화 파라미터의 존재 가능한 범위 내에 있는지 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터가 복호화 파라미터의 존재 가능한 범위 내에 있지 않은 경우 복호화 파라미터를 보정할 수 있다. 보정된 복호화 파라미터는 복호화 파라미터의 존재 가능한 범위 내에 있을 수 있다.
예를 들어 그래프(870)는 보정된 스펙트럴 빈을 나타낸다. 스펙트럴 빈에 대응하는 점들(871, 872, 873, 875)은 스펙트럴 빈의 존재 가능한 범위 내에 있을 수 있다. 하지만, 스펙트럴 빈에 대응하는 점(874)은 스펙트럴 빈의 존재 가능한 범위(878) 외에 있을 수 있다. 오디오 복원 장치(100)는 복원된 스펙트럴 빈이 스펙트럴 빈의 존재 가능한 범위(878)에 있지 않을 경우, 복원된 스펙트럴 빈과 가장 가까운 범위(878)의 값을 보정된 스펙터럴 빈으로 획득할 수 있다. 오디오 복원 장치(100)는 복원된 스펙트럴 빈에 대응하는 점(874)이 범위(878)의 최대값보다 큰 값인 경우, 범위(878)의 최대값을 보정된 스펙트럴 빈에 대응하는 점(880)으로 획득할 수 있다. 즉, 오디오 복원 장치(100)는 복원된 스펙트럴 빈에 대응하는 점(874)을 점(880)으로 보정할 수 있다. 점(880)은 보정된 스펙트럴 빈에 대응할 수 있다.
오디오 복원 장치(100)는 보정된 복호화 파라미터에 기초하여 오디오 신호를 복호화 할 수 있다. 주파수 f0 에서 복원된 스펙트럴 빈에 대응하는 점(875)에 의하면 오디오 신호의 샘플링 레이트를 개선할 수 있다. 주파수 f4 에서 복원된 스펙트럴 빈에 대응하는 점(880)에 의하면 오디오 신호의 크기를 정확하게 나타낼 수 있다. 보정된 복호화 파라미터는 주파수 도메인의 오리지널 오디오 신호에 가까우므로, 복호화된 오디오 신호는 오리지널 오디오 신호에 가까울 수 있다.
도 9은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.
그래프(910)는 도 8 의 그래프(810)를 구체화한 것이다. 그래프 (910)는 주파수에 따른 신호의 크기를 나타낸다. 그래프(910)에 표시된 점선(915)은 오리지널 오디오 신호에 대응될 수 있다. 또한 그래프(910)에 표시된 점들(911, 912, 913, 914)는 복호화 파라미터에 대응될 수 있다. 오리지널 오디오 신호 및 복호화 파라미터 중 적어도 하나는 스케일되어 그래프(910)에 표시될 수 있다.
오디오 복원 장치(100)는 점들(911, 912, 913, 914)에 대응되는 복호화 파라미터의 특성을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정하기 위하여 기계학습모델을 이용할 수 있다. 복호화 파라미터의 특성의 결정에 대해서는 도 5 및 도 6에서 이미 설명한 바 있으므로 자세한 설명은 생략한다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 또한 복호화 파라미터의 특성은 스펙트럴 빈의 범위 일 수 있다. 오디오 복원 장치(100)가 결정한 스펙트럴 빈의 범위는 그래프(930)와 같이 나타날 수 있다.
오디오 복원 장치(100)는 스펙트럴 빈을 미세하게 조정하기 위한 후보들을 결정할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈을 복수의 비트(bit)를 이용하여 표현할 수 있다. 또한 오디오 복원 장치(100)는 스펙트럴 빈을 표현하기 위한 비트(bit)의 개수를 늘릴수록 스펙트럴 빈을 미세하게 표현할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈을 미세하게 조정하기 위하여 스펙트럴 빈을 표현하기 위한 비트(bit)의 수를 늘릴 수 있다. 스펙트럴 빈을 표현하기 위한 비트(bit)수를 늘리는 경우에 대하여 도 10과 함께 설명한다.
도 10은 일 실시예에 따라 비트의 수를 늘린 경우 복호화 파라미터의 변화를 도시한다.
그래프(1000)를 참조하면, 오디오 복원 장치(100)는 양자화된 복호화 파라미터를 나타내기 위하여 2개의 비트를 사용할 수 있다. 이 경우 오디오 복원 장치(100)는 '00', '01', '10' 및 '11'를 이용하여 양자화된 복호화 파라미터를 나타낼 수 있다. 즉 오디오 복원 장치(100)가 나타낼 수 있는 복호화 파라미터의 크기는 4개이다. 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최소값을 '00'에 할당할 수 있다. 또한 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최대값을 '11'에 할당할 수 있다.
오디오 복원 장치(100)가 수신한 복호화 파라미터의 크기는 점(1020)과 같을 수 있다. 복호화 파라미터의 크기는 '01'일 수 있다. 하지만 양자화 전의 복호화 파라미터의 실제 크기는 별표들(1011, 1012, 1013)과 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1011)와 같은 경우 오차 범위는 화살표(1031)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1012)와 같은 경우 오차 범위는 화살표(1032)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1013)와 같은 경우 오차 범위는 화살표(1033)와 같을 수 있다.
그래프(1050)를 참조하면, 오디오 복원 장치(100)는 양자화된 복호화 파라미터를 나타내기 위하여 3개의 비트를 사용할 수 있다. 이 경우 오디오 복원 장치(100)는 '000', '001', '010', '011', '100', '101', '110' 및 '111'을 이용하여 양자화된 복호화 파라미터를 나타낼 수 있다. 즉 오디오 복원 장치(100)가 나타낼 수 있는 복호화 파라미터의 크기는 8개이다. 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최소값을 '000'에 할당할 수 있다. 또한 오디오 복원 장치(100)는 복호화 파라미터가 가질 수 있는 최대값을 '111'에 할당할 수 있다.
오디오 복원 장치(100)가 수신한 복호화 파라미터의 크기는 점들(1071, 1072, 1073)과 같을 수 있다. 복호화 파라미터의 크기는 각각 '001', '101' 및 '011'일 수 있다. 복호화 파라미터의 실제 크기는 별표들(1061, 1062, 1063)과 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1061)와 같은 경우 오차 범위는 화살표(1081)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1062)와 같은 경우 오차 범위는 화살표(1082)와 같을 수 있다. 복호화 파라미터의 실제 크기가 별표(1063)와 같은 경우 오차 범위는 화살표(1083)와 같을 수 있다.
그래프 (1000)와 그래프(1050)를 비교하면, 그래프(1050)에 표시된 복호화 파라미터의 오차가 그래프(1000)에 표시된 복호화 파라미터의 오차보다 상대적으로 작다. 도 10에 나타난 바와 같이 오디오 복원 장치(100)가 복호화 파라미터를 나타내기 위해 많은 비트를 사용할수록 복호화 파라미터를 세밀하게 표현할 수 있다.
다시 도 9 를 참조하면, 오디오 복원 장치(100)는 복호화 파라미터를 미세하게 조정하기 위한 후보들을 결정할 수 있다. 그래프(950)를 참조하면, 오디오 복원 장치는 복호화 파라미터를 표현하기 위해 1비트를 추가적으로 사용할 수 있다. 또한 그래프(930)의 하나의 복호화 파라미터(931)에 대응되는 후보들(951,952, 953)을 결정할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 후보들(951,952, 953)을 결정하기 위하여 복호화 파라미터의 특성을 이용할 수 있다. 예를 들어 복호화 파라미터의 특성은 복호화 파라미터의 범위(954) 일 수 있다. 후보들(951,952, 953)은 복호화 파라미터의 범위(954) 내에 있을 수 있다.
오디오 복원 장치(100)는 기계학습모델에 기초하여 복호화 파라미터의 후보들(951,952, 953) 중 하나를 선택할 수 있다. 오디오 복원 장치(100)는 데이터학습부(410) 및 데이터적용부(420) 중 적어도 하나를 포함할 수 있다. 오디오 복원 장치(100)는 현재 프레임의 복호화 파라미터, 이전 프레임의 복호화 파라미터 중 적어도 하나를 기계학습모델에 적용하여 복호화 파라미터들 중 하나를 선택할 수 있다. 기계학습모델은 프리-트레이닝될 수 있다.
복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터의 후보들 중 하나를 선택하기 위하여 제 2 파라미터와 연관되는 제 1 파라미터를 이용할 수 있다.
그래프(960)를 참조하면, 오디오 복원 장치(100)는 선택된 복호화 파라미터(961)를 획득할 수 있다. 또한 오디오 복원 장치(100)는 선택된 복호화 파라미터(961)에 기초하여 복호화된 오디오 신호를 획득할 수 있다.
그래프(970)를 참조하면, 오디오 복원 장치는 복호화 파라미터를 표현하기 위해 2비트를 추가적으로 사용할 수 있다. 또한 그래프(930)의 하나의 복호화 파라미터(931)에 대응되는 후보들(971,972, 973, 974, 975)을 결정할 수 있다. 후보들(971,972, 973, 974, 975)이 그래프(950)의 후보들(951, 952, 953)보다 세밀한 값을 가진다. 오디오 복원 장치(100)는 1비트를 사용하는 경우보다 2 비트를 사용할 때 정확한 복호화 파라미터를 복원할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 후보들(971,972, 973, 974, 975)을 결정하기 위하여 복호화 파라미터의 특성을 이용할 수 있다. 예를 들어 복호화 파라미터의 특성은 복호화 파라미터의 범위(976) 일 수 있다. 후보들(971,972, 973, 974, 975)은 복호화 파라미터의 범위(976) 내에 있을 수 있다.
오디오 복원 장치(100)는 기계학습모델에 기초하여 복호화 파라미터의 후보들(971,972, 973, 974, 975) 중 하나를 선택할 수 있다. 오디오 복원 장치(100)는 현재 프레임의 복호화 파라미터, 이전 프레임의 복호화 파라미터 중 적어도 하나를 기계학습모델에 적용하여 복호화 파라미터들 중 하나를 선택할 수 있다. 복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 2 파라미터의 후보들 중 하나를 선택하기 위하여 제 2 파라미터와 연관되는 제 1 파라미터를 이용할 수 있다.
그래프(980)를 참조하면, 오디오 복원 장치(100)는 선택된 복호화 파라미터(981)를 획득할 수 있다. 선택된 복호화 파라미터(981)는 그래프(960)의 선택된 복호화 파라미터(961)보다 정확한 값일 수 있다. 즉, 선택된 복호화 파라미터(981)는 선택된 복호화 파라미터(961)보다 오리지널 오디오 신호에 대응되는 점선에 더 가까울 수 있다. 또한 오디오 복원 장치(100)는 선택된 복호화 파라미터(981)에 기초하여 복호화된 오디오 신호를 획득할 수 있다.
도 11은 일 실시예에 따른 복호화 파라미터의 변화를 도시한다.
오디오 복원 장치(100)는 비트스트림을 수신할 수 있다. 오디오 복원 장치(100)는 비트스트림에 기초하여 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 특성을 결정할 수 있다. 복호화 파라미터의 특성은 부호일 수 있다. 또한, 복호화 파라미터가 0의 크기를 가질 수 있으며, 0의 크기는 복호화 파라미터의 특성일 수 있다.
예를 들어 복호화 파라미터는 스펙트럴 데이터일 수 있다. 스펙트럴 데이터는 스펙트럴 빈의 부호을 나타낼 수 있다. 또한 스펙트럴 데이터는 스펙트럴 빈이 0인지 여부를 나타낼 수 있다. 스펙트럴 데이터는 비트스트림에 포함되어 있을 수 있다. 또한 오디오 복원 장치(100)는 비트스트림에 기초하여 스펙트럴 데이터를 생성할 수 있다.
복호화 파라미터는 제 1 파라미터 및 제 2 파라미터를 포함할 수 있다. 오디오 복원 장치(100)는 제 1 파라미터에 기초하여 제 2 파라미터의 특성을 결정할 수 있다. 제 1 파라미터는 스펙트럴 데이터일 수 있다. 또한 제 2 파라미터는 스펙트럴 빈일 수 있다.
그래프(1110)는 주파수에 따른 복호화 파라미터의 크기를 나타낸다. 복호화 파라미터는 스펙트럴 빈일 수 있다. 복호화 파라미터는 다양한 부호를 가질 수 있다. 예를 들어 복호화 파라미터(1111)는 음의 부호를 가질 수 있다. 복호화 파라미터(1113)는 양의 부호를 가질 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 부호를 복호화 파라미터들(1111, 1113)의 특성으로 결정할 수 있다. 복호화 파라미터(1112)는 0의 크기를 가질 수 있다. 오디오 복원 장치(100)는 0의 크기를 복호화 파라미터(1112)의 특성으로 결정할 수 있다.
본 개시의 일 실시예에 따르면, 오디오 복원 장치(100)는 복호화 파라미터를 기계학습모델에 적용하여 복원된 복호화 파라미터를 결정할 수 있다. 그래프(1130)는 주파수에 따른 복원된 복호화 파라미터의 크기를 나타낸다. 오디오 복원 장치(100)는 복호화 파라미터들(1111, 1112. 1113)을 복원하여 복원된 복호화 파라미터들(1131, 1132, 1133)을 획득할 수 있다. 하지만 복원된 복호화 파라미터들(1131, 1133)은 복호화 파라미터들(1111, 1113)과 다른 부호를 가질 수 있다. 또한 복원된 복호화 파라미터(1132)는 복호화 파라미터(1112)와 다르게 0이 아닌 값을 가질 수 있다.
오디오 복원 장치(100)는 복호화 파라미터의 특성에 기초하여 복원된 복호화 파라미터를 보정하여 보정된 복호화 파라미터를 획득할 수 있다. 오디오 복원 장치(100)는 복호화 파라미터의 부호에 기초하여 복원된 복호화 파라미터를 보정할 수 있다. 그래프(1150)를 참조하면 오디오 복원 장치(100)는 복원된 복호화 파라미터들(1131, 1133)의 부호를 보정하여 보정된 복호화 파라미터들(1151, 1153)을 획득할 수 있다. 또한 오디오 복원 장치(100)는 복원된 복호화 파라미터(1132)의 크기를 0으로 보정하여 보정된 복호화 파라미터(1152)를 획득할 수 있다.
본 개시의 다른 실시예에 따르면, 오디오 복원 장치(100)는 복호화 파라미터의 특성 및 복호화 파라미터에 기계학습모델을 적용하여 복원된 복호화 파라미터를 획득할 수 있다. 즉, 오디오 복원 장치(100)는 그래프(1110)에 따른 복호화 파라미터들에 기초하여 그래프(1150)에 따른 복원된 파라미터를 획득할 수 있다.
도 12 는 일 실시예에 따른 오디오 복원 장치(100)의 블록도를 도시한다.
오디오 복원 장치(100)는 코덱 정보 도출부(1210), 오디오 신호 복호화부(1220), 비트스트림 분석부(1230), 복원 방법 선택부(1240) 및 적어도 하나의 복원부를 포함할 수 있다.
코덱 정보 도출부(1210)는 도 1의 수신부(110)에 동일 대응될 수 있다. 또한 코덱 정보 도출부(1210)는 도 2 의 코덱 정보 도출부(210)에 동일 대응될 수 있다. 코덱 정보 도출부(1210)는 비트스트림을 수신하여 비트스트림이 어떤 기술을 이용하여 부호화되었는지 결정할 수 있다. 오리지널 오디오가 부호화되기 위하여 사용된 기술에는 MP3, AAC, HE-AAC등이 있을 수 있다.
오디오 신호 복호화부(1220)는 비트스트림에 기초하여 오디오 신호를 복호화한다. 오디오 신호 복호화부(1220)는 도 2 의 오디오 신호 복호화부(230)에 동일 대응될 수 있다. 오디오 신호 복호화부(1220)는 무손실 복호화부, 역양자화부, 스테레오 신호 복원부 및 역변환부를 포함할 수 있다. 오디오 신호 복호화부(1220)는 코덱 정보 도출부(1210)으로부터 수신한 코덱 정보에 기초하여 복원된 오디오 신호를 출력할 수 있다.
비트스트림 분석부(1230)는 비트스트림에 기초하여 현재 프레임에 대한 복호화 파라미터를 획득할 수 있다. 비트스트림 분석부(1230)는 복호화 파라미터에 기초하여 복원된 오디오 신호의 특성을 파악할 수 있다. 비트스트림 분석부(1230)는 신호의 특성에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
예를 들어 복호화 파라미터는 스펙트럴 빈, 스케일 팩터 게인, 글로벌 게인, 윈도우 타입, 버퍼 레벨, Temporal Noise Shaping(TNS) 정보 및 Perceptual Noise Substitution(PNS) 정보 중 적어도 하나를 포함할 수 있다.
스펙트럴 빈은 주파수 도메인에서 주파수에 따른 신호의 크기에 대응될 수 있다. 오디오 부호화 장치는 데이터를 줄이기 위하여 인간이 민감한 주파수 범위에 대해서만 정확한 스펙트럴 빈을 전송할 수 있다. 또한 인간이 듣기 힘든 고주파수 영역 또는 인간이 듣기 힘든 저주파수 영역에 대해서는 스펙트럴 빈을 전송하지 않거나 부정확한 스펙트럴 빈을 전송할 수 있다. 오디오 복원 장치(100)는 스펙트럴 빈이 전송되지 않은 영역에 대하여 대역폭 확장 기술을 적용할 수 있다. 비트스트림 분석부(1230)는 스펙트럴 빈을 분석하여 스펙트럴 빈이 정확하게 전송된 주파수 영역 및 스펙트럴 빈이 부정확하게 전송된 주파수 영역을 결정할 수 있다. 비트스트림 분석부(1230)는 주파수에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
예를 들어 대역폭 확장 기술은 일반적으로 고주파수 영역에 적용될 수 있다. 비트스트림 분석부(1230)는 스펙트럴 빈이 부정확하게 전송된 주파수 영역의 최소 주파수 값을 시작 주파수로 결정할 수 있다. 비트스트림 분석부(1230)는 시작 주파수부터 대역폭 확장 기술이 적용되어야함을 결정할 수 있다. 비트스트림 분석부(1230)는 시작 주파수를 복원 방법 선택부(1240)로 전송할 수 있다.
스케일 팩터 게인 및 글로벌 게인은 스펙트럴 빈을 스케일하기 위한 값이다. 비트스트림 분석부(1230)는 스케일 팩터 게인 및 글로벌 게인을 분석하여 복원된 오디오 신호의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 현재 프레임의 스케일 팩터 게인 및 글로벌 게인이 급격히 변화한 경우, 현재 프레임은 트랜지언트 신호라고 결정할 수 있다. 또한 비트스트림 분석부(1230)는 프레임들의 스케일 팩터 게인 및 글로벌 게인에 변화가 거의 없는 경우 프레임들이 스테이셔너리 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
윈도우 타입 시간 도메인의 오리지널 오디오 신호를 주파수 도메인으로 변환하기 위한 시간 간격에 대응될 수 있다. 비트스트림 분석부(1230)는 현재 프레임의 윈도우 타입이 "긺(long)"을 나타내는 경우, 현재 프레임이 스테이셔너리 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 현재 프레임의 윈도우 타입이 "짧음(short)"를 나타내는 경우, 현재 프레임이 트랜지언트(transient) 신호임을 결정할 수 있다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
버퍼 레벨은 프레임을 부호화하고 남은 가용 비트의 크기에 관한 정보이다. 버퍼 레벨은 Variable Bit Rate(VBR)을 이용하여 부호화할 때, 사용된다. 오리지널 오디오의 프레임이 변화가 없는 스테이셔너리 신호인 경우 오디오 부호화 장치는 적은 비트를 이용해서 오리지널 오디오를 부호화 할 수 있다. 하지만 오리지널 오디오의 프레임이 복잡한 트렌지언트 신호인 경우 오디오 부호화 장치는 많은 비트를 이용해서 오리지널 오디오를 부호화 할 수 있다. 오디오 부호화 장치는 스테이셔너리 신호를 부호화하여 남은 가용비트를 가지고 있다가 추후 트렌지언트 신호를 부호화할 때 사용할 수 있다. 즉 현재 프레임의 버퍼 레벨이 높다는 것은 현재 프레임이 스테이셔너리 신호라는 것을 의미한다. 또한 현재 프레임의 버퍼 레벨이 낮다는 것은 현재 프레임이 트렌지언트 신호라는 것을 의미한다. 비트스트림 분석부(1230)는 프레임들이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
Temporal Noise Shaping (TNS) 정보는 프리에코(pre-echo)를 줄이기 위한 정보이다. TNS 정보에 의하면 시간 도메인에서 어택(attack) 신호의 시작 위치를 알 수 있다. 어택 신호는 갑자기 나타난 큰 소리를 의미한다. 비트스트림 분석부(1230)는 TNS에 의하여 어택 신호의 시작 위치를 알 수 있으므로, 시작 위치 이전은 스테이셔너리 신호임을 결정할 수 있다. 또한 비트스트림 분석부(1230)는 시작 위치 이후는 트렌지언트 신호임을 결정할 수 있다
Perceptual Noise Substitution(PNS) 정보는 주파수 도메인에서 홀(hole)이 발생한 부분에 대한 정보를 나타낸다. 홀은 비트스트림의 비트를 절약하기 위하여 스펙트럴 빈이 전송되지 않고, 복호화 시 임의의 노이즈로 채워지는 부분을 의미한다. 비트스트림 분석부(1230)는 홀의 위치에 대한 정보를 복원 방법 선택부(1240)로 전송할 수 있다.
복원 방법 선택부(1240)는 복호화된 오디오 신호 및 복호화된 파라미터의 특징을 수신할 수 있다. 복원 방법 선택부(1240)는 복호화된 오디오 신호를 복원할 방법을 선택할 수 있다. 복원 방법 선택부(1240)의 선택에 기초하여 적어도 하나의 복원부 중 하나에 의하여 복호화된 오디오 신호가 복원될 수 있다.
적어도 하나의 복원부는 제1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 등이 있을 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 기계학습모델을 이용할 수 있다. 기계학습모델은 오리지널 오디오 신호, 복호화된 오디오 신호 및 복호화 파라미터 중 적어도 하나를 기계학습하여 생성된 모델일 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 데이터획득부(1251), 전처리부(1252) 및 결과제공부(1253)를 포함할 수 있다. 또한, 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 도 4 의 데이터학습부(410)를 포함할 수 있다. 제 1 복원부(1250), 제 2 복원부(1260) 및 제 N 복원부 중 적어도 하나는 복호화된 오디오 신호 및 복호화 파라미터 중 적어도 하나를 입력으로 수신할 수 있다.
본 개시의 일 실시예에 따르면, 복호화된 파라미터의 특징은 스펙트럴 빈이 정확하게 전송된 주파수 영역 및 스펙트럴 빈이 부정확하게 전송된 주파수 영역에 대한 정보일 수 있다. 현재 프레임에서 스펙트럴 빈이 정확하게 전송된 주파수 영역에 대해서, 복원 방법 선택부(1240)는 복호화된 파라미터 및 복호화된 오디오 신호 중 적어도 하나에 기초하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 복원 방법 선택부(1240)는 제 1 복원부(1250)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 1 복원부(1250)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다.
현재 프레임에서 스펙트럴 빈이 정확하게 전송되지 않은 주파수 영역에 대해서, 복원 방법 선택부(1240)는 대역폭 확장 기술을 이용하여 오디오 신호를 복원할 것을 결정할 수 있다. 대역폭 확장 기술에는 Spectral Band Replication(SBR)이 있다. 복원 방법 선택부(1240)는 제 2 복원부(1260)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 2 복원부(1260)는 기계학습모델에 의하여 개선된 대역 확장 기술을 이용하여 복원된 오디오 신호를 출력할 수 있다.
본 개시의 다른 실시예에 따르면, 복호화된 파라미터의 특징은 프레임이 스테이셔너리 신호인지 트랜지언트 신호인지에 대한 정보일 수 있다. 프레임이 스테이셔너리 신호인 경우, 복원 방법 선택부(1240)는 스테이셔너리 신호를 위한 제 1 복원부(1250)를 이용할 수 있다. 프레임이 트렌지언트 신호인 경우, 복원 방법 선택부(1240)는 트렌지언트 신호를 위한 제 2 복원부(1260)를 이용할 수 있다. 제 1 복원부(1250) 또는 제 2 복원부(1260)는 복원된 오디오 신호를 출력할 수 있다.
본 개시의 다른 실시예에 따르면, 복호화된 파라미터의 특징은 홀의 위치에 대한 정보일 수 있다. 홀의 위치가 아닌 신호들로 복호화된 오디오 신호에 대해서, 복원 방법 선택부(1240)는 복호화된 파라미터 및 복호화된 오디오 신호에 기초하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 복원 방법 선택부(1240)는 제 1 복원부(1250)를 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 제 1 복원부(1250)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다. 홀의 위치의 신호들로 복호화된 오디오 신호에 대해서, 복원 방법 선택부(1240)는 홀의 위치의 신호들을 위한 제 2 복원부(1260)를 이용할 수 있다. 제 2 복원부(1260)는 기계학습모델을 이용하여 복원된 오디오 신호를 출력할 수 있다.
복원 방법 선택부(1240)에 의하여 오디오 신호의 특성에 따라 복호화된 오디오 신호의 복원 방법을 선택할 수 있으므로, 오디오 복원 장치(100)는 효율적으로 오디오 신호를 복원할 수 있다.
도 13은 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다
단계 1310 에서, 오디오 복원 장치(100)는 비트스트림을 복호화(decoding)하여 현재 프레임에 대한 복수의 복호화 파라미터들을 획득한다. 단계 1320에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화한다. 단계 1330에서 오디오 복원 장치(100)는 복수의 복호화 파라미터들 중 적어도 하나 및 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택한다. 단계 1340에서 오디오 복원 장치(100)는 선택된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원한다.
도 13에 의한 오디오 복원 장치(100) 및 도 3 에 의한 오디오 복원 장치(100)는 복호화된 오디오 신호의 음직을 향상시킬 수 있다는 점에서 공통점이 있다. 또한 도 13에 의한 오디오 복원 장치(100)는 복호화 파라미터에 덜 의존하므로 범용성이 높을 수 있다.
이하에서는 도 14 및 도 15와 함께 오디오 복원 장치(100)의 동작에 대하여 보다 자세히 설명한다.
도 14는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
코덱 정보 도출부(1210)는 비트스트림을 수신할 수 있다. 오디오 신호 복호화부(1220)는 비트스트림에 기초하여 복호화된 오디오 신호를 출력할 수 있다.
비트스트림 분석부(1230)는 비트스트림에 기초하여 복호화 파라미터의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정할 수 있다(1410 단계).
그래프(1460)를 참조하면, 오디오 부호화 장치는 주파수(f) 보다 작은 주파수 영역에 대한 스펙트럴 빈을 정확하게 전송할 수 있다. 하지만 주파수(f)보다 큰 주파수 영역은 인간이 듣기 힘든 영역이므로, 오디오 부호화 장치는 스펙트럴 빈을 전송하지 않거나 부실하게 전송할 수 있다. 코덱 정보 도출부(1210)는 스펙트럴 빈에 기초하여 대역폭 확장의 시작 주파수(f)를 결정할 수 있다. 코덱 정보 도출부(1210)는 대역폭 확장의 시작 주파수(f)를 복원 방법 선택부(1240)로 출력할 수 있다.
복원 방법 선택부(1240)는 시작 주파수 및 복호화된 오디오 신호의 주파수에 기초하여 복호화된 오디오 신호의 기계학습모델을 선택할 수 있다. 복원 방법 선택부(1240)는 복호화된 오디오 신호의 주파수와 시작 주파수(f)를 비교할 수 있다(1420 단계). 또한 복원 방법 선택부(1240)는 비교에 기초하여 복호화 방법을 선택할 수 있다.
복호화된 오디오 신호의 주파수가 시작 주파수(f)보다 작다면, 복원 방법 선택부(1240)는 소정의 기계학습모델을 선택할 수 있다. 소정의 기계학습모델은 복호화된 오디오 신호 및 오리지널 오디오 신호에 의하여 프리-트레이닝될 수 있다. 오디오 복원 장치(100)는 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1430 단계).
복호화된 오디오 신호의 주파수가 시작 주파수(f)보다 크다면, 복원 방법 선택부(1240)는 대역폭 확장 기술을 이용하여 복호화된 오디오 신호를 복원할 것을 결정할 수 있다. 예를 들어, 복원 방법 선택부(1240)는 대역폭 확장 기술이 적용된 기계학습모델을 선택할 수 있다. 기계학습모델은 대역폭 확장 기술과 관련된 파라미터, 복호화된 오디오 신호 및 오리지널 오디오 신호 중 적어도 하나를 이용하여 프리-트레이닝될 수 있다. 오디오 복원 장치(100)는 대역폭 확장 기술이 적용된 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1440 단계).
도 15는 일 실시예에 따른 오디오 복원 방법의 흐름도를 도시한다.
코덱 정보 도출부(1210)는 비트스트림을 수신할 수 있다. 오디오 신호 복호화부(1220)는 비트스트림에 기초하여 복호화된 오디오 신호를 출력할 수 있다.
비트스트림 분석부(1230)는 비트스트림에 기초하여 복호화 파라미터의 특징을 획득할 수 있다. 예를 들어 비트스트림 분석부(1230)는 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인(A)을 획득할 수 있다(1510 단계). 또한 비트스트림 분석부(1230)는 현재 프레임 및 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득할 수 있다(1520 단계).
복원 방법 선택부(1240)는 현재 프레임의 게인과 상기 게인들의 평균값의 차이값을 임계값과 비교할 수 있다(1530 단계). 또한 복원 방법 선택부(1240)는 현재 프레임의 게인과 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택할 수 있다. 또한 오디오 복원 장치(100)는 트랜지언트 신호를 위한 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1550 단계).
복원 방법 선택부(1240)는 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 작은 경우, 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정할 수 있다(1540 단계). 또한 복원 방법 선택부(1240)는 윈도우 타입이 쇼트인 경우 트랜지언트 신호를 위한 기계학습모델을 선택할 수 있다(1550 단계). 복원 방법 선택부(1240)는 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택할 수 있다. 오디오 복원 장치(100)는 스테이셔너리 신호를 위한 기계학습모델을 이용하여 복호화된 오디오 신호를 복원할 수 있다(1560 단계).
트랜지언트 신호를 위한 기계학습모델은 트렌지언트로 분류된 오리지널 오디오 신호 및 복호화된 오디오 신호에 기초하여 기계학습될 수 있다. 스테이셔너리 신호를 위한 기계학습모델은 스테이셔너리로 분류된 오리지널 오디오 신호 및 복호화된 오디오 신호에 기초하여 기계학습될 수 있다. 스테이셔너리 신호와 트랜지언트 신호는 서로 특성이 다르며, 오디오 복원 장치(100)는 스테이셔너리 신호와 트랜지언트 신호를 별도로 기계학습하므로 보다 효율적으로 복호화된 오디오 신호를 복원할 수 있다.
이제까지 다양한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

Claims (19)

  1. 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계;
    상기 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 상기 복수의 복호화 파라미터들에 포함되며 상기 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하는 단계;
    상기 복수의 복호화 파라미터들, 상기 제 2 파라미터 및 상기 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하는 단계; 및
    상기 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  2. 제 1 항에 있어서,
    상기 오디오 신호를 복호화하는 단계는,
    상기 제 2 파라미터의 특성에 기초하여 상기 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하는 단계; 및
    상기 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  3. 제 2 항에 있어서,
    상기 제 2 파라미터의 특성을 결정하는 단계는,
    상기 제 1 파라미터에 기초하여, 상기 제 2 파라미터의 범위를 결정하는 단계를 포함하고,
    상기 보정된 제 2 파라미터를 획득하는 단계는,
    상기 복원된 제 2 파라미터가 상기 범위에 있지 않을 경우, 상기 복원된 제 2 파라미터와 가장 가까운 상기 범위의 값을 보정된 제 2 파라미터로 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  4. 제 1 항에 있어서,
    상기 제 2 파라미터의 특성을 결정하는 단계는,
    상기 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 상기 제 2 파라미터의 특성을 결정하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  5. 제 1 항에 있어서,
    상기 복원된 제 2 파라미터를 획득하는 단계는,
    상기 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하는 단계; 및
    상기 기계학습모델에 기초하여 상기 제 2 파라미터의 후보들 중 하나를 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  6. 제 1 항에 있어서,
    상기 복원된 제 2 파라미터를 획득하는 단계는,
    이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 상기 현재 프레임의 상기 복원된 제 2 파라미터를 획득하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  7. 제 1 항에 있어서,
    상기 기계학습모델은 오리지널 오디오 신호 및 상기 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 방법.
  8. 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하는 단계;
    상기 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하는 단계;
    상기 복수의 복호화 파라미터들 중 적어도 하나 및 상기 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하는 단계; 및
    상기 선택된 기계학습모델을 이용하여 상기 복호화된 오디오 신호를 복원하는(reconstructing) 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  9. 제 8 항에 있어서,
    상기 기계학습모델은 상기 복호화된 오디오 신호 및 오리지널 오디오 신호를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 방법.
  10. 제 8 항에 있어서,
    상기 기계학습모델을 선택하는 단계는,
    상기 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 대역폭 확장(band width extension)의 시작 주파수를 결정하는 단계; 및
    상기 시작 주파수 및 상기 복호화된 오디오 신호의 주파수에 기초하여 상기 복호화된 오디오 신호의 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  11. 제 8 항에 있어서,
    상기 기계학습모델을 선택하는 단계는,
    상기 복수의 복호화 파라미터들 중 적어도 하나에 기초하여 현재 프레임의 게인을 획득하는 단계;
    상기 현재 프레임 및 상기 현재 프레임에 인접한 프레임들의 게인들의 평균을 획득하는 단계;
    상기 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 큰 경우 트랜지언트(transient) 신호를 위한 기계학습모델을 선택하는 단계;
    상기 현재 프레임의 게인과 상기 게인들의 평균값의 차이값이 임계값보다 작은 경우, 상기 복수의 복호화 파라미터들에 포함된 윈도우 타입이 쇼트(short)인지를 결정하는 단계;
    상기 윈도우 타입이 쇼트인 경우 상기 트랜지언트 신호를 위한 기계학습모델을 선택하는 단계; 및
    상기 윈도우 타입이 쇼트가 아닌 경우, 스테이셔너리(stationary) 신호를 위한 기계학습모델을 선택하는 단계를 포함하는 것을 특징으로 하는 오디오 복원 방법.
  12. 수신된 비트스트림을 저장하는 메모리; 및
    상기 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 상기 복수의 복호화 파라미터들에 포함되는 제 1 파라미터에 기초하여, 상기 복수의 복호화 파라미터들에 포함되며 상기 제 1 파라미터와 연관되는 제 2 파라미터의 특성을 결정하고, 상기 복수의 복호화 파라미터들, 상기 제 2 파라미터 및 상기 제 2 파라미터의 특성 중 적어도 하나에 기계학습모델을 적용하여 복원된(reconstructed) 제 2 파라미터를 획득하고, 상기 복원된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 적어도 하나의 프로세서를 포함하는 것을 특징으로 하는 오디오 복원 장치.
  13. 제 12 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제 2 파라미터의 특성에 기초하여 상기 복원된 제 2 파라미터를 보정하여 보정된 제 2 파라미터를 획득하고, 상기 보정된 제 2 파라미터에 기초하여 오디오 신호를 복호화하는 것을 특징으로 하는 오디오 복원 장치.
  14. 제 12 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제 1 파라미터 및 상기 제 2 파라미터 중 적어도 하나에 기초하여 프리-트레이닝된(pre-trained) 기계학습모델을 이용하여 상기 제 2 파라미터의 특성을 결정하는 것을 특징으로 하는 오디오 복원 장치.
  15. 제 12 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 제 2 파라미터의 특성에 기초한 제 2 파라미터의 후보들을 결정하고, 상기 기계학습모델에 기초하여 상기 제 2 파라미터의 후보들 중 하나를 선택하여 상기 복원된 제 2 파라미터를 획득하 는 단계를 포함하는 것을 특징으로 하는 오디오 복원 장치.
  16. 제 12 항에 있어서,
    상기 적어도 하나의 프로세서는,
    이전 프레임의 복수의 복호화 파라미터들 중 적어도 하나에 더 기초하여 상기 현재 프레임의 상기 복원된 제 2 파라미터를 획득하는 것을 특징으로 하는 오디오 복원 장치.
  17. 제 12 항에 있어서,
    상기 적어도 하나의 프로세서는,
    상기 기계학습모델은 오리지널 오디오 신호 및 상기 복수의 복호화 파라미터들 중 적어도 하나를 기계학습하여 생성되는 것을 특징으로 하는 오디오 복원 장치.
  18. 수신된 비트스트림을 저장하는 메모리; 및
    상기 비트스트림을 복호화하여(decoding) 현재 프레임에 대한 복수의 복호화 파라미터들을 획득하고, 상기 복수의 복호화 파라미터들에 기초하여 오디오 신호를 복호화하고, 상기 복수의 복호화 파라미터들 중 적어도 하나 및 상기 복호화된 오디오 신호에 기초하여 복수의 기계학습모델들 중 하나의 기계학습모델을 선택하고, 상기 선택된 기계학습모델을 이용하여 상기 복호화된 오디오 신호를 복원하는(reconstructing) 적어도 하나의 프로세서를 포함하는 것을 특징으로 하는 오디오 복원 장치.
  19. 제 1 항 또는 제 8 항 중 어느 한 항의 방법을 실행하기 위한 컴퓨터 프로그램을 기록한 컴퓨터로 판독 가능한 기록매체.
PCT/KR2017/011786 2017-10-24 2017-10-24 기계학습을 이용한 오디오 복원 방법 및 장치 WO2019083055A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020207006359A KR102551359B1 (ko) 2017-10-24 2017-10-24 기계학습을 이용한 오디오 복원 방법 및 장치
CN201780095363.XA CN111164682A (zh) 2017-10-24 2017-10-24 使用机器学习的音频重建方法和设备
PCT/KR2017/011786 WO2019083055A1 (ko) 2017-10-24 2017-10-24 기계학습을 이용한 오디오 복원 방법 및 장치
US16/652,759 US11545162B2 (en) 2017-10-24 2017-10-24 Audio reconstruction method and device which use machine learning
EP17929628.0A EP3667663A4 (en) 2017-10-24 2017-10-24 METHOD AND DEVICE FOR AUDIO RECONSTRUCTION USING AUTOMATIC LEARNING

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2017/011786 WO2019083055A1 (ko) 2017-10-24 2017-10-24 기계학습을 이용한 오디오 복원 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2019083055A1 true WO2019083055A1 (ko) 2019-05-02

Family

ID=66247840

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/011786 WO2019083055A1 (ko) 2017-10-24 2017-10-24 기계학습을 이용한 오디오 복원 방법 및 장치

Country Status (5)

Country Link
US (1) US11545162B2 (ko)
EP (1) EP3667663A4 (ko)
KR (1) KR102551359B1 (ko)
CN (1) CN111164682A (ko)
WO (1) WO2019083055A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021032719A1 (en) * 2019-08-20 2021-02-25 Dolby International Ab Multi-lag format for audio coding
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416742B2 (en) * 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
US11106729B2 (en) * 2018-01-08 2021-08-31 Comcast Cable Communications, Llc Media search filtering mechanism for search engine
US11501787B2 (en) * 2019-08-22 2022-11-15 Google Llc Self-supervised audio representation learning for mobile devices
US20210199503A1 (en) * 2019-12-26 2021-07-01 Industrial Technology Research Institute Data processing system disposed on sensor and method thereof
CN111653285B (zh) * 2020-06-01 2023-06-30 北京猿力未来科技有限公司 丢包补偿方法及装置
KR102334390B1 (ko) * 2020-06-24 2021-12-01 연세대학교 산학협력단 인공지능 기술을 활용한 코덱 압축 효율 향상 장치 및 방법
CN111798866A (zh) * 2020-07-13 2020-10-20 商汤集团有限公司 音频处理网络的训练及立体声重构方法和装置
KR102618581B1 (ko) 2023-03-30 2023-12-27 엘아이지넥스원 주식회사 초고해상도 레이더를 위한 노치 대역의 신호를 추정하기 위한 장치 및 그 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040047361A (ko) * 2002-11-29 2004-06-05 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US20150269953A1 (en) * 2012-10-16 2015-09-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction
WO2016040885A1 (en) * 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9640194B1 (en) * 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100446594B1 (ko) 1997-04-15 2005-06-02 삼성전자주식회사 음성선스펙트럼주파수의부호화/복호화장치및그방법
KR101513028B1 (ko) 2007-07-02 2015-04-17 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법
WO2009038402A1 (en) 2007-09-21 2009-03-26 Lg Electronics Inc. Digital broadcasting system and data processing method in the digital broadcasting system
KR101461774B1 (ko) * 2010-05-25 2014-12-02 노키아 코포레이션 대역폭 확장기
WO2012158705A1 (en) 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040047361A (ko) * 2002-11-29 2004-06-05 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US9640194B1 (en) * 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US20150269953A1 (en) * 2012-10-16 2015-09-24 Audiologicall, Ltd. Audio signal manipulation for speech enhancement before sound reproduction
WO2016040885A1 (en) * 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP3667663A4 *
VOLODYMYR KULESHOV: "AUDIO SUPER-RESOLUTION USING NEURAL NETS", THE 5TH INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR 2017, 2 August 2017 (2017-08-02), XP080951067 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021032719A1 (en) * 2019-08-20 2021-02-25 Dolby International Ab Multi-lag format for audio coding
WO2021172053A1 (ja) * 2020-02-25 2021-09-02 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
KR102551359B1 (ko) 2023-07-04
US11545162B2 (en) 2023-01-03
EP3667663A4 (en) 2020-09-02
CN111164682A (zh) 2020-05-15
KR20200062183A (ko) 2020-06-03
US20200234720A1 (en) 2020-07-23
EP3667663A1 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
WO2019083055A1 (ko) 기계학습을 이용한 오디오 복원 방법 및 장치
WO2020231230A1 (en) Method and apparatus for performing speech recognition with wake on voice
WO2018124620A1 (en) Method and device for transmitting and receiving audio data
WO2020235712A1 (ko) 콘텐츠 기반의 스타일을 갖는 텍스트 또는 음성을 생성하는 인공 지능 장치 및 그 방법
WO2020111676A1 (ko) 음성 인식 장치 및 방법
WO2021225256A1 (ko) 전자 장치 및 이의 제어 방법
WO2012036487A2 (en) Apparatus and method for encoding and decoding signal for high frequency bandwidth extension
WO2020101263A1 (en) Electronic apparatus and method for controlling thereof
WO2020153736A1 (en) Method and device for speech recognition
WO2019124963A1 (ko) 음성 인식 장치 및 방법
WO2020145472A1 (ko) 화자 적응형 모델을 구현하고 합성 음성 신호를 생성하는 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
WO2016024853A1 (ko) 음질 향상 방법 및 장치, 음성 복호화방법 및 장치와 이를 채용한 멀티미디어 기기
WO2014185569A1 (ko) 오디오 신호의 부호화, 복호화 방법 및 장치
WO2020230926A1 (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
WO2020226213A1 (ko) 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
WO2020130260A1 (en) Mobile terminal and method of operating the same
WO2018174397A1 (ko) 전자 장치 및 제어 방법
WO2015170899A1 (ko) 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치
WO2020130262A1 (ko) 컴퓨팅 장치 및 그 동작 방법
WO2019054792A1 (ko) 컨텐트를 제공하는 방법 및 단말기
WO2020153717A1 (en) Electronic device and controlling method of electronic device
WO2021246812A1 (ko) 딥러닝 nlp 모델을 활용한 뉴스 긍정도 분석 솔루션 및 장치
WO2015093742A1 (en) Method and apparatus for encoding/decoding an audio signal
WO2022035183A1 (ko) 사용자의 음성 입력을 인식하는 디바이스 및 그 동작 방법
EP3818518A1 (en) Electronic apparatus and method for controlling thereof

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17929628

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017929628

Country of ref document: EP

Effective date: 20200310

NENP Non-entry into the national phase

Ref country code: DE