WO2015162500A2 - 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 - Google Patents

고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 Download PDF

Info

Publication number
WO2015162500A2
WO2015162500A2 PCT/IB2015/001365 IB2015001365W WO2015162500A2 WO 2015162500 A2 WO2015162500 A2 WO 2015162500A2 IB 2015001365 W IB2015001365 W IB 2015001365W WO 2015162500 A2 WO2015162500 A2 WO 2015162500A2
Authority
WO
WIPO (PCT)
Prior art keywords
band
envelope
subband
bit allocation
allocation information
Prior art date
Application number
PCT/IB2015/001365
Other languages
English (en)
French (fr)
Other versions
WO2015162500A3 (ko
Inventor
주기현
오은미
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to EP21185891.5A priority Critical patent/EP3913628A1/en
Priority to KR1020227016423A priority patent/KR102653849B1/ko
Priority to KR1020247010397A priority patent/KR20240046298A/ko
Priority to CN201580027514.9A priority patent/CN106463133B/zh
Priority to EP15783391.4A priority patent/EP3128514A4/en
Priority to JP2016558776A priority patent/JP6616316B2/ja
Priority to US15/129,184 priority patent/US10468035B2/en
Priority to CN202010118463.3A priority patent/CN111105806B/zh
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to SG11201609834TA priority patent/SG11201609834TA/en
Priority to KR1020167026624A priority patent/KR102400016B1/ko
Publication of WO2015162500A2 publication Critical patent/WO2015162500A2/ko
Publication of WO2015162500A3 publication Critical patent/WO2015162500A3/ko
Priority to US16/592,876 priority patent/US10909993B2/en
Priority to US17/138,106 priority patent/US11688406B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Definitions

  • the present invention relates to audio encoding and decoding, and more particularly, to a high band encoding method and apparatus for widening bandwidth and a high band decoding method and apparatus.
  • the coding scheme of G.719 is developed and standardized for the purpose of teleconference, and performs a frequency domain transformation by performing Modified Discrete Cosine Transform (MDCT), in the case of a stationary frame.
  • MDCT Modified Discrete Cosine Transform
  • the non-stat iffy frame which directly coded the MDCT sequence, is modified to account for the temporal characteristics by changing the time domain aliasing order.
  • the strings obtained for the stationary frame in year may be configured in a similar form to the stationary frame by performing interleaving to configure the codec with the same framework as the stationary frame.
  • the energy of the struts constructed as described above is obtained and normalized and then quantized. In general, energy is expressed as an RMS value, and a normalized spectrum generates bits necessary for each band through energy-based bit allocation, and generates a bitstream through quantization and lossless coding based on band-specific bit allocation information.
  • the reverse process of the coding scheme dequantizes the energy in the bitstream, generates bit allocation information based on the dequantized energy, and performs normalized dequantization by performing dequantization of the stitches. Creates a string. In this case, if the bit is insufficient, there may be no dequantized string in a specific band. In order to generate noise for this specific band, a noise filling method is applied to generate a noise codebook based on a low frequency dequantized spectrum and generate noise according to the transmitted noise level.
  • An object of the present invention is to provide a high-band encoding method and apparatus, and a high-band decoding method and apparatus and a multimedia device employing the same for the bandwidth extension to improve the reconstructed sound quality.
  • a high-band encoding method comprising: generating bit allocation information for each subband based on a full-band envelope; Determining a subband requiring an envelope update in a high band based on bit allocation information for each subband; And generating refinement data related to an envelope update for the determined subband.
  • a high-band encoding apparatus generates bit allocation information for each subband based on a full-band envelope, and requires an envelope update at a high band based on bit allocation information for each subband.
  • At least one processor may be configured to determine a subband and generate refinement data related to an envelope update for the determined subband.
  • a high-band decoding method comprising: generating bit allocation information for each subband based on a full-band envelope; Determining a subband requiring an envelope update in a high band based on bit allocation information for each subband; And updating the envelope by decoding the refinement data related to the envelope update with respect to the determined subband.
  • a high-band decoding apparatus for achieving the above problem is to generate bit allocation information for each subband based on the full-band envelope, and to require the envelope update in the high band based on the bit allocation information for each subband
  • At least one processor may be configured to determine a subband and to decode refinement data related to an envelope update for the determined subband to update the envelope.
  • At least one subband including the critical information in the high band improves the reconstructed sound quality by expressing the information in Norm.
  • 1 is a diagram illustrating an example of a subband configuration of a low band and a high band according to an embodiment.
  • 2A to 2C illustrate R0 and R1 bands divided into R2 and R3, R4 and R5 based on a selected coding scheme according to an embodiment.
  • FIG. 3 is a diagram illustrating an example of a configuration of a high band subband according to an embodiment.
  • 4 is a diagram illustrating a concept of a high-band encoding method according to an embodiment.
  • 5 is a block diagram illustrating a configuration of an audio encoding apparatus according to an embodiment.
  • 6 is a block diagram illustrating a configuration of a BWE parameter generator according to an embodiment.
  • 7 is a block diagram illustrating a configuration of a high frequency encoding apparatus according to an embodiment.
  • 8 is a block diagram illustrating a configuration of an envelope refinement unit illustrated in FIG. 7.
  • FIG. 9 is a block diagram illustrating a configuration of a low frequency encoding apparatus shown in FIG. 5.
  • 10 is a block diagram illustrating a configuration of an audio decoding apparatus according to an embodiment.
  • 11 is a block diagram illustrating a partial configuration of a high frequency decoder according to an embodiment.
  • FIG. 12 is a block diagram illustrating a configuration of an envelope refinement unit illustrated in FIG. 11.
  • FIG. 13 is a block diagram illustrating a configuration of a low frequency decoding apparatus shown in FIG. 10.
  • FIG. 14 is a block diagram illustrating a configuration of the coupling unit illustrated in FIG. 10.
  • 15 is a block diagram illustrating a configuration of a multimedia apparatus including coding modules according to an embodiment.
  • 16 is a block diagram illustrating a configuration of a multimedia apparatus including decoding caps according to an embodiment.
  • FIG. 17 is a block diagram illustrating a configuration of a multimedia apparatus including coded hairs and coded hairs, according to an exemplary embodiment.
  • FIG. 18 is a flowchart illustrating an operation of an audio encoding method, according to an embodiment.
  • 19 is a flowchart illustrating an operation of an audio decoding method, according to an embodiment.
  • first and second may be used to describe various components, but the components are not limited by the terms. The terms are only used to distinguish one component from another.
  • the sampling rate is 32 kHz
  • the 640 MDCT spectral coefficients include 22 bands, specifically, 17 bands for the low band and 5 bands for the high band.
  • the start frequency of the high band is the 241 th spectral coefficient
  • the spectral coefficients from 0 to 240 may be defined as R0 as an area coded by a low frequency coding scheme, that is, a core coding scheme.
  • the spectral coefficients of 241 to 639 may be defined as R1 as a high band where bandwidth extension (BWE) is performed.
  • a band coded by a low frequency coding scheme may also exist in the R1 region according to bit allocation information.
  • R1 region which is a BWE region
  • R0 region which is a low frequency coding region
  • R4 and R5 respectively, the R1 region, which is a BWE region, may be divided into R2 and R3, and the R0 region, which is a low frequency coding region, may be divided into R4 and R5.
  • R2 denotes a band including a signal that is quantized and lossless coded by a low frequency coding scheme, for example, a frequency domain coding scheme
  • R3 denotes a band where no signal is coded by the low frequency coding scheme.
  • R5 denotes a band where bits are allocated and coding is performed in a low frequency coding scheme
  • R4 denotes a band to which noise is added due to no coding or fewer bits even though it is a low band signal because there is no bit margin. Therefore, the division of R4 and R5 may be determined by adding noise, which may be determined by the ratio of the number of stitches in the low frequency coded band, or when using FPC, may be determined based on the in-band fill allocation information. have. Since the R4 and R5 bands can be distinguished when noise is added in the decoding process, they may not be clearly distinguished in the encoding process.
  • R2-R5 band is not only different information to be encoded, but may be applied differently to the decoding scheme.
  • two bands up to 170-240 in the low frequency coding region R0 are R4 which adds noise, and two bands up to 241-350 and 427-639 in the BWE region R1.
  • Two bands are R2 coded with a low frequency coding scheme.
  • one band up to 202-240 in the low frequency coding region R0 adds noise, and all five bands up to 241-639 in the BWE region R1 are low frequency coding schemes. Is R2 coded.
  • three bands up to 144-240 in the low frequency coding region R0 are R4 to which noise is added, and R2 in the BWE region R1 is not present.
  • R4 may normally be distributed in the high frequency portion, but in the BWE region R1, R2 is not limited to the specific frequency portion.
  • FIG. 3 is a diagram illustrating an example of a configuration of a high band subband of a wideband (WB) according to an embodiment.
  • the 32 KHz sampling rate is 32 kHz
  • 640 MDCT spectrum coefficients may be configured with 14 bands for the middle and high bands.
  • 100 Hz contains four stitch coefficients, so the first band of 400 Hz can contain 16 stitch coefficients.
  • Reference numeral 310 denotes a high band of 6.4 to 14.4 KHz
  • reference numeral 330 denotes a subband configuration for a high band of 8.0 to 16.0 KHz.
  • the scale factor of the low band and the high band may be expressed differently.
  • scale factor Can be expressed as energy, envelope, and average power black as Norm.
  • low-band is used to obtain Norm black envelopes to perform scalar quantization and lossless coding
  • high-bands to obtain efficient Norm black envelopes to perform vector quantization.
  • information about the norm can be expressed in a subband including important spectrum information in the high band by using a low frequency coding method.
  • subbands that perform encoding based on a low frequency coding scheme in a high band may additionally include ref inement data for compensating high frequency Norm in a bitstream and transmit the same.
  • ref inement data for compensating high frequency Norm in a bitstream
  • high-band meaningful strut components can be accurately represented, contributing to improved reconstruction sound quality.
  • FIG. 4 is a diagram illustrating a method of expressing a full-scale scale factor according to an embodiment.
  • the low band 410 may be expressed as Norm
  • the high band 430 may be expressed as an delta between the envelope and Norm, if necessary.
  • Norm of lowband 410 may be scalar quantized
  • envelope of highband 430 may be vector quantized.
  • the subband 450 When expressed in delta with Norm in the high band, it may correspond to the subband 450 that is determined to contain an important string component.
  • the subband is configured based on the band division information (B fb ) of the entire band
  • the high band is the band division information of the high band.
  • the subband may be configured based on (B hb ).
  • the band division information B fb of the full band and the band division information B hb of the high band may be the same or different.
  • the band split information B fb of the full band and the band split information B hb of the high band are different, the Norm of the high band can be expressed through a mapping process.
  • Table 1 below shows an example in which the low band subbands are configured according to the full band division information (B fb ).
  • the band division information B fb of the full band may be the same regardless of the bit rate.
  • p is a subband index
  • L p is the number of stitches in the subband
  • s p is the start frequency index of the subband
  • e p is the end frequency index of the subband.
  • Norm black can calculate the spectral energy.
  • Equation 1 Equation 1 below may be used.
  • y (k) is a spectral coefficient obtained through time-frequency conversion, and may be, for example, an MDCT spectral coefficient.
  • an envelope may be obtained based on the same method as Norm, and Norms obtained for each subband according to the band configuration may be defined as an envelope.
  • Norm and envelope can be used in the same concept.
  • the obtained low band Norm black, low frequency Norm can be scalar quantized and then lossless coded.
  • Norm's scalar quantization can be performed using, for example, the table in Table 2 below.
  • the obtained high band envelope can be vector quantized. Quantized envelope
  • E q (p) can be defined.
  • Tables 3 and 4 show high band configurations for bitrates 24.4 kbps and 32 kbps, respectively.
  • the audio encoding apparatus shown in FIG. 5 may include a BWE parameter generator 510, a low frequency encoder 530, a high frequency encoder 550, and a multiplexer 570. Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the input signal may mean a music black is a voice, a black is a mixed signal of music and voice, and may be divided into a voice signal and another general signal.
  • the audio signal will be referred to collectively.
  • the BWE parameter generator 510 may generate a BWE parameter for bandwidth extension.
  • the BWE parameter is the excitation class (exci tat ion c lass) It may correspond to.
  • the BWE parameter may include parameters different from the excitation class.
  • the BWE parameter generator 510 may generate the excitation class based on signal characteristics in units of frames. Specifically, it may be determined whether the input signal has a voice characteristic or a tonal characteristic, and one of the plurality of excitation classes may be determined based on the determination result.
  • the plurality of excitation classes may include an excitation class associated with voice, an excitation class associated with tonal music, and an excitation class associated with year-tonal music.
  • the determined excitation class may be included in the bitstream and transmitted.
  • the low frequency encoder 530 may perform encoding on the low band signal to generate an encoded stitch coefficient. Also, the low frequency encoder 530 may encode information related to energy of the low band signal. According to the exemplary embodiment, the low frequency encoder 530 may generate a low frequency spectrum by converting the low band signal into the frequency domain, and quantize the low frequency spectrum to generate quantized spectral coefficients. For the domain transformation, Modified Discrete Cosine Transform (MDCT) may be used, but is not limited thereto. PVQ may be used for quantization, but the present invention is not limited thereto.
  • MDCT Modified Discrete Cosine Transform
  • PVQ may be used for quantization, but the present invention is not limited thereto.
  • the high frequency encoder 550 may perform encoding on the high band signal to generate a parameter required for bandwidth extension in the decoder terminal or a parameter for bit allocation.
  • Parameters required for bandwidth extension may include additional information and information related to the energy of the high band signal.
  • the energy may be expressed as an envelope, a scale factor, and an average power black as Norm.
  • the additional information is information about a band including a critical component in the high band, and may be information related to a thread component included in a specific band in the high band.
  • the high frequency encoder 550 may convert the high band signal into a frequency domain to generate a high frequency spectrum, and quantize information related to energy of the high frequency spectrum. MDCT may be used for domain conversion, but is not limited thereto.
  • Vector quantization may be used for quantization, but is not limited thereto.
  • the multiplexer 570 may generate a bitstream including BWE parameters, that is, excitation class, parameters required for bandwidth extension, and low-band quantized spectrum coefficients.
  • the bitstream can be transmitted or stored.
  • the parameters required for bandwidth extension may include a high band envelope quantization index and a high band refinement data.
  • the frequency domain BWE scheme can be applied in combination with the time domain coding part.
  • the CELP scheme may be mainly used for time domain coding, and may be implemented to code a low band with the CELP scheme and to be combined with the BWE scheme in the time domain instead of the BWE in the frequency domain.
  • the coding scheme can be selectively applied based on the determination of the coding scheme between the time domain coding and the frequency domain coding.
  • Signal classification is required to select an appropriate coding scheme, and according to an embodiment, the excitation class for each frame may be determined using the signal classification result first.
  • FIG. 6 is a block diagram illustrating a configuration of a BWE parameter generator 510 of FIG. 5, which may include a signal classifier 610 and an excitation class generator 630.
  • the signal classifying unit 610 may analyze signal characteristics in units of frames to classify whether a current frame is a voice signal and determine an excitation class according to the classification result.
  • Signal classification processing can be performed using various known methods, for example, short-term and / or long-term characteristics. Short-term and / or long-term characteristics may be frequency domain characteristics or time domain characteristics.
  • Short-term and / or long-term characteristics may be frequency domain characteristics or time domain characteristics.
  • a method of allocating a fixed type of excitation class may help to improve sound quality, rather than a method based on a characteristic of a high band signal.
  • the signal classification process may be performed on the current frame without considering the classification result of the previous frame.
  • the current frame may be finally determined by frequency domain coding in consideration of a hangover, if the current frame itself is classified as a time domain coding method, a fixed excitation class may be assigned. For example, if the current frame is classified as a speech signal for which time domain coding is appropriate, the excitation class may be set to the first excitation class related to the speech characteristic.
  • the excitation class generator 630 may determine the excitation class using at least one or more thresholds. According to the embodiment, the excitation class generator 630 calculates a high band tonality value when the current frame is not classified as a voice signal as a result of the classification of the signal classifier 610, and thresholds the tonality value. You can determine the class here by comparing with. A plurality of thresholds may be used according to the number of classes here. When one threshold is used, it can be classified as a tonal music signal when the tonality value is greater than the threshold, and as a year-tonal music signal, for example a noisy signal, when the tonality value is smaller than the threshold. If the current frame is classified as a tonal music signal, the class here When classified as a related second excitation class, a noisy signal, it may be determined as a third excitation class related to the year-tonal characteristic.
  • the high-band encoder shown in FIG. 7 may include a first envelope quantizer 710, a second envelope quantizer 730, and an envelope refinement unit 750. Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the first envelope quantization unit 710 may quantize a low band envelope.
  • the low band envelope may be vector quantized.
  • the low 12 envelope quantization unit 730 may quantize a high band envelope.
  • the high band envelope may be vector quantized.
  • energy control may be performed on the high band envelope. Specifically, the energy control element is obtained from the difference between the tonality of the high band spectrum generated by the original string and the tonality of the original string, and the energy control is performed on the high band envelope based on the energy control element. And quantize the high-band envelope on which energy control has been performed.
  • the high-band envelope quantization index resulting from the quantization may be included or stored in the bitstream.
  • the envelope refinement unit 750 generates bit allocation information for each subband based on the full-band envelope obtained from the low band envelope and the high band envelope, and generates the bit allocation information for each subband based on the bit allocation information for each subband.
  • a subband requiring an update may be determined, and refinement data related to an envelope update may be generated for the determined subband.
  • the full band envelope may be obtained by mapping the band configuration of the high band envelope to the band configuration of the low band envelope and combining the mapped high band envelope with the low band envelope.
  • the envelope refinement unit 750 may determine a subband to which a bit is allocated in the high band as a subband to transmit the envelope update and refinement data.
  • the envelope refinement unit 750 may update the bit allocation information based on the number of bits used to express refinement data for the determined subband.
  • the updated bit allocation information can be used for spectrum coding.
  • the refinement data may include the required bits, the minimum value and the delta value of Norm.
  • FIG. 8 illustrates a detailed configuration of the envelope refinement unit 750 illustrated in FIG. 7. This is a block diagram.
  • the envelope refinement unit 730 illustrated in FIG. 8 includes a mapping unit 810, a coupling unit 820, a first bit allocation unit 830, a delta encoder 840, an envelope update unit 850, and a second unit.
  • the assignment 860 to the bit can be included hamhal II.
  • Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the mapping unit 810 may map an envelope of a high band to a band configuration that is subjected to band division information of the entire band for frequency matching.
  • the quantized high band envelope provided from the second envelope quantization unit 730 may be inversely quantized, and a high band mapped envelope may be obtained from the dequantized envelope.
  • the high-band dequantized envelope is referred to as E ' q (p)
  • the high-band mapped envelope is referred to as N M (p). If the band configuration of the full band and the band configuration of the high band are the same, the high band quantized envelope may be scalar quantized as E q (p).
  • the band configuration of the full band and the band configuration of the high band is different, it is necessary to match the high band quantized envelope with E q (p) to the full band configuration, that is, the low band configuration. have. This may be performed based on the number of stitches of the high band subband included in the low band subband.
  • the mapping process may be performed as follows.
  • N M (32) ⁇ E ' q (3) * 2 + E' q (4) ⁇ / 3
  • N M (33) ⁇ E ' q (4) + ⁇ '' q (5) * 2 ⁇ / 3
  • N M (34) ⁇ E ' q (5) + ⁇ '' q (6) * 2 ⁇ / 3
  • N m (36) ⁇ E ' q (8) * 3 + E' q (9) ⁇ / 4
  • N m (37) ⁇ E ' q (9) * 3 + E' q (10) ⁇ / 4
  • N m (38) ⁇ E ' q (10) + E' q (ll) * 3 ⁇ / 4
  • Tables 1 and 4 above as an example, if the end frequency index of the subband ends in 639, the band allocation up to full band (48K sampling rate) is done in the case of ending in 799. it means.
  • the high band mapped envelope N M (p) may be quantized again. At this time, scalar quantization may be used.
  • the combiner 820 may combine the quantized low band envelope N q (p) and the quantized high band mapped envelope N M (p) to obtain the full band envelope N q (p).
  • the low U bit allocation unit 830 may perform initial bit allocation for performing quantization on a subband basis based on the envelope N q (p) of the full band. In this case, the initial bit allocation may be allocated more bits when Norm is large based on Norm obtained from the envelope of the full band. Based on the obtained initial bit allocation information, whether or not to perform envelope refinement on the current frame may be determined. If there is a subband to which bits are allocated in the high band, delta coding needs to be performed to refine the high band envelope.
  • a subband allocated with bits in the high band may be determined as a subband requiring an envelope update.
  • envelope refinement processing is unnecessary, and initial bit allocation information can be used for low-band spectrum coding and / or envelope coding.
  • the operation of the delta encoder 840, the envelope updater 850, and the second bit allocator 860 may be determined according to initial bit allocation information obtained by the first bit allocation unit 830.
  • the first bit allocation unit 830 may perform bit allocation on a decimal point basis.
  • the delta encoder 840 is configured to convert between the mapped envelope N M (p) and the quantized envelope N q (p) using the original spectrum for a subband requiring envelope update.
  • the difference, or delta can be obtained and encoded.
  • the delta may be represented by Equation 2 below.
  • the delta encoder 840 may generate Norm update information, that is, refinement data.
  • the refinement data may include necessary bits, minimum values, and delta values.
  • the envelope updater 850 may update the Norm value, that is, the envelope, using the delta value.
  • N q (p) N M (p) + D q (p)
  • the 12-bit allocation unit 860 may update bit allocation information for each band by the bits used to express the delta value to be transmitted.
  • the band is changed from low frequency to high frequency, black to high frequency to low frequency in order to provide a more sophisticated bit for encoding a delta value, and decreases by one bit when a specific number of bits is allocated. city Can kill.
  • the updated bit allocation information may be used for spectrum quantization.
  • FIG. 9 is a block diagram illustrating a configuration of the low frequency encoding apparatus illustrated in FIG. 5 and may include a quantization unit 910.
  • the quantization unit 910 may perform string quantization based on bit allocation information provided from the first bit allocation unit 830 or the second bit allocation unit 860.
  • PVQ Physical Vector Quant zat ion
  • the quantization unit 910 may perform normalization based on the updated envelope, that is, the Norm value, and perform quantization on the normalized string.
  • noise level information required for the noise filling process may be additionally calculated and encoded.
  • the audio decoding apparatus illustrated in FIG. 10 may include a demultiplexer 1010, a BWE parameter decoder 1030, a high frequency decoder 1050, a low frequency decoder 1070, and a combiner 1090.
  • the audio decoding apparatus may further include an inverse transform unit.
  • Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the input signal may mean music black is a voice, black is a mixed signal of music and voice, and may be largely divided into a voice signal and other general signals.
  • the demultiplexer 1010 may generate a parameter required for decoding by parsing a received bitstream.
  • the BWE parameter decoder 1030 may decode the BWE parameter from the bitstream.
  • the BWE parameter may correspond to a class here.
  • the BWE parameter may include parameters different from the excitation class.
  • the high frequency decoder 1050 may generate a high frequency excitation spectrum using the decoded low frequency spectrum and the excitation class. According to another exemplary embodiment, the high frequency decoding unit 1050 decodes a parameter black or a bit allocation necessary for bandwidth extension from a bitstream, and a parameter black or bit allocation necessary for bandwidth extension and a decoded low band signal. Information relating to the energy of can be applied to the high frequency excitation spectrum.
  • Parameters necessary for bandwidth extension may include information related to energy of the high band signal and additional information.
  • the side information contains important strut components at high bands. Is information about a band, and may be information related to a spectral component included in a specific band in the high band. Information related to the energy of the highband signal can be vector dequantized.
  • the low frequency decoder 1070 may generate a low frequency spectrum by decoding the encoded band coefficients of the low band from the bitstream.
  • the low frequency decoder 1070 may decode information related to energy of the low band signal.
  • the combiner 1090 may combine the stitches provided from the low frequency decoder 1070 and the stitches provided from the high frequency decoder 1050.
  • the inverse transform unit (not shown) may inversely transform the combined stitches into the time domain.
  • Inverse MDCT IMDCT
  • IMDCT Inverse MDCT
  • FIG. 11 is a block diagram illustrating a partial configuration of a high frequency decoder 1050 according to an embodiment.
  • the high frequency decoder 1050 illustrated in FIG. 11 may include a first envelope inverse quantizer 1110, a second envelope inverse quantizer 1130, and an envelope refinement unit 1150. Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the first envelope dequantization unit 1110 may inverse quantize a low band envelope.
  • the low band envelope may be vector dequantized.
  • the low 12 envelope inverse quantization unit 1130 may inverse quantize a high band envelope.
  • the high band envelope may be vector dequantized.
  • the envelope refinement unit 1150 generates bit allocation information for each subband based on the full band envelope obtained from the low band envelope and the high band envelope, and generates the bit allocation information for each subband based on the bit allocation information for each subband.
  • the envelope may be updated by determining a subband requiring an update and decoding the refinement data related to the envelope update for the determined subband.
  • the full band envelope may be obtained by mapping the band configuration of the high band envelope to the band configuration of the low band envelope and combining the mapped high band envelope with the low band envelope.
  • the envelope refinement unit 1150 may determine a subband to which bits are allocated in the high band as a subband to decode the envelope update and refinement data.
  • the envelope refinement unit 1150 may update the bit allocation information based on the number of bits used to express the refinement data for the determined subband. Updated Bit allocation information may be used for spectrum decoding. Meanwhile, the refinement data may include a required bit, a minimum value, and a delta value of Norm.
  • FIG. 12 is a block diagram illustrating a configuration of the envelope refinement unit 1150 illustrated in FIG. 11.
  • the envelope refinement unit 1150 illustrated in FIG. 12 includes a mapping unit 1210, a coupling unit 1220, a first bit allocation unit 1230, a delta decoding unit 1240, an envelope update unit 1250, and a second unit. And a bit allocation unit 1260.
  • Each component may be integrated into at least one module and implemented as at least one processor (not shown).
  • the mapping unit 1210 may map an envelope of a high band to a band configuration that is subjected to band division information of all bands for frequency matching.
  • the mapping unit 1210 may operate in the same manner as the mapping unit 810 of FIG. 8.
  • the combiner 1220 may combine the dequantized low band envelope N q (p) and the dequantized high band mapped envelope N M (p) to obtain the full band envelope N q (p).
  • the coupling part 1220 may operate in the same manner as the coupling part 820 of FIG. 8.
  • the low U bit allocator 1230 may perform initial bit allocation to perform the inverse quantization on a subband basis based on the envelope N q (p) of the full band.
  • the first bit allocator 1230 may operate in the same manner as the first bit allocator 830 of FIG. 8.
  • the delta decoder 1240 determines whether an envelope update is required and which subbands need to be updated, based on the bit allocation information, and updates information transmitted from the encoder for the determined subband, that is, refinement.
  • the data can be decoded.
  • the required bits are extracted from the refinement data expressed as 2 bits, Delta (O), Delta (l) ,,, and the minimum value is calculated, and the delta value D q (p ) Can be extracted.
  • the necessary bit uses 2 bits, four types can be represented. Since 2 to 5 bits are represented using 0, 1, 2, and 3, respectively, for example, necessary bits can be set as 2 bits for 0 and 5 bits for 3, for example.
  • the envelope updater 1250 may update the Norm value, that is, the envelope, based on the extracted delta value D q (p).
  • the envelope updater 1250 may operate in the same manner as the envelope updater 850 of FIG. 8.
  • the 12 bit allocation unit 1260 is used to express the extracted delta value by the number of bits utilized. The bit allocation information for each band can be obtained again.
  • the second bit allocator 1260 may operate in the same manner as the low 12 bit allocator 860 of FIG. 8.
  • the updated envelope and the finally obtained bit allocation information may be provided to the low frequency decoder 1070.
  • FIG. 13 is a block diagram illustrating a configuration of the low frequency decoding apparatus illustrated in FIG. 10, and may include an inverse quantization unit 1310 and a noise filling unit 1330.
  • the inverse quantization unit 1310 may inverse quantize a string quantization index included in a bitstream based on bit allocation information. The result is a low band and some important high band struts.
  • the noise filling unit 1330 may perform a noise filling process on the dequantized string.
  • the noise filling process can be performed only for the low band.
  • the subband black, in which the noise filling process is dequantized entirely in the dequantized spectrum, can be performed for subbands in which the average bit assigned to each of the spectral coefficients is smaller than a predetermined reference value.
  • Noise-filled stitches may be provided as couplings (1090 in FIG. 10).
  • denormalization may be performed based on updated envelopes for noise-filled sequences.
  • the string generated by the noise filling unit 1330 may be additionally subjected to anti-sparse treatment, and then adjusted in amplitude based on the excitation class to generate a high frequency spectrum.
  • Anti-sparse processing means adding a signal having a random sign and a constant amplitude in addition to the portion remaining zero in the noise-filled spectral.
  • FIG. 14 is a block diagram illustrating a configuration of the coupling unit 1090 illustrated in FIG. 10, and may include a stitch coupling unit 1410.
  • the stitch combination unit 1410 may combine the decoded low band spectrum and the generated high band spectrum.
  • the low band spectrum may be a noise filled spectrum.
  • the high band spectrum can be generated using a modified low band spectrum obtained by adjusting the dynamic range black amplitude of the decoded low band spectrum based on the excitation class.
  • a modified low band spectrum can be patched to a high band, eg, folded, transferred, copied, mirrored black or folded to create a high band spectrum.
  • the stitch combination unit 1410 may selectively combine the decoded low band sequence and the generated high band sequence based on the bit allocation information provided from the envelope refinement unit 110.
  • the bit allocation information is the initial bit allocation information It may be bit allocation information.
  • bit allocation information when bit allocation is performed in a subband located at a boundary between a low band and a high band, combining is performed based on a noise-filled string, and when no bit allocation is performed, The overlap add process may be performed on the generated high band spectrum.
  • the stitch combination unit 1410 uses a noise-filled string in the case where the bit is an allocated subband based on the bit allocation information for each subband, and generates a high band spectrum in the case of a subband to which no bit is assigned. Can be used.
  • the configuration of the subband may be based on the band configuration of the entire band.
  • FIG. 15 is a block diagram illustrating a configuration of a multimedia apparatus including coding modules according to an embodiment of the present invention.
  • the multimedia apparatus 1500 illustrated in FIG. 15 may include a communication unit 1510 and coding modules 1530.
  • the storage unit 1550 may further include an audio bitstream according to the use of the audio bitstream obtained as a result of the encoding.
  • the multimedia device 1500 may further include a microphone 1570. That is, the storage unit 1550 and the microphone 1570 may be provided as an suction.
  • the multimedia device 1500 illustrated in FIG. 15 may use arbitrary decoding modules (not shown), for example, decoding modules black that perform a general decoding function. Can contain more.
  • the coding modules 1530 may be integrated with other components (not shown) included in the multimedia apparatus 1500 and implemented as at least one processor (not shown).
  • the communication unit 1510 receives at least one of audio and an encoded bitstream provided from the outside, or at least one of an audio bitstream obtained as a result of encoding the restored audio and the encoding modules 1530. I can send it.
  • the communication unit 1510 includes a wireless Internet, a wireless intranet, a wireless telephone network, a wireless LAN (LAN), a Wi-Fi network, a Wi-Fi Direct (WFD), a generation ion (3G), a 4G (4 generation), Wireless networks or wired phones, such as Bluetooth, Infrared Data Association (IrDA), Radio Frequency Identification (RFID), Ultra WideBand (UWB), Zigbee, and Near Field Co ⁇ unicat ion (NFC) It is configured to send and receive data to and from external multimedia devices through wired networks such as network and wired internet.
  • IrDA Infrared Data Association
  • RFID Radio Frequency Identification
  • UWB Ultra WideBand
  • NFC Near Field Co ⁇ unicat ion
  • the encoding modules 1530 may convert the time-domain audio signal provided through the communication unit 1510 or the black microphone 1570 into the frequency domain according to an embodiment. Generate bit allocation information for each subband based on the full-band envelope obtained from the high-frequency domain signal, determine a subband requiring an envelope update in the high band based on the bit allocation information for each subband, and determine the determined subband. It is possible to generate refinement data related to envelope update for the band.
  • the storage unit 1550 may store the encoded bitstream generated by the encoding modules 1530. On the other hand, the storage unit 1550 may store various programs necessary for the operation of the multimedia device 1500.
  • the microphone 1570 may provide an external audio signal of the user black to the coding modules 1530.
  • 16 is a block diagram illustrating a configuration of a multimedia apparatus including decoding caps according to an embodiment of the present invention.
  • the multimedia apparatus 1600 illustrated in FIG. 16 may include a communication unit 1610 and decryption modules 1630.
  • the storage unit 1650 may further include a storage unit 1650 for storing the restored audio signal according to the use of the restored audio signal obtained as a result of the decoding.
  • the multimedia device 1600 may further include a speaker 1670. That is, the storage unit 1650 and the speaker 1670 may be provided as a suction.
  • the multimedia apparatus 1600 illustrated in FIG. 10 further includes arbitrary coded modules (not shown), for example, coded modules that perform a general coding function, or coded modules according to an embodiment of the present invention. can do.
  • the decryption heads 1630 may be integrated with other components (not shown) included in the multimedia apparatus 1600 and implemented as at least one or more processors (not shown).
  • the communication unit 1610 may receive at least one of an encoded bitstream and an audio signal provided from the outside, or may include a reconstructed audio signal obtained as a result of decoding of the decoding modules 1630 and an audio bitstream obtained as a result of encoding. At least one can be transmitted.
  • the communication unit 1610 may be implemented substantially similar to the communication unit 1510 of FIG.
  • the decoding modes 1630 may receive a bitstream provided through the communication unit 1610, generate bit allocation information for each subband based on the full band envelope, and based on bit allocation information for each subband.
  • a subband requiring an envelope update at a high band may be determined, and the envelope data may be updated by decoding refinement data related to the envelope update with respect to the determined subband.
  • the storage unit 1650 may store the restored audio signal generated by the decoding modes 1630.
  • the storage unit 1650 is various for the operation of the multimedia device 1600 You can save one program.
  • the speaker 1670 may output the restored audio signal generated by the decoding modules 1630 to the outside.
  • FIG. 17 is a block diagram illustrating a configuration of a multimedia device including encoded hairs and decrypted hairs according to an embodiment of the present invention.
  • the multimedia device 1700 illustrated in FIG. 17 may include a communication unit 1710, coding modules 1720, and decoding modules 1730.
  • the audio bitstream black may further include a storage unit 1740 for storing the restored audio signal according to the use of the restored audio signal obtained as the decoding result.
  • the multimedia device 1700 may further include a microphone 1750 and a black speaker 1760.
  • the coding modules 1720 and the decoding modules 1730 may be integrated with other components (not shown) included in the multimedia apparatus 1700 to be implemented as at least one processor (not shown). .
  • Each component shown in FIG. 17 is a component black of the multimedia device 1500 shown in FIG. 15 and overlaps with those of the multimedia device 1600 shown in FIG. 16, and thus a detailed description thereof will be omitted.
  • the voice communication terminal and the broadcast black may include a fusion terminal device of a music dedicated device, but are not limited thereto.
  • the multimedia apparatus 1500, 1600, 1700 may be used as a client, a server or a converter disposed between the client and the server.
  • the multimedia device (1500, 1600, 1700) is a mobile phone, for example, although not shown, a user input unit such as a keypad, the user interface black is a display unit for displaying information processed in the mobile phone, the overall function of the mobile phone It may further include a processor for controlling.
  • the mobile phone may further include a camera unit having an imaging function and at least one component that performs a function required by the mobile phone.
  • the multimedia device (1500, 1600, 1700) is a TV, for example, although not shown, further includes a user input unit, such as a keypad, a display unit for displaying the received broadcast information, a processor for controlling the overall functions of the TV can do.
  • the TV further includes at least one or more components that perform the functions required by the TV. can do.
  • FIG. 18 is a flowchart illustrating an operation of an audio encoding method, according to an embodiment. The method illustrated in FIG. 18 may be performed in the components of FIG. 5, FIG. 7, and FIG. 8 black or in a separate processor.
  • time-frequency conversion such as MDCT
  • MDCT time-frequency conversion
  • the low frequency band Norm may be calculated and quantized for the MDCT spectrum.
  • a high frequency envelope may be calculated and quantized for the MDCT spectrum.
  • the extended parameter of the high frequency band may be extracted.
  • the quantized Norm value of the entire band may be obtained through Norm value mapping for the high frequency band.
  • bit allocation information for each band may be generated.
  • step 1860 when the critical thread information is quantized in the high frequency band based on the bit allocation information for each band, Norm update information of the high frequency band may be generated.
  • the quantized Norm value of the entire band may be updated through Norm updating of the high frequency band.
  • the standard may be normalized and quantized based on the updated full-band quantized Norm value.
  • a bitstream including a quantized spectrum may be generated.
  • FIG. 19 is a flowchart illustrating an operation of an audio decoding method, according to an embodiment. The method illustrated in FIG. 19 may be performed in the components of FIGS. 10 to 14 or may be performed by a separate processor.
  • a bitstream may be parsed.
  • Norm of the low frequency band included in the bitstream may be decoded.
  • step 1910 the high frequency envelope included in the bitstream may be decoded.
  • step 1915 the extended parameter of the high frequency band may be decoded.
  • step 1920 the inverse of the entire band is achieved through Norm value mapping for the high frequency band.
  • the quantized Norm value can be obtained.
  • bit allocation information for each band may be generated.
  • step 1930 when important thread information is quantized in the high frequency band based on the bit allocation information for each band, Norm update information of the high frequency band may be decoded.
  • the Norm update of the high frequency band may update the quantized Norm value of the entire band.
  • the decoded spectrum may be generated by dequantizing and denormalizing the spectrum based on the updated full-band quantized Norm value.
  • band extension decoding may be performed based on the decoded spectrum.
  • the decoded spectrum and the band extension decoded spectrum may be selectively merged.
  • a time-frequency inverse transform such as IMDCT may be performed on the selectively merged string.
  • the method according to the embodiments can be written as a program that can be executed in a computer, and can be implemented in a general-purpose digital computer for operating the program using a computer-readable recording medium.
  • data structures, program instructions, and black data files that can be used in the above-described embodiments of the present invention can be recorded on a computer-readable recording medium through various means.
  • the computer-readable recording medium may include all kinds of storage devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include magnetic media, such as hard disks, floppy disks, and magnetic tape (magnet ic media), optical recording media such as CD-ROMs, DVDs, and floppy disks.
  • the computer-readable recording medium may also be a transmission medium for transmitting a signal specifying a program command, a data structure, or the like.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

대역폭 확장을 위한 고대역 부호화 /복호화 방법 및 장치가 개시된다. 고대역 부호화방법은 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계, 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하는 단계, 및 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데이터를 생성하는 단계를 포함한다. 고대역 복호화방법은 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계, 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하는 단계, 및 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데이터를 복호화하여 엔벨로프를 업데이트하는 단계를 포함한다.

Description

【명세서】
【발명의 명칭】
고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 (METHOD AND APPARATUS FOR ENCODING HIGHBAND AND METHOD AND APPARATUS FOR DECODING HIGH BAND)
【기술분야】
본 발명은 오디오 부호화 및 복호화에 관한 것으로서, 보다 상세하게로는 대 역폭 확장을 위한 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치에 관 한 것이다.
【배경기술】
G.719의 코딩 스킴은 텔레컨퍼런싱의 목적으로 개발 및 표준화된 것으로서 , MDCT(Modi f i ed Di screte Cos ine Transform)을 수행하여 주파수 도메인 변환을 수행 하여 , 스테이셔너리 (stat ionary) 프레임인 경우에는 MDCT 스꿰트럼을 바로 코딩한 다ᅳ 년 스테이셔너리 (non-stat ionary) 프레임은 시간 도메인 얼라이어싱 순서 (t ime domain al i as ing order )를 변경함으로써, 시간적인 특성을 고려할 수 있도록 변경한다. 년 스테이셔너리 프레임에 대하여 얻어진 스꿰트럼은 스테이셔너리 프 레임과 동일한 프레임워크로 코덱을 구성하기 위해서 인터리빙을 수행하여 스테이 셔너리 프레임과 유사한 형태로 구성될 수 있다. 이와 같이 구성된 스꿰트럼의 에 너지를 구하여 정규화를 수행한 후 양자화를 수행하게 된다. 통상 에너지는 RMS 값으로 표현되며, 정규화된 스꿰트럼은 에너지 기반의 비트 할당을 통해 밴드별로 필요한 비트를 생성하고, 밴드별 비트 할당 정보를 기반으로 양자화 및 무손실 부 호화를 통해 비트스트림을 생성한다.
G.719의 디코딩 스킴에 따르면, 코딩 방식의 역과정으로 비트스트림에서 에 너지를 역양자화하고, 역양자화된 에너지를 기반으로 비트 할당 정보를 생성하여 스꿰트럼의 역양자화를 수행하여 정규화된 역양자화된 스꿰트럼을 생성해 준다. 이때 비트가 부족한 경우 특정 밴드에는 역양자화한 스꿰트럼이 없을 수 있다. 이 러한 특정 밴드에 대하여 노이즈를 생성해 주기 위하여 , 저주파수의 역양자화된 스 꿰트럼을 기반으로 노이즈 코드북을 생성하여 전송된 노이즈 레벨에 맞추어서 노이 즈를 생성하는 노이즈 필링 방식이 적용된다.
한편, 특정 주파수 이상의 밴드에 대해서는 저대역 신호를 폴딩하여 고대역 신호를 생성해주는 대역폭 확장 기법이 적용된다.
【발명의 상세한 설명】 【기술적 과제】
본 발명이 해결하고자 하는 과제는 복원 음질을 향상시킬 수 있는 대역폭 확 장을 위한 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치와 이를 채용 하는 멀티미디어 기기를 제공하는데 있다.
【기술적 해결방법】
상기 과제를 달성하기 위한 일실시예에 따른 고대역 부호화 방법은 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계; 서브밴드별 비트 할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결 정하는 단계; 및 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 생성하는 단계를 포함할 수 있다.
상기 과제를 달성하기 위한 일실시예에 따른 고대역 부호화 장치는 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드별 비트할당정 보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하고, 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데이터를 생성하는 적어도 하나의 프로세서를 포함할 수 있다.
상기 과제를 달성하기 위한 일실시예에 따른 고대역 복호화 방법은 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계; 서브밴드별 비트 할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결 정하는 단계; 및 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 복호화하여 엔벨로프를 업데이트하는 단계를 포함할 수 있다.
상기 과제를 달성하기 위한 일실시예에 따른 고대역 복호화 장치는 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드별 비트할당정 보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하고, 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데이터를 복호화하여 엔벨로프를 업데이트하는 적어도 하나의 프로세서를 포함할 수 있다. 【유리한 효과】
실시예에 따른 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치에 의하면 , 고대역에서 중요한 스꿰트럼 정보를 포함하고 있는 적어도 하나의 서브밴 드들은 Norm에 대웅하는 정보를 표현해 줌으로써 복원 음질을 향상시킬 수 있다. 【도면의 간단한 설명】
도 1은 일실시예에 따라 저대역과 고대역의 서브밴드 구성의 예를 설명하는 도면이다 도 2a 내지 도 2c는 일실시예에 따라 R0 대역과 R1 대역을 선택된 코딩 방식 에 대웅하여 R2와 R3 , R4와 R5로 구분한 도면이다.
도 3은 일실시예에 따른 고대역의 서브밴드 구성의 예를 설명하는 도면이다. 도 4는 일실시예에 따른 고대역 부호화방법을 개념을 설명하는 도면이다. 도 5는 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블럭도이다. 도 6은 일실시예에 따른 BWE 파라미터 생성부의 구성을 나타낸 블럭도이다. 도 7은 일실시예에 따른 고주파 부호화장치의 구성을 나타낸 블럭도이다. 도 8은 도 7에 도시된 엔벨로프 리파인먼트부의 구성을 나타낸 블럭도이다. 도 9는 도 5에 도시된 저주파 부호화장치의 구성을 나타낸 블럭도이다.
도 10은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블럭도이다. 도 11은 일실시예에 따른 고주파 복호화부의 일부 구성을 나타낸 블럭도이 다.
도 12는 도 11에 도시된 엔벨로프 리파인먼트부의 구성을 나타낸 블럭도이 다.
도 13은 도 10에 도시된 저주파 복호화장치의 구성을 나타낸 블럭도이다. 도 14는 도 10에 도시된 결합부의 구성을 나타낸 블럭도이다.
도 15는 일실시예에 따른 부호화모들을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 16은 일실시예에 따른 복호화모들을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 17은 일실시예에 따른 부호화모들과 복호화모들을 포함하는 멀티미디어 기기의 구성을 나타낸 블록도이다.
도 18은 일실시예에 따른 오디오 부호화방법의 동작을 설명하기 위한 흐름도 이다.
도 19는 일실시예에 따른 오디오 복호화방법의 동작을 설명하기 위한 흐름도 이다.
【발명의 실시를 위한 형태】
본 발명은 다양한 변환을 가할 수 있고 여러가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 구체적으로 설명하고자 한다. 그 러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 기술적 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해될 수 있다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구 체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제 1 , 제 2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들이 용어들에 의해 한정되는 것은 아니다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만사용된다.
본 발명에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것 으로, 본 발명을 한정하려는 의도가 아니다. 본 발명에서 사용한 용어는 본 발명 에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였 으나 이는 당 분야에 종사하는 기술자의 의도, 판례, 또는 새로운 기술의 출현 등 에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있 으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지 는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함 한다. 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특 징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하 려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것 으로 이해되어야 한다.
이하, 본 발명의 실시예들을 첨부 도면을 참조하여 상세히 설명하기로 하며 , 첨부 도면을 참조하여 설명함에 있어 , 동일하거나 대웅하는 구성요소는 동일한 도 면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 일실시예에 따라 저대역과 고대역의 서브밴드 구성의 예를 설명하는 도면이다. 실시예에 따르면, 샘플링 레이트는 32kHz이고, 640개의 MDCT 스꿰트럼 계수를 22개의 밴드로 구성하며, 구체적으로 저대역에 대하여 17개의 밴드, 고대역 에 대하여 5개의 밴드로 구성될 수 있다. 예를 들면, 고대역의 시작 주파수는 241 번째 스꿰트럼 계수이며, 0~240까지의 스꿰트럼 계수는 저주파 코딩 방식 즉, 코어 코딩 방식으로 코딩되는 영역으로서 R0로 정의할 수 있다. 또한, 241~639까지의 스꿰트럼 계수는 대역폭확장 (BWE)이 수행되는 고대역으로서 R1으로 정의할 수 있 다. 한편, R1 영역에는 비트 할당 정보에 따라서 저주파수 코딩 방식으로 코딩되 는 밴드도 존재할 수 있다.
도 2a 내지 도 2c는 도 1의 R0 영역과 R1 영역을 선택된 코딩 방식에 따라 R2 , R3 , R4 , R5로 구분한 도면이다. 먼저, BWE 영역인 R1 영역은 R2와 R3로, 저주 파수 코딩 영역인 R0 영역은 R4와 R5로 구분될 수 있다. R2는 저주파수 코딩 방 식 , 예를 들면 주파수 도메인 코딩 방식으로 양자화 및 무손실 부호화되는 신호를 포함하고 있는 밴드를 나타내고, R3는 저주파수 코딩 방식으로 코딩되는 신호가 없 는 밴드를 나타낸다. 한편, R2가 비트가 할당되어 저주파수 코딩 방식으로 코딩되 는 것으로 결정되더라도 비트가 부족한 경우 R3에서와 동일한 방식으로 밴드가 생 성될 수 있다. R5는 비트가 할당되어 저주파수 코딩 방식으로 코딩이 수행되는 밴 드를 나타내고, R4는 비트 여유분이 없어 저대역 신호임에도 코딩이 안되거나 비트 가 적게 할당되어 노이즈를 부가해야 하는 밴드를 나타낸다. 따라서 , R4와 R5의 구분은 노이즈 부가 여부에 의해서 판단될 수 있으며, 이는 저주파수 코딩된 밴드 내 스꿰트럼 개수의 비율로 결정될 수 있으며, 또는 FPC를 사용한 경우에는 밴드내 필스 할당 정보에 근거하여 결정할 수 있다. R4와 R5 밴드는 복호화 과정에서 노이 즈를 부가할 때 구분될 수 있기 때문에, 부호화 과정에서는 명확히 구분이 안될 수 있다. R2-R5 밴드는 부호화되는 정보가 서로 다를 뿐 아니라, 디코딩 방식이 다르 게 적용될 수 있다.
도 2a에 도시된 예의 경우 저주파수 코딩 영역 (R0) 중 170-240까지의 2개 밴 드가 노이즈를 부가하는 R4이고, BWE 영역 (R1) 중 241-350까지의 2개 밴드 및 427- 639까지의 2개 밴드가 저주파수 코딩 방식으로 코딩되는 R2이다. 도 2b에 도시된 예의 경우 저주파수 코딩 영역 (R0) 중 202-240까지의 1개 밴드가 노이즈를 부가하 는 R4이고, BWE 영역 (R1) 중 241-639까지의 5개 밴드 모두가 저주파수 코딩 방식으 로 코딩되는 R2이다. 도 2c에 도시된 예의 경우 저주파수 코딩 영역 (R0) 중 144- 240까지의 3개 밴드가 노이즈를 부가하는 R4이고, BWE 영역 (R1) 중 R2는 존재하지 않는다. 저주파수 코딩 영역 (R0)에서 R4는 통상 고주파수 부분에 분포될 수 있으 나, BWE 영역 (R1)에서 R2는 특정 주파수 부분에 제한되지 않는다.
도 3은 일실시예에 따른 광대역 (WB)의 고대역 서브밴드 구성의 예를 설명하 는 도면이다. 여기서, 32KHz 샘플링 레이트는 32kHz이고, 640개의 MDCT 스꿰트럼 계수를 중 고대역에 대하여 14개의 밴드로 구성될 수 있다. 100 Hz 에는 4개의 스 꿰트럼 계수가 포함되며, 따라서 400 Hz인 첫번째 밴드에는 16개의 스꿰트럼 계수 가 포함될 수 있다. 참조부호 310은 6.4 ~ 14.4 KHz의 고대역, 참조부호 330은 8.0 ~ 16.0 KHz의 고대역에 대한 서브밴드 구성을 각각 나타낸다.
실시예에 따르면, 전대역 ( ful l band)의 스꿰트럼을 부호화함에 있어서, 저대 역과 고대역의 스케일 팩터를 서로 다르게 표현할 수 있다. 여기서, 스케일 팩터 는 에너지, 엔벨로프, 평균 전력 흑은 Norm 으로 표현될 수 있다. 예를 들어 , 전 대약중, 저대역은 정밀하게 표현하기 위하여 Norm 흑은 엔벨로프를 구하여 스칼라 양자화 및 무손실 부호화를 수행하고, 고대역은 효율적으로 표현하기 위하여 Norm 흑은 엔벨로프를 구하여 백터 양자화를 수행할 수 있다. 이때, 고대역 중 중요한 스꿰트럼 정보를 포함하고 있는 서브밴드에 대해서는 저주파수 코딩 방식을 이용하 여 Norm에 대웅하는 정보를 표현할 수 있다. 이와 같이 고대역에서 저주파수 코딩 방식에 근거하여 부호화를 수행하는 서브밴드에 대하여, 추가적으로 고주파 Norm을 보상하기 위한 리파인먼트 데이터 (ref inement data)를 비트스트림에 포함시켜 전송 할 수 있다. 그 결과, 고대역의 의미있는 스꿰트럼 성분이 정확하게 표현될 수 있 기 때문에 복원 음질 향상에 기여할 수 있다.
도 4는 일실시예에 따라서 전대역의 스케일 팩터를 표현하는 방법을 나타낸 도면이다.
도 4를 참조하면, 저대역 (410)은 Norm으로 표현하고, 고대역 (430)은 엔벨로 프와 필요한 경우 추가로 Norm과의 델타로 표현할 수 있다. 저대역 (410)의 Norm은 스칼라 양자화될 수 있고, 고대역 (430)의 엔벨로프는 백터 양자화될 수 있다. 고 대역에서 Norm과의 델타로 표현되는 경우는 중요한 스꿰트럼 성분을 포함하고 있다 고 판단되는 서브밴드 (450)가 해당할 수 있다. 이때, 저대역은 전대역의 밴드 분 할 정보 (Bfb)에 근거하여 서브밴드가 구성되고, 고대역은 고대역의 밴드 분할 정보
(Bhb)에 근거하여 서브밴드가 구성될 수 있다. 전대역의 밴드 분할 정보 (Bfb)와 고 대역의 밴드 분할 정보 (Bhb)는 같거나 다를 수 있다. 전대역의 밴드 분할 정보 (Bfb) 와 고대역의 밴드 분할 정보 (Bhb)가 다른 경우, 매핑 과정을 통하여 고대역의 Norm 을 표현할 수 있다.
다음 표 1은 전대역의 밴드 분할 정보 (Bfb)에 따라 저대역의 서브밴드가 구 성되는 예를 나타낸다. 전대역의 밴드 분할 정보 (Bfb)는 비트레이트에 상관없이 동 일할 수 있다. 여기서 , p는 서브밴드 인덱스, Lp는 서브밴드내 스꿰트럼 갯수, sp 는 서브밴드의 시작 주파수 인덱스, ep는 서브밴드의 끝 주파수 인덱스를 각각 나타 낸다.
【표 1】
Figure imgf000009_0001
표 1에서와 같이 구성된 각 서브밴드에 대하여 Norm흑은 스꿰트럼 에너지를 산출할 수 있다. 이때, 예를 들어 하기 수학식 1을 이용할 수 있다.
【수학식 1]
Figure imgf000009_0002
여기서, y(k)는 시간-주파수 변환을 통하여 얻어지는 스꿰트럼 계수로서, 예 를 들면 MDCT스꿰트럼 계수일 수 있다.
한편, 엔벨로프도 Norm과 동일한 방식에 근거하여 구해질 수 있으며 , 밴드 구성에 맞추어 각 서브밴드별로 구해진 Norm들을 엔벨로프로 정의할 수 있다. Norm 과 엔벨로프는 같은 개념으로 사용될 수 있다.
구해진 저대역의 Norm흑은 저주파수 Norm은 스칼라 양자화된 다음 무손실 부호화될 수 있다. Norm의 스칼라 양자화는 예를 들면 하기 표 2의 테이블을 이용 하여 수행될 수 있다.
【표 2】 Index Code Index Code Index Code Index Code
0 17.0
2 10 12.0
2 20 7.0
2 30 2.0
2
1 16.5
2 11 11.5
2 21 6.5
2 31 1.5
2
2 16.0
2 12 11.0
2 22 6.0
2 32 1.0
2
3 15.5
2 13 10.5
2 23 5.5
2 33 0.5
2
4 15.0
2 14 10.0
2 24 5.0
2 34 0.0
2
5 14.5 4.5
2 15 9.5
2 25 2 35 -0.5
2
6 14.0 9.0 4.0
2 16 2 26 2 36 -1.0
2
7 13.5
2 17 8.5
2 27 3.5
2 37 -1.5
2
8 13.0
2 18 8.0
2 28 3.0
2 38 -2.0
2
9 12.5 2.5
2 19 7.5
2 29 2 39 -2.5
2 한편, 구해진 고대역의 엔벨로프는 백터 양자화될 수 있다. 양자화된 엔벨
Eq(p)로 정의될 수 있다. 다음 표 3 및 표 4는 각각 비트레이트 24.4 kbps와 32 kbps인 경우 고대역의 밴드 구성을 나타낸다.
【표 3】
Figure imgf000010_0001
【표 4】
Figure imgf000010_0002
도 5는 일실시예에 따른 오디오 부호화장치의 구성을 나타낸 블럭도이다. 도 5에 도시된 오디오 부호화장치는 BWE 파라미터 생성부 (510) , 저주파 부호 화부 (530) , 고주파 부호화부 (550) 및 다중화부 (570)를 포함할 수 있다. 각 구성요 소는 적어도 하나의 모들로 일체화되어 적어도 하나의 프로세서 (미도시 )로 구현될 수 있다. 여기서 , 입력신호는 음악 흑은 음성 , 흑은 음악과 음성의 흔합신호를 의 미할 수 있으며, 크게 음성신호와 다른 일반적인 신호로 나눌 수도 있다. 이하에 서는 설명의 편의를 위하여 오디오 신호로 통칭하기로 한다.
도 5를 참조하면, BWE 파라미터 생성부 (510)는 대역폭 확장을 위한 BWE 파라 미터를 생성할 수 있다. 여기서, BWE 파라미터는 여기 클래스 (exci tat ion c lass) 에 해당할 수 있다. 한편, 구현방식에 따라서, BWE 파라미터는 여기 클래스와 다 른 파라미터를 포함할 수 있다ᅳ BWE 파라미터 생성부 (510)는 프레임 단위로 신호 특성에 근거하여 여기 클래스를 생성할 수 있다. 구체적으로, 입력신호가 음성 특 성을 갖는지 토널 특성을 갖는지를 판단하고, 판단 결과에 근거하여 복수의 여기 클래스 중에서 하나를 결정할 수 있다. 복수의 여기 클래스는 음성과 관련된 여기 클래스, 토널 뮤직과 관련된 여기 클래스와 년 -토널 뮤직과 관련된 여기 클래스를 포함할 수 있다. 결정된 여기 클래스는 비트스트림에 포함되어 전송될 수 있다. 저주파 부호화부 (530)는 저대역 신호에 대하여 부호화를 수행하여 부호화된 스꿰트럼 계수를 생성할 수 있다. 또한, 저주파 부호화부 (530)는 저대역 신호의 에너지와 관련된 정보를 부호화할 수 있다. 실시예에 따르면, 저주파 부호화부 (530)는 저대역 신호를 주파수 도메인으로 변환하여 저주파 스꿰트럼을 생성하고, 저주파 스꿰트럼에 대하여 양자화하여 양자화된 스꿰트럼 계수를 생성할 수 있다. 도메인 변환을 위하여 MDCT(Modi f i ed Di screte Cos ine Transform)를 사용할 수 있 으나 이에 한정되는 것은 아니다. 양자화를 위하여 PVQ(Pyramid Vector Quant i zat ion)를 사용할 수 있으나 이에 한정되는 것은 아니다.
고주파 부호화부 (550)는 고대역 신호에 대하여 부호화를 수행하여 디코더단 에서의 대역폭 확장에 필요한 파라미터 흑은 비트할당에 필요한 파라미터를 생성할 수 있다. 대역폭 확장에 필요한 파라미터는 고대역 신호의 에너지와 관련된 정보 와 부가정보를 포함할 수 있다. 여기서, 에너지는 엔벨로프, 스케일 팩터, 평균 전력 흑은 Norm 으로 표현될 수 있다. 부가정보는 고대역에서 중요한 스꿰트럼 성 분을 포함하는 밴드에 대한 정보로서, 고대역에서 특정 밴드에 포함된 스꿰트럼 성 분과 관련된 정보일 수 있다. 고주파 부호화부 (550)는 고대역 신호를 주파수 도메 인으로 변환하여 고주파 스꿰트럼을 생성하고, 고주파 스꿰트럼의 에너지와 관련된 정보를 양자화할 수 있다. 도메인 변환을 위하여 MDCT를 사용할 수 있으나 이에 한정되는 것은 아니다. 양자화를 위하여 백터 양자화를 사용할 수 있으나 이에 한 정되는 것은 아니다.
다중화부 (570)는 BWE 파라미터 즉, 여기 클래스, 대역폭 확장에 필요한 파라 미터, 저대역의 양자화된 스꿰트럼 계수를 포함하여 비트스트림을 생성할 수 있다. 비트스트림은 전송되거나 저장될 수 있다. 여기서, 대역폭 확장에 필요한 파라미 터는 고대역의 엔벨로프 양자화 인덱스와 고대역의 리파인먼트 데이터를 포함할 수 있다.
주파수 도메인의 BWE 방식은 시간 도메인 코딩 파트와 결합되어 적용될 수 있다. 시간 도메인 코딩에는 주로 CELP 방식이 사용될 수 있으며 , CELP 방식으로 저대역을 코딩하고, 주파수 도메인에서의 BWE가 아닌 시간 도메인에서의 BWE 방식 과 결합되도록 구현될 수 있다. 이러한 경우, 전체적으로 시간 도메인 코딩과 주 파수 도메인 코딩간의 적웅적 코딩 방식 결정에 기반하여 코딩 방식을 선택적으로 적용할 수 있게 된다. 적절한 코딩 방식을 선택하기 위해서 신호분류를 필요로 하 며 , 일실시예에 따르면 신호 분류 결과를 우선적으로 이용하여 프레임별 여기 클래 스를 결정할 수 있다.
도 6은 일실시예에 따른 BWE 파라미터 생성부 (도 5의 510)의 구성을 나타낸 블럭도로서, 신호분류부 (610) 및 여기 클래스 생성부 (630)를 포함할 수 있다.
도 6을 참조하면, 신호분류부 (610)는 신호특성을 프레임 단위로 분석하여 현 재 프레임이 음성신호인지 여부를 분류하고, 분류결과에 따라서 여기 클래스를 결 정할 수 있다. 신호분류 처리는 공지된 다양한 방법, 예를 들어 단구간 특성 및 / 또는 장구간 특성을 이용하여 수행될 수 있다. 단구간 특성 및 /또는 장구간 특성 은 주파수 도메인 특성 흑은 시간 도메인 특성일 수 있다. 현재 프레임이 시간 도 메인 코딩이 적절한 방식인 음성신호로 분류되는 경우, 고대역 신호의 특성에 기반 한 방식보다, 고정된 형태의 여기 클래스를 할당하는 방식이 음질 향상에 도움이 될 수 있다. 여기서, 신호분류 처리는 이전 프레임의 분류 결과를 고려하지 않고 현재 프레임에 대하여 수행될 수 있다. 즉, 비록 현재 프레임이 행 오버를 고려하 여 최종적으로는 주파수 도메인 코딩으로 결정될 수 있지만, 현재 프레임 자체가 시간 도메인 코딩이 적절한 방식이라고 분류된 경우에는 고정된 여기 클래스를 할 당할 수 있다. 예를 들어, 현재 프레임이 시간 도메인 코딩이 적절할 음성신호로 분류되는 경우 여기 클래스는 음성 특성과 관련된 제 1 여기 클래스로 설정될 수 있 다.
여기클래스 생성부 (630)는 신호분류부 (610)의 분류 결과 현재 프레임이 음성 신호로 분류되지 않은 경우, 적어도 하나 이상의 문턱치를 이용하여 여기 클래스를 결정할 수 있다. 실시예에 따르면, 여기클래스 생성부 (630)는 신호분류부 (610)의 분류 결과 현재 프레임이 음성신호로 분류되지 않은 경우, 고대역의 토널러티 값을 산출하고, 토널러티 값을 문턱치와 비교하여 여기 클래스를 결정할 수 있다. 여기 클래스의 개수에 따라서 복수개의 문턱치가 사용될 수 있다. 하나의 문턱치가 사 용되는 경우, 토널러티 값이 문턱치보다 큰 경우 토널 뮤직신호로, 토널러티 값이 문턱치보다 작은 경우 년 -토널 뮤직신호, 예를 들면 노이지 신호로 분류할 수 있 다. 현재 프레임이 토널 뮤직신호로 분류되는 경우, 여기 클래스는 토널 특성과 관련된 제 2 여기 클래스, 노이지 신호로 분류되는 경우 년 -토널특성과 관된 제 3 여 기 클래스로 결정될 수 있다.
도 7은 일실시예에 따른 고대역 부호화장치의 구성을 나타낸 블럭도이다. 도 7에 도시된 고대역 부호화장치는 제 1 엔벨로프 양자화부 (710) , 제 2 엔벨 로프 양자화부 (730)와 엔벨로프 리파인먼트부 (750)를 포함할 수 있다. 각 구성요 소는 적어도 하나의 모들로 일체화되어 적어도 하나의 프로세서 (미도시 )로 구현될 수 있다.
도 7을 참조하면, 제 1 엔벨로프 양자화부 (710)는 저대역의 엔벨로프를 양자 화할 수 있다. 실시예에 따르면, 저대역의 엔벨로프는 백터 양자화될 수 있다. 저 12 엔벨로프 양자화부 (730)는 고대역의 엔벨로프를 양자화할 수 있다. 실 시예에 따르면, 고대역의 엔벨로프는 백터 양자화될 수 있다. 실시예에 따르면, 고대역 엔벨로프에 대하여 에너지 제어가 수행될 수 있다. 구체적으로, 원래의 스 꿰트럼에 의해 생성되는 고대역 스꿰트럼의 토널러티와 원래의 스꿰트럼의 토널러 티간 차이로부터 에너지 제어 요소를 구하고, 에너지 제어 요소에 근거하여 고대역 엔벨로프에 대하여 에너지 제어를 수행하고, 에너지 제어가 수행된 고대역 엔벨로 프를 양자화할 수 있다.
양자화 결과 얻어지는 고대역의 엔벨로프 양자화 인덱스는 비트스트림에 포 함되거나 저장될 수 있다.
엔벨로프 리파인먼트부 (750)는 저대역의 엔벨로프와 고대역의 엔벨로프로부 터 얻어지는 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서 브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하고, 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 생성할 수 있다. 여기서, 전대역 엔벨로프는 고대역 엔벨로프의 밴드 구성을 저대역 엔벨로프의 밴드 구성에 매핑하고, 매핑된 고대역 엔벨로프를 상기 저대역 엔벨로프와 결합하여 얻어질 수 있다. 엔벨로프 리파인먼트부 (750)는 고대역에서 비트가 할당된 서브밴드를 엔벨로프 업데이트 및 리파인먼트 데이터를 전송할 서브밴드로 결정할 수 있다. 엔벨로프 리파인먼트부 (750)는 결정된 서브밴 드에 대하여 리파인먼트 데이터를 표현하는데 사용된 비트수에 근거하여 비트할당 정보를 업데이트할 수 있다. 업데이트된 비트할당정보는 스꿰트럼 부호화에 사용 될 수 있다. 리파인먼트 데이터는 필요비트, 최소값과 Norm의 델타값을 포함할 수 있다.
도 8은 도 7에 도시된 엔벨로프 리파인먼트부 (750)의 세부적인 구성을 나타 낸 블럭도이다.
도 8에 도시된 엔벨로프 리파인먼트부 (730)는 매핑부 (810), 결합부 (820), 제 1 비트할당부 (830), 델타 부호화부 (840), 엔벨로프 업데이트부 (850) 및 제 2 비트할 당부 (860)을 포 II함할 수 있다. 각 구성요소는 적어도 하나의 모들로 일체화되어 적 어도 하나의 프로세서 (미도시)로 구현될 수 있다.
도 8을 참조하면, 매핑부 (810)는 주파수 매칭을 위하여, 고대역의 엔벨로프 를 전대역의 밴드 분할 정보에 대웅되는 밴드 구성으로 매핑시킬 수 있다. 실시예 에 따르면, 제 2 엔벨로프 양자화부 (730)로부터 제공되는 양자화된 고대역의 엔벨로 프를 역양자화하고, 역양자화된 엔벨로프로부터 고대역의 매핑된 엔벨로프를 얻을 수 있다. 설명의 편의상 고대역의 역양자화된 엔벨로프를 E'q(p)라 하고, 고대역의 매핑된 엔벨로프를 NM(p)라 한다. 만약, 전대역의 밴드 구성과 고대역의 밴드 구성 이 동일하면 고대역의 양자화된 엔벨로프를 Eq(p)를 그대로 스칼라 양자화하여 할 수 있다. 한편, 전대역의 밴드 구성과 고대역의 밴드 구성이 다르면, 고대역의 양 자화된 엔벨로프를 Eq(p)를 전대역 (full band)의 밴드 구성 즉, 저대역의 밴드 구성 에 맞춰주어야 할 필요가 있다. 이는 저대역 서브밴드에 포함되어 있는 고대역 서 브밴드의 스꿰트럼 개수를 기준으로 수행될 수 있다. 한편, 전대역의 밴드 구성과 고대역의 밴드 구성간에 오버램이 있는 경우, 오버램되는 밴드를 기준으로 저주파 수 코딩 방식을 설정할 수 있다. 일예로 들면 하기와 같이 매핑과정이 수행될 수 있다.
NM(30)
NM(31) = {E'q(2)*2 + E'q(3)}/3
NM(32) = {E'q(3)*2 + E'q(4)}/3
NM(33) = {E'q(4) + Ε' 'q(5)*2}/3
NM(34) = {E'q(5) + Ε' 'q(6)*2}/3
NM(35) = E'q(7)
Nm(36) = {E'q(8)*3 + E'q(9)}/4
Nm(37) = {E'q(9)*3 + E'q(10)}/4
Nm(38) = {E'q(10) + E'q(ll)*3}/4
Nm(39) = E'q(12) NM(40) = {E ' q(12) + E ' q( 13)*3}/4 NM(41) = {E ' q(13) + E ' q( 14) }/2 NM(42) = E ' q(14) NM(43) = E ' q(14) 저대역의 엔벨로프는 저주파와 고주파간 오버램이 존재하는 서브밴드 즉 p=29까지 구해지고, 고대역의 매핑된 엔벨로프는 서브밴드 p=30~43까지 구해질 수 있다. 한편, 상기한 표 1 및 표 4를 예로 들면, 서브밴드의 끝 주파수 인덱스가 639로 끝나는 경우 슈퍼 와이드 밴드 (32K 샘플링 레이트)이고, 799로 끝나는 경우 풀 밴드 (48K 샘플링 레이트)까지의 밴드 할당을 의미한다.
상기한 바와 같이 고대역의 매핑된 엔벨로프 NM(p)는 다시 양자화될 수 있 다. 이때, 스칼라 양자화가사용될 수 있다.
결합부 (820)는 양자화된 저대역의 엔벨로프 Nq(p)와 양자화된 고대역의 매핑 된 엔벨로프 NM(p)를 결합하여 전대역의 엔벨로프 Nq(p)를 얻을 수 있다. 저 U 비트할당부 (830)는 전대역의 엔벨로프 Nq(p)에 근거하여 서브밴드 단위 로 스꿰트럼 양자화를 수행하기 위한 초기 비트 할당이 수행될 수 있다. 이때, 초 기 비트 할당은 전대역의 엔벨로프로부터 얻어지는 Norm에 근거하여, Norm이 큰 경 우 더 많은 비트를 할당할 수 있다. 얻어진 초기 비트 할당정보에 근거하여 현재 프레임에 대한 엔벨로프 리파인먼트 처리 여부를 결정할 수 있다. 만약, 고대역에 서 비트가 할당된 서브밴드가 존재하는 경우, 고대역의 엔벨로프를 리파인하기 위 하여 델타 코딩이 행해질 필요가 있다. 즉, 고대역에 중요한 스꿰트럼 성분이 존 재한다면, 좀 더 미세한 스꿰트럼 엔벨로프를 제공하기 위하여 리파인먼트가 수행 될 수 있다. 고대역에서 비트가 할당된 서브밴드를 엔벨로프 업데이트를 필요로 하는 서브밴드로 결정할 수 있다. 한편, 고대역에서 비트가 할당된 서브밴드가 존 재하지 않는 경우, 엔벨로프 리파인먼트 처리는 불필요하고, 초기 비트 할당정보를 저대역의 스꿰트럼 부호화 및 /또는 엔벨로프 부호화에 사용할 수 있다. 제 1 비트 할당부 (830)에서 얻어지는 초기 비트 할당정보에 따라서 델타 부호화부 (840) , 엔벨 로프 업데이트부 (850) 및 제 2 비트할당부 (860)의 동작 여부가 결정될 수 있다. 제 1 비트할당부 (830)는 소수점 단위의 비트할당을 수행할 수 있다.
델타 부호화부 (840)는 엔벨로프 업데이트를 필요로 하는 서브밴드에 대하여, 매핑된 엔벨로프 NM(p)와 원래 스꿰트럼을 사용하여 양자화된 엔벨로프 Nq(p)간의 차이 즉 델타를 구하여 부호화할 수 있다. 일예를 들면, 델타는 하기 수학식 2와 같이 나타낼 수 있다.
【수학식 2]
D(p) = Nq(p) - N^p) 델타 부호화부 (840)는 델타의 최소값과 최대값을 조사하여 정보 전송을 위하 여 필요한 비트를 계산할 수 있다. 예를 들어, 최대값이 3보다 크고 7보다 작은 경우, 필요 비트는 4비트로 결정하면서 -8 ~ 7까지의 델타를 전송할 수 있다. 즉, 은 min = -2(B— D로 , 최대값은 max = 2(B— 로 설정하고 , B 는 필요 비트를 으미한 다. 한편, 필요 비트를 표현함에 있어서 제약이 존재할 수 있기 때문에 , 제약을 넘어가는 경우에는 최대값과 최소값에 제한을 가할 수 있다 . 제한이 가해진 최대 값 (maxl )과 최소값 (mini )을 이용하여 델타를 하기 수학식 3과 같이 재계산할 수 있 다.
【수학식 3】
Dq{p) = Max {Min{D{p) , max/), min /) 델타 부호화부 (840)는 Norm 업데이트 정보 즉, 리파인먼트 데이터를 생성할 수 있다. 일실시예에 따르면, 필요비트는 2비트로 표현하고, 필요한 델타값을 비 트스트림에 포함시킬 수 있다. 필요비트를 2비트로 표현하기 때문에 4가지를 표현 할 수 있다. 2 내지 5비트까지 필요비트를 표현할 수 있으며, 각각 0 , 1 , 2 , 3을 활용할 수 있다. 최소값 (min)을 활용하여, 전송할 델타값은 Dt(p) = Dq(p) - min 으로 계산할 수 있다. 리파인먼트 데이터는 필요비트, 최소값, 델타값을 포함할 수 있다.
엔벨로프 업데이트부 (850)는 델타값을 이용하여 Norm 값 즉, 엔벨로프를 업 데이트시킬 수 있다.
【수학식 4】
Nq(p) = NM(p) + Dq(p)
저 12 비트할당부 (860)는 전송될 델타값을 표현하기 위하여 활용한 비트만큼 밴드별 비트할당정보를 업데이트시킬 수 있다. 일실시예에 따르면, 델타값을 부호 화하기 위한 층분한 비트를 제공하기 위하여 , 저주파에서 고주파로, 흑은 고주파에 서 저주파로 밴드를 변경하면서, 특정 비트수 이상이 할당된 경우 1 비트씩 감소시 킬 수 있다. 이와 같이 업데이트된 비트할당정보는 스꿰트럼 양자화에 사용될 수 있다.
도 9는 도 5에 도시된 저주파 부호화장치의 구성을 나타낸 블럭도로서 , 양자 화부 (910)를 포함할 수 있다.
도 9를 참조하면, 양자화부 (910)는 제 1 비트할당부 (830) 흑은 제 2 비트할당 부 (860)로부터 제공되는 비트할당정보에 근거하여 스꿰트럼 양자화를 수행할 수 있 다ᅳ 일실시예에 따르면, PVQ(Pyramid Vector Quant i zat ion)을 사용할 수 있으나 이에 한정되는 것은 아니다. 한편, 양자화부 (910)는 업데이트된 엔벨로프 즉, Norm값에 근거하여 정규화를 수행하고, 정규화된 스꿰트럼에 대하여 양자화를 수행 할 수 있다. 스꿰트럼 양자화시, 복호화단에서 노이즈 필링 처리시 필요로 하는 노이즈 레벨 정보를 추가적으로 계산하여 부호화할 수 있다.
도 10은 일실시예에 따른 오디오 복호화장치의 구성을 나타낸 블럭도이다. 도 10에 도시된 오디오 복호화장치는 역다중화부 ( 1010) , BWE 파라미터 복호 화부 ( 1030) , 고주파 복호화부 ( 1050) , 저주파 복호화부 ( 1070) 및 결합부 ( 1090)를 포 함할 수 있다. 도시되지 않았으나, 오디오 복호화장치는 역변환부를 더 포함할 수 있다ᅳ 각 구성요소는 적어도 하나의 모들로 일체화되어 적어도 하나의 프로세서( 미도시)로 구현될 수 있다. 여기서, 입력신호는 음악 흑은 음성, 흑은 음악과 음 성의 흔합신호를 의미할 수 있으며, 크게 음성신호와 다른 일반적인 신호로 나눌 수도 있다. 이하에서는 설명의 편의를 위하여 오디오 신호로 통칭하기로 한다. 도 10을 참조하면, 역다중화부 ( 1010)는 수신되는 비트스트림을 파싱하여 복 호화에 필요한 파라미터를 생성할 수 있다.
BWE 파라미터 복호화부 ( 1030)는 비트스트림으로부터 BWE 파라미터를 복호화 할 수 있다. BWE 파라미터는 여기 클래스에 해당할 수 있다. 한편 , BWE 파라미터 는 여기 클래스와 다른 파라미터를 포함할 수 있다.
고주파 복호화부 ( 1050)는 복호화된 저주파 스젝트럼과 여기 클래스를 이용하 여 고주파 여기 스꿰트럼을 생성할 수 있다. 다른 실시예에 따르면, 고주파 복호 화부 ( 1050)는 비트스트림으로부터 대역폭 확장에 필요한 파라미터 흑은 비트할당에 필요한 파라미터를 복호화하고, 대역폭 확장에 필요한 파라미터 흑은 비트할당에 필요한 파라미터와 복호화된 저대역 신호의 에너지와 관련된 정보를 고주파 여기 스꿰트럼에 적용할 수 있다.
대역폭 확장에 필요한 파라미터는 고대역 신호의 에너지와 관련된 정보와 부 가정보를 포함할 수 있다. 부가정보는 고대역에서 중요한 스꿰트럼 성분을 포함하 는 밴드에 대한 정보로서, 고대역에서 특정 밴드에 포함된 스꿰트럼 성분과 관련된 정보일 수 있다. 고대역 신호의 에너지와 관련된 정보는 백터 역양자화될 수 있 다.
저주파 복호화부 (1070)는 비트스트림으로부터 저대역의 부호화된 스꿰트럼 계수를 복호화하여 저주파 스꿰트럼을 생성할 수 있다. 한편, 저주파 복호화부 (1070)는 저대역 신호의 에너지와 관련된 정보를 복호화할 수 있다.
결합부 (1090)는 저주파 복호화부 (1070)로부터 제공되는 스꿰트럼과 고주파 복호화부 (1050)로부터 제공되는 스꿰트럼을 결합할 수 있다. 역변환부 (미도시)는 결합된 스꿰트럼을 시간 도메인으로 역변환할 수 있다. 도메인 역변환을 위하여 IMDCT( Inverse MDCT)를 사용할 수 있으나 이에 한정되는 것은 아니다.
도 11은 일실시예에 따른 고주파 복호화부 (1050)의 일부 구성을 나타낸 블럭 도이다.
도 11에 도시된 고주파 복호화부 (1050)는 제 1 엔벨로프 역양자화부 (1110) , 제 2 엔벨로프 역양자화부 (1130)와 엔벨로프 리파인먼트부 (1150)를 포함할 수 있다. 각 구성요소는 적어도 하나의 모들로 일체화되어 적어도 하나의 프로세서 (미도시 ) 로 구현될 수 있다.
도 11을 참조하면, 제 1 엔벨로프 역양자화부 (1110)는 저대역의 엔벨로프를 역양자화할 수 있다. 실시예에 따르면, 저대역의 엔벨로프는 백터 역양자화될 수 있다.
저 12 엔벨로프 역양자화부 (1130)는 고대역의 엔벨로프를 역양자화할수 있다. 실시예에 따르면, 고대역의 엔벨로프는 백터 역양자화될 수 있다.
엔벨로프 리파인먼트부 (1150)는 저대역의 엔벨로프와 고대역의 엔벨로프로부 터 얻어지는 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서 브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하고, 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 복호화하여 엔벨로프를 업데이트할 수 있다. 여기서, 전대역 엔 벨로프는 고대역 엔벨로프의 밴드 구성을 저대역 엔벨로프의 밴드 구성에 매핑하 고, 매핑된 고대역 엔벨로프를 상기 저대역 엔벨로프와 결합하여 얻어질 수 있다. 엔벨로프 리파인먼트부 (1150)는 고대역에서 비트가 할당된 서브밴드를 엔벨로프 업 데이트 및 리파인먼트 데이터를 복호화할 서브밴드로 결정할 수 있다. 엔벨로프 리파인먼트부 (1150)는 결정된 서브밴드에 대하여 상기 리파인먼트 데이터를 표현하 는데 사용된 비트수에 근거하여 비트할당정보를 업데이트할 수 있다. 업데이트된 비트할당정보는 스꿰트럼 복호화에 사용될 수 있다. 한편, 리파인먼트 데이터는 필요비트, 최소값과 Norm의 델타값을 포함할 수 있다.
도 12는 도 11에 도시된 엔벨로프 리파인먼트부 (1150)의 구성을 나타낸 블럭 도이다.
도 12에 도시된 엔벨로프 리파인먼트부 (1150)는 매핑부 (1210), 결합부 (1220), 제 1 비트할당부 (1230), 델타 복호화부 (1240), 엔벨로프 업데이트부 (1250) 및 제 2 비트할당부 (1260)을 포함할 수 있다. 각 구성요소는 적어도 하나의 모들로 일체화되어 적어도 하나의 프로세서 (미도시 )로 구현될 수 있다.
도 12를 참조하면, 매핑부 (1210)는 주파수 매칭을 위하여, 고대역의 엔벨로 프를 전대역의 밴드 분할 정보에 대웅되는 밴드 구성으로 매핑시킬 수 있다. 매핑 부 (1210)는 도 8의 매핑부 (810)와 동일하게 동작할 수 있다.
결합부 (1220)는 역양자화된 저대역의 엔벨로프 Nq(p)와 역자화된 고대역의 매핑된 엔벨로프 NM(p)를 결합하여 전대역의 엔벨로프 Nq(p)를 얻을 수 있다. 결합 부 (1220)는 도 8의 결합부 (820)와 동일하게 동작할 수 있다.
저 U비트할당부 (1230)는 전대역의 엔벨로프 Nq(p)에 근거하여 서브밴드 단위 로 스꿰트럼 역양자화를 수행하기 위한 초기 비트 할당이 수행될 수 있다. 제 1 비 트할당부 (1230)는 도 8의 제 1 비트할당부 (830)와 동일하게 동작할 수 있다.
델타 복호화부 (1240)는 비트할당정보에 근거하여, 엔벨로프 업데이트를 필요 로 하는지 및 어떤 서브밴드가 업데이트될 필요가 있는지를 결정하고, 결정된 서브 밴드에 대하여 부호화단에서 전송된 업데이트 정보 즉, 리파인먼트 데이터를 복호 화할 수 있다. 일실시예에 따르면, 2비트의 필요 비트, Delta(O), Delta(l) ,,, 과 같이 표현된 리파인먼트 데이터로부터 필요비트를 추출하고, 최소값을 계산하 고, 델타값 Dq(p)를 추출할 수 있다. 여기서, 필요 비트는 2 비트를 이용하기 때문 에 , 4가지를 표현할 수 있다. 2비트 내지 5비트까지를 각각 0, 1, 2, 3을 활용하 여 표현하기 때문에, 예를 들면 0인 경우 2비트, 3인 경우 5비트와 같이 필요비트 를 설정할 수 있다. 필요비트에 따라서, 최소값 (min)을 계산한 다음, 최소값을 기 준으로 Dq(p) = Dt(p) + min 에 근거하여 Dq(p) 를 추출할 수 있다. 엔벨로프 업데이트부 (1250)는 추출된 델타값 Dq(p)에 근거하여 Norm값 즉 엔 벨로프를 업데이트시킬 수 있다. 엔벨로프 업데이트부 (1250)는 도 8의 엔벨로프 업데이트부 (850)와 동일하게 동작할 수 있다.
저 12 비트할당부 (1260)는 추출된 델타값을 표현하기 위하여 활용된 비트만큼 밴드별 비트할당정보를 다시 구할 수 있다. 제 2 비트할당부 ( 1260)는 도 8의 저 12 비트할당부 (860)와 동일하게 동작할 수 있다.
업데이트된 엔벨로프와 최종적으로 구해진 비트할당정보는 저주파 복호화부 ( 1070)으로 제공될 수 있다.
도 13은 도 10에 도시된 저주파 복호화장치의 구성을 나타낸 블럭도로서, 역 양자화부 ( 1310) 및 노이즈 필링부 ( 1330)을 포함할 수 있다.
도 13을 참조하면, 역양자화부 ( 1310)는 비트스트림에 포함된 스꿰트럼 양자 화 인덱스를 비트할당정보에 근거하여 역양자화할 수 있다. 그 결과, 저대역과 일 부 중요한 고대역의 스꿰트럼을 생성할 수 있다.
노이즈 필링부 ( 1330)는 역양자화된 스꿰트럼에 대하여 노이즈 필링 처리를 수행할 수 있다. 노이즈 필링 처리는 저대역에 대해서만 수행될 수 있다. 노이즈 필링 처리를 역양자화된 스꿰트럼에서 전부 제로로 역양자화된 서브밴드 흑은 각 스꿰트럼 계수에 할당된 평균 비트가 소정 기준치보다 작은 서브밴드에 대하여 수 행될 수 있다. 노이즈 필링된 스꿰트럼은 결합부 (도 10의 1090)으로 제공될 수 있 다. 추가적으로 노이즈 필링된 스꿰트럼에 대하여 업데이트된 엔벨로프에 근거하 여 역정규화가 수행될 수 있다. 노이즈 필링부 ( 1330)에서 생성된 스꿰트럼은 추가 적으로 안티 스파스니스 처리가 수행된 다음, 여기 클래스에 근거하여 진폭이 조절 되어 고주파 스꿰트럼을 생성하는데 사용될 수 있다. 안티 스파스니스 처리는 노 이즈 필링된 스꿰트럼에서 제로로 남아있는 부분에 추가적으로 랜덤 부호 및 일정 한 진폭을 갖는 신호를 부가하는 것을 의미한다.
도 14는 도 10에 도시된 결합부 ( 1090)의 구성을 나타낸 블럭도로서, 스꿰트 럼 결합부 ( 1410)을 포함할 수 있다.
도 14를 참조하면, 스꿰트럼 결합부 (1410)는 복호화된 저대역 스꿰트럼과 생 성된 고대역 스꿰트럼을 결합할 수 있다. 저대역 스꿰트럼은 노이즈 필링된 스꿰 트럼일 수 있다. 고대역 스꿰트럼은 복호화된 저대역 스꿰트럼의 다이나믹 레인지 흑은 진폭을 여기 클래스에 근거하여 조절하여 얻어진 변형된 저대역 스꿰트럼을 이용하여 생성될 수 있다. 예를 들면, 변형된 저대역 스꿰트럼을 고대역으로 패 칭, 예를 들면 전사, 복사, 미러링 흑은 폴딩하여 고대역 스꿰트럼을 생성할 수 있 다.
스꿰트럼 결합부 ( 1410)는 엔벨로프 리파인먼트부 ( 110)로부터 제공되는 비트 할당 정보에 근거하여 복호화된 저대역 스꿰트럼과 생성된 고대역 스꿰트럼을 선택 적으로 결합할 수 있다. 여기서 비트 할당 정보는 초기 비트 할당 정보 흑은 최종 비트 할당 정보일 수 있다. 일실시예에 따르면, 저대역과 고대역의 경계에 위치한 서브밴드에서 비트할당에 되어 있는 경우 노이즈 필링된 스꿰트럼에 근거하여 결합 을 수행하고, 비트할당이 되어 있지 않은 경우 노이즈 필링된 스꿰트럼과 생성된 고대역 스꿰트럼에 대하여 오버랩 애드 처리를 수행할 수 있다.
스꿰트럼 결합부 (1410)는 서브밴드별 비트 할당 정보에 근거하여, 비트가 할 당된 서브밴드인 경우 노이즈 필링된 스꿰트럼을 이용하고, 비트가 할당되지 않은 서브밴드의 경우 생성된 고대역 스꿰트럼을 이용할 수 있다. 여기서, 서브밴드의 구성은 전대역의 밴드 구성에 근거할 수 있다.
도 15는 본 발명의 일실시예에 따른 부호화모들을 포함하는 멀티미디어 기기 의 구성을 나타낸 블록도이다.
도 15에 도시된 멀티미디어 기기 (1500)는 통신부 (1510)와 부호화모들 (1530) 을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스트림의 용도에 따 라서, 오디오 비트스트림을 저장하는 저장부 (1550)을 더 포함할 수 있다. 또한, 멀티미디어 기기 (1500)는 마이크로폰 (1570)을 더 포함할 수 있다. 즉, 저장부 (1550)와 마이크로폰 (1570)은 읍션으로 구비될 수 있다. 한편, 도 15에 도시된 멀 티미디어 기기 (1500)는 임의의 복호화모들 (미도시), 예를 들면 일반적인 복호화 기 능을 수행하는 복호화모들 흑은 본 발명의 일실시예에 따른 복호화모들을 더 포함 할 수 있다. 여기서, 부호화모들 (1530)은 멀티미디어 기기 (1500)에 구비되는 다른 구성요소 (미도시 )와 함께 일체화되어 적어도 하나 이상의 프로세서 (미도시 )로 구현 될 수 있다.
도 15를 참조하면, 통신부 (1510)는 외부로부터 제공되는 오디오와 부호화된 비트스트림 중 적어도 하나를 수신하거나, 복원된 오디오와 부호화모들 (1530)의 부 호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다.
통신부 (1510)는 무선 인터넷, 무선 인트라넷, 무선 전화망, 무선 랜 (LAN), 와이파이 (Wi-Fi), 와이파이 다이렉트 (WFD, Wi-Fi Direct), 3G(Generat ion) , 4G(4 Generation), 블루투스 (Bluetooth) , 적외선 통신 (IrDA, Infrared Data Association), RFID(Radio Frequency Identification), UWB(Ultra WideBand), 지그 비 (Zigbee), NFC (Near Field Co隱 unicat ion)와 같은 무선 네트워크 또는 유선 전화 망, 유선 인터넷과 같은 유선 네트워크를 통해 외부의 멀티미디어 기기와 데이터를 송수신할 수 있도록 구성된다.
부호화모들 (1530)은 일실시예에 따르면, 통신부 (1510) 흑은 마이크로폰 (1570)을 통하여 제공되는 시간 도메인의 오디오 신호를 주파수 도메인으로 변환하 고, 주파수 도메인 신호로부터 얻어지는 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로 프 업데이트를 필요로 하는 서브밴드를 결정하고, 결정된 서브밴드에 대하여 엔벨 로프 업데이트와 관련된 리파인먼트 데이터를 생성할 수 있다.
저장부 (1550)는 부호화 모들 (1530)에서 생성되는 부호화된 비트스트림을 저 장할 수 있다. 한편, 저장부 (1550)는 멀티미디어 기기 (1500)의 운용에 필요한 다 양한 프로그램을 저장할 수 있다.
마이크로폰 (1570)은 사용자 흑은 외부의 오디오신호를 부호화모들 (1530)로 제공할 수 있다.
도 16은 본 발명의 일실시예에 따른 복호화모들을 포함하는 멀티미디어 기기 의 구성을 나타낸 블록도이다.
도 16에 도시된 멀티미디어 기기 (1600)는 통신부 (1610)와 복호화모들 (1630) 을 포함할 수 있다. 또한, 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따 라서, 복원된 오디오신호를 저장하는 저장부 (1650)을 더 포함할 수 있다. 또한, 멀티미디어 기기 (1600)는 스피커 (1670)를 더 포함할 수 있다. 즉, 저장부 (1650)와 스피커 (1670)는 읍션으로 구비될 수 있다. 한편, 도 10에 도시된 멀티미디어 기기 (1600)는 임의의 부호화모들 (미도시), 예를 들면 일반적인 부호화 기능을 수행하는 부호화모들 흑은 본 발명의 일실시예에 따른 부호화모들을 더 포함할 수 있다. 여 기서, 복호화모들 (1630)은 멀티미디어 기기 (1600)에 구비되는 다른 구성요소 (미도 시)와 함께 일체화되어 적어도 하나의 이상의 프로세서 (미도시)로 구현될 수 있다. 도 16을 참조하면, 통신부 (1610)는 외부로부터 제공되는 부호화된 비트스트 림과 오디오 신호 중 적어도 하나를 수신하거나 복호화 모들 (1630)의 복호화결과 얻어지는 복원된 오디오 신호와 부호화결과 얻어지는 오디오 비트스트림 중 적어도 하나를 송신할 수 있다. 한편, 통신부 (1610)는 도 15의 통신부 (1510)와 실질적으 로 유사하게 구현될 수 있다.
복호화 모들 (1630)은 일실시예에 따르면, 통신부 (1610)를 통하여 제공되는 비트스트림을 수신하고, 전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴드를 결정하고, 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데이터를 복호화하여 엔벨로프를 업데이트할 수 있다.
저장부 (1650)는 복호화 모들 (1630)에서 생성되는 복원된 오디오신호를 저장 할 수 있다. 한편, 저장부 (1650)는 멀티미디어 기기 (1600)의 운용에 필요한 다양 한 프로그램을 저장할 수 있다.
스피커 (1670)는 복호화 모들 (1630)에서 생성되는 복원된 오디오신호를 외부 로 출력할 수 있다.
도 17은 본 발명의 일실시예에 따른 부호화모들과 복호화모들을 포함하는 멀 티미디어 기기의 구성을 나타낸 블록도이다.
도 17에 도시된 멀티미디어 기기 (1700)는 통신부 (1710), 부호화모들 (1720)과 복호화모들 (1730)을 포함할 수 있다. 또한, 부호화 결과 얻어지는 오디오 비트스 트림 흑은 복호화 결과 얻어지는 복원된 오디오신호의 용도에 따라서, 오디오 비트 스트림 흑은 복원된 오디오신호를 저장하는 저장부 (1740)을 더 포함할 수 있다. 또한, 멀티미디어 기기 (1700)는 마이크로폰 (1750) 흑은 스피커 (1760)를 더 포함할 수 있다. 여기서, 부호화모들 (1720)과 복호화모들 (1730)은 멀티미디어 기기 (1700) 에 구비되는 다른 구성요소 (미도시)와 함께 일체화되어 적어도 하나 이상의 프로세 서 (미도시 )로 구현될 수 있다 .
도 17에 도시된 각 구성요소는 도 15에 도시된 멀티미디어 기기 (1500)의 구 성요소 흑은 도 16에 도시된 멀티미디어 기기 (1600)의 구성요소와 중복되므로, 그 상세한 설명은 생략하기로 한다.
도 15 내지 도 17에 도시된 멀티미디어 기기 (1500, 1600, 1700)에는, 전화, 모바일 폰 등을 포함하는 음성통신 전용단말, TV, MP3 플레이어 등을 포함하는 방 송 흑은 음악 전용장치 , 흑은 음성통신 전용단말과 방송 흑은 음악 전용장치의 융 합 단말장치가 포함될 수 있으나, 이에 한정되는 것은 아니다. 또한, 멀티미디어 기기 (1500, 1600, 1700)는 클라이언트, 서버 흑은 클라이언트와 서버 사이에 배치 되는 변환기로서 사용될 수 있다.
한편, 멀티미디어 기기 (1500, 1600, 1700)가 예를 들어 모바일 폰인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 유저 인터페이스 흑은 모바일 폰에서 처리되는 정보를 디스플레이하는 디스플레이부, 모바일 폰의 전반적인 기능 을 제어하는 프로세서를 더 포함할 수 있다. 또한, 모바일 폰은 촬상 기능을 갖는 카메라부와 모바일 폰에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성 요소를 더 포함할 수 있다.
한편, 멀티미디어 기기 (1500, 1600, 1700)가 예를 들어 TV인 경우, 도시되지 않았지만 키패드 등과 같은 유저 입력부, 수신된 방송정보를 디스플레이하는 디스 플레이부, TV의 전반적인 기능을 제어하는 프로세서를 더 포함할 수 있다. 또한, TV는 TV에서 필요로 하는 기능을 수행하는 적어도 하나 이상의 구성요소를 더 포함 할 수 있다.
도 18은 일실시예에 따른 오디오 부호화방법의 동작을 설명하기 위한 흐름도 이다. 도 18에 도시된 방법은 도 5 , 도 7 , 도 8 흑은 도 9의 대웅하는 구성요소에 서 수행되거나 별도의 프로세서에 의해 수행될 수 있다.
도 18을 참조하면, 1800 단계에서는 입력신호에 대하여 MDCT와 같은 시간-주 파수 변환을 수행할 수 있다.
1810 단계에서는 MDCT 스꿰트럼에 대하여 저주파 대역의 Norm을 계산하여 양 자화할 수 있다.
1820 단계에서는 MDCT 스꿰트럼에 대하여 고주파 엔벨로프를 계산하여 양자 화할 수 있다.
1830 단계에서는 고주파 대역의 확장 파라미터를 추출할 수 있다.
1840 단계에서는 고주파 대역에 대하여 Norm 값 매핑을 통하여 전대역의 양 자화된 Norm값을 획득할 수 있다.
1850 단계에서는 밴드별 비트할당정보를 생성할 수 있다.
1860 단계에서는 밴드별 비트할당정보에 근거하여 고주파 대역에서 중요 스 꿰트럼 정보가 양자화될 경우, 고주파 대역의 Norm 업데이트 정보를 생성할 수 있 다.
1870 단계에서는 고주파 대역의 Norm 업데이트를 통하여 전대역의 양자화된 Norm 값을 업데이트시킬 수 있다.
1880 단계에서는 업데이트된 전대역의 양자화된 Norm값에 근거하여 스꿰트럼 을 정규화하고 양자화할 수 있다.
1890 단계에서는 양자화된 스꿰트럼을 포함하는 비트스트림을 생성할 수 있 다.
도 19는 일실시예에 따른 오디오 복호화방법의 동작을 설명하기 위한 흐름도 이다. 도 19에 도시된 방법은 도 10 내지 도 14의 대웅하는 구성요소에서 수행되 거나, 별도의 프로세서에 의해 수행될 수 있다.
도 19를 참조하면, 1900 단계에서는 비트스트림을 파싱할 수 있다.
1905 단계에서는 비트스트림에 포함된 저주파 대역의 Norm을 복호화할 수 있 다.
1910 단계에서는 비트스트림에 포함된 고주파 엔벨로프를 복호화할 수 있다.
1915 단계에서는 고주파 대역의 확장 파라미터를 복호화할 수 있다.
1920 단계에서는 고주파 대역에 대하여 Norm 값 매핑을 통하여 전대역의 역 양자화된 Norm값을 획득할 수 있다.
1925 단계에서는 밴드별 비트할당정보를 생성할 수 있다.
1930 단계에서는 밴드별 비트할당정보에 근거하여 고주파 대역에서 중요 스 꿰트럼 정보가 양자화된 경우, 고주파 대역의 Norm 업데이트 정보를 복호화할 수 있다.
1935 단계에서는 고주파 대역의 Norm 업데이트를 통하여 전대역의 양자화된 Norm 값을 업데이트시킬 수 있다.
1940 단계에서는 업데이트된 전대역의 양자화된 Norm값에 근거하여 스꿰트럼 을 역양자화하고 역정규화하여 복호화된 스꿰트럼을 생성할 수 있다.
1945 단계에서는 복호화된 스꿰트럼에 근거하여 대역 확장 복호화를 수행할 수 있다.
1950 단계에서는 복호화된 스꿰트럼과 대역 확장 복호화된 스꿰트럼을 선택 적으로 병합할 수 있다.
1955 단게에서는 선택적으로 병합된 스꿰트럼에 대하여 IMDCT와 같은 시간- 주파수 역변환을 수행할 수 있다.
상기 실시예들에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키 는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예들에 서 사용될 수 있는 데이터 구조, 프로그램 명령, 흑은 데이터 파일은 컴퓨터로 읽 을 수 있는 기록매체에 다양한 수단을 통하여 기록될 수 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장 장치를 포함할 수 있다. 컴퓨터로 읽을 수 있는 기록매체의 예로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체 (magnet i c medi a) , CD-ROM, DVD와 같은 광기록 매체 (opt i cal medi a) , 플롭티컬 디스크 ( f lopt i cal di sk)와 같은 자기-광 매체 (magneto-opt i cal medi a) , 및 롬 (ROM) , 램 (RAM) , 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 전송 매체일 수도 있다. 프로그램 명 령의 예로는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터 프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상과 같이 본 발명의 일실시예는 비록 한정된 실시예와 도면에 의해 설명 되었으나, 본 발명의 일실시예는 상기 설명된 실시예에 한정되는 것은 아니며, 이 는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양 한 수정 및 변형이 가능하다. 따라서, 본 발명의 스코프는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 이의 균등 또는 등가적 변형 모두는 본 발명 기술 적 사상의 범주에 속한다고 할 것이다.

Claims

【청구의 범위】
【청구항 1]
전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계; 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요 로 하는 서브밴드를 결정하는 단계; 및
상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데 이터를 생성하는 단계를 포함하는 고주파 부호화방법 .
【청구항 2]
저 U 항에 있어서, 상기 전대역 엔벨로프는 고대역 엔벨로프의 밴드 구성을 저대역 엔벨로프의 밴드 구성에 매핑하고, 매핑된 고대역 엔벨로프를 상기 저대역 엔벨로프와 결합하여 얻어지는 고주파 부호화방법.
【청구항 3】
저 U 항에 있어서, 상기 방법은 상기 고대역의 신호 특성에 근거하여 여기 클 래스를 생성하여 부호화하는 단계를 더 포함하는 고주파 부호화방법 .
【청구항 4】
저 U 항에 있어서, 상기 결정단계는 고대역에서 비트가 할당된 서브밴드를 엔 벨로프 업데이트 및 리파인먼트 데이터를 전송할 서브밴드로 결정하는 고주파 부호 화방법ᅳ
【청구항 5】
제 1 항에 있어서, 상기 방법은 상기 결정된 서브밴드에 대하여 상기 리파인 먼트 데이터를 표현하는데 사용된 비트수에 근거하여 상기 비트할당정보를 업데이 트하는 단계를 더 포함하는 고주파 부호화방법 .
【청구항 6]
저 15 항에 있어서, 상기 업데이트된 비트할당정보는 스꿰트럼 부호화에 사용 하기 위하여 제공되는 고주파 부호화방법 .
【청구항 7】
제 1 항에 있어서, 상기 리파인먼트 데이터는 필요비트, 최소값과 Norm의 델 타값을 포함하는 고주파 부호화방법ᅳ
【청구항 8】
전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하는 단계; 서브밴드별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요 로 하는 서브밴드를 결정하는 단계; 및 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파인먼트 데 이터를 복호화하여 엔벨로프를 업데이트하는 단계를 포함하는 고주파 복호화방법.
【청구항 9】
저 18 항에 있어서, 상기 전대역 엔벨로프는 고대역 엔벨로프의 밴드 구성을 저대역 엔벨로프의 밴드 구성에 매핑하고, 매핑된 고대역 엔벨로프를 상기 저대역 엔벨로프와 결합하여 얻어지는 고주파 복호화방법.
【청구항 10]
저 18 항에 있어서, 상기 방법은 여기 클래스를 복호화하는 단계를 더 포함하 는 고주파 복호화방법ᅳ
【청구항 11]
저 18 항에 있어서, 상기 결정단계는 고대역에서 비트가 할당된 서브밴드를 엔 벨로프 업데이트 및 리파인먼트 데이터를 복호화할 서브밴드로 결정하는 고주파 복 호화방법ᅳ
【청구항 12]
제 8 항에 있어서, 상기 방법은 상기 결정된 서브밴드에 대하여 상기 리파인 먼트 데이터를 표현하는데 사용된 비트수에 근거하여 상기 비트할당정보를 업데이 트하는 단계를 더 포함하는 고주파 복호화방법 .
【청구항 13]
제 12 항에 있어서, 상기 업데이트된 비트할당정보는 스꿰트럼 복호화에 사용 하기 위하여 제공되는 고주파 복호화방법 .
【청구항 14]
제 8 항에 있어서, 상기 리파인먼트 데이터는 필요비트, 최소값과 Norm의 델 타값을 포함하는 고주파 복호화방법ᅳ
【청구항 15]
전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드 별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴 드를 결정하고, 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 생성하는 적어도 하나의 프로세서를 포함하는 고주파 부호화장치. 【청구항 16]
전대역 엔벨로프에 근거하여 서브밴드별 비트할당정보를 생성하고, 서브밴드 별 비트할당정보에 근거하여 고대역에서 엔벨로프 업데이트를 필요로 하는 서브밴 드를 결정하고, 상기 결정된 서브밴드에 대하여 엔벨로프 업데이트와 관련된 리파 인먼트 데이터를 복호화하여 엔벨로프를 업데이트하는 적어도 하나의 프로세서를 포함하는 고주파 복호화장치ᅳ
PCT/IB2015/001365 2014-03-24 2015-03-24 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치 WO2015162500A2 (ko)

Priority Applications (12)

Application Number Priority Date Filing Date Title
US15/129,184 US10468035B2 (en) 2014-03-24 2015-03-24 High-band encoding method and device, and high-band decoding method and device
KR1020247010397A KR20240046298A (ko) 2014-03-24 2015-03-24 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN201580027514.9A CN106463133B (zh) 2014-03-24 2015-03-24 高频带编码方法和装置,以及高频带解码方法和装置
EP15783391.4A EP3128514A4 (en) 2014-03-24 2015-03-24 High-band encoding method and device, and high-band decoding method and device
JP2016558776A JP6616316B2 (ja) 2014-03-24 2015-03-24 高帯域符号化方法及びその装置、並びに高帯域復号方法及びその装置
EP21185891.5A EP3913628A1 (en) 2014-03-24 2015-03-24 High-band encoding method
CN202010118463.3A CN111105806B (zh) 2014-03-24 2015-03-24 高频带编码方法和装置,以及高频带解码方法和装置
KR1020227016423A KR102653849B1 (ko) 2014-03-24 2015-03-24 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
SG11201609834TA SG11201609834TA (en) 2014-03-24 2015-03-24 High-band encoding method and device, and high-band decoding method and device
KR1020167026624A KR102400016B1 (ko) 2014-03-24 2015-03-24 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
US16/592,876 US10909993B2 (en) 2014-03-24 2019-10-04 High-band encoding method and device, and high-band decoding method and device
US17/138,106 US11688406B2 (en) 2014-03-24 2020-12-30 High-band encoding method and device, and high-band decoding method and device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201461969368P 2014-03-24 2014-03-24
US61/969,368 2014-03-24
US201462029718P 2014-07-28 2014-07-28
US62/029,718 2014-07-28

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US15/129,184 A-371-Of-International US10468035B2 (en) 2014-03-24 2015-03-24 High-band encoding method and device, and high-band decoding method and device
US16/592,876 Continuation US10909993B2 (en) 2014-03-24 2019-10-04 High-band encoding method and device, and high-band decoding method and device

Publications (2)

Publication Number Publication Date
WO2015162500A2 true WO2015162500A2 (ko) 2015-10-29
WO2015162500A3 WO2015162500A3 (ko) 2016-01-28

Family

ID=54333371

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2015/001365 WO2015162500A2 (ko) 2014-03-24 2015-03-24 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치

Country Status (7)

Country Link
US (3) US10468035B2 (ko)
EP (2) EP3913628A1 (ko)
JP (1) JP6616316B2 (ko)
KR (3) KR102653849B1 (ko)
CN (2) CN111105806B (ko)
SG (2) SG11201609834TA (ko)
WO (1) WO2015162500A2 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573331B2 (en) 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10580424B2 (en) 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US11456001B2 (en) 2019-07-02 2022-09-27 Electronics And Telecommunications Research Institute Method of encoding high band of audio and method of decoding high band of audio, and encoder and decoder for performing the methods

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102653849B1 (ko) * 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
US10553222B2 (en) * 2017-03-09 2020-02-04 Qualcomm Incorporated Inter-channel bandwidth extension spectral mapping and adjustment

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding
JP3278900B2 (ja) 1992-05-07 2002-04-30 ソニー株式会社 データ符号化装置及び方法
JP3237089B2 (ja) 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
JP3344944B2 (ja) * 1997-05-15 2002-11-18 松下電器産業株式会社 オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法
CN100372270C (zh) 1998-07-16 2008-02-27 尼尔逊媒介研究股份有限公司 广播编码的系统和方法
US6272176B1 (en) 1998-07-16 2001-08-07 Nielsen Media Research, Inc. Broadcast encoding system and method
JP3454206B2 (ja) 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
EP1470550B1 (en) 2002-01-30 2008-09-03 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device and methods thereof
US7752052B2 (en) * 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
BRPI0510014B1 (pt) 2004-05-14 2019-03-26 Panasonic Intellectual Property Corporation Of America Dispositivo de codificação, dispositivo de decodificação e método do mesmo
KR20070012832A (ko) 2004-05-19 2007-01-29 마츠시타 덴끼 산교 가부시키가이샤 부호화 장치, 복호화 장치 및 이들의 방법
ATE429698T1 (de) 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
WO2007126015A1 (ja) 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
KR20070115637A (ko) 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101089951B (zh) 2006-06-16 2011-08-31 北京天籁传音数字技术有限公司 频带扩展编码方法及装置和解码方法及装置
KR101346358B1 (ko) 2006-09-18 2013-12-31 삼성전자주식회사 대역폭 확장 기법을 이용한 오디오 신호의 부호화/복호화방법 및 장치
US20080071550A1 (en) 2006-09-18 2008-03-20 Samsung Electronics Co., Ltd. Method and apparatus to encode and decode audio signal by using bandwidth extension technique
KR101375582B1 (ko) 2006-11-17 2014-03-20 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
CN101197130B (zh) 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
EP2101322B1 (en) * 2006-12-15 2018-02-21 III Holdings 12, LLC Encoding device, decoding device, and method thereof
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
US8392198B1 (en) * 2007-04-03 2013-03-05 Arizona Board Of Regents For And On Behalf Of Arizona State University Split-band speech compression based on loudness estimation
CN103594090B (zh) 2007-08-27 2017-10-10 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
PL3591650T3 (pl) 2007-08-27 2021-07-05 Telefonaktiebolaget Lm Ericsson (Publ) Sposób i urządzenie do wypełniania dziur widmowych
KR101221919B1 (ko) 2008-03-03 2013-01-15 연세대학교 산학협력단 오디오 신호 처리 방법 및 장치
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
CN101609674B (zh) 2008-06-20 2011-12-28 华为技术有限公司 编解码方法、装置和系统
JP5203077B2 (ja) 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
KR101301245B1 (ko) 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
EP2210944A1 (en) * 2009-01-22 2010-07-28 ATG:biosynthetics GmbH Methods for generation of RNA and (poly)peptide libraries and their use
KR101320963B1 (ko) 2009-03-31 2013-10-23 후아웨이 테크놀러지 컴퍼니 리미티드 신호 잡음 제거 방법, 신호 잡음 제거 장치, 및 오디오 디코딩 시스템
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
US8386266B2 (en) * 2010-07-01 2013-02-26 Polycom, Inc. Full-band scalable audio codec
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
JP5651980B2 (ja) 2010-03-31 2015-01-14 ソニー株式会社 復号装置、復号方法、およびプログラム
CN102222505B (zh) 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US8560330B2 (en) * 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
US8342486B2 (en) * 2010-08-09 2013-01-01 Robert S Smith Durable steam injector device
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
SG191771A1 (en) * 2010-12-29 2013-08-30 Samsung Electronics Co Ltd Apparatus and method for encoding/decoding for high-frequency bandwidth extension
KR20140027091A (ko) 2011-02-08 2014-03-06 엘지전자 주식회사 대역 확장 방법 및 장치
EP3244405B1 (en) * 2011-03-04 2019-06-19 Telefonaktiebolaget LM Ericsson (publ) Audio decoder with post-quantization gain correction
RU2464649C1 (ru) * 2011-06-01 2012-10-20 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ обработки звукового сигнала
TWI605448B (zh) 2011-06-30 2017-11-11 三星電子股份有限公司 產生帶寬延伸訊號的裝置
CN102208188B (zh) * 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
US9384749B2 (en) * 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
JP6039678B2 (ja) 2011-10-27 2016-12-07 エルジー エレクトロニクス インコーポレイティド 音声信号符号化方法及び復号化方法とこれを利用する装置
ES2582475T3 (es) * 2011-11-02 2016-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Generación de una extensión de banda ancha de una señal de audio de ancho de banda extendido
WO2013141638A1 (ko) 2012-03-21 2013-09-26 삼성전자 주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
PL2874149T3 (pl) * 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
EP2903004A4 (en) * 2012-09-24 2016-11-16 Samsung Electronics Co Ltd METHOD AND APPARATUS FOR HAMPERING FRAME ERRORS, AND METHOD AND APPARATUS FOR DECODING AUDIO DATA
CN103971693B (zh) * 2013-01-29 2017-02-22 华为技术有限公司 高频带信号的预测方法、编/解码设备
ES2742420T3 (es) * 2013-12-02 2020-02-14 Huawei Tech Co Ltd Método y aparato de codificación
KR102386736B1 (ko) 2014-03-03 2022-04-14 삼성전자주식회사 대역폭 확장을 위한 고주파 복호화 방법 및 장치
CN104934034B (zh) * 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
KR102653849B1 (ko) * 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
PL3174050T3 (pl) 2014-07-25 2019-04-30 Fraunhofer Ges Forschung Urządzenie do kodowania sygnałów audio, urządzenie do dekodowania sygnałów audio i ich sposoby

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586546B2 (en) 2018-04-26 2020-03-10 Qualcomm Incorporated Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding
US10573331B2 (en) 2018-05-01 2020-02-25 Qualcomm Incorporated Cooperative pyramid vector quantizers for scalable audio coding
US10580424B2 (en) 2018-06-01 2020-03-03 Qualcomm Incorporated Perceptual audio coding as sequential decision-making problems
US10734006B2 (en) 2018-06-01 2020-08-04 Qualcomm Incorporated Audio coding based on audio pattern recognition
US11456001B2 (en) 2019-07-02 2022-09-27 Electronics And Telecommunications Research Institute Method of encoding high band of audio and method of decoding high band of audio, and encoder and decoder for performing the methods

Also Published As

Publication number Publication date
US20210118451A1 (en) 2021-04-22
WO2015162500A3 (ko) 2016-01-28
US11688406B2 (en) 2023-06-27
US10468035B2 (en) 2019-11-05
KR20160145559A (ko) 2016-12-20
SG10201808274UA (en) 2018-10-30
EP3128514A2 (en) 2017-02-08
CN111105806A (zh) 2020-05-05
KR20240046298A (ko) 2024-04-08
KR102653849B1 (ko) 2024-04-02
JP6616316B2 (ja) 2019-12-04
JP2017514163A (ja) 2017-06-01
CN106463133B (zh) 2020-03-24
EP3128514A4 (en) 2017-11-01
US10909993B2 (en) 2021-02-02
KR102400016B1 (ko) 2022-05-19
US20200035250A1 (en) 2020-01-30
CN106463133A (zh) 2017-02-22
EP3913628A1 (en) 2021-11-24
KR20220070549A (ko) 2022-05-31
SG11201609834TA (en) 2016-12-29
CN111105806B (zh) 2024-04-26
US20180182400A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
KR102194559B1 (ko) 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
US20210090581A1 (en) Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus
US11688406B2 (en) High-band encoding method and device, and high-band decoding method and device
CN111179946B (zh) 无损编码方法和无损解码方法
US11676614B2 (en) Method and apparatus for high frequency decoding for bandwidth extension
KR102491177B1 (ko) 대역폭 확장을 위한 고주파 복호화 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15783391

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 2016558776

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20167026624

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15129184

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2015783391

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2015783391

Country of ref document: EP