WO2010134757A2 - 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 - Google Patents

계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 Download PDF

Info

Publication number
WO2010134757A2
WO2010134757A2 PCT/KR2010/003167 KR2010003167W WO2010134757A2 WO 2010134757 A2 WO2010134757 A2 WO 2010134757A2 KR 2010003167 W KR2010003167 W KR 2010003167W WO 2010134757 A2 WO2010134757 A2 WO 2010134757A2
Authority
WO
WIPO (PCT)
Prior art keywords
sinusoidal
pulse
decoding
coding
pulse coding
Prior art date
Application number
PCT/KR2010/003167
Other languages
English (en)
French (fr)
Other versions
WO2010134757A3 (ko
Inventor
이미숙
양희식
김현우
성종모
배현주
이병선
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to JP2012511761A priority Critical patent/JP5730860B2/ja
Priority to CN2010800323313A priority patent/CN102460574A/zh
Priority to EP10777944.9A priority patent/EP2434485A4/en
Priority to US13/321,297 priority patent/US8805680B2/en
Publication of WO2010134757A2 publication Critical patent/WO2010134757A2/ko
Publication of WO2010134757A3 publication Critical patent/WO2010134757A3/ko
Priority to US14/325,475 priority patent/US20140324417A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Definitions

  • the present invention relates to a method and apparatus for encoding and decoding an audio signal, and more particularly, to a method and apparatus for encoding and decoding an audio signal using hierarchical sinusoidal pulse coding.
  • ITU-T G.729.1 is a representative extension codec, which is a broadband extension codec based on the narrow band codec G.729.
  • the codec provides bitstream-level compatibility with G.729 at 8 kbit / s, and a higher quality narrowband signal at 12 kbit / s.
  • a wideband signal can be coded with a bit rate expandability of 2 kbit / s, and the quality of the output signal is improved with increasing bit rate.
  • extension codec capable of providing an ultra-wideband signal based on G.729.1 is being developed.
  • This extension codec can encode and decode narrowband, wideband, and ultra-wideband signals.
  • Such an extended codec also uses sinusoidal pulse coding to improve the quality of the synthesized signal.
  • Sinusoidal pulse coding can occur over multiple layers. If the number of bits or sinusoidal pulses allocated to sinusoidal pulse coding in the lower layer is variable in units of frames, a method for improving the quality of the synthesized signal in sinusoidal pulse coding in the upper layer is required.
  • the present invention provides a method for encoding and decoding an audio signal that can further improve the quality of a synthesized signal by considering lower sinusoidal pulse coding when encoding or decoding an audio signal in an upper layer using hierarchical sinusoidal pulse coding. It is an object to provide a device.
  • a method of encoding an audio signal comprising: receiving a converted audio signal, dividing the converted audio signal into a plurality of subbands, and first sinusoidal pulse coding for the plurality of subbands Determining the region of the second sinusoidal pulse coding of the plurality of sub-bands using the pulse coding information of the first sinusoidal pulse coding, and performing the second sinusoidal pulse coding for the performing region And the first sinusoidal pulse coding performing step is variably performed according to the pulse coding information.
  • the present invention also provides an audio signal encoding apparatus, comprising: an input unit for receiving a converted audio signal, an operation unit for dividing the converted audio signal into a plurality of subbands, and a first sinusoidal pulse coding for the plurality of subbands A second pulse coding that determines an execution region of the second sinusoidal pulse coding among the plurality of subbands by using the pulse coding unit and the pulse coding information of the first sinusoidal pulse coding, and performs a second sinusoidal pulse coding on the performing region And a first pulse coding unit to variably perform the first sinusoidal pulse coding according to the pulse coding information.
  • the present invention also provides a method of decoding an audio signal, the method comprising: receiving a converted audio signal, dividing the converted audio signal into a plurality of subbands, performing a first sinusoidal pulse decoding on the plurality of subbands, Determining an execution region of a second sinusoidal pulse decoding of the plurality of subbands by using pulse coding information of the first sinusoidal pulse decoding, and performing a second sinusoidal pulse decoding on the performing region;
  • the sine wave pulse decoding step may be variably performed according to the pulse decoding information.
  • the present invention provides an audio signal decoding apparatus, comprising: an input unit for receiving a converted audio signal, an operation unit for dividing the converted audio signal into a plurality of subbands, and a first sinusoidal pulse decoding for the plurality of subbands A second pulse decoding for determining an execution region of a second sinusoidal pulse decoding among a plurality of subbands by using a pulse decoding unit and pulse decoding information of the first sinusoidal pulse decoding, and performing a second sinusoidal pulse decoding on the performing region And a first pulse decoding unit variably performing a first sinusoidal pulse decoding according to the pulse decoding information.
  • the advantage of further improving the quality of the synthesized signal by considering the sinusoidal pulse coding of the lower layer have.
  • 1 is a structure of an ultra-wideband extension codec that provides compatibility with a narrowband codec.
  • FIG. 2 is a block diagram of an audio signal encoding apparatus according to an embodiment of the present invention
  • FIG. 3 is a block diagram of an audio signal decoding apparatus according to an embodiment of the present invention.
  • 4 is a result of applying sinusoidal pulse coding to 211 MDCT coefficients corresponding to 7-14 kHz through two layers.
  • FIG. 5 is a result of hierarchical sinusoidal pulse coding according to an embodiment of the present invention.
  • FIG. 6 is a result of hierarchical sinusoidal pulse coding according to another embodiment of the present invention.
  • FIG. 8 is a graph showing MDCT coefficients synthesized by the conventional sinusoidal pulse coding method and the sinusoidal pulse coding method according to the present invention, respectively.
  • FIG. 9 is a flowchart illustrating a method of encoding an audio signal according to an embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating a method of decoding an audio signal according to an embodiment of the present invention.
  • FIG. 11 is a block diagram of an audio signal encoding apparatus according to another embodiment of the present invention.
  • FIG. 12 is a block diagram of an audio signal decoding apparatus according to another embodiment of the present invention.
  • 1 shows the structure of an ultra-wideband extension codec that provides compatibility with narrowband codecs.
  • the extension codec has a structure of encoding or decoding a signal of each frequency band after dividing an input signal into several frequency bands.
  • the input signal is input to the first order low pass filter 102 and the first order high pass filter 104.
  • the first order low pass filter 102 performs filtering and down sampling to output the low band signal A (0-8 kHz) of the input signal.
  • the first high pass filter 104 performs filtering and down sampling to output a high band signal B (8-16 kHz) among the input signals.
  • the low band signal A output from the first order low pass filter 102 is input to the second order low pass filter 106 and the second order high pass filter 108.
  • Secondary low pass filter 106 performs filtering and down sampling to output low-low band signal A1 (0-4 kHz)
  • second order high pass filter 108 performs filtering and down sampling to perform low sampling Output the high-band signal A2 (4-8 kHz).
  • the low-low band signal A1 is input to the narrowband coding module 110, the low-highband signal A2 to the wideband extension coding module 112, and the highband signal B to the ultra-wideband extension coding module 114, respectively.
  • the narrowband coding module 110 operates, only the narrowband signal is reproduced, and when the narrowband coding module 110 and the wideband extension coding module 112 operate, the wideband signal is reproduced.
  • the narrowband coding module 110, the wideband extension coding module 112, and the ultra wideband extension coding module 114 operate, an ultra wideband signal is reproduced.
  • ITU-T G.729.1 is a broadband extension codec based on G. 729, a narrowband codec.
  • the codec provides bitstream level compatibility with G. 729 at 8 kbit / s and a higher quality narrowband signal at 12 kbit / s.
  • From 14 kbit / s to 32 kbit / s reproduces a wideband signal with a bit rate expandability of 2 kbit / s, the quality of the output signal is improved as the bit rate increases.
  • extension codec that can provide ultra-wideband quality based on G.729.1 is being developed.
  • This extension codec can encode and decode narrowband, wideband, and ultra-wideband signals.
  • G.729.1 and G.711.1 codecs code narrowband signals with existing narrowband codecs G. 729 and G. 711, and perform MDCT (Modified Discrete Cosine Transform) on the remaining signals. Use the method of coding the MDCT coefficients.
  • MDCT coefficients are divided into a plurality of subbands to code gains and shapes of each subband, and MDCT coefficients are generated using an ACELP (Algebraic Code-Excited Linear Prediction) or sinusoidal pulse.
  • ACELP Algebraic Code-Excited Linear Prediction
  • Code The extension codec generally has a structure that codes information for quality enhancement after first coding information for bandwidth extension. For example, a structure for synthesizing signals in the 7-14 kHz band using gains and shapes of each subband, and then improving the quality of the synthesized signal using ACELP or sinusoidal pulse coding.
  • the first layer that provides ultra-wideband quality synthesizes signals corresponding to the 7-14 kHz band using information such as gain and shape.
  • sinusoidal pulse coding is applied to improve the quality of the synthesized signal using additional bits. Through this structure, it is possible to improve the quality of the synthesized signal as the bit rate increases.
  • sinusoidal pulse coding In general, in sinusoidal pulse coding, the position, magnitude, and sign information of a pulse having the largest magnitude, that is, a pulse having the greatest influence on quality, are coded in a predetermined section. As the interval for searching for these pulses is wider, the amount of calculation increases. Therefore, it is preferable to apply sinusoidal pulse coding to each subframe or subband, rather than to apply sinusoidal pulse coding to the entire frame (in the time domain) or the entire frequency band. Sinusoidal pulse coding requires a relatively large number of bits to transmit a single pulse, but has the advantage of accurately representing a signal that affects the quality of the signal.
  • the input signal of the codec has various energy distributions depending on the frequency.
  • the energy change according to the frequency is larger than that of the voice signal.
  • Signals in high energy subbands have a greater impact on the quality of the synthesized signal.
  • Hierarchical sinusoidal pulse coding means performing sinusoidal pulse coding over multiple layers. For example, in the first layer, sinusoidal pulse coding is performed on a first region of all subbands, and in the second layer, sinusoidal pulse coding is performed on a second region of all subbands. In performing such hierarchical pulse coding, it is possible to further improve the quality of the audio signal by considering the frequency band or energy of the signal as mentioned above.
  • the present invention when performing hierarchical sinusoidal pulse coding in the extended codec as shown in FIG. 1, by performing sinusoidal pulse coding of a next layer using coding information of a previous layer, audio quality of the synthesized signal can be further improved. Relates to the encoding and decoding of a signal.
  • the present invention will be described by referring to audio and audio signals as audio signals.
  • FIG. 2 is a block diagram of an audio signal encoding apparatus according to an embodiment of the present invention.
  • the audio signal encoding apparatus 202 includes an input unit 204, an operation unit 206, a first pulse coding unit 208, and a second pulse coding unit 210.
  • the input unit 204 receives an MDCT coefficient, which is a result of converting the converted audio signal, for example, the MDCT signal.
  • the calculating unit 206 divides the converted audio signal input through the input unit 204 into a plurality of sub bands.
  • the first pulse coding unit 208 performs first sine wave pulse coding on the plurality of sub bands divided by the calculating unit 206.
  • the first pulse coding unit 208 variably performs the first sinusoidal wave coding according to the pulse coding information.
  • the pulse coding information may be bit number information allocated to the first sinusoidal pulse coding or information on the number of sinusoids allocated to the first sinusoidal pulse coding.
  • performing the first sinusoidal pulse coding 'variably' means coding by varying the number of bits or the number of sinusoids according to the pulse coding information, or the first sinusoidal pulse coding in the order of energy of each subband rather than the frequency band order. Means to do.
  • the second pulse coding unit 210 determines a region in which the second sinusoidal pulse coding is to be performed among the plurality of sub bands by using pulse coding information of the first sinusoidal pulse coding. In one embodiment of the present invention, when the pulse coding information is smaller than a specific value, the second pulse coding unit 210 determines the lower band of the plurality of sub bands as an execution region, and the pulse coding information is greater than or equal to the specific value. In the same case, higher bands of the plurality of subbands may be determined as the execution region. In another embodiment of the present invention, the second pulse coding unit 210 may apply the second sinusoidal pulse coding from the lowest frequency band to which the first sinusoidal pulse coding is not applied. The second pulse coding unit 210 performs second sine wave pulse coding on the determined execution region.
  • FIG. 3 is a block diagram of an audio signal decoding apparatus according to an embodiment of the present invention.
  • the audio signal decoding apparatus 302 includes an input unit 304, an operation unit 306, a first pulse decoding unit 308, and a second pulse decoding unit 310.
  • the input unit 304 receives a converted audio signal, for example, an MDCT coefficient that is a result of converting the audio signal by MDCT.
  • the calculating unit 306 divides the converted audio signal input through the input unit 304 into a plurality of sub bands.
  • the first pulse decoding unit 308 performs first sinusoidal pulse decoding on the plurality of sub bands divided by the operation unit 306.
  • the first pulse decoding unit 308 variably performs the first sinusoidal wave coding according to the pulse decoding information.
  • the pulse decoding information may be bit number information allocated to the first sinusoidal pulse decoding or information on the number of sinusoids allocated to the first sinusoidal pulse decoding.
  • performing 'variable' the first sinusoidal pulse decoding means decoding the number of bits or the number of sinusoids according to the pulse decoding information, or decoding the first sinusoidal pulse in the energy order of each subband rather than the frequency band order. Means to do.
  • the second pulse decoding unit 310 determines a region in which the second sinusoidal pulse decoding is to be performed among the plurality of sub bands by using pulse decoding information of the first sinusoidal pulse decoding. In one embodiment of the present invention, when the pulse decoding information is less than a specific value, the second pulse decoding unit 310 determines the lower band of the plurality of sub-bands as the execution region, the pulse coding information is greater than the specific value or In the same case, higher bands of the plurality of subbands may be determined as the execution region. In another embodiment of the present invention, the second pulse decoding unit 310 may apply the second sinusoidal pulse decoding from the lowest frequency band to which the first sinusoidal pulse decoding is not applied. The second pulse decoding unit 310 performs second sine wave pulse decoding on the determined execution region.
  • the audio signal encoding apparatus 202 and the audio signal decoding apparatus 302 shown in FIGS. 2 and 3 may include the narrowband coding module 110, the wideband extension coding module 112, or the ultra wideband extension coding module 114 of FIG. 1. Can be included.
  • the ultra wideband extension coding module 114 divides MDCT coefficients corresponding to 7-14 kHz into a plurality of sub bands, and obtains an error signal by coding or decoding gains and shapes of each sub band. The ultra wideband extension coding module 114 then performs sinusoidal pulse coding or decoding on the error signal. In this case, it is assumed that the sine wave pulse coding is a hierarchical structure in which bit rate adjustment is possible in 4kbit / s or 8kbit / s units.
  • the ultra-wideband extension coding module 114 converts the highband (7-14 kHz) signal into the MDCT region and codes the MDCT coefficients through hierarchical sinusoidal pulse coding. That is, the MDCT coefficient of the high band is divided into a plurality of sub bands, and two sinusoidal pulses are coded per one sub band. In this case, it is assumed that up to 10 sinusoidal pulses can be coded according to a frame in the first layer, and 10 sinusoidal pulses can be fixed in the second layer. In other words, in the first layer, the number of sinusoidal pulses varies from 0 to 10 depending on the frame.
  • N represents the number of sinusoidal pulses used when performing sinusoidal pulse coding in the first layer.
  • the energy of the voiced sound is located in a relatively low frequency band, and the energy of unvoiced and burst sound is located in a relatively high frequency band.
  • most audio signals have a lot of energy below 10 kHz. That is, as shown in FIG. 4, when sinusoidal pulse coding of the second layer is performed irrespective of sinusoidal pulse coding of the first layer, sinusoidal pulse coding is not applied to some bands, particularly a band affecting speech quality. The case occurs, which leads to degradation of the synthesized signal.
  • the present invention provides an encoding and decoding method of an audio signal that improves the quality of a synthesized signal by performing sinusoidal pulse coding of the second layer using pulse coding information of the sinusoidal pulse coding of the first layer to overcome such a problem. do.
  • FIG. 5 shows a result of hierarchical sinusoidal pulse coding according to an embodiment of the present invention.
  • the input unit 204 of FIG. 2 receives an MDCT coefficient.
  • the operation unit 206 divides the received MDCT coefficients into a plurality of sub bands as shown in FIG. 5. At this time, one subband has 32 samples.
  • the first pulse coding unit 208 performs sinusoidal pulse coding of the first layer.
  • the first pulse coding unit 208 performs variable pulse coding using pulse coding information.
  • the second pulse coding unit 210 determines a region to perform sinusoidal pulse coding among the plurality of sub bands by using the aforementioned pulse coding information.
  • the second pulse coding unit 210 receives, from the first pulse coding unit 208, pulse coding information including bit number information, sine wave number information, sine wave position, magnitude, and sign information allocated to the first sine wave pulse coding. Can be delivered. Referring to FIG. 5, when N is less than 8, the second pulse coding unit 210 performs second sinusoidal pulse coding on a lower band (7-11 kHz), and when N is greater than or equal to 8, an upper band ( 9.75-13.75 kHz) second sinusoidal pulse coding.
  • FIG. 6 shows a result of hierarchical sinusoidal pulse coding according to another embodiment of the present invention.
  • the second pulse coding unit 210 of the present embodiment performs the second sinusoidal wave coding in the same manner as the second pulse coding unit 210 described with reference to FIG. 5.
  • the first pulse coding unit 208 'variably' performs pulse coding in the order of subbands with high energy rather than frequency band order.
  • FIG. 7 shows a result of hierarchical sinusoidal pulse coding according to another embodiment of the present invention.
  • the first pulse coding unit 208 performs the first sinusoidal wave coding as in the embodiment of FIG. 4.
  • One embodiment of the present invention described so far may be similarly applied to decoding as well as encoding.
  • FIG. 8 is a graph showing the MDCT coefficients synthesized by the conventional sinusoidal pulse coding method and the sinusoidal pulse coding method according to the present invention, respectively.
  • the blue line represents the original MDCT coefficients
  • the red line represents the MDCT coefficients encoded and decoded by the conventional method.
  • yellow lines represent MDCT coefficients encoded and decoded by the method according to the invention.
  • N 0 in the first layer and 10 sinusoidal pulses were coded in the second layer. Therefore, in encoding and decoding according to the present invention, sinusoidal coding or decoding starts at 7 kHz in the second layer.
  • a signal having a large energy in a relatively low frequency band which may greatly affect the quality of an audio signal, is well represented when compared with the conventional method.
  • FIG. 9 is a flowchart illustrating a method of encoding an audio signal according to an embodiment of the present invention.
  • a converted audio signal for example, an MDCT coefficient is received (902).
  • the converted audio signal is divided into a plurality of sub bands (904).
  • first sinusoidal pulse coding is performed on the divided subbands.
  • the first sinusoidal pulse coding variably performs the first sinusoidal pulse coding according to the pulse coding information.
  • the pulse coding information may be bit number information allocated to the first sinusoidal pulse coding or information on the number of sinusoids allocated to the first sinusoidal pulse coding.
  • performing the first sinusoidal pulse coding 'variably' means coding by varying the number of bits or the number of sinusoids according to the pulse coding information, or the first sinusoidal pulse coding in the order of the energy of each subband rather than the frequency band order. Means to do.
  • an area in which the second sinusoidal pulse coding is to be performed among the plurality of subbands is determined (908).
  • the pulse coding information is smaller than a specific value
  • the lower band of the plurality of sub bands is determined as the execution region
  • the pulse coding information is greater than or equal to the specific value
  • the upper band of the plurality of sub bands is determined as the performing region.
  • the second sinusoidal pulse coding may be applied from the lowest frequency band to which the first sinusoidal pulse coding is not applied.
  • second sinusoidal pulse coding is performed on the determined execution region.
  • FIG. 10 is a flowchart illustrating a method of decoding an audio signal according to an embodiment of the present invention.
  • the converted audio signal for example, the MDCT coefficient is received (1002).
  • the converted audio signal is divided into a plurality of sub bands (1004).
  • a first sinusoidal pulse decoding is performed on the divided subbands (1006).
  • the first sinusoidal pulse decoding variably performs the first sinusoidal pulse decoding according to the pulse decoding information.
  • the pulse decoding information may be bit number information allocated to the first sinusoidal pulse decoding or information on the number of sinusoids allocated to the first sinusoidal pulse decoding.
  • performing 'variable' the first sinusoidal pulse decoding means decoding the number of bits or the number of sinusoids according to the pulse decoding information, or decoding the first sinusoidal pulse in the energy order of each subband rather than the frequency band order. Means to do.
  • the pulse decoding information of the first sinusoidal pulse decoding is used to determine an area in which the second sinusoidal pulse decoding is performed among the plurality of subbands (1008).
  • the pulse decoding information is smaller than a specific value
  • the lower band of the plurality of subbands is determined as the execution region
  • the pulse decoding information is greater than or equal to the specific value
  • the upper band of the plurality of subbands is determined as the execution region.
  • the second sinusoidal pulse decoding may be applied from the lowest frequency band to which the first sinusoidal pulse decoding is not applied. Then, the second sinusoidal pulse decoding is performed on the determined execution region (1010).
  • FIG. 11 is a block diagram of an audio signal encoding apparatus according to another embodiment of the present invention.
  • the audio signal encoding apparatus shown in FIG. 11 receives an input signal of 32 kHz, and synthesizes and outputs a wideband signal and an ultra-wideband signal.
  • the audio signal encoding apparatus is composed of wideband extension coding modules 1102, 1108, and 1122 and ultra-wideband extension coding modules 1104, 1106, 1110, and 1112.
  • the wideband extension coding module, or G.729.1 core codec operates using a 16 kHz signal, while the ultra wideband extension coding module uses a 32 kHz signal.
  • Ultra-wideband extension coding is performed in the MDCT domain. Two modes, generic mode 1114 and sinusoidal mode 1116, are used to code the first layer of the ultra wideband extension coding module.
  • Whether to use generic mode 1114 or sinusoidal mode 1116 is determined based on the measured tonality of the input signal.
  • the higher ultra-wideband layers are provided to the sinusoidal coding units 1118 and 1120 for improving the quality of the high frequency content, or to the wideband signal improving unit 11202 used to improve the perceptual quality of the wideband content. Is coded.
  • An input signal of 32 kHz is first input to the down sampling unit 1102 and down sampled at 16 kHz.
  • the down sampled 16 kHz signal is input to the G.729.1 codec 1108.
  • the G.729.1 codec 1108 performs wideband coding on the input 16 kHz signal.
  • the synthesized 32 kbit / s signal output from the G.729.1 codec 1108 is input to the wideband signal improving unit 1122, and the wideband signal improving unit 1122 improves the quality of the input signal.
  • the 32 kHz input signal is input to the MDCT unit 1106 and converted into the MDCT domain.
  • the input signal converted into the MDCT domain is input to the tonality measurer 1104 and it is determined whether the input signal is tonal.
  • the coding mode of the first ultra-wideband layer is defined based on the tonality measurement performed by comparing the logarithmic domain energies of the current frame and the previous frame of the input signal in the MDCT domain.
  • the tonality measurement is based on correlation analysis between spectral peaks of the current frame and the past frame of the input signal.
  • the input signal is tonal by the tonality information output by the tonality measurer 1104 (1110). For example, if the tonality information is greater than a certain threshold, the input signal is tonal, otherwise it is determined that the input signal is not tonal.
  • the tonality information is also included in the bitstream delivered to the decoder. If the input signal is tonal, sinusoidal mode 1116 is used, otherwise generic mode 1114 is used.
  • the quality of the coded signal may be improved by the audio encoding method according to the present invention.
  • a bit budget allows adding two sinusoids to the ultra-wideband layer of the first 4 kbit / s.
  • the starting position of the track to search for the position of the sinusoid to add is selected based on the subband energy of the synthesized high frequency signal.
  • the energy of the synthesized sub bands may be calculated as in Equation 1 below.
  • k represents a subband index
  • k Denotes the energy of the k-th subband.
  • synthesized high frequency signal Denotes the synthesized high frequency signal.
  • Each subband consists of 32 MDCT coefficients.
  • a subband with a relatively large energy is selected as the search track of sinusoidal coding.
  • the search track may include 32 locations with a unit size of one. In this case, the search track coincides with the sub band.
  • the amplitudes of the two sinusoids are quantized by a 4-bit, one-dimensional codebook, respectively.
  • Sinusoidal mode 1116 is used when the input signal is tonal.
  • the high frequency signal is, for example, the total number of sinusoids added is 10, 4 in the 7000-8600 Hz frequency range, 4 in the 8600-10200 Hz frequency range, 1 in 10200 At the -11800Hz frequency range, one can be located at the 11800-12600Hz frequency range.
  • the sinusoidal coding units 1118 and 1120 improve the quality of the signal output by the generic mode 1114 or the sinusoidal mode 1116.
  • the number of sinusoids Nsin added by the sinusoidal coding units 1118 and 1120 depends on the bit budget. Tracks for sinusoidal coding of the sinusoidal coding units 1118 and 1120 are selected based on the subband energy of the synthesized high frequency content.
  • the synthesized high frequency content in the 7000-13400 Hz frequency range is divided into eight subbands.
  • Each subband is composed of 32 MDCT coefficients, and the subband energies may be calculated as shown in Equation 1, respectively.
  • Tracks for sinusoidal coding are selected by finding Nsin / Nsin_track subbands with relatively large energy.
  • Nsin_track is the number of sinusoids per track and is set to two.
  • the selected Nsin / Nsin_track subbands each correspond to a track used for sinusoidal coding. For example, if Nsin is 4, the first two sinusoids are located in the subband with the largest subband energy, and the remaining two sinusoids are in the second band with the highest energy.
  • Track positions for sinusoidal coding vary frame by frame depending on the available bit budget and high frequency signal energy characteristics.
  • the starting position of the tracks for sinusoidal coding depends on Nsin. If Nsin is lower than a certain threshold, sinusoidal pulses are located in the lower part of the high frequency signal's frequency domain. If Nsin is greater than or equal to the threshold, most sinusoids are located in the upper part of the high frequency signal's frequency domain.
  • the threshold value is defined as eight.
  • ten sinusoids are added to the high frequency spectrum as follows. First, six sinusoids each have two sinusoids and are grouped into three tracks located in the frequency band of 7000-9400 Hz or 9750-12150 Hz. The next four sinusoids each have two sinusoids and are grouped into two tracks located in the frequency band 9400-11000 Hz or 12150-13750 Hz.
  • the remaining 10 sinusoids are added as follows. First, six sinusoids each have two sinusoids and are grouped into three tracks located in the frequency band of 7800-10200 Hz, 9400-11800 Hz or 8600-11000 Hz. The last four sinusoids each have two sinusoids and are grouped into two tracks located in the frequency band 10200-11800Hz, 11800-13400Hz or 11000-12600Hz.
  • Table 1 shows the structure of the sinusoidal track in the generic mode described above, that is, the start position, step size, and track length of the sinusoidal track.
  • the first 10 sinusoids are added as follows. First, six sinusoids each have two sinusoids and are grouped into three tracks located in the frequency band between 7000 Hz and 9400 Hz. The next four sinusoids are grouped into two tracks, each with two sinusoids and located in the frequency band between 11000 Hz and 12600 Hz.
  • the second ten sinusoids are added as follows. First, four sinusoids each have two sinusoids and are grouped into two tracks located in the frequency band between 9400 Hz and 11000 Hz. The next six sinusoids are grouped into three tracks, each with two sinusoids and located in the frequency band between 11000 Hz and 13400 Hz.
  • Table 2 shows the structure of the first 10 sinusoidal sinusoidal tracks in the sinusoidal mode described above, that is, the start position, the section size, and the track length of the sinusoidal track.
  • Table 3 shows the structure of the second 10 sinusoidal sinusoidal tracks in the sinusoidal mode described above, that is, the start position, the section size, and the track length of the sinusoidal track.
  • FIG. 12 is a block diagram of an audio signal decoding apparatus according to another embodiment of the present invention.
  • the audio signal decoding apparatus shown in FIG. 12 receives a wideband signal and an ultra-wideband signal encoded by the encoding apparatus, and outputs it as a 32 kHz signal.
  • the audio signal decoding apparatus is composed of wideband extended decoding modules 1202, 1214, 1216 and 1218 and ultra wideband extended decoding modules 1204, 1220 and 1222.
  • the wideband extended decoding module decodes the input 16 kHz signal
  • the ultra wideband extended decoding module decodes the high frequencies to provide a 32 kHz output.
  • Ultra wideband extended decoding is mostly performed in the MDCT domain. Two modes, namely generic mode 1206 and sinusoidal mode 1208, are used to decode the first layer of extension, which depends on the tonality indicator to be decoded first.
  • the second layer uses the same bit allocation as the encoder to distribute the bits between the wideband signal enhancement and the additional sinusoids.
  • the third ultra-wideband layer is composed of sinusoidal decoding units 1210 and 1212, which improves the quality of high frequency content.
  • Fourth and fifth enhancement layers provide broadband signal enhancement. Post-processing is used in the time domain to improve the synthesized ultra-wideband content.
  • the signal encoded by the encoding device is input to the G.729.1 codec 1202.
  • the G / 729.1 codec 1202 outputs a synthesized signal of 16 kHz, which is input to the wideband signal improving unit 1214.
  • the wideband signal improving unit 1214 improves the quality of the input signal.
  • the signal output from the wideband signal improving unit 1214 undergoes post-processing by the post-processing unit 1216 and up-sampling by the up-sampling unit 1218.
  • a wideband signal needs to be synthesized. This synthesis is performed by the G.729.1 codec 1202. In high frequency signal decoding, 32kbit / s wideband synthesis is used before applying the usual post-processing functions.
  • Decoding of the high frequency signal begins by obtaining the synthesized MDCT domain representation from G.729.1 wideband decoding. MDCT domain wideband content is required to decode the high frequency signal of the generic coding frame, where the high frequency signal is constructed through adaptive replication of the coded subbands from the wideband frequency range.
  • Generic mode 1206 constructs a high frequency signal by an adaptive subband response.
  • two sinusoidal components are added to the spectrum of the first 4 kbit / s ultra-wideband extension layer.
  • Generic mode 1206 and sinusoidal mode 1208 utilize similar enhancement layers based on sinusoidal mode decoding techniques.
  • the quality of the decoded signal may be improved by the audio decoding method according to the present invention.
  • Generic mode 1206 adds two sinusoidal components to the reconstructed overall high frequency spectrum. These sinusoids are represented by position, sign and magnitude. At this time, the starting position of the track for adding sinusoids is obtained from the index of the sub band having a relatively large energy as mentioned above.
  • the high frequency signal is generated by a finite set of sinusoidal components.
  • the total number of sinusoids added is 10, four in the 7000-8600 Hz frequency range, four in the 8600-10200 Hz frequency range, one in the 10200-11800 Hz frequency range, and one in the 11800- It can be located in the 12600Hz frequency range.
  • the sinusoidal decoding units 1210 and 1212 improve the quality of the signal output by the generic mode 1206 or the sinusoidal mode 1208.
  • the first ultra-wideband enhancement layer adds ten more sinusoidal components to the high frequency signal spectrum of the sinusoidal mode frame. In the generic mode frame, the number of sinusoidal components added is set according to the adaptive bit allocation between low frequency and high frequency enhancement.
  • the decoding processes of the sinusoidal decoding units 1210 and 1212 are as follows. First, the position of the sinusoid is obtained from the bitstream. The bitstream is then decoded to find the transmitted code indices and size codebook indices.
  • Tracks for sinusoidal decoding are selected by finding Nsin / Nsin_track subbands with relatively large energy.
  • Nsin_track is the number of sinusoids per track and is set to two.
  • the selected Nsin / Nsin_track subbands each correspond to a track used for sinusoidal decoding.
  • the position indices of the ten sinusoids associated with each corresponding track are first obtained from the bitstream.
  • the signs of the ten sinusoids are then decoded.
  • the magnitude of the sinusoids (three 8-bit codebook indices) is decoded.
  • the signals whose quality is improved by the sinusoidal decoding units 1210 and 1212 undergo post-processing by the inverse MDCT by the IMDCT 1220 and the post-processing unit 1222.
  • the output signal of the upsampling unit 1218 and the output signal of the post processor 1222 are added and output as a 32 kHz output signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 신호의 인코딩 및 디코딩 방법 및 장치에 관한 것이다. 본 발명의 일 실시예에 의한 오디오 신호의 인코딩 방법은, 변환된 오디오 신호를 입력받는 단계, 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 단계, 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행하는 단계, 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 코딩의 수행 영역을 결정하는 단계 및 수행 영역에 대하여 제2 정현파 펄스 코딩을 수행하는 단계를 포함하고, 제1 정현파 펄스 코딩 수행 단계는 상기 펄스 코딩 정보에 따라 가변적으로 수행되는 것을 특징으로 한다. 본 발명에 의하면 계층형 정현파 펄스 코딩을 이용하여 상위 계층에서 오디오 신호를 인코딩 또는 디코딩할 때, 하위 계층의 정현파 펄스 코딩을 고려함으로써 합성 신호의 품질을 더욱 향상시킬 수 있는 효과가 있다.

Description

계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
본 발명은 오디오 신호의 인코딩 및 디코딩 방법 및 장치에 관한 것으로, 보다 상세하게는 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치에 관한 것이다.
통신 기술의 발달과 함께 데이터 전송을 위한 대역폭이 증가하면서, 다채널 음성 및 오디오를 이용한 고품질 서비스에 대한 사용자의 요구가 점차 증가하고 있다. 고품질의 음성 및 오디오 서비스 제공을 위해서는 무엇보다도 스테레오 음성 및 오디오 신호를 효과적으로 압축하고 복원할 수 있는 코딩 기술이 필요하다.
이에 따라 협대역(Narrow Band: NB, 300~3,400 Hz), 광대역(Wide Band: WB, 50~7,000 Hz) 및 초광대역(Super Wide Band: SWB, 50~14,000 Hz) 신호를 코딩하는 코덱에 대한 연구가 활발히 진행되고 있다. 예를 들어, ITU-T G.729.1은 대표적인 확장코덱으로서, 협대역 코덱인 G.729를 기반으로 하는 광대역 확장코덱이다. 이 코덱은 8 kbit/s에서 G.729와 비트스트림 레벨의 호환성을 제공하고, 12 kbit/s에서는 보다 향상된 품질의 협대역 신호를 제공한다. 그리고 14 kbit/s부터 32 kbit/s에서는 2 kbit/s의 비트율 확장성을 가지고 광대역 신호를 코딩할 수 있으며, 비트율의 증가에 따라 출력신호의 품질도 좋아지는 특성을 가진다.
최근에는 G.729.1을 기반으로 초광대역 신호를 제공할 수 있는 확장코덱이 개발 중이다. 이 확장코덱은 협대역, 광대역, 그리고 초광대역 신호를 인코딩 및 디코딩할 수 있다.
이와 같은 확장코덱에서는 합성된 신호의 품질 향상을 위해 정현파 펄스 코딩을 이용하기도 한다. 정현파 펄스 코딩은 여러 계층에 걸쳐 이루어질 수 있다. 만약 하위 계층에서 정현파 펄스 코딩에 할당되는 비트 또는 정현파 펄스 수가 프레임 단위로 가변적인 경우, 상위 계층에서의 정현파 펄스 코딩에서 합성 신호의 품질을 높일 수 있는 방법이 요구된다.
본 발명은 계층형 정현파 펄스 코딩을 이용하여 상위 계층에서 오디오 신호를 인코딩 또는 디코딩할 때, 하위 계층의 정현파 펄스 코딩을 고려함으로써 합성 신호의 품질을 더욱 향상시킬 수 있는 오디오 신호의 인코딩 및 디코딩 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있고, 본 발명의 실시예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.
이러한 목적을 달성하기 위한 본 발명은 오디오 신호의 인코딩 방법에 있어서, 변환된 오디오 신호를 입력받는 단계, 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 단계, 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행하는 단계, 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 코딩의 수행 영역을 결정하는 단계 및 수행 영역에 대하여 제2 정현파 펄스 코딩을 수행하는 단계를 포함하고, 제1 정현파 펄스 코딩 수행 단계는 상기 펄스 코딩 정보에 따라 가변적으로 수행되는 것을 일 특징으로 한다.
또한 본 발명은 오디오 신호의 인코딩 장치에 있어서, 변환된 오디오 신호를 입력받는 입력부, 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 연산부, 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행하는 제1 펄스 코딩부 및 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 코딩의 수행 영역을 결정하고, 수행 영역에 대하여 제2 정현파 펄스 코딩을 수행하는 제2 펄스 코딩부를 포함하고, 제1 펄스 코딩부는 펄스 코딩 정보에 따라 가변적으로 제1 정현파 펄스 코딩을 수행하는 것을 다른 특징으로 한다.
또한 본 발명은 오디오 신호의 디코딩 방법에 있어서, 변환된 오디오 신호를 입력받는 단계, 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 단계, 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행하는 단계, 제1 정현파 펄스 디코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩의 수행 영역을 결정하는 단계 및 수행 영역에 대하여 제2 정현파 펄스 디코딩을 수행하는 단계를 포함하고, 제1 정현파 펄스 디코딩 수행 단계는 펄스 디코딩 정보에 따라 가변적으로 수행되는 것을 또 다른 특징으로 한다.
또한 본 발명은 오디오 신호의 디코딩 장치에 있어서, 변환된 오디오 신호를 입력받는 입력부, 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 연산부, 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행하는 제1 펄스 디코딩부 및 제1 정현파 펄스 디코딩의 펄스 디코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩의 수행 영역을 결정하고, 수행 영역에 대하여 제2 정현파 펄스 디코딩을 수행하는 제2 펄스 디코딩부를 포함하고, 제1 펄스 디코딩부는 펄스 디코딩 정보에 따라 가변적으로 제1 정현파 펄스 디코딩을 수행하는 것을 또 다른 특징으로 한다.
전술한 바와 같은 본 발명에 의하면, 계층형 정현파 펄스 코딩을 이용하여 상위 계층에서 오디오 신호를 인코딩 또는 디코딩할 때, 하위 계층의 정현파 펄스 코딩을 고려함으로써 합성 신호의 품질을 더욱 향상시킬 수 있는 장점이 있다.
도 1은 협대역 코덱과의 호환성을 제공하는 초광대역 확장코덱의 구조.
도 2는 본 발명의 일 실시예에 의한 오디오 신호 인코딩 장치의 구성도
도 3은 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도.
도 4는 두 개의 계층을 통해 7-14kHz에 해당하는 211개의 MDCT 계수에 정현파 펄스 코딩을 적용한 결과.
도 5는 본 발명의 일 실시예에 의한 계층형 정현파 펄스 코딩의 결과.
도 6은 본 발명의 다른 실시예에 의한 계층형 정현파 펄스 코딩의 결과.
도 7은 본 발명의 또 다른 실시예에 의한 계층형 정현파 펄스 코딩의 결과.
도 8은 기존의 정현파 펄스 코딩 방법과 본 발명에 의한 정현파 펄스 코딩 방법에 의해 합성된 MDCT 계수를 각각 나타내는 그래프.
도 9는 본 발명의 일 실시예에 의한 오디오 신호의 인코딩 방법을 설명하기 위한 흐름도.
도 10은 본 발명의 일 실시예에 의한 오디오 신호의 디코딩 방법을 설명하기 위한 흐름도.
도 11은 본 발명의 다른 실시예에 의한 오디오 신호 인코딩 장치의 구성도.
도 12는 본 발명의 다른 실시예에 의한 오디오 신호 디코딩 장치의 구성도.
전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
도 1은 협대역 코덱과의 호환성을 제공하는 초광대역 확장코덱의 구조를 나타낸다.
일반적으로 확장코덱은 입력 신호를 여러 개의 주파수 대역으로 나눈 후에 각 주파수 대역의 신호를 인코딩 또는 디코딩하는 구조를 갖는다. 도 1을 참조하면, 입력된 신호는 1차 저대역 통과 필터(102) 및 1차 고대역 통과 필터(104)에 입력된다. 1차 저대역 통과 필터(102)는 필터링 및 다운 샘플링을 수행하여 입력 신호 중 저대역 신호 A(0-8kHz)를 출력한다. 그리고 1차 고대역 통과 필터(104)는 필터링 및 다운 샘플링을 수행하여 입력 신호 중 고대역 신호 B(8-16kHz)를 출력한다.
1차 저대역 통과 필터(102)에서 출력된 저대역 신호 A는 2차 저대역 통과 필터(106) 및 2차 고대역 통과 필터(108)에 입력된다. 2차 저대역 통과 필터(106)는 필터링 및 다운 샘플링을 수행하여 저-저대역 신호 A1(0-4kHz)를 출력하고, 2차 고대역 통과 필터(108)는 필터링 및 다운 샘플링을 수행하여 저-고대역 신호 A2(4-8kHz)를 출력한다.
결국 저-저대역 신호 A1은 협대역 코딩 모듈(110)로, 저-고대역 신호 A2는 광대역 확장코딩 모듈(112)로, 고대역 신호 B는 초광대역 확장코딩 모듈(114)로 각각 입력된다. 만약 협대역 코딩 모듈(110)만 동작할 경우에는 협대역 신호만이 재생되고, 협대역 코딩 모듈(110)과 광대역 확장코딩 모듈(112)이 동작할 경우에는 광대역 신호가 재생된다. 그리고 협대역 코딩 모듈(110), 광대역 확장코딩 모듈(112) 및 초광대역 확장코딩 모듈(114)이 동작하면 초광대역 신호가 재생된다.
도 1에 나타난 확장코덱의 대표적인 예로 ITU-T G.729.1을 들 수 있다. ITU-T G.729.1은 협대역 코덱인 G. 729를 기반으로 하는 광대역 확장코덱이다. 이 코덱은 8 kbit/s에서 G. 729와 비트스트림 레벨 호환성을 제공하고 12 kbit/s에서는 보다 향상된 품질의 협대역 신호를 제공한다. 그리고 14 kbit/s부터 32 kbit/s에서는 2 kbit/s의 비트율 확장성을 가지고 광대역 신호를 재생하는데, 비트율의 증가에 따라 출력신호의 품질도 좋아진다.
최근에는 G.729.1을 기반으로 초광대역 품질을 제공할 수 있는 확장코덱이 개발 중이다. 이 확장코덱은 협대역, 광대역, 그리고 초광대역 신호를 인코딩 및 디코딩할 수 있다.
이와 같은 확장코덱에서는 도 1과 같이 주파수 대역별로 다른 코딩방식을 적용할 수 있다. 예를 들어, G.729.1과 G.711.1코덱은 협대역 신호를 기존 협대역 코덱인 G. 729 와 G. 711로 코딩하고, 나머지 신호에 대해서는 MDCT(Modified Discrete Cosine Transform)를 수행하여, 출력된 MDCT 계수를 코딩하는 방식을 사용한다.
MDCT 영역 코딩에서는 MDCT 계수를 복수 개의 서브 대역으로 나누어서 각 서브 대역의 게인(gain)과 세이프(shape)를 코딩하고, ACELP(Algebraic Code-Excited Linear Prediction) 혹은 정현파(sinusoidal) 펄스를 이용하여 MDCT 계수를 코딩한다. 확장코덱은 일반적으로 대역폭 확장을 위한 정보를 먼저 코딩한 후에 품질향상을 위한 정보를 코딩하는 구조를 가진다. 예를 들어, 각 서브 대역의 게인과 셰이프를 이용하여 7-14 kHz 대역의 신호를 합성한 후, ACELP 또는 정현파 펄스 코딩을 이용하여 합성된 신호의 품질을 향상시키는 구조가 그것이다.
즉, 초광대역 품질을 제공하는 첫 번째 계층에서는 게인과 셰이프 등의 정보를 이용하여 7-14 kHz 대역에 해당하는 신호를 합성한다. 그리고 추가적인 비트를 사용하여 합성된 신호의 품질향상을 위한 정현파 펄스 코딩 등을 적용한다. 이러한 구조를 통해, 비트율의 증가에 따라 합성된 신호의 품질을 개선시킬 수 있다.
일반적으로 정현파 펄스 코딩에서는 정해진 구간에서 크기가 가장 큰 펄스, 즉 품질에 가장 큰 영향을 미칠 수 있는 펄스의 위치, 크기, 그리고 부호 정보가 코딩된다. 이러한 펄스를 검색할 구간이 넓을수록 계산량은 증가한다. 따라서 전체 프레임(시간 영역의 경우) 또는 전체 주파수 대역에 대하여 정현파 펄스 코딩을 적용하는 것보다는 서브 프레임 또는 서브 대역별로 정현파 펄스 코딩을 적용하는 것이 바람직하다. 정현파 펄스 코딩은 하나의 펄스를 전송하는데 상대적으로 많은 비트가 필요하지만 신호의 품질에 영향을 주는 신호를 정확히 표현할 수 있다는 장점을 가진다.
코덱의 입력 신호는 주파수에 따라 에너지 분포가 다양하게 나타난다. 특히 음악 신호의 경우에는 주파수에 따른 에너지의 변화가 음성 신호에 비해 큰 편이다. 에너지가 큰 서브 대역의 신호는 합성 신호의 품질에 보다 큰 영향을 미친다.
서브 대역별로 정현파 펄스 코딩을 적용할 때, 계층형 정현파 펄스 코딩이 이용될 수 있다. 계층형 정현파 펄스 코딩이란 여러 계층에 걸쳐 정현파 펄스 코딩을 수행하는 것을 의미한다. 예를 들어, 첫 번째 계층에서는 전체 서브 대역 중 제1 영역에 대하여 정현파 펄스 코딩을 수행하고, 두 번째 계층에서는 전체 서브 대역 중 제2 영역에 대하여 정현파 펄스 코딩을 수행하는 것이다. 이러한 계층형 펄스 코딩을 수행함에 있어서, 앞서 언급한 바와 같은 신호의 주파수 대역 또는 에너지 등을 고려함으로써 오디오 신호의 품질을 보다 향상시키는 것이 가능하다.
본 발명은 도 1과 같은 확장코덱에서 계층형 정현파 펄스 코딩을 수행할 때, 이전 계층의 코딩 정보를 이용하여 다음 계층의 정현파 펄스 코딩을 수행함으로써, 합성된 신호의 품질을 보다 향상시킬 수 있는 오디오 신호의 인코딩 및 디코딩에 관한 것이다. 이하에서는 음성 및 오디오 신호를 오디오 신호로 지칭하여 본 발명을 설명한다.
도 2는 본 발명의 일 실시예에 의한 오디오 신호 인코딩 장치의 구성도이다.
도 2에 나타난 바와 같이, 오디오 신호 인코딩 장치(202)는 입력부(204), 연산부(206), 제1 펄스 코딩부(208), 제2 펄스 코딩부(210)를 포함한다.
입력부(204)는 변환된 오디오 신호, 예를 들면 오디오 신호가 MDCT에 의해 변환된 결과물인 MDCT 계수를 입력받는다.
연산부(206)는 입력부(204)를 통해 입력된 변환된 오디오 신호를 복수 개의 서브 대역으로 나눈다.
제1 펄스 코딩부(208)는 연산부(206)에 의해 나누어진 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행한다. 제1 펄스 코딩부(208)는 펄스 코딩 정보에 따라 가변적으로 제1 정현파 펄스 코딩을 수행한다. 여기서 펄스 코딩 정보는 제1 정현파 펄스 코딩에 할당되는 비트 수 정보 또는 제1 정현파 펄스 코딩에 할당되는 정현파의 개수 정보일 수 있다. 또한, 제1 정현파 펄스 코딩을 '가변적'으로 수행한다는 것은 펄스 코딩 정보에 따라 비트 수 또는 정현파 개수를 달리하여 코딩하는 것, 또는 주파수 대역 순서가 아닌 각 서브 대역의 에너지 순으로 제1 정현파 펄스 코딩을 수행하는 것을 의미한다.
제2 펄스 코딩부(210)는 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 코딩을 수행할 영역을 결정한다. 본 발명의 일 실시예에서, 제2 펄스 코딩부(210)는 펄스 코딩 정보가 특정 값보다 작은 경우, 복수 개의 서브 대역의 하위 대역을 수행 영역으로 결정하고, 펄스 코딩 정보가 특정 값보다 크거나 같은 경우, 복수 개의 서브 대역의 상위 대역을 수행 영역으로 결정할 수 있다. 본 발명의 다른 실시예에서, 제2 펄스 코딩부(210)는 제1 정현파 펄스 코딩이 적용되지 않은 가장 낮은 주파수 대역부터 제2 정현파 펄스 코딩을 적용할 수 있다. 그리고 제2 펄스 코딩부(210)는 결정된 수행 영역에 대하여 제2 정현파 펄스 코딩을 수행한다.
도 3은 본 발명의 일 실시예에 의한 오디오 신호 디코딩 장치의 구성도이다.
도 2에 나타난 바와 같이, 오디오 신호 디코딩 장치(302)는 입력부(304), 연산부(306), 제1 펄스 디코딩부(308), 제2 펄스 디코딩부(310)를 포함한다.
입력부(304)는 변환된 오디오 신호, 예를 들면 오디오 신호가 MDCT에 의해 변환된 결과물인 MDCT 계수를 입력받는다.
연산부(306)는 입력부(304)를 통해 입력된 변환된 오디오 신호를 복수 개의 서브 대역으로 나눈다.
제1 펄스 디코딩부(308)는 연산부(306)에 의해 나누어진 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행한다. 제1 펄스 디코딩부(308)는 펄스 디코딩 정보에 따라 가변적으로 제1 정현파 펄스 코딩을 수행한다. 여기서 펄스 디코딩 정보는 제1 정현파 펄스 디코딩에 할당되는 비트 수 정보 또는 제1 정현파 펄스 디코딩에 할당되는 정현파의 개수 정보일 수 있다. 또한, 제1 정현파 펄스 디코딩을 '가변적'으로 수행한다는 것은 펄스 디코딩 정보에 따라 비트 수 또는 정현파 개수를 달리하여 디코딩하는 것, 또는 주파수 대역 순서가 아닌 각 서브 대역의 에너지 순으로 제1 정현파 펄스 디코딩을 수행하는 것을 의미한다.
제2 펄스 디코딩부(310)는 제1 정현파 펄스 디코딩의 펄스 디코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩을 수행할 영역을 결정한다. 본 발명의 일 실시예에서, 제2 펄스 디코딩부(310)는 펄스 디코딩 정보가 특정 값보다 작은 경우, 복수 개의 서브 대역의 하위 대역을 수행 영역으로 결정하고, 펄스 코딩 정보가 특정 값보다 크거나 같은 경우, 복수 개의 서브 대역의 상위 대역을 수행 영역으로 결정할 수 있다. 본 발명의 다른 실시예에서, 제2 펄스 디코딩부(310)는 제1 정현파 펄스 디코딩이 적용되지 않은 가장 낮은 주파수 대역부터 제2 정현파 펄스 디코딩을 적용할 수 있다. 그리고 제2 펄스 디코딩부(310)는 결정된 수행 영역에 대하여 제2 정현파 펄스 디코딩을 수행한다.
도 2 및 도 3에 나타난 오디오 신호 인코딩 장치(202) 및 오디오 신호 디코딩 장치(302)는 도 1의 협대역 코딩 모듈(110), 광대역 확장코딩 모듈(112) 또는 초광대역 확장코딩 모듈(114)에 포함될 수 있다.
이하에서는 도 1 내지 도 8을 통해 본 발명에 의한 오디오 신호 인코딩 및 디코딩 방법의 일 실시예를 설명한다.
초광대역 확장코딩 모듈(114)은 7-14kHz에 해당하는 MDCT 계수를 여러 개의 서브 대역으로 나누고, 각 서브 대역의 게인과 셰이프를 코딩 또는 디코딩하여 오차 신호를 구한다. 그리고 나서 초광대역 확장코딩 모듈(114)은 오차 신호에 대하여 정현파 펄스 코딩 또는 디코딩을 수행한다. 이 때 정현파 펄스 코딩은 4kbit/s 또는 8kbit/s 단위로 비트율 조정이 가능한 계층형 구조라고 가정한다.
초광대역 확장코딩 모듈(114)은 고대역(7-14kHz) 신호를 MDCT 영역으로 변환하고, 계층형 정현파 펄스 코딩을 통해 MDCT 계수를 코딩한다. 즉 고대역의 MDCT 계수를 복수 개의 서브 대역으로 나누고, 하나의 서브 대역 당 2개의 정현파 펄스를 코딩한다. 이 때 첫 번째 계층에서는 프레임에 따라 최대 10개의 정현파 펄스를 코딩할 수 있고, 두 번째 계층에서는 고정적으로 10개의 정현파 펄스를 코딩할 수 있다고 가정한다. 다시 말해, 첫 번째 계층에서는 정현파 펄스의 개수가 프레임에 따라 0에서 10까지 가변적이다. 하나의 서브 대역의 넓이는 0.8kHz(=32샘플)이며, 서브 대역의 시작점이 정해지면 그로부터 32개의 샘플이 하나의 서브 대역이 된다.
도 4는 두 개의 계층을 통해 7-14kHz에 해당하는 211개의 MDCT 계수에 정현파 펄스 코딩을 적용한 결과를 나타낸다.
도 4에서 N은 첫 번째 계층에서 정현파 펄스 코딩을 수행할 때 이용된 정현파 펄스의 개수를 나타낸다. 도 4를 참조하면, 첫 번째 계층에서는 정현파 펄스 코딩이 수행되지 않거나(N=0), 최대 10개의 정현파 펄스를 이용하여(N=10) 정현파 펄스 코딩이 수행될 수 있다. 하나의 서브 대역 당 2개의 정현파 펄스가 할당되므로, 이용되는 정현파 펄스의 수, 즉 N에 따라 정현파 펄스 코딩을 적용할 수 있는 서브 대역의 개수가 달라진다. 만일 N=2이면, 하나의 서브 대역에 대해서만 정현파 펄스 코딩이 적용되며, N=10인 경우 도 4와 같이 5개 서브 대역에 대하여 정현파 펄스 코딩이 적용된다.
도 4에서, 두 번째 계층에서는 첫 번째 계층과는 독립적으로 항상 같은 서브 대역의 범위에 정현파 펄스 코딩이 적용된다. 즉, 첫 번째 계층의 정현파 펄스 코딩과는 무관하게 두 번째 계층에서는 항상 9.4kHz(=96번째 샘플)에서 정현파 펄스 코딩이 시작된다.
도 4와 같이 정현파 펄스 코딩을 수행할 때, 만약 첫 번째 계층에서 N=6일 경우, 두 번째 계층의 펄스 코딩을 수행하고 나면 7-13.4kHz의 대역에 빠짐 없이 정현파 펄스 코딩이 적용된다. 하지만 첫 번째 계층에서 N=2인 경우, 두 번째 계층의 펄스 코딩을 수행하고 나면 7.8-9.4kHz 대역에는 정현파 펄스 코딩이 적용되지 못하게 되며, 이는 합성된 신호의 품질 저하로 이어진다.
오디오 신호, 특히 음성 신호의 에너지 분포를 보면, 유성음의 에너지는 상대적으로 낮은 주파수 대역에 위치하며, 무성음과 파열음의 에너지는 상대적으로 높은 주파수 대역에 위치한다. 신호의 특성에 따라 다를 수 있으나, 대부분의 오디오 신호는 10kHz 이하에 많은 에너지를 갖는다. 즉, 도 4에 나타난 바와 같이 첫 번째 계층의 정현파 펄스 코딩과는 무관하게 두 번째 계층의 정현파 펄스 코딩이 수행될 경우, 일부 대역, 특히 음성 품질에 영향을 미치는 대역에 정현파 펄스 코딩이 적용되지 않는 경우가 발생하며, 이는 합성 신호의 품질 저하로 이어진다.
본 발명은 이와 같은 문제점을 극복하기 위해 첫 번째 계층의 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여 두 번째 계층의 정현파 펄스 코딩을 수행함으로써 합성 신호의 품질을 향상시키는 오디오 신호의 인코딩 및 디코딩 방법을 제공한다.
도 5는 본 발명의 일 실시예에 의한 계층형 정현파 펄스 코딩의 결과를 나타낸다.
먼저 도 2의 입력부(204)는 MDCT 계수를 입력받는다. 그리고 연산부(206)는 입력받은 MDCT 계수를 도 5와 같이 복수 개의 서브 대역으로 나눈다. 이 때 하나의 서브 대역은 32개의 샘플을 갖는다.
제1 펄스 코딩부(208)는 첫 번째 계층의 정현파 펄스 코딩을 수행한다. 이 때 제1 펄스 코딩부(208)는 펄스 코딩 정보를 이용하여 가변적 펄스 코딩을 수행한다. 펄스 코딩 정보는 제1 정현파 펄스 코딩에 할당되는 비트 수 정보 또는 정현파의 개수 정보일 수 있다. 만약 제1 정현파 펄스 코딩을 위하여 4개의 정현파(또는 그에 대응하는 비트)가 할당되었다면, 제1 펄스 코딩부(208)는 이러한 정보를 이용하여 2개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행한다.(N=4)
한편, 제2 펄스 코딩부(210)는 앞서 언급한 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 정현파 펄스 코딩을 수행할 영역을 결정한다. 제2 펄스 코딩부(210)는 제1 펄스 코딩부(208)로부터 제1 정현파 펄스 코딩에 할당된 비트 수 정보, 정현파 개수 정보, 정현파의 위치, 크기, 부호 정보 등이 포함된 펄스 코딩 정보를 전달받을 수 있다. 도 5를 참조하면, N이 8보다 작은 경우 제2 펄스 코딩부(210)는 하위 대역(7-11kHz)에 대하여 제2 정현파 펄스 코딩을 수행하고, N이 8보다 크거나 같은 경우 상위 대역(9.75-13.75kHz)에 대하여 제2 정현파 펄스 코딩을 수행한다.
이와 같은 계층형 정현파 펄스 코딩을 수행하면, 앞서 언급했던 기존 코딩의 문제점을 보완할 수 있다. 예를 들어 첫 번째 계층에서 N=6인 경우, 도 5에 의하면 두 번째 계층에서 하위 대역에 대하여 펄스 코딩을 수행하게 되므로 10kHz 이하에 대부분의 에너지를 갖고 있는 오디오 신호의 품질을 높일 수 있다.
도 6은 본 발명의 다른 실시예에 의한 계층형 정현파 펄스 코딩의 결과를 나타낸다.
본 실시예의 제2 펄스 코딩부(210)는 도 5를 통해 기술되었던 제2 펄스 코딩부(210)와 동일하게 제2 정현파 펄스 코딩을 수행한다. 다만, 본 실시예에서 제1 펄스 코딩부(208)는 주파수 대역 순서가 아닌 에너지가 많은 서브 대역 순으로 펄스 코딩을 '가변적으로' 수행한다.
도 7은 본 발명의 또 다른 실시예에 의한 계층형 정현파 펄스 코딩의 결과를 나타낸다.
본 실시예에서 제1 펄스 코딩부(208)는 도 4의 실시예에서와 마찬가지로 제1 정현파 펄스 코딩을 수행한다. 한편, 제2 펄스 코딩부(210)는 첫 번째 계층에서 제1 정현파 펄스 디코딩이 적용되지 않은 가장 낮은 주파수 대역에 대한 정보를 포함하는 펄스 코딩 정보를 이용하여, 제2 정현파 펄스 코딩을 수행한다. 예를 들어 도 7과 같이 N=4인 경우, 제2 펄스 코딩부(210)는 64번째 샘플에 해당하는 서브 대역부터 제2 정현파 펄스 코딩을 시작한다.
지금까지 설명한 본 발명의 일 실시예는 인코딩 뿐만 아니라 디코딩에도 유사하게 적용될 수 있다.
도 8은 기존의 정현파 펄스 코딩 방법과 본 발명에 의한 정현파 펄스 코딩 방법에 의해 합성된 MDCT 계수를 각각 나타내는 그래프이다.
도 8에서 파란색 선은 원래의 MDCT 계수를, 빨간색 선은 기존의 방법으로 인코딩 및 디코딩된 MDCT 계수를 나타낸다. 그리고 노란색 선은 본 발명에 의한 방법으로 인코딩 및 디코딩된 MDCT 계수를 나타낸다. 여기서 첫 번째 계층에서 N=0이고 두 번째 계층에서는 10개의 정현파 펄스가 코딩되었다. 따라서 본 발명에 의한 인코딩 및 디코딩에서 두 번째 계층에서는 7kHz부터 정현파 코딩 또는 디코딩이 시작된다. 도 8에 나타난 바와 같이 본 발명에 의한 인코딩 및 디코딩에서는 기존 방법과 비교할 때, 오디오 신호의 품질에 많은 영향을 미칠 수 있는 상대적으로 낮은 주파수 대역에서 큰 에너지를 갖는 신호를 잘 표현한다.
도 9는 본 발명의 일 실시예에 의한 오디오 신호의 인코딩 방법을 설명하기 위한 흐름도이다.
먼저 변환된 오디오 신호, 예를 들면 MDCT 계수를 입력받는다(902). 그리고 변환된 오디오 신호를 복수 개의 서브 대역으로 나눈다(904).
그 다음, 나눠진 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행한다(906). 이 때 제1 정현파 펄스 코딩은 펄스 코딩 정보에 따라 가변적으로 제1 정현파 펄스 코딩을 수행한다. 여기서 펄스 코딩 정보는 제1 정현파 펄스 코딩에 할당되는 비트 수 정보 또는 제1 정현파 펄스 코딩에 할당되는 정현파의 개수 정보일 수 있다. 또한, 제1 정현파 펄스 코딩을 '가변적'으로 수행한다는 것은 펄스 코딩 정보에 따라 비트 수 또는 정현파 개수를 달리하여 코딩하는 것, 또는 주파수 대역 순서가 아닌 각 서브 대역의 에너지 순으로 제1 정현파 펄스 코딩을 수행하는 것을 의미한다.
그 다음, 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 코딩을 수행할 영역을 결정한다(908). 이 때 펄스 코딩 정보가 특정 값보다 작은 경우, 복수 개의 서브 대역의 하위 대역을 수행 영역으로 결정하고, 펄스 코딩 정보가 특정 값보다 크거나 같은 경우, 복수 개의 서브 대역의 상위 대역을 수행 영역으로 결정할 수 있다. 또한 제1 정현파 펄스 코딩이 적용되지 않은 가장 낮은 주파수 대역부터 제2 정현파 펄스 코딩을 적용할 수도 있다. 그리고 나서, 결정된 수행 영역에 대하여 제2 정현파 펄스 코딩을 수행한다(910).
도 10은 본 발명의 일 실시예에 의한 오디오 신호의 디코딩 방법을 설명하기 위한 흐름도이다.
먼저 변환된 오디오 신호, 예를 들면 MDCT 계수를 입력받는다(1002). 그리고 변환된 오디오 신호를 복수 개의 서브 대역으로 나눈다(1004).
그 다음, 나눠진 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행한다(1006). 이 때 제1 정현파 펄스 디코딩은 펄스 디코딩 정보에 따라 가변적으로 제1 정현파 펄스 디코딩을 수행한다. 여기서 펄스 디코딩 정보는 제1 정현파 펄스 디코딩에 할당되는 비트 수 정보 또는 제1 정현파 펄스 디코딩에 할당되는 정현파의 개수 정보일 수 있다. 또한, 제1 정현파 펄스 디코딩을 '가변적'으로 수행한다는 것은 펄스 디코딩 정보에 따라 비트 수 또는 정현파 개수를 달리하여 디코딩하는 것, 또는 주파수 대역 순서가 아닌 각 서브 대역의 에너지 순으로 제1 정현파 펄스 디코딩을 수행하는 것을 의미한다.
그 다음, 제1 정현파 펄스 디코딩의 펄스 디코딩 정보를 이용하여, 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩을 수행할 영역을 결정한다(1008). 이 때 펄스 디코딩 정보가 특정 값보다 작은 경우, 복수 개의 서브 대역의 하위 대역을 수행 영역으로 결정하고, 펄스 디코딩 정보가 특정 값보다 크거나 같은 경우, 복수 개의 서브 대역의 상위 대역을 수행 영역으로 결정할 수 있다. 또한 제1 정현파 펄스 디코딩이 적용되지 않은 가장 낮은 주파수 대역부터 제2 정현파 펄스 디코딩을 적용할 수도 있다. 그리고 나서, 결정된 수행 영역에 대하여 제2 정현파 펄스 디코딩을 수행한다(1010).
이하에서는 도 11 및 도 12를 통해 본 발명의 다른 실시예에 의한 오디오 신호 인코딩 및 디코딩 방법 및 장치에 대해 설명한다.
도 11은 본 발명의 다른 실시예에 의한 오디오 신호 인코딩 장치의 구성도이다.
도 11에 나타난 오디오 신호 인코딩 장치는 32kHz의 입력 신호를 입력받고, 광대역 신호 및 초광대역 신호를 합성하여 출력한다. 이 오디오 신호 인코딩 장치는 광대역 확장코딩 모듈(1102, 1108, 1122)과 초광대역 확장코딩 모듈(1104, 1106, 1110, 1112)로 구성된다. 광대역 확장코딩 모듈, 즉 G.729.1 코어 코덱(core codec)은 16kHz 신호를 이용하여 동작하는 반면에, 초광대역 확장코딩 모듈은 32kHz 신호를 이용한다. 초광대역 확장코딩은 MDCT 도메인에서 수행된다. 두 개의 모드, 즉 제네릭 모드(1114)와 정현파 모드(1116)가 초광대역 확장코딩 모듈의 첫 번째 계층을 코딩하기 위하여 이용된다. 제네릭 모드(1114) 또는 정현파 모드(1116) 중 어떤 것을 이용할지 여부는 입력 신호의 측정된 토널리티(Tonality)에 기반하여 결정된다. 보다 상위의 초광대역 계층들은 고 주파수 컨텐트(content)의 품질을 개선하는 정현파 코딩부(1118, 1120), 또는 광대역 컨텐트의 인지 품질(perceptual quality)을 개하는데 이용되는 광대역 신호 개선부(11202)에 의하여 코딩된다.
32kHz의 입력 신호는 먼저 다운 샘플링부(1102)에 입력되고, 16kHz로 다운 샘플링된다. 그리고 다운 샘플링된 16kHz 신호는 G.729.1 코덱(1108)에 입력된다. G.729.1 코덱(1108)은 입력된 16kHz 신호에 대하여 광대역 코딩을 수행한다. G.729.1 코덱(1108)에서 출력된 합성된 32kbit/s 신호는 광대역 신호 개선부(1122)로 입력되고, 광대역 신호 개선부(1122)는 입력된 신호의 품질을 개선한다.
한편, 32kHz 입력 신호는 MDCT부(1106)에 입력되고 MDCT 도메인으로 변환된다. MDCT 도메인으로 변환된 입력 신호는 토널리티 측정부(1104)에 입력되고 입력 신호의 토널(tonal) 여부가 결정된다(1110). 다시 말해, 첫 번째 초광대역 계층의 코딩 모드는 MDCT 도메인에서 입력 신호의 현재 프레임 및 이전 프레임의 로그 도메인 에너지(logarithmic domain energies)를 비교함으로써 수행되는 토널리티 측정에 기반하여 정의된다. 토널리티 측정은 입력 신호의 현재 프레임과 과거 프레임의 스펙트럴 피크(spectral peaks) 간의 상관관계 분석(correlation analysis)에 기반한다.
그 다음, 토널리티 측정부(1104)에 의해 출력된 토널리티 정보에 의해 입력 신호가 토널인지 아닌지 여부가 결정된다(1110). 예를 들어, 토널리티 정보가 특정 임계값(threshold)보다 크면 입력 신호는 토널인 것으로, 그렇지 않으면 입력 신호는 토널이 아닌 것으로 판단된다. 토널리티 정보는 또한 디코더로 전달되는 비트스트림에도 포함된다. 만약 입력 신호가 토널이면 정현파 모드(1116)가, 그렇지 않으면 제네릭 모드(1114)가 이용된다.
제네릭 모드(1114)는 입력 신호의 프레임이 토널이 아닐 때(tonal=0) 이용된다. 제네릭 모드(1114)는 고 주파수들을 코딩하기 위하여 G.729.1 광대역 코덱(1108)의 코딩된 MDCT 도메인 표현을 활용한다. 고 주파수 대역(7-14kHz)은 4개의 서브 대역으로 나누어지고, 코딩되고 인벨로프 표준화된(envelope normalized) 광대역 컨텐트로부터 각각의 서브 밴드에 대한 선택된 유사성 기준(similarity criteria)이 탐색된다. 가장 유사한 매치(match)는 합성된 고 주파수 컨텐트를 획득하기 위하여 두 개의 스케일링 요소들, 즉 리니어(linear) 도메인의 첫 번째 스케일링 요소 및 로그 도메인의 두 번째 스케일링 요소에 의해 스케일링 된다. 이 컨텐트는 또한 제네릭 모드(1114) 및 정현파 코딩부(1118) 내의 추가적인 정현파들에 의해 개선된다.
제네릭 모드(1114)에서는 본 발명에 의한 오디오 인코딩 방법에 의하여, 코딩된 신호의 품질 개선이 이루어질 수 있다. 예를 들어, 비트 버짓(bit budget)은 첫 4kbit/s의 초광대역 계층에 두 개의 정현파를 추가하도록 허용한다. 추가할 정현파의 위치를 탐색할 트랙의 시작 위치는 합성된 고 주파수 신호의 서브 대역 에너지에 기반하여 선택된다. 합성된 서브 대역들의 에너지는 다음 수학식 1과 같이 연산될 수 있다.
[규칙 제91조에 의한 정정 30.08.2010] 
수학식 1
Figure WO-DOC-MATHS-1
[규칙 제91조에 의한 정정 30.08.2010] 
여기서, k는 서브 대역 인덱스를 나타내고,
Figure WO-DOC-102
는 k번째 서브 대역의 에너지를 나타낸다. 또한
Figure WO-DOC-1021
는 합성된 고 주파수 신호를 나타낸다. 각각의 서브 대역은 32개의 MDCT 계수들로 이루어진다. 상대적으로 큰 에너지를 갖는 서브 대역이 정현파 코딩의 탐색 트랙으로서 선택된다. 예를 들어, 탐색 트랙은 1의 단위 크기를 갖는 32개의 위치를 포함할 수 있다. 이러한 경우, 탐색 트랙은 서브 대역과 일치한다.
두 개의 정현파의 크기(amplitude)는 각기 4-bit, 1차원 코드북에 의하여 양자화된다.
정현파 모드(1116)는 입력 신호가 토널일 때 이용된다. 정현파 모드(1116)에서, 고 주파수 신호는 예를 들어, 추가되는 정현파의 총 개수는 10개인데, 4개는 7000-8600Hz 주파수 범위에, 4개는 8600-10200Hz 주파수 범위에, 1개는 10200-11800Hz 주파수 범위에, 1개는 11800-12600Hz 주파수 범위에 위치할 수 있다.
정현파 코딩부(1118, 1120)는 제네릭 모드(1114) 또는 정현파 모드(1116)에 의해 출력된 신호의 품질을 개선한다. 정현파 코딩부(1118, 1120)에 의해 추가되는 정현파의 수(Nsin)는 비트 버짓에 따라 달라진다. 정현파 코딩부(1118, 1120)의 정현파 코딩을 위한 트랙들은 합성된 고 주파수 컨텐트의 서브 대역 에너지에 기반하여 선택된다.
예를 들어, 7000-13400Hz 주파수 범위의 합성된 고 주파수 컨텐트는 8개의 서브 대역으로 나누어진다. 각각의 서브 대역들은 32개의 MDCT 계수들로 구성되고, 서브 대역 에너지들은 각각 수학식 1과 같이 연산될 수 있다.
정현파 코딩을 위한 트랙들은 상대적으로 큰 에너지를 갖는 Nsin/Nsin_track 개의 서브 대역을 찾음으로써 선택된다. 여기서 Nsin_track은 트랙 당 정현파의 개수이며 2로 설정된다. 선택된 Nsin/Nsin_track 개의 서브 대역들은 각각 정현파 코딩에 이용되는 트랙에 대응한다. 예를 들어, Nsin이 4라면 처음 2개의 정현파가 가장 큰 서브 대역 에너지를 갖는 서브 대역에 위치하고, 남은 2개의 정현파는 두 번째로 큰 에너지를 갖는 서브 대역에 위치한다. 정현파 코딩을 위한 트랙 위치들은 이용 가능한 비트 버짓 및 고 주파수 신호 에너지 특성들에 따라 프레임 마다(frame by frame) 달라진다.
한편, 또 다른 20개의 정현파가 고 주파수 신호에 두 단계로 추가된다. 이 때 추가되는 정현파의 트랙 구조는 제네릭 모드와 정현파 모드 프레임 사이에서 상이하다.
제네릭 모드 프레임에서, 정현파 코딩을 위한 트랙들의 시작 위치는 Nsin에 의존한다. 만약 Nsin이 특정 임계값(threshold)보다 낮으면, 정현파 펄스들은 고 주파수 신호의 주파수 영역의 하위 부분에 위치한다. 만약 Nsin이 임계값보다 크거나 같으면, 대부분의 정현파들은 고 주파수 신호의 주파수 영역의 상위 부분에 위치한다. 본 실시예에서 임계값은 8로 정의된다.
첫 번째 단계에서, 10개의 정현파가 고 주파수 스펙트럼에 다음과 같이 추가된다. 먼저, 6개의 정현파는 각각 2개의 정현파를 가지며 7000-9400Hz 또는 9750-12150Hz의 주파수 대역에 위치하는 3개의 트랙으로 그룹화된다. 다음 4개의 정현파는 각각 2개의 정현파를 가지며 9400-11000Hz 또는 12150-13750Hz의 주파수 대역에 위치하는 2개의 트랙으로 그룹화된다.
두 번째 단계에서, 남은 10개의 정현파는 다음과 같이 추가된다. 먼저, 6개의 정현파는 각각 2개의 정현파를 가지며 7800-10200Hz, 9400-11800Hz 또는 8600-11000Hz의 주파수 대역에 위치하는 3개의 트랙으로 그룹화된다. 마지막 4개의 정현파는 각각 2개의 정현파를 가지며 10200-11800Hz, 11800-13400Hz 또는 11000-12600Hz의 주파수 대역에 위치하는 2개의 트랙으로 그룹화된다.
표 1은 위에서 설명한 제네릭 모드에서의 정현파 트랙의 구조, 즉 정현파 트랙의 시작 위치, 구간 크기(step size), 트랙 길이를 나타낸다.
표 1
Nsin 첫 번째 시작 위치 두 번째 시작 위치 구간 크기 길이
0, 2 280 312 3 32
376 408 2 32
4, 6 280 376 3 32
376 472 2 32
8, 10 390 344 3 32
486 440 2 32
정현파 모드에서는, 첫 10개 정현파가 다음과 같이 추가된다. 먼저, 6개의 정현파는 각각 2개의 정현파를 가지며 7000Hz와 9400Hz 사이의 주파수 대역에 위치하는 3개의 트랙으로 그룹화된다. 다음 4개의 정현파는 각각 2개의 정현파를 가지며 11000Hz와 12600Hz 사이의 주파수 대역에 위치하는 2개의 트랙으로 그룹화된다.
두 번째 10개의 정현파는 다음과 같이 추가된다. 먼저, 4개의 정현파는 각각 2개의 정현파를 가지며 9400Hz와 11000Hz 사이의 주파수 대역에 위치하는 2개의 트랙으로 그룹화된다. 다음 6개의 정현파는 각각 2개의 정현파를 가지며 11000Hz와 13400Hz 사이의 주파수 대역에 위치하는 3개의 트랙으로 그룹화된다.
표 2는 위에서 설명한 정현파 모드에서의 첫 번째 10개의 정현파의 정현파 트랙의 구조, 즉 정현파 트랙의 시작 위치, 구간 크기, 트랙 길이를 나타낸다. 그리고 표 3은 위에서 설명한 정현파 모드에서의 두 번째 10개의 정현파의 정현파 트랙의 구조, 즉 정현파 트랙의 시작 위치, 구간 크기, 트랙 길이를 나타낸다.
표 2
트랙 정현파 개수 시작 위치 구간 크기 길이
0 2 280 3 32
1 2 281 3 32
2 2 282 3 32
3 2 440 2 32
4 2 441 2 32
표 3
트랙 정현파 개수 시작 위치 구간 크기 길이
0 2 376 2 32
1 2 377 2 32
2 2 440 3 32
3 2 441 3 32
4 2 442 3 32
도 12는 본 발명의 다른 실시예에 의한 오디오 신호 디코딩 장치의 구성도이다.
도 12에 나타난 오디오 신호 디코딩 장치는 인코딩 장치에 의해 인코딩된 광대역 신호 및 초광대역 신호를 입력받고, 이를 32kHz 신호로 출력한다. 이 오디오 신호 디코딩 장치는 광대역 확장디코딩 모듈(1202, 1214, 1216, 1218)과 초광대역 확장디코딩 모듈(1204, 1220, 1222)로 구성된다. 광대역 확장디코딩 모듈은 입력된 16kHz 신호를 디코딩하며, 초광대역 확장디코딩 모듈은 32kHz 출력을 제공하기 위하여 고 주파수들을 디코딩한다. 초광대역 확장 디코딩은 대부분 MDCT 도메인에서 수행된다. 두 개의 모드, 즉 제네릭 모드(1206) 및 정현파 모드(1208)가 확장의 첫 번째 계층을 디코딩하기 위하여 이용되는데, 이는 처음으로 디코딩되는 토널리티 지시자(indicator)에 의존한다. 두 번째 계층은 광대역 신호 개선 및 추가적인 정현파 사이에 비트들을 분산시키기 위하여 인코더와 똑같은 비트 할당을 이용한다. 세 번째 초광대역 계층은 정현파 디코딩부(1210, 1212)로 구성되는데, 이는 고 주파수 컨텐트의 품질을 개선한다. 네 번째 및 다섯 번째 확장 계층들은 광대역 신호 개선을 제공한다. 합성된 초광대역 컨텐트를 개선하기 위하여 시간 도메인에서 후처리(post-processing)가 이용된다.
인코딩 장치에 의해 인코딩된 신호는 G.729.1 코덱(1202)에 입력된다. G/729.1 코덱(1202)는 16kHz의 합성 신호를 출력하고, 이는 광대역 신호 개선부(1214)로 입력된다. 광대역 신호 개선부(1214)는 입력된 신호의 품질을 개선한다. 광대역 신호 개선부(1214)에서 출력된 신호는 후처리부(1216)에 의한 후처리, 업 샘플링부(1218)에 의한 업 샘플링을 거친다.
한편, 고 주파수 디코딩을 시작하기 이전에, 광대역 신호가 합성될 필요가 있다. 이러한 합성은 G.729.1 코덱(1202)에 의하여 수행된다. 고 주파수 신호 디코딩에서는 일반적인 후처리 함수를 적용하기 이전에 32kbit/s 광대역 합성이 이용된다.
고 주파수 신호의 디코딩은 G.729.1 광대역 디코딩으로부터 합성된 MDCT 도메인 표현을 획득함으로써 시작된다. MDCT 도메인 광대역 컨텐트는 제네릭 코딩 프레임의 고 주파수 신호를 디코딩하기 위하여 요구되는데, 여기서 고 주파수 신호는 광대역 주파수 범위로부터의 코딩된 서브 대역의 적응적 응답(adaptive replication)을 통해 구성된다.
제네릭 모드(1206)는 적응적 서브 대역 응답에 의해 고 주파수 신호를 구성한다. 또한, 두 개의 정현파 컴포넌트들이 첫 번째 4kbit/s 초광대역 확장 계층의 스펙트럼에 추가된다. 제네릭 모드(1206)와 정현파 모드(1208)는 정현파 모드 디코딩 기술에 기반한 유사한 향상 계층(enhancement layers)을 활용한다.
제네릭 모드(1206)에서는 본 발명에 의한 오디오 디코딩 방법에 의하여, 디코딩된 신호의 품질 개선이 이루어질 수 있다. 제네릭 모드(1206)는 두 개의 정현파 컴포넌트들을 재구성된 전체 고 주파수 스펙트럼에 추가한다. 이 정현파들은 위치, 부호 및 크기로 표현된다. 이 때, 정현파들을 추가하기 위한 트랙의 시작 위치는 위에서 언급한 바와 같이 상대적으로 큰 에너지를 갖는 서브 대역의 인덱스로부터 획득된다.
정현파 모드(1208)에서, 고 주파수 신호는 유한 개의 정현파 컴포넌트 세트에 의해 생성된다. 예를 들어, 추가되는 정현파의 총 개수는 10개인데, 4개는 7000-8600Hz 주파수 범위에, 4개는 8600-10200Hz 주파수 범위에, 1개는 10200-11800Hz 주파수 범위에, 1개는 11800-12600Hz 주파수 범위에 위치할 수 있다.
정현파 디코딩부(1210, 1212)는 제네릭 모드(1206) 또는 정현파 모드(1208)에 의해 출력된 신호의 품질을 개선한다. 첫 번째 초광대역 향상 계층은 10개의 정현파 컴포넌트들을 정현파 모드 프레임의 고 주파수 신호 스펙트럼에 더 추가한다. 제네릭 모드 프레임에서, 추가되는 정현파 컴포넌트들의 수는 저 주파수 및 고 파수 개선 사이의 적응적 비트 할당에 따라 설정된다.
정현파 디코딩부(1210, 1212)의 디코딩 과정은 다음과 같다. 먼저, 비트스트림으로부터 정현파의 위치가 획득된다. 그리고 나서 비트스트림은 전송된 부호 인덱스들 및 크기 코드북 인덱스들을 구하기 위해 디코딩된다.
정현파 디코딩을 위한 트랙들은 상대적으로 큰 에너지를 갖는 Nsin/Nsin_track 개의 서브 대역을 찾음으로써 선택된다. 여기서 Nsin_track은 트랙 당 정현파의 개수이며 2로 설정된다. 선택된 Nsin/Nsin_track 개의 서브 대역들은 각각 정현파 디코딩에 이용되는 트랙에 대응한다.
각각의 대응하는 트랙들과 관계있는 10개의 정현파들의 위치 인덱스들은 비트스트림으로부터 처음으로 구해진다. 그리고 나서 10개의 정현파들의 부호들이 디코딩된다. 마지막으로, 정현파들의 크기(3개의 8비트 코드북 인덱스들)가 디코딩된다.
한편, 디코딩 시에도 신호의 품질 향상을 위해 또 다른 20개의 정현파가 고 주파수 신호에 추가된다. 이 20개의 정현파 추가에 대해서는 위에서 자세히 설명한 바 있으므로 여기서는 그 설명을 생략한다.
이렇게 정현파 디코딩부(1210, 1212)에 의해 품질이 개선된 신호들은 IMDCT(1220)에 의한 역 MDCT, 후처리부(1222)에 의한 후처리를 거친다. 업 샘플링부(1218)의 출력 신호 및 후처리부(1222)의 출력 신호는 더해져서 32kHz 출력 신호로 출력된다.
전술한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (12)

  1. 변환된 오디오 신호를 입력받는 단계;
    상기 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 단계;
    상기 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행하는 단계;
    상기 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 상기 복수 개의 서브 대역 중 제2 정현파 펄스 코딩의 수행 영역을 결정하는 단계; 및
    상기 수행 영역에 대하여 상기 제2 정현파 펄스 코딩을 수행하는 단계를 포함하고,
    상기 제1 정현파 펄스 코딩 수행 단계는 상기 펄스 코딩 정보에 따라 가변적으로 수행되는 오디오 신호의 인코딩 방법.
  2. 제1항에 있어서,
    상기 펄스 코딩 정보는
    상기 제1 정현파 펄스 코딩에 할당된 비트 수 정보 또는 상기 제1 정현파 펄스 코딩에 할당된 정현파 개수 정보인 오디오 신호의 인코딩 방법.
  3. 제1항에 있어서,
    상기 제2 정현파 펄스 코딩의 시작 위치 결정 단계는
    상기 펄스 코딩 정보가 특정 값보다 작은 경우, 상기 복수 개의 서브 대역의 하위 대역을 상기 수행 영역으로 결정하는 단계; 및
    상기 펄스 코딩 정보가 특정 값보다 크거나 같은 경우, 상기 복수 개의 서브 대역의 상위 대역을 상기 수행 영역으로 결정하는 단계를
    포함하는 오디오 신호의 인코딩 방법.
  4. 변환된 오디오 신호를 입력받는 입력부;
    상기 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 연산부;
    상기 복수 개의 서브 대역에 대하여 제1 정현파 펄스 코딩을 수행하는 제1 펄스 코딩부; 및
    상기 제1 정현파 펄스 코딩의 펄스 코딩 정보를 이용하여, 상기 복수 개의 서브 대역 중 제2 정현파 펄스 코딩의 수행 영역을 결정하고, 상기 수행 영역에 대하여 상기 제2 정현파 펄스 코딩을 수행하는 제2 펄스 코딩부를 포함하고,
    상기 제1 펄스 코딩부는 상기 펄스 코딩 정보에 따라 가변적으로 상기 제1 정현파 펄스 코딩을 수행하는 오디오 신호의 인코딩 장치.
  5. 제4항에 있어서,
    상기 펄스 코딩 정보는
    상기 제1 정현파 펄스 코딩에 할당된 비트 수 정보 또는 상기 제1 정현파 펄스 코딩에 할당된 정현파 개수 정보인 오디오 신호의 인코딩 장치.
  6. 제4항에 있어서,
    상기 제2 펄스 코딩부는
    상기 펄스 코딩 정보가 특정 값보다 작은 경우, 상기 복수 개의 서브 대역의 하위 대역을 상기 수행 영역으로 결정하고, 상기 펄스 코딩 정보가 특정 값보다 크거나 같은 경우, 상기 복수 개의 서브 대역의 상위 대역을 상기 수행 영역으로 결정하는 오디오 신호의 인코딩 장치.
  7. 변환된 오디오 신호를 입력받는 단계;
    상기 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 단계;
    상기 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행하는 단계;
    상기 제1 정현파 펄스 디코딩의 펄스 코딩 정보를 이용하여, 상기 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩의 수행 영역을 결정하는 단계; 및
    상기 수행 영역에 대하여 상기 제2 정현파 펄스 디코딩을 수행하는 단계를 포함하고,
    상기 제1 정현파 펄스 디코딩 수행 단계는 상기 펄스 디코딩 정보에 따라 가변적으로 수행되는 오디오 신호의 디코딩 방법.
  8. 제7항에 있어서,
    상기 펄스 디코딩 정보는
    상기 제1 정현파 펄스 디코딩에 할당된 비트 수 정보 또는 상기 제1 정현파 펄스 디코딩에 할당된 정현파 개수 정보인 오디오 신호의 디코딩 방법.
  9. 제7항에 있어서,
    상기 제2 정현파 펄스 디코딩의 시작 위치 결정 단계는
    상기 펄스 디코딩 정보가 특정 값보다 작은 경우, 상기 복수 개의 서브 대역의 하위 대역을 상기 수행 영역으로 결정하는 단계; 및
    상기 펄스 디코딩 정보가 특정 값보다 크거나 같은 경우, 상기 복수 개의 서브 대역의 상위 대역을 상기 수행 영역으로 결정하는 단계를
    포함하는 오디오 신호의 디코딩 방법.
  10. 변환된 오디오 신호를 입력받는 입력부;
    상기 변환된 오디오 신호를 복수 개의 서브 대역으로 나누는 연산부;
    상기 복수 개의 서브 대역에 대하여 제1 정현파 펄스 디코딩을 수행하는 제1 펄스 디코딩부; 및
    상기 제1 정현파 펄스 디코딩의 펄스 디코딩 정보를 이용하여, 상기 복수 개의 서브 대역 중 제2 정현파 펄스 디코딩의 수행 영역을 결정하고, 상기 수행 영역에 대하여 상기 제2 정현파 펄스 디코딩을 수행하는 제2 펄스 디코딩부를 포함하고,
    상기 제1 펄스 디코딩부는 상기 펄스 디코딩 정보에 따라 가변적으로 상기 제1 정현파 펄스 디코딩을 수행하는 오디오 신호의 디코딩 장치.
  11. 제10항에 있어서,
    상기 펄스 디코딩 정보는
    상기 제1 정현파 펄스 디코딩에 할당된 비트 수 정보 또는 상기 제1 정현파 펄스 디코딩에 할당된 정현파 개수 정보인 오디오 신호의 디코딩 장치.
  12. 제10항에 있어서,
    상기 제2 펄스 디코딩부는
    상기 펄스 디코딩 정보가 특정 값보다 작은 경우, 상기 복수 개의 서브 대역의 하위 대역을 상기 수행 영역으로 결정하고, 상기 펄스 디코딩 정보가 특정 값보다 크거나 같은 경우, 상기 복수 개의 서브 대역의 상위 대역을 상기 수행 영역으로 결정하는 오디오 신호의 디코딩 장치.
PCT/KR2010/003167 2009-05-19 2010-05-19 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치 WO2010134757A2 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2012511761A JP5730860B2 (ja) 2009-05-19 2010-05-19 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
CN2010800323313A CN102460574A (zh) 2009-05-19 2010-05-19 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
EP10777944.9A EP2434485A4 (en) 2009-05-19 2010-05-19 METHOD AND APPARATUS FOR ENCODING AND DECODING AUDIO SIGNAL USING HIERARCHICAL ENCODING IN SINUSOIDAL PULSES
US13/321,297 US8805680B2 (en) 2009-05-19 2010-05-19 Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding
US14/325,475 US20140324417A1 (en) 2009-05-19 2014-07-08 Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2009-0043475 2009-05-19
KR20090043475 2009-05-19
KR10-2009-0092701 2009-09-29
KR20090092701 2009-09-29

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/321,297 A-371-Of-International US8805680B2 (en) 2009-05-19 2010-05-19 Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding
US14/325,475 Continuation US20140324417A1 (en) 2009-05-19 2014-07-08 Method and apparatus for encoding and decoding audio signal using layered sinusoidal pulse coding

Publications (2)

Publication Number Publication Date
WO2010134757A2 true WO2010134757A2 (ko) 2010-11-25
WO2010134757A3 WO2010134757A3 (ko) 2011-03-03

Family

ID=43126651

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/003167 WO2010134757A2 (ko) 2009-05-19 2010-05-19 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치

Country Status (6)

Country Link
US (2) US8805680B2 (ko)
EP (1) EP2434485A4 (ko)
JP (1) JP5730860B2 (ko)
KR (2) KR101924192B1 (ko)
CN (1) CN102460574A (ko)
WO (1) WO2010134757A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014531623A (ja) * 2011-09-28 2014-11-27 エルジー エレクトロニクス インコーポレイティド 音声信号符号化方法及び音声信号復号方法、並びにそれを利用する装置
JP2018018100A (ja) * 2012-11-05 2018-02-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置及び音声音響符号化方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101764633B1 (ko) 2010-01-15 2017-08-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20130268265A1 (en) * 2010-07-01 2013-10-10 Gyuhyeok Jeong Method and device for processing audio signal
PL3624119T3 (pl) * 2011-10-28 2022-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodujące i sposób kodowania
JP2018110362A (ja) * 2017-01-06 2018-07-12 ローム株式会社 オーディオ信号処理回路、それを用いた車載オーディオシステム、オーディオコンポーネント装置、電子機器、オーディオ信号処理方法
JP6410890B2 (ja) * 2017-07-04 2018-10-24 Kddi株式会社 音声合成装置、音声合成方法および音声合成プログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3685823B2 (ja) * 1993-09-28 2005-08-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
US5812737A (en) * 1995-01-09 1998-09-22 The Board Of Trustees Of The Leland Stanford Junior University Harmonic and frequency-locked loop pitch tracker and sound separation system
CN1274153C (zh) * 2001-04-18 2006-09-06 皇家菲利浦电子有限公司 部分加密的声频编码
JP4296753B2 (ja) 2002-05-20 2009-07-15 ソニー株式会社 音響信号符号化方法及び装置、音響信号復号方法及び装置、並びにプログラム及び記録媒体
WO2005024783A1 (en) * 2003-09-05 2005-03-17 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
WO2005055204A1 (en) * 2003-12-01 2005-06-16 Koninklijke Philips Electronics N.V. Audio coding
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
ATE378676T1 (de) * 2004-06-08 2007-11-15 Koninkl Philips Electronics Nv Audiokodierung
US7937271B2 (en) * 2004-09-17 2011-05-03 Digital Rise Technology Co., Ltd. Audio decoding using variable-length codebook application ranges
US7336723B2 (en) * 2004-11-08 2008-02-26 Photron Research And Development Pte Ltd. Systems and methods for high-efficiency transmission of information through narrowband channels
WO2006107838A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for highband time warping
KR100789368B1 (ko) 2005-05-30 2007-12-28 한국전자통신연구원 잔차 신호 부호화 및 복호화 장치와 그 방법
US7599833B2 (en) 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
BRPI0520729B1 (pt) * 2005-11-04 2019-04-02 Nokia Technologies Oy Método para a codificação e decodificação de sinais de áudio, codificador para codificação e decodificador para decodificar sinais de áudio e sistema para compressão de áudio digital.
US7697650B2 (en) * 2006-03-24 2010-04-13 Zoran Corporation Method and apparatus for high resolution measurement of signal timing
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US8214200B2 (en) * 2007-03-14 2012-07-03 Xfrm, Inc. Fast MDCT (modified discrete cosine transform) approximation of a windowed sinusoid
KR20080086762A (ko) * 2007-03-23 2008-09-26 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
EP1986466B1 (en) * 2007-04-25 2018-08-08 Harman Becker Automotive Systems GmbH Sound tuning method and apparatus
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101238239B1 (ko) * 2007-11-06 2013-03-04 노키아 코포레이션 인코더
WO2010093224A2 (ko) * 2009-02-16 2010-08-19 한국전자통신연구원 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
US8743864B2 (en) * 2009-06-16 2014-06-03 Qualcomm Incorporated System and method for supporting higher-layer protocol messaging in an in-band modem
US8855100B2 (en) * 2009-06-16 2014-10-07 Qualcomm Incorporated System and method for supporting higher-layer protocol messaging in an in-band modem
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014531623A (ja) * 2011-09-28 2014-11-27 エルジー エレクトロニクス インコーポレイティド 音声信号符号化方法及び音声信号復号方法、並びにそれを利用する装置
US9472199B2 (en) 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same
JP2018018100A (ja) * 2012-11-05 2018-02-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置及び音声音響符号化方法

Also Published As

Publication number Publication date
US20120095754A1 (en) 2012-04-19
KR102105305B1 (ko) 2020-04-29
JP2012527637A (ja) 2012-11-08
US8805680B2 (en) 2014-08-12
KR20180131518A (ko) 2018-12-10
KR20100124678A (ko) 2010-11-29
US20140324417A1 (en) 2014-10-30
EP2434485A2 (en) 2012-03-28
CN102460574A (zh) 2012-05-16
WO2010134757A3 (ko) 2011-03-03
JP5730860B2 (ja) 2015-06-10
EP2434485A4 (en) 2014-03-05
KR101924192B1 (ko) 2018-11-30

Similar Documents

Publication Publication Date Title
WO2010093224A2 (ko) 적응적 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
WO2010134757A2 (ko) 계층형 정현파 펄스 코딩을 이용한 오디오 신호의 인코딩 및 디코딩 방법 및 장치
RU2667382C2 (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
US6704705B1 (en) Perceptual audio coding
CA2185746C (en) Perceptual noise masking measure based on synthesis filter frequency response
US8775169B2 (en) Adding second enhancement layer to CELP based core layer
KR101143724B1 (ko) 부호화 장치 및 부호화 방법, 및 부호화 장치를 구비한 통신 단말 장치 및 기지국 장치
WO2012053798A2 (en) Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
JP3513292B2 (ja) 雑音荷重フィルタリング方法
WO2010008176A1 (ko) 음성/음악 통합 신호의 부호화/복호화 장치
WO2013002623A4 (ko) 대역폭 확장신호 생성장치 및 방법
KR20090122142A (ko) 오디오 신호 처리 방법 및 장치
KR20100086033A (ko) 인코더
WO2010008179A1 (ko) 음성/음악 통합 신호의 부호화/복호화 방법 및 장치
WO2015108358A1 (ko) 선형 예측 부호화 계수를 양자화하기 위한 가중치 함수 결정 장치 및 방법
Ramprashad A two stage hybrid embedded speech/audio coding structure
KR20020012509A (ko) 입력 신호의 보코딩 장치 및 방법
WO2011122875A2 (ko) 부호화 방법 및 장치, 그리고 복호화 방법 및 장치
JP2006171751A (ja) 音声符号化装置及び方法
EP1343146A2 (en) Audio signal processing based on a perceptual model
WO2015037969A1 (ko) 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
JP4359949B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4281131B2 (ja) 信号符号化装置及び方法、並びに信号復号装置及び方法
Ramprashad Embedded coding using a mixed speech and audio coding paradigm
Chazan et al. Low bit rate speech compression for playback in speech recognition systems

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201080032331.3

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10777944

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2012511761

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13321297

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010777944

Country of ref document: EP